撰文:元宇宙之心

生物學前沿人工智能研究實驗室 EvolutionaryScale 近日宣佈獲得超 1.42 億美元種子輪融資,同時發佈里程碑式 AI 模型 ESM3。這家成立僅一年的公司在 AI 生命科學領域有着怎樣獨特的理念?全新的蛋白質大模型又有着怎樣的技術突破?

一週前,在 Meta 如火如荼地卷文生視頻賽道的時候,那個被它解散的蛋白質團隊 EvolutionaryScale 獲得了超 1.42 億美元的種子輪融資,這個融資額在整個生物技術領域都可以說是高得離譜。

去年八月,Meta 官宣旗下的蛋白質摺疊團隊 Meta-FAIR 解散。這個純粹的「科學 +AI」項目並不能讓 Meta 快速獲得收益,Meta 專注商業化 AI 的決定看似也是情理之中。

然而,這個不被看好的團隊竟用僅僅一年的時間就打了 Meta 的臉。他們最新推出的 ESM3 被認爲是生物學領域具有里程碑意義的生成式 AI 模型,爲生物學編程開創了新的可能性。

01. 1 分鐘項目速覽

1.項目名稱:EvolutionaryScale

2.成立時間:2023 年 7 月

3.產品簡介:

開發用於創造新型蛋白質和其他生物系統的大型語言模型——ESM,目前已迭代到 ESM-3。

4.創始人團隊:

  • 首席科學家:Alexander Rives (紐約大學計算機科學博士、前 Facebook AI 科學家)

  • Tom Sercu

  • Sal Candido

5.融資情況:

2024 年 6 月 25 日完成了高達 1.42 億美元的種子輪融資。本次融資由 Nat Friedman 和 Daniel Gross 以及 Lux Capital 領投,亞馬遜、NVentures(英偉達的風險投資部門)和天使投資人蔘投。

02.團隊協同一致的理念追求

人工智能的進步爲生物科學研究創造了前所未有的機會,包括設計功能性生物分子,尤其是蛋白質。將人工智能運用於蛋白質設計,不僅可以提升蛋白質設計的效率及成功率,還通過快速應對傳染病爆發等方式,來幫助人類解決一些正在面臨的挑戰。

Alexander Rives 等人正是看到了蛋白質設計方面的缺口,決定開發基於深度學習的大模型,從而推動產業級蛋白質設計進入「全自動智能生成時代」。

於是,EvolutionaryScale 應運而生。它是一家專注於生物科學領域的前沿 AI 研究實驗室,致力於推出生物學前沿的語言大模型。

有意思的是,該公司創始團隊的八位成員全都來自於 Meta 的 FAIR(基礎人工智能研究)部門。儘管在世界級的社交媒介巨頭那裏吃了癟,但初始團隊的核心人員都沒有放棄,反而快速地投入新戰地,開始在原有團隊成果的基礎上開發下一代模型。

EvolutionaryScale 的大模型支持健康、環境科學等領域的研究與開發,不停探索生物學的擴展性,爲突破性的科學研究提供動力。其中最顯著的成果就是蛋白質摺疊技術的突破,ESM 模型揭示了數億個宏基因組蛋白質的結構,幫助世界各地的科學家來模擬和理解蛋白質。

EvolutionaryScale 旨在通過開放、安全的研究方式,來指導蛋白質設計領域的人工智能技術開發。

在此基礎上,該公司作爲簽署方,引領了超 160 位來自學術界、政府以及民間的全球利益相關者,共同發展這項技術,確保其安全可靠,從而達成造福人類健康和社會的願景。

正是由於懷着引領生物學界先進 AI 技術的責任感,Alexander Rives 和他的團隊從未停止腳步。

此前,EvolutionaryScale 曾發佈過大型語言模型 ESM1,這被認爲是第一個用於蛋白質的 transformer 語言模型,由 EvolutionaryScale 的創始團隊在 Meta 的 FAIR 部門工作期間所構建。作爲 ESM1 升級模型的 ESM2 擁有 1500 萬個參數,並且相較於舊模型 ESM1b(擁有 6.5 億個參數)表現更佳。

上週,EvolutionaryScale 發佈了最新的 ESM3 AI 模型,這是朝着生物學的未來所邁進的一大步。憑藉這種模型的能力,有可能會加速廣泛應用的發現,有利於創造有助於捕獲碳的蛋白質,從而開發出新的癌症治療方法。

03.AI 在生物學應用的先驅

ESM3 是一個生成式的 AI 模型,主要功能是生成新型蛋白質。該模型通過深度學習技術,使用大量的蛋白質數據進行訓練,從而學習蛋白質的序列、結構和功能之間的關係。

ESM3 的訓練使用了超過 1 萬億 teraflops 的計算能力,這是目前已知生物學領域中最大的計算規模。它在地球上自然多樣性的 27.8 億種蛋白質數據集上進行了訓練,使其能夠同時對蛋白質的序列、結構和功能進行推理。

ESM3 的主要工作流程可簡略爲以下四個步驟:

  • 數據收集與處理:EvolutionaryScale 首先會從各種來源收集大量的生物學數據,包括基因序列、蛋白質結構、功能註釋等。這些數據會經過清洗、標準化和格式化處理,以便於後續的分析和應用。

  • 模型訓練:使用深度學習算法和大量的計算資源,EvolutionaryScale 會對處理後的數據進行訓練,構建出能夠理解和預測生物學規律的大型語言模型。這些模型不僅具有高度的準確性,還能夠處理複雜的生物學問題。

  • 生成新蛋白質:通過交互式提示,ESM3 能夠生成新的蛋白質,這些蛋白質可能在自然界中需要數億年才能進化出來。

  • 科學驗證:生成的新型蛋白質將通過科學實驗進行驗證,以確定其功能和潛在應用。

目前,ESM3 最引人注目的使用案例之一是生成了一種新的綠色熒光蛋白(GFP)。

GFP 是自然界中最美麗和獨特的蛋白質之一,負責水母的發光和珊瑚的鮮豔熒光色。ESM3 通過一系列思考過程,跨越了 5 億年的進化,創造了這種新的熒光蛋白。這一過程在自然進化中可能需要超過 5 億年,而 ESM3 通過計算方法實現了這一飛躍。

ESM3 的發佈也爲藥物發現和合成生物學領域帶來了革命性的變化。

在藥物發現方面,ESM3 能夠生成具有特定生物活性的新型蛋白質,爲藥物篩選和優化提供了更多的候選分子。同時,ESM3 還能夠預測和優化藥物與靶點的相互作用機制,爲藥物的設計和開發提供更加科學的依據。

在合成生物學方面,ESM3 能夠生成具有特定功能的生物系統,爲生物製造和生物能源等領域提供了新的解決方案。例如,ESM3 可以生成出將二氧化碳高效轉化爲有機物的酶系統,爲碳捕獲和利用提供了新的途徑。

EvolutionaryScale 的 ESM3 模型代表了 AI 在生物學領域的新里程碑。通過其強大的生成能力和與行業領導者的合作,ESM3 有望加速新型蛋白質的發現和生物系統的設計,爲未來的藥物開發、材料科學和環境科學等領域帶來革命性的影響。

04.生物學領域創新之旅

合成生物學:編程生命

合成生物學是 EvolutionaryScale 未來發展的一個重要方向。通過設計和合成新的基因電路和生物路徑等方式,科學家們可以創建具有特定功能的生物體。

  • 基因電路類似於電子電路,但它們在細胞中控制生物學過程。

基因電路能夠在細胞內實現對特定基因表達的精確控制。例如,可以設計一個基因電路,使其在細胞檢測到特定信號(如某種化學物質或環境變化)時啓動或關閉特定基因的表達。

  • 合成生物路徑涉及多種酶和代謝途徑的組合,用於生產有價值的化合物。

通過 AI 分析和設計,科學家可以創建新的代謝途徑,使生物體能夠合成天然條件下無法產生的化合物。例如,通過重新設計微生物的代謝路徑,微生物可以生產出醫藥中間體、生物燃料或工業化學品。

  • 細胞工廠是通過基因工程手段改造微生物,使其在工業條件下高效生產目標產品的生物系統。

通過 AI 輔助設計,科學家可以改造微生物的基因組,使其在特定條件下表現出優異的生產性能。例如,通過編輯酵母或細菌的基因,科學家可以使這些微生物高效生產抗生素、酶或其他生物製品。

若此項技術能繼續發展,不僅將推動科學研究的前沿發展,還能爲醫藥、環境保護和農業等領域帶來重要的應用前景。

數據驅動的個性化醫療

EvolutionaryScale 正通過 AI 和大數據分析技術推動個性化醫療的進步,爲患者提供更加精準和高效的醫療服務。

個性化醫療是基於每個患者的獨特生物學信息和臨牀數據,量身定製最合適的治療方案。其中一個關鍵領域是基因組分析。通過對患者的基因組進行全面測序和分析,科學家可以識別出與疾病相關的基因變異。

EvolutionaryScale 利用 AI 技術,快速準確地解析大量基因組數據,從中發現潛在的疾病風險因素。

這種方法可以幫助醫生在疾病的早期階段做出診斷,並採取預防措施。例如,通過分析乳腺癌患者的 BRCA1 和 BRCA2 基因突變,可以預測其患病風險,從而進行早期篩查和干預。

如今,EvolutionaryScale 正站在生物學與人工智能融合的前沿,通過不斷創新和探索,致力於實現生物系統的編程和優化。後續或將實現更多技術性的突破,爲人類開創一個更加智能和健康的未來。