日前,Arc Institute 與NVIDIA 合作,聯合斯坦福大學、加州大學伯克利分校和加州大學舊金山分校的研究人員,共同推出了全球最大的生物學人工智能模型——Evo2。該模型以超過128,000個基因組的數據為基礎,訓練了9.3萬億個核苷酸,使其規模與最強大的生成性AI 語言模型相媲美。
Evo2的深度學習能力使其能夠快速識別不同生物體基因序列中的模式,研究人員無需耗費數年時間。該模型能夠準確識別引起人類疾病的突變,並有能力設計出與簡單細菌基因組長度相當的新基因組。 Evo2的開發團隊表示,將於2025年2月19日發布該模型的詳細信息,並推出名為Evo Designer 的用戶友好界面。 Evo2的代碼已在Arc 的GitHub 上公開,並已集成至NVIDIA 的BioNeMo 框架,以促進科學研究的進展。
相較於前代模型Evo1,Evo2不僅擴大了數據范圍,涵蓋了細菌、古菌、病毒及人類、植物等真核生物的數據。研究人員表示,Evo2的開發標誌著生成生物學領域的一個重要時刻,它使機器能夠“讀、寫、思考” 核苷酸的語言。
在技術層面,Evo2在NVIDIA DGX Cloud AI 平台上訓練,使用了2000多塊NVIDIA H100GPU,模型能夠一次處理高達100萬個核苷酸的基因序列,從而理解基因組的遠程部分之間的關係。新的AI 架構“StripedHyena2” 使Evo2能夠處理比Evo1多30倍的數據。
Evo2的應用前景廣泛,例如在分析與蛋白質功能和生物體適應性相關的遺傳變化方面表現出色。在乳腺癌相關基因BRCA1的變體測試中,Evo2預測突變的準確率超過90%。這些發現能夠大幅節省實驗室時間和資金,推動新藥的研發。
此外,Evo2還可以幫助設計新的生物工具或治療方案。例如,科學家可以設計針對特定細胞的基因療法,避免副作用。研究團隊認為,未來可以在Evo2的基礎上構建更具體的AI 模型,為基因組研究和生物工程提供更多可能性。
在倫理和安全風險方面,研究人員確保Evo2的數據集不包含對人類和其他復雜生物有害的病原體,以負責任地開發和部署這一技術。
Evo2詳細介紹:https://arcinstitute.org/news/blog/evo2