近年來,大型語言模型(LLMs)在各個領域的應用日益廣泛,從內容創作到編程輔助,再到搜索引擎優化,無不展現出其強大的能力。然而,在生物醫學研究中,這些模型的應用仍面臨著透明度、可重複性和定制化等方面的挑戰。
針對這一問題,海德堡大學與歐洲生物信息研究所(EMBL-EBI)聯合提出了一個開源Python 框架——BioChatter,旨在幫助生物醫學研究人員更輕鬆地使用LLMs。
BioChatter 的設計理念是簡化技術複雜性,讓研究人員能夠專注於他們的研究,而不必擔心編程或機器學習的專業技能。通過該框架,研究人員可以從生物醫學數據庫和文獻中提取相關數據,並與外部生物信息學工具實現實時信息訪問。這一切得益於BioChatter 與BioCypher 知識圖譜的無縫集成,後者能夠鏈接諸如基因突變和藥物- 疾病關聯等重要數據,極大地支持複雜數據集的分析。
BioChatter 的核心功能包括:與各類大型語言模型的基本問答交互、可複現的提示工程、知識圖譜的查詢、檢索增強生成、模型鍊式調用等。更為人性化的是,BioChatter 提供了直觀的API 接口,研究人員可以輕鬆將其功能集成到Web 應用、命令行界面或Jupyter 筆記本中。
在實驗評估中,研究團隊創建了定制化的基準測試,旨在更加準確地評估BioChatter 的性能。結果表明,使用BioChatter 的模型在生成正確查詢方面明顯優於未使用提示引擎的模型,這一發現為BioChatter 的實際應用提供了有力支持。
展望未來,BioChatter 團隊將繼續與Open Targets 等生命科學數據庫合作,旨在通過整合人類遺傳學和基因組學數據,幫助用戶更高效地識別和優先排序藥物靶點。此外,他們還在開發一個名為BioGather 的補充系統,旨在從基因組學、醫學筆記及圖像等其他臨床數據類型中提取信息,以解決個性化醫學和藥物開發中的複雜問題。
通過BioChatter,生物醫學研究領域的科學家們將能夠更高效地利用LLMs,從而推動科學研究的進步與創新。