Google DeepMind發布DolphinGemma模型
1046
近日,微軟在其官網正式開源了一款名為“Magma” 的多模態AI Agent 基礎模型。這款新型人工智能具有跨越數字和物理世界的能力,能夠同時處理圖像、視頻、文本等多種數據類型。與傳統的AI 助手相比,Magma 的獨特之處在於其心理預測功能,使其能夠更加準確地理解視頻中人物或物體的意圖及未來行為。
Magma 的應用場景十分廣泛,用戶可以利用這款AI 進行自動下單購物、查詢天氣等日常操作。此外,它還能夠自動控制實體機器人,並在下象棋等活動中為用戶提供實時幫助。這種多模態能力使Magma 在不同環境中表現出色,能夠適應各種複雜任務。
根據官方介紹,Magma 特別適合用於AI 驅動的助手或機器人,幫助它們更好地理解周圍的環境並採取相應的行動。舉例來說,它可以指導家用機器人學習如何整理從未見過的物品,或者幫助虛擬助手為用戶生成逐步的操作指南。這種特性大大提高了機器人的學習能力和實用性。
Magma 模型是VLA(視覺語言動作)系列之一,通過學習海量的公開視覺和語言數據,能夠融合語言、空間和時間的智能,從而有效應對現實生活中的複雜任務與挑戰。隨著人工智能技術的發展,Magma 的推出標誌著智能助手和機器人技術又向前邁出了一大步。
項目鏈接:https://microsoft.github.io/Magma/