Google DeepMind發布DolphinGemma模型
1046
微軟在其官網上正式發布了多模態AI Agent 基礎模型“Magma”,並進行了開源。這一新興技術相較於傳統的智能助手,展現出了更為強大的多模態能力,能夠處理圖像、視頻、文本等多種數據形式,打破了數字與物理世界之間的壁壘。
Magma 不僅可以幫助用戶在電商平台上自動下單,查詢天氣等日常事務,還能與實體機器人協作,執行更複雜的操作。比如,在下真實象棋時,Magma 能夠為用戶提供實時的策略建議,大大增強了遊戲體驗。同時,它具備心理預測功能,能夠推測視頻中的人物或物體的未來行為,讓虛擬助手或機器人更好地理解周圍的動態環境並做出相應反應。
根據官方介紹,Magma 的應用場景非常廣泛。它不僅能幫助家用機器人學習如何整理那些它從未見過的物品,還能為虛擬助手生成不熟悉任務的逐步用戶界面導航說明。這樣的功能,使得用戶在面對新環境或新任務時,能得到更為精準的幫助和指引。
Magma 是屬於視覺語言動作(VLA)基礎模型的一部分,能夠通過海量公開視覺和語言數據進行學習。這一能力使得Magma 能有效融合語言、空間和時間智能,為用戶在數字與物理世界中的複雜任務提供解決方案。
Magma 的開源為開發者和研究人員提供了一個強大的工具,促進了智能助手和家用機器人的進一步發展。未來,隨著這一技術的不斷完善,我們或許能夠在日常生活中看到更多基於Magma 的創新應用。
項目地址:https://microsoft.github.io/Magma/