中文(繁體)

中文(繁體) English

目前位置: 首頁> AI 資訊

微軟開源多模態AI Agent Magma：重塑購物與機器人交互體驗

作者: LoRA 時間: 2025年02月26日 828

微軟在其官網上正式發布了多模態AI Agent 基礎模型“Magma”，並進行了開源。這一新興技術相較於傳統的智能助手，展現出了更為強大的多模態能力，能夠處理圖像、視頻、文本等多種數據形式，打破了數字與物理世界之間的壁壘。

Magma 不僅可以幫助用戶在電商平台上自動下單，查詢天氣等日常事務，還能與實體機器人協作，執行更複雜的操作。比如，在下真實象棋時，Magma 能夠為用戶提供實時的策略建議，大大增強了遊戲體驗。同時，它具備心理預測功能，能夠推測視頻中的人物或物體的未來行為，讓虛擬助手或機器人更好地理解周圍的動態環境並做出相應反應。

根據官方介紹，Magma 的應用場景非常廣泛。它不僅能幫助家用機器人學習如何整理那些它從未見過的物品，還能為虛擬助手生成不熟悉任務的逐步用戶界面導航說明。這樣的功能，使得用戶在面對新環境或新任務時，能得到更為精準的幫助和指引。

Magma 是屬於視覺語言動作（VLA）基礎模型的一部分，能夠通過海量公開視覺和語言數據進行學習。這一能力使得Magma 能有效融合語言、空間和時間智能，為用戶在數字與物理世界中的複雜任務提供解決方案。

Magma 的開源為開發者和研究人員提供了一個強大的工具，促進了智能助手和家用機器人的進一步發展。未來，隨著這一技術的不斷完善，我們或許能夠在日常生活中看到更多基於Magma 的創新應用。

項目地址：https://microsoft.github.io/Magma/

相关阅读

gemini

最新文章