中文(繁體)

目前位置: 首頁> AI 資訊

DeepMind 新AI系统超越国际数学奥林匹克金牌选手,解题能力显著提升

作者: LoRA 時間: 2025年02月08日 550

近日,谷歌DeepMind 開發的一款AI 系統——AlphaGeometry2,成功超越了國際數學奧林匹克(IMO)金牌選手的平均水平,在幾何問題解答上表現優異。 AlphaGeometry2是DeepMind 在去年發布的AlphaGeometry 系統的升級版,研究團隊在最新的研究中指出,該系統能解決過去25年間IMO 的84% 幾何問題。

那麼,為什麼DeepMind 會關注這樣一個高中的數學競賽呢?研究人員認為,解決複雜幾何問題的新方法可能是提升AI 能力的關鍵,尤其是在歐幾里得幾何方面。證明數學定理需要推理能力和選擇合適解決步驟的能力,DeepMind 相信這些問題解決能力可能對未來通用AI 模型的發展至關重要。

LLM 羊駝 數學大模型

今年夏天,DeepMind 還展示了一種結合了AlphaGeometry2與AlphaProof(一個用於正式數學推理的AI 模型)的系統,這個系統在2024年IMO 的預選賽中解決了六道題中的四道。除了幾何問題,這種方法還可能擴展到數學和科學的其他領域,甚至能夠幫助處理複雜的工程計算。

AlphaGeometry2的核心包括來自谷歌Gemini 家族的語言模型和一個“符號引擎”。 Gemini 模型幫助符號引擎利用數學規則推導出問題的解決方案。其工作流程是:Gemini 模型預測哪些構造(如點、線、圓)可能對解題有幫助,然後符號引擎根據這些構造進行邏輯推理。經過一系列複雜的搜索,AlphaGeometry2能夠將Gemini 模型的建議與已知原則結合,從而得出證明。

儘管AlphaGeometry2在解決IMO 的50道問題中成功解答了42道,超越了金牌選手的平均得分,但仍有一些局限性,比如無法解決變量數量不定的點、非線性方程和不等式。此外,在一些更難的題目上,AlphaGeometry2的表現並不理想,僅解決了29道題中20道。

這項研究再次引發了關於AI 系統究竟應該基於符號操作還是更類腦的神經網絡的討論。 AlphaGeometry2採用的是一種混合方法,結合了神經網絡和基於規則的符號引擎。 DeepMind 的團隊指出,雖然大型語言模型可能在沒有外部工具的情況下生成部分解決方案,但在當前情況下,符號引擎仍然是數學應用中的重要工具。