DeepMind 新AI系统超越国际数学奥林匹克金牌选手，解题能力显著提升

作者: LoRA 時間: 2025年02月08日 550

近日，谷歌DeepMind 開發的一款AI 系統——AlphaGeometry2，成功超越了國際數學奧林匹克（IMO）金牌選手的平均水平，在幾何問題解答上表現優異。 AlphaGeometry2是DeepMind 在去年發布的AlphaGeometry 系統的升級版，研究團隊在最新的研究中指出，該系統能解決過去25年間IMO 的84% 幾何問題。

那麼，為什麼DeepMind 會關注這樣一個高中的數學競賽呢?研究人員認為，解決複雜幾何問題的新方法可能是提升AI 能力的關鍵，尤其是在歐幾里得幾何方面。證明數學定理需要推理能力和選擇合適解決步驟的能力，DeepMind 相信這些問題解決能力可能對未來通用AI 模型的發展至關重要。

LLM 羊駝數學大模型

今年夏天，DeepMind 還展示了一種結合了AlphaGeometry2與AlphaProof（一個用於正式數學推理的AI 模型）的系統，這個系統在2024年IMO 的預選賽中解決了六道題中的四道。除了幾何問題，這種方法還可能擴展到數學和科學的其他領域，甚至能夠幫助處理複雜的工程計算。

AlphaGeometry2的核心包括來自谷歌Gemini 家族的語言模型和一個“符號引擎”。 Gemini 模型幫助符號引擎利用數學規則推導出問題的解決方案。其工作流程是:Gemini 模型預測哪些構造（如點、線、圓）可能對解題有幫助，然後符號引擎根據這些構造進行邏輯推理。經過一系列複雜的搜索，AlphaGeometry2能夠將Gemini 模型的建議與已知原則結合，從而得出證明。

儘管AlphaGeometry2在解決IMO 的50道問題中成功解答了42道，超越了金牌選手的平均得分，但仍有一些局限性，比如無法解決變量數量不定的點、非線性方程和不等式。此外，在一些更難的題目上，AlphaGeometry2的表現並不理想，僅解決了29道題中20道。

這項研究再次引發了關於AI 系統究竟應該基於符號操作還是更類腦的神經網絡的討論。 AlphaGeometry2採用的是一種混合方法，結合了神經網絡和基於規則的符號引擎。 DeepMind 的團隊指出，雖然大型語言模型可能在沒有外部工具的情況下生成部分解決方案，但在當前情況下，符號引擎仍然是數學應用中的重要工具。