Step Reasoner mini (簡稱Step R-mini) 是階躍星辰(Leap Star) 推出的首款推理模型。它採用獨特的「慢思考」 和反覆驗證的邏輯機制,旨在提供準確可靠的回复,並能有效解決邏輯推理、代碼、數學等複雜問題,同時兼顧文學創作等通用領域,展現了強大的“文理兼修” 能力。
核心特點:
強大的推理能力: 擅長主動規劃、嘗試和反思,透過邏輯推理解決複雜問題,包括數學題(甚至奧數題)、幾何題(能主動繪製草圖)、邏輯推理題和LeetCode “Hard” 級別的程式設計題。
文理兼修: 不同於許多只擅長單一領域的推理模型,Step R-mini 透過大量的強化學習訓練,使其在文學創作、日常聊天和翻譯等任務中也表現出色,能夠理解用戶意圖並進行創造性表達。
優異的基準測試表現: 在AIME 和Math 等數學基準測試中,Step R-mini 的表現優於o1-preview,與OpenAI 的o1-mini 不相上下;在LiveCodeBench 程式設計任務中也優於o1-preview。
強化學習訓練: 採用On-Policy 強化學習演算法進行訓練,提升模型的綜合能力。
未來的視覺推理能力: 階梯星辰正在發展視覺推理模型,將推理能力擴展到視覺領域,實現「空間慢思考(Spatial-Slow-Thinking)」。
應用場景:
數學解題: 能夠建構推理鏈、列舉解決方案、繪製草圖。
邏輯推理: 能夠自主探索解題思路和自我反問。
程式設計: 能夠理解使用者需求並建構程式碼邏輯,解決複雜的開發需求。
內容創作: 能夠瞭解使用者表達需求,進行創意表達。
翻譯: 能夠進行精準、內涵豐富的翻譯。
如何體驗:
使用者可登入躍問網頁端