階躍星辰自研推理模型Step Reasoner mini上線

作者: LoRA 時間: 2025年01月16日 661

2025年1月16日，上海階躍星辰智慧科技股份有限公司宣布其自研推理模型Step Reasoner mini（簡稱「Step R-mini」）正式上線。使用者可登入躍問網頁端https://yuewen.cn，在左上角選擇「Step R-mini」進行體驗。

Step R-mini是Step系列模型家族的首個推理模型，擅長主動規劃、嘗試和反思，透過慢思考和反覆驗證的邏輯機制，為使用者提供準確可靠的回應。它不僅能夠透過超長推理能力解決邏輯推理、程式碼和數學等複雜問題，還能兼顧文學創作等通用領域。

階躍星辰自研的Step系列基座模型矩陣已涵蓋語言、多模態到推理的全面能力。在AIME和Math等數學基準測試上，Step R-mini的成績超過了o1-preview，比肩OpenAI o1-mini。在LiveCodeBench程式碼任務上，也比o1-preview效果更佳。值得一提的是，大部分的推理模型難以兼顧文理科雙向能力，但Step R-mini透過大規模強化學習訓練，並使用On-Policy（同策略）強化學習演算法，實現了「文理兼修”，既能準確解答數學、程式碼、邏輯推理問題，又能富有創意地完成文學內容創作和日常聊天的任務。

微信截圖_20250116133149.png

在實際應用中，Step R-mini展現了優異的效果。在解答數學題時，面對奧數難題，它能建構合理推理鏈，實現複雜數學問題的規劃與逐步求解，並列舉不同解法方案交叉驗證。在處理幾何題目時，能主動透過畫草圖建構深度思考的內容介質。在邏輯推理任務中，自主嘗試多種解題思路，自我反問確保列舉所有良好解決方案。在程式碼題方面，能正確解答LeetCode技術平台上難度評級為「Hard」的演算法題，還能處理複雜開發需求，逐步分析使用者需求與意圖，建構程式碼邏輯。在內容創作上，能深入理解使用者表達需求，分析創作主題、文學題材等要求，思考創作角度、描繪景物、修辭手法、內容結構，賦予事物人類情感層面的象徵意義，並增加個人化、創新的表達風格。在翻譯問題上，遵循「信達雅」原則，力求呈現精準且意義豐富的翻譯結果。

除了語言推理模型，階躍星辰也正在打造視覺推理模型，將推理能力融入更多互動形態的大模型中。針對複雜視覺場景下的Reasoning問題，引入慢感知和空間推理思想，把Test-Time Scaling從文本空間轉移到視覺空間，實現在視覺空間下的Spatial-Slow-Thinking。目前，視覺推理模型已取得階段性成果，正式版本預計今年與大家會面。

常見問題