開源推理AI模型Sky-T1橫空出世，訓練成本不到450 美元

作者: LoRA 時間: 2025年01月12日 524

加州大學柏克萊分校天空計算實驗室的研究團隊NovaSky於週五發布了Sky-T1-32B-Preview推理模型，這一模型在多個關鍵基準測試中表現優異，與OpenAI的o1早期版本相媲美，更令人矚目的是其極低的訓練成本。

Sky-T1-32B-Preview是第一個真正的開源推理模型，NovaSky團隊不僅發布了模型，還公開了用於訓練它的資料集及必要的訓練程式碼，這意味著該模型可從頭開始複製。根據團隊在部落格文章中所述，「Sky-T1-32B-Preview的訓練成本不到450美元，這表明可以經濟高效地複製高級推理能力。」在不久前，訓練同等性能的模型價格往往高達數百萬美元，而如今成本的大幅降低，主要得益於合成訓練資料或其他模型產生的訓練資料的應用。例如，人工智慧公司Writer最近發布的模型Palmyra X004幾乎完全基於合成資料進行訓練，開發成本僅70萬美元。

1_1693449769614_ai2023_Facial_AI_robots_a_lot_of_cash_on_the_conference_table_i_d531bb02-0ec5-4e0a-9f1c-a65fa11a4c51

推理模型與一般人工智慧模型不同，能夠有效進行自我事實查核，從而避免一些常見陷阱。不過，推理模型得出解決方案通常需要更長時間，從幾秒鐘到幾分鐘不等。但其在物理、科學和數學等領域的可靠性更高，這是其顯著優勢。

NovaSky團隊透露，他們借助阿里巴巴的QwQ-32B-Preview推理模型生成Sky-T1的初始訓練數據，之後對數據進行“整理”，並利用OpenAI的GPT-4o-mini將數據重構為更易用的格式。使用8個Nvidia H100GPU機架訓練320億參數的Sky-T1大約需要19個小時，參數數量大致對應模型解決問題的能力。

在性能測試方面，Sky-T1在MATH500（一組「競賽級」數學挑戰）上的表現優於o1的早期預覽版本，還在一組來自LiveCodeBench(一種編碼評估)的難題上擊敗了o1的預覽版本。然而，Sky-T1在GPQA-Diamond上的表現不如o1預覽版，後者包含博士畢業生應掌握的物理、生物和化學相關問題。此外，OpenAI的o1GA版本比預覽版更強大，且OpenAI預計在未來幾週發布效能更佳的推理模型o3。

儘管如此，NovaSky團隊表示，Sky-T1僅是他們開發具有高階推理能力的開源模型的起點。「展望未來，我們將專注於開發更有效率的模型，保持強大的推理性能，並探索先進技術，進一步提高模型在測試時的效率和準確性，」團隊在貼文中寫道，「請繼續關注我們在這些令人興奮的計劃上取得的進展。

常見問題