谷歌利用小模型加速AI 訓練大模型，提升28% 效率

作者: LoRA 時間: 2025年01月08日 988

近年來，訓練大型語言模型（LLM）變得越來越昂貴且複雜，只有少數大型科技公司具備相應的運算資源。不過，Google最近推出了一種名為SALT(小模型輔助大模型訓練)的新方法，這項創新可能會徹底改變AI 訓練的格局。

機器人人工智慧 AI (4)

根據Google研究和DeepMind 的最新研究論文，“一點幫助就能走得更遠:通過利用小型語言模型實現高效的LLM 訓練”，SALT 引入了一種新的兩階段訓練過程。這種方法不僅高效，而且更具實用性，改變了我們以往的訓練方式。

SALT 的第一階段是知識蒸餾。在這一階段中，小型語言模型（SLM）充當教師，將其理解知識傳遞給更大的模型。小型模型透過「軟標籤」來分享其學到的知識，幫助大型模型在學習的初期掌握基礎概念。這個階段尤其適用於小型模型在學習區域具有較強預測信心的「簡單」任務。

第二階段是自我監督學習。大型模型在這一階段開始獨立學習，專注於掌握更複雜的模式和挑戰性任務。這個轉變需要精心設計的策略，包括線性衰減和線性比例衰減，這確保了大型模型能夠平穩過渡，並逐步減少對小型模型的依賴。

谷歌研究人員在實驗中發現，使用15億參數的小型模型訓練一個28億參數的大型模型，在「堆疊資料集」上的訓練時間縮短了28%。在微調後，大型模型在數學問題的準確率從31.84% 提升至34.87%，閱讀理解的準確率也從63.7% 提升到67%。這種新方法不僅提升了訓練效率，在表現上也取得了顯著進步。

SALT 的出現有望降低AI 開發的門檻，使得許多原本受限於資源的小型研究機構和公司也能參與AI 模型的開發。研究和開發的機會將更加普及，可能會催生出更多獨特和專業化的AI 解決方案，帶動相關領域的創新與應用。

常見問題

AI課程適合對人工智能技術感興趣的人，包括但不限於學生、工程師、數據科學家、開發者以及AI技術的專業人士。

課程內容從基礎到高級不等，初學者可以選擇基礎課程，逐步深入到更複雜的算法和應用。

學習AI需要一定的數學基礎（如線性代數、概率論、微積分等），以及編程知識（Python是最常用的編程語言）。

將學習自然語言處理、計算機視覺、數據分析等領域的核心概念和技術，掌握使用AI工具和框架進行實際開發。

您可以從事數據科學家、機器學習工程師、AI研究員、或者在各行各業應用AI技術進行創新。