近年來,訓練大型語言模型(LLM)變得越來越昂貴且複雜,只有少數大型科技公司具備相應的運算資源。不過,Google最近推出了一種名為SALT(小模型輔助大模型訓練)的新方法,這項創新可能會徹底改變AI 訓練的格局。
根據Google研究和DeepMind 的最新研究論文,“一點幫助就能走得更遠:通過利用小型語言模型實現高效的LLM 訓練”,SALT 引入了一種新的兩階段訓練過程。這種方法不僅高效,而且更具實用性,改變了我們以往的訓練方式。
SALT 的第一階段是知識蒸餾。在這一階段中,小型語言模型(SLM)充當教師,將其理解知識傳遞給更大的模型。小型模型透過「軟標籤」 來分享其學到的知識,幫助大型模型在學習的初期掌握基礎概念。這個階段尤其適用於小型模型在學習區域具有較強預測信心的「簡單」 任務。
第二階段是自我監督學習。大型模型在這一階段開始獨立學習,專注於掌握更複雜的模式和挑戰性任務。這個轉變需要精心設計的策略,包括線性衰減和線性比例衰減,這確保了大型模型能夠平穩過渡,並逐步減少對小型模型的依賴。
谷歌研究人員在實驗中發現,使用15億參數的小型模型訓練一個28億參數的大型模型,在「堆疊資料集」 上的訓練時間縮短了28%。在微調後,大型模型在數學問題的準確率從31.84% 提升至34.87%,閱讀理解的準確率也從63.7% 提升到67%。這種新方法不僅提升了訓練效率,在表現上也取得了顯著進步。
SALT 的出現有望降低AI 開發的門檻,使得許多原本受限於資源的小型研究機構和公司也能參與AI 模型的開發。研究和開發的機會將更加普及,可能會催生出更多獨特和專業化的AI 解決方案,帶動相關領域的創新與應用。
AI課程適合對人工智能技術感興趣的人,包括但不限於學生、工程師、數據科學家、開發者以及AI技術的專業人士。
課程內容從基礎到高級不等,初學者可以選擇基礎課程,逐步深入到更複雜的算法和應用。
學習AI需要一定的數學基礎(如線性代數、概率論、微積分等),以及編程知識(Python是最常用的編程語言)。
將學習自然語言處理、計算機視覺、數據分析等領域的核心概念和技術,掌握使用AI工具和框架進行實際開發。
您可以從事數據科學家、機器學習工程師、AI研究員、或者在各行各業應用AI技術進行創新。