中文(新加坡)

中文(新加坡) English

目前位置: 首頁> AI 資訊

Sakana AI 的Transformer² 模型突破LLM 限制，實現動態推理

作者: LoRA 時間: 2025年01月24日 736

Sakana AI 是一家專注於自然啟發演算法的人工智慧研究實驗室，近日推出了名為Transformer² （Transformer-squared）的創新自適應語言模式。該模型無需昂貴的微調，即可在推理過程中動態學習並適應新任務，這標誌著大型語言模型(LLM) 技術發展的重要一步。

Transformer² 的核心創新在於其獨特的兩步驟動態權重調整機制。首先，它分析傳入的使用者請求，理解任務需求;然後，透過數學技巧，利用奇異值分解（SVD）將模型權重與任務需求對齊。透過選擇性地調整模型權重的關鍵組件，Transformer² 能夠即時優化效能，而無需耗時的重新訓練。這與傳統的微調方法形成鮮明對比，後者需要在訓練後保持參數靜態，或採用低秩自適應(LoRA) 等方法，僅修改一小部分參數。

Transformer 平方訓練與推理（資料來源:arXiv）

為了實現動態調整，研究人員採用了奇異值微調（SVF）的方法。在訓練時，SVF 從模型的SVD 元件中學習一組被稱為z 向量的技能表示。在推理時，Transformer² 透過分析提示來確定所需技能，然後配置相應的z 向量，從而實現為每個提示量身定制的回應。

測驗結果顯示，Transformer² 在數學、編碼、推理和視覺問答等各種任務中均優於LoRA 模型，且參數較少。更令人矚目的是，該模型還具有知識遷移能力，即從一個模型學習到的z 向量可以應用到另一個模型，從而顯示了廣泛應用的潛力。

Transformer-squared（表中的SVF）與基礎模型與LoRA 的比較(來源:arXiv)

Sakana AI 在其GitHub 頁面上發布了Transformer² 元件的訓練程式碼，為其他研究人員和開發人員打開了大門。

隨著企業不斷探索LLM 的應用，推理時客製化技術正逐漸成為主流趨勢。 Transformer² 與Google 的Titans 等其他技術一道，正在改變LLM 的應用方式，使用戶能夠根據其特定需求動態調整模型，而無需重新訓練。這種技術的進步將使LLM 在更廣泛的領域內更加有用和實用。

Sakana AI 的研究人員表示，Transformer² 代表了靜態人工智慧與生命智慧之間的橋樑，為高效、個人化和完全整合的人工智慧工具奠定了基礎。

常見問題

AI課程適合哪些人群？

AI課程適合對人工智能技術感興趣的人，包括但不限於學生、工程師、數據科學家、開發者以及AI技術的專業人士。

AI課程的學習難度如何？

課程內容從基礎到高級不等，初學者可以選擇基礎課程，逐步深入到更複雜的算法和應用。

學習AI需要哪些基礎？

學習AI需要一定的數學基礎（如線性代數、概率論、微積分等），以及編程知識（Python是最常用的編程語言）。

AI課程能學到什麼？

將學習自然語言處理、計算機視覺、數據分析等領域的核心概念和技術，掌握使用AI工具和框架進行實際開發。

AI課程學完後能做什麼工作？

您可以從事數據科學家、機器學習工程師、AI研究員、或者在各行各業應用AI技術進行創新。

最新文章

gemini

最新文章