中文(繁體)

目前位置: 首頁> AI 資訊

無歸一化層Transformer:DyT技術突破深度學習新高度

作者: LoRA 時間: 2025年03月14日 167

在深度學習領域,歸一化層被視為現代神經網絡中不可或缺的組件之一。最近,一項由Meta FAIR 研究科學家劉壯主導的研究成果——“沒有歸一化層的Transformer” 引發了廣泛關注。這項研究不僅提出了一種名為動態tanh(Dynamic Tanh,DyT)的新技術,還展示了在不使用傳統歸一化層的情況下,Transformer 架構依然可以實現高效的訓練和推理。

雲計算 互聯網 元宇宙 (3)

歸一化層,尤其是層歸一化(Layer Normalization,LN),在過去的十年中對優化深度學習模型起到了至關重要的作用。 LN 層通過將輸入激活進行縮放和壓縮,從而加速模型的收斂速度。然而,研究者們發現,LN 層的廣泛使用並不是唯一的選擇。他們的研究始於觀察LN 層的行為,提出了一種新的替代方法DyT。這種元素級運算不僅能夠模擬LN 層的縮放和壓縮效果,而且省去了複雜的激活數據計算。

在實驗中,研究團隊用DyT 替換了多個Transformer 架構中的傳統歸一化層,結果顯示,使用DyT 的模型能夠穩定訓練並獲得更高的最終性能。更令人振奮的是,這種新方法通常不需要對原始架構進行超參數調整,降低了模型訓練的複雜度。

研究者們通過對三個不同Transformer 模型的前向傳播過程進行分析,發現早期的LN 層表現出線性關係,但在更深層次的LN 層中,輸入和輸出之間的關係卻呈現出與tanh 函數相似的S 型曲線。這種發現讓研究團隊感到驚訝,也為DyT 的有效性提供了有力的實證支持。

劉壯表示,這項工作幫助他深入理解了歸一化層的作用,並期待DyT 能夠為降低模型訓練和推理的成本帶來新的可能性。未來,DyT 有望成為效率導向的網絡設計中重要的候選方案,推動深度學習的進一步發展。