中文(繁體)

目前位置: 首頁> AI 資訊

DeepSeek推出NSA機制,刷新長文本AI處理效率

作者: LoRA 時間: 2025年02月19日 1069

173994364255722_P31518235.jpg

DeepSeek團隊在馬斯克發布Grok 3後,迅速在X平台上推出了一項重要的研究,引起了廣泛關注。研究的亮點是提出了一種新的焦點機制——原生稀疏注意力(NSA),旨在提升長文本處理的效率。 NSA的主要創新包括動態分層稀疏策略、粗粒度和細粒度令牌處理以及與硬件的優化。

NSA的傳統注意力機制在處理長序列時的計算困境,通過睡眠注意力減少不必要的計算,適用於訓練和推理階段。架構由壓縮、選擇和滑動窗口注意力組成,確保在解決全局和局部信息處理之間達到平衡。實驗結果顯示,NSA在多個基準測試中表現出色,特別是在長文本任務上顯著提高了模型的搜索推理和推理能力,同時大幅提高了高等教育的計算能力。