隨著企業越來越多地應用大型語言模型(LLMs),如何提升模型的知識準確性並減少幻覺現象,成為了一項重要挑戰。 Meta AI 的研究人員在一篇新論文中提出了“可擴展記憶層”,或許能夠為此問題提供解決方案。
可擴展記憶層的核心思想是在不增加推理時計算資源的情況下,在LLMs 中添加更多參數,從而提升其學習能力。這種架構適用於需要儲存大量事實知識但又希望保持推理速度的應用場景。
傳統的語言模型使用「密集層」 來編碼大量資訊。在密集層中,所有參數在推理時幾乎都是同時啟動的,能夠學習複雜的函數,但這需要額外的計算和能量資源。而對於簡單的事實知識,使用具有關聯記憶架構的簡單層會更有效率且易於理解,這就是記憶層的作用。記憶層透過簡單的稀疏活化和鍵值查找機制來編碼和檢索知識。儘管稀疏層在記憶體佔用上高於密集層,但同時僅使用少量參數,從而提高了計算效率。
雖然記憶層已經存在多年,但在現代深度學習架構中卻鮮有應用,主要是因為它們並未針對目前硬體加速器進行最佳化。目前前緣的LLMs 通常採用某種形式的「專家混合」 架構,這與記憶層有相似之處。專家混合模型由多個專門化的小型專家組件構成,透過路由機制在推理時啟動特定的專家。
為了克服記憶層在計算上輕但內存佔用大的挑戰,Meta 的研究人員提出了若干改進措施,使其能夠在大規模應用中實現可行性。他們為記憶層配置了並行化,能夠在多個GPU 上儲存數百萬個鍵值對,同時不會減慢模型的運行速度。此外,他們還為處理高記憶體頻寬操作開發了特定的CUDA 內核,並實現了參數共享機制,允許多個記憶層共享一組記憶體參數。
透過Llama 模型的修改,將一個或多個密集層替換為共享記憶層,研究人員對記憶增強模型進行了測試。他們的研究發現,記憶模型在多個任務中表現優異,特別是在需要事實知識的任務上,表現明顯超過密集基線,甚至能與使用2到4倍計算資源的模型競爭。
論文入口:https://arxiv.org/abs/2412.09764
AI課程適合對人工智能技術感興趣的人,包括但不限於學生、工程師、數據科學家、開發者以及AI技術的專業人士。
課程內容從基礎到高級不等,初學者可以選擇基礎課程,逐步深入到更複雜的算法和應用。
學習AI需要一定的數學基礎(如線性代數、概率論、微積分等),以及編程知識(Python是最常用的編程語言)。
將學習自然語言處理、計算機視覺、數據分析等領域的核心概念和技術,掌握使用AI工具和框架進行實際開發。
您可以從事數據科學家、機器學習工程師、AI研究員、或者在各行各業應用AI技術進行創新。