中文(繁體)

目前位置: 首頁> AI 資訊

DeepGEMM開源發布:FP8 GEMM庫助力AI訓練與推理

作者: LoRA 時間: 2025年02月26日 473

中國人工智能公司DeepSeek在其“開源週”第3天宣布推出DeepGEMM——一款支持FP8通用矩陣乘法(GEMM)的開源庫。這一工具專為密集型和混合專家(MoE)矩陣運算設計,為DeepSeek V3和R1模型的訓練與推理提供強大支持。官方消息通過X平台發布,迅速引發技術社區的熱烈反響。

image.png

據DeepSeek官方賬號發布的帖子,DeepGEMM在NVIDIA Hopper GPU上可實現高達1350+ TFLOPS的FP8計算性能。其核心邏輯僅約300行代碼,卻能在大多數矩陣尺寸上超越專家調優的內核,展現了極高的效率和簡潔性。該庫無需複雜依賴,採用即時編譯(Just-In-Time)技術,支持密集佈局和兩種MoE佈局,設計上“像教程一樣乾淨”,便於開發者學習和使用。

X用戶@TechBitDaily評論稱:“DeepGEMM的發布是DeepSeek開源週的一大亮點,其FP8性能和簡潔設計令人印象深刻。”另一位用戶@AIObserverCN指出,該庫在支持MoE模型的高效訓練方面具有顯著優勢,可能推動AI社區在Hopper架構上的進一步創新。

作為開源週的一部分,DeepGEMM的發布延續了DeepSeek推動AI技術透明化和社區協作的承諾。此前,該公司已在首兩天發布了FlashMLA和DeepEP工具,分別聚焦於快速語言模型架構和專家並行通信。此次DeepGEMM的亮相,進一步展示了其在AI基礎設施建設上的技術實力。業內人士認為,這款庫不僅將提升DeepSeek自家模型的性能,也為全球開發者提供了一個高效、易用的矩陣運算工具,未來應用前景可期。用戶現可通過GitHub獲取DeepGEMM,探索其在AI訓練與推理中的潛力。

項目地址:https://github.com/deepseek-ai/DeepGEMM