DeepSeek-V3-0324發布：免費商用，消費級電腦可運行

作者: LoRA 時間: 2025年03月25日 960

DeepSeek 最新發布的大型語言模型DeepSeek-V3-0324 在AI 行業內引發廣泛關注。這款容量高達641GB 的模型悄然出現在Hugging Face 上，延續了公司低調但極具影響力的發布風格。

早期測試者報告稱，新模型在各項指標上取得了巨大進步。 AI 研究員Xeophon 表示，DeepSeek V3 在其內部測試中“所有指標都有了巨大飛躍”，並稱其是“最好的非推理模型，取代了Sonnet3.5”。如果這一說法得到驗證，DeepSeek 的新模型將超越Anthropic 的商業AI 系統Claude Sonnet3.5。

與需要訂閱的Sonnet 不同，DeepSeek-V3-0324 的模型權重完全免費，且採用MIT 許可證，允許自由用於商業用途。這種開放的姿態與西方AI 公司通常將模型置於付費牆之後的做法形成鮮明對比。

DeepSeek V3-0324 採用了混合專家（MoE）架構，僅在特定任務中激活其6850 億參數中的約370 億個，大幅降低計算需求的同時，實現了與更大的完全激活模型相當的性能。此外，模型還融入了多頭潛在註意力（MLA）和多令牌預測（MTP）技術，將輸出速度提高了近80%。

開發者工具創建者Simon Willison 指出，4 位量化版本將存儲佔用減少到352GB，使得在高端消費級硬件（如配備M3Ultra 芯片的Mac Studio）上運行成為可能。 AI 研究員Awni Hannun 表示，DeepSeek-V3-0324 在配備mlx-lm 的512GB M3Ultra 上以>20 個tokens/秒的速度運行，功耗不到200 瓦。

早期用戶報告稱，新模型的溝通風格發生了明顯變化，呈現出更正式、更注重技術的風格。一些用戶認為新版本聽起來“不那麼像人類”，失去了以前版本“像人類一樣的語調”。這種轉變可能反映了DeepSeek 工程師的有意識設計選擇，旨在將模型重新定位為更專業的和技術性的應用。

DeepSeek 的發布策略體現了中國和西方公司在AI 商業理念上的根本差異。美國領導者如OpenAI 和Anthropic 將其模型置於付費牆之後，而中國AI 公司則越來越傾向於採用寬鬆的開源許可。這種開放性正在迅速改變中國的AI 生態系統，使得初創公司、研究人員和開發者能夠在先進的AI 技術基礎上進行創新，而無需大量的資本支出。

DeepSeek-V3-0324 的發布也被認為是其下一代推理模型DeepSeek-R2 的基礎。考慮到Nvidia 首席執行官黃仁勳最近指出DeepSeek 的R1 模型“比非推理AI 消耗多100 倍的計算量”，DeepSeek 在資源受限的情況下實現如此性能令人矚目。如果DeepSeek-R2 遵循R1 的發展軌跡，它可能會對OpenAI 傳聞即將發布的GPT-5 構成直接挑戰。

目前，用戶可以通過Hugging Face 下載完整的模型權重，也可以通過OpenRouter 等平台體驗DeepSeek-V3-0324 的API 接口。 DeepSeek 的開放戰略正在重新定義全球AI 格局，預示著一個更開放、更普及的AI 創新時代的到來。