中文(繁體)

目前位置: 首頁> AI 資訊

DeepSeek-V3-0324發布:免費商用,消費級電腦可運行

作者: LoRA 時間: 2025年03月25日 960

DeepSeek 最新發布的大型語言模型DeepSeek-V3-0324 在AI 行業內引發廣泛關注。這款容量高達641GB 的模型悄然出現在Hugging Face 上,延續了公司低調但極具影響力的發布風格。

早期測試者報告稱,新模型在各項指標上取得了巨大進步。 AI 研究員Xeophon 表示,DeepSeek V3 在其內部測試中“所有指標都有了巨大飛躍”,並稱其是“最好的非推理模型,取代了Sonnet3.5”。如果這一說法得到驗證,DeepSeek 的新模型將超越Anthropic 的商業AI 系統Claude Sonnet3.5。

QQ_1742863943914.png

與需要訂閱的Sonnet 不同,DeepSeek-V3-0324 的模型權重完全免費,且採用MIT 許可證,允許自由用於商業用途。這種開放的姿態與西方AI 公司通常將模型置於付費牆之後的做法形成鮮明對比。

DeepSeek V3-0324 採用了混合專家(MoE)架構,僅在特定任務中激活其6850 億參數中的約370 億個,大幅降低計算需求的同時,實現了與更大的完全激活模型相當的性能。此外,模型還融入了多頭潛在註意力(MLA)和多令牌預測(MTP)技術,將輸出速度提高了近80%。

QQ_1742863928895.png

開發者工具創建者Simon Willison 指出,4 位量化版本將存儲佔用減少到352GB,使得在高端消費級硬件(如配備M3Ultra 芯片的Mac Studio)上運行成為可能。 AI 研究員Awni Hannun 表示,DeepSeek-V3-0324 在配備mlx-lm 的512GB M3Ultra 上以>20 個tokens/秒的速度運行,功耗不到200 瓦。

早期用戶報告稱,新模型的溝通風格發生了明顯變化,呈現出更正式、更注重技術的風格。一些用戶認為新版本聽起來“不那麼像人類”,失去了以前版本“像人類一樣的語調”。這種轉變可能反映了DeepSeek 工程師的有意識設計選擇,旨在將模型重新定位為更專業的和技術性的應用。

DeepSeek 的發布策略體現了中國和西方公司在AI 商業理念上的根本差異。美國領導者如OpenAI 和Anthropic 將其模型置於付費牆之後,而中國AI 公司則越來越傾向於採用寬鬆的開源許可。這種開放性正在迅速改變中國的AI 生態系統,使得初創公司、研究人員和開發者能夠在先進的AI 技術基礎上進行創新,而無需大量的資本支出。

DeepSeek-V3-0324 的發布也被認為是其下一代推理模型DeepSeek-R2 的基礎。考慮到Nvidia 首席執行官黃仁勳最近指出DeepSeek 的R1 模型“比非推理AI 消耗多100 倍的計算量”,DeepSeek 在資源受限的情況下實現如此性能令人矚目。如果DeepSeek-R2 遵循R1 的發展軌跡,它可能會對OpenAI 傳聞即將發布的GPT-5 構成直接挑戰。

目前,用戶可以通過Hugging Face 下載完整的模型權重,也可以通過OpenRouter 等平台體驗DeepSeek-V3-0324 的API 接口。 DeepSeek 的開放戰略正在重新定義全球AI 格局,預示著一個更開放、更普及的AI 創新時代的到來。