潞晨科技開源Open-Sora 2.0：低成本高性能視頻生成模型

作者: LoRA 時間: 2025年03月13日 220

聽說過壕無人性的OpenAI Sora 吧?動輒幾百萬美元的訓練成本，簡直就是視頻生成界的“勞斯萊斯”。現在，潞晨科技宣布開源視頻生成模型Open-Sora2.0 !

僅僅花費了區區20萬美元（相當於224張GPU 的投入），就成功訓練出了一個擁有110億參數的商業級視頻生成大模型。

性能直追“OpenAI Sora”

別看Open-Sora2.0成本不高，實力可一點都不含糊。它可是敢於叫板行業標杆HunyuanVideo 和擁有300億參數的Step-Video 的狠角色。在權威評測VBench 和用戶偏好測試中，Open-Sora2.0的表現都令人刮目相看，多項關鍵指標上都能夠媲美那些動輒花費數百萬美元訓練的閉源模型。

更令人激動的是，Open-Sora2.0在VBench 的評測中，與OpenAI Sora 之間的性能差距竟然從之前的4.52%大幅縮小至僅僅0.69% !這幾乎可以說是性能上的全面追平了!

而且，Open-Sora2.0在VBench 中的得分甚至超過了騰訊的HunyuanVideo，真可謂是“長江後浪推前浪”，以更低的成本實現了更高的性能，為開源視頻生成技術樹立了新的標杆!

在用戶偏好評測中，Open Sora 在視覺表現、文本一致性和動作表現這三個關鍵維度上，至少有兩個指標都超越了開源SOTA 模型HunyuanVideo 以及商業模型Runway Gen-3Alpha 等。

低成本高效能的秘密武器

大家肯定好奇，Open-Sora2.0是如何做到以如此低的成本實現如此高性能的?這背後可有不少秘密武器。首先，Open Sora 團隊在模型架構上延續了Open-Sora1.2的設計思路，繼續採用3D 自編碼器和Flow Matching 訓練框架。同時，他們還引入了3D 全注意力機制，進一步提升了視頻生成質量。

為了追求極致的成本優化，Open-Sora2.0從多個方面入手:

嚴格的數據篩選，確保高質量的訓練數據輸入，從源頭提升效率。
優先進行低分辨率訓練，高效學習運動信息，降低計算成本。要知道，高分辨率訓練的成本可是低分辨率的幾十倍呢!
優先訓練圖生視頻任務，加速模型收斂，進一步降低訓練成本。而且，在推理階段，還可以通過文本生圖再生視頻（T2I2V），以獲得更精細的視覺效果。
採用了高效的並行訓練方案，結合ColossalAI 和系統級優化，大幅提升計算資源利用率。各種諸如高效的序列並行和ZeroDP、細粒度控制的Gradient Checkpointing、訓練自動恢復機制等等“黑科技”加持，讓訓練效率大大提升。

據估計，市面上10B 以上的開源視頻模型，單次訓練成本動輒上百萬美元，而Open Sora2.0將這個成本降低了5-10倍。這簡直是視頻生成領域的福音，讓更多人有機會參與到高質量視頻生成的研發中來。