中文(繁體)

目前位置: 首頁> AI 資訊

Open-Sora 2.0:開源視頻模型,訓練流程全公開,低成本高效生成

作者: LoRA 時間: 2025年03月13日 912

還在為動輒百萬美金的視頻生成模型望而卻步?還在感嘆AI視頻創作只是巨頭的遊戲?今天,開源社區用實力告訴你: “No!” 一款名為Open-Sora2.0的全新開源模型橫空出世,徹底顛覆了視頻生成的“氪金”規則。 難以置信的是,這款性能直逼商業級水準的110億參數大模型,竟然只花費了區區20萬美元(224張GPU)就訓練成功! 要知道,那些動輒耗資數百萬美元的閉源模型,在Open-Sora2.0面前,性價比簡直弱爆了!

Open-Sora2.0的發布,無疑是視頻生成領域的一場“平民革命”。它不僅擁有媲美甚至超越百萬美元級模型的強悍實力,更以前所未有的開放姿態,將模型權重、推理代碼、訓練流程全盤托出,徹底打開了高質量視頻創作的“潘多拉魔盒”。 這意味著,曾經高不可攀的AI視頻生成技術,如今已觸手可及,人人都有機會參與這場激動人心的創作浪潮!

image.png

GitHub 開源倉庫:https://github.com/hpcaitech/Open-Sora

1. 硬核實力:眼見為實,數據說話

1.1效果炸裂!Open-Sora2.0視頻Demo先睹為快

口說無憑,眼見為實! Open-Sora2.0的生成效果到底有多驚艷? 直接上Demo視頻,讓各位“驗驗貨”:

運鏡如神!動作幅度精準拿捏: 無論是人物的細膩動作,還是場景的宏大調度,Open-Sora2.0都能如同專業導演一般,精準控制運動幅度,畫面表現力直接拉滿!

畫質爆表!流暢度堪比絲滑:720p高清分辨率,24FPS穩定幀率,Open-Sora2.0生成的視頻,清晰度、流暢度都無可挑剔,完全超越市面上同類產品,視覺體驗直接“起飛”!

場景百變!駕馭能力全面開花: 田園風光、都市夜景、科幻宇宙…… 各種複雜場景,Open-Sora2.0都能信手拈來,畫面細節豐富到令人髮指,相機運鏡更是流暢自然,簡直是“AI界的達芬奇”!

1.2參數規模“以小博大”,性能直逼閉源巨頭

Open-Sora2.0並非“花架子”, 而是擁有真材實料的“技術硬核”。 僅僅110億的參數規模,卻迸發出驚人的能量,在權威評測平台VBench 和用戶主觀評測中,都取得了足以叫板HunyuanVideo 和30B Step-Video 等閉源巨頭的卓越成績,堪稱“以小博大” 的典範!

用戶說了算!偏好性評測力壓群雄: 在視覺效果、文本一致性、動作表現三大維度上,Open-Sora2.0至少有兩項指標超越了開源SOTA 模型HunyuanVideo,甚至將Runway Gen-3Alpha 等商業模型斬落馬下,用實力證明了“低成本也能有好貨”!

VBench榜單“實力認證”,性能逼近天花板: 在視頻生成領域最權威的VBench 榜單上,Open-Sora2.0的進步速度堪稱“火箭躥升”。 從1.2版本到2.0版本,它與OpenAI Sora 閉源模型之間的性能差距,從4.52% 直接縮減到0.69%,幾乎可以忽略不計! 更令人振奮的是,Open-Sora2.0在VBench 評測中得分,已經超越了騰訊HunyuanVideo,再次證明其“低投入,高產出” 的巨大優勢,為開源視頻生成技術樹立了新的里程碑!

2. 低成本煉成記:開源背後的技術密碼

Open-Sora 自開源以來,就憑藉其高效、優質的視頻生成能力,迅速成為開源社區的“當紅炸子雞”。 但隨之而來的挑戰是:如何打破高質量視頻生成“成本高企” 的魔咒,讓更多人能夠參與進來? Open-Sora 團隊迎難而上,通過一系列技術創新,硬生生將模型訓練成本砍掉了5-10倍! 要知道,市面上動輒百萬美元的訓練費用,Open-Sora2.0用區區20萬美元就搞定了,簡直是“開源界的性價比之王”!

Open-Sora 不僅開源了模型代碼和權重,還慷慨地공개了全流程訓練代碼,構建起了一個充滿活力的開源生態。 短短半年時間,Open-Sora 的學術論文引用量就逼近百次,在全球開源影響力榜單上名列前茅,超越了所有開源I2V/T2V 視頻生成項目,成為當之無愧的“開源視頻生成領頭羊”。

2.1模型架構:傳承與創新並舉

Open-Sora2.0在模型架構上,既傳承了1.2版本的精髓,又進行了大膽創新: 延續了3D 自編碼器和Flow Matching 訓練框架,並保留了多桶訓練機制,確保模型能夠“兼容並蓄”,處理各種長度和分辨率的視頻。 同時,又引入了多項“黑科技”, 讓視頻生成能力更上一層樓:

3D 全注意力機制加持: 更精準地捕捉視頻中的時間和空間信息,讓生成的視頻畫面更連貫、細節更豐富。

MMDiT 架構“神助攻”: 更準確地理解文本指令和視頻內容之間的關聯,讓文生視頻的語義表達更精準、更到位。

模型規模擴容至11B: 更大的模型容量,意味著更強的學習能力和生成潛力,視頻質量自然水漲船高。

FLUX 模型“打底”,訓練效率“起飛”: 借鑒開源圖生視頻模型FLUX 的成功經驗,進行模型初始化,大幅降低了訓練時間和成本,讓模型訓練效率“坐上火箭”。

2.2高效訓練秘籍:開源全流程,助力成本“狂降”

為了將訓練成本壓到“地板價”,Open-Sora2.0在數據、算力、策略等方面都做足了功課,堪稱“開源界的省錢專家”:

數據“精挑細選”,質量“萬里挑一”: Open-Sora 團隊深知“garbage in, garbage out” 的道理,對訓練數據進行“地毯式” 篩選,確保每一份數據都是“精品”,從源頭上提升模型訓練效率。 多階段、多層次的數據篩選機制,配合各種“黑科技” 過濾器,讓視頻數據質量更上一層樓,為模型訓練提供了最優質的“燃料”。

算力“精打細算”,低分辨率訓練“打頭陣”: 高分辨率視頻訓練的成本,遠高於低分辨率視頻,二者之間的算力差距,最高可達40倍! Open-Sora2.0巧妙地避開了“硬碰硬”, 優先進行低分辨率訓練,高效學習視頻中的運動信息,在大幅降低成本的同時,確保模型能夠掌握視頻生成的“核心技能”, 可謂“事半功倍”。

策略“靈活多變”,圖生視頻“曲線救國”: Open-Sora2.0並沒有一開始就“死磕” 高分辨率視頻訓練,而是採取了更聰明的“迂迴戰術” —— 優先訓練圖生視頻模型,加速模型收斂速度。 事實證明, 圖生視頻模型在提升分辨率時,收斂速度更快,訓練成本更低, 可謂“一箭雙雕”。 在推理階段, Open-Sora2.0還支持“文生圖再生視頻” (T2I2V) 模式, 用戶可以先通過文本生成高質量圖像, 再將圖像轉化為視頻, 獲得更精細的視覺效果, “條條大路通羅馬”。

並行訓練“火力全開”,算力利用率“榨乾最後一滴”: Open-Sora2.0深知“單絲不成線,獨木不成林” 的道理, 採用了高效的並行訓練方案, 將ColossalAI 和系統級優化技術“武裝到牙齒”, 最大程度提升計算資源利用率, 讓GPU 集群“火力全開”, 實現更高效的視頻生成訓練。 一系列“黑科技” 加持, 讓Open-Sora2.0的訓練效率“坐上火箭”, 成本大幅降低:

序列並行+ ZeroDP: 優化大規模模型分佈式計算效率,實現“人多力量大”。

細粒度Gradient Checkpointing: 在降低顯存佔用的同時,保持計算效率,實現“開源節流”。

訓練自動恢復機制: 確保99% 以上有效訓練時間,減少資源浪費,實現“穩定可靠”。

高效數據加載+ 內存管理: 優化I/O,防止訓練阻塞,加速訓練流程,實現“一路狂飆”。

異步模型保存: 減少模型存儲對訓練干擾,提高GPU 利用率,實現“一心多用”。

算子優化: 針對關鍵計算模塊深度優化,加速訓練過程,實現“提速增效”。

這些優化措施“組合拳” 下來, Open-Sora2.0在高性能和低成本之間找到了完美平衡, 大幅降低了高質量視頻生成模型的訓練門檻, 讓更多人能夠參與到這場技術盛宴中來。

2.3高壓縮比AE “神助攻”,推理速度“再提速”

訓練成本降下來還不夠,推理速度也要跟上! Open-Sora2.0瞄準未來, 探索高壓縮比視頻自編碼器(AE) 的應用, 進一步降低推理成本, 提升視頻生成速度。 目前主流視頻模型採用4×8×8自編碼器, 生成768px、5秒視頻, 單卡耗時近30分鐘, 推理效率亟待提升。 Open-Sora2.0訓練了一款高壓縮比(4×32×32) 的視頻自編碼器, 將推理時間縮短至單卡3分鐘以內, 速度提升了10倍! 簡直是“光速” 生成!

高壓縮比編碼器雖好, 訓練難度卻極大。 Open-Sora 團隊迎難而上, 在視頻升降採樣模塊中引入殘差連接, 成功訓練出重建質量媲美SOTA 視頻壓縮模型, 且壓縮比更高的VAE, 為高效推理奠定了堅實基礎。 為了解決高壓縮比自編碼器訓練數據需求大、收斂難度高等問題, Open-Sora 還提出了基於蒸餾的優化策略, 並利用已訓練好的高質量模型進行初始化, 減少數據和時間需求。 同時, 重點訓練圖生視頻任務, 利用圖像特徵引導視頻生成, 加速高壓縮自編碼器收斂, 最終實現了推理速度和生成質量的“雙贏”。

Open-Sora 團隊堅信, 高壓縮比視頻自編碼器將是未來視頻生成技術發展的關鍵方向。 目前初步實驗結果已展現出驚人的推理加速效果, 他們希望藉此吸引更多社區力量, 共同探索高壓縮比視頻自編碼器的潛力, 推動高效、低成本視頻生成技術更快發展, 讓AI 視頻創作真正“飛入尋常百姓家”。

3. 開源集結號!共赴AI視頻革命新征程

今天,Open-Sora2.0正式開源! 我們誠摯邀請全球開發者、科研機構、AI 愛好者加入Open-Sora 社區, 攜手共建, 共同推動AI 視頻革命的浪潮滾滾向前, 讓視頻創作的未來, 更加開放、普惠、精彩!

GitHub 開源倉庫:https://github.com/hpcaitech/Open-Sora

技術報告:

https://github.com/hpcaitech/Open-Sora-Demo/blob/main/paper/Open_Sora_2_tech_report.pdf