TangoFlux：超高速音效產生模型，3秒內產生30秒高品質音訊

作者: LoRA 時間: 2025年01月02日 1123

在人工智慧領域，文字到音訊生成技術正迅速發展，成為一個研究的熱點。近期，研究人員推出了名為TANGOFLUX的全新模型，憑藉其卓越的性能和高效的生成能力，吸引了廣泛關注。

TANGOFLUX是一款高效能的文字到音訊產生模型，具有515百萬個參數，能夠在短短3.7秒內產生最長30秒、取樣率44.1kHz的高品質音訊。它的高效性在單一A40 GPU上得到了充分展示，表現遠超許多現有模型。

TANGOFLUX 的一大亮點是其能夠產生多種類型的音效，包括鳥鳴、口哨聲、爆炸聲等，並且支援生成音樂，儘管在音樂生成方面的效果稍遜。它在產生具體事件聲音時，能更清楚地再現事件順序和音訊細節，音質上也表現出色。

文字到音訊生成的一個關鍵挑戰是如何建立有效的偏好配對。與大型語言模型不同，文字到音訊生成模型缺乏可驗證的獎勵機製或標準答案。為了解決這個問題，研究團隊提出了一個名為CLAP-Ranked Preference Optimization (CRPO)的創新架構。這個框架透過迭代生成和優化偏好數據，從而提升了模型的對齊性能。研究表明，使用CRPO 框架產生的音訊偏好資料在多個方面優於現有方法。

由於這個框架，TANGOFLUX 在多項客觀和主觀基準測試中都展現了領先的表現。此外，研究團隊決定將模型和所有程式碼開源，以支援全球研究者進一步推動文字到音訊生成技術的研究與應用。

TANGOFLUX的音訊產生品質明顯優於其他模型，特別是在事件聲音的清晰度、順序的再現和整體音質上，使用者可以透過多個範例直接感受到其優勢。這項技術的推出，使得文字到音訊生成的前景更加廣闊，未來它在影視製作、遊戲音效等領域的應用潛力巨大。

計畫入口：TANGOFLUX

重點總結：

TANGOFLUX是一款高效率的文字到音訊產生模型，能夠在3.7秒內產生30秒高品質音訊。
提出了CLAP-Ranked Preference Optimization (CRPO)框架，顯著提升模型效能和音訊產生品質。
所有程式碼和模型已開源，旨在促進文字音訊產生的研究與應用。

TangoFlux：超高速音效產生模型，3秒內產生30秒高品質音訊

Meta推AI聊天機器人新功能：主動發送消息提升互動體驗

Abacus.AI重磅推出DeepAgent，全能AI助手引領企業智能化轉型

大模型時代，通用視覺模型將何去何從？

X平台試點AI生成“社區筆記”，Grok接入信息核查流程