Make-An-Audio 2
Make-An-Audio 2使用高級擴散模型從文本中生成高質量的音頻,從而優化了語義一致性和時間一致性,例如有聲讀物的生產和視頻敘述。
What is Make-An-Audio 2 ?
Make-An-Audio 2 is an advanced text-to-audio generation technology developed by researchers from浙江大學、字節跳動和香港中文大學。它通過使用預訓練的大型語言模型解析文本來優化時間信息捕獲,從而生成高質量的音頻。這項技術引入了結構化文本編碼器,輔助學習擴散去噪過程中的語義對齊,並設計了基於前饋Transformer的擴散去噪器,以改善變長音頻生成的性能。
Make-An-Audio 2的目標受眾包括音頻合成領域的研究人員和開發者,以及需要高質量文本到音頻轉換的應用場景,如自動配音和有聲讀物製作。它能生成與文本內容語義對齊且時間一致的高質量音頻,滿足這些用戶的需求。
使用場景示例包括自動生成有聲讀物的背景音效和對話,為視頻內容自動添加旁白和音效,以及創建虛擬角色的聲音,用於遊戲或動畫。
產品特色包括:
使用預訓練的大型語言模型解析文本,優化時間信息捕獲。
引入結構化文本編碼器,輔助學習擴散去噪過程中的語義對齊。
設計基於前饋Transformer的擴散去噪器,改善變長音頻生成性能。
利用大型語言模型增強和轉換音頻標籤數據,緩解時間數據稀缺問題。
在客觀和主觀指標上超越基線模型,顯著提升時間信息理解、語義一致性和聲音質量。
使用教程:
1. 準備自然語言文本作為輸入。
2. 使用Make-An-Audio 2的Text Encoder解析文本。
3. 結構化文本編碼器輔助學習語義對齊。
4. 利用擴散去噪器生成音頻。
5. 調整生成音頻的長度和時間控制。
6. 根據需要修改結構化輸入以精確控制時間。
7. 生成最終的音頻輸出。