CosyVoice2.0 是一款多語言、大規模的語音生成模型,具備完整的全棧能力,涵蓋推理、訓練和部署,在語音合成領域具有重要價值。它不僅支持多語言語音生成,還能生成自然流暢、接近人聲的語音,適用於多種語言環境。
該項目由FunAudioLLM 團隊開發,並採用Apache-2.0 許可進行開源。
主要特點
多語言支持:CosyVoice 支持中文、英語、日語、韓語以及多種中文方言(如粵語、四川話、上海話、天津話、武漢話等)的語音合成。
超低延遲: CosyVoice 2.0集成了離線和流式建模技術,支持雙向流式語音合成,首包合成延遲可低至150 毫秒,同時保持高質量音頻輸出。
高準確性:相比1.0 版本, CosyVoice 2.0將合成音頻的發音錯誤減少了30% 至50%,在Seed-TTS 評估集的困難測試集上達到了最低的字符錯誤率。
強穩定性:在零樣本和跨語言語音合成中, CosyVoice 2.0確保了出色的音色一致性。
自然體驗:合成音頻的韻律、音質和情感對齊度顯著提升,MOS 評估分數從5.4 提升至5.53。
本教程將指導您在本地部署CosyVoice 2.0 ,從環境配置到模型運行,適用於Windows 用戶。
Miniconda 是一個Conda 管理工具,在Windows 上安裝非常方便。下載後,像普通軟件一樣點擊Next直到完成安裝。
從官方倉庫或指定渠道獲取CosyVoice 源代碼並解壓。
打開Anaconda Prompt或CMD,輸入以下命令創建並激活環境:
conda create -n cosyvoice python=3.8 -y conda activate cosyvoice
pynini 模塊在Windows 下只能使用Conda 安裝,因此在激活的環境中運行:
conda install -y -c conda-forge pynini==2.1.5 WeTextProcessing==1.0.3
編輯requirements.txt
刪除最後一行的WeTextProcessing==1.0.3
(避免安裝失敗)
添加Matcha-TTS
依賴
安裝依賴(使用阿里雲鏡像加速):
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/
至此,CosyVoice 及其所有依賴已安裝完畢,可以開始使用。