CosyVoice 2.0

多語言語音合成 AI 語音生成低延遲TTS 模型

CosyVoice 2.0是一款領先的多語言語音生成模型，採用流式建模技術，實現超低延遲（150ms），音質自然穩定。

前往網站

作者:LoRA

收錄時間:2025年03月11日

下載量:931

計價模式:Free

簡介

CosyVoice2.0 是一款多語言、大規模的語音生成模型，具備完整的全棧能力，涵蓋推理、訓練和部署，在語音合成領域具有重要價值。它不僅支持多語言語音生成，還能生成自然流暢、接近人聲的語音，適用於多種語言環境。

該項目由FunAudioLLM 團隊開發，並採用Apache-2.0 許可進行開源。

主要特點

多語言支持：CosyVoice 支持中文、英語、日語、韓語以及多種中文方言（如粵語、四川話、上海話、天津話、武漢話等）的語音合成。

超低延遲： CosyVoice 2.0集成了離線和流式建模技術，支持雙向流式語音合成，首包合成延遲可低至150 毫秒，同時保持高質量音頻輸出。

高準確性：相比1.0 版本， CosyVoice 2.0將合成音頻的發音錯誤減少了30% 至50%，在Seed-TTS 評估集的困難測試集上達到了最低的字符錯誤率。

強穩定性：在零樣本和跨語言語音合成中， CosyVoice 2.0確保了出色的音色一致性。

自然體驗：合成音頻的韻律、音質和情感對齊度顯著提升，MOS 評估分數從5.4 提升至5.53。

本教程將指導您在本地部署CosyVoice 2.0 ，從環境配置到模型運行，適用於Windows 用戶。

Miniconda 是一個Conda 管理工具，在Windows 上安裝非常方便。下載後，像普通軟件一樣點擊Next直到完成安裝。

從官方倉庫或指定渠道獲取CosyVoice 源代碼並解壓。

打開Anaconda Prompt或CMD，輸入以下命令創建並激活環境：

 conda create -n cosyvoice python=3.8 -y
conda activate cosyvoice

pynini 模塊在Windows 下只能使用Conda 安裝，因此在激活的環境中運行：

 conda install -y -c conda-forge pynini==2.1.5 WeTextProcessing==1.0.3

 pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/

至此，CosyVoice 及其所有依賴已安裝完畢，可以開始使用。

猜你喜歡

Amazon Nova Premier

Amazon Nova Premier是亞馬遜的新型多模態語言模型，支援文字、圖像和影片的理解與生成，幫助開發者建立AI應用。

生成文字圖像
Qwen2.5-14B-Instruct-GGUF

Qwen2.5-14B-Instruct-GGUF是一款經過最佳化的大規模語言生成模型，結合了先進的技術和強大的指令調優，具備高效的文本生成和理解能力。

文本生成聊天
Skywork 4.0

天工大模型4.0上線，推理與語音助理雙重升級，免費開放，帶來全新AI體驗！

多模態模型
Gemini 2.5 Pro

Gemini 2.5 Pro是谷歌推出的新一代AI 模型，具備“思考能力”，在響應前會進行多步推理，從而大幅提升性能和準確性。

AI推理模型谷歌人工智能

精選專欄