Zonos-v0.1-hybrid是由Zyphra 開發的一款開源文本轉語音模型,它能夠根據文本提示生成高度自然的語音。該模型經過大量英語語音數據訓練,採用eSpeak 進行文本歸一化和音素化,再通過變換器或混合骨幹網絡預測DAC 令牌。它支持多種語言,包括英語、日語、中文、法語和德語,並且可以對生成語音的語速、音調、音頻質量和情緒等進行精細控制。此外,它還具備零樣本語音克隆功能,僅需5 到30 秒的語音樣本即可實現高保真語音克隆。該模型在RTX 4090 上的實時因子約為2 倍,運行速度較快。它還配備了易於使用的gradio 界面,並且可以通過Docker 文件簡單安裝和部署。目前,該模型在Hugging Face 上提供,用戶可以免費使用,但需要自行部署。
需求人群:
"該產品適用於需要高質量語音合成的個人和企業,例如語音助手開發、有聲讀物製作、語音播報等領域。它可以幫助用戶快速生成自然的語音,提高工作效率,同時支持多種語言和情緒控制,滿足不同場景下的需求。"
使用場景示例:
開發語音助手:利用該模型為智能設備生成自然的語音交互,提升用戶體驗。
製作有聲讀物:將文本內容轉換為高質量的語音,方便用戶收聽。
語音播報:為新聞、廣播等生成自然的語音播報,提高信息傳播效率。
產品特色:
零樣本語音克隆:輸入文本和10-30 秒的說話者樣本,即可生成高質量的語音。
音頻前綴輸入:添加文本和音頻前綴,可實現更豐富的說話者匹配。
多語言支持:支持英語、日語、中文、法語和德語。
音頻質量和情緒控制:可精細控制語速、音調、音頻質量和情緒等。
快速運行:在RTX 4090 上的實時因子約為2 倍。
WebUI gradio 界面:配備易於使用的gradio 界面。
簡單安裝和部署:可通過Docker 文件簡單安裝和部署。
使用教程:
1. 克隆Zonos 倉庫:git clone [email protected]:Zyphra/Zonos.git
2. 進入倉庫目錄:cd Zonos
3. 使用Docker 安裝:docker compose up(對於gradio 界面)或docker build -t Zonos . && docker run -it --gpus=all --net=host -v /path/to/Zonos:/Zonos -t Zonos(對於開發)
4. 運行示例腳本:python3 sample.py,生成sample.wav 文件
5. 在Python 中編程使用:導入相關模塊,加載模型,生成語音並保存為音頻文件