中文(繁體)

目前位置: 首頁> AI 資訊

出門問問發布TicVoice 7.0:超自然語音克隆與跨語種生成能力

作者: LoRA 時間: 2025年03月07日 383

3月6日,出門問問(Mobvoi)聯合香港科技大學、上海交通大學、南洋理工大學、西北工業大學等頂尖學術機構,共同開源新一代語音生成模型Spark-TTS,並重磅推出其商業化高品質TTS引擎——TicVoice7.0。作為出門問問第七代TTS引擎,TicVoice7.0在語音生成領域實現了重大突破,開啟了全新的語音生成範式。

TicVoice7.0的核心優勢在於其創新的語音編碼方式和建模結構。該引擎採用BiCodec編碼技術,將語音編碼為互補的兩部分:固定序列長度的Global Token和低碼率的Semantic Tokens。 Global Token負責建模時序無關的全局特徵,如音色,確保語音生成的全局可控性;Semantic Tokens則以wav2vec2.0提取的特徵為輸入,編碼與文本緊密相關的信息,確保語義的強相關性。這種設計不僅解決了傳統語音編碼中存在的問題,還實現了語音token建模與文本token建模的高度統一,使語音生成更加高效且可控。

微信截圖_20250307084939.png

基於這一創新,TicVoice7.0展現出卓越的語音克隆能力和情感表現力。它能夠在3秒內敏銳捕捉聲紋特徵,讓AI不僅能“說人話”,還能模仿人類的嘆息、停頓等細微情感表達。相比上一代語音大模型,TicVoice7.0在音色相似度、情感表現及穩定性上均有顯著提升,國際通用MOS評分從3.9提升至4.2,情感表現力更強,聽感更自然、悅耳且穩定。

此外,TicVoice7.0在個性化定制方面也表現出色。用戶可以通過調整性別、語速、基頻等多種屬性,精準塑造獨特的聲音風格。在“至臻Pro-精品發音人”定制方面,用戶僅需提供20-200句語料,即可獲得播音級專業配音體驗,國際通用MOS評分從4.3提升至4.7,達到廣播級水平,為影視、遊戲等場景提供了專業級的語音生成解決方案。

目前,出門問問已將TicVoice7.0落地於旗下AI配音產品“魔音工坊”,為用戶帶來更好的服務和體驗。該引擎不僅在客服、有聲書、情感直播、影視解說等應用場景中表現出色,還通過開源生態與產學研深度協同,為行業發展注入了新動能。