在快速發展的播客領域,Podcastle 平台近日宣布推出其全新的AI 文本轉語音模型Asyncflow v1.0。這個新模型不僅為用戶提供了超過450種不同的AI 語音,還向開發者開放了API 接口,以便於他們將這一文本轉語音功能直接集成到自己的應用程序中。
Podcastle 的創始人Arto Yeritsyan 表示,公司一直希望能開發一個文本轉語音模型,但由於過去高昂的訓練成本和數據需求,這一願望一直未能實現。然而,隨著近年來大型語言模型技術的進步,Podcastle 終於在去年取得了突破,能夠在不需要大量數據的情況下,構建出高質量的語音模型。 Yeritsyan 補充道,Podcastle 的研發得到了去年1350萬美元的A 輪融資的支持,這為其技術創新提供了重要保障。
在價格方面,Podcastle 的文本轉語音服務定價為每500分鐘約40美元,相比之下,競爭對手ElevenLabs 則收取99美元。除了文本轉語音模型外,Podcastle 的語音克隆功能也得到了升級,訓練過程由之前的需朗讀70句不同句子,縮短至現在僅需幾秒的錄音。新過程利用了Podcastle 去年推出的Magic Dust AI 技術,顯著提高了音頻錄製質量。
在實際測試中,儘管新生成的語音聽起來稍顯機器人,但仍能較好地模仿說話者的語調。 Podcastle 表示,隨著時間推移,該功能將不斷改進,用戶也可以通過不同的錄音樣本訓練出不同的聲音效果。
Yeritsyan 指出,除了成本優勢外,將音頻、視頻、播客和AI 驅動的敘述工具整合到一個重新設計的網站中,也將使Podcastle 在競爭中脫穎而出。他提到,雖然大多數用戶仍主要使用Podcastle 進行音頻內容創作,但視頻製作的需求也在逐漸上升。
入口:https://podcastle.ai/ai-voices