ElevenLabs 是一家備受矚目的人工智能語音克隆與生成初創公司,近日推出了其最新的語音轉文本模型——Scribe v1。該模型聲稱在多種語言中都達到了最高的準確性,用戶可以通過其官網進行體驗。
根據ElevenLabs 的基準測試,Scribe 在將口語準確轉換為文本方面,超越了谷歌的Gemini2.0Flash、OpenAI 的Whisper v3和Deepgram Nova-3,取得了前所未有的低錯誤率。該公司表示,Scribe 支持99種語言的高精度轉錄,其中包括在以前被忽視的語言,如塞爾維亞語、粵語和馬拉雅拉姆語。
ElevenLabs 的首席研究員Flavio Schneider 在社交平台X 上表示,Scribe 是公司迄今發布的“最聰明的音頻理解模型”。他強調,Scribe 不僅僅是轉錄工具,還能理解音頻內容,能夠檢測非語言事件(如笑聲、音效、音樂和背景噪音),並在復雜環境下分析長時間的音頻內容進行準確的說話者區分。值得一提的是,Scribe 能夠在同一個音頻文件中識別並隔離多達32位不同的說話者。
ElevenLabs 提醒用戶,Scribe“最適合需要高精度轉錄的場合,而非實時轉錄”。該公司還計劃推出低延遲版本,以擴大其在實時應用中的使用。
根據FLEURS 和Common Voice 的基準結果,Scribe 在處理現實世界音頻挑戰方面表現出色,尤其在意大利語(準確率98.7%)和英語(準確率96.7%)的單詞錯誤率方面達到了最低。
Scribe 現已通過ElevenLabs 官網和API 提供使用,定價為每小時輸入音頻0.40美元,未來六週還將享受50% 的折扣。此外,針對實時應用的低延遲版本也在開發中。
對於企業決策者而言,Scribe 為高精度轉錄提供了一種可擴展的工具,適用於需要自動化文檔、會議轉錄和內容可及性的行業。該模型對多種語言的高精度處理也將惠及跨國公司、媒體公司和客戶支持應用。
值得注意的是,Scribe 的發布與競爭對手Hume 的文本轉語音模型Octave 的發布同日進行。 Octave 是一種基於大型語言模型的文本轉語音工具,用戶可以根據情感需求自定義AI 生成的聲音,旨在用於內容創作,如有聲書、播客和視頻遊戲配音。儘管Scribe 和Octave 的功能不同,但二者的發布反映了AI 驅動音頻模型日益激烈的競爭。
產品入口:https://elevenlabs.io/blog/meet-scribe