ElevenLabs發布Scribe：語音轉文本準確率創新高

作者: LoRA 時間: 2025年02月27日 616

ElevenLabs 是一家備受矚目的人工智能語音克隆與生成初創公司，近日推出了其最新的語音轉文本模型——Scribe v1。該模型聲稱在多種語言中都達到了最高的準確性，用戶可以通過其官網進行體驗。

根據ElevenLabs 的基準測試，Scribe 在將口語準確轉換為文本方面，超越了谷歌的Gemini2.0Flash、OpenAI 的Whisper v3和Deepgram Nova-3，取得了前所未有的低錯誤率。該公司表示，Scribe 支持99種語言的高精度轉錄，其中包括在以前被忽視的語言，如塞爾維亞語、粵語和馬拉雅拉姆語。

ElevenLabs 的首席研究員Flavio Schneider 在社交平台X 上表示，Scribe 是公司迄今發布的“最聰明的音頻理解模型”。他強調，Scribe 不僅僅是轉錄工具，還能理解音頻內容，能夠檢測非語言事件（如笑聲、音效、音樂和背景噪音），並在復雜環境下分析長時間的音頻內容進行準確的說話者區分。值得一提的是，Scribe 能夠在同一個音頻文件中識別並隔離多達32位不同的說話者。

ElevenLabs 提醒用戶，Scribe“最適合需要高精度轉錄的場合，而非實時轉錄”。該公司還計劃推出低延遲版本，以擴大其在實時應用中的使用。

根據FLEURS 和Common Voice 的基準結果，Scribe 在處理現實世界音頻挑戰方面表現出色，尤其在意大利語（準確率98.7%）和英語(準確率96.7%)的單詞錯誤率方面達到了最低。

Scribe 現已通過ElevenLabs 官網和API 提供使用，定價為每小時輸入音頻0.40美元，未來六週還將享受50% 的折扣。此外，針對實時應用的低延遲版本也在開發中。

對於企業決策者而言，Scribe 為高精度轉錄提供了一種可擴展的工具，適用於需要自動化文檔、會議轉錄和內容可及性的行業。該模型對多種語言的高精度處理也將惠及跨國公司、媒體公司和客戶支持應用。

值得注意的是，Scribe 的發布與競爭對手Hume 的文本轉語音模型Octave 的發布同日進行。 Octave 是一種基於大型語言模型的文本轉語音工具，用戶可以根據情感需求自定義AI 生成的聲音，旨在用於內容創作，如有聲書、播客和視頻遊戲配音。儘管Scribe 和Octave 的功能不同，但二者的發布反映了AI 驅動音頻模型日益激烈的競爭。

產品入口:https://elevenlabs.io/blog/meet-scribe

ElevenLabs發布Scribe：語音轉文本準確率創新高

Google DeepMind發布DolphinGemma模型

特斯拉宣布推出通用AI全自動駕駛方案

Hugging Face收購Pollen Robotics，進軍開源機器人硬件領域

GPT-4.1模型亮相！ Cursor與Windsurf助力開發者更高效編碼