Sesame推出CSM語音模型：逼真程度跨越恐怖谷，驚艷全球

作者: LoRA 時間: 2025年03月03日 165

Sesame 公司最新推出的語音合成模型“Conversational Speech Model”（簡稱CSM）近日在X 平台上引發熱議，被譽為“像真人說話一樣的語音模型”。這款模型以其驚豔的自然度和情感表達能力，不僅讓用戶“已經無法分辨”其與人類的區別，還宣稱成功跨越了語音領域的“恐怖谷效應”。隨著演示視頻和用戶反饋的傳播，CSM 正迅速成為AI 語音技術的新標杆。

跨越“恐怖谷”:CSM 的技術突破

“恐怖谷效應”是指當人工合成的語音或形象接近真實人類但仍存細微差異時，會引發人類的不適感。 Sesame 通過其CSM 模型正面應對這一難題。 X 用戶@imxiaohu在3月1日發帖稱:“兄弟們，這個全新的語音模型很厲害，已經無法分辨了!”他指出，CSM 在個性、記憶、表達能力及語境恰當性上表現出色，幾乎消除了傳統語音助手的機械感。

Sesame 團隊在官方研究文章中表示，CSM 的目標是實現“語音存在感”——讓語音交互不僅真實可信，還能被理解和重視。這一突破得益於其核心組件:情感智能（解讀並回應情感）、上下文記憶(基於對話歷史調整輸出)以及高保真的語音生成技術。演示中，CSM 在超長對話中展現了語氣自然、情感豐富的一面，用戶甚至無法在不知情的情況下分辨其為AI。

用戶體驗逼真

X 平台上的用戶反饋進一步印證了CSM 的驚艷表現。 @imxiaohu在帖子中分享了一段超長對話演示，涵蓋多種場景和情景，並感嘆:“語氣、情感一些表達上非常非常的接近人類，哈哈哈哈。”他提到，在無提示的情況下，這款模型的輸出已讓人難以區分真假。另一位用戶@leeoxiang在3月1日表示，他用CSM 練習了半小時英語口語，幾乎感覺不到延遲，並稱其“口語化做得特別好，會有一些口氣在裡面”，主動對話能力也令人印象深刻。

社區的熱情不僅限於稱讚。許多用戶指出，CSM 的對話流暢度和情感表達已超越現有主流模型，如OpenAI 的ChatGPT 語音模式。 @op7418

在2月28日推薦研究者關注Sesame 的技術文章，並強調其獨特的語音真實度評價體系，顯示出該模型在技術上的嚴謹性。

仍有提升空間:Sesame 的未來計劃

儘管CSM 的表現令人震撼，Sesame 官方坦言這並非終點。 @imxiaohu援引官方說法稱，“這還不是最完美的，還有很大提升的空間!”目前，CSM 支持英語等多語言，但如@leeoxiang所指出，尚不支持中文。此外，部分用戶在測試中發現，模型在特定語境（如外語切換或音樂演唱）下的表現仍有改進餘地。

Sesame 已承諾將部分研究成果開源，其GitHub 頁面（SesameAILabs/csm）顯示CSM 將採用Apache2.0許可。這一舉措引發了開發者社區的期待，許多人希望通過對其架構的深入研究，進一步推動語音AI 的發展。

行業影響與展望

CSM 的亮相不僅是對“恐怖谷效應”的技術回應，也為AI 語音交互樹立了新標準。與Grok、Claude 等模型相比，CSM 在實時性、低延遲和情感表達上的優勢尤為突出。 X 用戶@AbleGPT

在3月2日表示:“如果你在研究AI 語音，強烈推薦看看這個文章。”這反映了CSM 對技術圈的啟發意義。

隨著Sesame 計劃擴大語言支持並優化模型，CSM 有望在教育、娛樂和虛擬伴侶等領域大放異彩。從X 上的熱烈反響來看，這款“兄弟們都覺得厲害”的語音模型，正以逼真的對話能力重新定義人與AI 的互動方式。未來，它是否能徹底消除“恐怖谷”，成為真正的“數字夥伴”?答案或許就在Sesame 的下一次迭代中。

試玩地址：https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo