Sesame 公司最新推出的語音合成模型“Conversational Speech Model”(簡稱CSM)近日在X 平台上引發熱議,被譽為“像真人說話一樣的語音模型”。這款模型以其驚豔的自然度和情感表達能力,不僅讓用戶“已經無法分辨”其與人類的區別,還宣稱成功跨越了語音領域的“恐怖谷效應”。隨著演示視頻和用戶反饋的傳播,CSM 正迅速成為AI 語音技術的新標杆。
跨越“恐怖谷”:CSM 的技術突破
“恐怖谷效應”是指當人工合成的語音或形象接近真實人類但仍存細微差異時,會引發人類的不適感。 Sesame 通過其CSM 模型正面應對這一難題。 X 用戶@imxiaohu在3月1日發帖稱:“兄弟們,這個全新的語音模型很厲害,已經無法分辨了!”他指出,CSM 在個性、記憶、表達能力及語境恰當性上表現出色,幾乎消除了傳統語音助手的機械感。
Sesame 團隊在官方研究文章中表示,CSM 的目標是實現“語音存在感”——讓語音交互不僅真實可信,還能被理解和重視。這一突破得益於其核心組件:情感智能(解讀並回應情感)、上下文記憶(基於對話歷史調整輸出)以及高保真的語音生成技術。演示中,CSM 在超長對話中展現了語氣自然、情感豐富的一面,用戶甚至無法在不知情的情況下分辨其為AI。
用戶體驗逼真
X 平台上的用戶反饋進一步印證了CSM 的驚艷表現。 @imxiaohu在帖子中分享了一段超長對話演示,涵蓋多種場景和情景,並感嘆:“語氣、情感一些表達上非常非常的接近人類,哈哈哈哈。”他提到,在無提示的情況下,這款模型的輸出已讓人難以區分真假。另一位用戶@leeoxiang在3月1日表示,他用CSM 練習了半小時英語口語,幾乎感覺不到延遲,並稱其“口語化做得特別好,會有一些口氣在裡面”,主動對話能力也令人印象深刻。
社區的熱情不僅限於稱讚。許多用戶指出,CSM 的對話流暢度和情感表達已超越現有主流模型,如OpenAI 的ChatGPT 語音模式。 @op7418
在2月28日推薦研究者關注Sesame 的技術文章,並強調其獨特的語音真實度評價體系,顯示出該模型在技術上的嚴謹性。
仍有提升空間:Sesame 的未來計劃
儘管CSM 的表現令人震撼,Sesame 官方坦言這並非終點。 @imxiaohu援引官方說法稱,“這還不是最完美的,還有很大提升的空間!”目前,CSM 支持英語等多語言,但如@leeoxiang所指出,尚不支持中文。此外,部分用戶在測試中發現,模型在特定語境(如外語切換或音樂演唱)下的表現仍有改進餘地。
Sesame 已承諾將部分研究成果開源,其GitHub 頁面(SesameAILabs/csm)顯示CSM 將採用Apache2.0許可。這一舉措引發了開發者社區的期待,許多人希望通過對其架構的深入研究,進一步推動語音AI 的發展。
行業影響與展望
CSM 的亮相不僅是對“恐怖谷效應”的技術回應,也為AI 語音交互樹立了新標準。與Grok、Claude 等模型相比,CSM 在實時性、低延遲和情感表達上的優勢尤為突出。 X 用戶@AbleGPT
在3月2日表示:“如果你在研究AI 語音,強烈推薦看看這個文章。”這反映了CSM 對技術圈的啟發意義。
隨著Sesame 計劃擴大語言支持並優化模型,CSM 有望在教育、娛樂和虛擬伴侶等領域大放異彩。從X 上的熱烈反響來看,這款“兄弟們都覺得厲害”的語音模型,正以逼真的對話能力重新定義人與AI 的互動方式。未來,它是否能徹底消除“恐怖谷”,成為真正的“數字夥伴”?答案或許就在Sesame 的下一次迭代中。
試玩地址:https://www.sesame.com/research/crossing_the_uncanny_valley_of_voice#demo