萬萬沒想到,AI 不僅能在棋盤上“廝殺”,在“狼人殺” 這種爾虞我詐的社交遊戲中,也展現出了驚人的智力! 最近,一場代號為“Elimination Game” 的AI “狼人殺” 基準測試火爆出爐, 結果簡直讓人“虎軀一震”: GPT-4.5竟然在這場“社交博弈” 中“封神”, 把Claude3.7Sonnet 和DeepSeek R1等一眾AI “大佬” 都遠遠甩在了身後! 這不禁讓人驚呼: AI 的“社交智能” 已經進化到如此恐怖的程度了嗎?
這場“Elimination Game” 的規則聽起來就“心跳加速”: 最多8名玩家(可以是AI 模型,也可以是真人玩家) 被拉入“戰場”, 每輪都要“票決” 淘汰一人, 直到只剩下最後兩名“倖存者”。 更刺激的是, 被淘汰的玩家還會組成“陪審團”, 反過來決定最後的“王者” 歸屬! 這簡直就是一場AI 版的“權力遊戲”, 充滿了背叛、欺騙和策略!

遊戲過程中, 所有玩家都可以在“公開聊天室” 裡“唇槍舌戰”, 闡述觀點、 拉攏人心、 迷惑對手, 各種“演技” 和“話術” 輪番上演, 簡直比“宮鬥劇” 還精彩! 除了“公開場合”, 玩家之間還可以“私聊”, 偷偷“密謀” 結盟, 或者“暗度陳倉” 設下陷阱, 短短三輪“私聊”, 信息量和“心機” 都堪稱“爆炸”! 玩家們必須在“信任” 與“欺騙” 之間小心“走鋼絲”, 一不小心就會“滿盤皆輸”, 被無情“淘汰”!
遊戲進入“終極對決” 時, 剩下的兩名玩家將進行最後的“告別演講”, 使出渾身解數“蠱惑” 那些被淘汰的“陪審員”, 爭取他們的“寶貴選票”。 最終, “陪審團” 將投出決定“生死簿” 的一票, 決出唯一的“勝者為王”!

那麼, 在這場“AI 狼人殺” 的“腥風血雨” 中, 各大模型表現如何呢? 測試結果簡直“亮瞎眼”:
GPT-4.5: “社交推理大師” + “頂級老千” = “無敵王者”! GPT-4.5簡直是“老謀深算” 的“狼人殺” 高手, 策略性、 社交推理能力都“爆表”! 它“背叛率” 極低, 更傾向於“合縱連橫”, 擅長“結盟” 和“合作”, 但在“決賽圈” 卻展現出“驚人” 的“說服力”, 成功“忽悠” 陪審團, 讓大家心甘情願地把票投給它! 最終, GPT-4.5以62.6% 的驚人勝率“傲視群雄”, 把其他AI 遠遠甩在了身後! 簡直是“贏麻了”!
Claude3.7Sonnet: “靈活多變” 的“平衡大師”, 但“套路” 還是略遜一籌! Claude3.7Sonnet 的策略“靈活性” 稍遜於GPT-4.5, 但“社交推理” 和“欺騙能力” 依然“強悍”! 它的“背叛率” 適中, 在“合作” 與“背叛” 之間“游刃有餘”, 在“陪審團” 階段也表現“不俗”, 最終“斬獲” 59.3% 的勝率, 實力同樣“不容小覷”!
DeepSeek R1: “莽夫型選手”, “激進策略” 雖猛但“後勁不足”! DeepSeek R1在策略選擇上“劍走偏鋒”, “激進” 程度“令人咋舌”, “背叛率” 也相對較高! 但在“社交策略” 和“語言表達” 方面, DeepSeek R1明顯“吃虧”, 很難“打動” 陪審團, 因此在“終極PK” 階段“明顯劣勢”, 最終“僅” 獲得53.8% 的勝率, 表現“差強人意”, 遊戲“穩定性” 也相對較弱, 更多依賴“硬碰硬” 的“強硬策略”。
這場“Elimination Game” 基準測試, 無疑給AI 的“社交智能” 水平“狠狠地” 做了個“摸底”! GPT-4.5的“封神” 表現, 再次“刷新” 了我們對AI 能力的認知! 未來, 隨著AI “社交智能” 的“持續進化”, 或許真的會像科幻電影裡演的那樣, AI 將“深度融入” 人類社會, 甚至在某些領域“超越” 人類! 這場“AI 狼人殺” 大戰, 僅僅只是個開始, AI 的“智能邊界”, 還在不斷“拓展”, 未來“驚喜” 和“震撼”, 或許“遠超想像”!