蘋果CEO庫克盛讚DeepSeek:使用體驗極佳
615
一位12年級學生Adi Singh與團隊開發了Minecraft Benchmark(MC-Bench)網站,通過Minecraft遊戲評估不同AI模型的創作能力。用戶可投票選出表現更佳的模型,投票後才能看到每個作品背後的AI製作者。 Singh表示,選擇Minecraft作為測試平台是因為其廣泛的知名度,使得評估更直觀。
MC-Bench目前有8名志願者參與,並獲得Anthropic、Google、OpenAI和阿里巴巴等主要AI公司的支持。 Singh分享未來願景,計劃擴展到長期規劃和目標導向任務。除Minecraft外,《精靈寶可夢紅》、《街頭霸王》和《你畫我猜》等遊戲也被用作AI實驗基準。
MC-Bench是一個編程基準,要求模型編寫代碼來創建指定的構建。但對大多數用戶而言,評估雪人外觀比深入分析代碼更直觀,這使得該項目具有更廣泛的吸引力,有望收集更多關於模型表現的數據。 Singh堅信這是一個有力信號,幫助公司了解是否朝著正確的方向前進。