蘋果CEO庫克盛讚DeepSeek:使用體驗極佳
616
在人工智能技術快速發展的背景下,評估生成式AI模型的能力成為一個重要課題。近日,一款名為“Minecraft Benchmark”(MC-Bench)的網站引起了廣泛關注。這個平台由一位12年級學生Adi Singh創建,利用《我的世界》遊戲作為測試平台,通過對比AI模型生成的遊戲建築來評估其表現。
MC-Bench的獨特之處在於其“盲選”機制。用戶可以在不知道作品來源的情況下,對AI生成的建築進行投票,選出更符合提示的作品。這種方式旨在更客觀地反映AI模型的生成能力。 Adi Singh選擇《我的世界》作為平台,是因為其廣泛普及性和視覺風格的熟悉度,使得評估更加直觀。
目前,MC-Bench主要測試簡單的建築任務,例如根據提示生成“冰霜之王”或“熱帶小屋”等結構。這種測試方式不僅簡化了評估過程,還提高了用戶的參與度。 Adi Singh表示,未來可能會擴展測試範圍,包括更複雜的任務和目標導向的項目。
MC-Bench的創建得到了多家頂尖AI公司的支持,包括Anthropic、谷歌、OpenAI和阿里巴巴。這些公司為項目提供了使用其產品的補貼,但並未以其他方式參與項目。 Adi Singh認為,MC-Bench可以為AI公司提供有價值的參考,幫助他們判斷研發方向。
MC-Bench的出現為AI評估提供了一種新穎的思路。通過利用大眾熟知的遊戲平台,它將復雜的AI技術能力轉化為直觀的視覺對比,讓更多人能夠參與到AI的評估和認知過程中。雖然這種評估方式的實際價值仍在討論中,但無疑為我們提供了一個觀察AI發展的新窗口。
項目入口:https://top.aibase.com/tool/mc-bench