美國程序員就業人數因AI衝擊降至1980年以來新低
414
《Factorio》作为一款复杂的建造与资源管理游戏,最近被用于评估人工智能的能力。研究团队开发了“Factorio 学习环境”(FLE),提供实验模式和开放模式两种测试方式。实验模式包含24个结构化挑战,而开放模式则允许AI探索程序生成的地图,目标是建造尽可能大的工厂。
通过Python API,AI代理可以与《Factorio》进行交互,执行各种操作并监控游戏状态。研究者评估了六种领先的语言模型在FLE环境下的表现,包括Claude3.5Sonnet、GPT-4o等。测试结果显示,这些模型在空间推理、长期规划和错误纠正方面面临显著挑战。
在测试中,Claude3.5Sonnet表现最为出色,完成了24个任务中的15个,并在开放测试中获得了2456分的生产评分。研究者认为,FLE的开放性和可扩展性使其在未来测试更强大的语言模型时具有重要价值,并建议扩展该环境以包含多代理场景和人类表现基准。
Factorio 学习环境:https://top.aibase.com/tool/factorio-learning-environment