OpenAI研究揭示：最先進AI仍難以勝任複雜編碼任務

作者: LoRA 時間: 2025年02月24日 349

近日，OpenAI 的研究人員在一篇新發布的論文中坦言，儘管目前的AI 技術已經相當先進，但這些模型依然無法與人類程序員相媲美。 OpenAI 首席執行官山姆・阿爾特曼曾表示，預計到今年底，AI 將能夠戰勝“低級” 軟件工程師，但研究結果卻顯示，這些AI 模型仍然面臨重大挑戰。

代碼互聯網 (1)

在研究中，OpenAI 團隊使用了一種名為SWE-Lancer 的新基準測試，評估了從自由職業網站Upwork 上提取的1400多項軟件工程任務的表現。該測試重點考察了三個大型語言模型（LLM）的編碼能力，包括OpenAI 的o1推理模型、旗艦產品GPT-4o 以及Anthropic 的Claude3.5Sonnet。

這些模型被要求完成兩種類型的任務:一是單個任務，主要集中於修復程序中的錯誤;二是管理任務，要求模型進行更高層次的決策。在測試過程中，這些模型沒有訪問互聯網的權限，意味著它們無法直接查找網上的答案。

儘管這些模型承接的任務總價值高達數十萬美元，但它們只能修復表面性的問題，難以在復雜項目中找到更深層次的錯誤和根本原因。這種情況讓人想起使用AI 的體驗:AI 雖然能快速生成看似正確的信息，但經常會在更深入的檢驗中暴露出不足。

論文指出，雖然這三款LLM 在處理任務的速度上遠超人類，但它們往往無法全面理解錯誤的廣泛性和上下文，這導致它們給出的解決方案常常不夠準確或不夠全面。研究人員表示，Claude3.5Sonnet 的表現優於OpenAI 的兩款模型，獲得的收益也更高，但其回答的準確率仍未達到可信賴的水平。

研究表明，儘管這些先進的AI 模型在某些特定任務上能夠快速運作，但它們在整體軟件工程能力上仍顯不足，遠未達到可以取代人類程序員的水平。然而，這並未阻止一些企業將人類程序員替換為尚不成熟的AI 模型。

OpenAI研究揭示：最先進AI仍難以勝任複雜編碼任務

Manus邀請碼申請攻略

Character.AI 推出AvatarFX：AI 視頻生成模型讓靜態圖片“開口說話”

Manychat完成1.4億美元B輪融資，借AI加速全球社交電商佈局

谷歌AI概覽嚴重衝擊SEO點擊率：Ahrefs研究顯示流量下降超34%