近日,OpenAI 的研究人員在一篇新發布的論文中坦言,儘管目前的AI 技術已經相當先進,但這些模型依然無法與人類程序員相媲美。 OpenAI 首席執行官山姆・阿爾特曼曾表示,預計到今年底,AI 將能夠戰勝“低級” 軟件工程師,但研究結果卻顯示,這些AI 模型仍然面臨重大挑戰。
在研究中,OpenAI 團隊使用了一種名為SWE-Lancer 的新基準測試,評估了從自由職業網站Upwork 上提取的1400多項軟件工程任務的表現。該測試重點考察了三個大型語言模型(LLM)的編碼能力,包括OpenAI 的o1推理模型、旗艦產品GPT-4o 以及Anthropic 的Claude3.5Sonnet。
這些模型被要求完成兩種類型的任務:一是單個任務,主要集中於修復程序中的錯誤;二是管理任務,要求模型進行更高層次的決策。在測試過程中,這些模型沒有訪問互聯網的權限,意味著它們無法直接查找網上的答案。
儘管這些模型承接的任務總價值高達數十萬美元,但它們只能修復表面性的問題,難以在復雜項目中找到更深層次的錯誤和根本原因。這種情況讓人想起使用AI 的體驗:AI 雖然能快速生成看似正確的信息,但經常會在更深入的檢驗中暴露出不足。
論文指出,雖然這三款LLM 在處理任務的速度上遠超人類,但它們往往無法全面理解錯誤的廣泛性和上下文,這導致它們給出的解決方案常常不夠準確或不夠全面。研究人員表示,Claude3.5Sonnet 的表現優於OpenAI 的兩款模型,獲得的收益也更高,但其回答的準確率仍未達到可信賴的水平。
研究表明,儘管這些先進的AI 模型在某些特定任務上能夠快速運作,但它們在整體軟件工程能力上仍顯不足,遠未達到可以取代人類程序員的水平。然而,這並未阻止一些企業將人類程序員替換為尚不成熟的AI 模型。