中文(繁體)

目前位置: 首頁> AI 資訊

E 在高級歷史考試中表現不佳:GPT-4 Turbo 準確率僅46%

作者: LoRA 時間: 2025年01月21日 314

近日,一項由奧地利複雜科學研究所(CSH)主導的研究顯示,儘管大型語言模型(LLMs)在多項任務中表現優異,但在應對高級歷史問題時卻暴露了短板。研究團隊針對三大頂尖模型進行測試,包括OpenAI 的GPT-4、Meta 的Llama 和Google的Gemini,結果令人失望。

機器人競賽 答案 數學

為了評估這些模型在歷史知識上的表現,研究者們開發了一個名為「Hist-LLM」 的基準測試工具。該工具依據Seshat 全球歷史資料庫,旨在驗證AI 回答歷史問題的準確性。研究結果在知名人工智慧會議NeurIPS 上公佈,數據顯示,表現最佳的GPT-4Turbo 的準確率僅為46%。這結果顯示,其表現僅比隨機猜測稍好。

倫敦大學學院電腦科學副教授Maria del Rio-Chanona 表示:「儘管大型語言模型令人印象深刻,但它們在高級歷史知識方面的理解深度仍顯不足。它們擅長處理簡單的事實,但在應對更複雜的歷史問題時卻顯得無能為力。此外,當研究者詢問古埃及是否擁有職業常備軍時,GPT-4也錯誤地回答“有”,而實際答案是沒有。

研究也揭示出,模型在處理一些特定區域(如撒哈拉以南非洲)的問題時表現較差,這表明其訓練資料可能存在一定偏見。研究負責人Peter Turchin 指出,這些結果反映了在某些領域,LLMs 仍無法取代人類。