E 在高級歷史考試中表現不佳：GPT-4 Turbo 準確率僅46%

作者: LoRA 時間: 2025年01月21日 314

近日，一項由奧地利複雜科學研究所（CSH）主導的研究顯示，儘管大型語言模型(LLMs)在多項任務中表現優異，但在應對高級歷史問題時卻暴露了短板。研究團隊針對三大頂尖模型進行測試，包括OpenAI 的GPT-4、Meta 的Llama 和Google的Gemini，結果令人失望。

機器人競賽答案數學

為了評估這些模型在歷史知識上的表現，研究者們開發了一個名為「Hist-LLM」的基準測試工具。該工具依據Seshat 全球歷史資料庫，旨在驗證AI 回答歷史問題的準確性。研究結果在知名人工智慧會議NeurIPS 上公佈，數據顯示，表現最佳的GPT-4Turbo 的準確率僅為46%。這結果顯示，其表現僅比隨機猜測稍好。

倫敦大學學院電腦科學副教授Maria del Rio-Chanona 表示：「儘管大型語言模型令人印象深刻，但它們在高級歷史知識方面的理解深度仍顯不足。它們擅長處理簡單的事實，但在應對更複雜的歷史問題時卻顯得無能為力。此外，當研究者詢問古埃及是否擁有職業常備軍時，GPT-4也錯誤地回答“有”，而實際答案是沒有。

研究也揭示出，模型在處理一些特定區域（如撒哈拉以南非洲）的問題時表現較差，這表明其訓練資料可能存在一定偏見。研究負責人Peter Turchin 指出，這些結果反映了在某些領域，LLMs 仍無法取代人類。