歷史知識成AI軟肋:大型語言模型難解複雜歷史問題

作者: LoRA 時間: 2025年01月20日 750

最新研究顯示，儘管人工智慧在程式設計和內容創作等領域表現出色，但在處理複雜的歷史問題時仍顯不足。近期在NeurIPS會議上公佈的一項研究表明，即使是最先進的大型語言模型（LLM）在歷史知識測試中也難以取得令人滿意的成績。

研究團隊開發了名為Hist-LLM的測試基準，對OpenAI的GPT-4、Meta的Llama和Google的Gemini三款頂級語言模型進行評估。測試基於Seshat全球歷史資料庫進行，結果令人失望:表現最佳的GPT-4Turbo準確率僅46%。

AI機器人寫論文

倫敦大學學院副教授瑪麗亞·德爾裡奧-查諾納解釋說:"這些模型在基本史實方面表現不錯，但在涉及博士級別的深入歷史研究時卻力不從心。"研究發現AI經常在細節上出錯，例如錯誤判斷古埃及某些時期是否擁有特定軍事技術或常備軍。

研究人員認為，這種表現不佳源自於AI模型傾向從主流歷史敘事中推斷，難以準確掌握更為細微的歷史細節。此外，研究也發現這些模型在處理撒哈拉以南非洲等地區的歷史問題時表現較差，暴露出訓練資料可能存在的偏差問題。

複雜性科學中心（CSH）的研究負責人Peter Turchin表示，這項發現說明在某些專業領域，AI尚無法取代人類專家。不過研究團隊仍對AI在歷史研究中的應用前景保持樂觀，他們正在改進測試基準，以期幫助開發出更優秀的模型。