AI 在历史知识测试中表现不佳,引发对其应用局限的思考

AI 在历史知识测试中表现不佳,引发对其应用局限的思考

OpenAI

AI 在历史知识测试中表现不佳,引发对其应用局限的思考

近期,一项研究揭示了AI在历史知识领域的短板。研究团队精心打造了一个全新的基准测试——Hist-LLM,旨在检验当下三款顶尖大型语言模型(LLMs):OpenAIGPT-4Meta的Llama以及Google的Gemini在历史问题上的回答能力。该基准测试依据Seshat全球历史数据库来判断答案的正确性,Seshat全球历史数据库以古埃及智慧女神之名命名,蕴含着海量的历史知识。

研究结果在上月举行的备受瞩目的AI学术会议NeurIPS上公布,着实令人失望。据奥地利的Complexity Science Hub(CSH)研究机构的研究人员透露,表现最佳的GPT-4 Turbo模型,其准确率也仅约46%,几乎与随机猜测无异。伦敦大学学院计算机科学副教授、该论文的共同作者Maria del Rio-Chanona指出:“此项研究的关键结论是,尽管大型语言模型令人赞叹,但在深度历史理解方面仍有欠缺。它们擅长处理基础事实,然而面对更为细致、达到博士研究水平的历史探究,就力不从心了。”

研究人员还分享了一些语言模型答错的历史问题实例。例如,当被问及古埃及特定时期是否存在鱼鳞甲时,GPT-4 Turbo给出肯定回答,可实际上该技术在1500年后才在埃及出现。又如,在回答古埃及特定历史时期是否拥有专业常备军这一问题时,正确答案为否,但GPT-4却给出错误肯定回答。这很可能是因为公众对诸如波斯等其他古代帝国拥有常备军的信息了解较多,语言模型倾向于从突出的历史数据中推断,难以获取较为冷僻的历史知识。

此外,研究人员还发现了其他趋势,OpenAI和Llama模型在回答诸如撒哈拉以南非洲等特定地区的问题时表现更差,这暗示了其训练数据可能存在潜在偏差。

领导此项研究的CSH教员Peter Turchin表示,这一结果表明,在某些领域,大型语言模型仍无法取代人类。不过,研究人员对大型语言模型未来助力历史学家开展研究仍充满希望。他们正致力于优化基准测试,计划纳入更多来自代表性不足地区的数据,并增加更复杂的问题。正如论文中所写:“总体而言,我们的研究结果既凸显了大型语言模型有待改进之处,也强调了这些模型在历史研究中的潜在价值。”

© 版权声明

相关文章

暂无评论

暂无评论...