AI评估困境与NPR谜题测试揭秘

字数 1027,阅读大约需 6 分钟

AI评估困境与NPR谜题测试揭秘
OpenAI是人工智能研究与开发公司,致力于以安全和有益的方式推进人工智能,开发了如GPT系列语言模型等,在自然语言处理、对话AI等领域广泛应用,涵盖内容生成、智能客服、语言翻译等多种场景。

背景:AI评估的困境

目前,AI行业在模型评估方面面临诸多难题。大多数常用测试聚焦于博士级数学和科学问题等技能,与普通用户的实际需求关联性不大。而且,许多评估基准,即便发布时间相对较近,也迅速趋于饱和。东北大学计算机科学教员、相关研究合著者之一Arjun Guha表示:“我们希望开发一个仅需常识,人类就能理解的问题基准。”

根据《2024年人工智能评估基准现状》报告,当前超过70%的AI评估基准测试内容过于专业化,使得普通用户难以参与,也限制了研究人员对AI在更广泛应用场景下推理能力的评估。

NPR周日谜题:独特的评估工具

NPR周日谜题节目由《纽约时报》纵横字谜大师Will Shortz主持。节目中的谜题专为普通听众设计,无需过多专业知识即可尝试解答,但对经验丰富的参赛者来说也颇具挑战性。Guha解释,此类公共广播谜题游戏的优势在于,它不测试晦涩知识,且问题表述方式使模型无法依靠“死记硬背”解决。

Guha说:“我认为这些问题的难点在于,在真正解决问题之前,很难取得实质性进展,直到所有思路瞬间贯通,这需要洞察力与排除法的结合。”该谜题以美国为中心且仅用英语,不过每周都会发布新问题,能在一定程度上确保模型面对全新挑战。

测试结果:模型表现各异

研究团队构建的基准测试包含约600个周日谜题。在测试中,OpenAI的o1以及DeepSeek的R1等推理模型表现远超其他模型。推理模型在给出结果前会进行全面的事实核查,有助于避免一些常见的AI模型陷阱,但代价是得出解决方案所需时间较长,通常比其他模型多几秒到几分钟。

值得注意的是,DeepSeek的R1在部分问题上会给出明知错误的答案,甚至会直接表示 “我放弃”,随后给出一个看似随机的错误答案。此外,模型还会出现其他奇怪行为,如给出错误答案后立即撤回,尝试寻找更好答案却再次失败;或是陷入无休止的“思考”,对答案给出荒谬解释;又或是立刻得出正确答案后,却毫无缘由地继续考虑其他答案。

在该基准测试中,目前表现最佳的是o1,得分59%,紧随其后的是最近发布的o3 – mini(设置为高 “推理努力”),得分47%,R1得分35% 。

行业类似案例与数据对比

此前,斯坦福大学也曾利用类似的日常推理问题构建AI评估基准,发现AI模型在处理语义理解和常识推理方面存在明显不足。在该测试中,超过60%的模型无法正确回答涉及日常生活场景的逻辑问题。

而谷歌的BERT模型在进行类似推理测试时,虽然在语言理解方面表现出色,但在面对需要综合分析和逻辑推导的问题时,正确率仅为40% 。与之相比,本次基于NPR周日谜题的测试,更侧重于考察模型在日常情境下的推理能力,为AI的评估提供了不同维度的参考。

© 版权声明

相关文章

暂无评论

暂无评论...