AI评估困境与NPR谜题测试揭秘

字数 1027，阅读大约需 6 分钟

背景：AI评估的困境

目前，AI行业在模型评估方面面临诸多难题。大多数常用测试聚焦于博士级数学和科学问题等技能，与普通用户的实际需求关联性不大。而且，许多评估基准，即便发布时间相对较近，也迅速趋于饱和。东北大学计算机科学教员、相关研究合著者之一Arjun Guha表示：“我们希望开发一个仅需常识，人类就能理解的问题基准。”

根据《2024年人工智能评估基准现状》报告，当前超过70%的AI评估基准测试内容过于专业化，使得普通用户难以参与，也限制了研究人员对AI在更广泛应用场景下推理能力的评估。

NPR周日谜题：独特的评估工具

NPR周日谜题节目由《纽约时报》纵横字谜大师Will Shortz主持。节目中的谜题专为普通听众设计，无需过多专业知识即可尝试解答，但对经验丰富的参赛者来说也颇具挑战性。Guha解释，此类公共广播谜题游戏的优势在于，它不测试晦涩知识，且问题表述方式使模型无法依靠“死记硬背”解决。

Guha说：“我认为这些问题的难点在于，在真正解决问题之前，很难取得实质性进展，直到所有思路瞬间贯通，这需要洞察力与排除法的结合。”该谜题以美国为中心且仅用英语，不过每周都会发布新问题，能在一定程度上确保模型面对全新挑战。

测试结果：模型表现各异

研究团队构建的基准测试包含约600个周日谜题。在测试中，OpenAI的o1以及DeepSeek的R1等推理模型表现远超其他模型。推理模型在给出结果前会进行全面的事实核查，有助于避免一些常见的AI模型陷阱，但代价是得出解决方案所需时间较长，通常比其他模型多几秒到几分钟。

值得注意的是，DeepSeek的R1在部分问题上会给出明知错误的答案，甚至会直接表示 “我放弃”，随后给出一个看似随机的错误答案。此外，模型还会出现其他奇怪行为，如给出错误答案后立即撤回，尝试寻找更好答案却再次失败；或是陷入无休止的“思考”，对答案给出荒谬解释；又或是立刻得出正确答案后，却毫无缘由地继续考虑其他答案。

在该基准测试中，目前表现最佳的是o1，得分59%，紧随其后的是最近发布的o3 – mini（设置为高 “推理努力”），得分47%，R1得分35% 。

行业类似案例与数据对比

此前，斯坦福大学也曾利用类似的日常推理问题构建AI评估基准，发现AI模型在处理语义理解和常识推理方面存在明显不足。在该测试中，超过60%的模型无法正确回答涉及日常生活场景的逻辑问题。

而谷歌的BERT模型在进行类似推理测试时，虽然在语言理解方面表现出色，但在面对需要综合分析和逻辑推导的问题时，正确率仅为40% 。与之相比，本次基于NPR周日谜题的测试，更侧重于考察模型在日常情境下的推理能力，为AI的评估提供了不同维度的参考。

# AI快讯

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

AI评估困境与NPR谜题测试揭秘

背景：AI评估的困境

NPR周日谜题：独特的评估工具

测试结果：模型表现各异

行业类似案例与数据对比

学而思“随时问”APP：开启AI教育新时代

AI解读动物情感：开启养殖与宠物关怀新时代

相关文章

暂无评论