用NPR周日谜题，给AI推理模型做测试！

字数 1679，阅读大约需 9 分钟

研究人员利用NPR周日谜题测试AI推理模型

在人工智能领域，对模型推理能力的评估始终是研究重点。近期，来自韦尔斯利学院、欧柏林学院、德克萨斯大学奥斯汀分校、东北大学以及一家初创公司的研究团队，借助NPR周日谜题构建了全新的AI基准测试，以此探究AI解决问题的能力边界。

为何选择NPR周日谜题

每周日，NPR主持人、《纽约时报》纵横字谜专家威尔·肖尔茨（Will Shortz）在“周日谜题”节目环节中，向数千听众出题。这些谜题无需过多专业知识即可解答，但对专业参赛者也颇具挑战性。

当前，AI行业在基准测试方面面临困境。多数常用测试针对的是如博士级数学和科学问题等与普通用户无关的技能，且许多基准测试（包括近期发布的）已接近饱和点。而“周日谜题”这类公共广播问答游戏优势明显，它不测试晦涩知识，谜题表述方式使模型无法依靠“死记硬背”解决问题。正如东北大学计算机科学本科生、该研究合著者之一阿尔琼·古哈（Arjun Guha）所说：“这些问题难就难在，解决问题前难有实质性进展，而一旦解决，所有思路会瞬间明晰，这需要洞察力与排除法的结合。”

基准测试的局限性

该基准测试存在一定局限。“周日谜题”以美国为中心且仅用英语出题。由于谜题公开，理论上基于这些谜题训练的模型可能存在“作弊”情况，但古哈表示尚未发现此类证据。他还提到：“每周都会发布新问题，最新问题应是模型未曾见过的。我们将保持基准测试的时效性，追踪模型性能随时间的变化。”

模型表现差异显著

研究团队构建的基准测试包含约600个周日谜题。在测试中，OpenAI的o1和DeepSeek的R1等推理模型表现远超其他模型。推理模型在给出结果前会全面核实事实，有助于避免一些常使AI模型出错的陷阱，不过得出答案的时间稍长，通常会长达几秒到几分钟。

值得注意的是，DeepSeek的R1在部分谜题上会给出明知错误的答案，甚至会直接说 “我放弃”，随后给出一个看似随机的错误答案。此外，模型还会出现其他奇怪行为，比如给出错误答案后立即撤回，试图找出更好答案却再次失败；或是陷入“思考”无法自拔，给出荒谬的答案解释；又或是立刻得出正确答案后，却无明显缘由地继续考虑其他答案。古哈提到：“在难题上，R1会直说自己‘受挫’了，看到模型模仿人类的表述很有趣，但推理中的‘受挫’会如何影响模型结果还有待观察。”

从得分来看，当前基准测试中表现最佳的是o1，得分59%，其次是近期发布且设置为高“推理努力”的o3 – mini，得分47%，R1得分35%。

研究后续计划

下一步，研究人员计划将测试范围扩大到更多推理模型，希望借此找出模型可提升的方向。古哈指出：“擅长推理无需博士学位，因此应能设计出无需博士级知识的推理基准测试。更易获取的基准测试能让更多研究人员理解和分析结果，进而推动未来更好解决方案的产生。此外，随着先进模型在影响大众的场景中日益广泛应用，我们认为每个人都应能直观了解这些模型的能力范围。”

暂无评论

暂无评论...

用NPR周日谜题，给AI推理模型做测试！

研究人员利用NPR周日谜题测试AI推理模型

为何选择NPR周日谜题

基准测试的局限性

模型表现差异显著

研究后续计划

相关事件及相似案例

Trace.Space获400万种子轮融资，借AI颠覆工业产品设计

2025科技巨头豪掷千亿加码AI，竞赛升级！

相关文章

暂无评论