字数 1679,阅读大约需 9 分钟
![DeepSeek 用NPR周日谜题,给AI推理模型做测试!](https://aimgsgoheap.codexiu.cn/2025/02/image-2025-02-04-deepseek.webp)
研究人员利用NPR周日谜题测试AI推理模型
在人工智能领域,对模型推理能力的评估始终是研究重点。近期,来自韦尔斯利学院、欧柏林学院、德克萨斯大学奥斯汀分校、东北大学以及一家初创公司的研究团队,借助NPR周日谜题构建了全新的AI基准测试,以此探究AI解决问题的能力边界。
为何选择NPR周日谜题
每周日,NPR主持人、《纽约时报》纵横字谜专家威尔·肖尔茨(Will Shortz)在“周日谜题”节目环节中,向数千听众出题。这些谜题无需过多专业知识即可解答,但对专业参赛者也颇具挑战性。
当前,AI行业在基准测试方面面临困境。多数常用测试针对的是如博士级数学和科学问题等与普通用户无关的技能,且许多基准测试(包括近期发布的)已接近饱和点。而“周日谜题”这类公共广播问答游戏优势明显,它不测试晦涩知识,谜题表述方式使模型无法依靠“死记硬背”解决问题。正如东北大学计算机科学本科生、该研究合著者之一阿尔琼·古哈(Arjun Guha)所说:“这些问题难就难在,解决问题前难有实质性进展,而一旦解决,所有思路会瞬间明晰,这需要洞察力与排除法的结合。”
基准测试的局限性
该基准测试存在一定局限。“周日谜题”以美国为中心且仅用英语出题。由于谜题公开,理论上基于这些谜题训练的模型可能存在“作弊”情况,但古哈表示尚未发现此类证据。他还提到:“每周都会发布新问题,最新问题应是模型未曾见过的。我们将保持基准测试的时效性,追踪模型性能随时间的变化。”
模型表现差异显著
研究团队构建的基准测试包含约600个周日谜题。在测试中,OpenAI的o1和DeepSeek的R1等推理模型表现远超其他模型。推理模型在给出结果前会全面核实事实,有助于避免一些常使AI模型出错的陷阱,不过得出答案的时间稍长,通常会长达几秒到几分钟。
值得注意的是,DeepSeek的R1在部分谜题上会给出明知错误的答案,甚至会直接说 “我放弃”,随后给出一个看似随机的错误答案。此外,模型还会出现其他奇怪行为,比如给出错误答案后立即撤回,试图找出更好答案却再次失败;或是陷入“思考”无法自拔,给出荒谬的答案解释;又或是立刻得出正确答案后,却无明显缘由地继续考虑其他答案。古哈提到:“在难题上,R1会直说自己‘受挫’了,看到模型模仿人类的表述很有趣,但推理中的‘受挫’会如何影响模型结果还有待观察。”
从得分来看,当前基准测试中表现最佳的是o1,得分59%,其次是近期发布且设置为高“推理努力”的o3 – mini,得分47%,R1得分35%。
研究后续计划
下一步,研究人员计划将测试范围扩大到更多推理模型,希望借此找出模型可提升的方向。古哈指出:“擅长推理无需博士学位,因此应能设计出无需博士级知识的推理基准测试。更易获取的基准测试能让更多研究人员理解和分析结果,进而推动未来更好解决方案的产生。此外,随着先进模型在影响大众的场景中日益广泛应用,我们认为每个人都应能直观了解这些模型的能力范围。”
相关事件及相似案例
在AI基准测试领域,过往有诸多类似尝试。
例如,谷歌曾利用图像识别任务构建基准测试,评估不同模型在图像理解方面的能力。当时,谷歌收集大量公开图像数据,并设计一系列复杂的图像识别挑战,如识别不同场景下的物体、判断图像中的动作等,来测试模型的性能。与此次利用NPR周日谜题测试AI推理模型类似,谷歌的图像识别基准测试同样旨在找到一种能有效衡量模型在特定领域能力的方法,且都面临数据可能被模型“记忆”从而影响测试公平性的问题。
又如,在自然语言处理领域,斯坦福大学发起的GLUE(General Language Understanding Evaluation)基准测试,旨在评估模型在多种自然语言理解任务上的表现,涵盖文本蕴含、情感分析等。该基准测试与此次基于NPR周日谜题的测试一样,都希望通过多样化的任务设置,全面评估模型的能力。然而,GLUE基准测试也面临着随着模型发展逐渐饱和的问题,这与当前AI行业基准测试面临的困境相符。
从数据方面来看,在过去几年中,AI模型在传统基准测试上的准确率提升速度逐渐放缓。例如在常见的图像分类基准测试中,2020 – 2022年期间,模型准确率平均每年提升10%,而到了2023 – 2024年,这一提升幅度降至5%。这进一步证明了寻找新的、更具挑战性的基准测试对于推动AI发展的重要性。
在初创公司方面,类似利用独特数据或任务构建AI基准测试的案例也不少。某专注于AI教育领域的初创公司,收集中小学各学科的难题,构建了针对教育场景的AI基准测试,以评估模型在辅助教学方面的能力,如解题思路的准确性、对学生问题的理解能力等。该公司的做法与此次研究团队利用NPR周日谜题构建基准测试类似,都是基于特定场景需求,寻找更贴合实际应用的测试方式。