揭秘AI新突破：推理时搜索的争议与未来

字数 1611，阅读大约需 9 分钟

深入探讨AI领域最新‘扩展法则’的争议与前景

一种名为‘推理时搜索’（inference-time search）的新方法，声称能够通过让模型生成多个答案并自我验证来提升性能。这一方法甚至使旧版模型如Google的Gemini 1.5 Pro在科学和数学基准测试中超越了OpenAI的o1-preview模型。然而，业内专家对此表示怀疑，指出这种方法依赖于良好的评估函数，并不适合所有场景，特别是那些没有明确解决方案的问题。本文将深入分析这一新发现背后的原理、其实际应用潜力以及为何它可能无法成为解决大多数问题的通用策略。

‘扩展法则’的演变

AI扩展法则（scaling laws）是一个非正式概念，描述了AI模型性能如何随着训练数据集和计算资源的增加而提升。直到大约一年前，扩大‘预训练’规模——在越来越大的数据集上训练越来越大的模型——是主导法则，至少在大多数前沿AI实验室中是如此。然而，随着技术的发展，‘后训练扩展’（post-training scaling）和‘测试时扩展’（test-time scaling）两种新的扩展法则逐渐崭露头角，与预训练法则相辅相成。后训练扩展主要涉及调整模型的行为，而测试时扩展则通过在推理（即运行模型）时应用更多计算来驱动一种形式的‘推理’（例如R1模型）。

‘推理时搜索’的原理与争议

Google和加州大学伯克利分校的研究人员最近在一篇论文中提出了所谓的第四种扩展法则：‘推理时搜索’。该方法让模型并行生成多个可能的答案，然后从中选择‘最佳’答案。研究人员声称，通过随机采样200个响应并进行自我验证，Gemini 1.5 Pro这一2024年初的旧模型，能够在科学和数学基准测试中超越o1-preview模型，甚至接近o1模型的水平。论文的共同作者之一、Google博士研究员Eric Zhao在X平台上的一系列帖子中表示：“自我验证的神奇之处在于，随着规模的扩大，它自然变得更容易！你可能会认为，在更大的解决方案池中挑选正确答案会变得更难，但事实恰恰相反！”

然而，一些专家认为这些结果并不令人惊讶，并且‘推理时搜索’可能在许多场景中并不实用。阿尔伯塔大学AI研究员兼助理教授Matthew Guzdial表示，这种方法在存在良好‘评估函数’的情况下效果最佳——换句话说，当问题的正确答案可以轻松确定时。但大多数查询并非如此简单明了。他表示：“如果我们无法编写代码来定义我们想要的内容，我们就无法使用[推理时]搜索。对于像一般语言交互这样的问题，我们无法做到这一点……这通常不是解决大多数问题的最佳方法。”

伦敦国王学院专门研究AI的研究员Mike Cook同意Guzdial的评估，并补充说这突显了AI意义上的‘推理’与我们自身思维过程之间的差距。他表示：“[推理时搜索]并没有‘提升模型的推理过程’，它只是一种绕过技术局限性的方法，这种技术容易犯下非常自信的错误……直觉上，如果你的模型有5%的错误率，那么检查200次尝试同一个问题应该会使这些错误更容易被发现。”

‘推理时搜索’的局限性与行业需求

对于一个渴望以计算高效的方式扩展模型‘推理’能力的AI行业来说，‘推理时搜索’可能存在局限性的消息无疑是不受欢迎的。正如论文的共同作者所指出的，如今的推理模型在单个数学问题上可能消耗数千美元的计算资源。看来，对新扩展技术的探索仍将继续。

当前AI行业对计算效率高的‘推理’模型的需求日益增长。随着模型规模的不断扩大，计算资源的消耗也呈指数级增长。因此，寻找能够提高模型性能同时降低计算成本的方法成为当务之急。‘推理时搜索’作为一种潜在的解决方案，虽然在特定场景下展现出了潜力，但其对良好评估函数的依赖以及在复杂问题中的局限性，使其难以成为解决大多数问题的通用策略。

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

揭秘AI新突破：推理时搜索的争议与未来

深入探讨AI领域最新‘扩展法则’的争议与前景

‘扩展法则’的演变

‘推理时搜索’的原理与争议

‘推理时搜索’的局限性与行业需求

Dataminr获8500万美元融资，加速AI技术与全球扩展

Tera AI：革新机器人视觉导航，780万美元种子轮融资

相关文章

暂无评论