DeepMind新AI：超越IMO金牌选手，解题能力大飞跃

字数 1154，阅读大约需 6 分钟

DeepMind新AI系统：超越国际数学奥林匹克金牌选手，解题能力实现质的飞跃

近日，谷歌DeepMind开发的全新AI系统AlphaGeometry2引发人工智能领域广泛关注。这款系统在几何问题解答方面能力卓越，成功超越国际数学奥林匹克（IMO）金牌选手的平均水平，成为AI发展历程中的又一里程碑事件。

AlphaGeometry2：超越金牌选手的卓越表现

AlphaGeometry2是DeepMind去年发布的AlphaGeometry系统的升级版。研究团队在最新研究中指出，该系统能够解决过去25年间IMO的84%几何问题。在实际测试中，AlphaGeometry2解答IMO的50道问题时成功答对42道，这一成绩超越金牌选手的平均得分。例如，今年夏天，DeepMind展示一种结合AlphaGeometry2与AlphaProof（一个用于正式数学推理的AI模型）的系统，该系统在2024年IMO的预选赛中解答出六道题中的四道。国际数学奥林匹克竞赛作为全球顶尖的中学生数学竞赛，题目难度极高，能获得金牌的选手都是经过层层筛选的数学天才。AlphaGeometry2能在几何问题解答上超越这些金牌选手的平均水平，充分证明其在解题能力上的显著提升。

关注IMO：解锁AI能力提升的关键

有人或许疑惑，为什么DeepMind会关注高中数学竞赛。研究人员认为，解决复杂几何问题的新方法，尤其是欧几里得几何方面，是提升AI能力的关键。证明数学定理需要强大的推理能力和选择合适解决步骤的能力，这些能力对未来通用AI模型的发展至关重要。以勾股定理的证明为例，人类数学家需通过逻辑推理和选择多个可能步骤来完成证明。同样，AI若要在更广泛领域实现突破，也需具备类似能力。IMO的题目能很好地锻炼和检验AI在这方面的能力，攻克IMO几何问题，有望为AI能力提升开辟新道路。

AlphaGeometry2的核心技术与工作流程

AlphaGeometry2的核心包括来自谷歌Gemini家族的语言模型和一个“符号引擎”。Gemini模型在其中起关键引导作用，能帮助符号引擎利用数学规则推导出问题的解决方案。其具体工作流程为：Gemini模型首先预测哪些构造（如点、线、圆）可能对解题有帮助，然后符号引擎根据这些构造进行逻辑推理。经过一系列复杂搜索，AlphaGeometry2能将Gemini模型的建议与已知原则结合，从而得出证明。这种结合语言模型和符号引擎的方式，为解决复杂数学问题提供一种全新思路。

AlphaGeometry2的局限性

尽管AlphaGeometry2取得令人瞩目的成绩，但仍存在一些局限性。它无法解决变量数量不定的点、非线性方程和不等式。此外，在一些更难的题目上，AlphaGeometry2的表现并不理想，仅解决29道题中的20道。这项研究引发关于AI系统究竟应该基于符号操作还是更类脑的神经网络的讨论。AlphaGeometry2采用的是一种混合方法，结合神经网络和基于规则的符号引擎。DeepMind的团队指出，虽然大型语言模型可能在没有外部工具的情况下生成部分解决方案，但在当前情况下，符号引擎仍然是数学应用中的重要工具。

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...