字数 1154,阅读大约需 6 分钟
DeepMind新AI系统:超越国际数学奥林匹克金牌选手,解题能力实现质的飞跃
近日,谷歌DeepMind开发的全新AI系统AlphaGeometry2引发人工智能领域广泛关注。这款系统在几何问题解答方面能力卓越,成功超越国际数学奥林匹克(IMO)金牌选手的平均水平,成为AI发展历程中的又一里程碑事件。
AlphaGeometry2:超越金牌选手的卓越表现
AlphaGeometry2是DeepMind去年发布的AlphaGeometry系统的升级版。研究团队在最新研究中指出,该系统能够解决过去25年间IMO的84%几何问题。在实际测试中,AlphaGeometry2解答IMO的50道问题时成功答对42道,这一成绩超越金牌选手的平均得分。例如,今年夏天,DeepMind展示一种结合AlphaGeometry2与AlphaProof(一个用于正式数学推理的AI模型)的系统,该系统在2024年IMO的预选赛中解答出六道题中的四道。国际数学奥林匹克竞赛作为全球顶尖的中学生数学竞赛,题目难度极高,能获得金牌的选手都是经过层层筛选的数学天才。AlphaGeometry2能在几何问题解答上超越这些金牌选手的平均水平,充分证明其在解题能力上的显著提升。
关注IMO:解锁AI能力提升的关键
有人或许疑惑,为什么DeepMind会关注高中数学竞赛。研究人员认为,解决复杂几何问题的新方法,尤其是欧几里得几何方面,是提升AI能力的关键。证明数学定理需要强大的推理能力和选择合适解决步骤的能力,这些能力对未来通用AI模型的发展至关重要。以勾股定理的证明为例,人类数学家需通过逻辑推理和选择多个可能步骤来完成证明。同样,AI若要在更广泛领域实现突破,也需具备类似能力。IMO的题目能很好地锻炼和检验AI在这方面的能力,攻克IMO几何问题,有望为AI能力提升开辟新道路。
AlphaGeometry2的核心技术与工作流程
AlphaGeometry2的核心包括来自谷歌Gemini家族的语言模型和一个“符号引擎”。Gemini模型在其中起关键引导作用,能帮助符号引擎利用数学规则推导出问题的解决方案。其具体工作流程为:Gemini模型首先预测哪些构造(如点、线、圆)可能对解题有帮助,然后符号引擎根据这些构造进行逻辑推理。经过一系列复杂搜索,AlphaGeometry2能将Gemini模型的建议与已知原则结合,从而得出证明。这种结合语言模型和符号引擎的方式,为解决复杂数学问题提供一种全新思路。
AlphaGeometry2的局限性
尽管AlphaGeometry2取得令人瞩目的成绩,但仍存在一些局限性。它无法解决变量数量不定的点、非线性方程和不等式。此外,在一些更难的题目上,AlphaGeometry2的表现并不理想,仅解决29道题中的20道。这项研究引发关于AI系统究竟应该基于符号操作还是更类脑的神经网络的讨论。AlphaGeometry2采用的是一种混合方法,结合神经网络和基于规则的符号引擎。DeepMind的团队指出,虽然大型语言模型可能在没有外部工具的情况下生成部分解决方案,但在当前情况下,符号引擎仍然是数学应用中的重要工具。