字数 866,阅读大约需 5 分钟

AlphaGeometry2:超越IMO金牌得主的AI系统
近日,谷歌旗下DeepMind开发的AI系统AlphaGeometry2,在解决国际数学竞赛几何问题上超越了普通国际数学奥林匹克(IMO)金牌得主,引发人工智能领域广泛关注。
AlphaGeometry2的卓越表现
AlphaGeometry2是DeepMind于去年1月发布的AlphaGeometry的改进版本。DeepMind研究人员在一项最新研究中称,该AI能解决过去25年IMO中84%的几何问题。研究团队从2000年至2024年的IMO竞赛里挑选45道几何问题,涵盖线性方程及平面几何对象移动方程等,因技术原因将部分问题拆分,形成50道问题。AlphaGeometry2成功解决其中42道,超过普通金牌得主40.9分的平均成绩。
技术原理与创新
- 1. 核心要素:AlphaGeometry2包含谷歌Gemini系列AI模型的语言模型与“符号引擎”。
- 2. 工作机制:Gemini模型助力符号引擎,符号引擎运用数学规则推断解决方案、证明几何定理。在IMO几何问题中,需添加点、线、圆等“构造”,Gemini模型预测有用构造,符号引擎据此推导,同时通过搜索算法并行搜索解决方案,并存储有用发现。当结合Gemini模型建议与符号引擎原理得出证明,问题即解决。
数据训练的突破
因证明转化为AI可理解格式复杂,几何训练数据匮乏,DeepMind创建合成数据训练AlphaGeometry2语言模型,生成超3亿个不同复杂程度的定理和证明,为AI复杂数学问题训练提供新思路。
与其他AI系统对比及局限
- 1. 优势:AlphaGeometry2并非首个在几何问题达金牌水平的AI系统,却是首个在大规模问题集实现此成绩的。对比OpenAI的o1“推理”模型,虽同具神经网络架构,但o1无法解决AlphaGeometry2能回答的IMO问题。
- 2. 局限:在更难的IMO问题上表现欠佳,如因技术缺陷无法解决可变点数、非线性方程和不等式问题。在由数学专家提名但未出现在竞赛中的29道问题测试中,仅能解决20道。
引发的行业思考
该研究结果引发关于AI系统构建方式的争论,即基于符号操作还是神经网络。AlphaGeometry2采用混合方法,Gemini模型具神经网络架构,符号引擎基于规则。神经网络技术支持者认为大量数据和计算可实现智能行为;符号AI支持者则认为符号AI更适合编码知识、推理及解释答案。卡内基梅隆大学教授Vince Conitzer指出,AI在基准测试有进展,但在常识问题上仍挣扎,需更好理解其及带来的风险。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...