字数 998,阅读大约需 5 分钟

深入探讨最新AGI测试:ARC-AGI-2如何挑战顶尖AI模型
由François Chollet共同创立的Arc Prize基金会[1]近期发布了一项名为ARC-AGI-2的新测试,旨在更准确地衡量AI的真正智能水平。这一测试不仅难倒了包括OpenAI的o1-pro和DeepSeek的R1在内的多数‘推理’型AI模型,还通过引入效率指标和即时模式识别要求,解决了前一代测试的主要缺陷。本文将详细介绍ARC-AGI-2的特点、顶级AI模型在测试中的表现以及这一测试对未来AI研究和发展方向的意义。
ARC-AGI-2测试简介
ARC-AGI-2测试由一系列类似谜题的问题组成,要求AI从一组不同颜色的方块中识别视觉模式,并生成正确的“答案”网格。这些问题旨在迫使AI适应以前从未见过的新问题。与前一代测试ARC-AGI-1相比,ARC-AGI-2引入了效率指标,并要求模型即时解释模式,而不是依赖记忆。这一改进旨在防止AI模型依赖“暴力计算”(即大量计算能力)来寻找解决方案,这是ARC-AGI-1的主要缺陷之一。
顶级AI模型在ARC-AGI-2上的表现
根据Arc Prize排行榜的数据,目前大多数顶级AI模型在ARC-AGI-2测试中的表现都不尽如人意。例如,OpenAI的o1-pro和DeepSeek的R1等“推理”型AI模型的得分在1%到1.3%之间,而强大的非推理型模型如GPT-4.5、Claude 3.7 Sonnet和Gemini 2.0 Flash的得分也仅在1%左右。相比之下,Arc Prize基金会邀请了400多人参加ARC-AGI-2测试以建立人类基准,平均而言,这些参与者组成的“小组”能够正确回答测试中60%的问题,远高于任何模型的得分。
ARC-AGI-2对未来AI研究的意义
ARC-AGI-2测试的发布正值科技行业呼吁新的、未饱和的基准来衡量AI进展之际。Hugging Face的联合创始人Thomas Wolf最近在接受采访时表示,AI行业缺乏足够的测试来衡量所谓人工通用智能(AGI)的关键特征,包括创造力。ARC-AGI-2通过引入效率指标和即时模式识别要求,为评估AI系统在训练数据之外有效获取新技能的能力提供了更好的衡量标准。这不仅有助于我们更准确地理解AI的真正智能水平,还为未来的AI研究和发展方向提供了新的思路。
Arc Prize 2025竞赛
除了发布ARC-AGI-2测试外,Arc Prize基金会还宣布了一项新的Arc Prize 2025竞赛,挑战开发者在每项任务仅花费0.42美元的情况下,在ARC-AGI-2测试中达到85%的准确率。这一竞赛旨在鼓励开发者在限定成本内提高AI性能,进一步推动AI技术的发展。通过这样的竞赛,我们可以更好地了解AI在实际应用中的潜力和限制,并推动AI研究朝着更高效、更智能的方向发展。