揭秘ARC-AGI-2：挑战顶尖AI模型的新测试

字数 998，阅读大约需 5 分钟

深入探讨最新AGI测试：ARC-AGI-2如何挑战顶尖AI模型

由François Chollet共同创立的Arc Prize基金会^[1]近期发布了一项名为ARC-AGI-2的新测试，旨在更准确地衡量AI的真正智能水平。这一测试不仅难倒了包括OpenAI的o1-pro和DeepSeek的R1在内的多数‘推理’型AI模型，还通过引入效率指标和即时模式识别要求，解决了前一代测试的主要缺陷。本文将详细介绍ARC-AGI-2的特点、顶级AI模型在测试中的表现以及这一测试对未来AI研究和发展方向的意义。

ARC-AGI-2测试简介

ARC-AGI-2测试由一系列类似谜题的问题组成，要求AI从一组不同颜色的方块中识别视觉模式，并生成正确的“答案”网格。这些问题旨在迫使AI适应以前从未见过的新问题。与前一代测试ARC-AGI-1相比，ARC-AGI-2引入了效率指标，并要求模型即时解释模式，而不是依赖记忆。这一改进旨在防止AI模型依赖“暴力计算”（即大量计算能力）来寻找解决方案，这是ARC-AGI-1的主要缺陷之一。

顶级AI模型在ARC-AGI-2上的表现

根据Arc Prize排行榜的数据，目前大多数顶级AI模型在ARC-AGI-2测试中的表现都不尽如人意。例如，OpenAI的o1-pro和DeepSeek的R1等“推理”型AI模型的得分在1%到1.3%之间，而强大的非推理型模型如GPT-4.5、Claude 3.7 Sonnet和Gemini 2.0 Flash的得分也仅在1%左右。相比之下，Arc Prize基金会邀请了400多人参加ARC-AGI-2测试以建立人类基准，平均而言，这些参与者组成的“小组”能够正确回答测试中60%的问题，远高于任何模型的得分。

ARC-AGI-2对未来AI研究的意义

ARC-AGI-2测试的发布正值科技行业呼吁新的、未饱和的基准来衡量AI进展之际。Hugging Face的联合创始人Thomas Wolf最近在接受采访时表示，AI行业缺乏足够的测试来衡量所谓人工通用智能（AGI）的关键特征，包括创造力。ARC-AGI-2通过引入效率指标和即时模式识别要求，为评估AI系统在训练数据之外有效获取新技能的能力提供了更好的衡量标准。这不仅有助于我们更准确地理解AI的真正智能水平，还为未来的AI研究和发展方向提供了新的思路。

Arc Prize 2025竞赛

除了发布ARC-AGI-2测试外，Arc Prize基金会还宣布了一项新的Arc Prize 2025竞赛，挑战开发者在每项任务仅花费0.42美元的情况下，在ARC-AGI-2测试中达到85%的准确率。这一竞赛旨在鼓励开发者在限定成本内提高AI性能，进一步推动AI技术的发展。通过这样的竞赛，我们可以更好地了解AI在实际应用中的潜力和限制，并推动AI研究朝着更高效、更智能的方向发展。

引用链接

[1] Arc Prize基金会: https://arcprize.org/

# AI快讯 # AGI

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...