ARC-AGI-2:挑战AI通用智能的新高度

AI快讯2个月前发布 freeAI
0

字数 950,阅读大约需 5 分钟

ARC-AGI-2:挑战AI通用智能的新高度
Arc Prize基金会致力于推动人工智能通用智能(AGI)的发展,通过设立高标准的测试和竞赛来激励技术进步。

深入探讨ARC-AGI-2:挑战AI通用智能的新标杆

近日,由著名AI研究者François Chollet[1]共同创立的Arc Prize基金会[2]推出了一项旨在衡量AI模型通用智能水平的新测试——ARC-AGI-2。这项测试不仅对现有的顶尖AI模型提出了前所未有的挑战,同时也为技术界提供了一个衡量AI进展的新标准。

在此次测试中,即便是表现最佳的AI模型如OpenAI[3]的o1-pro、DeepSeek[4]的R1等,得分也仅徘徊在1%至1.3%之间,远低于参与测试的人类平均得分60%。这一结果凸显了当前AI技术与人类智能之间的差距,特别是在适应新问题和即时解释模式的能力方面。根据Arc Prize排行榜,诸如OpenAI的o1-pro和DeepSeek的R1等“推理型”AI模型在ARC-AGI-2测试中的得分仅在1%到1.3%之间,而更为强大的非推理模型,例如GPT-4.5、Claude3.7Sonnet和Gemini2.0Flash的得分也大约在1%。

值得注意的是,ARC-AGI-2相较于前一代,在设计上做出了多项改进,尤其是引入了‘效率’作为评估指标,强调AI系统在获取新技能时不仅要解决问题,还要做到高效。这标志着AI发展的一个重要转变,即从单纯追求技术性能到更加注重实际应用中的效率和成本效益。与ARC-AGI-1相比,ARC-AGI-2的设计改进了多个方面,尤其是引入了“效率”这一新指标,并要求模型在没有依赖记忆的情况下即时解释模式。正如Arc Prize基金会的共同创始人Greg Kamradt所言,智力不仅仅体现在解决问题的能力上,效率同样是一个关键因素。

面对这样的挑战,Arc Prize基金会宣布了2025年的Arc Prize竞赛,目标是激励开发者们在保证低成本的同时,大幅提升AI在ARC-AGI-2测试中的表现。这次竞赛无疑将推动AI领域的进一步创新和发展,特别是对于那些致力于开发更接近人工通用智能(AGI)技术的研究团队来说,是一个不可多得的机会。Arc Prize基金会还宣布了2025年的Arc Prize竞赛,挑战开发者在ARC-AGI-2测试中达到85%的准确率,而每个任务的花费仅为0.42美元。

ARC-AGI-2的发布正值技术界对新的AI进展衡量标准的呼声日益高涨。Hugging Face[5]的联合创始人Thomas Wolf曾表示,AI行业缺乏足够的测试来衡量被称为人工通用智能的关键特征,包括创造力。而ARC-AGI-2的推出,无疑为这一领域提供了一个全新的、更为严格的评估标准。

引用链接

[1] François Chollet: https://twitter.com/fchollet
[2] Arc Prize基金会: https://arcprize.org/
[3] OpenAI: https://openai.com/
[4] DeepSeek: https://www.deepseek.com/
[5] Hugging Face: https://huggingface.co/

© 版权声明

相关文章

暂无评论

暂无评论...