AI性能新考验：旋转图形中让小球弹起

字数 689，阅读大约需 4 分钟

AI性能新考验：旋转图形中让小球弹起

近日，AI领域掀起了一股奇特的测试热潮，众多AI模型被要求应对这样一个挑战：“编写一个Python脚本，实现黄色小球在特定形状内弹起，且该形状需缓慢旋转，同时确保小球始终不超出形状范围”。这一测试在AI社区引发了广泛关注。

在这场特殊的“考试”中，不同AI模型交出了差异明显的答卷。据X平台（原推特）上的用户反馈，中国AI实验室DeepSeek免费提供的R1模型，在与OpenAI需付费200美元/月的ChatGPT Pro计划中的o1 pro模式较量时，表现出色。然而，Anthropic的Claude 3.5 Sonnet和Google的Gemini 1.5 Pro模型却在物理原理判断上出现失误，导致小球“逃出”了形状范围。值得一提的是，Google的Gemini 2.0 Flash Thinking Experimental，甚至OpenAI较旧的GPT – 4o模型，一次性就通过了该评估。

模拟小球弹起本就是经典编程挑战，其中涉及的碰撞检测算法极为关键。准确的算法能精准识别小球与图形边界的碰撞，而编写不佳的算法则会影响模拟效果，出现明显的物理错误。X用户N8 Programs，作为AI初创公司Nous Research的常驻研究员，自述从零开始编写在旋转七边形中让小球弹起的程序，耗时约两小时。他强调，编程过程中需追踪多个坐标系，精心设计代码以确保其稳健性。

但需注意，尽管这一测试在一定程度上考验了编程技能，却并非严谨的AI评估基准。因为仅仅是提示语的细微变化，就可能导致结果大相径庭。这也解释了为何有的用户认为o1表现良好，而有的则觉得R1存在不足。实际上，此类热门测试凸显了AI模型评估体系构建的难题。多数时候，除了一些专业晦涩、与大众关联不大的基准测试外，很难清晰区分不同模型的优劣。

当下，诸多致力于构建更优测试体系的努力正在进行，如ARC – AGI基准测试和Humanity’s Last Exam等。未来它们成效如何，值得我们拭目以待。在此期间，不妨先欣赏那些小球在旋转图形中弹起的GIF动图。

# AI头条