AI性能新考验:旋转图形中让小球弹起

字数 689,阅读大约需 4 分钟

AI性能新考验:旋转图形中让小球弹起
OpenAI是人工智能研究和技术开发公司,致力于推动人工智能以造福人类,开发了如ChatGPT等知名AI产品

AI性能新考验:旋转图形中让小球弹起

近日,AI领域掀起了一股奇特的测试热潮,众多AI模型被要求应对这样一个挑战:“编写一个Python脚本,实现黄色小球在特定形状内弹起,且该形状需缓慢旋转,同时确保小球始终不超出形状范围”。这一测试在AI社区引发了广泛关注。

在这场特殊的“考试”中,不同AI模型交出了差异明显的答卷。据X平台(原推特)上的用户反馈,中国AI实验室DeepSeek免费提供的R1模型,在与OpenAI需付费200美元/月的ChatGPT Pro计划中的o1 pro模式较量时,表现出色。然而,Anthropic的Claude 3.5 Sonnet和Google的Gemini 1.5 Pro模型却在物理原理判断上出现失误,导致小球“逃出”了形状范围。值得一提的是,Google的Gemini 2.0 Flash Thinking Experimental,甚至OpenAI较旧的GPT – 4o模型,一次性就通过了该评估。

模拟小球弹起本就是经典编程挑战,其中涉及的碰撞检测算法极为关键。准确的算法能精准识别小球与图形边界的碰撞,而编写不佳的算法则会影响模拟效果,出现明显的物理错误。X用户N8 Programs,作为AI初创公司Nous Research的常驻研究员,自述从零开始编写在旋转七边形中让小球弹起的程序,耗时约两小时。他强调,编程过程中需追踪多个坐标系,精心设计代码以确保其稳健性。

但需注意,尽管这一测试在一定程度上考验了编程技能,却并非严谨的AI评估基准。因为仅仅是提示语的细微变化,就可能导致结果大相径庭。这也解释了为何有的用户认为o1表现良好,而有的则觉得R1存在不足。实际上,此类热门测试凸显了AI模型评估体系构建的难题。多数时候,除了一些专业晦涩、与大众关联不大的基准测试外,很难清晰区分不同模型的优劣。

当下,诸多致力于构建更优测试体系的努力正在进行,如ARC – AGI基准测试和Humanity’s Last Exam等。未来它们成效如何,值得我们拭目以待。在此期间,不妨先欣赏那些小球在旋转图形中弹起的GIF动图。

© 版权声明

相关文章

暂无评论

暂无评论...