OpenAI的o3模型：性能提升背后的高成本之谜

OpenAI

OpenAI的o3模型：性能与成本的双重考量

在AI领域的发展进程中，AI模型的拓展一直备受关注。此前，AI创始人及投资者曾指出，传统改进AI模型的方法已出现收益递减的情况，而‘测试时扩展’这一新兴方法被视作有望继续提升模型性能的新途径，OpenAI的o3模型似乎正是得益于它展现出了出色表现。

亮眼的性能表现

o3模型在各项基准测试中的成绩相当优异，在名为ARC-AGI的通用能力测试里，它显著超越了所有其他模型，并且在一项难度颇高的数学测试中，取得了25%的成绩，而其他AI模型在此测试中的得分都未超过2%。

o3模型的共同创造者诺姆·布朗提到，o3发布距离o1仅仅三个月，却实现了性能的大幅跃升，这一时间跨度相对较短，让人们有理由相信这种良好的发展态势会持续下去。同时，Anthropic的联合创始人杰克·克拉克也在博客中表示，o3模型证明了AI在2025年的进步会比2024年更快。

背后的高成本隐忧

不过，o3模型虽然性能出色，但它采用了前所未有的计算量，这也意味着每个答案的成本更高。所谓的‘测试时扩展’意味着OpenAI在ChatGPT的推理阶段（也就是用户输入提示按下回车键之后的那段时间）使用了更多的算力。但具体情况尚不明确，有可能是使用了更多的计算机芯片来回答用户问题，或者运行了更强大的推理芯片，又或者是让这些芯片运行更长时间（某些情况下会长达10到15分钟）才生成答案。

从相关数据来看，o3模型在ARC-AGI基准测试中高分版本的每次任务使用了价值超过1000美元的算力，与之相比，o1模型每次任务仅使用约5美元算力，o1-mini更是只用几美分算力。其创建者弗朗索瓦·肖莱在博客中指出，OpenAI为了得到88%的高分，使用的算力比仅低12%得分的高效版本o3多出约170倍，而且高分版本的o3完成测试耗费了超过10000美元的资源，成本过高以至于无法参与ARC奖的竞争（这是AI模型挑战ARC测试的一项颇具含金量赛事）。

适用场景与局限性

鉴于o3模型的高成本，它似乎不太可能成为人们日常频繁使用的‘工具’，像回答‘克利夫兰布朗队如何能进入2024年季后赛？’这类小问题，使用它就显得太过耗费算力了。相反，它更适合应对一些宏观层面的提示，例如‘克利夫兰布朗队如何能在2027年成为超级碗参赛队伍？’，当然，或许也只有像球队总经理这类需要做重大决策的角色，才值得付出如此高的算力成本去使用它。

另外，o3模型虽然性能强劲，但也并非万能，它还不是通用人工智能（AGI），仍然会在一些人类很容易完成的简单任务上失败，毕竟目前大型语言模型普遍存在的幻觉问题，o3模型和测试时计算方法似乎也尚未解决。

总的来说，OpenAI的o3模型在AI模型性能提升方面确实是一个显著进步，但围绕其使用场景和成本也带来了诸多新问题，不过它的表现也确实让‘测试时计算’成为了科技行业拓展AI模型的一个颇具潜力的方向。

# AI头条 # 初创公司 # ai # AI大模型 # OpenAI

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

OpenAI的o3模型：性能提升背后的高成本之谜

OpenAI的o3模型：性能与成本的双重考量

亮眼的性能表现

背后的高成本隐忧

适用场景与局限性

Elon Musk的xAI豪揽60亿美元，AI江湖风云再起？

欧洲AI初创公司崛起背后的惊人秘密！

相关文章

暂无评论