OpenAI的o3模型:性能提升背后的高成本之谜

AI头条2个月前发布 freeAI
0
OpenAI的o3模型:性能提升背后的高成本之谜

OpenAI

OpenAI的o3模型:性能与成本的双重考量

在AI领域的发展进程中,AI模型的拓展一直备受关注。此前,AI创始人及投资者曾指出,传统改进AI模型的方法已出现收益递减的情况,而‘测试时扩展’这一新兴方法被视作有望继续提升模型性能的新途径,OpenAI的o3模型似乎正是得益于它展现出了出色表现。

亮眼的性能表现

o3模型在各项基准测试中的成绩相当优异,在名为ARC-AGI的通用能力测试里,它显著超越了所有其他模型,并且在一项难度颇高的数学测试中,取得了25%的成绩,而其他AI模型在此测试中的得分都未超过2%。

o3模型的共同创造者诺姆·布朗提到,o3发布距离o1仅仅三个月,却实现了性能的大幅跃升,这一时间跨度相对较短,让人们有理由相信这种良好的发展态势会持续下去。同时,Anthropic的联合创始人杰克·克拉克也在博客中表示,o3模型证明了AI在2025年的进步会比2024年更快。

背后的高成本隐忧

不过,o3模型虽然性能出色,但它采用了前所未有的计算量,这也意味着每个答案的成本更高。所谓的‘测试时扩展’意味着OpenAI在ChatGPT的推理阶段(也就是用户输入提示按下回车键之后的那段时间)使用了更多的算力。但具体情况尚不明确,有可能是使用了更多的计算机芯片来回答用户问题,或者运行了更强大的推理芯片,又或者是让这些芯片运行更长时间(某些情况下会长达10到15分钟)才生成答案。

从相关数据来看,o3模型在ARC-AGI基准测试中高分版本的每次任务使用了价值超过1000美元的算力,与之相比,o1模型每次任务仅使用约5美元算力,o1-mini更是只用几美分算力。其创建者弗朗索瓦·肖莱在博客中指出,OpenAI为了得到88%的高分,使用的算力比仅低12%得分的高效版本o3多出约170倍,而且高分版本的o3完成测试耗费了超过10000美元的资源,成本过高以至于无法参与ARC奖的竞争(这是AI模型挑战ARC测试的一项颇具含金量赛事)。

适用场景与局限性

鉴于o3模型的高成本,它似乎不太可能成为人们日常频繁使用的‘工具’,像回答‘克利夫兰布朗队如何能进入2024年季后赛?’这类小问题,使用它就显得太过耗费算力了。相反,它更适合应对一些宏观层面的提示,例如‘克利夫兰布朗队如何能在2027年成为超级碗参赛队伍?’,当然,或许也只有像球队总经理这类需要做重大决策的角色,才值得付出如此高的算力成本去使用它。

另外,o3模型虽然性能强劲,但也并非万能,它还不是通用人工智能(AGI),仍然会在一些人类很容易完成的简单任务上失败,毕竟目前大型语言模型普遍存在的幻觉问题,o3模型和测试时计算方法似乎也尚未解决。

总的来说,OpenAI的o3模型在AI模型性能提升方面确实是一个显著进步,但围绕其使用场景和成本也带来了诸多新问题,不过它的表现也确实让‘测试时计算’成为了科技行业拓展AI模型的一个颇具潜力的方向。

© 版权声明

相关文章

暂无评论

暂无评论...