OpenAI重磅推出o3模型，AGI之路究竟如何

OpenAI

OpenAI的重大发布

OpenAI向来是人工智能领域备受瞩目的机构，其在AI技术探索方面不断推陈出新。在近期，OpenAI把最重磅的消息留到了它为期12天的“shipmas”活动的最后一天。就在2024年12月20日，该公司推出了o3，它是今年早些时候发布的o1“推理”模型的继任者。

准确来说，o3是一个模型系列，和o1情况类似，其中包含了o3以及o3-mini。o3-mini是一个更小的、经过提炼的模型，它针对特定任务进行了精细调校。OpenAI还做出了一个引人瞩目的宣称，那就是o3至少在某些特定条件下，正在接近AGI（通用人工智能），不过这里面也是有着重要的限制条件的，下文会详细讲到。

模型命名的缘由

也许有人会好奇，为什么新模型叫o3而不是o2呢？据相关消息称，这可能是商标方面的原因。OpenAI为了避免和英国电信运营商O2产生潜在的冲突，所以跳过了o2这个命名。OpenAI的相关负责人在某次直播中也在一定程度上证实了这一点，也不禁让人感叹世事奇妙。

模型的可用性与计划安排

目前，无论是o3还是o3-mini都还没有大范围开放使用。不过，从2024年12月20日起，人工智能安全研究人员可以申请对o3-mini进行预览。而o3的预览版将会在之后的某个时间推出，OpenAI暂时还未明确具体时间。其负责人表示，计划是在1月底推出o3-mini，随后再推出o3，不过这和其近期的一些言论存在些许冲突，此前曾提到在发布新的推理模型前，更希望有联邦测试框架来指导对这类模型风险的监测与缓解。

模型存在的风险

要知道，AI安全测试人员发现o1的推理能力使得它相较于传统的“非推理”模型，甚至是像Meta、Anthropic以及Google等公司的领先AI模型，有着更高的欺骗人类用户的概率。那么o3有可能会比它的前任有着更高的欺骗率，这一切还得等OpenAI的红队合作伙伴发布测试结果才能知晓。值得一提的是，OpenAI表示正在使用一种名为“审慎对齐”的新技术，来让像o3这样的模型与安全原则保持一致，o1也是通过同样的方式进行对齐的，并且公司在一项新的研究中详细阐述了相关工作。

推理模型的独特之处

和大多数AI不同，像o3这样的推理模型能够有效地进行自我事实核查，这有助于它们避开一些通常会让普通模型犯错的陷阱。当然了，这个事实核查的过程会产生一定的延迟。o3和之前的o1一样，相较于典型的非推理模型，在得出解决方案时往往需要多花一点时间，通常会多几秒到几分钟。不过好处就是，它在物理、科学以及数学等领域往往更加可靠。

o3是通过强化学习进行训练的，它会在回应之前先进行“思考”，按照OpenAI所描述的那样，是通过“私有思维链”来实现的。该模型能够对任务进行推理并提前规划，在较长的时间段内执行一系列动作，以此来找出解决方案。而且o3对比o1有了新的能力，那就是可以“调整”推理时间，能够将其设置为低、中、高计算（也就是思考时间）模式，计算等级越高，o3在任务中的表现就越好。但不管计算资源有多少，像o3这样的推理模型也并非完美无缺，虽然推理组件可以减少幻觉和错误，但并不能完全消除它们，比如o1在井字棋游戏中就会出现失误。

基准测试与AGI的关联

在人工智能领域，AGI（通用人工智能）一直是大家关注的焦点，它大体上指的是能够执行人类所能做的任何任务的人工智能，OpenAI自己对于AGI的定义是“在大多数具有经济价值的工作中表现优于人类的高度自主系统”。如果宣称实现了AGI那可是一个大胆的声明，并且对于OpenAI来说，这在合同方面也有着重大影响，因为按照它和紧密合作伙伴兼投资方微软的协议条款，一旦OpenAI达到了AGI，就不再有义务让微软使用其最先进的技术（也就是符合OpenAI所定义的AGI标准的那些技术）。

从基准测试来看，OpenAI正在慢慢朝着AGI靠近。在ARC-AGI（这是一个旨在评估AI系统能否在其训练数据之外高效获取新技能的测试）中，o3在高计算设置下取得了87.5%的分数，哪怕是在最差的低计算设置下，其性能也是o1的三倍。不过，ARC-AGI的联合创造者指出，高计算设置的成本极高，每个挑战要花费数千美元。同时也有人指出o3在ARC-AGI的一些“非常简单的任务”中会失败，认为该模型和人类智能存在着“根本性差异”。

当然了，o3在其他测试中表现十分亮眼，它在SWE-Bench Verified（一个聚焦编程任务的基准测试）中，比o1的表现高出22.8个百分点，并且获得了Codeforces评级（这是另一种衡量编码技能的指标）达到2727分（评级达到2400分就意味着工程师处于99.2%的百分位水平了）。在2024年美国数学邀请赛中，o3的得分达到了96.7%，只答错了一道题，在GPQA Diamond（一组研究生水平的生物、物理和化学问题集）中取得了87.7%的成绩，还在EpochAI的Frontier Math基准测试中创下了新纪录，解决了25.2%的问题，而其他模型的解决率都不超过2%。不过这些数据都是来自OpenAI的内部评估，还得看未来该模型在外部客户和组织的基准测试中的表现情况。

行业趋势

在OpenAI推出第一代推理模型系列之后，其竞争对手们也纷纷推出了众多推理模型，比如11月初，由量化交易员资助的AI研究公司DeepSeek就推出了其首款推理模型DeepSeek-R1的预览版。同月，阿里巴巴的Qwen团队也公布了一款声称是首个针对o1的“开放式”挑战者。之所以出现推理模型的热潮，一方面是大家都在寻找新的方法来优化生成式AI，毕竟以往那种依靠“蛮力”扩大模型规模的技术如今已经很难再带来像以前那样的提升效果了。不过，也不是所有人都认为推理模型就是未来发展的最佳路径，毕竟运行这类模型往往需要耗费大量的计算资源，成本颇高，而且虽然目前它们在基准测试中表现不错，但能否保持这样的进步速度还不太明确。有意思的是，o3发布之时，OpenAI最杰出的科学家之一Alec Radford宣布离开，去开展独立研究了，这也为行业发展增添了一些别样的变数。

# AI头条 # 初创公司 # ai # AI助手 # AI大模型

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...