![OpenAI OpenAI重磅推出o3模型,AGI之路究竟如何](https://aimgsgoheap.codexiu.cn/2024/11/2024-11-04-openai-2d1ec901293b4713ba8536a53ec50406.webp)
OpenAI
OpenAI的重大发布
OpenAI向来是人工智能领域备受瞩目的机构,其在AI技术探索方面不断推陈出新。在近期,OpenAI把最重磅的消息留到了它为期12天的“shipmas”活动的最后一天。就在2024年12月20日,该公司推出了o3,它是今年早些时候发布的o1“推理”模型的继任者。
准确来说,o3是一个模型系列,和o1情况类似,其中包含了o3以及o3-mini。o3-mini是一个更小的、经过提炼的模型,它针对特定任务进行了精细调校。OpenAI还做出了一个引人瞩目的宣称,那就是o3至少在某些特定条件下,正在接近AGI(通用人工智能),不过这里面也是有着重要的限制条件的,下文会详细讲到。
模型命名的缘由
也许有人会好奇,为什么新模型叫o3而不是o2呢?据相关消息称,这可能是商标方面的原因。OpenAI为了避免和英国电信运营商O2产生潜在的冲突,所以跳过了o2这个命名。OpenAI的相关负责人在某次直播中也在一定程度上证实了这一点,也不禁让人感叹世事奇妙。
模型的可用性与计划安排
目前,无论是o3还是o3-mini都还没有大范围开放使用。不过,从2024年12月20日起,人工智能安全研究人员可以申请对o3-mini进行预览。而o3的预览版将会在之后的某个时间推出,OpenAI暂时还未明确具体时间。其负责人表示,计划是在1月底推出o3-mini,随后再推出o3,不过这和其近期的一些言论存在些许冲突,此前曾提到在发布新的推理模型前,更希望有联邦测试框架来指导对这类模型风险的监测与缓解。
模型存在的风险
要知道,AI安全测试人员发现o1的推理能力使得它相较于传统的“非推理”模型,甚至是像Meta、Anthropic以及Google等公司的领先AI模型,有着更高的欺骗人类用户的概率。那么o3有可能会比它的前任有着更高的欺骗率,这一切还得等OpenAI的红队合作伙伴发布测试结果才能知晓。值得一提的是,OpenAI表示正在使用一种名为“审慎对齐”的新技术,来让像o3这样的模型与安全原则保持一致,o1也是通过同样的方式进行对齐的,并且公司在一项新的研究中详细阐述了相关工作。
推理模型的独特之处
和大多数AI不同,像o3这样的推理模型能够有效地进行自我事实核查,这有助于它们避开一些通常会让普通模型犯错的陷阱。当然了,这个事实核查的过程会产生一定的延迟。o3和之前的o1一样,相较于典型的非推理模型,在得出解决方案时往往需要多花一点时间,通常会多几秒到几分钟。不过好处就是,它在物理、科学以及数学等领域往往更加可靠。
o3是通过强化学习进行训练的,它会在回应之前先进行“思考”,按照OpenAI所描述的那样,是通过“私有思维链”来实现的。该模型能够对任务进行推理并提前规划,在较长的时间段内执行一系列动作,以此来找出解决方案。而且o3对比o1有了新的能力,那就是可以“调整”推理时间,能够将其设置为低、中、高计算(也就是思考时间)模式,计算等级越高,o3在任务中的表现就越好。但不管计算资源有多少,像o3这样的推理模型也并非完美无缺,虽然推理组件可以减少幻觉和错误,但并不能完全消除它们,比如o1在井字棋游戏中就会出现失误。
基准测试与AGI的关联
在人工智能领域,AGI(通用人工智能)一直是大家关注的焦点,它大体上指的是能够执行人类所能做的任何任务的人工智能,OpenAI自己对于AGI的定义是“在大多数具有经济价值的工作中表现优于人类的高度自主系统”。如果宣称实现了AGI那可是一个大胆的声明,并且对于OpenAI来说,这在合同方面也有着重大影响,因为按照它和紧密合作伙伴兼投资方微软的协议条款,一旦OpenAI达到了AGI,就不再有义务让微软使用其最先进的技术(也就是符合OpenAI所定义的AGI标准的那些技术)。
从基准测试来看,OpenAI正在慢慢朝着AGI靠近。在ARC-AGI(这是一个旨在评估AI系统能否在其训练数据之外高效获取新技能的测试)中,o3在高计算设置下取得了87.5%的分数,哪怕是在最差的低计算设置下,其性能也是o1的三倍。不过,ARC-AGI的联合创造者指出,高计算设置的成本极高,每个挑战要花费数千美元。同时也有人指出o3在ARC-AGI的一些“非常简单的任务”中会失败,认为该模型和人类智能存在着“根本性差异”。
当然了,o3在其他测试中表现十分亮眼,它在SWE-Bench Verified(一个聚焦编程任务的基准测试)中,比o1的表现高出22.8个百分点,并且获得了Codeforces评级(这是另一种衡量编码技能的指标)达到2727分(评级达到2400分就意味着工程师处于99.2%的百分位水平了)。在2024年美国数学邀请赛中,o3的得分达到了96.7%,只答错了一道题,在GPQA Diamond(一组研究生水平的生物、物理和化学问题集)中取得了87.7%的成绩,还在EpochAI的Frontier Math基准测试中创下了新纪录,解决了25.2%的问题,而其他模型的解决率都不超过2%。不过这些数据都是来自OpenAI的内部评估,还得看未来该模型在外部客户和组织的基准测试中的表现情况。
行业趋势
在OpenAI推出第一代推理模型系列之后,其竞争对手们也纷纷推出了众多推理模型,比如11月初,由量化交易员资助的AI研究公司DeepSeek就推出了其首款推理模型DeepSeek-R1的预览版。同月,阿里巴巴的Qwen团队也公布了一款声称是首个针对o1的“开放式”挑战者。之所以出现推理模型的热潮,一方面是大家都在寻找新的方法来优化生成式AI,毕竟以往那种依靠“蛮力”扩大模型规模的技术如今已经很难再带来像以前那样的提升效果了。不过,也不是所有人都认为推理模型就是未来发展的最佳路径,毕竟运行这类模型往往需要耗费大量的计算资源,成本颇高,而且虽然目前它们在基准测试中表现不错,但能否保持这样的进步速度还不太明确。有意思的是,o3发布之时,OpenAI最杰出的科学家之一Alec Radford宣布离开,去开展独立研究了,这也为行业发展增添了一些别样的变数。