字数 1448,阅读大约需 8 分钟
![OpenAI OpenAI发布超实惠o3-mini推理模型,性能与成本双赢!](https://aimgsgoheap.codexiu.cn/2024/12/image-2024-12-23-openai-search-.webp)
模型优势:强大且实惠
1月31日周五,OpenAI[1]发布全新AI“推理”模型o3 – mini,这是o系列推理模型家族新成员。此前,OpenAI于12月预告该模型,当时一同亮相的还有功能更强的o3系统。
OpenAI将o3 – mini定位为既“强大”又“实惠”的模型。公司发言人称,此次发布是扩大先进AI可及性的重要一步。
与多数大语言模型不同,o3 – mini这类推理模型给出结果前会全面进行事实核查,有助于避免一些易使模型出错的陷阱。虽得出答案时间稍长,但在物理等领域可靠性更高。
o3 – mini针对STEM问题进行微调,特别是编程、数学和科学领域。OpenAI称其能力与o1家族(o1和o1 – mini)基本相当,但运行速度更快、成本更低。外部测试显示,超半数时间测试者更青睐o3 – mini相较于o1 – mini的回答。在A/B测试中,o3 – mini在“现实难题”上的“重大错误”比o1 – mini少39%,回复更清晰,速度快24%。
应用场景与使用限制
从周五起,所有用户可通过ChatGPT使用o3 – mini。ChatGPT Plus和Team计划付费用户每天有150次查询的更高速率限制;ChatGPT Pro订阅者可无限制使用;一周后,ChatGPT Enterprise和ChatGPT Edu客户也将用上o3 – mini (ChatGPT Gov暂未提及)。高级计划用户可通过ChatGPT下拉菜单选择o3 – mini;免费用户可点击聊天栏中的新“推理”按钮,或让ChatGPT“重新生成”答案。
同时,从周五起,部分开发者可通过OpenAI的API使用o3 – mini,但最初不支持图像分析。开发者可根据用例和延迟需求选择“推理力度”(低、中、高),让o3 – mini“更深入思考”。o3 – mini的定价为每百万缓存输入令牌0.55美元,每百万输出令牌4.40美元,约750,000字相当于100万令牌。这比o1 – mini便宜63%,与DeepSeek的R1推理模型定价相当。DeepSeek通过API提供R1访问,每百万缓存输入令牌收费0.14美元,每百万输出令牌收费2.19美元。
在ChatGPT中,o3 – mini默认设置为中等推理力度,OpenAI称这在速度和准确性间提供平衡。付费用户可在模型选择器中选择“o3 – mini – high”,以较慢响应换取OpenAI所称的“更高智能”。无论选择哪个版本,o3 – mini都将与搜索功能协作,通过相关网页链接提供最新答案。不过OpenAI提醒,该功能尚属“原型”,正努力将搜索集成到推理模型中。
性能对比:有优有缺
o3 – mini并非OpenAI目前最强大的模型,在各项基准测试中也未全面超越DeepSeek的R1推理模型。在衡量模型对复杂指令理解和响应能力的AIME 2024测试中,o3 – mini仅在高推理力度下击败R1;在以编程为重点的SWE – bench Verified测试中,同样仅在高推理力度时以0.1分优势胜出。在低推理力度下,面对GPQA Diamond测试(包含博士水平的物理、生物和化学问题),o3 – mini落后于R1。
当然,o3 – mini在许多查询上以具有竞争力的低成本和低延迟作答。OpenAI在博文中将o3 – mini与o1家族对比称:“低推理力度下,o3 – mini与o1 – mini性能相当;中等推理力度下,o3 – mini与o1相当;高推理力度下,o3 – mini超越o1 – mini和o1。”但在某些领域o3 – mini相较于o1的优势并不明显。在AIME 2024测试中,高推理力度时o3 – mini仅以0.3个百分点击败o1;在GPQA Diamond测试中,即便高推理力度下o3 – mini也未超过o1的分数。
安全性保障
OpenAI表示,通过红队测试和“审慎对齐”方法,o3 – mini与o1家族同样“安全”甚至更安全。该方法让模型在回复查询时“思考”OpenAI的安全政策。据该公司称,o3 – mini在“具有挑战性的安全性和越狱评估”中“显著超越”OpenAI的旗舰模型之一GPT – 4o。
在人工智能领域,中美欧发展态势各异。中国发展迅猛,众多企业如百度、字节跳动等不断技术创新,推出如文心一言等有影响力的产品。政策上,中国政府大力支持,出台多项政策鼓励技术研发与应用落地。欧洲注重技术发展的同时,更强调数据隐私和伦理规范,其《通用数据保护条例》(GDPR)对人工智能的数据使用影响深远。在美国,除OpenAI,谷歌、微软等科技巨头也在人工智能领域大量投入研发,各方竞争与合作并存,共同推动全球人工智能技术进步。