字数 1432,阅读大约需 8 分钟

OpenAI 发布 GPT-4.5 ‘Orion’,其迄今为止最大的 AI 模型
模型发布与技术细节
模型概述
- • 名称与代号:GPT-4.5,代号 ‘Orion’
- • 发布时间:2024年3月15日
- • 模型规模:OpenAI 迄今为止最大的 AI 模型,使用了比以往任何版本更多的计算资源和数据进行训练
模型定位
- • 非前沿模型:尽管规模庞大,但 OpenAI 在白皮书中明确指出,GPT-4.5 并不被视为前沿模型
- • 研究预览:作为研究预览版发布,旨在更好地了解其优势和局限性
模型特点
- • 更深的世界知识:由于规模的增加,GPT-4.5 具备了更深的世界知识
- • 更高的情感智能:在情感智能方面也有所提升,能够以更温暖、更自然的语气回应用户
- • 文件和图像上传支持:支持文件和图像上传功能,以及 ChatGPT 的画布工具
模型性能
- • SimpleQA 基准测试:在简单事实性问题测试中,GPT-4.5 的准确性超过了 GPT-4 和 OpenAI 的 o1、o3-mini 等推理模型
- • SWE-Bench Verified 基准测试:在编码问题上,GPT-4.5 的性能与 GPT-4 和 o3-mini 相当,但低于 OpenAI 的 deep research 和 Anthropic 的 Claude 3.7 Sonnet
- • SWE-Lancer 基准测试:在软件开发功能测试中,GPT-4.5 超过了 GPT-4 和 o3-mini,但同样低于 deep research
- • AIME 和 GPQA 基准测试:在数学和科学相关问题上,GPT-4.5 的性能与领先的非推理模型相当或更优,但未达到 o3-mini、DeepSeek 的 R1 和 Claude 3.7 Sonnet 等推理模型的水平
模型限制
- • 高昂的运行成本:GPT-4.5 的运行成本非常高,OpenAI 正在评估是否长期在 API 中提供该模型
- • API 定价:开发者使用 GPT-4.5 的 API 需要支付每百万输入令牌 75 美元和每百万输出令牌 150 美元的费用,远高于 GPT-4
- • 功能缺失:目前不支持 ChatGPT 的逼真双向语音模式等功能
模型性能与行业影响
性能表现
根据 OpenAI 发布的基准测试结果,GPT-4.5 在多个领域表现出色。在 SimpleQA 基准测试中,GPT-4.5 的准确性超过了 GPT-4 和 OpenAI 的 o1、o3-mini 等推理模型,显示出其在处理简单事实性问题上的优势。然而,在 SWE-Bench Verified 和 SWE-Lancer 基准测试中,GPT-4.5 的性能虽然超过了 GPT-4 和 o3-mini,但仍然低于 OpenAI 的 deep research 和 Anthropic 的 Claude 3.7 Sonnet,这表明在编码和软件开发领域,GPT-4.5 仍有提升空间。
在数学和科学相关问题上,GPT-4.5 的性能与领先的非推理模型相当或更优,但未达到 o3-mini、DeepSeek 的 R1 和 Claude 3.7 Sonnet 等推理模型的水平。这可能意味着在处理复杂问题时,推理模型仍然具有优势。
行业影响
GPT-4.5 的发布引发了业界对传统 AI 训练方法的讨论。尽管 GPT-4.5 是 OpenAI 迄今为止最大的模型,使用了更多的计算资源和数据进行训练,但其性能并未在所有领域都取得突破性的进展。这可能暗示着通过简单地增加数据和计算资源来提升模型性能的“scaling laws”正在面临挑战。
OpenAI 联合创始人兼前首席科学家 Ilya Sutskever 曾表示,“我们已经达到了数据的峰值”,并认为“预训练将不可避免地结束”。这一观点与许多 AI 投资者、创始人和研究人员的担忧相呼应,他们担心传统的预训练方法可能无法继续推动 AI 性能的显著提升。
未来展望
尽管 GPT-4.5 可能不会在所有基准测试中都取得冠军,但 OpenAI 可能将其视为通向更强大模型的垫脚石。OpenAI 计划将 GPT 系列模型与“o”推理系列模型相结合,从今年晚些时候的 GPT-5 开始。这种结合可能会带来更强大的 AI 能力,并推动 AI 技术的发展。
模型应用与开发者体验
模型应用
GPT-4.5 的发布为开发者提供了更多的可能性。其支持文件和图像上传功能,以及 ChatGPT 的画布工具,使得开发者可以更方便地将 AI 技术集成到各种应用中。此外,GPT-4.5 在情感智能方面的提升,使其能够以更温暖、更自然的语气回应用户,这对于需要与用户进行交互的应用来说是一个重要的优势。
开发者体验
然而,GPT-4.5 的高昂运行成本和 API 定价可能会对一些开发者造成负担。与 GPT-4 相比,GPT-4.5 的 API 定价要高得多,这可能会限制其在一些成本敏感的应用中的使用。此外,GPT-4.5 目前还不支持 ChatGPT 的逼真双向语音模式等功能,这可能会对一些需要这些功能的应用造成影响。
GPT-4.5 ‘Orion’ 的发布是 AI 领域的一个重要里程碑,它展示了 OpenAI 在 AI 技术方面的持续创新能力。尽管 GPT-4.5 可能面临一些挑战和限制,但它仍然为开发者提供了更多的可能性,并可能推动 AI 技术的发展。随着 OpenAI 计划将 GPT 系列模型与“o”推理系列模型相结合,我们有理由期待未来会出现更强大的 AI 模型。