Grok 3：性能飞跃，亮点纷呈！

字数 1392，阅读大约需 7 分钟

Grok 3的研发背景与计算资源投入

Grok 3历经数月研发，原本计划于2024年发布，但未能如期。为了训练Grok 3，xAI启用了位于孟菲斯的一个大型数据中心，其中包含约200,000个GPU。Elon Musk在X平台（原推特）发文称，Grok 3的开发所使用的计算能力是其前身Grok 2的“10倍”，同时采用了扩展的训练数据集，该数据集包含法庭案件文件等。

在人工智能模型训练领域，大量的计算资源投入是提升模型性能的关键因素。例如，OpenAI在训练GPT系列模型时，投入海量的GPU资源，以支撑其复杂的神经网络训练。而xAI此次对Grok 3的大规模计算资源投入，可见其对该模型性能提升的决心。

Grok 3的性能提升

1. 能力量级提升：Elon Musk在周一的直播演示中表示，“Grok 3的能力比Grok 2提升了一个数量级，是一个最大限度追求真理的AI，即便有时真理与政治正确相悖”。
2. 基准测试表现：xAI宣称Grok 3在多个基准测试中击败了GPT – 4o，如AIME（该测试评估模型在数学问题样本上的表现）和GPQA（使用博士水平的物理、生物和化学问题评估模型）。在众包测试Chatbot Arena中，早期版本的Grok 3也取得了具有竞争力的成绩。在AIME测试中，Grok 3的得分比GPT – 4o高出一定比例，充分展示了其在数学问题处理上的优势。
3. 推理能力增强：Grok 3家族中的Grok 3 Reasoning和Grok 3 mini Reasoning两个模型，能够像OpenAI的o3 – mini和中国人工智能公司DeepSeek的R1等“推理”模型一样，仔细“思考”问题。推理模型在给出结果前会进行事实核查，有助于避免一些常见的错误。xAI称Grok 3 Reasoning在包括AIME 2025等几个流行基准测试中超越了o3 – mini的最佳版本o3 – mini – high。

Grok 3的功能特点

1. 多模型策略：Grok 3实际上是一个模型家族，其中较小版本的Grok 3 mini，能以一定的准确性损失为代价，更快地回答问题，满足不同用户对速度和精度的需求。
2. 推理功能应用：用户可以通过Grok应用程序访问这些推理模型。对于简单问题，用户可以要求Grok 3 “Think”；对于更困难的查询，可以利用“Big Brain”模式进行推理，该模式会调用额外的计算资源。xAI表示这些推理模型最适合回答数学、科学和编程问题。
3. 防止知识蒸馏：Musk提到，为防止知识蒸馏（一种AI模型开发者从其他模型中提取知识的方法），Grok应用程序中一些推理模型的“思考过程”被模糊处理。此前，DeepSeek就曾被指控通过蒸馏OpenAI的模型来创建自己的模型。
4. DeepSearch功能：Grok的推理模型支撑了Grok应用程序中的一项新功能——DeepSearch，这是xAI对OpenAI的深度研究等人工智能驱动的研究工具的回应。DeepSearch可以扫描互联网和X平台，分析信息并针对问题提供摘要。

Grok 3的访问与未来计划

1. 访问权限：X平台的Premium + 订阅用户（每月50美元）将首先获得Grok 3的访问权限，其他功能将通过xAI推出的新计划SuperGrok提供。SuperGrok定价为每月30美元或每年300美元，解锁后可获得额外的推理和DeepSearch查询权限，以及无限制的图像生成功能。
2. 未来功能更新：Musk称，未来大约一周后，Grok应用程序将增加“语音模式”，为Grok模型赋予合成语音。几周后，Grok 3模型将通过xAI的企业API提供，并具备DeepSearch功能。
3. 开源计划：xAI计划在未来几个月内开源Grok 2。Musk表示，“我们的一般做法是，当下一个版本完全推出时，我们将开源上一个版本。当Grok 3成熟稳定后（可能在几个月内），我们将开源Grok 2”。

Grok的发展历程与争议

大约两年前，Musk宣布推出Grok时，将其定位为前卫、无过滤且反“觉醒”的AI模型，即愿意回答其他AI系统不愿回答的争议性问题。Grok和Grok 2在某些方面兑现了这一承诺，例如当被要求使用粗俗语言时，它们会照做，而这是ChatGPT不太可能出现的情况。但在Grok 3之前，Grok模型在政治话题上有所保留，不会跨越某些界限。一项研究发现，Grok在跨性别权利、多元化项目和不平等问题等政治话题上倾向于左派立场。Musk将这种行为归咎于Grok的训练数据——公共网页，并承诺将“使Grok更接近政治中立”。

# AI快讯 # XAI

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...