xAI与OpenAI基准测试争议：Grok 3是否夸大其词？

字数 1398，阅读大约需 7 分钟

xAI是否夸大了Grok 3的基准测试成绩？

争议的起因

近期，人工智能（AI）基准测试的准确性和透明度成为公众关注的焦点。本周，OpenAI的一名员工公开质疑埃隆·马斯克旗下的AI公司xAI，指责其在最新AI模型Grok 3的基准测试结果上存在误导性宣传。这一争议引发了业界对AI基准测试有效性和报告方式的广泛讨论。

xAI的声明

面对质疑，xAI的联合创始人之一Igor Babushkin坚称公司在基准测试结果的公布上是准确无误的。xAI在其官方博客上发布了一张图表，展示了Grok 3在AIME 2025（一项近期邀请制数学竞赛中的难题集合）上的表现。图表显示，Grok 3的两个变体——Grok 3 Reasoning Beta和Grok 3 mini Reasoning——在AIME 2025上的表现优于OpenAI当前最佳的可用模型o3-mini-high。

专家的质疑

尽管一些专家对AIME作为AI基准测试的有效性提出了质疑，但AIME 2025及其旧版本仍被广泛用于评估模型的数学能力。然而，OpenAI的员工在社交媒体上迅速指出，xAI的图表并未包括o3-mini-high在“cons@64”下的AIME 2025得分。

cons@64的解释

“cons@64”是“consensus@64”的缩写，它允许模型对基准测试中的每个问题尝试64次，并将出现频率最高的答案作为最终答案。这种机制通常会显著提高模型在基准测试中的得分，因此忽略这一指标可能会导致对模型性能的误判。

实际得分对比

在“@1”（即模型在基准测试中的首次得分）下，Grok 3 Reasoning Beta和Grok 3 mini Reasoning的AIME 2025得分低于o3-mini-high。此外，Grok 3 Reasoning Beta在计算资源设置为“中等”的OpenAI o1模型面前也略逊一筹。这表明，如果考虑“cons@64”指标，Grok 3的表现可能并不如xAI所宣传的那样出色。

争议的背后

这一争议凸显了AI基准测试的局限性和报告方式的重要性。AI基准测试通常只关注模型在特定任务上的表现，而忽略了模型的计算成本、训练数据和实际应用场景等因素。此外，不同实验室在报告基准测试结果时可能采用不同的方法和标准，导致结果的可比性受到影响。

行业观点

AI研究员Nathan Lambert在一篇文章中指出，或许最重要的指标仍然是个谜：每个模型达到最佳得分所需的计算（和金钱）成本。这表明，大多数AI基准测试在传达模型的局限性和优势方面做得还远远不够。

# AI快讯 # XAI

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...