OpenAI的o3 AI模型：第三方测试揭示的真实性能

字数 848，阅读大约需 5 分钟

OpenAI的o3 AI模型在第三方基准测试中得分低于公司初期暗示的情况

OpenAI在去年12月发布其最新的o3 AI模型时，曾声称该模型在FrontierMath测试集中能够正确回答超过25%的问题，这一成绩远超其他竞争模型的表现。FrontierMath是一个极具挑战性的数学问题集，当时其他最佳模型仅能正确回答约2%的问题。然而，最近由Epoch AI进行的独立测试结果显示，o3的实际得分约为10%，显著低于OpenAI的最高宣称分数。

可能的原因分析

这一差异可能源于多个因素。首先，计算资源的不同可能是导致得分差异的关键原因之一。OpenAI在其内部测试中可能使用了更强大的计算资源，而公共版本的o3模型则进行了优化，以适应聊天和产品使用场景，这可能牺牲了部分性能。其次，测试问题集的差异也可能是原因之一。Epoch AI在其评估中使用了更新版的FrontierMath，而OpenAI的测试可能基于不同的问题子集。

ARC Prize Foundation的观点

ARC Prize Foundation是一个曾对o3预发布版本进行测试的组织，他们证实公共版本的o3模型确实是为聊天/产品使用进行了优化，与内部测试使用的版本有所不同。他们还指出，所有已发布的o3计算层都小于他们所基准测试的版本。通常情况下，更大的计算层可以预期获得更好的基准测试分数。

对AI行业的影响

这一事件再次提醒我们，在评估AI模型时不应仅依赖厂商提供的基准测试成绩。近期AI行业内出现了多起关于AI模型性能声明的争议，包括Epoch AI因未及时披露来自OpenAI的资助而受到批评，以及Elon Musk的xAI被指控发布误导性的基准测试图表。Meta公司也在本月承认，他们曾宣传一个与开发者可用版本不同的模型版本的基准测试分数。

即将发布的o3-pro模型

尽管公共发布的o3模型未达到OpenAI的测试承诺，但该公司的o3-mini-high和o4-mini模型在FrontierMath上的表现优于o3。此外，OpenAI计划在未来几周内推出更强大的o3变体——o3-pro。这表明OpenAI仍在不断改进其模型，以满足不同场景下的需求。

保持审慎态度

随着AI厂商竞相推出新模型以吸引关注，基准测试的“争议”正变得越来越普遍。作为读者和研究人员，我们应保持审慎态度，对厂商提供的基准测试结果进行独立验证，并关注即将到来的更强大模型的发布情况。只有这样，我们才能更全面、客观地评估AI模型的性能和潜力。

引用链接

[1] OpenAI官网: https://openai.com/
[2] Epoch AI官网: https://epochai.org/
[3] ARC Prize Foundation官网: https://arcprize.org/

# AI快讯 # OpenAI

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...