字数 848,阅读大约需 5 分钟

OpenAI的o3 AI模型在第三方基准测试中得分低于公司初期暗示的情况
OpenAI在去年12月发布其最新的o3 AI模型时,曾声称该模型在FrontierMath测试集中能够正确回答超过25%的问题,这一成绩远超其他竞争模型的表现。FrontierMath是一个极具挑战性的数学问题集,当时其他最佳模型仅能正确回答约2%的问题。然而,最近由Epoch AI进行的独立测试结果显示,o3的实际得分约为10%,显著低于OpenAI的最高宣称分数。
可能的原因分析
这一差异可能源于多个因素。首先,计算资源的不同可能是导致得分差异的关键原因之一。OpenAI在其内部测试中可能使用了更强大的计算资源,而公共版本的o3模型则进行了优化,以适应聊天和产品使用场景,这可能牺牲了部分性能。其次,测试问题集的差异也可能是原因之一。Epoch AI在其评估中使用了更新版的FrontierMath,而OpenAI的测试可能基于不同的问题子集。
ARC Prize Foundation的观点
ARC Prize Foundation是一个曾对o3预发布版本进行测试的组织,他们证实公共版本的o3模型确实是为聊天/产品使用进行了优化,与内部测试使用的版本有所不同。他们还指出,所有已发布的o3计算层都小于他们所基准测试的版本。通常情况下,更大的计算层可以预期获得更好的基准测试分数。
对AI行业的影响
这一事件再次提醒我们,在评估AI模型时不应仅依赖厂商提供的基准测试成绩。近期AI行业内出现了多起关于AI模型性能声明的争议,包括Epoch AI因未及时披露来自OpenAI的资助而受到批评,以及Elon Musk的xAI被指控发布误导性的基准测试图表。Meta公司也在本月承认,他们曾宣传一个与开发者可用版本不同的模型版本的基准测试分数。
即将发布的o3-pro模型
尽管公共发布的o3模型未达到OpenAI的测试承诺,但该公司的o3-mini-high和o4-mini模型在FrontierMath上的表现优于o3。此外,OpenAI计划在未来几周内推出更强大的o3变体——o3-pro。这表明OpenAI仍在不断改进其模型,以满足不同场景下的需求。
保持审慎态度
随着AI厂商竞相推出新模型以吸引关注,基准测试的“争议”正变得越来越普遍。作为读者和研究人员,我们应保持审慎态度,对厂商提供的基准测试结果进行独立验证,并关注即将到来的更强大模型的发布情况。只有这样,我们才能更全面、客观地评估AI模型的性能和潜力。
引用链接
[1]
OpenAI官网: https://openai.com/[2]
Epoch AI官网: https://epochai.org/[3]
ARC Prize Foundation官网: https://arcprize.org/