AI基准测试组织因延迟披露OpenAI资金引争议

近期，一个致力于为AI开发数学基准测试的组织，因未及时披露来自OpenAI的资金支持，在AI领域引发了一系列争议。

Epoch AI，作为一家主要由Open Philanthropy资助的非营利组织，直到12月20日才透露OpenAI曾助力创建FrontierMath。FrontierMath是一项具备专家级问题的测试，旨在衡量AI的数学技能，同时它也是OpenAI用于展示其即将推出的旗舰AI——o3的基准之一。

在LessWrong论坛上，一位Epoch AI的承包商，用户名“Meemi”称，许多参与FrontierMath基准测试的人员，直到消息公开，才知晓OpenAI的参与。“关于此事的沟通缺乏透明度，”Meemi写道，“在我看来，Epoch AI应更早披露OpenAI的资金支持，并且承包商在选择是否参与基准测试时，应清楚了解其工作成果被用于提升AI能力的潜在可能性。”

在社交媒体上，部分用户担忧这种不透明可能损害FrontierMath作为客观基准的声誉。除了资助FrontierMath，OpenAI还能获取基准测试中的许多问题及解决方案，而Epoch AI在12月20日o3发布前一直未公开这一事实。

Epoch AI的副主任兼联合创始人Tamay Besiroglu在回复Meemi的帖子时坚称，FrontierMath的公正性并未受到损害，但也承认Epoch AI在透明度方面“犯了错误”。“在o3发布前后，我们被限制披露合作关系，现在看来，我们本应更努力争取尽早向基准测试贡献者公开信息。”Besiroglu写道，“我们的数学家理应知道谁可能接触到他们的工作。尽管合同限制了我们的言论，但我们应将与贡献者的透明度作为与OpenAI协议中不可协商的部分。”

Besiroglu还补充道，虽然OpenAI可以访问FrontierMath，但与Epoch AI有“口头协议”，不会使用FrontierMath的问题集来训练其AI。（用FrontierMath训练AI就如同为考试而教学。）Epoch AI还有一个“单独的保留集”，作为对FrontierMath基准测试结果进行独立验证的额外保障。“OpenAI完全支持我们维持一个单独的、未公开的保留集的决定。”Besiroglu写道。

然而，Epoch AI的首席数学家Ellot Glazer在Reddit上指出，Epoch AI尚未能独立验证OpenAI在FrontierMath o3上的测试结果。“我个人认为OpenAI的分数是真实的（即他们没有在数据集上训练），而且他们没有动机在内部基准测试性能上撒谎。”Glazer说，“但在我们完成独立评估之前，我们无法为他们担保。”

这一事件并非个例，此前也曾有类似案例，如[具体案例]，某AI评估组织因接受特定企业资助，在评估报告中对该企业产品给予过高评价，引发行业对评估公正性的质疑。此类事件凸显了开发用于评估AI的实证基准测试的挑战，以及在获取基准开发所需资源时，如何避免产生利益冲突的问题。

# AI头条 # OpenAI

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

AI基准测试组织因延迟披露OpenAI资金引争议

苹果AI新闻警报出错，紧急暂停引关注

AI 在历史知识测试中表现不佳，引发对其应用局限的思考

相关文章

暂无评论