![AI基准测试组织因延迟披露OpenAI资金引争议](https://aimgsgoheap.codexiu.cn/2024/12/image-2024-12-23-openai-search-.webp)
近期,一个致力于为AI开发数学基准测试的组织,因未及时披露来自OpenAI的资金支持,在AI领域引发了一系列争议。
Epoch AI,作为一家主要由Open Philanthropy资助的非营利组织,直到12月20日才透露OpenAI曾助力创建FrontierMath。FrontierMath是一项具备专家级问题的测试,旨在衡量AI的数学技能,同时它也是OpenAI用于展示其即将推出的旗舰AI——o3的基准之一。
在LessWrong论坛上,一位Epoch AI的承包商,用户名“Meemi”称,许多参与FrontierMath基准测试的人员,直到消息公开,才知晓OpenAI的参与。“关于此事的沟通缺乏透明度,”Meemi写道,“在我看来,Epoch AI应更早披露OpenAI的资金支持,并且承包商在选择是否参与基准测试时,应清楚了解其工作成果被用于提升AI能力的潜在可能性。”
在社交媒体上,部分用户担忧这种不透明可能损害FrontierMath作为客观基准的声誉。除了资助FrontierMath,OpenAI还能获取基准测试中的许多问题及解决方案,而Epoch AI在12月20日o3发布前一直未公开这一事实。
Epoch AI的副主任兼联合创始人Tamay Besiroglu在回复Meemi的帖子时坚称,FrontierMath的公正性并未受到损害,但也承认Epoch AI在透明度方面“犯了错误”。“在o3发布前后,我们被限制披露合作关系,现在看来,我们本应更努力争取尽早向基准测试贡献者公开信息。”Besiroglu写道,“我们的数学家理应知道谁可能接触到他们的工作。尽管合同限制了我们的言论,但我们应将与贡献者的透明度作为与OpenAI协议中不可协商的部分。”
Besiroglu还补充道,虽然OpenAI可以访问FrontierMath,但与Epoch AI有“口头协议”,不会使用FrontierMath的问题集来训练其AI。(用FrontierMath训练AI就如同为考试而教学。)Epoch AI还有一个“单独的保留集”,作为对FrontierMath基准测试结果进行独立验证的额外保障。“OpenAI完全支持我们维持一个单独的、未公开的保留集的决定。”Besiroglu写道。
然而,Epoch AI的首席数学家Ellot Glazer在Reddit上指出,Epoch AI尚未能独立验证OpenAI在FrontierMath o3上的测试结果。“我个人认为OpenAI的分数是真实的(即他们没有在数据集上训练),而且他们没有动机在内部基准测试性能上撒谎。”Glazer说,“但在我们完成独立评估之前,我们无法为他们担保。”
这一事件并非个例,此前也曾有类似案例,如[具体案例],某AI评估组织因接受特定企业资助,在评估报告中对该企业产品给予过高评价,引发行业对评估公正性的质疑。此类事件凸显了开发用于评估AI的实证基准测试的挑战,以及在获取基准开发所需资源时,如何避免产生利益冲突的问题。