字数 1072,阅读大约需 6 分钟

深入探讨众包AI基准测试的争议与挑战
随着AI实验室越来越依赖如Chatbot Arena[1]这样的众包平台来评估新模型的能力,专家们对此表示担忧。Emily Bender,华盛顿大学语言学教授及《AI骗局》一书的合著者,对Chatbot Arena提出了质疑。她认为,一个有效的基准测试需要测量特定的内容,并具备结构有效性,即所关注的结构需要被明确定义,且测量结果应与该结构相关。然而,Chatbot Arena并未证明用户对不同输出的投票与偏好之间存在关联。
Asmelash Teka Hadgu,AI公司Lesan的联合创始人及分布式AI研究研究所的研究员,指出像Chatbot Arena这样的基准测试正被AI实验室利用,以夸大其模型的性能。他引用了Meta的Llama 4 Maverick模型的争议为例,Meta调整了Maverick的版本以在Chatbot Arena上获得高分,但最终发布的却是性能较差的版本。
改进基准测试方法的呼吁
Hadgu主张基准测试应该是动态的而非静态的数据集,并应由多个独立的实体(如组织或大学)分布式进行,针对特定应用场景(如教育、医疗等)进行定制化。他还与Aspen Institute的前Emergent和Intelligent Technologies Initiative负责人Kristine Gloria共同呼吁,应为参与模型评估工作的志愿者提供合理的补偿。Gloria指出,AI实验室应从数据标注行业的错误中吸取教训,避免剥削性做法。
Matt Fredrikson,Gray Swan AI的CEO,该公司为模型运行众包红队测试活动,他表示志愿者参与其平台的原因包括学习和实践新技能。尽管Gray Swan也为一些测试提供现金奖励,但Fredrikson承认公共基准测试不能替代付费的私人评估。他强调,开发者还需要依赖内部基准测试、算法红队和具备特定领域专业知识的合同制红队人员。
LMArena的应对措施与未来展望
Alex Atallah,模型市场OpenRouter的CEO,该公司最近与OpenAI合作,为用户提供早期访问OpenAI的GPT-4.1模型的机会,他认为仅进行开放测试和基准测试是不够的。同样,UC伯克利的AI博士生Wei-Lin Chiang,也是LMArena(维护Chatbot Arena)的创始人之一,表示支持使用其他测试。他们的目标是创建一个值得信赖的开放空间,以衡量社区对不同AI模型的偏好。
Chiang表示,像Maverick基准测试差异这样的事件并不是Chatbot Arena设计缺陷的结果,而是实验室对其政策的误解。为了预防未来出现类似问题,LMArena采取了一系列措施,包括更新政策以强调对公平、可重复评估的承诺。Chiang强调,LMArena的社区成员并非志愿者或模型测试人员,而是希望在一个开放、透明的环境中与AI互动并提供集体反馈的用户。只要排行榜忠实地反映了社区的声音,他们就欢迎其被分享。