Chatbot竞技场:AI行业的宠儿还是误导的标杆?

AI头条5个月前发布 freeAI
0

Chatbot竞技场:AI行业的宠儿还是误导的标杆?
在过去的几个月里,科技巨头如埃隆·马斯克的公司纷纷在Chatbot Arena上展示其AI模型的性能,这一平台由非营利组织LMSYS维护,迅速成为行业内的焦点。LMSYS的官方X账号拥有超过54,000名粉丝,其网站在过去一年中吸引了数百万访问者。然而,Chatbot Arena是否真的能准确衡量这些模型的“好坏”,仍存在疑问。

Chatbot竞技场:AI行业的宠儿还是误导的标杆?

LMSYS成立于去年四月,由卡内基梅隆大学、加州大学伯克利分校的SkyLab和圣地亚哥分校的学生和教职员工发起。创始成员中的一些人现在在Google DeepMind、马斯克的xAI和Nvidia工作;目前,LMSYS主要由SkyLab附属的研究人员运营。LMSYS最初的目标是通过共同开发和开源生成模型(如OpenAI的ChatGPT)来提高模型的可访问性。但不久之后,其研究人员对当前AI评测标准的不满促使他们创建了自己的测试工具——Chatbot Arena。

Chatbot Arena允许任何人在网上向两个随机选择的匿名模型提问,并在同意使用条款后投票选择他们更喜欢的答案。这一流程产生了一系列典型用户可能向任何生成模型提出的多样化问题。自推出以来,LMSYS已将数十个开源模型添加到其测试工具中,并与OpenAI、Google、Anthropic、Microsoft、Meta、Mistral和Hugging Face等公司合作,使其模型可供测试。Chatbot Arena现在拥有超过100个模型,包括多模态模型(如OpenAI的GPT-4o和Anthropic的Claude 3.5 Sonnet)。

Chatbot竞技场:AI行业的宠儿还是误导的标杆?

尽管Chatbot Arena的创始人声称用户贡献的问题“足够多样化”,可以涵盖各种AI使用场景,但其结果的实际信息量仍值得商榷。Allen Institute for AI的研究科学家Yuchen Lin指出,LMSYS并未完全透明地说明其在Chatbot Arena上评估的模型能力、知识和技能。此外,LMSYS的用户基础主要来自AI和科技行业的口碑传播,可能并不代表真实用户群体。

LMSYS试图通过使用自动化系统(如MT-Bench和Arena-Hard-Auto)来平衡这些偏见,这些系统使用OpenAI的GPT-4和GPT-4 Turbo模型来评估其他模型的响应质量。然而,LMSYS的商业关系也引发了对其公正性的质疑。一些供应商如OpenAI通过API访问模型使用数据,这可能使测试过程对开放的静态模型不公平。此外,LMSYS的部分赞助来自VC公司,这些公司也在AI领域有投资。

尽管存在这些缺陷,LMSYS和Chatbot Arena仍提供了一个有价值的平台,让用户可以实时了解不同模型在实验室外的表现。然而,Lin认为,LMSYS可以通过设计围绕不同子主题(如线性代数)的基准来提高测试的科学性。总的来说,Chatbot Arena更适合作为衡量用户满意度的工具,而不是科学和客观的AI进展标准。

© 版权声明

相关文章

暂无评论

暂无评论...