![Paul Calcraft AI模型的创新能力测试:Pictionary与Minecraft的挑战](https://aimgsgoheap.codexiu.cn/2024/11/2024-11-06-mozilla-5e16e6293eda4089be14d546e174199c.webp)
Paul Calcraft
AI模型的创新能力测试:Pictionary与Minecraft的挑战
大多数AI基准测试并不能告诉我们太多信息。它们提出的问题可以通过机械记忆来解决,或者涉及对大多数用户来说并不相关的话题。因此,一些AI爱好者开始转向游戏,以此测试AI的问题解决技能。
自由职业AI开发者Paul Calcraft构建了一个应用,其中两个AI模型可以相互玩一个类似Pictionary的游戏。一个模型涂鸦,而另一个模型尝试猜测涂鸦代表什么。
Calcraft受到英国程序员Simon Willison类似项目的启发,该项目要求模型渲染一个矢量图,画的是一只鹈鹕骑着自行车。Willison和Calcraft一样,选择了一个他认为会迫使模型“思考”超出其训练数据内容的挑战。
“我们的想法是有一个无法被操纵的基准测试,”Calcraft说。“一个不能通过记忆特定答案或在训练期间见过的简单模式来击败的基准测试。”
Minecraft也属于这种“无法被操纵”的类别,或者至少16岁的Adonis Singh是这样认为的。他创建了一个工具,mc-bench,它给模型控制一个Minecraft角色的能力,并测试其设计结构的能力,类似于微软的Project Malmo。
“我相信Minecraft测试了模型的机智,并赋予了它们更多的代理权,”他告诉采访者。“它不像其他基准测试那样受限和饱和。”
使用游戏来基准测试AI并不是什么新鲜事。这个想法可以追溯到几十年前:数学家Claude Shannon在1949年就主张,像国际象棋这样的游戏是“智能”软件的值得挑战的任务。最近,Alphabet的DeepMind开发了一个模型,能够玩Pong和Breakout;OpenAI训练AI参加Dota 2比赛;Meta设计了一个算法,能够与职业德州扑克玩家抗衡。
但现在不同的是,爱好者们正在将大型语言模型(LLMs)——能够分析文本、图像等的模型——连接到游戏中,以探究它们在逻辑方面的表现如何。
市面上有大量的LLMs,从Gemini和Claude到GPT-4o,它们都有不同的“氛围”,可以说。它们在一次交互中给人的感觉与下一次不同——这是一个难以量化的现象。
“LLMs被认为对提问方式特别敏感,通常不可靠且难以预测,”Calcraft说。
与基于文本的基准测试相比,游戏提供了一种直观的方式来比较模型的表现和行为,马修·古兹迪亚尔说,他是阿尔伯塔大学的AI研究员和教授。
“我们可以将每个基准测试视为为我们提供了一个不同的现实简化版本,专注于特定类型的问题,如推理或沟通,”他说。“游戏只是你可以用AI进行决策的其他方式,所以人们像使用其他方法一样使用它们。”
熟悉生成性AI历史的人会注意到Pictionary与生成对抗网络(GANs)的相似之处,其中创造者模型向鉴别器模型发送图像,然后由鉴别器模型评估它们。
Calcraft认为Pictionary可以捕捉到LLM理解概念的能力,如形状、颜色和介词(例如,“in”与“on”的含义)。他不会说这个游戏是推理的可靠测试,但他辩称获胜需要策略和理解线索——这两种能力模型都不容易找到。
“我也非常喜欢Pictionary游戏的几乎对抗性质,类似于GANs,你有两个不同的角色:一个画画,另一个猜测,”他说。“最好的画画者不是最有艺术感的,而是最能清晰地向其他LLMs(包括更快、能力较差的模型!)传达想法的人。”
“Pictionary是一个玩具问题,不是立即实用或现实的,”Calcraft提醒说。“话虽如此,我认为空间理解和多模态是AI发展的关键要素,所以LLM Pictionary可能是这一旅程中的一个小的、早期的步骤。”
Singh也认为Minecraft是一个有用的基准测试,并且可以衡量LLMs中的推理。“从我测试过的模型来看,结果与我对模型进行推理相关任务的信任程度完全一致,”他说。
Mike Cook,皇后玛丽大学的研究员,专门研究AI,不认为Minecraft作为AI测试平台特别特别。
“我认为对Minecraft的一些迷恋来自游戏圈外的人,他们可能认为,因为它看起来像‘真实世界’,它与现实世界的推理或行动有更紧密的联系,”Cook告诉采访者。“从问题解决的角度来看,它与《堡垒之夜》、《星露谷物语》或《魔兽世界》等电子游戏并没有太大的不同。它只是有一个不同的外观,使它看起来更像是日常任务,如建造东西或探索。”
就Cook的观点而言,即使是最好的游戏玩家AI系统通常也不适应新环境,也不能轻易解决他们以前没有见过的问题。例如,一个在Minecraft中表现出色模型不太可能在Doom中有任何真正的技能。
“我认为Minecraft从AI的角度来看确实有一些优点,即非常弱的奖励信号和一个程序化的世界,这意味着不可预测的挑战,”Cook继续说。“但它并不比任何其他电子游戏更能代表真实世界。”
既然如此,看着LLMs建造城堡确实有些迷人。