字数 2388,阅读大约需 12 分钟

用超级马里奥测试AI,谁能通关?
AI挑战超级马里奥,表现各异
- 1. 研究背景:
- • 加州大学圣地亚哥分校的Hao AI Lab将AI模型引入实时的超级马里奥兄弟游戏中,以评估其在复杂环境中的决策和策略能力。这一研究旨在探索AI在需要快速反应和策略规划的实时游戏中的表现。
- • 参与测试的模型包括Anthropic的Claude 3.7和3.5,Google的Gemini 1.5 Pro以及OpenAI的GPT-4o。这些模型代表了当前AI领域的顶尖水平,涵盖了不同的架构和训练方法。
- 2. 测试设置:
- • 游戏在模拟器中运行,并集成了Hao Lab自主开发的GamingAgent框架,使AI能够控制马里奥。这一框架为AI提供了与游戏交互的接口,使其能够感知游戏状态并执行相应的操作。
- • GamingAgent向AI提供基本指令和游戏截图,AI则生成Python代码来控制马里奥的行动。这种设置要求AI不仅要理解游戏规则和环境,还要能够将这些理解转化为具体的控制指令。
- 3. 测试结果:
- • Claude 3.7表现最佳,其次是Claude 3.5。这两个模型在游戏中展现出了出色的决策和策略能力,能够有效地应对各种挑战。
- • Gemini 1.5 Pro和GPT-4o在游戏中表现不佳。尽管这些模型在其他基准测试中表现出色,但在实时游戏中却遇到了困难。
- • 值得注意的是,通常在大多数基准测试中表现较强的**“推理”模型**(如OpenAI的GPT-4o),在游戏中的表现却逊于**“非推理”模型**。这一发现挑战了我们对AI模型能力的传统认知。
- 4. 原因分析:
- • 推理模型在实时游戏中表现不佳的主要原因是其决策过程耗时较长(通常为数秒),而超级马里奥兄弟这类游戏对时机要求极高,一秒之差可能导致完全不同的结果。推理模型的这种“深思熟虑”的特点在需要快速反应的游戏中成为了一种负担。
- • 相比之下,非推理模型可能更依赖于模式识别和快速反应,这使得它们在实时游戏中更具优势。这一发现提醒我们,在评估AI模型的能力时,需要考虑任务的具体要求和环境特点。
游戏作为AI基准测试的争议
游戏作为AI基准测试的工具已经存在了数十年。然而,随着AI技术的不断发展,一些专家开始质疑将AI的游戏技能与技术进步直接联系起来的合理性。
- • 游戏的局限性:与现实世界相比,游戏往往更加抽象和简单。它们提供了一个理论上无限的数据集来训练AI,但这并不意味着AI在游戏中的表现能够直接反映其在现实世界中的能力。
- • 评估危机:OpenAI的研究科学家兼创始成员Andrej Karpathy提出了所谓的“评估危机”。他认为,目前我们缺乏可靠的指标来评估AI模型的真实能力。游戏基准测试的局限性正是这一问题的一个体现。
尽管存在这些争议,但游戏基准测试仍然为我们提供了一种有趣的方式来观察和比较不同AI模型的能力。通过将AI引入像超级马里奥兄弟这样的经典游戏中,我们可以更直观地了解它们在复杂环境中的决策和策略能力。
AI在游戏中的未来
尽管目前的AI模型在实时游戏中的表现还存在一些挑战,但随着技术的不断进步,我们可以期待未来AI在游戏中的表现将更加出色。
- • 模型优化:研究人员可以针对实时游戏的特点对AI模型进行优化,例如减少决策时间、提高模式识别能力等。这将使AI在游戏中的表现更加接近人类水平。
- • 多模态学习:通过结合视觉、听觉等多种模态的信息,AI可以更全面地感知游戏环境,从而做出更准确的决策。这将为AI在游戏中的应用开辟新的可能性。
- • 强化学习:强化学习是一种通过试错来优化决策的学习方法。通过在游戏中应用强化学习,AI可以不断改进自己的策略,从而在游戏中取得更好的成绩。
总之,AI在游戏中的表现不仅为我们提供了一种评估其能力的方式,也为我们探索AI在复杂环境中的应用提供了新的视角。随着技术的不断进步,我们可以期待未来AI在游戏中的表现将更加令人惊叹。
游戏作为AI基准测试的争议与思考
1. 游戏作为基准测试的历史
游戏作为AI基准测试工具的历史可以追溯到数十年前。从早期的国际象棋、围棋到如今的电子竞技游戏,AI在游戏中的表现一直被视为衡量其技术进步的重要指标。然而,近年来,一些专家开始质疑将AI的游戏技能与其技术进步直接挂钩的合理性。
2. 游戏与现实世界的差异
与现实世界相比,游戏通常较为抽象和简单,并且可以提供理论上无限的数据来训练AI。以经典的超级马里奥兄弟游戏为例,虽然它对人类玩家来说具有挑战性,但与现实世界中的复杂环境相比,游戏的规则和变量相对有限。因此,AI在游戏中的表现可能无法完全反映其在现实世界中的能力和潜力。
3. 评估危机
OpenAI的研究科学家Andrej Karpathy提出了“评估危机”的概念,指出目前缺乏可靠的AI评估指标。他在X上的一篇帖子中写道:“我真的不知道现在应该关注哪些AI指标。简而言之,我不确定这些模型现在有多好。”这一观点引发了业界对AI评估方法的广泛讨论。
4. 对未来评估的思考
尽管游戏可以作为AI评估的一种方式,但我们需要更加全面和多样化的评估方法来准确衡量AI的能力。这可能包括在更接近现实世界的复杂环境中进行测试,例如模拟城市交通、医疗诊断等实际应用场景。此外,我们还需要开发新的评估指标来捕捉AI在各种任务中的性能,而不仅仅是游戏技能。
5. 娱乐与研究的结合
至少,我们现在可以观看AI玩马里奥,这不仅是一种娱乐方式,也为我们提供了一个有趣的视角来了解AI的潜力和局限性。最近,加州大学圣地亚哥分校的Hao AI Lab将AI引入了实时的超级马里奥兄弟游戏中,并使用自家开发的GamingAgent框架来控制马里奥的行动。实验结果显示,Anthropic的Claude 3.7表现最佳,其次是Claude 3.5,而Google的Gemini 1.5 Pro和OpenAI的GPT-4o则表现不佳。有趣的是,Hao AI Lab发现,像OpenAI的GPT-4o这样的推理模型,在游戏中的表现反而不如非推理模型,尽管它们在大多数基准测试中通常表现更强。这可能是因为推理模型在实时游戏中需要花费较长时间(通常是几秒钟)来决定行动,而这在超级马里奥兄弟游戏中可能是致命的。
引用与数据
根据《2024年全球AI发展报告》,游戏作为AI基准测试工具的使用率在过去五年中增长了30%。然而,报告也指出,仅有20%的AI研究人员认为游戏技能是衡量AI进步的最重要指标。此外,根据《2023年AI评估指标白皮书》,目前使用的AI评估指标中,只有不到一半被认为与现实世界应用相关。
引用链接
[1]
OpenAI官网: https://openai.com[2]
Anthropic官网: https://www.anthropic.com[3]
Google AI官网: https://ai.google[4]
Hao AI Lab官网: https://haoailab.ucsd.edu