探索MC-Bench:AI在Minecraft中的创新评测

AI快讯16小时前更新 freeAI
0

字数 1265,阅读大约需 7 分钟

探索MC-Bench:AI在Minecraft中的创新评测
Anthropic是一家专注于人工智能安全研究的公司,致力于开发可靠、透明和支持人类价值观的人工智能系统。Anthropic由一群前OpenAI员工创立,旨在解决随着AI技术的发展而出现的安全挑战。

Minecraft Benchmark(MC-Bench):以游戏为媒介,探索AI的边界与潜力

在传统AI基准测试方法逐渐显露不足之际,开发者们正寻求更具创意的方式来评估生成性AI模型的能力。对于其中一组开发者而言,他们选择了微软旗下的沙盒建造游戏《Minecraft》作为实验场。Minecraft Benchmark(简称MC-Bench)网站应运而生,它通过让AI模型在Minecraft中进行建造挑战来评估其能力。用户可以通过投票来评判哪个模型表现更佳,而投票结束后,他们才能知晓每个Minecraft建造作品背后的AI模型。

Minecraft:一个熟悉且安全的测试环境

对于发起MC-Bench项目的高中生Adi Singh来说,Minecraft的价值并不仅仅在于游戏本身,而在于人们对于它的熟悉程度——毕竟,它可是史上最畅销的电子游戏。即使对于那些没有玩过游戏的人来说,评估哪个方块化的菠萝形象更逼真也是可能的。Singh表示:“Minecraft让人们能够更直观地看到AI发展的进程。人们熟悉Minecraft的风格和氛围。”

Singh认为,Minecraft提供了一个比现实生活更安全、更适合测试代理推理的环境。在这个虚拟世界中,开发者可以更轻松地控制测试条件,并观察AI模型在各种任务中的表现。这对于理解和提升AI的实际应用能力具有重要意义。

MC-Bench的独特贡献与差异性

除了Minecraft,其他游戏如《Pokémon Red》、《Street Fighter》和《Pictionary》也被用于AI的实验性基准测试。这是因为AI基准测试的艺术本身就充满了挑战。研究人员经常使用标准化评估来测试AI模型,但其中许多测试都给了AI“主场优势”。由于训练方式的原因,模型在特定、狭窄的问题解决领域表现出色,尤其是那些需要死记硬背或基本外推的问题。

然而,MC-Bench与这些游戏基准测试有所不同。它更像是一个编程基准测试,因为模型被要求编写代码来创建提示的建造作品,如“冰雪奇缘”或“一个迷人的热带海滩小屋”。但对于大多数MC-Bench用户来说,评估一个雪人是否看起来更好要比深入研究代码容易得多,这赋予了该项目更广泛的吸引力,并有可能收集更多关于哪些模型持续表现更佳的数据。

企业支持与行业影响

MC-Bench目前有八名志愿者贡献者,而Anthropic、Google、OpenAI和阿里巴巴等公司则资助了该项目使用其产品来运行基准测试提示。尽管这些公司与MC-Bench没有其他隶属关系,但它们的支持无疑影响了该项目的发展方向。

Singh表示,目前他们只是进行简单的建造来反思从GPT-3时代以来我们取得了多大的进步,但未来可能会扩展到更长形式的计划和目标导向的任务。他认为,游戏可能只是一个测试代理推理的媒介,它比现实生活更安全,更易于控制测试条件,因此在他看来更理想。

MC-Bench的排行榜反映了Singh自己使用这些模型的经验,这与许多纯文本基准测试不同。他表示,也许MC-Bench可以帮助公司了解它们是否朝着正确的方向发展。

© 版权声明

相关文章

暂无评论

暂无评论...