探索MC-Bench：AI在Minecraft中的创新评测

字数 1265，阅读大约需 7 分钟

Minecraft Benchmark（MC-Bench）：以游戏为媒介，探索AI的边界与潜力

在传统AI基准测试方法逐渐显露不足之际，开发者们正寻求更具创意的方式来评估生成性AI模型的能力。对于其中一组开发者而言，他们选择了微软旗下的沙盒建造游戏《Minecraft》作为实验场。Minecraft Benchmark（简称MC-Bench）网站应运而生，它通过让AI模型在Minecraft中进行建造挑战来评估其能力。用户可以通过投票来评判哪个模型表现更佳，而投票结束后，他们才能知晓每个Minecraft建造作品背后的AI模型。

Minecraft：一个熟悉且安全的测试环境

对于发起MC-Bench项目的高中生Adi Singh来说，Minecraft的价值并不仅仅在于游戏本身，而在于人们对于它的熟悉程度——毕竟，它可是史上最畅销的电子游戏。即使对于那些没有玩过游戏的人来说，评估哪个方块化的菠萝形象更逼真也是可能的。Singh表示：“Minecraft让人们能够更直观地看到AI发展的进程。人们熟悉Minecraft的风格和氛围。”

Singh认为，Minecraft提供了一个比现实生活更安全、更适合测试代理推理的环境。在这个虚拟世界中，开发者可以更轻松地控制测试条件，并观察AI模型在各种任务中的表现。这对于理解和提升AI的实际应用能力具有重要意义。

MC-Bench的独特贡献与差异性

除了Minecraft，其他游戏如《Pokémon Red》、《Street Fighter》和《Pictionary》也被用于AI的实验性基准测试。这是因为AI基准测试的艺术本身就充满了挑战。研究人员经常使用标准化评估来测试AI模型，但其中许多测试都给了AI“主场优势”。由于训练方式的原因，模型在特定、狭窄的问题解决领域表现出色，尤其是那些需要死记硬背或基本外推的问题。

然而，MC-Bench与这些游戏基准测试有所不同。它更像是一个编程基准测试，因为模型被要求编写代码来创建提示的建造作品，如“冰雪奇缘”或“一个迷人的热带海滩小屋”。但对于大多数MC-Bench用户来说，评估一个雪人是否看起来更好要比深入研究代码容易得多，这赋予了该项目更广泛的吸引力，并有可能收集更多关于哪些模型持续表现更佳的数据。

企业支持与行业影响

MC-Bench目前有八名志愿者贡献者，而Anthropic、Google、OpenAI和阿里巴巴等公司则资助了该项目使用其产品来运行基准测试提示。尽管这些公司与MC-Bench没有其他隶属关系，但它们的支持无疑影响了该项目的发展方向。

Singh表示，目前他们只是进行简单的建造来反思从GPT-3时代以来我们取得了多大的进步，但未来可能会扩展到更长形式的计划和目标导向的任务。他认为，游戏可能只是一个测试代理推理的媒介，它比现实生活更安全，更易于控制测试条件，因此在他看来更理想。

MC-Bench的排行榜反映了Singh自己使用这些模型的经验，这与许多纯文本基准测试不同。他表示，也许MC-Bench可以帮助公司了解它们是否朝着正确的方向发展。

# AI快讯 # AI游戏

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

探索MC-Bench：AI在Minecraft中的创新评测

Minecraft Benchmark（MC-Bench）：以游戏为媒介，探索AI的边界与潜力

Minecraft：一个熟悉且安全的测试环境

MC-Bench的独特贡献与差异性

企业支持与行业影响

苹果因AI功能延迟面临诉讼：科技行业信任危机

Perplexity：AI搜索市场中的估值飞跃与挑战

相关文章

暂无评论