最强AI也折戟？全新基准测试究竟有多难

AI头条4个月前发布 freeAI

0 0

字数 454，阅读大约需 3 分钟

最强AI也折戟？全新基准测试究竟有多难 — 非营利组织人工智能安全中心（CAIS）

非营利组织与科技公司联合发布极具挑战性的AI基准测试

近日，非营利组织人工智能安全中心（CAIS）与提供众多数据标注和AI开发服务的Scale AI公司，共同发布了一项针对前沿AI系统的全新挑战性基准测试——“人类终极考试（Humanity’s Last Exam）”。

CAIS，一直致力于推动人工智能安全领域的发展，在行业内具有较高的影响力。而Scale AI，作为一家专注于数据标注和AI开发服务的企业，为众多AI项目提供了关键支持。

这项“人类终极考试”意义非凡，它包含了数千个通过众包收集而来的问题，内容广泛涉及数学、人文科学以及自然科学等多个领域。为进一步提升评估难度，这些问题采用了多种格式，甚至融入了图表和图像。

值得一提的是，在一项初步研究中，令人惊讶的是，目前市面上所有公开可用的旗舰AI系统，在“人类终极考试”中的得分竟没有一个能超过10%。

面对这样的结果，CAIS和Scale AI表示，他们计划将此基准测试向研究社区开放。这一举动旨在让研究人员能够“更深入地探究其中的差异”，并对新的AI模型展开评估，有望推动AI技术迈向新的高度。此前也有类似的AI基准测试，如[某知名测试名称]，但此次“人类终极考试”无论是在题目难度还是覆盖范围上，都有显著提升，对AI的综合能力提出了更高要求。

# AI头条