最强AI也折戟?全新基准测试究竟有多难

字数 454,阅读大约需 3 分钟

最强AI也折戟?全新基准测试究竟有多难
非营利组织人工智能安全中心(CAIS)

非营利组织与科技公司联合发布极具挑战性的AI基准测试

近日,非营利组织人工智能安全中心(CAIS)与提供众多数据标注和AI开发服务的Scale AI公司,共同发布了一项针对前沿AI系统的全新挑战性基准测试——“人类终极考试(Humanity’s Last Exam)”。

CAIS,一直致力于推动人工智能安全领域的发展,在行业内具有较高的影响力。而Scale AI,作为一家专注于数据标注和AI开发服务的企业,为众多AI项目提供了关键支持。

这项“人类终极考试”意义非凡,它包含了数千个通过众包收集而来的问题,内容广泛涉及数学、人文科学以及自然科学等多个领域。为进一步提升评估难度,这些问题采用了多种格式,甚至融入了图表和图像。

值得一提的是,在一项初步研究中,令人惊讶的是,目前市面上所有公开可用的旗舰AI系统,在“人类终极考试”中的得分竟没有一个能超过10%。

面对这样的结果,CAIS和Scale AI表示,他们计划将此基准测试向研究社区开放。这一举动旨在让研究人员能够“更深入地探究其中的差异”,并对新的AI模型展开评估,有望推动AI技术迈向新的高度。此前也有类似的AI基准测试,如[某知名测试名称],但此次“人类终极考试”无论是在题目难度还是覆盖范围上,都有显著提升,对AI的综合能力提出了更高要求。

© 版权声明

相关文章

暂无评论

暂无评论...