字数 454,阅读大约需 3 分钟
![null 最强AI也折戟?全新基准测试究竟有多难](https://aimgsgoheap.codexiu.cn/2025/01/image-2025-01-24-safe-ai-.webp)
非营利组织与科技公司联合发布极具挑战性的AI基准测试
近日,非营利组织人工智能安全中心(CAIS)与提供众多数据标注和AI开发服务的Scale AI公司,共同发布了一项针对前沿AI系统的全新挑战性基准测试——“人类终极考试(Humanity’s Last Exam)”。
CAIS,一直致力于推动人工智能安全领域的发展,在行业内具有较高的影响力。而Scale AI,作为一家专注于数据标注和AI开发服务的企业,为众多AI项目提供了关键支持。
这项“人类终极考试”意义非凡,它包含了数千个通过众包收集而来的问题,内容广泛涉及数学、人文科学以及自然科学等多个领域。为进一步提升评估难度,这些问题采用了多种格式,甚至融入了图表和图像。
值得一提的是,在一项初步研究中,令人惊讶的是,目前市面上所有公开可用的旗舰AI系统,在“人类终极考试”中的得分竟没有一个能超过10%。
面对这样的结果,CAIS和Scale AI表示,他们计划将此基准测试向研究社区开放。这一举动旨在让研究人员能够“更深入地探究其中的差异”,并对新的AI模型展开评估,有望推动AI技术迈向新的高度。此前也有类似的AI基准测试,如[某知名测试名称],但此次“人类终极考试”无论是在题目难度还是覆盖范围上,都有显著提升,对AI的综合能力提出了更高要求。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...