智商测试为何不适用于人工智能？一文读懂

字数 877，阅读大约需 5 分钟

为何智商测试不适用于人工智能

近期，OpenAI^[1]首席执行官山姆·奥特曼（Sam Altman）在媒体露面时称，过去几年他观察到人工智能 “智商” 迅速提升，大致每年能提升一个标准差。此前，社交媒体上的人工智能领域影响者们也曾对模型进行智商测试并排名。然而，众多专家指出，智商是衡量模型能力的糟糕指标，甚至具有误导性。

牛津大学研究技术与监管的研究员桑德拉·瓦赫特（Sandra Wachter）指出，用衡量人类的标准描述人工智能能力，如同将苹果与橙子相比较。智商测试只是对特定类型智力的相对衡量，并非客观标准，不能衡量实践智能，且最多只是对智力的瞬间快照。它是基于科学家对人类智能的认知，用于衡量人类能力的工具，不能用同样标准描述人工智能能力。

要在智商测试中取得好成绩，测试者需具备强大工作记忆及对西方文化规范的了解。部分历史学家认为智商测试起源于优生学，这为偏见产生提供了空间。华盛顿大学研究符合伦理的人工智能的博士候选人奥斯·凯斯（Os Keyes）表示，模型在智商测试中表现出色，更多反映测试本身缺陷，而非模型性能。

人工智能模型拥有海量内存和内化知识，在智商测试中具有不公平优势。模型通常在公开网络数据上训练，而网络上充斥着从智商测试中选取的示例问题。伦敦国王学院专门研究人工智能的研究员迈克·库克（Mike Cook）说，提高智商的可靠方法就是练习做智商测试题，而实际上每个模型都这么做了。

人工智能现在研究所（AI Now Institute）的首席人工智能科学家海蒂·克拉夫（Heidy Khlaaf）表示，所有这些表明需要更好的人工智能测试。在计算历史上，我们从未将计算能力与人类能力精确比较，直接将系统性能与人类能力比较是近期出现且备受争议的现象。

从实际应用场景来看，现有的智商测试体系无法对特定领域的人工智能应用能力进行有效评估。在医疗影像识别、金融、教育等领域，人工智能的专业能力无法通过智商测试衡量。从人工智能自身发展看，谷歌的BERT模型、OpenAI的GPT系列模型等在自然语言处理方面展现惊人能力，但这些能力与传统智商测试涵盖的能力维度不同。

传统的智商测试已不能满足对人工智能能力评估的需求。