字数 1302,阅读大约需 7 分钟

Anthropic CEO Dario Amodei:2027年前揭开AI模型黑箱的雄心与挑战
在人工智能领域,模型的“黑箱”问题一直备受关注。尽管AI技术飞速发展,但研究人员对于顶尖AI模型内部运作机制的理解却依然有限。Anthropic CEO Dario Amodei在其最新文章中强调了这一问题的重要性,并提出了公司在2027年前可靠地检测出大多数AI模型问题的目标。
解释性的重要性
Amodei认为,在不了解AI系统如何工作的情况下部署它们是不可接受的,特别是在经济、技术和国家安全方面。他指出,随着AI系统变得越来越强大和自主,人类对其内部机制的无知将带来巨大风险。例如,当一个生成性AI系统总结财务文件时,我们无法精确地知道它为什么选择某些词而不是其他词,或者为什么它偶尔会出错。这种缺乏解释性可能导致严重的后果,尤其是当AI系统在关键领域(如医疗、金融和国防)中发挥作用时。
Anthropic的机械解释性突破
Anthropic是机械解释性领域的先驱之一,该领域旨在打开AI模型的黑箱,理解它们为什么会做出某些决策。尽管技术行业的AI模型性能迅速提高,但我们对这些系统如何做出决策的理解仍然相对有限。为了解决这个问题,Anthropic进行了一些研究突破,例如通过所谓的“电路”追踪AI模型的思考路径。
Anthropic发现,AI模型中存在许多类似于人类大脑中的神经回路的“电路”。这些电路负责处理特定的任务,例如理解美国城市与州之间的对应关系。通过识别和分析这些电路,Anthropic能够更好地理解AI模型的工作原理。然而,这只是冰山一角,据估计,AI模型中可能存在数百万个这样的电路。
未来的愿景:对AI模型进行“脑扫描”
在长期目标方面,Amodei表示,Anthropic希望能够对最先进的AI模型进行“脑扫描”或“MRI”检查。这些检查将有助于识别AI模型中的各种问题,包括它们倾向于撒谎、寻求权力或其他弱点。虽然实现这一目标可能需要五到十年的时间,但Amodei认为这是测试和部署未来AI模型所必需的措施。
呼吁行业合作与轻度监管
除了自身的研究努力,Amodei还呼吁其他领先的AI公司,如OpenAI和Google DeepMind,增加在解释性领域的研究投入。他认为,整个行业需要共同努力,以更好地理解和管理AI技术的发展。此外,Amodei支持政府实施“轻度监管”,以鼓励解释性研究,例如要求公司披露其安全和保障措施。
在文章中,Amodei还提出了对芯片出口到中国进行控制的建议,以限制全球范围内不受控制的AI竞赛的可能性。这反映了Anthropic对AI安全的一贯关注,该公司在加州备受争议的AI安全法案SB 1047上也表达了适度的支持和建议。
Anthropic的产品与科技亮点
作为一家专注于AI安全和解释性的公司,Anthropic已经取得了一些重要的研究成果。除了上述的“电路”发现,该公司还开发了一些工具和技术,用于评估和改进AI模型的安全性。例如,Anthropic的“Constitutional AI”方法通过引入一组原则来指导AI模型的行为,从而减少其产生有害或不道德输出的风险。
此外,Anthropic还积极投资于解释性研究,并 recently 对一家专注于解释性的初创公司进行了首次投资。这表明该公司不仅致力于自身的研究,还希望推动整个行业在解释性领域的发展。