字数 1202,阅读大约需 7 分钟

DeepMind最新论文:通用人工智能安全性的深度探讨
DeepMind近日发布了一篇长达145页的论文,深入探讨了通用人工智能(AGI)的安全性问题,为科技界尤其是AI领域带来了新的思考。
核心观点:2030年前的‘杰出AGI’与‘严重危害’
论文预测,到2030年之前,我们可能会见证一种被称为‘杰出AGI’的系统出现。这种系统在广泛的非物理任务上,包括元认知任务如学习新技能,其能力将至少达到熟练成年人中99%的水平。然而,这种进步也伴随着潜在的‘严重危害’,论文中甚至提到了‘存在性风险’,即可能对人类造成永久性毁灭的威胁。
不同策略:DeepMind、Anthropic与OpenAI的AGI风险缓解之道
在AGI风险缓解策略上,DeepMind与Anthropic、OpenAI存在明显差异。DeepMind强调了稳健的训练、监控和安全措施的重要性,而Anthropic则相对较少关注这些方面。OpenAI则对一种名为‘对齐研究’的AI安全研究自动化持过于乐观的态度。此外,DeepMind对超级智能AI的实现可能性表示怀疑,认为在没有重大架构创新的情况下,超级智能系统可能不会很快出现,甚至可能永远不会实现。
关键措施:提高理解、阻止不良行为者与强化环境
论文提出了几项关键措施来应对AGI的潜在风险。首先,我们需要提高对AI系统行为的理解,以便更好地预测和控制其行为。其次,我们需要采取措施阻止不良行为者接触到假设性的AGI,以防止其被滥用。最后,我们需要强化AI行动的环境,使其更加安全和可控。尽管这些技术目前仍处于起步阶段,存在许多开放性研究问题,但论文警告我们不能忽视这些可能即将到来的安全挑战。
专家观点:AGI概念定义不清、递归自我改进现实性质疑与不准确输出自我强化
然而,并非所有专家都认同论文的观点。Heidy Khlaaf,非营利组织AI Now Institute的首席AI科学家,认为AGI的概念过于模糊,无法进行严格的科学评估。Matthew Guzdial,阿尔伯塔大学的助理教授,则对递归AI改进的现实性表示怀疑,认为我们从未见过任何证据表明这种改进是可行的。Sandra Wachter,牛津大学研究技术和监管的研究员,则提出了一个更现实的担忧:AI通过不准确的输出来强化自身。随着生成性AI输出在互联网上的泛滥以及真实数据的逐渐被取代,模型现在正在从它们自己的充满错误或幻觉的输出中学习。这可能导致我们不断面临被误导的风险,因为这些错误信息以非常令人信服的方式呈现给我们。
潜在影响:未来AGI研究方向与AI安全性关注点的重新评估
尽管DeepMind的论文内容详尽,但它可能无法完全平息关于AGI实际可行性和最迫切需要解决的AI安全问题的争论。然而,它无疑为我们提供了一个重要的视角,促使我们重新评估未来AGI的研究方向以及我们对AI安全性的关注点。在追求AGI的壮丽愿景的同时,我们必须时刻警惕其可能带来的风险,并积极采取措施来确保其安全、负责任的发展。