DeepMind最新论文：探讨通用人工智能的安全性

字数 1202，阅读大约需 7 分钟

DeepMind最新论文：通用人工智能安全性的深度探讨

DeepMind近日发布了一篇长达145页的论文，深入探讨了通用人工智能（AGI）的安全性问题，为科技界尤其是AI领域带来了新的思考。

核心观点：2030年前的‘杰出AGI’与‘严重危害’

论文预测，到2030年之前，我们可能会见证一种被称为‘杰出AGI’的系统出现。这种系统在广泛的非物理任务上，包括元认知任务如学习新技能，其能力将至少达到熟练成年人中99%的水平。然而，这种进步也伴随着潜在的‘严重危害’，论文中甚至提到了‘存在性风险’，即可能对人类造成永久性毁灭的威胁。

不同策略：DeepMind、Anthropic与OpenAI的AGI风险缓解之道

在AGI风险缓解策略上，DeepMind与Anthropic、OpenAI存在明显差异。DeepMind强调了稳健的训练、监控和安全措施的重要性，而Anthropic则相对较少关注这些方面。OpenAI则对一种名为‘对齐研究’的AI安全研究自动化持过于乐观的态度。此外，DeepMind对超级智能AI的实现可能性表示怀疑，认为在没有重大架构创新的情况下，超级智能系统可能不会很快出现，甚至可能永远不会实现。

关键措施：提高理解、阻止不良行为者与强化环境

论文提出了几项关键措施来应对AGI的潜在风险。首先，我们需要提高对AI系统行为的理解，以便更好地预测和控制其行为。其次，我们需要采取措施阻止不良行为者接触到假设性的AGI，以防止其被滥用。最后，我们需要强化AI行动的环境，使其更加安全和可控。尽管这些技术目前仍处于起步阶段，存在许多开放性研究问题，但论文警告我们不能忽视这些可能即将到来的安全挑战。

专家观点：AGI概念定义不清、递归自我改进现实性质疑与不准确输出自我强化

然而，并非所有专家都认同论文的观点。Heidy Khlaaf，非营利组织AI Now Institute的首席AI科学家，认为AGI的概念过于模糊，无法进行严格的科学评估。Matthew Guzdial，阿尔伯塔大学的助理教授，则对递归AI改进的现实性表示怀疑，认为我们从未见过任何证据表明这种改进是可行的。Sandra Wachter，牛津大学研究技术和监管的研究员，则提出了一个更现实的担忧：AI通过不准确的输出来强化自身。随着生成性AI输出在互联网上的泛滥以及真实数据的逐渐被取代，模型现在正在从它们自己的充满错误或幻觉的输出中学习。这可能导致我们不断面临被误导的风险，因为这些错误信息以非常令人信服的方式呈现给我们。

潜在影响：未来AGI研究方向与AI安全性关注点的重新评估

尽管DeepMind的论文内容详尽，但它可能无法完全平息关于AGI实际可行性和最迫切需要解决的AI安全问题的争论。然而，它无疑为我们提供了一个重要的视角，促使我们重新评估未来AGI的研究方向以及我们对AI安全性的关注点。在追求AGI的壮丽愿景的同时，我们必须时刻警惕其可能带来的风险，并积极采取措施来确保其安全、负责任的发展。

# AI快讯 # AGI

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...