Hugging Face 发力：打造 DeepSeek 推理模型开源版

字数 966，阅读大约需 5 分钟

Hugging Face 研究人员致力于构建DeepSeek AI “推理” 模型的更开放版本

AI 领域再掀波澜，就在 DeepSeek 发布其 R1 “推理” AI 模型，引发市场强烈反响后不久，Hugging Face 的研究人员便着手从无到有地复制该模型，他们将此行动称为对 “开放知识” 的追求。

Hugging Face，作为自然语言处理领域知名的平台，其研究负责人 Leandro von Werra 与多位工程师共同发起了 Open – R1 项目。该项目旨在构建一个与 R1 相同的模型，并将其所有组件开源，包括训练所使用的数据。

DeepSeek 是一家部分由量化对冲基金资助的中国 AI 实验室，上周发布了 R1 模型。在多个基准测试中，R1 的表现与 OpenAI 的 o1 推理模型相当，甚至有所超越。R1 作为推理模型，能够有效地进行事实核查，这使其避免了一些常见模型易犯的错误。尽管推理模型相较于典型的非推理模型得出解决方案所需时间更长，通常要多花几秒到几分钟，但在物理、科学和数学等领域，它们往往更加可靠。例如，在一些复杂的数学问题求解测试中，R1 的准确率比同类非推理模型高出[X]%。

然而，R1 的 “开放” 存在局限性。从技术层面看，R1 虽获得了宽松许可，可在很大程度上不受限制地部署，但它并非被广泛认可的 “开源” 模型，因为构建它所使用的一些工具仍笼罩在神秘之中。就像许多处于前沿的 AI 公司一样，DeepSeek 不愿透露其核心技术。正如参与 Open – R1 项目的 Hugging Face 工程师 Elie Bakouch 所说：“R1 模型令人印象深刻，但没有开放数据集、实验细节或中间模型，这使得复制和进一步研究变得困难。完全开源 R1 的完整架构不仅关乎透明度，更关乎释放其潜力。”

Open – R1 项目的目标是在几周内复制 R1，这在一定程度上依赖于 Hugging Face 的 Science Cluster，这是一个拥有 768 个 Nvidia H100 GPU 的专用研究服务器。Hugging Face 的工程师计划利用 Science Cluster 生成与 DeepSeek 用于创建 R1 类似的数据集。为构建训练管道，团队正在 Hugging Face 和 GitHub 上向 AI 及更广泛的技术社区寻求帮助，Open – R1 项目就托管在这两个平台上。

Open – R1 项目已引发广泛关注，在 GitHub 上仅三天就获得了 10,000 颗星。若该项目成功，AI 研究人员将能够在训练管道的基础上进行开发，致力于下一代开源推理模型的研发。Bakouch 希望 Open – R1 项目不仅能产生一个强大的 R1 开源复制品，还能为未来更好的模型奠定基础。尽管一些 AI 专家对开源 AI 可能被滥用表示担忧，但 Bakouch 认为其好处大于风险。他表示：“当 R1 的方法被复制后，任何能租用 GPU 的人都可以用自己的数据构建 R1 的变体，进一步将这项技术传播到各处。我们对最近加强 AI 领域开放性的开源发布感到非常兴奋。这是该领域的一个重要转变，改变了只有少数实验室能够取得进展、开源落后的局面。”

# AI头条