中国AI新星DeepSeek：如何比肩OpenAI的传奇之路

字数 1252，阅读大约需 7 分钟

中国AI初创公司DeepSeek如何打造匹敌OpenAI的模型

如今，DeepSeek是中国领先的AI公司之一，且不依赖百度、阿里巴巴或字节跳动等科技巨头的资金支持。

一群渴望证明自己的年轻天才

据DeepSeek的梁先生介绍，在组建研究团队时，他并未寻求经验丰富的工程师来打造面向消费者的产品。相反，他将目光聚焦于来自中国顶尖高校（如北京大学[https://www.pku.edu.cn/]和**清华大学**[https://www.tsinghua.edu.cn/]）的博士生。这些博士生渴望证明自己，许多人已在顶级期刊发表论文，并在国际学术会议上获奖，但缺乏行业经验，中国科技刊物QBitAI报道称。

“我们的核心技术岗位大多由今年或过去一两年毕业的人担任。”梁先生在2023年接受36Kr采访时表示。这种招聘策略营造了一种协作的公司文化，员工可以自由使用充足的计算资源，去探索非传统的研究项目。这与中国成熟的互联网公司运营方式截然不同，在那些公司中，团队常常为资源而竞争。（近期一个例子：字节跳动曾指控一名前实习生——还是一位知名学术奖项获得者——为了为自己的团队囤积更多计算资源，而破坏同事的工作。）

梁先生表示，学生更适合高投入、低利润的研究。“大多数人在年轻时，可以全身心投入一项使命，而不考虑功利因素。”他解释道。他向潜在员工宣传，DeepSeek的创立是为了“解决世界上最棘手的问题”。专家称，这些年轻研究人员几乎都在中国接受教育，这进一步激发了他们的动力。“这年轻一代还体现出一种爱国情怀，特别是在应对美国在关键硬件和软件技术方面的限制和瓶颈时。”张先生解释说，“他们克服这些障碍的决心，不仅反映了个人抱负，也体现了对提升中国作为全球创新领导者地位的广泛承诺。”

危机中诞生的创新

2022年10月，美国政府开始实施出口管制，严重限制中国AI公司获取英伟达H100等尖端芯片。这一举措给DeepSeek带来了难题。该公司起初储备了10,000个H100芯片，但要与OpenAI和Meta等公司竞争，还需要更多。“我们面临的问题从来都不是资金，而是先进芯片的出口管制。”梁先生在2024年的第二次采访中告诉36Kr。

DeepSeek不得不想出更高效的方法来训练模型。“他们运用一系列工程技巧优化模型架构，如芯片间的定制通信方案、缩小字段大小以节省内存，以及创新地使用混合模型方法。”墨卡托中国研究中心的软件工程师出身的政策分析师Wendy Chang说，“许多方法并非新想法，但成功将它们结合以产生尖端模型，是一项了不起的成就。”

DeepSeek在多头潜在注意力（MLA）和专家混合（Mixture-of-Experts）方面也取得了重大进展，这两项技术设计使DeepSeek模型在训练时所需计算资源更少，从而更具成本效益。事实上，研究机构Epoch AI称，DeepSeek的最新模型效率极高，训练所需计算能力仅为Meta可比的Llama 3.1模型的十分之一。

DeepSeek愿意与公众分享这些创新，这在全球AI研究社区中为其赢得了相当好的声誉。对于许多中国AI公司而言，开发开源模型是追赶西方同行的唯一途径，因为这能吸引更多用户和贡献者，进而助力模型发展。“他们现已证明，虽然仍需大量资金，但可以用更少的资源构建尖端模型，且当前模型构建的规范仍有很大优化空间。”Chang说，“我们肯定会看到未来有更多朝这个方向的尝试。”这一消息可能给当前美国旨在制造计算资源瓶颈的出口管制带来麻烦。“现有对中国拥有多少AI计算能力以及他们能用其实现什么的估计，可能会被颠覆。”Chang说。

# 初创公司 # DeepSeek

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

中国AI新星DeepSeek：如何比肩OpenAI的传奇之路

中国AI初创公司DeepSeek如何打造匹敌OpenAI的模型

一群渴望证明自己的年轻天才

危机中诞生的创新

Meta 大动作：弃用事实核查员，力推X风格社区笔记引争议

揭秘：如何将月尘转化为氧气，开启月球探索新篇章

相关文章

暂无评论