DeepSeek：AI领域的崛起与颠覆

字数 1139，阅读大约需 6 分钟

DeepSeek的起源

DeepSeek由中国量化对冲基金High – Flyer Capital Management支持。AI爱好者梁文峰于2015年共同创立了High – Flyer。梁文峰在浙江大学求学时就开始涉足交易领域，并于2019年将High – Flyer Capital Management发展为专注于开发和部署AI算法的对冲基金。2023年，High – Flyer创立DeepSeek实验室，专门研究与金融业务分离的AI工具。在High – Flyer作为投资方之一的支持下，该实验室独立成为一家名为DeepSeek的公司。

从创立之初，DeepSeek就构建了自己的数据中心集群用于模型训练。由于受到美国硬件出口禁令的影响，为了训练其最新的模型之一，该公司不得不使用英伟达H800芯片，这是一款性能较美国公司可使用的H100芯片稍弱的产品。

DeepSeek的技术团队较为年轻，该公司积极从中国顶尖大学招募AI博士研究人员。同时，据《纽约时报》报道，DeepSeek还会招聘没有计算机科学背景的人员，以帮助其技术更好地理解广泛的学科领域。

DeepSeek的强大模型

2023年11月，DeepSeek推出首批模型——DeepSeek Coder、DeepSeek LLM和DeepSeek Chat。直到2024年春天，该公司发布下一代DeepSeek – V2系列模型时，才引起AI行业的关注。

DeepSeek – V2是一个通用的文本和图像分析系统，在各种AI基准测试中表现出色，并且运行成本远低于当时的同类模型。这使得DeepSeek在国内的竞争对手，包括字节跳动和阿里巴巴，不得不降低其部分模型的使用价格，甚至将一些模型完全免费提供。

2024年12月推出的DeepSeek – V3更是让DeepSeek声名大噪。根据DeepSeek的内部基准测试，DeepSeek V3的性能优于Meta的Llama等可下载的开源模型，以及OpenAI的GPT – 4o等只能通过API访问的“封闭”模型。

2025年1月发布的DeepSeek的R1“推理”模型同样令人印象深刻。DeepSeek称其在关键基准测试中的表现与OpenAI的o1模型相当。作为推理模型，R1能够有效地对自身进行事实核查，从而避免了一些通常会困扰模型的陷阱。与典型的非推理模型相比，推理模型得出解决方案的时间通常会长几秒到几分钟，但好处是，在物理、科学和数学等领域，它们往往更加可靠。

不过，R1、DeepSeek V3以及DeepSeek的其他模型也存在一些局限性。由于是中国开发的AI，它们需要接受中国互联网监管机构的基准测试，以确保其回复“体现社会主义核心价值观”。例如，在DeepSeek的聊天机器人应用中，R1不会回答有关天安门广场或台湾自治的问题。

颠覆性的策略

DeepSeek产品和服务的定价远低于市场价值，甚至有些是免费提供的。DeepSeek表示，效率突破使其能够保持极强的成本竞争力。不过，一些专家对该公司提供的数据表示质疑。

开发者们对DeepSeek的模型青睐有加。这些模型并非通常意义上的开源，但在宽松的许可下可供商业使用。据托管DeepSeek模型的平台之一Hugging Face的首席执行官克莱姆·德朗格（Clem Delangue）称，Hugging Face上的开发者基于R1创建了500多个“衍生”模型，这些模型的下载量总计达到250万次。

DeepSeek在与规模更大、根基更稳固的竞争对手的竞争中取得成功，这被形容为“颠覆AI行业”，甚至有人认为其成功被“过度炒作”。该公司的成功导致英伟达股价周一下跌18%，并引发了OpenAI首席执行官山姆·奥特曼（Sam Altman）的公开回应。微软宣布DeepSeek可在其Azure AI Foundry服务上使用，这是微软为企业整合AI服务的平台。在Meta第一季度财报电话会议上，当被问及DeepSeek对Meta AI支出的影响时，首席执行官马克·扎克伯格（Mark Zuckerberg）表示，AI基础设施支出仍将是Meta的“战略优势”。

# AI快讯 # DeepSeek

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

DeepSeek：AI领域的崛起与颠覆

DeepSeek的起源

DeepSeek的强大模型

颠覆性的策略

微软成立新部门，深度探索AI影响

谷歌悄然发布Gemini 2.0 Pro Experimental，AI领域再掀波澜

相关文章

暂无评论