DeepSeek:AI领域的崛起与颠覆

字数 1139,阅读大约需 6 分钟

DeepSeek:AI领域的崛起与颠覆

DeepSeek的起源

DeepSeek由中国量化对冲基金High – Flyer Capital Management支持。AI爱好者梁文峰于2015年共同创立了High – Flyer。梁文峰在浙江大学求学时就开始涉足交易领域,并于2019年将High – Flyer Capital Management发展为专注于开发和部署AI算法的对冲基金。2023年,High – Flyer创立DeepSeek实验室,专门研究与金融业务分离的AI工具。在High – Flyer作为投资方之一的支持下,该实验室独立成为一家名为DeepSeek的公司。

从创立之初,DeepSeek就构建了自己的数据中心集群用于模型训练。由于受到美国硬件出口禁令的影响,为了训练其最新的模型之一,该公司不得不使用英伟达H800芯片,这是一款性能较美国公司可使用的H100芯片稍弱的产品。

DeepSeek的技术团队较为年轻,该公司积极从中国顶尖大学招募AI博士研究人员。同时,据《纽约时报》报道,DeepSeek还会招聘没有计算机科学背景的人员,以帮助其技术更好地理解广泛的学科领域。

DeepSeek的强大模型

2023年11月,DeepSeek推出首批模型——DeepSeek Coder、DeepSeek LLM和DeepSeek Chat。直到2024年春天,该公司发布下一代DeepSeek – V2系列模型时,才引起AI行业的关注。

DeepSeek – V2是一个通用的文本和图像分析系统,在各种AI基准测试中表现出色,并且运行成本远低于当时的同类模型。这使得DeepSeek在国内的竞争对手,包括字节跳动和阿里巴巴,不得不降低其部分模型的使用价格,甚至将一些模型完全免费提供。

2024年12月推出的DeepSeek – V3更是让DeepSeek声名大噪。根据DeepSeek的内部基准测试,DeepSeek V3的性能优于Meta的Llama等可下载的开源模型,以及OpenAI的GPT – 4o等只能通过API访问的“封闭”模型。

2025年1月发布的DeepSeek的R1“推理”模型同样令人印象深刻。DeepSeek称其在关键基准测试中的表现与OpenAI的o1模型相当。作为推理模型,R1能够有效地对自身进行事实核查,从而避免了一些通常会困扰模型的陷阱。与典型的非推理模型相比,推理模型得出解决方案的时间通常会长几秒到几分钟,但好处是,在物理、科学和数学等领域,它们往往更加可靠。

不过,R1、DeepSeek V3以及DeepSeek的其他模型也存在一些局限性。由于是中国开发的AI,它们需要接受中国互联网监管机构的基准测试,以确保其回复“体现社会主义核心价值观”。例如,在DeepSeek的聊天机器人应用中,R1不会回答有关天安门广场或台湾自治的问题。

颠覆性的策略

DeepSeek产品和服务的定价远低于市场价值,甚至有些是免费提供的。DeepSeek表示,效率突破使其能够保持极强的成本竞争力。不过,一些专家对该公司提供的数据表示质疑。

开发者们对DeepSeek的模型青睐有加。这些模型并非通常意义上的开源,但在宽松的许可下可供商业使用。据托管DeepSeek模型的平台之一Hugging Face的首席执行官克莱姆·德朗格(Clem Delangue)称,Hugging Face上的开发者基于R1创建了500多个“衍生”模型,这些模型的下载量总计达到250万次。

DeepSeek在与规模更大、根基更稳固的竞争对手的竞争中取得成功,这被形容为“颠覆AI行业”,甚至有人认为其成功被“过度炒作”。该公司的成功导致英伟达股价周一下跌18%,并引发了OpenAI首席执行官山姆·奥特曼(Sam Altman)的公开回应。微软宣布DeepSeek可在其Azure AI Foundry服务上使用,这是微软为企业整合AI服务的平台。在Meta第一季度财报电话会议上,当被问及DeepSeek对Meta AI支出的影响时,首席执行官马克·扎克伯格(Mark Zuckerberg)表示,AI基础设施支出仍将是Meta的“战略优势”。

© 版权声明

相关文章

暂无评论

暂无评论...