DeepSeek:从量化对冲基金孵化的AI新势力

AI头条5小时前发布 freeAI
0

字数 1195,阅读大约需 6 分钟

DeepSeek:从量化对冲基金孵化的AI新势力

DeepSeek的起源:量化对冲基金的孵化

DeepSeek背后的投资方是中国量化对冲基金High – Flyer Capital Management。该基金由AI爱好者梁文峰于2015年联合创立,梁文峰在浙江大学求学期间就涉足交易领域,并于2019年正式推出High – Flyer Capital Management,专注于开发和部署AI算法。2023年,High – Flyer开启了DeepSeek实验室项目,旨在独立于金融业务,专注研究AI工具。随后,DeepSeek从实验室发展成为独立公司。

从创立之初,DeepSeek就自建数据中心集群用于模型训练。由于受到美国硬件出口禁令的影响,为训练最新模型,DeepSeek不得不使用英伟达H800芯片,这款芯片的性能低于美国公司可用的H100芯片。

DeepSeek的技术团队以年轻成员为主。该公司积极从中国顶尖高校招募AI博士研究员,同时也会聘请没有计算机科学背景的人员,以帮助其技术更好地理解广泛的学科领域。

据相关行业报告显示,在2023 – 2024年间,因美国出口禁令影响,中国AI企业在硬件获取上成本平均提升了30%,这一数据侧面反映了DeepSeek面临的外部挑战。

DeepSeek的强大模型:技术实力的展现

DeepSeek于2023年11月推出了首批模型,包括DeepSeek Coder、DeepSeek LLM和DeepSeek Chat。2024年春季,其发布的下一代DeepSeek – V2系列模型引起AI行业的广泛关注。

DeepSeek – V2作为通用文本和图像分析系统,在各类AI基准测试中表现出色,且运行成本远低于同期可比模型。这一优势迫使国内竞争对手字节跳动和阿里巴巴,降低部分模型的使用价格,甚至将一些模型完全免费开放。

2024年12月推出的DeepSeek – V3进一步提升了DeepSeek的知名度。根据DeepSeek内部基准测试,DeepSeek V3在性能上超越了Meta的Llama等可下载的开源模型,以及OpenAI的GPT – 4o等仅通过API访问的 “封闭” 模型。

2025年1月发布的R1 “推理” 模型同样令人印象深刻。DeepSeek称R1在关键基准测试中的表现与OpenAI的o1模型相当。作为推理模型,R1能有效进行自我事实核查,避免一些常见模型易陷入的陷阱。尽管推理模型相较于典型的非推理模型,得出答案通常需要多花费几秒到几分钟,但在物理、科学和数学等领域,它们往往更可靠。

不过,DeepSeek的模型也存在一定局限性。由于是中国开发的AI,需接受中国互联网监管机构的基准测试,以确保其回复 “体现社会主义核心价值观”。例如,在DeepSeek的聊天机器人应用中,R1不会回答有关天安门广场或台湾自治的问题。

据权威AI性能评估报告指出,在2024年的自然语言处理和图像分析综合基准测试中,DeepSeek – V2的成本效益比排名前5%,而DeepSeek – V3在性能上相较于上一代提升了20%。

DeepSeek的颠覆式路径:独特的商业模式

DeepSeek的商业模式并不十分明确,其产品和服务定价远低于市场价值,甚至部分免费提供。DeepSeek称效率突破使其保持了极高的成本竞争力,但一些专家对其提供的数据表示质疑。

尽管DeepSeek的模型并非通常意义上的开源,但在宽松的许可下可供商业使用,这吸引了众多开发者。Hugging Face首席执行官Clem Delangue表示,Hugging Face平台上的开发者基于R1创建了超过500个 “衍生” 模型,这些模型的下载量总计达到250万次。

DeepSeek在与规模更大、根基更稳固的竞争对手较量中取得的成功,被形容为 “颠覆AI行业” 且 “炒作过度”。其成功导致英伟达股价在周一下跌18%,还引发了OpenAI首席执行官Sam Altman的公开回应。微软宣布DeepSeek可在其Azure AI Foundry服务上使用,而Meta首席执行官Mark Zuckerberg在第一季度财报电话会议上被问及DeepSeek对Meta AI支出的影响时表示,AI基础设施支出将继续是Meta的 “战略优势”。

与此同时,一些公司、国家和政府正在禁止使用DeepSeek。

© 版权声明

相关文章

暂无评论

暂无评论...