DeepSeek:AI界的崛起新星与争议焦点

字数 1104,阅读大约需 6 分钟

DeepSeek:AI界的崛起新星与争议焦点
DeepSeek专注于开发先进的大语言模型(LLM)和相关技术,主要产品包括DeepSeek LLM、DeepSeek Coder、DeepSeekMath、DeepSeek – VL、DeepSeek – VL2、DeepSeek – V2等各类模型,为用户提供智能搜索、自动化办公、智能推荐等多种服务

DeepSeek:关于这款AI聊天机器人应用你需要知道的一切

近期,AI聊天机器人应用DeepSeek迅速走红,引发了行业内外的广泛关注。它不仅登上了苹果App Store和谷歌Play应用商店的排行榜榜首,其背后所蕴含的技术实力与发展历程更是值得深入探究。

DeepSeek的起源

DeepSeek由中国量化对冲基金High – Flyer Capital Management支持。2015年,AI爱好者梁文峰联合创立了High – Flyer。梁文峰在浙江大学求学期间就开始涉足交易领域,并于2019年将High – Flyer Capital Management转型为专注于开发和部署AI算法的对冲基金。2023年,High – Flyer成立了DeepSeek实验室,专门从事与金融业务分离的AI工具研究。随后,该实验室独立成为一家名为DeepSeek的公司。
从创立之初,DeepSeek就构建了自己的数据中心集群用于模型训练。受美国硬件出口禁令影响,为训练最新模型之一,该公司采用英伟达H800芯片,其性能低于美国公司可用的H100芯片。
DeepSeek的技术团队较为年轻,公司积极从中国顶尖高校招募AI博士研究员。据《纽约时报》报道,DeepSeek还会聘请无计算机科学背景的人员,以助其技术更好地理解广泛学科领域。

DeepSeek的强大模型

2023年11月,DeepSeek推出首批模型,包括DeepSeek Coder、DeepSeek LLM和DeepSeek Chat。2024年春,DeepSeek发布下一代DeepSeek – V2系列模型,开始受到AI行业关注。
DeepSeek – V2是通用的文本和图像分析系统,在AI基准测试中表现出色,运行成本远低于同类模型,迫使字节跳动、阿里巴巴等国内竞争对手降低部分模型使用价格,甚至使一些模型免费。
2024年12月推出的DeepSeek – V3让DeepSeek声名大噪。根据DeepSeek内部基准测试,DeepSeek V3性能优于Meta的Llama等可下载开源模型,以及OpenAI的GPT – 4o等仅能通过API访问的“封闭”模型。
2025年1月,DeepSeek发布R1“推理”模型。DeepSeek称,R1在关键基准测试中的表现与OpenAI的o1模型相当。作为推理模型,R1能有效进行事实核查,相比典型非推理模型,虽得出解决方案耗时多几秒到几分钟,但在物理、科学和数学等领域更可靠。
因DeepSeek是中国开发的AI,其模型需接受中国互联网监管机构的基准测试,以确保回复“体现社会主义核心价值观”。例如在DeepSeek的聊天机器人应用中,R1不会回答有关天安门广场或台湾自治的问题。

DeepSeek的颠覆性模式

DeepSeek的商业模式不明确,产品和服务定价远低于市场价值,部分免费。DeepSeek称效率突破使其有极高成本竞争力,但一些专家对其数据表示质疑。
开发者对DeepSeek的模型颇为青睐。这些模型虽非传统意义上的开源,但在宽松许可下可供商业使用。据Hugging Face首席执行官Clem Delangue称,Hugging Face上的开发者已基于R1创建500多个“衍生”模型,累计下载量达250万次。
DeepSeek在与大型成熟竞争对手的竞争中取得成功,有人称其“颠覆AI行业”,也有人认为其“过度炒作”。其成功在一定程度上致使英伟达股价周一下跌18%,还引发OpenAI首席执行官Sam Altman公开回应。微软宣布DeepSeek可在其Azure AI Foundry服务中使用。Meta首席执行官马克・扎克伯格在第一季度财报电话会议上称,AI基础设施支出仍将是Meta的“战略优势”。
同时,一些主体开始禁止使用DeepSeek,如纽约州禁止在政府设备上使用DeepSeek。

© 版权声明

相关文章

暂无评论

暂无评论...