字数 1555,阅读大约需 8 分钟
深度探索:深度智谷AI聊天机器人应用的全面解析
深度智谷(DeepSeek)近日在AI领域掀起了一阵热潮。中国AI实验室深度智谷的聊天机器人应用一举登上苹果应用商店排行榜榜首,迅速闯入大众视野。深度智谷的AI模型采用高效计算技术进行训练,这一成果引发了华尔街分析师与技术专家的热议,他们纷纷探讨美国在AI竞赛中的领先地位是否能持续,以及AI芯片的需求能否维持。那么,深度智谷究竟从何而来?又为何能如此迅速地在国际上声名大噪呢?
深度智谷的起源
深度智谷背后的支持者是高毅资产管理公司(High-Flyer Capital Management),这是一家中国的量化对冲基金公司,借助AI技术辅助交易决策。AI爱好者梁文峰于2015年共同创立了高毅资产。据说,梁文峰在浙江大学求学期间就开始涉足交易领域,并于2019年将高毅资产管理公司转型为专注于开发和部署AI算法的对冲基金。2023年,高毅资产启动了深度智谷实验室项目,致力于独立于金融业务的AI工具研究。在高毅资产的投资支持下,该实验室逐步发展成为独立的深度智谷公司。
从创立之初,深度智谷就构建了自己的数据中心集群用于模型训练。然而,与中国其他AI公司一样,深度智谷也受到了美国硬件出口禁令的影响。为了训练其最新的模型之一,公司不得不采用英伟达H800芯片,这款芯片相较于美国公司能够使用的H100芯片,性能稍逊一筹。据悉,深度智谷的技术团队较为年轻,公司积极从中国顶尖高校招募AI博士研究员。同时,据《纽约时报》报道,深度智谷还会聘请没有计算机科学背景的人员,以帮助其技术更好地理解广泛的学科领域。
深度智谷的强大模型
2023年11月,深度智谷推出了其首批模型——深度智谷代码生成模型(DeepSeek Coder)、深度智谷大语言模型(DeepSeek LLM)以及深度智谷聊天模型(DeepSeek Chat)。但直到去年春天,该公司发布了下一代深度智谷-V2系列模型,才真正引起了AI行业的关注。深度智谷-V2作为通用的文本和图像分析系统,在各类AI基准测试中表现出色,且运行成本远低于同期同类模型。这一成果迫使深度智谷在国内的竞争对手,包括字节跳动和阿里巴巴,纷纷下调部分模型的使用价格,甚至有些模型完全免费。
2024年12月推出的深度智谷-V3更是进一步提升了深度智谷的知名度。根据深度智谷内部基准测试,深度智谷V3的性能超越了可下载的开源模型,如Meta的Llama,以及只能通过API访问的“封闭”模型,如OpenAI的GPT-4o。同样令人瞩目的是深度智谷今年1月发布的R1 “推理”模型。深度智谷宣称,R1在关键基准测试中的表现与OpenAI的o1模型相当。作为推理模型,R1能够有效地进行自我事实核查,避免了一些通常会困扰其他模型的陷阱。与典型的非推理模型相比,推理模型得出解决方案通常需要多花费几秒到几分钟的时间。但其优势在于,在物理、科学和数学等领域,它们往往更加可靠。
然而,深度智谷的R1、V3及其他模型也存在一定局限性。由于这些模型由中国开发,需接受中国互联网监管机构的基准测试,以确保其回复“体现社会主义核心价值观”。例如,在深度智谷的聊天机器人应用中,R1不会回答有关天安门广场或台湾自治的问题。
颠覆性的策略
深度智谷的商业模式尚不明确。该公司产品和服务的定价远低于市场价值,甚至有些是免费提供的。深度智谷表示,效率突破使其能够保持极高的成本竞争力。然而,一些专家对该公司提供的数据提出了质疑。无论如何,开发者们对深度智谷的模型颇为青睐。虽然这些模型并非通常意义上的开源,但在宽松的许可下可供商业使用。据托管深度智谷模型的平台之一Hugging Face的首席执行官克莱姆·德朗格(Clem Delangue)称,Hugging Face上的开发者基于R1创建了超过500个“衍生”模型,这些模型的下载量总计达到250万次。
深度智谷在与规模更大、根基更稳的竞争对手的较量中取得成功,被形容为“颠覆AI行业”,开启了“AI边缘政策的新时代”。该公司的成功至少在一定程度上导致了英伟达股价周一下跌18%,并引发了OpenAI首席执行官山姆·奥特曼(Sam Altman)的公开回应。至于深度智谷的未来走向,目前仍不明朗。模型的改进是必然的,但美国政府似乎对其认为的有害外国影响愈发警惕。