中国AI实验室DeepSeek如何搅动硅谷AI风云

字数 2031,阅读大约需 11 分钟

中国AI实验室DeepSeek如何改写硅谷AI版图

2025年初,中国AI实验室DeepSeek的一系列动作,如同一颗重磅炸弹,在硅谷的AI领域掀起了惊涛骇浪。它发布的AI模型开源版本,在性能上足以与OpenAI、Meta和谷歌等巨头的顶尖技术一争高下。

DeepSeek宣称以极高的效率和速度构建了这些模型,然而,一些业内人士对此表示怀疑。值得注意的是,DeepSeek提供这些模型的价格,仅为美国AI公司收费的一小部分。这一发展不仅让科技巨头们坐立不安,更引起了美国政府高层的警惕,他们担心在AI军备竞赛中,中国正逐渐占据领先地位。

AI基础设施初创公司Anyscale的联合创始人罗伯特·西原(Robert Nishihara)曾指出:“如果很多AI实验室现在设有作战室,我也不会感到惊讶。” DeepSeek的崛起,无疑标志着硅谷AI格局的一个转折点。众多AI领域的CEO、创始人、研究人员和投资者都认为,DeepSeek的模型对美国AI政策有着重大影响。并且,这些模型也反映出AI进步的加速态势。纽约大学数据科学中心的助理教授拉维德·施瓦茨 – 齐夫(Ravid Shwartz-Ziv)提到:“当然,DeepSeek被过度炒作了,但它仍然非常有趣,我们可以从中学到很多。”

创新之道:纯强化学习

Workera首席执行官兼斯坦福大学兼职讲师基安·卡坦福鲁什(Kian Katanforoosh)指出,DeepSeek在创建R1模型时的关键创新之一是“纯强化学习”,这是一种试错方法。他形象地比喻,就像小孩子不小心碰到热盘子被烫伤后,很快就学会不再去碰。“小孩子可能碰到热盘子,被烫伤,然后迅速学会不再这么做。这就是纯强化学习——基于反馈从试错中学习。DeepSeek的方法就是让模型仅通过经验来学习。”与其他前沿AI模型相比,DeepSeek似乎更依赖强化学习。例如,OpenAI在开发o1时也使用了强化学习技术,且其即将推出的o3模型声称使用大致相似的方法并增加计算量后,性能更优。卡坦福鲁什认为,强化学习是当今改进AI基础模型最有前景的途径之一。基础模型通常指在大量数据(如网络图像和文本)上训练的AI模型。鉴于DeepSeek的成功,其他AI实验室很可能会继续探索强化学习的极限,以提升自身AI模型的性能。就在几个月前,AI公司还在为提升基础模型的性能而苦苦挣扎,而强化学习、监督微调、测试时缩放等方法的成功,表明AI发展可能正重新加速。人工智能2研究所(Ai2)的研究员内森·兰伯特(Nathan Lambert)表示:“R1让我对保持高速发展的步伐更有信心。”

对AI政策的冲击

R1模型只要满足硬件要求,即可在任何机器上下载和运行,并且在多个AI基准测试中与o1模型相当甚至超越。尽管此前也出现过“封闭”模型与开源模型性能差距缩小的情况,但DeepSeek实现这一目标的速度之快,还是让整个行业为之震惊。这可能促使美国加大对开源甚至完全开源AI的投资,以与中国竞争。安德森·霍洛维茨(Andreessen Horowitz,a16z)的普通合伙人马丁·卡萨多(Martin Casado)认为,DeepSeek的出现证明过去两年的监管理念是“错误的”。他表示:“对于AI,这表明美国并非在技术能力上独树一帜,极具竞争力的解决方案可能来自任何地方,尤其是中国。我们不应阻碍美国的创新,而应大力投资。开源并不会以某种方式助力中国,事实上,禁止我们的公司进行开源意味着我们的技术无法广泛传播。”卡萨多似乎在影射前总统拜登最近被废除的AI行政命令和被否决的加利福尼亚州法案SB 1047,a16z曾强烈反对这两项举措。a16z认为这两项措施将防止“古怪”的AI世界末日场景置于美国创新之上。更广泛地说,硅谷在2024年基本成功压制了“AI末日运动”。a16z等机构反复强调,围绕AI的真正担忧是美国在与中国的竞争中失去优势。随着DeepSeek的崛起,这种担忧变得愈发真切。a16z大量投资于许多开源AI领域的重要参与者,如Databricks、Mistral和Black Forest Labs。该风投公司可能还在为特朗普政府提供AI方面的建议中发挥重要作用。前a16z合伙人斯里拉姆·克里希南(Sriram Krishnan)现在是特朗普的AI高级政策顾问。特朗普总统周一表示,DeepSeek应该成为美国AI公司的“警钟”,同时赞扬了这家中国AI实验室的开放态度。这与a16z对AI的立场相当一致。a16z联合创始人马克·安德森(Marc Andreessen)在X平台(原推特)上发文称:“DeepSeek R1是AI领域的斯普特尼克时刻。”他提到几十年前苏联发射的环绕地球的航天器,那次事件促使美国大力投资其太空计划。DeepSeek的崛起似乎也改变了开源AI怀疑论者的想法,比如前谷歌首席执行官埃里克·施密特(Eric Schmidt)。就在去年,施密特还对西方开源AI模型在全球的扩散表示担忧,但在周二发表的一篇专栏文章中,他称DeepSeek的崛起是全球AI竞赛的“转折点”,并呼吁进一步投资美国的开源AI。

理性看待DeepSeek

我们也不能过度夸大DeepSeek的成就。例如,一些分析师对DeepSeek声称仅用560万美元(在AI行业中只是一笔小数目),使用约2000个较旧的英伟达GPU训练出前沿模型DeepSeek V3表示怀疑。毕竟,这家中国AI实验室并非一夜之间崛起,据报道,DeepSeek拥有超过50,000个更强大的英伟达Hopper GPU库存。此外,DeepSeek的模型也存在缺陷。信息可靠性组织NewsGuard的一项测试显示,当被问及与新闻相关的主题时,R1有83%的时间提供不准确的答案或不回答。另一项单独测试发现,R1拒绝回答85%与中国相关的提示,这可能是该国开发的AI模型受到政府审查的结果。另外,还有知识产权盗窃的指控。OpenAI称有证据表明DeepSeek使用了其AI模型进行训练,采用了一种称为蒸馏的过程。如果属实,这将违反OpenAI的条款,也会让DeepSeek的成就大打折扣。例如,伯克利的研究人员最近仅用450美元就创建了一个蒸馏推理模型。(当然,OpenAI目前也因在训练自身模型时涉嫌侵犯版权而被多方起诉。)尽管如此,DeepSeek通过更高效的模型推动了行业发展,并进行了创新。兰伯特指出,与o1不同,R1向用户展示其“思考过程”。他观察到,当用户看到AI推理模型的内部过程,即模型“解释其工作”时,他们会更信任或相信这些模型。如今,我们将拭目以待美国的政策制定者和AI实验室将如何应对。

© 版权声明

相关文章

暂无评论

暂无评论...