全球五大巨头GPU资源及相关情况总结
一、五大巨头算力现状与预测
(一)算力总量估算
截止2024年底,微软拥有75万 – 90万块等效H100算力,谷歌有100万 – 150万块,Meta有55万 – 65万块,亚马逊有25万 – 40万块,xAI有10万块。预计到2025年,微软将达到250万 – 310万块,谷歌达到350万 – 420万块,Meta达到190万 – 250万块,亚马逊达到130万 – 160万块,xAI达到55万 – 100万块。
(二)各巨头情况分析
- 微软:可能是英伟达近两年最大客户,拥有全球最大公有云服务平台之一,是OpenAI主要算力供应商,未大规模部署定制芯片,且与英伟达有特殊合作关系(如首个获得Blackwell GPU)。2024年其在英伟达销售中份额较2023年有所降低,但预计仍比Meta高出25%到50%算力。
- Meta:曾宣称到2024年底将拥有相当于60万块H100算力(包括35万块H100,剩余部分为H200及少量Blackwell芯片)。预计2025年其在英伟达支出规模将维持在微软支出的约80%水平。
- 谷歌:拥有大量自研的定制TPU,2024年第三季度财报显示AI支出大部分用于搭建技术基础设施(其中60%是服务器(GPU/TPU))。预计到2024年底将拥有相当于100万到150万块等效H100算力,在低成本、高性能且可靠的大规模AI部署方面能力较强。
- 亚马逊:内部AI工作负载规模可能较小,持有英伟达芯片主要满足云平台外部GPU需求(如为Anthropic提供算力),虽有自研Trainium和Inferentia芯片但起步晚且市场接受度不理想,不过2024年Trainium2芯片获得市场兴趣,生产计划提高。其算力落后于微软和谷歌。
- xAI:2024年122天建成10万块H100组成的超算,未来计划扩展到20万块(含H100/H200),马斯克宣称2025年夏天将部署30万块Blackwell芯片运算集群,合理估计到2025年底可能实际拥有20万 – 40万块芯片。
二、英伟达GPU产量情况
(一)2025年销量预测
2025年英伟达销量预计为650万至700万块GPU,几乎全是最新的Hopper和Blackwell系列,其中约包括200万块Hopper,500万块Blackwell。
(二)2024年产量估算
2024年第四季度预计生产约150万块Hopper GPU(含部分H20芯片,为上限值),根据季度间数据中心收入比例推测,全年生产总量上限可能为500万块(基于每块H100等效芯片收入约2万美元假设,若以更合理的2.5万美元计算,实际产量应在400万块左右),与年初估计的150万至200万块H100生产量存在差异,原因不明。
三、巨头训练模型算力使用情况
(一)OpenAI和Anthropic
- OpenAI:2024年训练成本预计达30亿美元,微软向其提供40万块GB200 GPU用于训练,超越AWS整体GB200容量,训练能力远超Anthropic。
- Anthropic:2024年预计亏损约20亿美元,收入仅几亿美元,大部分亏损用于模型训练,保守估计训练成本15亿美元,约为OpenAI的一半,因主要云提供商AWS资源相对有限,能力受限。
(二)谷歌和Meta
- 谷歌:Gemini Ultra 1.0模型使用计算资源约为GPT – 4的2.5倍,发布时间晚9个月,所用计算资源比Meta最新Llama模型高25%,虽计算能力可能更强,但作为云服务巨头需支持更多内部工作负载。
- Meta:Llama 3所用计算资源比Gemini少,发布时间晚8个月,分配给前沿模型的资源相较OpenAI和谷歌更少。
(三)xAI
使用2万块H100训练Grok 2,计划用10万块H100训练Grok 3,计算资源利用处于前沿水平(Grok 2训练计算量约为GPT – 4的两倍,Grok 3预计达到其5倍),部分资源来源于租赁(从Oracle云平台租用1.6万块H100),推测其训练规模与Anthropic相当,但低于OpenAI和谷歌。
四、整体趋势与影响
各大科技巨头纷纷加大在算力方面的布局,竞争激烈,这将推动AI模型训练不断发展,提升模型性能和能力。算力资源的增长和竞争也将促使芯片技术持续进步,同时对相关产业(如数据中心建设、云计算服务等)产生深远影响,进一步影响全球科技产业格局和AI技术发展走向。然而,目前仍有大量H100和GB200芯片未被完全统计,包括未达英伟达收入报告阈值的机构、其他云服务提供商等持有情况不明,这些因素也可能对整体算力格局产生潜在影响。