字数 4248,阅读大约需 22 分钟
特斯拉Dojo:埃隆·马斯克打造AI超级计算机的宏伟计划揭秘
多年来,埃隆·马斯克一直提及Dojo——这一AI超级计算机是特斯拉AI宏伟目标的基石。2024年7月,马斯克表示,在10月特斯拉机器人出租车发布前,公司的AI团队将在Dojo上“加倍投入”,足见其对马斯克的重要性。那么,Dojo究竟是什么?为何它对特斯拉的长期战略如此关键?
简而言之,Dojo是特斯拉定制的超级计算机,旨在训练其“完全自动驾驶”(Full Self – Driving, FSD)神经网络。强化Dojo与特斯拉实现完全自动驾驶并将机器人出租车推向市场的目标紧密相连。如今,FSD已应用于数十万辆特斯拉汽车上,它能执行一些自动驾驶任务,但仍需驾驶员在驾驶座上保持专注。特斯拉的Cybercab已经发布,2025年公司正准备于6月在奥斯汀使用自己的车队推出自动驾驶打车服务。此外,在1月底的2024年第四季度及全年财报电话会议上,特斯拉表示计划在2025年为美国客户推出无监督的FSD。
此前马斯克曾表示,Dojo将是实现特斯拉完全自动驾驶目标的关键。然而,随着特斯拉越来越接近这一目标,马斯克对Dojo却保持沉默。自2024年8月起,讨论的焦点转向了Cortex,这是特斯拉在奥斯汀总部建造的“巨型新AI训练超级集群,用于解决现实世界的AI问题” 。马斯克还称,它将 “为FSD和Optimus的视频训练提供海量存储” 。在特斯拉第四季度的股东报告中,公司分享了Cortex的最新进展,但未提及Dojo。特斯拉已准备在AI、Dojo以及现在的Cortex上投入大量资金,以实现汽车和人形机器人的自动驾驶目标。鉴于电动汽车市场竞争日益激烈,特斯拉未来的成功取决于其能否实现这一目标。因此,深入了解Dojo、Cortex以及它们目前的发展状况很有必要。
特斯拉Dojo的背景故事
马斯克不希望特斯拉仅仅成为一家汽车制造商,甚至不满足于作为太阳能电池板和储能系统的供应商。他希望特斯拉成为一家AI公司,通过模仿人类感知破解自动驾驶汽车的密码。
大多数开发自动驾驶汽车技术的公司依赖多种传感器(如激光雷达、雷达和摄像头)来感知世界,并借助高清地图对车辆进行定位。而特斯拉认为,仅依靠摄像头捕捉视觉数据,然后使用先进的神经网络处理这些数据,并就汽车应如何行驶做出快速决策,就能实现完全自动驾驶。正如特斯拉前AI负责人安德烈·卡帕西在2021年特斯拉首届AI日所说,该公司基本上试图“从头开始打造一个合成动物” (马斯克自2019年起就开始提及Dojo,但特斯拉在AI日正式宣布了它)。
像Alphabet旗下的Waymo等公司,通过更传统的传感器和机器学习方法,已经将4级自动驾驶汽车商业化(SAE将其定义为在特定条件下无需人工干预即可自动驾驶的系统)。而特斯拉尚未生产出无需驾驶员在驾驶座上的自动驾驶系统。约180万人支付了高昂的订阅费用购买特斯拉的FSD,目前其价格为8000美元,最高曾达15000美元。其宣传点在于,由Dojo训练的AI软件最终将通过空中更新推送给特斯拉客户。
FSD的广泛应用意味着特斯拉能够收集数百万英里的视频片段,用于训练FSD。其理念是,特斯拉收集的数据越多,就越接近真正实现完全自动驾驶。然而,一些行业专家指出,单纯向模型投入更多数据并期望其变得更智能的方法可能存在局限性。普渡大学硅谷分校电气与计算机工程教授阿南德·拉古纳坦表示:“首先,存在经济限制,很快这样做的成本就会过高。”此外,他还说:“有人声称,我们实际上可能会耗尽有意义的数据来训练模型。更多的数据并不一定意味着更多的信息,这取决于这些数据是否包含有助于创建更好模型的信息,以及训练过程是否能够真正将这些信息提炼成更好的模型。”拉古纳坦表示,尽管存在这些疑虑,但至少在短期内,更多数据的趋势仍将持续。而更多的数据意味着需要更多的计算能力来存储和处理,以训练特斯拉的AI模型。这就是超级计算机Dojo的用武之地。
什么是超级计算机
Dojo是特斯拉的超级计算机系统,旨在作为AI(特别是FSD)的训练场。这个名字源于练习武术的场所。
超级计算机由数千个称为节点的小型计算机组成。每个节点都有自己的CPU(中央处理器)和GPU(图形处理器)。前者负责节点的整体管理,后者则处理复杂任务,例如将任务拆分为多个部分并同时处理。GPU对于机器学习操作(如为FSD模拟训练提供动力的操作)至关重要。它们也是大型语言模型的动力来源,这就是为什么生成式AI的兴起使英伟达成为全球最有价值公司的原因。甚至特斯拉也购买英伟达的GPU来训练其AI。
特斯拉为什么需要超级计算机
特斯拉仅依靠视觉的方法是其需要超级计算机的主要原因。FSD背后的神经网络在大量驾驶数据上进行训练,以识别和分类车辆周围的物体,然后做出驾驶决策。这意味着当FSD启动时,神经网络必须以与人类深度和速度识别能力相匹配的速度持续收集和处理视觉数据。换句话说,特斯拉旨在创建人类视觉皮层和大脑功能的数字复制品。
为了实现这一目标,特斯拉需要存储和处理从全球各地汽车收集的所有视频数据,并运行数百万次模拟,以根据这些数据训练其模型。
目前,特斯拉依赖英伟达为其当前的Dojo训练计算机提供动力,但它并不想过度依赖——尤其是因为英伟达芯片价格昂贵。特斯拉还希望开发出更好的产品,以增加带宽并减少延迟。这就是为什么该汽车制造商的AI部门决定推出自己的定制硬件计划,旨在比传统系统更高效地训练AI模型。该计划的核心是特斯拉专有的D1芯片,公司称这些芯片针对AI工作负载进行了优化。
关于这些芯片的更多信息
特斯拉与苹果的观点类似,认为硬件和软件应协同设计。这就是为什么特斯拉致力于摆脱标准的GPU硬件,设计自己的芯片为Dojo提供动力。2021年AI日,特斯拉推出了D1芯片,这是一个手掌大小的硅片。至少从2024年5月起,D1芯片已进入生产阶段。台积电(TSMC)正在使用7纳米半导体节点制造这些芯片。据特斯拉称,D1芯片有500亿个晶体管,芯片尺寸为645平方毫米。这一切表明,D1芯片强大且高效,能够快速处理复杂任务。特斯拉前Autopilot硬件高级总监加内什·文卡塔拉马南在2021年AI日表示:“我们可以同时进行计算和数据传输,而且我们定制的ISA(指令集架构)完全针对机器学习工作负载进行了优化。这是纯粹的机器学习。”
不过,D1芯片仍不如英伟达的A100芯片强大,A100芯片同样由台积电使用7纳米工艺制造。A100芯片包含540亿个晶体管,芯片尺寸为826平方毫米,因此其性能略优于特斯拉的D1芯片。
为了获得更高的带宽和计算能力,特斯拉的AI团队将25个D1芯片融合成一个模块,作为一个统一的计算机系统运行。每个模块的计算能力为9千万亿次浮点运算,带宽为每秒36TB,并包含电力、冷却和数据传输所需的所有硬件。你可以将这个模块视为一个由25台小型计算机组成的自给自足的计算机。六个这样的模块组成一个机架,两个机架组成一个机柜。十个机柜组成一个ExaPOD。在2022年AI日,特斯拉表示Dojo将通过部署多个ExaPOD来扩展规模。所有这些共同构成了超级计算机。
特斯拉还在研发下一代D2芯片,旨在解决信息流瓶颈问题。与连接单个芯片不同,D2芯片将把整个Dojo模块集成到单个硅片上。特斯拉未确认其已订购或预计接收多少个D1芯片,也未提供Dojo超级计算机在D1芯片上运行所需时间的时间表。在回应2024年6月X(原推特)上一条称“埃隆正在德克萨斯州建造一个巨大的GPU散热器”的帖子时,马斯克回复称,特斯拉计划在未来18个月左右实现 “一半特斯拉AI硬件,一半英伟达/其他” 。根据马斯克1月的评论,“其他”可能指AMD芯片。
Dojo对特斯拉意味着什么
掌控自己的芯片生产意味着,尤其是随着特斯拉和台积电扩大芯片生产规模,未来特斯拉能够以低成本迅速为AI训练程序增加大量计算能力。这也意味着特斯拉未来无需依赖英伟达的芯片,因为英伟达芯片越来越昂贵且难以获取。在特斯拉第二季度财报电话会议上,马斯克表示,对英伟达硬件的需求“非常高,以至于通常很难获得GPU” 。他说:“我非常担心在需要时能否稳定获得GPU,因此我认为这需要我们在Dojo上投入更多努力,以确保我们拥有所需的训练能力。”
即便如此,特斯拉如今仍在购买英伟达芯片来训练其AI。2024年6月,马斯克在X上发布:在特斯拉2024年将在AI相关支出的约100亿美元中,大约一半是内部支出,主要是特斯拉设计的AI推理计算机和所有汽车中配备的传感器,以及Dojo。对于构建AI训练超级集群,英伟达硬件约占成本的三分之二。2024年特斯拉购买英伟达产品约30亿至40亿美元。
这里的“推理计算”是指特斯拉汽车实时执行的AI计算,与Dojo负责的训练计算不同。
Dojo是一场风险颇高的赌博,马斯克多次表示特斯拉可能不会成功。从长远来看,特斯拉可以基于其AI部门创建一种新的商业模式。马斯克曾表示,Dojo的第一个版本将针对特斯拉计算机视觉标记和训练进行定制,这对FSD和训练特斯拉的人形机器人Optimus非常有用。但它在其他方面用途不大。马斯克还称,未来版本的Dojo将更适合通用AI训练。其中一个潜在问题是,几乎所有现有的AI软件都是为与GPU配合使用而编写的。使用Dojo训练通用AI模型需要重写软件,除非特斯拉像AWS和Azure出租云计算能力那样出租其计算能力。马斯克在第二季度财报中还指出,他看到了“Dojo与英伟达竞争的一条道路” 。摩根士丹利2023年9月的一份报告预测,Dojo通过以机器人出租车和软件服务的形式解锁新的收入来源,可能会为特斯拉增加5000亿美元的市值。简而言之,Dojo的芯片对这家汽车制造商来说是一种保险策略,但也可能带来丰厚回报。
Dojo的进展如何
路透社报道称,特斯拉于2023年7月开始生产Dojo,但马斯克在2023年6月的一篇帖子表明,Dojo“已上线并运行有用任务几个月了” 。大约同一时间,特斯拉表示预计到2024年2月,Dojo将成为全球最强大的五台超级计算机之一。该公司还表示,预计到2024年10月,Dojo的总计算能力将达到100 exaflops(1 exaflops等于每秒10的18次方次计算机运算。要达到100 exaflops,假设一个D1芯片能实现362 teraflops,特斯拉将需要超过276,000个D1芯片,或约320,500个英伟达A100 GPU)。
2024年1月,特斯拉承诺投入5亿美元在纽约布法罗的超级工厂建造一台Dojo超级计算机。2024年5月,马斯克指出,特斯拉奥斯汀超级工厂的后部将预留用于“超密集、水冷式超级计算机集群”。现在我们知道,占据奥斯汀这一空间的实际上是Cortex,而非Dojo。
就在特斯拉第二季度财报电话会议之后,马斯克在X上发布称,该汽车制造商的AI团队正在使用特斯拉HW4 AI计算机(更名为AI4,即安装在特斯拉车辆上的硬件)与英伟达GPU一起进行训练。他指出,配置大致为90,000个英伟达H100加上40,000台AI4计算机。他还说:“到2024年年底,Dojo 1将拥有大约相当于8000个H100的在线训练能力。规模不算大,但也不容小觑。” 特斯拉未提供这些芯片是否已上线并运行Dojo的最新消息。在2024年第四季度财报电话会议上,无人提及Dojo。然而,特斯拉表示在第四季度完成了Cortex的部署,正是Cortex助力实现了有监督FSD的V13版本。
从行业整体来看,AI在自动驾驶领域竞争愈发激烈。除了Waymo,Cruise等公司也在自动驾驶技术上投入巨大。Cruise同样在努力提升其自动驾驶系统的安全性和可靠性,试图在商业化运营上取得更大突破。全球自动驾驶市场规模预计在未来几年将持续增长。这也促使特斯拉必须加快在AI和自动驾驶领域的布局,Dojo无疑是其重要的战略武器。在芯片领域,除了英伟达,英特尔等公司也在积极发展用于AI计算的芯片产品,这使得特斯拉在芯片供应和技术竞争上面临不小的挑战。但特斯拉凭借其在汽车领域积累的数据优势和庞大的用户基础,若能成功打造出高效的Dojo系统,将在自动驾驶和AI市场占据更有利的地位。