字数 1422,阅读大约需 8 分钟

DeepSeek开源周第六天:极致推理优化系统,提升GPU计算效率
在人工智能领域,推理性能是评估模型实际应用能力的重要指标。DeepSeek团队在开源周第六天发布了全新的DeepSeek-V3/R1推理系统,通过创新的架构设计和优化策略,旨在实现更高的吞吐量和更低的延迟,为AGI(通用人工智能)的发展提供有力支持。
跨节点专家并行技术
DeepSeek-V3/R1推理系统的一大亮点是采用了跨节点专家并行(Expert Parallelism,EP)技术。该技术通过将模型的专家分布在不同节点上,实现了计算资源的高效利用。具体而言,模型每层仅激活256个专家中的8个,这种极高的稀疏性要求系统具备庞大的批处理能力,以确保每个专家都有足够的计算负载。通过跨节点专家并行,DeepSeek-V3/R1推理系统能够显著提高GPU的计算效率,同时降低延迟并扩展批处理规模。
预填充解码解聚策略
为进一步优化推理性能,DeepSeek-V3/R1推理系统采用了预填充解码解聚(prefill-decode disaggregation)策略。该策略在预填充和解码阶段采用不同程度的并行化策略,以实现更高效的计算和通信。在预填充阶段,系统通过双批次重叠策略来隐藏通信成本,即在处理一批请求的同时,另一批的通信成本可被计算过程所掩盖,从而提升整体吞吐量。在解码阶段,针对不同执行阶段的时间不平衡问题,DeepSeek采用了五级流水线的方式,实现了无缝的通信与计算重叠,进一步提高了系统效率。
负载均衡与服务性能
为应对大规模并行性带来的负载不均问题,DeepSeek团队设立了多个负载均衡器。这些负载均衡器旨在平衡所有GPU之间的计算和通信负载,避免单个GPU因超负荷运算而成为性能瓶颈,确保资源的高效利用。在服务性能方面,DeepSeek-V3/R1推理服务在H800GPU上运行,使用的矩阵乘法和传输格式与训练过程保持一致。最新统计数据显示,系统在过去24小时内处理了6080亿个输入令牌,最高节点占用率达278,日均占用率为226.75,整体服务表现良好。
DeepSeek-V3/R1推理系统通过高效的架构设计和智能的负载管理,不仅提升了人工智能模型的推理性能,也为未来的AGI研究与应用提供了强有力的基础设施支持。更多详情可访问项目官网:DeepSeek[1]。
创新架构:跨节点专家并行技术
DeepSeek-V3/R1推理系统的核心在于其采用了跨节点专家并行(Expert Parallelism,EP)技术。这一技术通过在多个GPU之间分配计算任务,显著提高了计算效率。具体而言,模型中的每一层仅激活256个专家中的8个,这种极高的稀疏性要求更大的批处理规模,以确保每个专家都能得到充分的利用。通过这种方式,DeepSeek-V3/R1在降低延迟的同时,成功扩展了批处理规模。
优化策略:预填充解码解聚与流水线技术
为了进一步提升系统性能,DeepSeek-V3/R1采用了预填充解码解聚(prefill-decode disaggregation)的方法。在预填充阶段,系统通过双批次重叠策略来隐藏通信成本,即在处理一批请求时,另一批的通信成本可以被计算过程所掩盖,从而提升了整体吞吐量。而在解码阶段,针对不同执行阶段的时间不平衡问题,DeepSeek采用了五级流水线的方式,实现了无缝的通信与计算重叠。这些优化策略共同作用,使得DeepSeek-V3/R1在实际应用中表现出色。
智能管理:负载均衡器的应用
在大规模并行计算中,负载均衡是确保系统高效运行的关键因素。DeepSeek团队在DeepSeek-V3/R1推理系统中设立了多个负载均衡器,旨在在所有GPU之间平衡计算和通信负载,避免某一单一GPU因超负荷运算而成为性能瓶颈。这些负载均衡器通过智能的调度策略,确保资源的高效利用,从而提升整个系统的性能。这一设计使得DeepSeek-V3/R1能够应对大规模并行性所带来的挑战,保持稳定的运行状态。
服务性能表现:数据见证实力
DeepSeek-V3/R1推理服务在H800GPU上运行,使用的矩阵乘法和传输格式与训练过程保持一致。根据最新的统计数据,系统在过去24小时内处理了6080亿个输入令牌,最高节点占用率达278,日均占用率为226.75,整体服务表现良好。这些数据充分证明了DeepSeek-V3/R1推理系统在实际应用中的高效性和可靠性,为人工智能模型的推理性能提升提供了有力支持。