DeepSeek-V3/R1：革新推理系统，提升GPU计算效率

字数 1422，阅读大约需 8 分钟

DeepSeek开源周第六天：极致推理优化系统，提升GPU计算效率

在人工智能领域，推理性能是评估模型实际应用能力的重要指标。DeepSeek团队在开源周第六天发布了全新的DeepSeek-V3/R1推理系统，通过创新的架构设计和优化策略，旨在实现更高的吞吐量和更低的延迟，为AGI（通用人工智能）的发展提供有力支持。

跨节点专家并行技术

DeepSeek-V3/R1推理系统的一大亮点是采用了跨节点专家并行（Expert Parallelism，EP）技术。该技术通过将模型的专家分布在不同节点上，实现了计算资源的高效利用。具体而言，模型每层仅激活256个专家中的8个，这种极高的稀疏性要求系统具备庞大的批处理能力，以确保每个专家都有足够的计算负载。通过跨节点专家并行，DeepSeek-V3/R1推理系统能够显著提高GPU的计算效率，同时降低延迟并扩展批处理规模。

预填充解码解聚策略

为进一步优化推理性能，DeepSeek-V3/R1推理系统采用了预填充解码解聚（prefill-decode disaggregation）策略。该策略在预填充和解码阶段采用不同程度的并行化策略，以实现更高效的计算和通信。在预填充阶段，系统通过双批次重叠策略来隐藏通信成本，即在处理一批请求的同时，另一批的通信成本可被计算过程所掩盖，从而提升整体吞吐量。在解码阶段，针对不同执行阶段的时间不平衡问题，DeepSeek采用了五级流水线的方式，实现了无缝的通信与计算重叠，进一步提高了系统效率。

负载均衡与服务性能

为应对大规模并行性带来的负载不均问题，DeepSeek团队设立了多个负载均衡器。这些负载均衡器旨在平衡所有GPU之间的计算和通信负载，避免单个GPU因超负荷运算而成为性能瓶颈，确保资源的高效利用。在服务性能方面，DeepSeek-V3/R1推理服务在H800GPU上运行，使用的矩阵乘法和传输格式与训练过程保持一致。最新统计数据显示，系统在过去24小时内处理了6080亿个输入令牌，最高节点占用率达278，日均占用率为226.75，整体服务表现良好。

DeepSeek-V3/R1推理系统通过高效的架构设计和智能的负载管理，不仅提升了人工智能模型的推理性能，也为未来的AGI研究与应用提供了强有力的基础设施支持。更多详情可访问项目官网：DeepSeek^[1]。

创新架构：跨节点专家并行技术

DeepSeek-V3/R1推理系统的核心在于其采用了跨节点专家并行（Expert Parallelism，EP）技术。这一技术通过在多个GPU之间分配计算任务，显著提高了计算效率。具体而言，模型中的每一层仅激活256个专家中的8个，这种极高的稀疏性要求更大的批处理规模，以确保每个专家都能得到充分的利用。通过这种方式，DeepSeek-V3/R1在降低延迟的同时，成功扩展了批处理规模。

优化策略：预填充解码解聚与流水线技术

为了进一步提升系统性能，DeepSeek-V3/R1采用了预填充解码解聚（prefill-decode disaggregation）的方法。在预填充阶段，系统通过双批次重叠策略来隐藏通信成本，即在处理一批请求时，另一批的通信成本可以被计算过程所掩盖，从而提升了整体吞吐量。而在解码阶段，针对不同执行阶段的时间不平衡问题，DeepSeek采用了五级流水线的方式，实现了无缝的通信与计算重叠。这些优化策略共同作用，使得DeepSeek-V3/R1在实际应用中表现出色。

智能管理：负载均衡器的应用

在大规模并行计算中，负载均衡是确保系统高效运行的关键因素。DeepSeek团队在DeepSeek-V3/R1推理系统中设立了多个负载均衡器，旨在在所有GPU之间平衡计算和通信负载，避免某一单一GPU因超负荷运算而成为性能瓶颈。这些负载均衡器通过智能的调度策略，确保资源的高效利用，从而提升整个系统的性能。这一设计使得DeepSeek-V3/R1能够应对大规模并行性所带来的挑战，保持稳定的运行状态。

服务性能表现：数据见证实力

DeepSeek-V3/R1推理服务在H800GPU上运行，使用的矩阵乘法和传输格式与训练过程保持一致。根据最新的统计数据，系统在过去24小时内处理了6080亿个输入令牌，最高节点占用率达278，日均占用率为226.75，整体服务表现良好。这些数据充分证明了DeepSeek-V3/R1推理系统在实际应用中的高效性和可靠性，为人工智能模型的推理性能提升提供了有力支持。

引用链接

[1] DeepSeek: https://github.com/deepseek-ai/open-infra-index/blob/main/202502OpenSourceWeek/day_6_one_more_thing_deepseekV3R1_inference_system_overview.md

# AI快讯 # DeepSeek

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...