字数 1341,阅读大约需 7 分钟
联想问天WA7785a G3服务器刷新纪录:单机运行671B DeepSeek大模型吞吐量达6708token/s
联想近日宣布了一项重大技术突破,其首款AMD AI大模型训练服务器——联想问天WA7785a G3在单机部署671B(满血版)DeepSeek大模型时,实现了高达6708token/s的极限吞吐量,再次打破了单台服务器运行超大规模模型的性能纪录。联想官网[1]
此次性能飞跃得益于联想万全异构智算平台的强力支持。联想通过一系列创新技术手段,包括访存优化、显存优化、创新的PCIe5.0全互联架构以及精选SGLang框架中的最优算子等,对大模型从预训练、后训练到推理的全流程进行了深度优化。这些优化措施不仅提升了服务器的计算效率,还显著降低了延迟,使得在实际应用中能够更快速地响应和处理复杂的AI任务。
实测结果显示,在单台部署DeepSeek671B大模型的联想问天WA7785a G3服务器上,最高吞吐量达到了惊人的6708token/s。这一数据不仅远超行业平均水平,也再次证明了联想在AI计算领域的领先地位。
在模拟问题对话场景(上下文序列长度128/1K)时,该服务器最高可支持158的并发数,TPOT(Time Per Output Token)为93毫秒,TTFT(Time To First Token)为2.01秒;而在模拟代码生成场景(上下文序列长度512/4K)时,并发数可达140,TPOT为100毫秒,TTFT为5.53秒。这些性能指标表明,联想问天WA7785a G3服务器能够高效地处理各种复杂的AI任务,满足不同场景下的需求。
联想方面表示,这一性能表现意味着单台联想问天WA7785a G3服务器即可支撑1500人规模企业的正常使用,是继联想问天WA7780G3服务器单机部署满血版DeepSeek大模型总吞吐量突破2500token/s之后,在单机部署该大模型推理性能上的又一次重大飞跃。这一成就不仅展示了联想在AI计算领域的强大实力,也为企业提供了更高效、更可靠的AI解决方案。
此次技术突破是联想中国基础设施业务群、联想研究院ICI实验室和AMD联合设计、协同调优、共同实现的成果。三方团队在项目中紧密合作,充分发挥各自的优势,共同攻克了技术难题。这种跨界合作的模式不仅加速了技术创新的进程,也为行业树立了合作共赢的典范。
联想与AMD的合作并未止步于此,双方仍在持续探索深度调优的新方法,以期实现更高的性能突破。这种不断追求卓越的精神,正是推动AI技术不断发展的动力源泉。
产品亮点与优势
- 1. 极限吞吐量:联想问天WA7785a G3服务器在单机部署671B DeepSeek大模型时,实现了高达6708token/s的极限吞吐量,刷新了行业纪录。
- 2. 创新技术支持:得益于联想万全异构智算平台的强力支持,通过访存优化、显存优化、PCIe5.0全互联架构等创新技术,对大模型全流程进行了深度优化。
- 3. 高效并发处理:在模拟对话场景中,支持高达158的并发数,TPOT为93毫秒,TTFT为2.01秒;在代码生成场景下,并发数可达140,TPOT为100毫秒,TTFT为5.53秒。
- 4. 企业级应用支持:单台服务器即可支撑1500人规模企业的正常使用,满足企业对AI计算的高性能需求。
行业影响与前景
联想问天WA7785a G3服务器的这一突破,标志着AI计算能力的重大飞跃。随着AI技术的不断发展和应用场景的不断拓展,对计算性能的要求也越来越高。联想的这一成就不仅为企业提供了更强大的AI计算支持,也为整个行业树立了新的标杆。
根据IDC发布的《全球人工智能市场半年度追踪报告》,2024年全球AI服务器市场规模预计将达到350亿美元,同比增长20%。联想作为全球领先的科技企业,其在AI计算领域的不断突破和创新,将为全球AI市场的发展注入新的动力。
未来,随着技术的不断进步和应用场景的不断拓展,AI计算将迎来更加广阔的发展空间。联想将继续致力于AI技术的研发和创新,为企业和社会创造更多的价值。同时,联想也将继续加强与全球合作伙伴的合作,共同推动AI技术的发展和应用。