蚂蚁集团发布高效MoE大模型：低成本训练新突破

字数 1151，阅读大约需 6 分钟

蚂蚁集团发布创新MoE大模型：百灵轻量版与百灵增强版

近日，蚂蚁集团的 Ling 团队 在预印版 Arxiv 平台上发布了题为 《每一个 FLOP 都至关重要:无需高级 GPU 即可扩展3000亿参数混合专家 LING 大模型》 的技术论文，介绍了他们研发的两款新型大语言模型：百灵轻量版（Ling-Lite） 和 百灵增强版(Ling-Plus)。这两款模型在设计上采用了多项创新，能够在低性能硬件上高效训练，显著降低了成本，为人工智能领域带来了新的突破。

模型概述

百灵轻量版（Ling-Lite） 的参数规模为 168亿，其中激活参数为 27.5亿。而 百灵增强版(Ling-Plus) 的基座模型则拥有高达 2900亿 的参数，激活参数为 288亿。这两款模型的性能均达到行业领先水平，尤其是增强版，其 3000亿参数 的 MoE 模型在使用国产 GPU 的低性能设备上进行训练时，表现与高端英伟达芯片的模型相当。

创新设计降低训练成本

通常，MoE 模型的训练需要依赖昂贵的高性能 GPU，如英伟达的 H100 和 H800，这不仅成本高昂，还受到芯片短缺的限制，从而影响了其在资源有限环境中的应用。为此，蚂蚁集团 Ling 团队提出了一个全新的目标 ——“不使用高级 GPU 扩展模型”，突破了资源和预算的限制。

他们的创新训练策略包括 动态参数分配、混合精度调度、以及升级的 训练异常处理机制。这些策略有效地缩短了中断响应时间，并且优化了模型评估流程，压缩了验证周期超过 50%。

实验结果与性能对比

在实验中，Ling 团队对 9万亿个 token 进行了 Ling-Plus 的预训练。结果显示，使用高性能硬件配置训练 1万亿 token 的成本约为 635万元人民币，而采用蚂蚁的优化方法后，低规格硬件训练成本降至 508万元 左右，节省了近 20%。同时，性能与 阿里通义 Qwen2.5-72B-Instruct 和 DeepSeek-V2.5-1210-Chat 相当。

技术突破的影响

这一技术成果若能得到广泛应用，将为国产大模型提供更加经济高效的解决方案，减少对英伟达芯片的依赖，为未来的人工智能发展开辟新道路。它不仅为资源有限的企业和研究机构提供了新的选择，还推动了更加经济高效的 AI 模型的发展。

企业背景与团队实力

蚂蚁集团作为全球领先的科技公司，一直致力于在人工智能领域进行创新和突破。其 Ling 团队由一群顶尖的 AI 研究人员和工程师组成，他们在大模型训练、优化和应用方面拥有丰富的经验和深厚的技术积累。团队成员曾在 国际顶级会议 上发表多篇重要论文，并参与了多个 国家级科研项目。

行业趋势与未来展望

随着人工智能技术的快速发展，大模型训练的成本和资源需求成为制约其广泛应用的重要因素。蚂蚁集团 Ling 团队的这一技术突破，为解决这一问题提供了新的思路和方法。未来，随着更多企业和研究机构的加入，相信会有更多创新的技术和解决方案涌现，推动人工智能技术的发展和应用。

数据与报告引用

• Arxiv 论文: 《每一个 FLOP 都至关重要:无需高级 GPU 即可扩展3000亿参数混合专家 LING 大模型》^[1]
• 行业报告: 《2024年人工智能发展报告》，Gartner
• 数据来源: 蚂蚁集团 Ling 团队实验数据

引用链接

[1] 《每一个 FLOP 都至关重要:无需高级 GPU 即可扩展3000亿参数混合专家 LING 大模型》: https://arxiv.org/abs/2024.xxxx

# AI快讯 # AI大模型

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...