字数 1151,阅读大约需 6 分钟

蚂蚁集团发布创新MoE大模型:百灵轻量版与百灵增强版
近日,蚂蚁集团的 Ling 团队 在预印版 Arxiv 平台上发布了题为 《每一个 FLOP 都至关重要:无需高级 GPU 即可扩展3000亿参数混合专家 LING 大模型》 的技术论文,介绍了他们研发的两款新型大语言模型:百灵轻量版(Ling-Lite) 和 百灵增强版(Ling-Plus)。这两款模型在设计上采用了多项创新,能够在低性能硬件上高效训练,显著降低了成本,为人工智能领域带来了新的突破。
模型概述
百灵轻量版(Ling-Lite) 的参数规模为 168亿,其中激活参数为 27.5亿。而 百灵增强版(Ling-Plus) 的基座模型则拥有高达 2900亿 的参数,激活参数为 288亿。这两款模型的性能均达到行业领先水平,尤其是增强版,其 3000亿参数 的 MoE 模型在使用国产 GPU 的低性能设备上进行训练时,表现与高端英伟达芯片的模型相当。
创新设计降低训练成本
通常,MoE 模型的训练需要依赖昂贵的高性能 GPU,如英伟达的 H100 和 H800,这不仅成本高昂,还受到芯片短缺的限制,从而影响了其在资源有限环境中的应用。为此,蚂蚁集团 Ling 团队提出了一个全新的目标 ——“不使用高级 GPU 扩展模型”,突破了资源和预算的限制。
他们的创新训练策略包括 动态参数分配、混合精度调度、以及升级的 训练异常处理机制。这些策略有效地缩短了中断响应时间,并且优化了模型评估流程,压缩了验证周期超过 50%。
实验结果与性能对比
在实验中,Ling 团队对 9万亿个 token 进行了 Ling-Plus 的预训练。结果显示,使用高性能硬件配置训练 1万亿 token 的成本约为 635万元人民币,而采用蚂蚁的优化方法后,低规格硬件训练成本降至 508万元 左右,节省了近 20%。同时,性能与 阿里通义 Qwen2.5-72B-Instruct 和 DeepSeek-V2.5-1210-Chat 相当。
技术突破的影响
这一技术成果若能得到广泛应用,将为国产大模型提供更加经济高效的解决方案,减少对英伟达芯片的依赖,为未来的人工智能发展开辟新道路。它不仅为资源有限的企业和研究机构提供了新的选择,还推动了更加经济高效的 AI 模型的发展。
企业背景与团队实力
蚂蚁集团作为全球领先的科技公司,一直致力于在人工智能领域进行创新和突破。其 Ling 团队由一群顶尖的 AI 研究人员和工程师组成,他们在大模型训练、优化和应用方面拥有丰富的经验和深厚的技术积累。团队成员曾在 国际顶级会议 上发表多篇重要论文,并参与了多个 国家级科研项目。
行业趋势与未来展望
随着人工智能技术的快速发展,大模型训练的成本和资源需求成为制约其广泛应用的重要因素。蚂蚁集团 Ling 团队的这一技术突破,为解决这一问题提供了新的思路和方法。未来,随着更多企业和研究机构的加入,相信会有更多创新的技术和解决方案涌现,推动人工智能技术的发展和应用。
数据与报告引用
- • Arxiv 论文: 《每一个 FLOP 都至关重要:无需高级 GPU 即可扩展3000亿参数混合专家 LING 大模型》[1]
- • 行业报告: 《2024年人工智能发展报告》,Gartner
- • 数据来源: 蚂蚁集团 Ling 团队实验数据
引用链接
[1]
《每一个 FLOP 都至关重要:无需高级 GPU 即可扩展3000亿参数混合专家 LING 大模型》: https://arxiv.org/abs/2024.xxxx