AI量化技术背后的隐患，你知道吗？

AI量化技术——有优势也有局限

在AI领域，为了让模型运行更高效，量化技术被广泛应用。那什么是量化呢？简单来说，它是指降低用来表示信息所需的比特数（比特是计算机能处理的最小单位）。打个比方，别人问时间，你回“ noon”而不是精确到秒、毫秒的表述，这就是一种量化，两种答案都对，只是精准度有别，而实际需要多高的精准度得看具体情况。

AI模型包含多个可量化的组件，尤其是参数（模型用来做预测或决策的内部变量）。要知道，模型运行时会进行海量计算，量化后的模型因其参数用更少比特表示，所以在数学计算和运算资源需求方面都会降低要求（这里要说明，它和“蒸馏”是不同的过程，“蒸馏”涉及对参数更复杂、更具选择性的删减）。

然而，量化技术可能存在比我们之前预想更多的权衡问题。

模型并非越小越差，量化也有“副作用”

根据来自哈佛大学、斯坦福大学、麻省理工学院、Databricks以及卡内基梅隆大学研究人员的一项研究表明，如果模型原本未经量化的版本是基于大量数据长时间训练出来的，那么量化后的模型性能往往会变差。也就是说，到了某个节点，或许直接训练一个小模型反而比把大模型进行量化处理更好。

这对于那些训练超大型模型（大家都知道大型模型有助于提升回答质量）然后再量化它们以降低服务成本的AI公司而言，可能是个坏消息了。这种影响其实已经有所显现，几个月前，就有开发者和学者反馈，对Meta的Llama 3模型进行量化，相较于其他模型，往往“危害更大”，这可能和它的训练方式有关。

通常大家觉得模型训练花费巨大，可实际上，AI模型的推理（就是运行模型，比如ChatGPT回答问题这个过程）总体花费往往比训练还高。举个例子，谷歌估计花费1.91亿美元去训练其旗舰Gemini模型之一，这确实是笔巨款，可要是用这个模型对一半的谷歌搜索查询生成50字的回答，那每年得花费约60亿美元。

各大AI实验室之前都秉持着“扩大规模”（增加训练中使用的数据量和计算量）能让AI能力越来越强的理念，去用大规模数据集训练模型。像Meta用15万亿个词元训练Llama 3（词元代表原始数据片段，100万个词元大约等于75万个单词），其上一代Llama 2只用2万亿个词元训练。不过，有证据显示这种规模扩大最终收益会递减，据说Anthropic和谷歌最近训练的巨型模型就没达到内部基准预期，但目前来看整个行业还没准备好从这种根深蒂固的规模化方法中走出来。

精度高低，是个难题

既然实验室不太愿意用小数据集训练模型，那有没有办法让模型没那么容易出现性能退化呢？答案是有可能的。有研究者表示，用“低精度”训练模型能让它们更稳健。这里的“精度”指的是数值数据类型能准确表示的数字位数。数据类型是数据值的集合，通常由一组可能的值和允许的操作来界定，比如FP8这种数据类型只用8位来表示一个浮点数。

如今，多数模型是以16位（也就是“半精度”）训练，然后“训练后量化”到8位精度，模型的某些组件（比如参数）会转变成低精度格式，这是以牺牲一定准确性为代价的，就好比做数学计算保留几位小数后再四舍五入，往往想取两者的优点。

像英伟达这样的硬件供应商在推动量化模型推理往更低精度发展，其新的Blackwell芯片支持4位精度（具体是一种叫FP4的数据类型），英伟达称这对内存和电力受限的数据中心来说是个利好。但极低的量化精度可能并不理想，研究者指出，除非原始模型的参数数量极其庞大，否则低于7或8位的精度可能会让模型质量明显下降。

总的来说，AI模型还有很多有待我们深入理解的地方，那些在很多计算中管用的捷径在这儿未必行得通。就像别人问百米赛跑开始时间，你肯定不能简单说“ noon”一样，虽然实际情况没这么直白，但道理是相通的。相关研究人员也承认目前的研究规模相对较小，后续还计划用更多模型去验证，但有一点可以确定，那就是想降低推理成本可没那么简单，“比特精度很关键，而且不是无代价的，不能一味降低精度而不顾模型性能受损。模型容量是有限的，所以与其把海量词元硬塞进小模型，倒不如花更多精力精心整理和筛选数据，让高质量数据进入小模型。而且，未来那些旨在让低精度训练更稳定的新架构可能会很重要。”

# AI头条 # ai # AI大模型 # AI技术

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

AI量化技术背后的隐患，你知道吗？

AI量化技术——有优势也有局限

模型并非越小越差，量化也有“副作用”

精度高低，是个难题

Coralogix收购Aporia，AI领域将迎何种变革？

AI科学家机器人：能否颠覆传统科研？

相关文章

暂无评论