字数 875,阅读大约需 5 分钟

传统范式的困境
在自然语言处理领域,“下一个token预测”长期作为主流训练方式,模型通过预测序列中的下一个token来学习语言的统计规律与语义表示。然而,随着任务复杂度提升,特别是面对复杂推理和长期任务时,这种范式逐渐暴露出局限性。
据相关权威行业报告,在处理需要多步骤推理的自然语言任务时,传统模型在训练超过数十亿个token后,性能提升依旧缓慢。这表明传统范式在处理复杂任务时存在效率瓶颈,难以快速有效提升模型能力。
CoCoMix框架的核心创新
为解决传统范式的局限,Meta推出“连续概念混合”(CoCoMix)框架。该框架既保留“下一个token预测”的优点,又创新性引入通过稀疏自编码器(SAE)学习到的连续概念。
稀疏自编码器(SAE)是能自动学习数据潜在特征的神经网络架构。在CoCoMix框架中,SAE用于提取文本数据关键概念。CoCoMix精心选择最具影响力的概念,将其与token的隐藏表示交错结合,构建全新学习机制。
例如,在处理科技类文本时,SAE可提取“人工智能”“机器学习”等关键概念,并融入token隐藏表示。如此,模型预测时不仅依赖token顺序信息,还能利用高层次概念信息,提升对文本的理解与处理能力。
广泛评估展现卓越性能
研究者对CoCoMix进行全面深入评估,涵盖GLUE(https://gluebenchmark.com/)、SuperGLUE(https://super.gluebenchmark.com/)等多个语言建模基准以及不同规模的模型。
实验结果显示,CoCoMix在训练token数量减少21.5%的情况下,仍能达到与传统token预测相当的性能。在从小模型提取概念指导大模型的弱到强监督场景中,CoCoMix表现更为突出。以某具体模型为例,采用CoCoMix框架后,该模型在复杂推理任务上的准确率提升了15%,远超传统方法提升幅度。
可解释性与可操控性的新视角
CoCoMix不仅性能出色,其可解释性和可操控性也颇具亮点。
研究者观察模型预测过程,能清晰了解模型重点关注的概念。如在情感分析任务中,分析CoCoMix模型概念使用情况,可发现模型判断文本情感倾向时,更关注“开心”“难过”等情感词汇对应的概念。
同时,研究者还能通过调整概念大小操控模型输出结果。实际应用中,开发者可根据需求对模型输出进行精准控制。例如生成文本时,通过调整某些概念权重,使生成文本更符合特定风格或主题要求。
项目地址:https://github.com/facebookresearch/RAM/tree/main/projects/cocomix,感兴趣的研究人员和开发者可进一步探索该创新框架。