Sakana AI 的 Transformer² 模型突破 LLM 限制,实现动态推理

Sakana AI 的 Transformer² 模型突破 LLM 限制,实现动态推理
专注于自然启发算法的人工智能研究实验室

近日,专注于自然启发算法的人工智能研究实验室 Sakana AI 推出创新自适应语言模型 Transformer²(Transformer-squared),在无需昂贵微调的情况下,于推理过程中动态学习并适应新任务,为大型语言模型(LLM)技术发展带来重要突破。

独特的动态权重调整机制

Transformer² 的核心创新点在于其独特的两步动态权重调整机制。第一步,模型分析传入的用户请求,理解任务需求;第二步,通过奇异值分解(SVD)这一数学技巧,将模型权重与任务需求对齐。通过有选择地调整模型权重的关键组件,Transformer² 能实时优化性能,无需耗时的重新训练。这与传统微调方法差异显著,传统方法在训练后参数保持静态,或像低秩自适应(LoRA)仅修改小部分参数。

为实现动态调整,研究人员采用奇异值微调(SVF)方法。训练时,SVF 从模型的 SVD 组件中学习一组被称为 z 向量的技能表示。推理时,Transformer² 分析提示确定所需技能,配置相应 z 向量,实现为每个提示量身定制响应。

卓越的性能表现

测试结果令人瞩目,Transformer² 在数学、编码、推理和视觉问答等各类任务中均优于 LoRA 模型,且参数更少。据相关测试数据,在多个复杂任务场景下,Transformer² 的准确率相比 LoRA 模型提升了[X]%。更值得一提的是,该模型具备知识迁移能力,从一个模型学习到的 z 向量可应用到另一个模型,展现出广泛的应用潜力。行业报告指出,这种能力有望改变当前 LLM 的应用格局,加速模型在不同领域的部署与应用。

开源推动技术发展

Sakana AI 在其 GitHub 页面发布了 Transformer² 组件的训练代码,为其他研究人员和开发人员提供了探索的机会。随着企业对 LLM 应用的不断探索,推理时定制技术逐渐成为主流趋势。Transformer² 与 Google 的 Titans 等技术一同,正在改变 LLM 的应用方式,让用户能根据特定需求动态调整模型,无需重新训练。这种技术进步将使 LLM 在更多领域发挥作用,如智能客服、智能写作等领域,为行业发展注入新动力。

Sakana AI 的研究人员表示,Transformer² 是静态人工智能与生命智能之间的桥梁,为高效、个性化和完全集成的人工智能工具奠定基础。随着该技术的进一步发展与应用,有望在人工智能领域掀起新的变革。

© 版权声明

相关文章

暂无评论

暂无评论...