Sakana AI 的 Transformer² 模型突破 LLM 限制，实现动态推理

近日，专注于自然启发算法的人工智能研究实验室 Sakana AI 推出创新自适应语言模型 Transformer²（Transformer-squared），在无需昂贵微调的情况下，于推理过程中动态学习并适应新任务，为大型语言模型（LLM）技术发展带来重要突破。

独特的动态权重调整机制

Transformer² 的核心创新点在于其独特的两步动态权重调整机制。第一步，模型分析传入的用户请求，理解任务需求；第二步，通过奇异值分解（SVD）这一数学技巧，将模型权重与任务需求对齐。通过有选择地调整模型权重的关键组件，Transformer² 能实时优化性能，无需耗时的重新训练。这与传统微调方法差异显著，传统方法在训练后参数保持静态，或像低秩自适应（LoRA）仅修改小部分参数。

为实现动态调整，研究人员采用奇异值微调（SVF）方法。训练时，SVF 从模型的 SVD 组件中学习一组被称为 z 向量的技能表示。推理时，Transformer² 分析提示确定所需技能，配置相应 z 向量，实现为每个提示量身定制响应。

卓越的性能表现

测试结果令人瞩目，Transformer² 在数学、编码、推理和视觉问答等各类任务中均优于 LoRA 模型，且参数更少。据相关测试数据，在多个复杂任务场景下，Transformer² 的准确率相比 LoRA 模型提升了[X]%。更值得一提的是，该模型具备知识迁移能力，从一个模型学习到的 z 向量可应用到另一个模型，展现出广泛的应用潜力。行业报告指出，这种能力有望改变当前 LLM 的应用格局，加速模型在不同领域的部署与应用。

开源推动技术发展

Sakana AI 在其 GitHub 页面发布了 Transformer² 组件的训练代码，为其他研究人员和开发人员提供了探索的机会。随着企业对 LLM 应用的不断探索，推理时定制技术逐渐成为主流趋势。Transformer² 与 Google 的 Titans 等技术一同，正在改变 LLM 的应用方式，让用户能根据特定需求动态调整模型，无需重新训练。这种技术进步将使 LLM 在更多领域发挥作用，如智能客服、智能写作等领域，为行业发展注入新动力。

Sakana AI 的研究人员表示，Transformer² 是静态人工智能与生命智能之间的桥梁，为高效、个性化和完全集成的人工智能工具奠定基础。随着该技术的进一步发展与应用，有望在人工智能领域掀起新的变革。

# AI头条 # 初创公司 # AI大模型

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

Sakana AI 的 Transformer² 模型突破 LLM 限制，实现动态推理

独特的动态权重调整机制

卓越的性能表现

开源推动技术发展

新型AI软件EmbryoNet：加速药物开发进程的变革之光

发烧友行动：国外软件工程师将OGOpenAI.com域名重定向至DeepSeek

相关文章

暂无评论