乐天发布Rakuten AI 2.0，引领日本大语言模型新风潮

字数 1371，阅读大约需 7 分钟

乐天发布首款日本大语言模型Rakuten AI 2.0，引领AI语言技术新潮流

近日，乐天集团在人工智能领域投下重磅炸弹，宣布推出其首个日本大语言模型（LLM）Rakuten AI 2.0^[1]以及小语言模型(SLM)Rakuten AI 2.0 mini。这一举措在日本本土乃至全球AI界都引起广泛关注，为日本人工智能的发展注入新活力。

Rakuten AI 2.0的架构与技术亮点

Rakuten AI 2.0基于先进的混合专家(MoE)架构，是独特的8x7B模型，由八个各有70亿参数的模型组成，每个模型扮演“专家”角色。处理输入的token时，系统会将其发送给最相关的两个专家，由路由器负责选择。

混合专家架构优势显著。国际权威人工智能研究机构报告显示，该架构处理复杂语言任务时，能有效提升模型效率和准确性。如在大规模文本分类任务中，相较于传统单一模型架构，采用混合专家架构的模型分类准确率平均提升15%。

为让专家模型和路由器发挥最佳性能，乐天团队用大量高质量日英双语数据联合训练。这些数据涵盖新闻、学术论文、小说等领域，数据量达PB级别。丰富且高质量的数据来源，使Rakuten AI 2.0处理日英双语相关任务能力卓越。

Rakuten AI 2.0 mini：专为边缘设备打造的高效模型

与Rakuten AI 2.0相呼应，Rakuten AI 2.0 mini同样引人注目。它是全新的、参数量为15亿的稠密模型，设计初衷是满足成本效益高的边缘设备部署需求，适用于特定应用场景。

当前物联网设备和边缘计算快速发展，对轻量化且高效的AI模型需求增长。市场调研机构数据显示，到2025年底，全球边缘计算设备出货量将达10亿台，其中对适合边缘设备运行的AI模型需求增长30%以上。Rakuten AI 2.0 mini顺应这一趋势。

同Rakuten AI 2.0一样，Rakuten AI 2.0 mini也在日英混合数据上训练，为用户提供便捷解决方案。虽其参数规模相对较小，但在一些特定任务上表现不俗。在简单的文本分类和情感分析任务中，Rakuten AI 2.0 mini的准确率能达到80%以上，可满足许多边缘设备应用场景需求。

两款模型的优化与应用支持

这两款模型均经过指令微调和偏好优化，为企业和专业人士开发AI应用提供有力支持。它们不仅发布基础模型，还发布指令模型，拓展应用可能性。

从应用场景看，商业用途广泛。文本生成方面，撰写新闻稿件、小说创作、生成广告文案，Rakuten AI 2.0和Rakuten AI 2.0 mini都有一定能力。内容摘要功能可帮助用户快速提取长篇文档核心要点，提高信息获取效率。问答系统和文本理解功能使模型能与用户智能交互，理解意图并提供准确回答。在对话系统构建方面，基于这两款模型，开发者能打造更自然流畅的对话机器人，应用于客服、智能助手等领域。

行业报告显示，到2026年，全球基于大语言模型的AI应用市场规模将达500亿美元，年增长率超30%。乐天集团此次发布的两款模型，为这一庞大市场提供新选择，有望在市场竞争中占据一席之地。

开源与社区推动

值得一提的是，所有模型均采用Apache2.0许可协议，用户可在乐天集团的Hugging Face官方库中获取。

开源能极大促进技术传播和创新。以Hugging Face社区为例，自开源一系列预训练模型以来，吸引全球数百万开发者参与模型优化和应用开发。据统计，在Hugging Face平台上，基于开源模型开发的应用数量每年以200%的速度增长。乐天集团通过开放模型，希望加速日本的AI发展，鼓励日本企业构建、实验和成长，推动协作共赢的社区。

乐天集团的首席AI与数据官蔡婷表示：“我为我们的团队如何将数据、工程和科学结合起来，推出Rakuten AI 2.0感到无比自豪。我们的新AI模型提供强大且具成本效益的解决方案，帮助企业做出智能决策，加快价值实现，并开启新的可能性。通过开放模型，我们希望加速日本的AI发展，鼓励所有日本企业进行构建、实验和成长，推动一个协作共赢的社区。”