字数 1371,阅读大约需 7 分钟

乐天发布首款日本大语言模型Rakuten AI 2.0,引领AI语言技术新潮流
近日,乐天集团在人工智能领域投下重磅炸弹,宣布推出其首个日本大语言模型(LLM)Rakuten AI 2.0[1]以及小语言模型(SLM)Rakuten AI 2.0 mini。这一举措在日本本土乃至全球AI界都引起广泛关注,为日本人工智能的发展注入新活力。
Rakuten AI 2.0的架构与技术亮点
Rakuten AI 2.0基于先进的混合专家(MoE)架构,是独特的8x7B模型,由八个各有70亿参数的模型组成,每个模型扮演“专家”角色。处理输入的token时,系统会将其发送给最相关的两个专家,由路由器负责选择。
混合专家架构优势显著。国际权威人工智能研究机构报告显示,该架构处理复杂语言任务时,能有效提升模型效率和准确性。如在大规模文本分类任务中,相较于传统单一模型架构,采用混合专家架构的模型分类准确率平均提升15%。
为让专家模型和路由器发挥最佳性能,乐天团队用大量高质量日英双语数据联合训练。这些数据涵盖新闻、学术论文、小说等领域,数据量达PB级别。丰富且高质量的数据来源,使Rakuten AI 2.0处理日英双语相关任务能力卓越。
Rakuten AI 2.0 mini:专为边缘设备打造的高效模型
与Rakuten AI 2.0相呼应,Rakuten AI 2.0 mini同样引人注目。它是全新的、参数量为15亿的稠密模型,设计初衷是满足成本效益高的边缘设备部署需求,适用于特定应用场景。
当前物联网设备和边缘计算快速发展,对轻量化且高效的AI模型需求增长。市场调研机构数据显示,到2025年底,全球边缘计算设备出货量将达10亿台,其中对适合边缘设备运行的AI模型需求增长30%以上。Rakuten AI 2.0 mini顺应这一趋势。
同Rakuten AI 2.0一样,Rakuten AI 2.0 mini也在日英混合数据上训练,为用户提供便捷解决方案。虽其参数规模相对较小,但在一些特定任务上表现不俗。在简单的文本分类和情感分析任务中,Rakuten AI 2.0 mini的准确率能达到80%以上,可满足许多边缘设备应用场景需求。
两款模型的优化与应用支持
这两款模型均经过指令微调和偏好优化,为企业和专业人士开发AI应用提供有力支持。它们不仅发布基础模型,还发布指令模型,拓展应用可能性。
从应用场景看,商业用途广泛。文本生成方面,撰写新闻稿件、小说创作、生成广告文案,Rakuten AI 2.0和Rakuten AI 2.0 mini都有一定能力。内容摘要功能可帮助用户快速提取长篇文档核心要点,提高信息获取效率。问答系统和文本理解功能使模型能与用户智能交互,理解意图并提供准确回答。在对话系统构建方面,基于这两款模型,开发者能打造更自然流畅的对话机器人,应用于客服、智能助手等领域。
行业报告显示,到2026年,全球基于大语言模型的AI应用市场规模将达500亿美元,年增长率超30%。乐天集团此次发布的两款模型,为这一庞大市场提供新选择,有望在市场竞争中占据一席之地。
开源与社区推动
值得一提的是,所有模型均采用Apache2.0许可协议,用户可在乐天集团的Hugging Face官方库中获取。
开源能极大促进技术传播和创新。以Hugging Face社区为例,自开源一系列预训练模型以来,吸引全球数百万开发者参与模型优化和应用开发。据统计,在Hugging Face平台上,基于开源模型开发的应用数量每年以200%的速度增长。乐天集团通过开放模型,希望加速日本的AI发展,鼓励日本企业构建、实验和成长,推动协作共赢的社区。
乐天集团的首席AI与数据官蔡婷表示:“我为我们的团队如何将数据、工程和科学结合起来,推出Rakuten AI 2.0感到无比自豪。我们的新AI模型提供强大且具成本效益的解决方案,帮助企业做出智能决策,加快价值实现,并开启新的可能性。通过开放模型,我们希望加速日本的AI发展,鼓励所有日本企业进行构建、实验和成长,推动一个协作共赢的社区。”