360智脑团队发布Light-R1-14B-DS:中小规模模型强化学习的重大突破

字数 1040,阅读大约需 6 分钟

360智脑团队发布Light-R1-14B-DS:中小规模模型强化学习的重大突破
三六零科技集团有限公司(简称360)是中国领先的互联网和移动安全产品及服务提供商,致力于提供全面的网络安全解决方案。

360智脑团队发布Light-R1-14B-DS:中小规模模型在强化学习领域的重大突破

近日,360智脑团队宣布成功复现了Deepseek的强化学习效果,并正式发布了名为Light-R1-14B-DS的开源推理模型。这一成果标志着中小规模模型在强化学习领域迈出了重要一步,有望推动AI推理能力的发展与普及。

性能超越,数学推理能力显著提升

Light-R1-14B-DS在性能上超越了DeepSeek-R1-Distill-Llama-70B和DeepSeek-R1-Distill-Qwen-32B,成为首个在14B参数规模上实现强化学习效果的模型。其数学推理能力显著提升,成绩远超大多数32B级别的模型。在AIME24测试中,Light-R1-14B-DS提高了4.3分,而在更具挑战性的AIME25测试中更是提升了10分。此外,在GPQA数学推理任务中,该模型获得了61.7分的高分,充分展示了其在数学推理领域的卓越能力。

创新训练方法:渐进式监督微调与强化学习

为了达到这一里程碑,360智脑团队创新性地采用了两种训练方法:渐进式监督微调(Curriculum SFT)和强化学习(RL)。通过Curriculum SFT,模型能够从解决简单数学问题逐步过渡到处理复杂问题,从而增强逻辑推理能力。这种方法类似于人类学习的过程,通过逐步增加难度来提高模型的推理能力。而RL的应用,则是在14B级别推理模型中的首次尝试。通过强化学习,模型能够根据反馈不断优化自己的推理策略,从而提高推理准确率。同时,360智脑团队还确保了其他技能不受影响,使得Light-R1-14B-DS成为一个全面而强大的推理模型。

开源资源,推动AI推理能力的发展与普及

此次发布不仅涵盖了模型本身,还开源了SFT数据、代码及技术报告,为全球的研究者和开发者提供了宝贵资源。这些资源的开放将有助于推动AI推理能力的发展与普及,让更多的人能够参与到AI研究和应用中来。项目地址:GitHub[1],模型及数据地址:Hugging Face[2]

行业影响与未来展望

Light-R1-14B-DS的发布对AI行业产生了深远影响。首先,它证明了中小规模模型在强化学习领域的巨大潜力,为未来的研究提供了新的思路和方向。其次,该模型的开源将促进AI技术的共享与合作,加速AI推理能力的普及。最后,Light-R1-14B-DS的成功应用将为各行各业带来更多的创新机会,推动AI技术在实际场景中的落地。

根据《2024年全球AI发展报告》,中小规模模型在强化学习领域的突破将有助于解决当前AI推理能力不足的问题,推动AI技术向更高水平发展。报告还指出,开源模型和数据的共享将促进全球AI研究的合作与创新,为人类社会带来更多的福祉。

作为一家全球领先的科技公司,360一直致力于AI技术的研发与应用。此次Light-R1-14B-DS的发布再次展示了360在AI领域的创新实力和领先地位。未来,360将继续加大对AI技术的投入,推动AI技术的发展与普及,为人类社会的进步做出更大的贡献。

通过Light-R1-14B-DS的发布,我们看到了中小规模模型在强化学习领域的无限可能。相信在不久的将来,AI推理能力将得到进一步的提升与普及,为我们的生活带来更多的便利与惊喜。

引用链接

[1] GitHub: https://github.com/Qihoo360/Light-R1
[2] Hugging Face: https://huggingface.co/qihoo360/Light-R1-14B-DS

© 版权声明

相关文章

暂无评论

暂无评论...