360智脑团队发布Light-R1-14B-DS：中小规模模型强化学习的重大突破

字数 1040，阅读大约需 6 分钟

360智脑团队发布Light-R1-14B-DS：中小规模模型在强化学习领域的重大突破

近日，360智脑团队宣布成功复现了Deepseek的强化学习效果，并正式发布了名为Light-R1-14B-DS的开源推理模型。这一成果标志着中小规模模型在强化学习领域迈出了重要一步，有望推动AI推理能力的发展与普及。

性能超越，数学推理能力显著提升

Light-R1-14B-DS在性能上超越了DeepSeek-R1-Distill-Llama-70B和DeepSeek-R1-Distill-Qwen-32B，成为首个在14B参数规模上实现强化学习效果的模型。其数学推理能力显著提升，成绩远超大多数32B级别的模型。在AIME24测试中，Light-R1-14B-DS提高了4.3分，而在更具挑战性的AIME25测试中更是提升了10分。此外，在GPQA数学推理任务中，该模型获得了61.7分的高分，充分展示了其在数学推理领域的卓越能力。

创新训练方法：渐进式监督微调与强化学习

为了达到这一里程碑，360智脑团队创新性地采用了两种训练方法：渐进式监督微调(Curriculum SFT)和强化学习(RL)。通过Curriculum SFT，模型能够从解决简单数学问题逐步过渡到处理复杂问题，从而增强逻辑推理能力。这种方法类似于人类学习的过程，通过逐步增加难度来提高模型的推理能力。而RL的应用，则是在14B级别推理模型中的首次尝试。通过强化学习，模型能够根据反馈不断优化自己的推理策略，从而提高推理准确率。同时，360智脑团队还确保了其他技能不受影响，使得Light-R1-14B-DS成为一个全面而强大的推理模型。

开源资源，推动AI推理能力的发展与普及

此次发布不仅涵盖了模型本身，还开源了SFT数据、代码及技术报告，为全球的研究者和开发者提供了宝贵资源。这些资源的开放将有助于推动AI推理能力的发展与普及，让更多的人能够参与到AI研究和应用中来。项目地址：GitHub^[1]，模型及数据地址：Hugging Face^[2]。

行业影响与未来展望

Light-R1-14B-DS的发布对AI行业产生了深远影响。首先，它证明了中小规模模型在强化学习领域的巨大潜力，为未来的研究提供了新的思路和方向。其次，该模型的开源将促进AI技术的共享与合作，加速AI推理能力的普及。最后，Light-R1-14B-DS的成功应用将为各行各业带来更多的创新机会，推动AI技术在实际场景中的落地。

根据《2024年全球AI发展报告》，中小规模模型在强化学习领域的突破将有助于解决当前AI推理能力不足的问题，推动AI技术向更高水平发展。报告还指出，开源模型和数据的共享将促进全球AI研究的合作与创新，为人类社会带来更多的福祉。

作为一家全球领先的科技公司，360一直致力于AI技术的研发与应用。此次Light-R1-14B-DS的发布再次展示了360在AI领域的创新实力和领先地位。未来，360将继续加大对AI技术的投入，推动AI技术的发展与普及，为人类社会的进步做出更大的贡献。

通过Light-R1-14B-DS的发布，我们看到了中小规模模型在强化学习领域的无限可能。相信在不久的将来，AI推理能力将得到进一步的提升与普及，为我们的生活带来更多的便利与惊喜。

引用链接

[1] GitHub: https://github.com/Qihoo360/Light-R1
[2] Hugging Face: https://huggingface.co/qihoo360/Light-R1-14B-DS

# AI快讯 # AI大模型

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...