震撼！Tulu 3 405B模型发布，性能超越多方巨头

字数 1212，阅读大约需 7 分钟

一、Tulu 3 405B模型发布引发行业震动

近日，人工智能领域传来重大消息，位于西雅图的非营利性AI研究机构AI2发布了一款名为Tulu 3 405B的AI模型。该模型在性能上超越了中国AI公司DeepSeek的领先系统之一DeepSeek V3 。根据AI2的内部测试，Tulu 3 405B在某些AI基准测试中还击败了OpenAI的GPT – 4o 。并且，Tulu 3 405B是开源的，从头开始复制它所需的所有组件都可以免费获得，且获得了宽松的许可。

二、Tulu 3 405B的性能亮点

Tulu 3 405B包含4050亿个参数，训练该模型需要256个GPU并行运行。在人工智能领域，通常参数越多的模型性能优于参数较少的模型。

AI2在多个流行的基准测试中对Tulu 3 405B进行了测试。在PopQA基准测试中（该测试包含从维基百科获取的14000个专业知识问题），Tulu 3 405B击败了DeepSeek V3、GPT – 4o以及Meta的Llama 3.1 405B模型。在GSM8K测试（包含小学水平数学应用题）中，Tulu 3 405B在同类模型中也表现出最高的性能。

三、关键技术：可验证奖励的强化学习

AI2表示，Tulu 3 405B能获得卓越性能的关键之一是可验证奖励的强化学习（RLVR）技术。这种技术通过在具有 “可验证” 结果的任务上训练模型，如数学问题解决和指令遵循等任务，使模型在面对特定类型的任务时，展现出更高的准确性和稳定性。

四、开源的意义与影响

Tulu 3 405B的开源使得更多研究人员和开发者能够基于此进行二次开发和创新，加速AI技术的整体进步。与闭源模型不同，如OpenAI的GPT – 4o虽性能领先，但闭源性质限制了外部开发者对其内部机制的深入探索和改进。

开源AI模型在推动技术普及和创新方面优势显著。以2024年一项调查为例，在使用开源AI模型进行开发的项目中，约70% 的项目在一年内实现了技术重大突破或功能显著提升。开源模型的社区驱动性质，让全球开发者能共同贡献代码、优化算法，形成良性循环，提升模型性能。

五、类似公司案例对比

回顾人工智能发展历程，有许多开源与闭源模型竞争的案例。谷歌的BERT模型是开源的预训练语言模型，自发布后，引发学术界和工业界广泛关注与应用。众多研究人员基于BERT改进和微调，开发出针对不同领域的高性能模型。相比之下，一些闭源模型虽初期凭借强大研发实力占据市场优势，但随着时间推移，因缺乏社区广泛参与和创新，发展速度逐渐放缓。

Meta的Llama系列模型中，Llama 3.1 405B同样参数规模较大，但在这次PopQA基准测试中，Tulu 3 405B性能更优。这体现了AI2在模型研发上的技术实力，也反映出不同研发思路和技术路线对模型性能的影响。

六、AI2的野心与行业格局重塑

AI2的发言人表示，Tulu 3 405B “凸显了美国在全球领先的生成式AI模型开发方面的潜力” 。该模型的发布不仅是AI2自身的重要里程碑，也对全球AI行业格局产生深远影响。

硅谷、中国和欧洲一直是AI发展的核心区域。中国的DeepSeek在AI领域成就显著，其DeepSeek V3模型知名度较高。AI2此次发布的Tulu 3 405B超越DeepSeek V3，加剧了全球AI领域的竞争态势。对于美国来说，这是在AI竞争中巩固领先地位的重要契机，同时也激励其他国家和地区的AI研究机构和企业加大研发投入，推动技术创新。

目前，Tulu 3 405B已可通过AI2的聊天机器人网络应用进行测试，训练该模型的代码也已在GitHub和AI开发平台Hugging Face上发布。这一系列举措使Tulu 3 405B迅速成为行业关注焦点，众多开发者和研究人员已开始探索其在不同领域的应用潜力。

# AI快讯

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...