震撼!Tulu 3 405B模型发布,性能超越多方巨头

字数 1212,阅读大约需 7 分钟

震撼!Tulu 3 405B模型发布,性能超越多方巨头
AI2(Allen Institute for Artificial Intelligence)是位于西雅图的非营利性AI研究机构,致力于人工智能领域的研究与开发,发布了如Tulu 3 405B等AI模型

一、Tulu 3 405B模型发布引发行业震动

近日,人工智能领域传来重大消息,位于西雅图的非营利性AI研究机构AI2发布了一款名为Tulu 3 405B的AI模型。该模型在性能上超越了中国AI公司DeepSeek的领先系统之一DeepSeek V3 。根据AI2的内部测试,Tulu 3 405B在某些AI基准测试中还击败了OpenAI的GPT – 4o 。并且,Tulu 3 405B是开源的,从头开始复制它所需的所有组件都可以免费获得,且获得了宽松的许可。

二、Tulu 3 405B的性能亮点

Tulu 3 405B包含4050亿个参数,训练该模型需要256个GPU并行运行。在人工智能领域,通常参数越多的模型性能优于参数较少的模型。

AI2在多个流行的基准测试中对Tulu 3 405B进行了测试。在PopQA基准测试中(该测试包含从维基百科获取的14000个专业知识问题),Tulu 3 405B击败了DeepSeek V3、GPT – 4o以及Meta的Llama 3.1 405B模型。在GSM8K测试(包含小学水平数学应用题)中,Tulu 3 405B在同类模型中也表现出最高的性能。

三、关键技术:可验证奖励的强化学习

AI2表示,Tulu 3 405B能获得卓越性能的关键之一是可验证奖励的强化学习(RLVR)技术。这种技术通过在具有 “可验证” 结果的任务上训练模型,如数学问题解决和指令遵循等任务,使模型在面对特定类型的任务时,展现出更高的准确性和稳定性。

四、开源的意义与影响

Tulu 3 405B的开源使得更多研究人员和开发者能够基于此进行二次开发和创新,加速AI技术的整体进步。与闭源模型不同,如OpenAI的GPT – 4o虽性能领先,但闭源性质限制了外部开发者对其内部机制的深入探索和改进。

开源AI模型在推动技术普及和创新方面优势显著。以2024年一项调查为例,在使用开源AI模型进行开发的项目中,约70% 的项目在一年内实现了技术重大突破或功能显著提升。开源模型的社区驱动性质,让全球开发者能共同贡献代码、优化算法,形成良性循环,提升模型性能。

五、类似公司案例对比

回顾人工智能发展历程,有许多开源与闭源模型竞争的案例。谷歌的BERT模型是开源的预训练语言模型,自发布后,引发学术界和工业界广泛关注与应用。众多研究人员基于BERT改进和微调,开发出针对不同领域的高性能模型。相比之下,一些闭源模型虽初期凭借强大研发实力占据市场优势,但随着时间推移,因缺乏社区广泛参与和创新,发展速度逐渐放缓。

Meta的Llama系列模型中,Llama 3.1 405B同样参数规模较大,但在这次PopQA基准测试中,Tulu 3 405B性能更优。这体现了AI2在模型研发上的技术实力,也反映出不同研发思路和技术路线对模型性能的影响。

六、AI2的野心与行业格局重塑

AI2的发言人表示,Tulu 3 405B “凸显了美国在全球领先的生成式AI模型开发方面的潜力” 。该模型的发布不仅是AI2自身的重要里程碑,也对全球AI行业格局产生深远影响。

硅谷、中国和欧洲一直是AI发展的核心区域。中国的DeepSeek在AI领域成就显著,其DeepSeek V3模型知名度较高。AI2此次发布的Tulu 3 405B超越DeepSeek V3,加剧了全球AI领域的竞争态势。对于美国来说,这是在AI竞争中巩固领先地位的重要契机,同时也激励其他国家和地区的AI研究机构和企业加大研发投入,推动技术创新。

目前,Tulu 3 405B已可通过AI2的聊天机器人网络应用进行测试,训练该模型的代码也已在GitHub和AI开发平台Hugging Face上发布。这一系列举措使Tulu 3 405B迅速成为行业关注焦点,众多开发者和研究人员已开始探索其在不同领域的应用潜力。

© 版权声明

相关文章

暂无评论

暂无评论...