AI浪潮中，视频生成和世界模型的发展

谷歌DeepMind

在AI的快速发展浪潮中，OpenAI的Sora虽备受期待，但在发布后却遭遇诸多问题，而谷歌DeepMind则展现出强大的实力和潜力，为行业带来新的希望。

Sora的困境与DeepMind的机遇

OpenAI的Sora在发布后未达预期，其团队掌舵人Tim Brooks跳槽至谷歌DeepMind，引发了行业的轩然大波。据The Information爆料，Sora技术存在严重问题，不仅生成速度慢，在各项性能上也难以与Luma、Stability、Runway等对手抗衡，更别提风头正劲的Pika和国产视频生成模型了。而在Sora陷入困境之时，谷歌DeepMind正积极推进视频生成和世界模型的研究，展现出强大的竞争力。

谷歌DeepMind的视频生成与世界模型优势

Veo2模型的卓越表现：谷歌于2024年12月16日推出的Veo2模型，在视频分辨率、图像质量以及对现实世界物理规律的模拟上都有了显著的提升。它能够创建长达两分钟的4K分辨率视频，利用文本提示或者参考图像生成视频，逼真地模拟运动、流体力学及光的特性，无论是不同镜头的切换还是细腻的人类表情，都能轻松驾驭，其逼真程度足以以假乱真。

Genie2模型的创新突破：就在2024年12月5日，Google DeepMind发布了大型基础世界模型Genie2，可通过单张图片和文字描述生成种类多样的可玩3D世界，标志着人工智能在虚拟世界生成领域的又一次突破。Genie2具备从不同视角生成连贯世界的能力，生成的世界可持续时间长达一分钟，多数情况下维持在10到20秒之间。经过视频训练，该模型能够精准模拟物体的交互、动画效果、照明、物理现象、反射效果以及“NPC”的行为，许多生成的场景画质接近3A级别的电子游戏，甚至在物体视角一致性和场景记忆方面表现优异。

其他公司在相关领域的进展

亚马逊的多模态模型：在2024 re:Invent全球大会上，亚马逊宣布推出新一代基础模型Amazon Nova，包括超快速文本生成模型Amazon Nova Micro，以及能够处理文本、图像和视频并生成文本的多模态模型Amazon Nova Lite、Amazon Nova Pro和Amazon Nova Premier。此外，还推出了用于生成高质量图像的Amazon Nova Canvas和用于生成高质量视频的Amazon Nova Reel。亚马逊计划在2025年推出Amazon Nova语音到语音模型以及具备“任意到任意”模态能力的模型，这将极大地简化应用开发，使同一模型能够执行多种任务。

李飞飞的World Labs和初创公司Decart、Odyssey：“AI教母”李飞飞创立的World Labs和以色列初创公司Decart也在世界模型领域积极探索，他们的产品在模拟游戏和3D环境方面都有着各自的特点和优势，为世界模型的发展注入了新的活力。Odyssey更是表态，其目标是与创意人士合作，而不是取代他们，致力于开创一个AI与人类创意共生的新时代。

开源项目助力视频生成和世界模型发展

OpenDiT和VideoSys：今年2月份，新加坡国立大学尤洋团队开源的OpenDiT项目为训练和部署DiT模型打开了新思路，这是一个易于使用、快速且内存高效的系统，专门用于提高DiT应用程序的训练和推理效率。之后，他们更是把这些进展都融合到了一起，开发出了一个名为VideoSys的视频生成系统，为视频生成提供了一个用户友好的高性能基础设施，支持从训练、推理到服务和压缩的整个pipeline，大大降低了视频生成的门槛和成本，使得更多人能够参与到视频生成的研究和应用中。

北大深圳研究生院开源计划：北京大学深圳研究生院—兔展智能AIGC联合实验室团队发布了开源视频生成计划，已吸引来自德国、澳大利亚、新加坡等不同国家的程序员参与和贡献，获得14万的访问量，5000余名程序员给这个项目点“星”。该计划初步搭建起了一个有效可行的技术框架，后续希望在有效框架基础上训练更多数据和更大算力，进一步拓展生成视频的泛化性、场景的多样性。

AI对行业的影响与展望

随着AI技术的不断进步，世界模型的发展无疑将对众多领域产生深远的影响。一方面，它将为游戏、娱乐、教育等行业带来全新的体验和机遇，例如创建能与观众实时互动的媒体，为用户提供只属于自己的独家游戏剧情；另一方面，也为机器人训练提供了更丰富、更真实的环境数据，有助于推动机器人技术的发展。然而，我们也不能忽视AI对一些传统行业就业的冲击，但正如Odyssey所倡导的，AI与人类创意的共生将是未来的发展方向。我们期待谷歌DeepMind以及其他公司在世界模型领域的持续创新，共同开创一个更加智能、更加精彩的AI时代。

# AI头条 # ai # AI大模型 # AI视频 # Google # 谷歌

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...