![谷歌DeepMind AI浪潮中,视频生成和世界模型的发展](https://ai.codexiu.cn/wp-content/uploads/2024/12/2024-12-20-deepmind-9d32de13db10473c9f2d792411a0761f.webp)
谷歌DeepMind
在AI的快速发展浪潮中,OpenAI的Sora虽备受期待,但在发布后却遭遇诸多问题,而谷歌DeepMind则展现出强大的实力和潜力,为行业带来新的希望。
Sora的困境与DeepMind的机遇
OpenAI的Sora在发布后未达预期,其团队掌舵人Tim Brooks跳槽至谷歌DeepMind,引发了行业的轩然大波。据The Information爆料,Sora技术存在严重问题,不仅生成速度慢,在各项性能上也难以与Luma、Stability、Runway等对手抗衡,更别提风头正劲的Pika和国产视频生成模型了。而在Sora陷入困境之时,谷歌DeepMind正积极推进视频生成和世界模型的研究,展现出强大的竞争力。
谷歌DeepMind的视频生成与世界模型优势
![AI浪潮中,视频生成和世界模型的发展](https://aimgsgoheap.codexiu.cn/2025/01/image-2025-01-07-veo2-deepmind-google-.webp)
Veo2模型的卓越表现:谷歌于2024年12月16日推出的Veo2模型,在视频分辨率、图像质量以及对现实世界物理规律的模拟上都有了显著的提升。它能够创建长达两分钟的4K分辨率视频,利用文本提示或者参考图像生成视频,逼真地模拟运动、流体力学及光的特性,无论是不同镜头的切换还是细腻的人类表情,都能轻松驾驭,其逼真程度足以以假乱真。
![AI浪潮中,视频生成和世界模型的发展](https://ai.codexiu.cn/wp-content/uploads/2025/01/image-2025-01-07-genie2-co-.webp)
Genie2模型的创新突破:就在2024年12月5日,Google DeepMind发布了大型基础世界模型Genie2,可通过单张图片和文字描述生成种类多样的可玩3D世界,标志着人工智能在虚拟世界生成领域的又一次突破。Genie2具备从不同视角生成连贯世界的能力,生成的世界可持续时间长达一分钟,多数情况下维持在10到20秒之间。经过视频训练,该模型能够精准模拟物体的交互、动画效果、照明、物理现象、反射效果以及“NPC”的行为,许多生成的场景画质接近3A级别的电子游戏,甚至在物体视角一致性和场景记忆方面表现优异。
其他公司在相关领域的进展
![AI浪潮中,视频生成和世界模型的发展](https://aimgsgoheap.codexiu.cn/2025/01/image-2025-01-07-aws.amazon.com-ai-generative-ai-nova-.webp)
亚马逊的多模态模型:在2024 re:Invent全球大会上,亚马逊宣布推出新一代基础模型Amazon Nova,包括超快速文本生成模型Amazon Nova Micro,以及能够处理文本、图像和视频并生成文本的多模态模型Amazon Nova Lite、Amazon Nova Pro和Amazon Nova Premier。此外,还推出了用于生成高质量图像的Amazon Nova Canvas和用于生成高质量视频的Amazon Nova Reel。亚马逊计划在2025年推出Amazon Nova语音到语音模型以及具备“任意到任意”模态能力的模型,这将极大地简化应用开发,使同一模型能够执行多种任务。
![AI浪潮中,视频生成和世界模型的发展](https://aimgsgoheap.codexiu.cn/2024/12/2024-12-05-worldlabs-5871187b0dec4ab28c84c746bacaedf7.webp)
李飞飞的World Labs和初创公司Decart、Odyssey:“AI教母”李飞飞创立的World Labs和以色列初创公司Decart也在世界模型领域积极探索,他们的产品在模拟游戏和3D环境方面都有着各自的特点和优势,为世界模型的发展注入了新的活力。Odyssey更是表态,其目标是与创意人士合作,而不是取代他们,致力于开创一个AI与人类创意共生的新时代。
开源项目助力视频生成和世界模型发展
OpenDiT和VideoSys:今年2月份,新加坡国立大学尤洋团队开源的OpenDiT项目为训练和部署DiT模型打开了新思路,这是一个易于使用、快速且内存高效的系统,专门用于提高DiT应用程序的训练和推理效率。之后,他们更是把这些进展都融合到了一起,开发出了一个名为VideoSys的视频生成系统,为视频生成提供了一个用户友好的高性能基础设施,支持从训练、推理到服务和压缩的整个pipeline,大大降低了视频生成的门槛和成本,使得更多人能够参与到视频生成的研究和应用中。
北大深圳研究生院开源计划:北京大学深圳研究生院—兔展智能AIGC联合实验室团队发布了开源视频生成计划,已吸引来自德国、澳大利亚、新加坡等不同国家的程序员参与和贡献,获得14万的访问量,5000余名程序员给这个项目点“星”。该计划初步搭建起了一个有效可行的技术框架,后续希望在有效框架基础上训练更多数据和更大算力,进一步拓展生成视频的泛化性、场景的多样性。
AI对行业的影响与展望
随着AI技术的不断进步,世界模型的发展无疑将对众多领域产生深远的影响。一方面,它将为游戏、娱乐、教育等行业带来全新的体验和机遇,例如创建能与观众实时互动的媒体,为用户提供只属于自己的独家游戏剧情;另一方面,也为机器人训练提供了更丰富、更真实的环境数据,有助于推动机器人技术的发展。然而,我们也不能忽视AI对一些传统行业就业的冲击,但正如Odyssey所倡导的,AI与人类创意的共生将是未来的发展方向。我们期待谷歌DeepMind以及其他公司在世界模型领域的持续创新,共同开创一个更加智能、更加精彩的AI时代。