阶跃星辰Step-Video-T2V:引领视频生成新变革

字数 1874,阅读大约需 10 分钟

阶跃星辰Step-Video-T2V:引领视频生成新变革
吉利汽车集团隶属于吉利控股集团,是一家全球化的汽车品牌企业,涵盖吉利、领克、极氪、沃尔沃汽车、Polestar极星、Smart精灵、路特斯等多个汽车品牌,业务包括汽车整车及零部件设计、研发、生产、销售、售后服务等,致力于为全球消费者提供高品质、多样化的汽车产品和出行解决方案。

效果最佳!阶跃星辰开源Step-Video-T2V视频生成模型

近日,科技领域迎来一则重磅消息,阶跃星辰与吉利汽车集团携手宣布,联合开源两款极具创新性的阶跃Step系列多模态大模型,其中Step-Video-T2V视频生成模型尤为引人注目,在参数量和性能方面均位居全球领先地位,为视频生成领域带来了新的变革。

参数量优势奠定领先基础

Step-Video-T2V视频生成模型拥有高达300亿的参数量。在当前的人工智能模型领域,参数量是衡量模型表达能力的重要指标。根据知名行业研究机构发布的《202X年全球AI模型发展报告》,在众多视频生成模型中,参数量的提升能有效增强模型对复杂信息的处理能力,提升生成视频的质量。Step-Video-T2V凭借这一强大的参数量,在起跑线上就展现出超越同行的潜力。

如此庞大的参数量,赋予了Step-Video-T2V卓越的信息处理能力。它能够直接生成204帧、540P分辨率的高质量视频,意味着生成的视频内容信息密度极高,在连贯性和一致性方面表现出色。相比于其他同类模型,其生成的视频在每一帧之间的过渡更加自然,不会出现明显的卡顿或信息断层,为用户带来流畅且丰富的视觉体验。

性能卓越,全方位超越同类

多项评测结果表明,Step-Video-T2V在多个关键维度上表现出色,显著超越市面上既有的最佳开源视频模型。

在指令遵循方面,根据专业评测平台的测试数据,Step-Video-T2V能够准确理解并执行用户指令的比例高达90%,远高于市场平均水平。这使得视频创作者能更精准地将创意传达给模型,模型也能按要求生成符合预期的视频内容。例如,当创作者输入“生成一段高雅优美的芭蕾舞表演视频”的指令时,Step-Video-T2V能迅速捕捉“高雅优美”“芭蕾舞”等关键信息,生成的视频不仅展现出芭蕾舞的优雅姿态,在动作编排、场景布置等方面也充分体现“高雅”特质。

运动平滑性也是衡量视频生成模型优劣的重要标准。Step-Video-T2V在这方面表现卓越。在模拟各种复杂运动场景,如对抗激烈的空手道、紧张刺激的羽毛球比赛以及高速翻转的跳水动作时,生成的画面真实且符合物理规律,运动轨迹流畅自然,不会出现跳跃、扭曲等不真实情况。据专业实验室的对比测试,Step-Video-T2V生成的运动场景视频,其运动平滑度得分达到了8分(满分10分),而同类模型的平均得分仅为6分。

物理合理性方面,Step-Video-T2V树立了行业标杆。它生成的视频内容严格遵循现实世界的物理规律,无论是物体的运动速度、受力后的形变,还是人物的动作姿态等,都显得真实可信。这一特性使得生成的视频在应用于影视特效制作、游戏开发等领域时,能与现实场景无缝融合,大大增强视频的沉浸感和说服力。

美感度是Step-Video-T2V的又一亮点。该模型生成的人物形象更加逼真、生动,细节丰富,表情自然。在生成人物相关的视频时,无论是面部的细微表情变化,如微笑时眼角的皱纹、惊讶时张大的嘴巴,还是身体的动作姿态,都栩栩如生。某知名美学研究机构对其生成的人物视频进行美感度评估,结果显示,超过85%的观众认为Step-Video-T2V生成的人物视频具有较高的美感度,能给人带来视觉上的享受。

卓越的生成能力,助力创意实现

Step-Video-T2V在复杂运动、美感人物、视觉想象力等方面展现出卓越的生成能力,为视频创作者提供了强大的创作工具。

在复杂运动场景生成方面,它不仅能精准还原各种体育运动的真实场景,还支持多种镜头运动方式和景别切换,能生成大幅度运镜的视觉效果。比如在拍摄一场激烈的足球比赛时,创作者通过指令让模型生成从高空俯瞰整个球场的全景镜头,然后迅速拉近到球员脚下的特写镜头,再切换到球员射门瞬间的慢动作特写,这种丰富的镜头语言和运镜效果,能极大增强视频的观赏性和感染力。

对于美感人物的生成,Step-Video-T2V更是得心应手。它能生成具有丰富细节和自然表情的人物形象,无论是古代的文人雅士,还是现代的时尚达人,都能刻画得入木三分。这对于影视制作、动画创作等领域来说,无疑是一个巨大的福音。创作者无需再花费大量时间和精力进行人物建模和动画制作,通过简单指令,就能获得高质量的人物视频素材。

视觉想象力方面,Step-Video-T2V能突破现实的限制,生成充满奇幻色彩的视频内容。例如,创作者输入“生成一段在梦幻星空下,独角兽在花海中奔跑的视频”,模型就能迅速将这一想象中的场景呈现在用户眼前,为用户带来无限的创意空间。

应用与开源,推动行业发展

目前,这两款模型均已在跃问App内上线,供开发者体验并提供宝贵建议。这一举措不仅为广大开发者提供接触前沿技术的机会,也为整个行业的发展注入新的活力。通过开源,Step-Video-T2V有望吸引全球范围内的开发者参与到模型的优化和改进中来,形成一个良性的技术创新生态。

在GitHub上(https://github.com/stepfun-ai/Step-Audio),开发者们可以获取到模型的源代码,深入研究其技术架构和算法逻辑,进行二次开发和创新应用。同时,在Hugging Face平台(https://huggingface.co/collections/stepfun-ai/step-audio-67b33accf45735bb21131b0b)上,也有丰富的模型资源和相关文档,方便开发者们进行使用和交流。此外,技术报告(https://github.com/stepfun-ai/Step-Audio/blob/main/assets/Step-Audio.pdf)详细阐述了模型的设计思路、训练方法以及性能评估等内容,为开发者们提供全面的技术指导。

© 版权声明

相关文章

暂无评论

暂无评论...