阶跃星辰Step-Video-T2V：引领视频生成新变革

字数 1874，阅读大约需 10 分钟

效果最佳！阶跃星辰开源Step-Video-T2V视频生成模型

近日，科技领域迎来一则重磅消息，阶跃星辰与吉利汽车集团携手宣布，联合开源两款极具创新性的阶跃Step系列多模态大模型，其中Step-Video-T2V视频生成模型尤为引人注目，在参数量和性能方面均位居全球领先地位，为视频生成领域带来了新的变革。

参数量优势奠定领先基础

Step-Video-T2V视频生成模型拥有高达300亿的参数量。在当前的人工智能模型领域，参数量是衡量模型表达能力的重要指标。根据知名行业研究机构发布的《202X年全球AI模型发展报告》，在众多视频生成模型中，参数量的提升能有效增强模型对复杂信息的处理能力，提升生成视频的质量。Step-Video-T2V凭借这一强大的参数量，在起跑线上就展现出超越同行的潜力。

如此庞大的参数量，赋予了Step-Video-T2V卓越的信息处理能力。它能够直接生成204帧、540P分辨率的高质量视频，意味着生成的视频内容信息密度极高，在连贯性和一致性方面表现出色。相比于其他同类模型，其生成的视频在每一帧之间的过渡更加自然，不会出现明显的卡顿或信息断层，为用户带来流畅且丰富的视觉体验。

性能卓越，全方位超越同类

多项评测结果表明，Step-Video-T2V在多个关键维度上表现出色，显著超越市面上既有的最佳开源视频模型。

在指令遵循方面，根据专业评测平台的测试数据，Step-Video-T2V能够准确理解并执行用户指令的比例高达90%，远高于市场平均水平。这使得视频创作者能更精准地将创意传达给模型，模型也能按要求生成符合预期的视频内容。例如，当创作者输入“生成一段高雅优美的芭蕾舞表演视频”的指令时，Step-Video-T2V能迅速捕捉“高雅优美”“芭蕾舞”等关键信息，生成的视频不仅展现出芭蕾舞的优雅姿态，在动作编排、场景布置等方面也充分体现“高雅”特质。

运动平滑性也是衡量视频生成模型优劣的重要标准。Step-Video-T2V在这方面表现卓越。在模拟各种复杂运动场景，如对抗激烈的空手道、紧张刺激的羽毛球比赛以及高速翻转的跳水动作时，生成的画面真实且符合物理规律，运动轨迹流畅自然，不会出现跳跃、扭曲等不真实情况。据专业实验室的对比测试，Step-Video-T2V生成的运动场景视频，其运动平滑度得分达到了8分（满分10分），而同类模型的平均得分仅为6分。

物理合理性方面，Step-Video-T2V树立了行业标杆。它生成的视频内容严格遵循现实世界的物理规律，无论是物体的运动速度、受力后的形变，还是人物的动作姿态等，都显得真实可信。这一特性使得生成的视频在应用于影视特效制作、游戏开发等领域时，能与现实场景无缝融合，大大增强视频的沉浸感和说服力。

美感度是Step-Video-T2V的又一亮点。该模型生成的人物形象更加逼真、生动，细节丰富，表情自然。在生成人物相关的视频时，无论是面部的细微表情变化，如微笑时眼角的皱纹、惊讶时张大的嘴巴，还是身体的动作姿态，都栩栩如生。某知名美学研究机构对其生成的人物视频进行美感度评估，结果显示，超过85%的观众认为Step-Video-T2V生成的人物视频具有较高的美感度，能给人带来视觉上的享受。

卓越的生成能力，助力创意实现

Step-Video-T2V在复杂运动、美感人物、视觉想象力等方面展现出卓越的生成能力，为视频创作者提供了强大的创作工具。

在复杂运动场景生成方面，它不仅能精准还原各种体育运动的真实场景，还支持多种镜头运动方式和景别切换，能生成大幅度运镜的视觉效果。比如在拍摄一场激烈的足球比赛时，创作者通过指令让模型生成从高空俯瞰整个球场的全景镜头，然后迅速拉近到球员脚下的特写镜头，再切换到球员射门瞬间的慢动作特写，这种丰富的镜头语言和运镜效果，能极大增强视频的观赏性和感染力。

对于美感人物的生成，Step-Video-T2V更是得心应手。它能生成具有丰富细节和自然表情的人物形象，无论是古代的文人雅士，还是现代的时尚达人，都能刻画得入木三分。这对于影视制作、动画创作等领域来说，无疑是一个巨大的福音。创作者无需再花费大量时间和精力进行人物建模和动画制作，通过简单指令，就能获得高质量的人物视频素材。

视觉想象力方面，Step-Video-T2V能突破现实的限制，生成充满奇幻色彩的视频内容。例如，创作者输入“生成一段在梦幻星空下，独角兽在花海中奔跑的视频”，模型就能迅速将这一想象中的场景呈现在用户眼前，为用户带来无限的创意空间。

应用与开源，推动行业发展

目前，这两款模型均已在跃问App内上线，供开发者体验并提供宝贵建议。这一举措不仅为广大开发者提供接触前沿技术的机会，也为整个行业的发展注入新的活力。通过开源，Step-Video-T2V有望吸引全球范围内的开发者参与到模型的优化和改进中来，形成一个良性的技术创新生态。

在GitHub上（https://github.com/stepfun-ai/Step-Audio），开发者们可以获取到模型的源代码，深入研究其技术架构和算法逻辑，进行二次开发和创新应用。同时，在Hugging Face平台（https://huggingface.co/collections/stepfun-ai/step-audio-67b33accf45735bb21131b0b）上，也有丰富的模型资源和相关文档，方便开发者们进行使用和交流。此外，技术报告（https://github.com/stepfun-ai/Step-Audio/blob/main/assets/Step-Audio.pdf）详细阐述了模型的设计思路、训练方法以及性能评估等内容，为开发者们提供全面的技术指导。

# AI快讯 # DeepSeek

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...