震撼!字节跳动OmniHuman-1,Deepfake视频技术重大突破

字数 1030,阅读大约需 6 分钟

震撼!字节跳动OmniHuman-1,Deepfake视频技术重大突破
字节跳动是一家全球化的科技公司,旗下拥有众多知名产品,如抖音、今日头条、TikTok等,业务涵盖短视频、资讯、社交、在线教育、游戏等多个领域,通过技术创新为全球用户提供丰富多样的内容和服务体验,在互联网内容创作与分发、社交互动等方面具有广泛影响力。

OmniHuman-1:Deepfake视频技术的新突破

近日,字节跳动研究人员展示了全新AI系统OmniHuman-1,它能生成极为逼真的Deepfake视频,引发行业广泛关注。

OmniHuman-1的卓越表现

Deepfaking AI技术已较为常见,不少应用能将人物嵌入照片或让人物说出未说过的话。但多数Deepfake视频,尤其是视频类,常难以克服“恐怖谷”效应,存在人工智能参与迹象。而OmniHuman-1打破了这一局面。

从字节跳动团队发布的虚构泰勒·斯威夫特表演、未发生过的TED演讲以及Deepfake版爱因斯坦讲座等视频可见其逼真程度。OmniHuman-1仅需一张参考图像和一段音频(如演讲或歌声),就能生成任意长度视频片段。输出视频的宽高比及主体“身体比例”可调节。该系统基于19000小时未公开来源的视频内容训练,不仅能生成新视频,还可编辑现有视频,甚至修改人物肢体动作,其逼真效果令人惊叹。

不过,OmniHuman-1并非完美。字节跳动团队指出,“低质量”参考图像无法生成最佳效果视频,且系统处理某些特定姿势存在困难,如展示视频中人物手持酒杯的怪异手势就凸显了这一问题。

尽管如此,OmniHuman-1明显优于以往Deepfake技术,预示着未来技术发展方向。字节跳动虽未发布该系统,但以人工智能社区能力,对这类模型进行逆向工程耗时不会太长。

Deepfake技术引发的担忧

Deepfake技术发展带来诸多令人担忧的影响。

在政治领域,去年政治Deepfake在全球迅速传播。例如,在台湾地区选举日,有组织发布AI生成的误导性音频,内容为某政治人物支持亲中候选人;在摩尔多瓦,出现Deepfake视频描绘该国总统玛雅·桑杜辞职场景;在南非,选举前流传Deepfake版说唱歌手埃米纳姆支持南非反对党的图片。

在金融领域,Deepfake技术越来越多地被用于实施金融犯罪。消费者常被名人的Deepfake视频欺骗,这些视频提供虚假投资机会;企业也被Deepfake模仿者骗走数百万美元。德勤报告显示,2023年,人工智能生成内容导致的欺诈损失超过120亿美元,预计到2027年,仅美国这一数字将达400亿美元。

面对这些问题,去年2月,数百名人工智能领域人士签署公开信,呼吁对Deepfake进行严格监管。在美国联邦层面尚未将Deepfake定为刑事犯罪的情况下,已有超10个州颁布针对人工智能辅助冒充行为的法规。加利福尼亚州相关法律虽目前停滞,但实施后,将成为首个授权法官命令Deepfake发布者删除内容,否则面临经济处罚的法律。

Deepfake技术检测的困境

Deepfake视频很难被检测出来。尽管一些社交网络和搜索引擎采取措施限制其传播,但网上Deepfake内容数量仍快速增长。身份验证公司Jumio在2024年5月调查显示,60%受访者表示过去一年遇到过Deepfake内容。参与调查者中,72%表示每天担心被Deepfake欺骗,多数人支持立法应对人工智能生成虚假内容的扩散。

© 版权声明

相关文章

暂无评论

暂无评论...