字数 1030,阅读大约需 6 分钟
![字节跳动 震撼!字节跳动OmniHuman-1,Deepfake视频技术重大突破](https://aimgsgoheap.codexiu.cn/2025/01/2025-01-02-bytedance-b947b6d59910415eb3eec5f3945607f9.webp)
OmniHuman-1:Deepfake视频技术的新突破
近日,字节跳动研究人员展示了全新AI系统OmniHuman-1,它能生成极为逼真的Deepfake视频,引发行业广泛关注。
OmniHuman-1的卓越表现
Deepfaking AI技术已较为常见,不少应用能将人物嵌入照片或让人物说出未说过的话。但多数Deepfake视频,尤其是视频类,常难以克服“恐怖谷”效应,存在人工智能参与迹象。而OmniHuman-1打破了这一局面。
从字节跳动团队发布的虚构泰勒·斯威夫特表演、未发生过的TED演讲以及Deepfake版爱因斯坦讲座等视频可见其逼真程度。OmniHuman-1仅需一张参考图像和一段音频(如演讲或歌声),就能生成任意长度视频片段。输出视频的宽高比及主体“身体比例”可调节。该系统基于19000小时未公开来源的视频内容训练,不仅能生成新视频,还可编辑现有视频,甚至修改人物肢体动作,其逼真效果令人惊叹。
不过,OmniHuman-1并非完美。字节跳动团队指出,“低质量”参考图像无法生成最佳效果视频,且系统处理某些特定姿势存在困难,如展示视频中人物手持酒杯的怪异手势就凸显了这一问题。
尽管如此,OmniHuman-1明显优于以往Deepfake技术,预示着未来技术发展方向。字节跳动虽未发布该系统,但以人工智能社区能力,对这类模型进行逆向工程耗时不会太长。
Deepfake技术引发的担忧
Deepfake技术发展带来诸多令人担忧的影响。
在政治领域,去年政治Deepfake在全球迅速传播。例如,在台湾地区选举日,有组织发布AI生成的误导性音频,内容为某政治人物支持亲中候选人;在摩尔多瓦,出现Deepfake视频描绘该国总统玛雅·桑杜辞职场景;在南非,选举前流传Deepfake版说唱歌手埃米纳姆支持南非反对党的图片。
在金融领域,Deepfake技术越来越多地被用于实施金融犯罪。消费者常被名人的Deepfake视频欺骗,这些视频提供虚假投资机会;企业也被Deepfake模仿者骗走数百万美元。德勤报告显示,2023年,人工智能生成内容导致的欺诈损失超过120亿美元,预计到2027年,仅美国这一数字将达400亿美元。
面对这些问题,去年2月,数百名人工智能领域人士签署公开信,呼吁对Deepfake进行严格监管。在美国联邦层面尚未将Deepfake定为刑事犯罪的情况下,已有超10个州颁布针对人工智能辅助冒充行为的法规。加利福尼亚州相关法律虽目前停滞,但实施后,将成为首个授权法官命令Deepfake发布者删除内容,否则面临经济处罚的法律。
Deepfake技术检测的困境
Deepfake视频很难被检测出来。尽管一些社交网络和搜索引擎采取措施限制其传播,但网上Deepfake内容数量仍快速增长。身份验证公司Jumio在2024年5月调查显示,60%受访者表示过去一年遇到过Deepfake内容。参与调查者中,72%表示每天担心被Deepfake欺骗,多数人支持立法应对人工智能生成虚假内容的扩散。