PhotoDoodle AI:将照片转化为异想天开的艺术作品

字数 1110,阅读大约需 6 分钟

PhotoDoodle AI:将照片转化为异想天开的艺术作品
字节跳动是一家全球领先的互联网科技公司,致力于开发创新的产品和服务,以连接人与信息,丰富人们的生活。

PhotoDoodle AI:用几个提示将照片变为异想天开的艺术作品

PhotoDoodle AI的创新技术与核心

字节跳动与中国和新加坡大学研究团队合作推出的PhotoDoodle AI,基于德国初创公司Black Forest Labs的Flux.1模型,为图像创作带来了革新。该系统利用研究团队开发的OmniEditor系统,通过LoRA(低秩自适应)技术对Flux.1进行了改良,实现了从微小概念调整到完整风格转换的能力。EditLoRA变体的训练使PhotoDoodle能够复制独特的艺术风格,通过与艺术家合作创建的精选图像对,系统得以掌握每种艺术风格的精妙之处。

PhotoDoodle最引人注目的创新是位置编码克隆技术。这项技术使AI能够记住原始图像中每个像素的确切位置,从而在添加新元素时保持画面构图的完整性,并确保新添加的元素自然融入背景。这解决了传统图像编辑AI的关键痛点,无需额外参数训练就能实现这一突破,大大提高了处理效率。

在实际测试中,PhotoDoodle轻松应对从让猫变白一点到添加一只爬上建筑物的粉红色怪物等各种复杂指令。与现有技术相比,它在图像与文本描述相似度等基准测试中表现卓越,无论是针对性编辑还是全局图像更改,都远超同类产品。

目前,PhotoDoodle需要数十对图像和数千个训练步骤才能掌握新风格。研究团队已将目光投向更高效的单图像训练方法,并发布了一个包含六种不同艺术风格和300多对图像的数据集,相关代码也已在GitHub上开源,为未来研究提供了坚实基础。

GitHub地址:https://github.com/showlab/PhotoDoodle

技术核心:OmniEditor系统

PhotoDoodle的核心是OmniEditor系统,该系统利用LoRA(低秩自适应)技术对德国初创公司Black Forest Labs的Flux.1图像生成模型进行了改良。这种方法无需重塑原始模型的权重,而是通过添加专用小型矩阵,实现从微小概念调整到完整风格转换的能力。

EditLoRA:复制独特艺术风格

研究人员采用名为EditLoRA的变体训练OmniEditor,使其能够复制独特的艺术风格。通过与艺术家合作创建的精选图像对,系统得以掌握每种艺术风格的精妙之处。PhotoDoodle在保留原始图像构图的同时,成功添加了怪物、魔法效果和装饰插图等有趣元素。

创新技术:位置编码克隆

PhotoDoodle最引人注目的创新是位置编码克隆技术。这项技术使AI能够记住原始图像中每个像素的确切位置,从而在添加新元素时保持画面构图的完整性,并确保新添加的元素自然融入背景。这解决了传统图像编辑AI的关键痛点,即难以在保持原有视角和背景的同时融入新的装饰元素。而PhotoDoodle无需额外参数训练就能实现这一突破,大大提高了处理效率。

实际测试:卓越表现

在实际测试中,PhotoDoodle轻松应对各种复杂指令,从让猫变白一点到添加一只爬上建筑物的粉红色怪物等。与现有技术相比,它在图像与文本描述相似度等基准测试中表现卓越,无论是针对性编辑还是全局图像更改,都远超同类产品。

展望:单图像训练与开源数据集

目前,PhotoDoodle需要数十对图像和数千个训练步骤才能掌握新风格。研究团队已将目光投向更高效的单图像训练方法,并发布了一个包含六种不同艺术风格和300多对图像的数据集,相关代码也已在GitHub上开源,为未来研究提供了坚实基础。

© 版权声明

相关文章

暂无评论

暂无评论...