AI工具AI图像AI图像动画生成AI大模型开发平台

Diffusion 3 Medium

一款20亿参数的文本到图像AI模型,具备照片级真实感、强大的文本遵循能力和快速推理速度,适合消费级GPU运行,提供高度定制化和创意支持。

标签:

自己搭建一个地表最强免费开源的图像大模型Diffusion 3 Medium

Stable Diffusion 3 Medium是Stability AI推出的一个20亿参数的文本到图像AI模型。它是Stable Diffusion 3系列中的最新、最先进的模型,专为在消费级GPU上运行而设计。该模型在照片真实感、排版、复杂提示理解和资源效率方面表现出色,且能够从小数据集吸收细微的细节,使其具有完美的定制和创造力。Diffusion 3 Medium

核心功能及功能特点:

  • 照片真实感:能够生成具有非凡细节、颜色和光照的图像,实现逼真的输出以及多种灵活风格的输出,无需复杂的工作流程。
  • 强大的文本遵循能力:Diffusion 3 Medium能够准确理解和遵循用户输入的文本描述,生成与描述相符的图像。
  • 性能:由于其优化的大小和效率,非常适合消费者系统和企业工作负载。
  • 微调:能够从小数据集吸收细微的细节,实现完美的定制和创造力。
  • 理解复杂提示:理解涉及空间推理、构图元素、动作和风格的冗长而复杂的提示。

Diffusion 3 Medium

相比其他产品的优势:

  • 资源效率:由于其VRAM占用空间小,可以在标准消费类GPU上运行而不会降低性能。
  • 易于使用:提供易于使用的API和云服务,使得非专业用户也能轻松体验和使用。
  • 高度定制:通过微调功能,可以吸收细微的细节,为艺术家、设计师和开发人员提供高度的定制和创造力。
  • 更快的推理速度:Diffusion 3 Medium在生成图像时具有快速的推理速度,可以在几秒钟内生成高质量的图像。
  • 更广泛的应用场景:Diffusion 3 Medium适用于各种应用场景,包括艺术创作、广告设计、游戏开发等。

Diffusion 3 Medium

应用场景:

Stable Diffusion 3 Medium适用于多种应用场景,包括艺术创作、设计、广告、娱乐等,为创作者提供高质量的图像生成和定制功能。

依靠的大模型介绍:

Stable Diffusion 3 Medium是一个多模态扩散转换器(MMDiT)文本到图像模型,它使用三个固定的、预训练的文本编码器:OpenCLIP-ViT/G、CLIP-ViT/L和T5-xxl。该模型在10亿张图像上进行了预训练,并使用30M专注于特定视觉内容和风格的高质量美学图像以及3M偏好数据图像进行微调。

产品价格:

关于Stable Diffusion 3 Medium的价格,它在非商业许可下是免费的。对于商业应用,Stability AI提供了创作者许可证。具体的商业授权价格和细节可能需要直接联系Stability AI进行了解。

注意事项:

使用许可:请确保在非商业用途下使用SD3 Medium,并遵守相关的使用许可和条款。

硬件要求:虽然SD3 Medium可以在消费级GPU上运行,但仍建议使用具有足够VRAM的GPU以获得最佳性能。

数据安全:在使用SD3 Medium生成或处理图像时,请确保遵循数据安全和隐私保护的最佳实践。

模型使用

  • 模型类型: MMDiT 文本到图像生成模型
  • 模型描述:这是一个可以根据文本提示生成图像的模型。它是一个多模态扩散变换器(https://arxiv.org/abs/2403.03206),使用三个固定的、预训练的文本编码器(OpenCLIP-ViT/G、CLIP-ViT/L和T5-xxl)

执照应用

  • 非商业用途:稳定性 AI 非商业研究社区许可证下发布。该模型可免费用于学术研究等非商业用途。
  • 商业用途:未经 Stability 单独商业许可,此模型不可用于商业用途。我们鼓励专业艺术家、设计师和创作者使用我们的创作者许可。请访问https://stability.ai/license了解更多信息。

模型来源

对于本地或自托管使用,建议使用ComfyUI进行推理。

稳定版本可在我们的稳定性 API 平台上使用。

stable_diffusion_3模型和工作流程可通过稳定助手 (Stable Assistant)和 Discord (Stable Artisan)获得。

  • ComfyUI: https://github.com/comfyanonymous/ComfyUI
  • StableSwarmUI: https://github.com/Stability-AI/StableSwarmUI
  • 技术报告: https://stability.ai/news/stable-diffusion-3-research-paper
  • 演示: https://huggingface.co/spaces/stabilityai/stable-diffusion-3-medium
  • 扩散器支持: https://huggingface.co/stabilityai/stable-diffusion-3-medium-diffusers

训练数据集

我们使用合成数据和经过筛选的公开数据来训练我们的模型。该模型已在 10 亿张图像上进行了预训练。微调数据包括 3000 万张专注于特定视觉内容和风格的高质量美学图像,以及 300 万张偏好数据图像。

文件结构

├── comfy_example_workflows/
│   ├── sd3_medium_example_workflow_basic.json
│   ├── sd3_medium_example_workflow_multi_prompt.json
│   └── sd3_medium_example_workflow_upscaling.json
│
├── text_encoders/
│   ├── README.md
│   ├── clip_g.safetensors
│   ├── clip_l.safetensors
│   ├── t5xxl_fp16.safetensors
│   └── t5xxl_fp8_e4m3fn.safetensors
│
├── LICENSE
├── sd3_medium.safetensors
├── sd3_medium_incl_clips.safetensors
├── sd3_medium_incl_clips_t5xxlfp8.safetensors
└── sd3_medium_incl_clips_t5xxlfp16.safetensors

为方便用户使用,我们准备了 SD3 中型型号的三种包装变体,每种包装变体都配备了相同的 MMDiT 和 VAE 重量组。

  • sd3_medium.safetensors 包括 MMDiT 和 VAE 权重,但不包括任何文本编码器。
  • sd3_medium_incl_clips_t5xxlfp16.safetensors包含所有必要的权重,包括 T5XXL 文本编码器的 fp16 版本。
  • sd3_medium_incl_clips_t5xxlfp8.safetensors包含所有必要的权重,包括 T5XXL 文本编码器的 fp8 版本,在质量和资源要求之间提供平衡。
  • sd3_medium_incl_clips.safetensors包括除 T5XXL 文本编码器之外的所有必要权重。它需要的资源很少,但如果没有 T5XXL 文本编码器,模型的性能会有所不同。
  • text_encoders文件夹包含三个文本编码器及其原始模型卡链接,以方便用户使用。text_encoders 文件夹中的所有组件(以及嵌入在其他包中的等效组件)均受其各自的原始许可证约束。
  • example_workfows文件夹包含舒适的工作流程示例。

与扩散器一起使用

确保升级到最新版本的扩散器:pip install -U 扩散器。然后你可以运行:

import torch
from diffusers import StableDiffusion3Pipeline

pipe = StableDiffusion3Pipeline.from_pretrained("stabilityai/stable-diffusion-3-medium-diffusers", torch_dtype=torch.float16)
pipe = pipe.to("cuda")

image = pipe(
    "A cat holding a sign that says hello world",
    negative_prompt="",
    num_inference_steps=28,
    guidance_scale=7.0,
).images[0]
image

有关优化和图像到图像支持的更多详细信息,请参考:文档

相关导航

暂无评论

暂无评论...