最先进的文本到图像开放模型Stable Diffusion 3 Medium开源-可在消费级的GPU上运行

AI头条8个月前更新 freeAI
0

Stability AI 宣布 Stable Diffusion 3 Medium 现已开源,是 Stable Diffusion 3 系列中最新、最先进的文本生成图像 AI 模型 —— 官方声称是 “迄今为止最先进的开源模型”,其性能甚至超过了 Midjourney 6。

最先进的文本到图像开放模型Stable Diffusion 3 Medium开源-可在消费级的GPU上运行

Stable Diffusion 3 Medium,同样为文字生成图像模型,但规模更小具2B 参数,可在消费级GPU 上运行,拥有照片真实感、遵守指令、生成文字、资源使用效率和微调等。

Stability AI 解释,透过人工神经网络结构「变分自编码器(VAE)」Stable Diffusion 3 Medium 能生成的细节优于先前的模型。且Stable Diffusion 3 对自然语言能更快速的理解,包括对元素的所在位置的理解,受惠于Diffusion Transformer 架构,SD3 模型都能较准确的生成文字。同时较小的模型也擅长微调,可以有效地从微调资料集中捕捉细节。

Stable Diffusion 3 最大的优势在于资源使用效率,2B 的参数量小于其他8 亿到80 亿个参数的Stable Diffusion 3 模型,其赖较少的运算,同时也不会影响到性能。

© 版权声明

相关文章

暂无评论

暂无评论...