最先进的文本到图像开放模型Stable Diffusion 3 Medium开源-可在消费级的GPU上运行

Stability AI 宣布 Stable Diffusion 3 Medium 现已开源，是 Stable Diffusion 3 系列中最新、最先进的文本生成图像 AI 模型 —— 官方声称是 “迄今为止最先进的开源模型”，其性能甚至超过了 Midjourney 6。

Stable Diffusion 3 Medium，同样为文字生成图像模型，但规模更小具2B 参数，可在消费级GPU 上运行，拥有照片真实感、遵守指令、生成文字、资源使用效率和微调等。

Stability AI 解释，透过人工神经网络结构「变分自编码器（VAE）」Stable Diffusion 3 Medium 能生成的细节优于先前的模型。且Stable Diffusion 3 对自然语言能更快速的理解，包括对元素的所在位置的理解，受惠于Diffusion Transformer 架构，SD3 模型都能较准确的生成文字。同时较小的模型也擅长微调，可以有效地从微调资料集中捕捉细节。

Stable Diffusion 3 最大的优势在于资源使用效率，2B 的参数量小于其他8 亿到80 亿个参数的Stable Diffusion 3 模型，其赖较少的运算，同时也不会影响到性能。

# AI头条 # ai # AI大模型

文章版权归作者所有，未经允许请勿转载。

暂无评论

暂无评论...

最先进的文本到图像开放模型Stable Diffusion 3 Medium开源-可在消费级的GPU上运行

AI新闻阅读应用初创公司Particle完成了1090万美元的A轮融资，由Lightspeed Venture Partners领投

1000万美元A轮融资的GPTZero的创始人还不到20岁

相关文章

暂无评论