介绍
Stable Diffusion 3 Medium 是Stability AI 最新推出的产品。而在今天发布SD3,生图圈子第一个出现开源碾压闭源的奇景!强大的MMDiT全新架构。
Stable Diffusion 3 Medium是一种多模态扩散变换器 (MMDiT) 文本到图像模型,其在图像质量、排版、复杂提示理解和资源效率方面的性能有极大提升。
SD3-自训练图:




模型描述:
- 开发者: Stability AI
- 模型类型: MMDiT 文本到图像生成模型
- 模型描述:这是一个可以根据文本提示生成图像的模型。它是一个多模态扩散变换器(https://arxiv.org/abs/2403.03206),使用三个固定的、预训练的文本编码器(OpenCLIP-ViT/G、CLIP-ViT/L和T5-xxl)
许可证:
- 非商业用途:Stable Diffusion 3 Medium在Stability AI非商业研究社区许可下发布。该模型可免费用于学术研究等非商业目的。
- 商业用途:没有Stability单独的商业许可,此模型不可用于商业用途。我们鼓励专业艺术家、设计师和创作者使用我们的创作者许可证。请访问https://stability.ai/license了解更多信息。
文件结构:
├── comfy_example_workflows/
│ ├── sd3_medium_example_workflow_basic.json
│ ├── sd3_medium_example_workflow_multi_prompt.json
│ └── sd3_medium_example_workflow_upscaling.json
│
├── text_encoders/
│ ├── README.md
│ ├── clip_g.safetensors
│ ├── clip_l.safetensors
│ ├── t5xxl_fp16.safetensors
│ └── t5xxl_fp8_e4m3fn.safetensors
│
├── LICENSE
├── sd3_medium.safetensors
├── sd3_medium_incl_clips.safetensors
├── sd3_medium_incl_clips_t5xxlfp8.safetensors
└── ...
- 为了方便用户使用,我们准备了SD3 Medium型号的三种包装变体,每一种都配备了相同的MMDiT和VAE权重。
- sd3_medium。安全系数包括MMDiT和VAE权重,但不包括任何文本编码器。
sd3_medium_incl_clips_t5xxlfp8。safetensors包含所有必要的权重,包括fp8版本的T5XXL文本编码器,在质量和资源需求之间提供平衡。
sd3_medium_incl_clips。safetensors包括除了T5XXL文本编码器之外的所有必要权重。它只需要很少的资源,但是如果没有T5XXL文本编码器,模型的性能会有所不同。
text_encoders文件夹包含三个文本编码器及其原始模型卡链接,以方便用户使用。text_encoders文件夹中的所有组件(以及嵌入在其他包中的等效组件)都受其各自的原始许可证的约束。
example_workflows文件夹包含示例舒适工作流。
下载模型:
- 下载地址:https://huggingface.co/stabilityai/stable-diffusion-3-medium
- 注意:需要科学上网才能下载该模型

