下载客户端

来了！Stability AI推出Stable Diffusion 3.5

2024-10-23 17:02

来源：澎湃新闻·澎湃号·湃客

今日凌晨，Stability AI 推出了 Stable Diffusion 3.5，这是他们迄今为止最强大的模型。这一开放版本包括多个模型变体，包括 Stable Diffusion 3.5 Large 和 Stable Diffusion 3.5 Large Turbo，以及一周后将发布的 Stable Diffusion 3.5 Medium。

据介绍，这些模型的大小是高度可定制的，能在消费级硬件上运行，并可根据允许的 Stability AI Community License 免费用于商业和非商业用途。现在可以从 Hugging Face 下载 Stable Diffusion 3.5 Large 和 Stable Diffusion 3.5 Large Turbo，并在 GitHub 上下载推理代码。

Stability AI 指出，他们于 6 月发布的 Stable Diffusion 3 Medium（Stable Diffusion 3 系列的第一个开放版本）未能完全满足他们的标准和社区的期望。因此，在听取了宝贵的社区反馈后，他们花时间进一步开发了一个版本，以推进他们改变视觉媒体的使命—— Stable Diffusion 3.5 应运而生。

Stable Diffusion 3.5 充分实现了 Stability AI 的承诺，即为构建者和创作者提供可广泛访问、最前沿且在大多数用例中免费的工具。他们鼓励在整个流程中对作品进行发布和货币化，无论是微调、LoRA、优化、应用还是艺术作品。

在最新官方文章中，他们分享了在模型开发中的一些研究心得、Stable Diffusion 3.5 版本的强大功能以及公司的下一步计划等内容。

发布内容

Stable Diffusion 3.5 提供了多种模型，以满足科研人员、业余爱好者、初创公司和企业的需求：

Stable Diffusion 3.5 Large：该基本模型具有 80 亿个参数，具有卓越的质量和及时的依从性，是 Stable Diffusion 系列中最强大的模型。该模型非常适合 1 MP 分辨率的专业用例。

Stable Diffusion 3.5 Large Turbo：Stable Diffusion 3.5 Large 的精简版本只需 4 个步骤即可生成具有出色快速粘附性的高质量图像，使其比 Stable Diffusion 3.5 Large 快得多。

Stable Diffusion 3.5 Medium（将于 10 月 29 日发布）：该模型拥有 25 亿个参数，具有改进的 MMDiT-X 架构和训练方法，旨在“开箱即用”地在消费类硬件上运行，在质量和易于定制之间取得平衡。它能够生成分辨率在 0.25 到 2 MP 之间的图像。

开发模型

在开发模型时，Stability AI 优先考虑可定制性，以提供灵活的构建基础。为此，他们将 Query-Key Normalization 集成到 transformer 模块中，稳定了模型训练过程并简化了进一步的微调和开发。

为了支持这种级别的下游灵活性，他们必须做出一些权衡。具有不同 seeds 的同一 prompt 的输出可能会发生更大的变化，这是有意为之的，因为它有助于在基本模型中保留更广泛的知识库和不同的风格。然而，因此，缺乏特异性的提示可能会导致输出的不确定性增加，并且审美水平可能会有所不同。

特别是对于 Medium 模型，他们对架构和训练协议进行了一些调整，以提高质量、连贯性和多分辨率生成能力。

模型擅长什么？

Stable Diffusion 3.5 版本在以下方面表现出色，使其成为市场上可定制化程度最高、最易于使用的图像模型之一，同时在 Prompt Adherence 和图像质量方面保持顶级性能：

可定制性：轻松微调模型以满足您的特定创意需求，或基于自定义工作流程构建应用程序。

高效的性能：经过优化，可在标准消费类硬件上运行，无需高要求，尤其是 Stable Diffusion 3.5 Medium 和 Stable Diffusion 3.5 Large Turbo。

多样化的输出：创建代表世界的图像，而不仅仅是一种类型的人，具有不同的肤色和特征，无需大量提示。

多功能风格：能够生成各种风格和美学，如 3D、摄影、绘画、线条艺术，以及几乎任何可以想象的视觉风格。

此外，他们的分析表明，Stable Diffusion 3.5 Large 在 Prompt Adherence 方面领先市场，在图像质量方面可与更大的模型相媲美。

Stable Diffusion 3.5 Large Turbo 提供了同尺寸中最快的推理时间，同时在图像质量和 Prompt Adherence 方面保持了极具竞争力，即使与类似尺寸的 non-distilled 模型相比也是如此。

Stable Diffusion 3.5 Medium 的性能优于其他中型模型，在 Prompt Adherence 和图像质量之间取得了平衡，使其成为高效、高质量性能的首选。

特别声明

本文为澎湃号作者或机构在澎湃新闻上传并发布，仅代表该作者或机构观点，不代表澎湃新闻的观点或立场，澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问http://renzheng.thepaper.cn。

我要举报

扫码下载澎湃新闻客户端

澎湃矩阵

新闻报料

报料热线: 021-962866
报料邮箱: news@thepaper.cn

沪ICP备14003370号

沪公网安备31010602000299号

互联网新闻信息服务许可证：31120170006

增值电信业务经营许可证：沪B2-2017116

反馈