Stable Diffusion是一种基于扩散技术的深度学习文本转图像模型,首次亮相于2022年。这款生成式人工智能技术是Stability AI的旗舰产品,被认为是当前人工智能热潮的一部分。它究竟是什么?让我们一起深入探讨这项将文字转化为图像的技术,看看它背后的工作原理和重要性。
Stable Diffusion是一个开源的机器学习框架,能够根据用户的文本和图像提示生成独特而真实的图像。自2022年推出以来,它不仅可以生成静态图像,还可以用来创建视频和动画。通过结合变分自动编码器与扩散模型,这项技术能够将文字转换为复杂的视觉表现,代表了生成式人工智能领域的重大进步。创意者、设计师和开发者都找到了一个免费、开放的图像创作工具,只需输入简单的文本提示,便能创作出从写实照片到各种风格的艺术作品。
作为一种扩散模型,Stable Diffusion与许多其他的图像生成模型有所不同。理想状态下,该扩散模型使用高斯噪声对图像进行编码,然后利用噪声预测器和反向扩散过程重现图像。Stable Diffusion的独特之处在于,它不在使用图像的像素空间,而是采用降低清晰度的潜在空间。
其背后的原因在于,分辨率为512x512的彩色图像具有786,432个可能的值。而Stable Diffusion使用的压缩图像仅有16,384个值,减少了约48倍的处理需求。这意味着你可以在一台配备8GB RAM的NVIDIA GPU的台式机上流畅使用Stable Diffusion。更小的潜在空间之所以有效,是因为自然图像并非随机的。Stable Diffusion利用解码器中的变分自动编码器(VAE)文件来绘制眼睛等精细细节。
该模型的训练数据集是通过LAION和Common Crawl收集的,包括美学评分为6或更高的LAION-Aesthetics v2.6图像数据集。
Stable Diffusion的重要性在于其易访问性和用户友好性。它能在消费级显卡上运行,首次让任何人都可以下载模型并生成自定义图像。用户能够掌控关键的超参数,例如降噪步骤的数量和施加的噪声程度。而且,制作图像的过程非常简单,不需要任何额外的信息。此外,Stable Diffusion的用户群体十分活跃,因而有大量相关文档和教程可以借鉴。该软件的版本受Creative ML OpenRail-M许可证约束,允许用户使用、修改和重新分发修改后的软件。
Stable Diffusion的主要架构组件包括变分自动编码器、正向和反向扩散、噪声预测器和文本调整。
VAE在Stable Diffusion架构中用于学习训练图像的分布。它将输入图像编码为低维潜在空间,以捕捉其基本特征。这种编码过程使得模型能够通过潜在空间中的采样生成新图像,有效学习如何重现输入数据的多样性和复杂性。VAE对于生成高质量、多样化图像的能力至关重要。
在正向扩散过程中,Stable Diffusion逐渐向图像添加高斯噪声,直到最终图像只剩下随机噪声。从最终充满噪声的图像中无法识别出原始图像。通过对这一过程的精细控制,模型能够学习并理解图像的底层结构。
在反向扩散阶段,Stable Diffusion执行正向过程的逆向操作。从随机噪声出发,该过程逐步消除噪声并合成与提供文本提示相匹配的图像。这一阶段至关重要,因为它利用学习到的表示,引导噪声重构为连贯的视觉内容。通过一系列的迭代,模型微调细节,调整颜色、形状和纹理,使生成的结果与文本描述一致。
噪声预测器是图像降噪的核心。Stable Diffusion使用U-Net模型进行降噪处理。U-Net最初是为生物医学图像分割而设计的卷积神经网络,Stable Diffusion利用了计算机视觉领域开发的残差神经网络(ResNet)模型。U-Net能够有效处理整体结构和细腻细节,使生成的图像高度贴合用户要求。
文本提示的调整是最常见的形式。CLIP分词器分析文本提示中的每个单词,并将数据嵌入到768个值的向量中。最多可以在提示中使用75个令牌。Stable Diffusion通过文本转换器将这些提示从文本编码器传送到U-Net噪声预测器。通过随机数生成器的种子设置,可以在潜在空间中生成不同的图像,确保输出不仅仅是随机的,而是与输入文本描述的主题、内容和风格紧密相关。
在文本转图像生成方面,Stable Diffusion代表了显著的技术进步。相较于其他文本转图像模型,Stable Diffusion开放性更高,并且处理能力要求更低。其功能包括:
微调Stable Diffusion的基础模型,可以使其针对特定需求或风格生成更专门的图像,并进行个性化和细化。常用的微调方式有Dreambooth,你可以使用专注于特定主题(如野生动物)的附加数据集来训练基础模型,使经过微调的模型能更能生成与期望结果高度一致的图像,从而以最小努力达到更准确、更有风格一致性的效果。
这种微调过程将通用基础模型转变为专属模型,能够理解并高保真地复制特定视觉风格或主题。创建微调模型的先进技术(如LoRA局部接受注意力和LyCORIS)进一步缩小模型的焦点,以生成具备高度特定风格的图像。例如,用户可以在视觉效果中注入虚构角色、修改角色服装、向背景添加特定元素,或加入汽车和建筑物等物体。Jake Dahn就展示了如何利用LoRA,通过自己拍摄的图像对模型进行微调,生成各种风格的详细自画像。
XXAI能自动化资源管理和编排,降低训练大规模语言模型(LLM)和其他计算密集型模型所需基础设施的成本。借助XXAI,用户可以根据需求自动运行任意数量的资源密集型实验。在即将到来的产品升级中,XXAI在保持价格不变的情况下(每月低至9.99美元)将基于现有的5个AI模型,继续集成包括Perplexity、Grok 2等在内的13个热门AI模型,从而使用户能够以一体化的方式解决各种问题,进一步提升使用体验和解决能力。这种集成的能力将为用户提供更多的选项和灵活性,使其能够在复杂的机器学习环境中更加得心应手。