稳定扩散技术揭秘:文本到图像生成背后的技术

xx
2024-11-08
Share :

Stable Diffusion是一种基于扩散技术的深度学习文本转图像模型,首次亮相于2022年。这款生成式人工智能技术是Stability AI的旗舰产品,被认为是当前人工智能热潮的一部分。它究竟是什么?让我们一起深入探讨这项将文字转化为图像的技术,看看它背后的工作原理和重要性。

什么是Stable Diffusion?

Stable Diffusion是一个开源的机器学习框架,能够根据用户的文本和图像提示生成独特而真实的图像。自2022年推出以来,它不仅可以生成静态图像,还可以用来创建视频和动画。通过结合变分自动编码器与扩散模型,这项技术能够将文字转换为复杂的视觉表现,代表了生成式人工智能领域的重大进步。创意者、设计师和开发者都找到了一个免费、开放的图像创作工具,只需输入简单的文本提示,便能创作出从写实照片到各种风格的艺术作品。 image.png

Stable Diffusion如何运作?

作为一种扩散模型,Stable Diffusion与许多其他的图像生成模型有所不同。理想状态下,该扩散模型使用高斯噪声对图像进行编码,然后利用噪声预测器和反向扩散过程重现图像。Stable Diffusion的独特之处在于,它不在使用图像的像素空间,而是采用降低清晰度的潜在空间。

其背后的原因在于,分辨率为512x512的彩色图像具有786,432个可能的值。而Stable Diffusion使用的压缩图像仅有16,384个值,减少了约48倍的处理需求。这意味着你可以在一台配备8GB RAM的NVIDIA GPU的台式机上流畅使用Stable Diffusion。更小的潜在空间之所以有效,是因为自然图像并非随机的。Stable Diffusion利用解码器中的变分自动编码器(VAE)文件来绘制眼睛等精细细节。

该模型的训练数据集是通过LAION和Common Crawl收集的,包括美学评分为6或更高的LAION-Aesthetics v2.6图像数据集。

为什么Stable Diffusion如此重要?

Stable Diffusion的重要性在于其易访问性和用户友好性。它能在消费级显卡上运行,首次让任何人都可以下载模型并生成自定义图像。用户能够掌控关键的超参数,例如降噪步骤的数量和施加的噪声程度。而且,制作图像的过程非常简单,不需要任何额外的信息。此外,Stable Diffusion的用户群体十分活跃,因而有大量相关文档和教程可以借鉴。该软件的版本受Creative ML OpenRail-M许可证约束,允许用户使用、修改和重新分发修改后的软件。

Stable Diffusion使用何种架构?

Stable Diffusion的主要架构组件包括变分自动编码器、正向和反向扩散、噪声预测器和文本调整。

**变分自动编码器(VAE) **

VAE在Stable Diffusion架构中用于学习训练图像的分布。它将输入图像编码为低维潜在空间,以捕捉其基本特征。这种编码过程使得模型能够通过潜在空间中的采样生成新图像,有效学习如何重现输入数据的多样性和复杂性。VAE对于生成高质量、多样化图像的能力至关重要。

正向扩散

在正向扩散过程中,Stable Diffusion逐渐向图像添加高斯噪声,直到最终图像只剩下随机噪声。从最终充满噪声的图像中无法识别出原始图像。通过对这一过程的精细控制,模型能够学习并理解图像的底层结构。

**反向扩散 **

在反向扩散阶段,Stable Diffusion执行正向过程的逆向操作。从随机噪声出发,该过程逐步消除噪声并合成与提供文本提示相匹配的图像。这一阶段至关重要,因为它利用学习到的表示,引导噪声重构为连贯的视觉内容。通过一系列的迭代,模型微调细节,调整颜色、形状和纹理,使生成的结果与文本描述一致。

噪声预测器(U-Net)

噪声预测器是图像降噪的核心。Stable Diffusion使用U-Net模型进行降噪处理。U-Net最初是为生物医学图像分割而设计的卷积神经网络,Stable Diffusion利用了计算机视觉领域开发的残差神经网络(ResNet)模型。U-Net能够有效处理整体结构和细腻细节,使生成的图像高度贴合用户要求。

**文本调整 **

文本提示的调整是最常见的形式。CLIP分词器分析文本提示中的每个单词,并将数据嵌入到768个值的向量中。最多可以在提示中使用75个令牌。Stable Diffusion通过文本转换器将这些提示从文本编码器传送到U-Net噪声预测器。通过随机数生成器的种子设置,可以在潜在空间中生成不同的图像,确保输出不仅仅是随机的,而是与输入文本描述的主题、内容和风格紧密相关。

Stable Diffusion可执行哪些操作?

在文本转图像生成方面,Stable Diffusion代表了显著的技术进步。相较于其他文本转图像模型,Stable Diffusion开放性更高,并且处理能力要求更低。其功能包括:

  • 文本转图像生成:这是Stable Diffusion最常见的使用方式。用户只需输入文本提示,便可生成图像,并可以通过调整随机生成器的种子数或更改降噪时间表创建不同的效果。
  • 图像转图像生成:结合输入图片和文本提示,用户可以根据现有图像生成新的图像,典型的场景是通过草图进行创作。
  • 创作图形、插图和徽标:凭借多样的提示,用户能够创作出各种风格的插画和徽标。虽然可以通过草图指导创作,但最终输出难以预料。
  • 图像编辑与修版:Stable Diffusion还可以用于图像编辑和修复。使用AI编辑器加载图片后,用户可以通过橡皮擦画笔遮住想要修改的部分,之后用生成提示定义目标进行编辑或重绘,举例来说,可以修复老照片、删除图像中的对象、改变主体特征以及添加新元素。
  • 视频创作:借助于如Deforum等功能,Stable Diffusion也可以创作短视频片段和动画,甚至为电影增添不同的风格。通过营造运动印象(如流水)为静态照片制作动画也是其一项应用。

为什么要训练自己的模型?

微调Stable Diffusion的基础模型,可以使其针对特定需求或风格生成更专门的图像,并进行个性化和细化。常用的微调方式有Dreambooth,你可以使用专注于特定主题(如野生动物)的附加数据集来训练基础模型,使经过微调的模型能更能生成与期望结果高度一致的图像,从而以最小努力达到更准确、更有风格一致性的效果。

这种微调过程将通用基础模型转变为专属模型,能够理解并高保真地复制特定视觉风格或主题。创建微调模型的先进技术(如LoRA局部接受注意力和LyCORIS)进一步缩小模型的焦点,以生成具备高度特定风格的图像。例如,用户可以在视觉效果中注入虚构角色、修改角色服装、向背景添加特定元素,或加入汽车和建筑物等物体。Jake Dahn就展示了如何利用LoRA,通过自己拍摄的图像对模型进行微调,生成各种风格的详细自画像。image.png

使用XXAI优化您的 AI 基础设施

XXAI能自动化资源管理和编排,降低训练大规模语言模型(LLM)和其他计算密集型模型所需基础设施的成本。借助XXAI,用户可以根据需求自动运行任意数量的资源密集型实验。在即将到来的产品升级中,XXAI在保持价格不变的情况下(每月低至9.99美元)将基于现有的5个AI模型,继续集成包括Perplexity、Grok 2等在内的13个热门AI模型,从而使用户能够以一体化的方式解决各种问题,进一步提升使用体验和解决能力。这种集成的能力将为用户提供更多的选项和灵活性,使其能够在复杂的机器学习环境中更加得心应手。