Die Stabile Diffusion ist ein tiefes Lernmodell zur Bildgenerierung aus Text, das auf der Diffusionstechnologie basiert und erstmals 2022 eingeführt wurde. Diese generative KI-Technologie ist das Flaggschiff von Stability AI und wird als Teil des aktuellen KI-Booms angesehen. Was genau ist das? Lassen Sie uns tiefer in diese Technologie eintauchen, die Text in Bilder verwandelt, und ihre grundlegenden Prinzipien sowie ihre Bedeutung erkunden.
Die Stabile Diffusion ist ein Open-Source-Maschinenlernrahmen, der einzigartige und realistische Bilder basierend auf den Text- und Bildnachrichten des Benutzers generiert. Seit ihrer Einführung im Jahr 2022 hat sie nicht nur statische Bilder erzeugt, sondern kann auch Videos und Animationen erstellen. Durch die Kombination von variationalen Autoencodern mit Diffusionsmodellen kann diese Technologie Text in komplexe visuelle Darstellungen umwandeln, was einen signifikanten Fortschritt im Bereich der generativen KI darstellt. Kreative, Designer und Entwickler haben ein kostenloses und offenes Werkzeug zur Bildproduktion gefunden, das es ihnen ermöglicht, alles zu erstellen, von realistischen Fotos bis hin zu Kunstwerken in verschiedenen Stilen, mit einfachen Textnachrichten.
Als Diffusionsmodell unterscheidet sich die Stabile Diffusion von vielen anderen Bildgenerierungsmodellen. Idealerweise verwendet das Diffusionsmodell gaußschen Rauschen, um Bilder zu kodieren, und nutzt dann Rauschvorhersagen und inverse Diffusionsprozesse, um die Bilder wiederherzustellen. Die Einzigartigkeit der Stabili Diffusion liegt in ihrer Verwendung des latenten Raums anstelle des Pixelraums für die Bilder.
Der Hintergrund dafür ist, dass ein farbiges Bild mit einer Auflösung von 512x512 insgesamt 786.432 mögliche Werte hat. Im Gegensatz dazu haben die komprimierten Bilder, die von der Stabili Diffusion verwendet werden, nur 16.384 Werte, was die Verarbeitungskosten um etwa 48 % reduziert. Das bedeutet, dass Sie die Stabile Diffusion problemlos auf einem Desktop mit einer NVIDIA-GPU mit 8 GB RAM verwenden können. Dieser kleinere latente Raum ist effektiv, weil natürliche Bilder nicht zufällig sind. Die Stabile Diffusion nutzt Datei-Variational Autoencoder (VAE) im Decoder, um detaillierte Merkmale wie Augen zu rendern.
Der Trainingsdatensatz für das Modell wird aus LAION und Common Crawl gesammelt, einschließlich des LAION-Aesthetics v2.6 Bilddatensatzes, der Bilder mit ästhetischen Bewertungen von 6 oder mehr enthält.
Die Wichtigkeit der Stabile Diffusion liegt in ihrer Zugänglichkeit und Benutzerfreundlichkeit. Sie kann auf Verbrauchergrafikkarten ausgeführt werden, was es jedem ermöglicht, das Modell herunterzuladen und zum ersten Mal benutzerdefinierte Bilder zu generieren. Benutzer können wichtige Hyperparameter wie die Anzahl der Rauschentfernungsstufen und die Menge des angewendeten Rauschens steuern. Außerdem ist der Prozess der Bilderstellung sehr einfach und erfordert keine zusätzlichen Informationen. Darüber hinaus ist die Community der Nutzer von Stabile Diffusion sehr aktiv und bietet viel Dokumentation und Tutorials an, auf die verwiesen werden kann. Die Softwareversion wird durch die Creative ML OpenRail-M-Lizenz geregelt, die es den Nutzern ermöglicht, die Software zu verwenden, zu modifizieren und modifizierte Software weiterzugeben.
Die Hauptarchitekturkomponenten der Stabili Diffusion umfassen den variationalen Autoencoder, die Vorwärts- und Rückwärtsdiffusion, den Rauschvorhersager und die Textbedingungen.
Der VAE in der Architektur der Stabili Diffusion wird verwendet, um die Verteilung der Trainingsbilder zu lernen. Er kodiert die Eingabebilder in einen latenten Raum mit niedriger Dimension, um deren wesentliche Merkmale zu erfassen. Dieser Kodierungsprozess ermöglicht es dem Modell, neue Bilder zu generieren, indem es im latenten Raum sampt. Dies ermöglicht es dem Modell, die Vielfalt und Komplexität der Eingabedaten effektiv zu reproduzieren. Der VAE ist entscheidend für die Fähigkeit des Modells, qualitativ hochwertige und vielfältige Bilder zu generieren.
Im Vorwärtsdiffusionsprozess fügt die Stabile Diffusion schrittweise gaußsches Rauschen zum Bild hinzu, bis das Endbild nur noch aus zufälligem Rauschen besteht. Das Originalbild kann aus der rauschbehafteten Ausgabe nicht erkannt werden. Durch die feine Steuerung dieses Prozesses lernt das Modell und versteht die zugrunde liegende Struktur der Bilder.
Während der Rückwärtsdiffusionsphase führt die Stabile Diffusion die Umkehrung des Vorwärtsprozesses durch. Ausgehend von zufälligem Rauschen entfernt der Prozess schrittweise das Rauschen und synthetisiert ein Bild, das mit der bereitgestellten Textnachricht übereinstimmt. Diese Phase ist entscheidend, da sie die erlernte Darstellung verwendet, um die Rekonstruktion des Rauschens in kohärenten visuellen Inhalt zu leiten. Durch mehrere Iterationen passt das Modell Details, Farben, Formen und Texturen an und sorgt dafür, dass die generierten Ergebnisse mit der textlichen Beschreibung konsistent sind.
Der Rauschvorhersager ist entscheidend für das Entfernen von Rauschen aus den Bildern. Die Stabile Diffusion verwendet ein U-Net-Modell für diesen Rauschentfernungsprozess. Das U-Net wurde ursprünglich für die Segmentierung von biomedizinischen Bildern entworfen, und die Stabile Diffusion verwendet ein ResNet-developer Neural Network-Modell. Das U-Net kann sowohl die allgemeine Struktur als auch die feinen Details effektiv handhaben und sicherstellen, dass die generierten Bilder dicht an den Anforderungen des Benutzers liegen.
Die Textbedingungen sind die häufigste Form der Anpassung von Anfragen. Der CLIP-Tokenisierer analysiert jedes Wort in der Textnachricht und bettet die Daten in einen 768-dimensionalen Vektor ein. Bis zu 75 Tokens können in der Nachricht verwendet werden. Die Stabile Diffusion überträgt diese Nachrichten vom Textencoder zum Rauschvorhersager U-Net über einen Texttransformator. Indem die Saat mit einem Zufallszahlengenerator gesetzt wird, können unterschiedliche Bilder im latenten Raum generiert werden, und sichergestellt wird, dass die Ausgaben nicht nur zufällig, sondern eng mit den Themen, Inhalten und Stilen der eingehenden textlichen Beschreibung verbunden sind.
In Bezug auf die Text-zu-Bild-Generierung stellt die Stabile Diffusion einen signifikanten technologischen Fortschritt dar. Im Vergleich zu anderen Modellen für Text-zu-Bild ist die Stabile Diffusion offener und erfordert geringere Verarbeitungsfähigkeiten. Zu ihren Funktionen zählen:
Das Anpassen des Basis Modells der Stabili Diffusion kann Ihnen ermöglichen, spezialisierte Bilder zu generieren, die auf bestimmte Bedürfnisse oder Stile zugeschnitten sind, was Anpassung und Verfeinerung ermöglicht. Eine häufig verwendete Methode zur Anpassung des Modells ist Dreambooth, bei der Sie das Basismodell mit zusätzlichen Datensätzen trainieren können, die auf bestimmte Themen (wie Wildtiere) fokussiert sind, sodass das angepasste Modell Bilder generiert, die eng mit den erwarteten Ergebnissen zusammenhängen und dabei nur minimalen Aufwand erfordern, um eine größere Genauigkeit und Konsistenz im Stil zu erzielen.
Dieser Anpassungsprozess verwandelt das allgemeine Basismodell in ein dediziertes Modell, das in der Lage ist, visuelle Stile oder spezifische Themen mit hoher Treue zu verstehen und wiederzugeben. Fortgeschrittene Techniken zur Erstellung von angepassten Modellen (wie lokale Aufmerksamkeit von LoRA und LyCORIS) verfeinern den Fokus des Modells weiter, um Bilder mit sehr spezifischen Stilen zu generieren. Benutzer können beispielsweise fiktive Charaktere in visuellen Darstellungen injizieren, Charakterkostüme ändern, spezifische Elemente in den Hintergrund hinzufügen oder Objekte wie Autos und Gebäude einfügen. Jake Dahn hat demonstriert, wie man LoRA verwenden kann, um das Modell mit persönlichen Bildern anzupassen, um detaillierte Selbstporträts in verschiedenen Stilen zu generieren.
XXAI kann die Ressourcenverwaltung und Orchestrierung automatisieren und die Kosten der Infrastruktur senken, die für das Training großflächiger Sprachmodelle (LLMs) und anderer rechenintensiver Modelle erforderlich ist. Mit XXAI können die Benutzer je nach Bedarf automatisch beliebig viele ressourcenintensive Experimente durchführen. In der nächsten Produktaktualisierung wird XXAI weiterhin 13 beliebte KI-Modelle integrieren, darunter Perplexity und Grok 2, basierend auf den 5 bestehenden KI-Modellen, während der Preis unverändert bleibt (so niedrig wie 9,99 $ pro Monat), sodass die Benutzer verschiedene Probleme integriert lösen können, was die Benutzererfahrung und Kapazitäten zur Problemlösung weiter verbessert. Diese integrierte Fähigkeit bietet den Benutzern mehr Optionen und Flexibilität, sodass sie agiler in komplexen Maschinenlern-Umgebungen sein können.