Enthüllung der Stabilen Diffusionstechnologie: Die Technologie hinter der Bildgenerierung aus Text

xx
2024-11-08
Share :

Die Stabile Diffusion ist ein tiefes Lernmodell zur Bildgenerierung aus Text, das auf der Diffusionstechnologie basiert und erstmals 2022 eingeführt wurde. Diese generative KI-Technologie ist das Flaggschiff von Stability AI und wird als Teil des aktuellen KI-Booms angesehen. Was genau ist das? Lassen Sie uns tiefer in diese Technologie eintauchen, die Text in Bilder verwandelt, und ihre grundlegenden Prinzipien sowie ihre Bedeutung erkunden.

Was ist Stabile Diffusion?

Die Stabile Diffusion ist ein Open-Source-Maschinenlernrahmen, der einzigartige und realistische Bilder basierend auf den Text- und Bildnachrichten des Benutzers generiert. Seit ihrer Einführung im Jahr 2022 hat sie nicht nur statische Bilder erzeugt, sondern kann auch Videos und Animationen erstellen. Durch die Kombination von variationalen Autoencodern mit Diffusionsmodellen kann diese Technologie Text in komplexe visuelle Darstellungen umwandeln, was einen signifikanten Fortschritt im Bereich der generativen KI darstellt. Kreative, Designer und Entwickler haben ein kostenloses und offenes Werkzeug zur Bildproduktion gefunden, das es ihnen ermöglicht, alles zu erstellen, von realistischen Fotos bis hin zu Kunstwerken in verschiedenen Stilen, mit einfachen Textnachrichten. image.png

Wie Funktioniert die Stabile Diffusion?

Als Diffusionsmodell unterscheidet sich die Stabile Diffusion von vielen anderen Bildgenerierungsmodellen. Idealerweise verwendet das Diffusionsmodell gaußschen Rauschen, um Bilder zu kodieren, und nutzt dann Rauschvorhersagen und inverse Diffusionsprozesse, um die Bilder wiederherzustellen. Die Einzigartigkeit der Stabili Diffusion liegt in ihrer Verwendung des latenten Raums anstelle des Pixelraums für die Bilder.

Der Hintergrund dafür ist, dass ein farbiges Bild mit einer Auflösung von 512x512 insgesamt 786.432 mögliche Werte hat. Im Gegensatz dazu haben die komprimierten Bilder, die von der Stabili Diffusion verwendet werden, nur 16.384 Werte, was die Verarbeitungskosten um etwa 48 % reduziert. Das bedeutet, dass Sie die Stabile Diffusion problemlos auf einem Desktop mit einer NVIDIA-GPU mit 8 GB RAM verwenden können. Dieser kleinere latente Raum ist effektiv, weil natürliche Bilder nicht zufällig sind. Die Stabile Diffusion nutzt Datei-Variational Autoencoder (VAE) im Decoder, um detaillierte Merkmale wie Augen zu rendern.

Der Trainingsdatensatz für das Modell wird aus LAION und Common Crawl gesammelt, einschließlich des LAION-Aesthetics v2.6 Bilddatensatzes, der Bilder mit ästhetischen Bewertungen von 6 oder mehr enthält.

Warum Ist Stabile Diffusion Wichtig?

Die Wichtigkeit der Stabile Diffusion liegt in ihrer Zugänglichkeit und Benutzerfreundlichkeit. Sie kann auf Verbrauchergrafikkarten ausgeführt werden, was es jedem ermöglicht, das Modell herunterzuladen und zum ersten Mal benutzerdefinierte Bilder zu generieren. Benutzer können wichtige Hyperparameter wie die Anzahl der Rauschentfernungsstufen und die Menge des angewendeten Rauschens steuern. Außerdem ist der Prozess der Bilderstellung sehr einfach und erfordert keine zusätzlichen Informationen. Darüber hinaus ist die Community der Nutzer von Stabile Diffusion sehr aktiv und bietet viel Dokumentation und Tutorials an, auf die verwiesen werden kann. Die Softwareversion wird durch die Creative ML OpenRail-M-Lizenz geregelt, die es den Nutzern ermöglicht, die Software zu verwenden, zu modifizieren und modifizierte Software weiterzugeben.

Welche Architektur Verwendet die Stabile Diffusion?

Die Hauptarchitekturkomponenten der Stabili Diffusion umfassen den variationalen Autoencoder, die Vorwärts- und Rückwärtsdiffusion, den Rauschvorhersager und die Textbedingungen.

Variationaler Autoencoder (VAE)

Der VAE in der Architektur der Stabili Diffusion wird verwendet, um die Verteilung der Trainingsbilder zu lernen. Er kodiert die Eingabebilder in einen latenten Raum mit niedriger Dimension, um deren wesentliche Merkmale zu erfassen. Dieser Kodierungsprozess ermöglicht es dem Modell, neue Bilder zu generieren, indem es im latenten Raum sampt. Dies ermöglicht es dem Modell, die Vielfalt und Komplexität der Eingabedaten effektiv zu reproduzieren. Der VAE ist entscheidend für die Fähigkeit des Modells, qualitativ hochwertige und vielfältige Bilder zu generieren.

Vorwärtsdiffusion

Im Vorwärtsdiffusionsprozess fügt die Stabile Diffusion schrittweise gaußsches Rauschen zum Bild hinzu, bis das Endbild nur noch aus zufälligem Rauschen besteht. Das Originalbild kann aus der rauschbehafteten Ausgabe nicht erkannt werden. Durch die feine Steuerung dieses Prozesses lernt das Modell und versteht die zugrunde liegende Struktur der Bilder.

Rückwärtsdiffusion

Während der Rückwärtsdiffusionsphase führt die Stabile Diffusion die Umkehrung des Vorwärtsprozesses durch. Ausgehend von zufälligem Rauschen entfernt der Prozess schrittweise das Rauschen und synthetisiert ein Bild, das mit der bereitgestellten Textnachricht übereinstimmt. Diese Phase ist entscheidend, da sie die erlernte Darstellung verwendet, um die Rekonstruktion des Rauschens in kohärenten visuellen Inhalt zu leiten. Durch mehrere Iterationen passt das Modell Details, Farben, Formen und Texturen an und sorgt dafür, dass die generierten Ergebnisse mit der textlichen Beschreibung konsistent sind.

Rauschvorhersager (U-Net)

Der Rauschvorhersager ist entscheidend für das Entfernen von Rauschen aus den Bildern. Die Stabile Diffusion verwendet ein U-Net-Modell für diesen Rauschentfernungsprozess. Das U-Net wurde ursprünglich für die Segmentierung von biomedizinischen Bildern entworfen, und die Stabile Diffusion verwendet ein ResNet-developer Neural Network-Modell. Das U-Net kann sowohl die allgemeine Struktur als auch die feinen Details effektiv handhaben und sicherstellen, dass die generierten Bilder dicht an den Anforderungen des Benutzers liegen.

Textbedingungen

Die Textbedingungen sind die häufigste Form der Anpassung von Anfragen. Der CLIP-Tokenisierer analysiert jedes Wort in der Textnachricht und bettet die Daten in einen 768-dimensionalen Vektor ein. Bis zu 75 Tokens können in der Nachricht verwendet werden. Die Stabile Diffusion überträgt diese Nachrichten vom Textencoder zum Rauschvorhersager U-Net über einen Texttransformator. Indem die Saat mit einem Zufallszahlengenerator gesetzt wird, können unterschiedliche Bilder im latenten Raum generiert werden, und sichergestellt wird, dass die Ausgaben nicht nur zufällig, sondern eng mit den Themen, Inhalten und Stilen der eingehenden textlichen Beschreibung verbunden sind.

Was Kann die Stabile Diffusion Tun?

In Bezug auf die Text-zu-Bild-Generierung stellt die Stabile Diffusion einen signifikanten technologischen Fortschritt dar. Im Vergleich zu anderen Modellen für Text-zu-Bild ist die Stabile Diffusion offener und erfordert geringere Verarbeitungsfähigkeiten. Zu ihren Funktionen zählen:

  • Text-zu-Bild-Generierung: Dies ist die gängigste Nutzung der Stabili Diffusion. Benutzer geben einfach Textnachrichten ein, um Bilder zu generieren, und können unterschiedliche Effekte erzielen, indem sie den Zufallszahlengenerator anpassen oder den Zeitplan zur Rauschentfernung modifizieren.
  • Bild-zu-Bild-Generierung: Durch die Kombination eines Eingabebildes mit Textnachrichten können Benutzer neue Bilder basierend auf bestehenden Bildern generieren, normalerweise mit einem Skizze.
  • Erstellung von Grafiken, Illustrationen und Logos: Mit verschiedenen Nachrichten können Benutzer Illustrationen und Logos in verschiedenen Stilen erstellen. Während Skizzen die Erstellung anleiten können, kann das Endergebnis unvorhersehbar sein.
  • Bildbearbeitung und -wiederherstellung: Die Stabile Diffusion kann auch für die Bearbeitung und Wiederherstellung von Bildern verwendet werden. Nach dem Hochladen von Bildern in einen KI-Editor können Benutzer Bereiche abdecken, die sie ändern möchten, mit einem Radierpinsel, und dann generierte Nachrichten verwenden, um die Ziele für die Bearbeitung oder Neubearbeitung zu definieren, wie z. B. das Wiederherstellen alter Fotos, das Entfernen von Objekten aus Bildern, das Ändern von Merkmalen der Subjekte und das Hinzufügen neuer Elemente.
  • Videogenerierung: Mit Funktionen wie Deforum kann die Stabile Diffusion auch kurze Videoclips und Animationen erstellen, sogar verschiedene Stile auf Filme anwenden. Die Erstellung von Animationen aus statischen Bildern, die Bewegungseffekte simulieren (wie fließendes Wasser), ist eine weitere Anwendung.

Warum Ihr eigenes Modell Trainieren?

Das Anpassen des Basis Modells der Stabili Diffusion kann Ihnen ermöglichen, spezialisierte Bilder zu generieren, die auf bestimmte Bedürfnisse oder Stile zugeschnitten sind, was Anpassung und Verfeinerung ermöglicht. Eine häufig verwendete Methode zur Anpassung des Modells ist Dreambooth, bei der Sie das Basismodell mit zusätzlichen Datensätzen trainieren können, die auf bestimmte Themen (wie Wildtiere) fokussiert sind, sodass das angepasste Modell Bilder generiert, die eng mit den erwarteten Ergebnissen zusammenhängen und dabei nur minimalen Aufwand erfordern, um eine größere Genauigkeit und Konsistenz im Stil zu erzielen.

Dieser Anpassungsprozess verwandelt das allgemeine Basismodell in ein dediziertes Modell, das in der Lage ist, visuelle Stile oder spezifische Themen mit hoher Treue zu verstehen und wiederzugeben. Fortgeschrittene Techniken zur Erstellung von angepassten Modellen (wie lokale Aufmerksamkeit von LoRA und LyCORIS) verfeinern den Fokus des Modells weiter, um Bilder mit sehr spezifischen Stilen zu generieren. Benutzer können beispielsweise fiktive Charaktere in visuellen Darstellungen injizieren, Charakterkostüme ändern, spezifische Elemente in den Hintergrund hinzufügen oder Objekte wie Autos und Gebäude einfügen. Jake Dahn hat demonstriert, wie man LoRA verwenden kann, um das Modell mit persönlichen Bildern anzupassen, um detaillierte Selbstporträts in verschiedenen Stilen zu generieren. image.png

Nutzen Sie XXAI, um Ihre KI-Infrastruktur zu Optimieren

XXAI kann die Ressourcenverwaltung und Orchestrierung automatisieren und die Kosten der Infrastruktur senken, die für das Training großflächiger Sprachmodelle (LLMs) und anderer rechenintensiver Modelle erforderlich ist. Mit XXAI können die Benutzer je nach Bedarf automatisch beliebig viele ressourcenintensive Experimente durchführen. In der nächsten Produktaktualisierung wird XXAI weiterhin 13 beliebte KI-Modelle integrieren, darunter Perplexity und Grok 2, basierend auf den 5 bestehenden KI-Modellen, während der Preis unverändert bleibt (so niedrig wie 9,99 $ pro Monat), sodass die Benutzer verschiedene Probleme integriert lösen können, was die Benutzererfahrung und Kapazitäten zur Problemlösung weiter verbessert. Diese integrierte Fähigkeit bietet den Benutzern mehr Optionen und Flexibilität, sodass sie agiler in komplexen Maschinenlern-Umgebungen sein können.