Révélation de la Technologie de Diffusion Stable : La Technologie Derrière la Génération d'Images à Partir de Texte

xx
2024-11-08
Share :

La Diffusion Stable est un modèle d'apprentissage profond pour la génération d'images à partir de texte basé sur la technologie de diffusion, introduit pour la première fois en 2022. Cette technologie d'intelligence artificielle générative est le produit phare de Stability AI et est considérée comme faisant partie du boom actuel de l'IA. Qu'est-ce que c'est exactement ? Plongeons dans cette technologie qui transforme le texte en images et explorons ses principes sous-jacents et son importance.

Qu'est-ce que la Diffusion Stable ?

La Diffusion Stable est un cadre d'apprentissage automatique open-source qui génère des images uniques et réalistes basées sur des incitations textuelles et d'image de l'utilisateur. Depuis son lancement en 2022, elle n'a pas seulement généré des images statiques, mais peut également créer des vidéos et des animations. En combinant des autoencodeurs variationnels avec des modèles de diffusion, cette technologie peut convertir du texte en représentations visuelles complexes, représentant une avancée significative dans le domaine de l'IA générative. Les créateurs, designers et développeurs ont trouvé un outil gratuit et ouvert pour la création d'images, leur permettant de créer tout, des photos réalistes aux œuvres d'art de différents styles, avec de simples instructions textuelles. image.png

Comment Fonctionne la Diffusion Stable ?

En tant que modèle de diffusion, la Diffusion Stable diffère de nombreux autres modèles de génération d'images. Idéalement, le modèle de diffusion utilise du bruit gaussien pour encoder les images, puis utilise des prédicteurs de bruit et des processus de diffusion inverse pour reconstruire les images. L'unicité de la Diffusion Stable réside dans son utilisation de l'espace latent plutôt que de l'espace pixel pour les images.

La raison en est qu'une image couleur à résolution 512x512 possède 786 432 valeurs possibles. En revanche, les images compressées utilisées par la Diffusion Stable n'ont que 16 384 valeurs, ce qui réduit les exigences de traitement d'environ 48 fois. Cela signifie que vous pouvez utiliser la Diffusion Stable de manière fluide sur un ordinateur de bureau équipé d'une GPU NVIDIA de 8 Go de RAM. Cet espace latent plus petit est efficace car les images naturelles ne sont pas aléatoires. La Diffusion Stable utilise les fichiers d'autoencodeur variationnel (VAE) dans le décodeur pour rendre des caractéristiques détaillées comme les yeux.

Le jeu de données d'entraînement pour le modèle est collecté à partir de LAION et Common Crawl, y compris le jeu de données d'images LAION-Aesthetics v2.6, qui contient des images avec des scores esthétiques de 6 ou plus.

Pourquoi la Diffusion Stable est-elle Importante ?

L'importance de la Diffusion Stable réside dans son accessibilité et sa convivialité. Elle peut fonctionner sur des cartes graphiques de consommation, permettant ainsi à quiconque de télécharger le modèle et de générer des images personnalisées pour la première fois. Les utilisateurs peuvent contrôler des hyperparamètres clés, tels que le nombre d'étapes de débruitage et la quantité de bruit appliquée. De plus, le processus de création d'images est très simple, sans nécessiter d'informations supplémentaires. De plus, la communauté d'utilisateurs de la Diffusion Stable est très active, fournissant de nombreux documents et tutoriels liés à consulter. La version du logiciel est régie par la licence Creative ML OpenRail-M, permettant aux utilisateurs d'utiliser, de modifier et de redistribuer le logiciel modifié.

Quelle Architecture Utilise la Diffusion Stable ?

Les principaux composants architecturaux de la Diffusion Stable comprennent l'autoencodeur variationnel, la diffusion avant et arrière, le prédicteur de bruit et la conditionnement de texte.

Autoencodeur Variationnel (VAE)

Le VAE dans l'architecture de la Diffusion Stable est utilisé pour apprendre la distribution des images d'entraînement. Il encode les images d'entrée dans un espace latent de faible dimension pour capturer leurs caractéristiques essentielles. Ce processus d'encodage permet au modèle de générer de nouvelles images en échantillonnant l'espace latent, apprenant ainsi à reproduire la diversité et la complexité des données d'entrée. Le VAE est crucial pour la capacité du modèle à générer des images de haute qualité et diverses.

Diffusion Avant

Dans le processus de diffusion avant, la Diffusion Stable ajoute progressivement du bruit gaussien à l'image jusqu'à ce que l'image finale consiste uniquement en du bruit aléatoire. L'image d'origine ne peut pas être reconnue à partir de la sortie remplie de bruit. Grâce à un contrôle précis de ce processus, le modèle apprend et comprend la structure sous-jacente des images.

Diffusion Arrière

Au cours de la phase de diffusion arrière, la Diffusion Stable effectue l'inverse du processus de diffusion avant. En partant de bruit aléatoire, le processus élimine progressivement le bruit et synthétise une image qui correspond à l'incitatif textuel fourni. Cette phase est cruciale car elle utilise la représentation apprise pour guider la reconstruction du bruit en contenu visuel cohérent. Au travers d'une série d'itérations, le modèle ajuste les détails, les couleurs, les formes et les textures, s'assurant que les résultats générés sont cohérents avec la description textuelle.

Prédicteur de Bruit (U-Net)

Le prédicteur de bruit est essentiel pour le débruitage des images. La Diffusion Stable utilise un modèle U-Net pour ce processus de débruitage. Le U-Net a été conçu à l'origine pour la segmentation d'images biomédicales, et la Diffusion Stable emploie un modèle de réseau neuronal résiduel (ResNet) développé dans le domaine de la vision par ordinateur. Le U-Net peut traiter efficacement à la fois la structure générale et les détails fins, garantissant que les images générées correspondent de près aux exigences de l'utilisateur.

Conditionnement de Texte

Le conditionnement de texte est la forme la plus courante d'ajustement des incitations. Le tokeniseur CLIP analyse chaque mot dans l'incitation textuelle et intègre les données dans un vecteur de 768 valeurs. Jusqu'à 75 tokens peuvent être utilisés dans l'incitation. La Diffusion Stable transfère ces incitations depuis l'encodeur de texte vers le prédicteur de bruit U-Net via un transformateur de texte. En définissant la graine avec un générateur de nombres aléatoires, différentes images peuvent être générées dans l'espace latent, garantissant que les sorties ne sont pas simplement aléatoires mais étroitement liées aux thèmes, contenus et styles de la description textuelle d'entrée.

Que Peut Faire la Diffusion Stable ?

En termes de génération de texte à image, la Diffusion Stable représente une avancée technologique significative. Par rapport à d'autres modèles de génération de texte à image, la Diffusion Stable est plus ouverte et nécessite moins de capacités de traitement. Ses fonctions comprennent :

  • Génération de Texte à Image : C'est l'utilisation la plus courante de la Diffusion Stable. Les utilisateurs saisissent simplement des incitatifs textuels pour générer des images et peuvent créer différents effets en ajustant la graine du générateur aléatoire ou en modifiant le calendrier de débruitage.
  • Génération d'Image à Image : En combinant une image d'entrée et des incitatifs textuels, les utilisateurs peuvent générer de nouvelles images basées sur les images existantes, généralement en commençant par un croquis.
  • Création de Graphiques, Illustrations et Logos : Avec des incitatifs divers, les utilisateurs peuvent créer des illustrations et des logos dans divers styles. Bien que les croquis puissent guider la création, la sortie finale peut être imprévisible.
  • Édition et Restauration d'Images : La Diffusion Stable peut également être utilisée pour l'édition et la restauration d'images. Après avoir chargé des images dans un éditeur d'IA, les utilisateurs peuvent couvrir des parties qu'ils souhaitent modifier avec une brosse gomme, puis utiliser des incitatifs générés pour définir des cibles pour l'édition ou le redessin, telles que la restauration de photos anciennes, la suppression d'objets d'images, la modification de caractéristiques de sujet et l'ajout de nouveaux éléments.
  • Création de Vidéos : Avec des fonctionnalités comme Deforum, la Diffusion Stable peut également créer de courts clips vidéo et des animations, ajoutant même différents styles aux films. Créer des animations à partir de photos statiques en simulant des effets de mouvement (comme l'eau qui coule) est une autre application.

Pourquoi Former Votre Propre Modèle ?

Ajuster le modèle de base de la Diffusion Stable peut lui permettre de générer des images plus spécialisées adaptées à des besoins ou styles spécifiques, permettant la personnalisation et le raffinement. Une méthode couramment utilisée pour ajuster le modèle est Dreambooth, où vous pouvez former le modèle de base en utilisant des ensembles de données supplémentaires centrés sur des thèmes spécifiques (comme la vie sauvage), permettant au modèle ajusté de générer des images qui correspondent étroitement aux résultats attendus avec un effort minimal, atteignant une plus grande précision et cohérence de style.

Ce processus d'ajustement transforme le modèle de base général en un modèle dédié qui peut comprendre et reproduire des styles visuels ou thèmes spécifiques avec une grande fidélité. Des techniques avancées pour créer des modèles ajustés (comme l'attention locale de LoRA et LyCORIS) affinent encore plus le focus du modèle pour générer des images avec des styles très spécifiques. Par exemple, les utilisateurs peuvent injecter des personnages fictifs dans des visuels, modifier les tenues des personnages, ajouter des éléments spécifiques en arrière-plan ou incorporer des objets comme des voitures et des bâtiments. Jake Dahn a démontré comment utiliser LoRA pour ajuster le modèle avec des images qu'il a capturées personnellement, générant des autoportraits détaillés dans divers styles. image.png

Utilisez XXAI pour Optimiser Votre Infrastructure d'IA

XXAI peut automatiser la gestion des ressources et l'orchestration, réduisant le coût de l'infrastructure requise pour former des modèles de langage à grande échelle (LLM) et d'autres modèles gourmands en calcul. Avec XXAI, les utilisateurs peuvent exécuter automatiquement n'importe quel nombre d'expériences gourmandes en ressources à la demande. Dans la prochaine mise à jour de produit, XXAI continuera d'intégrer 13 modèles d'IA populaires, y compris Perplexity et Grok 2, sur la base des 5 modèles d'IA existants tout en maintenant le prix inchangé (aussi bas que 9,99 $ par mois), permettant aux utilisateurs de résoudre divers problèmes de manière intégrée, améliorant encore l'expérience utilisateur et les capacités de résolution de problèmes. Cette capacité intégrée offrira aux utilisateurs davantage d'options et de flexibilité, leur permettant d'être plus agiles dans des environnements complexes d'apprentissage automatique.