La Diffusion Stable est un modèle d'apprentissage profond pour la génération d'images à partir de texte basé sur la technologie de diffusion, introduit pour la première fois en 2022. Cette technologie d'intelligence artificielle générative est le produit phare de Stability AI et est considérée comme faisant partie du boom actuel de l'IA. Qu'est-ce que c'est exactement ? Plongeons dans cette technologie qui transforme le texte en images et explorons ses principes sous-jacents et son importance.
La Diffusion Stable est un cadre d'apprentissage automatique open-source qui génère des images uniques et réalistes basées sur des incitations textuelles et d'image de l'utilisateur. Depuis son lancement en 2022, elle n'a pas seulement généré des images statiques, mais peut également créer des vidéos et des animations. En combinant des autoencodeurs variationnels avec des modèles de diffusion, cette technologie peut convertir du texte en représentations visuelles complexes, représentant une avancée significative dans le domaine de l'IA générative. Les créateurs, designers et développeurs ont trouvé un outil gratuit et ouvert pour la création d'images, leur permettant de créer tout, des photos réalistes aux œuvres d'art de différents styles, avec de simples instructions textuelles.
En tant que modèle de diffusion, la Diffusion Stable diffère de nombreux autres modèles de génération d'images. Idéalement, le modèle de diffusion utilise du bruit gaussien pour encoder les images, puis utilise des prédicteurs de bruit et des processus de diffusion inverse pour reconstruire les images. L'unicité de la Diffusion Stable réside dans son utilisation de l'espace latent plutôt que de l'espace pixel pour les images.
La raison en est qu'une image couleur à résolution 512x512 possède 786 432 valeurs possibles. En revanche, les images compressées utilisées par la Diffusion Stable n'ont que 16 384 valeurs, ce qui réduit les exigences de traitement d'environ 48 fois. Cela signifie que vous pouvez utiliser la Diffusion Stable de manière fluide sur un ordinateur de bureau équipé d'une GPU NVIDIA de 8 Go de RAM. Cet espace latent plus petit est efficace car les images naturelles ne sont pas aléatoires. La Diffusion Stable utilise les fichiers d'autoencodeur variationnel (VAE) dans le décodeur pour rendre des caractéristiques détaillées comme les yeux.
Le jeu de données d'entraînement pour le modèle est collecté à partir de LAION et Common Crawl, y compris le jeu de données d'images LAION-Aesthetics v2.6, qui contient des images avec des scores esthétiques de 6 ou plus.
L'importance de la Diffusion Stable réside dans son accessibilité et sa convivialité. Elle peut fonctionner sur des cartes graphiques de consommation, permettant ainsi à quiconque de télécharger le modèle et de générer des images personnalisées pour la première fois. Les utilisateurs peuvent contrôler des hyperparamètres clés, tels que le nombre d'étapes de débruitage et la quantité de bruit appliquée. De plus, le processus de création d'images est très simple, sans nécessiter d'informations supplémentaires. De plus, la communauté d'utilisateurs de la Diffusion Stable est très active, fournissant de nombreux documents et tutoriels liés à consulter. La version du logiciel est régie par la licence Creative ML OpenRail-M, permettant aux utilisateurs d'utiliser, de modifier et de redistribuer le logiciel modifié.
Les principaux composants architecturaux de la Diffusion Stable comprennent l'autoencodeur variationnel, la diffusion avant et arrière, le prédicteur de bruit et la conditionnement de texte.
Le VAE dans l'architecture de la Diffusion Stable est utilisé pour apprendre la distribution des images d'entraînement. Il encode les images d'entrée dans un espace latent de faible dimension pour capturer leurs caractéristiques essentielles. Ce processus d'encodage permet au modèle de générer de nouvelles images en échantillonnant l'espace latent, apprenant ainsi à reproduire la diversité et la complexité des données d'entrée. Le VAE est crucial pour la capacité du modèle à générer des images de haute qualité et diverses.
Dans le processus de diffusion avant, la Diffusion Stable ajoute progressivement du bruit gaussien à l'image jusqu'à ce que l'image finale consiste uniquement en du bruit aléatoire. L'image d'origine ne peut pas être reconnue à partir de la sortie remplie de bruit. Grâce à un contrôle précis de ce processus, le modèle apprend et comprend la structure sous-jacente des images.
Au cours de la phase de diffusion arrière, la Diffusion Stable effectue l'inverse du processus de diffusion avant. En partant de bruit aléatoire, le processus élimine progressivement le bruit et synthétise une image qui correspond à l'incitatif textuel fourni. Cette phase est cruciale car elle utilise la représentation apprise pour guider la reconstruction du bruit en contenu visuel cohérent. Au travers d'une série d'itérations, le modèle ajuste les détails, les couleurs, les formes et les textures, s'assurant que les résultats générés sont cohérents avec la description textuelle.
Le prédicteur de bruit est essentiel pour le débruitage des images. La Diffusion Stable utilise un modèle U-Net pour ce processus de débruitage. Le U-Net a été conçu à l'origine pour la segmentation d'images biomédicales, et la Diffusion Stable emploie un modèle de réseau neuronal résiduel (ResNet) développé dans le domaine de la vision par ordinateur. Le U-Net peut traiter efficacement à la fois la structure générale et les détails fins, garantissant que les images générées correspondent de près aux exigences de l'utilisateur.
Le conditionnement de texte est la forme la plus courante d'ajustement des incitations. Le tokeniseur CLIP analyse chaque mot dans l'incitation textuelle et intègre les données dans un vecteur de 768 valeurs. Jusqu'à 75 tokens peuvent être utilisés dans l'incitation. La Diffusion Stable transfère ces incitations depuis l'encodeur de texte vers le prédicteur de bruit U-Net via un transformateur de texte. En définissant la graine avec un générateur de nombres aléatoires, différentes images peuvent être générées dans l'espace latent, garantissant que les sorties ne sont pas simplement aléatoires mais étroitement liées aux thèmes, contenus et styles de la description textuelle d'entrée.
En termes de génération de texte à image, la Diffusion Stable représente une avancée technologique significative. Par rapport à d'autres modèles de génération de texte à image, la Diffusion Stable est plus ouverte et nécessite moins de capacités de traitement. Ses fonctions comprennent :
Ajuster le modèle de base de la Diffusion Stable peut lui permettre de générer des images plus spécialisées adaptées à des besoins ou styles spécifiques, permettant la personnalisation et le raffinement. Une méthode couramment utilisée pour ajuster le modèle est Dreambooth, où vous pouvez former le modèle de base en utilisant des ensembles de données supplémentaires centrés sur des thèmes spécifiques (comme la vie sauvage), permettant au modèle ajusté de générer des images qui correspondent étroitement aux résultats attendus avec un effort minimal, atteignant une plus grande précision et cohérence de style.
Ce processus d'ajustement transforme le modèle de base général en un modèle dédié qui peut comprendre et reproduire des styles visuels ou thèmes spécifiques avec une grande fidélité. Des techniques avancées pour créer des modèles ajustés (comme l'attention locale de LoRA et LyCORIS) affinent encore plus le focus du modèle pour générer des images avec des styles très spécifiques. Par exemple, les utilisateurs peuvent injecter des personnages fictifs dans des visuels, modifier les tenues des personnages, ajouter des éléments spécifiques en arrière-plan ou incorporer des objets comme des voitures et des bâtiments. Jake Dahn a démontré comment utiliser LoRA pour ajuster le modèle avec des images qu'il a capturées personnellement, générant des autoportraits détaillés dans divers styles.
XXAI peut automatiser la gestion des ressources et l'orchestration, réduisant le coût de l'infrastructure requise pour former des modèles de langage à grande échelle (LLM) et d'autres modèles gourmands en calcul. Avec XXAI, les utilisateurs peuvent exécuter automatiquement n'importe quel nombre d'expériences gourmandes en ressources à la demande. Dans la prochaine mise à jour de produit, XXAI continuera d'intégrer 13 modèles d'IA populaires, y compris Perplexity et Grok 2, sur la base des 5 modèles d'IA existants tout en maintenant le prix inchangé (aussi bas que 9,99 $ par mois), permettant aux utilisateurs de résoudre divers problèmes de manière intégrée, améliorant encore l'expérience utilisateur et les capacités de résolution de problèmes. Cette capacité intégrée offrira aux utilisateurs davantage d'options et de flexibilité, leur permettant d'être plus agiles dans des environnements complexes d'apprentissage automatique.