La Diffusione Stabile è un modello di apprendimento profondo per la generazione di immagini da testo basato sulla tecnologia di diffusione, introdotto per la prima volta nel 2022. Questa tecnologia di intelligenza artificiale generativa è il prodotto di punta di Stability AI ed è considerata parte del boom attuale dell'IA. Cos'è esattamente? Approfondiamo questa tecnologia che trasforma il testo in immagini e esploriamo i suoi principi fondamentali e la sua importanza.
La Diffusione Stabile è un framework di apprendimento automatico open-source che genera immagini uniche e realistiche basate sugli input testuali e visivi dell'utente. Dalla sua introduzione nel 2022, non ha solo generato immagini statiche, ma può anche creare video e animazioni. Combinando autoencoder variationali con modelli di diffusione, questa tecnologia può convertire il testo in rappresentazioni visive complesse, rappresentando un significativo passo avanti nel campo dell'IA generativa. Creatori, designer e sviluppatori hanno trovato uno strumento gratuito e aperto per la creazione di immagini, consentendo di realizzare tutto, dalle foto realistiche alle opere d'arte di diversi stili, con semplici istruzioni testuali.
In quanto modello di diffusione, la Diffusione Stabile si distingue da molti altri modelli di generazione di immagini. Idealmente, il modello di diffusione utilizza rumore gaussiano per codificare le immagini, quindi utilizza predittori di rumore e processi di diffusione inversa per ricostruire le immagini. L'unicità della Diffusione Stabile risiede nel suo utilizzo dello spazio latente anziché dello spazio pixel per le immagini.
Il motivo per cui ciò avviene è che un'immagine a colori con una risoluzione di 512x512 ha 786.432 valori possibili. Al contrario, le immagini compresse utilizzate dalla Diffusione Stabile hanno solo 16.384 valori, riducendo così i requisiti di elaborazione di circa 48 volte. Questo significa che puoi utilizzare la Diffusione Stabile senza problemi su un computer desktop dotato di una GPU NVIDIA con 8 GB di RAM. Questo spazio latente più piccolo è efficace perché le immagini naturali non sono casuali. La Diffusione Stabile utilizza file di autoencoder variationali (VAE) nel decoder per rendere caratteristiche dettagliate come gli occhi.
Il set di dati di addestramento per il modello è raccolto da LAION e Common Crawl, incluso il dataset di immagini LAION-Aesthetics v2.6, che contiene immagini con punteggi estetici superiori a 6.
L'importanza della Diffusione Stabile risiede nella sua accessibilità e facilità d'uso. Può funzionare su schede grafiche di consumo, consentendo a chiunque di scaricare il modello e generare immagini personalizzate per la prima volta. Gli utenti possono controllare parametri chiave, come il numero di passaggi di denoising e la quantità di rumore applicato. Inoltre, il processo di creazione di immagini è molto semplice, senza richiedere informazioni aggiuntive. Inoltre, la comunità di utenti della Diffusione Stabile è molto attiva, fornendo una vasta gamma di documentazione e tutorial a cui fare riferimento. La versione del software è regolata dalla licenza Creative ML OpenRail-M, che consente agli utenti di utilizzare, modificare e ridistribuire il software modificato.
I principali componenti architetturali della Diffusione Stabile includono l'autoencoder variational, la diffusione in avanti e all'indietro, il predittore di rumore e il condizionamento del testo.
Il VAE nell'architettura della Diffusione Stabile viene utilizzato per apprendere la distribuzione delle immagini di addestramento. Esso codifica le immagini di input in uno spazio latente a bassa dimensione per catturare le loro caratteristiche essenziali. Questo processo di codifica consente al modello di generare nuove immagini campionando dallo spazio latente, apprendendo a riprodurre la diversità e la complessità dei dati di input. Il VAE è cruciale per la capacità del modello di generare immagini di alta qualità e diversificate.
Nel processo di diffusione in avanti, la Diffusione Stabile aggiunge gradualmente rumore gaussiano all'immagine fino a quando l'immagine finale non consiste esclusivamente in rumore casuale. L'immagine originale non può essere riconosciuta a partire dall'output pieno di rumore. Grazie a un controllo preciso di questo processo, il modello apprende e comprende la struttura sottostante delle immagini.
Durante la fase di diffusione all'indietro, la Diffusione Stabile compie l'inverso del processo di diffusione in avanti. Partendo da rumore casuale, il processo rimuove gradualmente il rumore e sintetizza un'immagine che corrisponde all'invito testuale fornito. Questa fase è cruciale, poiché utilizza la rappresentazione appresa per guidare la ricostruzione del rumore in contenuto visivo coerente. Attraverso una serie di iterazioni, il modello aggiusta dettagli, colori, forme e texture, assicurando che i risultati generati siano coerenti con la descrizione testuale.
Il predittore di rumore è fondamentale per la denoising delle immagini. La Diffusione Stabile utilizza un modello U-Net per questo processo di denoising. Il U-Net è stato originariamente progettato per la segmentazione di immagini biomediche, e la Diffusione Stabile impiega un modello di rete neurale residuale (ResNet) sviluppato nel campo della visione artificiale. Il U-Net può gestire sia la struttura generale che i dettagli fini, garantendo che le immagini generate corrispondano da vicino alle esigenze dell'utente.
Il condizionamento testuale è la forma più comune di adattamento degli inviti. Il tokenizzatore CLIP analizza ogni parola nell'invito testuale e incorpora i dati in un vettore di 768 valori. Fino a 75 token possono essere utilizzati nell'invito. La Diffusione Stabile trasferisce questi inviti dall'encoder di testo al predittore di rumore U-Net tramite un trasformatore di testo. Definendo il seme con un generatore di numeri casuali, possono essere generate immagini diverse nello spazio latente, assicurando che le uscite non siano semplicemente casuali, ma siano strettamente correlate ai temi, contenuti e stili della descrizione testuale di input.
In termini di generazione di testo in immagine, la Diffusione Stabile rappresenta un significativo avanzamento tecnologico. Rispetto ad altri modelli di generazione di testo in immagine, la Diffusione Stabile è più aperta e richiede minori capacità di elaborazione. Le sue funzioni includono:
Adattare il modello di base della Diffusione Stabile può consentire la generazione di immagini più specializzate, adeguate a esigenze o stili specifici, permettendo personalizzazione e raffinamento. Un metodo comunemente usato per adattare il modello è Dreambooth, in cui puoi addestrare il modello di base utilizzando set di dati aggiuntivi focalizzati su temi specifici (come la fauna selvatica), consentendo al modello adattato di generare immagini che si allineano strettamente con i risultati attesi con uno sforzo minimo, raggiungendo una maggiore precisione e coerenza nello stile.
Questo processo di adattamento trasforma il modello base generale in un modello dedicato che può comprendere e riprodurre stili visivi o temi specifici con elevata fedeltà. Tecniche avanzate per creare modelli adattati (come l'attenzione locale di LoRA e LyCORIS) affinano ulteriormente il focus del modello per generare immagini con stili molto specifici. Ad esempio, gli utenti possono iniettare personaggi di fantasia in rappresentazioni visive, modificare i costumi dei personaggi, aggiungere elementi specifici sullo sfondo o incorporare oggetti come auto ed edifici. Jake Dahn ha dimostrato come utilizzare LoRA per adattare il modello con immagini che ha catturato personalmente, generando autoritratti dettagliati in diversi stili.
XXAI può automatizzare la gestione delle risorse e l'orchestrazione, riducendo i costi dell'infrastruttura necessaria per addestrare modelli di linguaggio su larga scala (LLM) e altri modelli intensivi di calcolo. Con XXAI, gli utenti possono eseguire automaticamente un numero qualsiasi di esperimenti intensivi di risorse su richiesta. Nella prossima aggiornamento del prodotto, XXAI continuerà a integrare 13 modelli di IA popolari, tra cui Perplexity e Grok 2, basandosi sui 5 modelli di IA esistenti, mantenendo il prezzo invariato (così basso come 9,99 $ al mese), consentendo agli utenti di risolvere vari problemi in modo integrato, migliorando ulteriormente l'esperienza dell'utente e le capacità di risoluzione dei problemi. Questa capacità integrata offrirà agli utenti più opzioni e flessibilità, consentendo loro di essere più agili in ambienti complessi di apprendimento automatico.