Installare su PC modelli generativi di immagini con IA Stable Diffusion gratuiti

Programmi gratuiti da scaricare per generare immagini tramite IA da PC o Cloud tramite modello Stable Diffusion e siti dove trovare modelli e prompt

Tutti ne parlano, tutti le provano, ma come funziona veramente la generazione di immagini tramite IA? Perchè un conto è andare su uno dei numerosi siti che creano immagini e chiedere di vedere un tramonto o un paesaggio o una persona a caso, tutt'altra questione invece è generare un set di immagini simili o consistenti, che raffigurano magari lo stesso soggetto.

Inoltre, altra domanda che sorge spontanea ed anche più pratica, possiamo generare immagini nuove, di fantasia o realistiche, senza usare servizi esterni, ma solo usando il nostro PC e magari anche gratuitamente senza i crediti e le varie limitazioni e censure?

Se scrivo questo articolo è chiaro che possiamo generare tutte le immagini che vogliamo, anche consistenti, dal nostro PC usando modelli di generazione liberi ed open source.

Premessa

Prima di arrivare a come farlo, però, è davvero necessario capire due o tre concetti per sapere cosa stiamo facendo, altrimenti si va solo a usare uno strumento a caso che non darà mai i risultati attesi o sperati. Sarà un discorso super sintetico, essenziale.

Quindi, riprendendo il discorso della guida per installare una IA sul PC, se per le chat testuali è necessario solo un modello linguistico o LLM, per la GenAI o intelligenza artificiale generativa, ci serve un modello di deep Learning (apprendimento profondo), testo-immagine.

Esempi di questi modelli testo immagine sono i famosi DALL-E di Open AI, il primo ad essere uscito, poi Midjourney, di cui parlai diffusamente tempo fa, Grock di X, Imagen di Google e, sopratutto, il più importante per tutti noi, Stable Diffusion.

Stable Diffusion, la cui storia e funzionamento si può leggere su Wikipedia è il modello open source gratuito di diffusione latente testo-immagine da Stability AI che tutti possono utilizzare liberamente. Stable Diffusiond è anche un modello più leggero rispetto DALL-E e Midjourney, installabile sul proprio PC ed utilizzato dalla stragrande maggioranza di siti e applicazioni web che offrono un servizio di generazione immagini.

Requisiti di Stable Diffusion su PC

Ringraziando quindi i creatori di Stable Diffusion, rimangono due problemi per chi vuole giocare con l'IA generativa.

Il primo è il costo in termini di memoria video: per creare immagini tramite IA è necessario un PC con almeno, per Stable Diffusion, 12 GB di memoria VRAM, quella della scheda video. Pertanto, se si vuole davvero fare tutto in casa, sarà necessario comprare una scheda video NVIDIA GeForce con molta VRAM, almeno 12 GB, che come visto costa minimo 600 Euro (e nonostante questa spesa, avremo proprio il minimo necessario). Per fare prove possono anche bastare 6GB di VRAM, ma comunque questo problema si può risolvere facilmente anche senza comprare nulla, usando il Cloud, come vedremo tra poco.

Il secondo problema è legato all'apprendimento dell'IA. In grande sintesi, se noi installiamo il software e poi chiediamo di creare l'immagine di una ragazza, questa appare con un certo aspetto. La seconda volta apparirà con un aspetto tutto diverso ed anzi, forse apparirà come un cartone animato o come figura digitale in 3D. In sostanza, bisogna dare un controllo all'IA per fare in modo che le immagini siano dello stesso tipo. Per risolvere questo ci vuole solo un po' di pazienza per capire ed usare gli strumenti.

Altri requisiti sono puramente software. Il PC deve avere installato l'inteprete Python e poi lo strumento Git

Scaricare e Installare Stable Diffusion su PC

Ci sono tre programmi principali per installare l'IA di Stable Diffusion sul proprio PC, tutti e tre open source e dal funzionamento simile, con diverse modalità di installazione e configurazione. Questi sono:

AUTOMATIC1111 o A1111, disponibile per Mac e Windows oltre che su cloud. Guida e istruzioni d'uso sono sul sito StableDiffusion.art.
Fooocus, programma simile per Windows e Linux, che può essere scaricato da Github dove sono presenti tutte le istruzioni. Fooocus è piuttosto semplice da usare perchè support anche la generazione immagini da immagine, quindi si potrà caricare una propria foto o fare face swap.
ComfyUI, che non è solo il più potente dei programmi ma anche il più semplice, anche perchè di questo software c'è un pacchetto per Windows che ha tutto incluso, quindi non sarà richiesto alcun comando di configurazione e potrà essere utilizzato immediatamente. Se si ha un PC con scheda grafica NVIDIA, si può infatti scaricare il programma ComfyUI_windows_portable_nvidia.7z dalla pagina delle release, che è solo da estrarre ed eseguire.

Come si potrebbe notare dalle pagine web di questi programmi, se non si ha un PC abbastanza potente o se non si vuol perdere troppo tempo a procedere con installazione manuale, è possibile avviarli nel cloud grazie alla piattaforma Google Colab. Colab è, sostanzialmente, un servizio Google che permette di collegarsi e prendere in prestito un server di Google con 16 GB di VRAM in cui eseguire comandi Python. L'accesso richiede solo un account Google Drive ed è gratuito per un certo periodo di tempo. Su Collab si possono quindi avviare i programmi (premendo sul tasto Play accanto alle righe di comando):

ComfyUI si può anche eseguire su cloud, completo di modelli e checkpoint, dal sito RunComfy.com, che permette di prendere in prestito una macchina virtuale con 16 GB di VRAM gratuitamente oppure anche a noleggio, senza abbonamenti, pagando solo per il tempo che si utilizza o per più memoria.

Aggiungere i modelli o checkpoint

Qualsiasi programma utilizziamo, io consiglio ComfyUI o Fooocus, per generare immagini è necessario caricare i cosidetti checkpoint, ossia i modelli AI che non sono inclusi. Stable Diffusion è uno di questi modelli AI, ma ne esistono diversi altri. Questi modelli AI o checkpoint sono dei file con formato .safetensors e vanno scaricati e posizionati nella cartella dei modelli (aprire la cartella del programma e poi aprire il percorso models/checkpoint e copiare li i file .safetensors).

I modelli safetensors si possono scaricare dal sito HuggingFace che li riunisce tutti, oppure anche sul sito Civit.ai che è meno tecnico e completo, ma anche più semplice da navigare e fare ricerche. Per esempio, si può scaricare Stable Diffusion XL 1.0 (nella pagina andare su File and versions per trovare i download).

Come si potrà notare, quello delle IA Generative di immagini è un mondo terribilmente vasto, dove è facile fare prove, ma richiede di accumulare molta esperienza se si vuol fare sul serio. Per iniziare, io consiglierei, se si vogliono fare immagini realistiche come fotografie, di scaricare il modello Juggernaut XL su Civitai basato su SD XL. Se si vogliono creare immagini Anime o in grafica 3D o qualsiasi altro tipo, si potrà scaricare il checkpoint desiderato sempre da Civitai o da Huggingface.

Il discorso sui modelli non finisce qui però. Dopo le prime prove si sentirà come se il modello andasse a caso e non rispettasse il prompt. Per questo motivo esistono i cosidetti LORA (Low-Rank Adaptation), ossia dei sottomodelli che limitano la varietà della creazione di immagini in modo da poter definire meglio cosa vogliamo e necessari a creare immagini consistenti. Per capire meglio la storia, possiamo pensare i LORA come dei diversi filtri di fotografia. Ad esempio, se volessimo creare le immagini di una ragazza bellissima e con pelle perfetta, si potrà scaricare il LORA adatto (Realism); se volessimo un ottenere immagini di una persona famosa, come Billie Eilish molto di moda, allora si dovrà scaricare il LORA. Civitai ha una grande raccolta di LORA che possono essere cercati e scaricati gratuitamente.

Anche noi possiamo creare un LORA tramite il training (in sostanza si devono caricare 50 o 60 foto dello stesso soggetto o dettaglio) che può essere fatto anche online su Civit.ai (anche se bisognerà comprare almeno 5 Euro di crediti).

Attenzione anche al concetto dei Workflow, che su ComfyUI sono rappresentati come dei diagrammi di flusso. I workflow sono i passaggi che deve fare l'algoritmo (attraverso checkpoint, LORA e tanti altri parametri) per generare l'immagine e possono davvero essere complessi. Sul sito Runcomfy.com si possono scaricare tanti workflow pronti.

Stable Diffusion online

Chi non ha un PC con 12 GB di VRAM, può provare questi programmi, ma la generazione di immagini sarà davvero lenta. Per fortuna ci sono i servizi online. Adesso, di servizi online che integrano Stable Diffusion ce ne sono davvero tantissimi. Questi non fanno altro che caricare sui loro server il programma open source, per esempio ComfyUI, ben configurato con Checkpoint e LORA, chiedendo abbonamenti.

Abbiamo fatto una piccola lista dei migliori siti per generare immagini tramite IA gratuitamente in un altro articolo.

Dalle ricerche fatte ho trovato come migliori in assoluto i siti Civit.ai e Tensor.art siano i migliori, perchè sono come delle versioni online di ComfyUI, completi di tutti i checkpoint e LORA più usati e perchè, in termini di consumo crediti, sono tra i più generosi e possono essere utilizzati gratuitamente per fare tante prove e non solo 5 o 10 immagini.

Flux

Due parole anche su Flux di Black Forest Lab, un altro modello generativo IA Text-to-Image open source, simile a Stable Diffusion, ma più recente e con una qualità superiore. Nei siti citati sopra si può provare a creare immagini tramite Flux e confrontare quelle generate tramite SD XL o SD 1.5. Anche se migliore, Flux è però più "costoso" sia in termini di memoria video (sul proprio PC servono almeno 16 GB di VRAM per Flux) sia in termini di prezzo dei servizi online.

Il modo più semplice di provare Flux gratis è dal sito Hugging Face. Premendo su Flux.1 Dev si apre la pagina dove è possibile scrivere il prompt o caricare un'immagine per ottenerne una nuova.

Scrittura del testo o prompt

Tanta roba in questo articolo ed immagino chi si è interessato quante altre ricerche di guide farà, comunque sia, se siamo riusciti a configurare il programma sul PC o se ci siamo iscritti ad un servizio online per fare prima, adesso arriva la parte più difficile: la scrittura del prompt. Già, perchè per generare un'immagine ben fatta, realistica o di fantasia, è necessario descriverla tutti i dettagli nel prompt, altrimenti verrà male o non accurata.

In questo ci viene in aiuto l'IA normale, ChatGPT oppure, meglio ancora, Google Gemini che funziona bene nel generare prompt testuali. Si potrà aprire Gemini Studio e poi chiedere qualcosa tipo "generate prompt for stable Diffusion for a photorealistic image of a woman.... ". L'output si potrà poi incollare nello strumento di generazione immagini. Mi raccomando solo di scrivere prompt in lingua inglese, questo è davvero obbligatorio.

Un ottimo sito per trovare prompt pronti solo da copiare e incollare per StableDiffusion e FLux è prompthero.com.

Ricordo anche che è possibile usare le IA generative anche per cambiare faccia ad una foto col FaceSwap, operazione che si è molto evoluta nell'ultimo anno.

Per chiudere, rispondo ad un'ultima domanda: Possiamo anche generare video sul PC tramite IA?

La risposta, questa volta, è negativa, ancora troppo presto parlarne. Tanto per cominciare, il modello gratuito Stable Video Diffusion è uscito da poco ed ancora non funziona molto bene. Inoltre per generare video è necessaria ancora di più memoria video, quindi può diventare davvero costoso.

Per la generazione di video chi sta più avanti sono i servizi Kling, Hailuo, Hedra, Pika e Runway, segnalati nella lista dei siti per generare video tramite IA.

Se avete difficoltà o domande, visto quando l'argomento è complesso ed in continua evoluzione, fate sapere.