Su Midjourney e i nuovi generatori di immagini

Se non hai ancora sentito parlare di Midjourney, rimediamo subito! Ma partiamo dall’inizio…

Negli ultimi mesi è diventato (più o meno) di dominio pubblico l’accesso ad alcuni software di Intelligenza Artificiale accomunati sotto il termine “Text To Image” – abbreviato TTI. Si tratta di sistemi di IA che generano immagini a partire da algoritmi di apprendimento basati su reti neurali. Non entriamo qui nello specifico, ma avremo modo di approfondire quanto basta da capirne il funzionamento nella lezione che presenteremo il 6 ottobre.

Rispetto ai software di personalizzazione ed editing, quello della generazione dei contenuti è un processo che è diventato mainstream solo un paio di anni fa, con l’arrivo dei primi generatori automatici di testo, come GPT-3, che è in grado di generare da una piccola stringa di testo un articolo indistinguibile da quello di un* giornalista. 

Il passaggio incredibile compiuto in questi anni è quello di affidare alla macchina la traduzione, non più da testo a testo, ma dalle parole alle immagini. Si tratta di un procedimento che interessa tanto la media quanto la data education. Le IA sono infatti sempre allenate partendo da una grossa mole di dati, in questo caso immagini associate a tag, a partire dalle quali vengono generati i nuovi contenuti. Il processo algoritmico cambia da un’app all’altra e coinvolge fattori che spesso portano alla riproduzione di bias e stereotipi nei risultati ottenuti.

Abbiamo già parlato di software TTI lo scorso giugno, quando abbiamo analizzato il fenomeno memetico generato da un’altra TTI, Dall-E Mini, ora rinominata Craiyon. Questa, come Dream e StarryAI sono sistemi disponibili gratuitamente online, ma ritenuti meno sofisticati. 

Arriviamo quindi a Midjourney, uno dei sistemi al momento più evoluti nel panorama mainstream delle TTI, insieme a Dall-E 2 (di OpenAI) e Imagen e Parti (entrambi del Brain Team di Google). A rendere più sofisticati rispetto agli altri questi sistemi, non sono solo le banche dati a cui hanno accesso, ma anche la loro capacità di analizzare testi di partenza (i cosiddetti prompt) complessi, non semplici parole chiave.

Ciò che distingue invece questi 4 software è la tipologia di output che sono allenati a produrre. Abbiamo avuto modo di giocare con Midjourney, l’unica TTI aperta al pubblico, anche se ancora in versione beta (a pagamento la versione completa), grazie a un bot disponibile con un account Discord. La caratteristica che salta immediatamente all’occhio non appena si inizia a lavorarci, è lo stile delle immagini prodotte: sembrano delle illustrazioni, dei fumetti, dei disegni insomma; diversamente dallo stile molto più realistico, quasi fotografico, delle immagini prodotte da software com Dall-E 2.

Come si invia il prompt al bot di Midjourney: una volta effettuato l’accesso su Discord e accettato l’invito basta scrivere il comando /imagine seguito dalla descrizione in inglese di quello che si vuole fare


Non per niente con Midjourney sono già stati prodotti veri e propri graphic novel, come quello lanciato su Kickstarter per finanziarne la versione cartacea, e inizia ad essere usato da grafici e illustratori per creare bozze, strutturare progetti o creare immagini da vendere come NFT, come spiega il suo fondatore

Diversamente da Midjourney, attualmente per accedere a Dall-E 2 è necessario iscriversi ad una lista d’attesa, mentre per i software di Google non è ancora possibile l’accesso al pubblico. Oltre agli aggiornamenti tecnici, le due aziende dovrebbero anche essere impegnate in riflessioni che riguardano i rischi legati all’uso di queste tecnologie, come i bias a cui l’algoritmo va incontro durante l’analisi delle immagini con cui è stato istruito e i modelli linguistici di grandi dimensioni. Non sono inoltre da sottovalutare le questioni legate alla disinformazione che possono generare questi contenuti, come abbiamo già visto con i deepfake, e al copyright di artisti del passato, ma non solo. 

Lo stesso payoff che compare sul sito di Imagine è focalizzato su quanto i suoi prodotti siano “fotorealistici”

A questo proposito, consigliamo di leggere questo saggio di Lorenzo Ceccotti, fumettista e visual artist, in arte LRNZ, che con un linguaggio chiaro compie un’approfondita analisi dello stato dell’arte delle TTI in relazione all’arte, intesa come gesto autoriale e, soprattutto, artigianale


Newsletter

Accesso riservato agli iscritti

Inserisci le tue credenziali per accedere.
Non hai le credenziali?