
AI generativa: come fanno le macchine a creare testi, immagini e musica da zero
Scoprire come funziona l’AI generativa significa immergersi in un viaggio che attraversa matematica, linguistica, arte e informatica.
Come si può intuire, l’intelligenza artificiale non ha la bacchetta magica: il suo successo è dovuto ad algoritmi potentissimi che imparano a emulare le complessità del mondo umano. Nulla è creato dal nulla, tutto è rielaborato in base a ciò che l’AI ha visto, ascoltato e letto, riassemblando le informazioni disponibili in qualcosa che appare nuovo agli occhi di chi la interroga. E lo fa con un’efficienza e una flessibilità che, fino a pochi anni fa, avremmo considerato pura fantascienza.
AI generativa e modelli: il cuore della “creatività artificiale”
Tutto parte dai modelli generativi, algoritmi di machine learning progettati non per classificare o riconoscere contenuti – come fanno i classici sistemi di riconoscimento facciale, ad esempio – ma per generarne di nuovi. Requisito fondamentale è che questi contenuti siano plausibili e coerenti con l’universo di dati su cui sono stati addestrati. Uno dei protagonisti di questa rivoluzione è il cosiddetto modello trasformatore (transformer), introdotto da Google nel 2017: la sua architettura si è rivelata preziosa per “catturare” la struttura profonda di ciascun linguaggio. E con linguaggio non intendiamo soltanto parole, ma anche note musicali, pixel di un’immagine, comandi di codice.
ChatGPT, il chatbot sviluppato da Open AI e specializzato nelle conversazioni, si basa proprio sul trasformatore: viene addestrato ricevendo in pasto una quantità impressionante di testi, provenienti da libri, articoli, forum, codici, dialoghi e così via. Il suo obiettivo iniziale è quello di imparare a prevedere la parola successiva in una frase. Sembra un compito banale, ma a forza di eseguirlo miliardi di volte il modello apprende non solo le regole grammaticali, ma anche sfumature di senso, stili di scrittura, contesti culturali, metafore e così via. Lo stesso principio si applica a immagini e musica: qui il modello apprende la “statistica” delle forme, dei colori, delle note e dei ritmi, imparando a rielaborare ciò che gli viene proposto.
Come funziona l’AI generativa: il processo di nascita del contenuto
Entriamo nel dettaglio sul funzionamento dell’AI generativa. Immaginiamo di chiedere a un’AI di scriverci una poesia: il modello inizia dal nostro input, la nostra richiesta, e genera parola per parola. La scelta dei termini non avviene a caso, ma in base ad una distribuzione di probabilità che tiene conto del contesto: è come un autore che, pur non dotato di ispirazione vera e propria, può contare su una memoria infallibile e su un’enorme enciclopedia nella propria testa.
Abbiamo visto come funziona per la creazione di testo, ma per quanto riguarda le immagini? Generare foto creative, come ad esempio quelle ispirate allo stile dello Studio Ghibli, richiede un processo sostanzialmente simile. Si parte da descrizioni testuali che vengono trasformate in rappresentazioni astratte, poi in strutture visive: l’immagine finale è “costruita” pixel dopo pixel, seguendo le regole apprese nell’addestramento. Per la musica, infine, i modelli lavorano basandosi su sequenze di note o segnali audio, apprendendo pattern armonici, ritmi e persino influenze stilistiche di compositori o generi.
Come funziona l’AI generativa: curiosità ed errori della creatività meccanica
Arrivati a questo punto, sorge spontanea una domanda: ma quindi l’AI è davvero creativa? Se per creatività intendiamo la capacità di produrre qualcosa di nuovo, sorprendente e significativo, allora la risposta è sì, per certi versi. Ma l’AI non ha intenzioni, emozioni o coscienza: è una sorta di “pappagallo predittivo” straordinariamente evoluto, che grazie a miliardi di esempi riesce a combinare elementi noti in modi inediti e potenti.
Non è escluso, comunque, che l’intelligenza artificiale generativa commetta errori: in questi casi, l’AI sta facendo la scelta più probabile… anche se sbagliata. Il modello non sa se qualcosa è vero o falso: sceglie la parola successiva basandosi su ciò che suona “plausibile” nel contesto. Il modello, inoltre, non ha accesso a fatti aggiornati in tempo reale, quindi può capitare che fornisca responsi obsoleti o imprecisi. Se non ha informazioni sufficienti, può persino finire per “inventare” risposte.