top of page

Deep fake: come siamo passati dalla computer grafica al falso porno di Scarlett Johansson

  • Immagine del redattore: Antonio
    Antonio
  • 16 feb 2019
  • Tempo di lettura: 7 min

Tra il 2017 e il 2018 una serie di filmati pornografici riguardanti Katy Perry, Emma Watson e Scarlett Johansson ha scombussolato la rete oltre che la fantasia di milioni di utenti. Ma si è trattato di reali filmati pornografici?


Agli albori della computer grafica


Dovremmo ricordare il 1971 come l'anno della pubblicazione di Imagine di John Lennon, della nascita dell'eBook e del progetto Gutenberg o magari dell'allunaggio dell'Apollo 15. Tuttavia, mentre l'umanità pensava a cose apparentemente più importanti, un giovane ricercatore francese presso l'Università dello Utah, Henri Gouraud, truccava bizzarramente sua moglie Sylvie per poi fotografarla. Henri Gouraud non era - e non è - un fotografo ma un computer scientist e stava realizzando per la prima volta nella storia la cattura in computer grafica, e conseguente rappresentazione 3D in Wire-frame model, di un volto umano.

Sylvie Gouraud e il primo modello 3D realizzato in Wire-frame model, 1971.

Nessuno avrebbe immaginato di lì a breve la vastità dei campi d'applicazione della computer grafica. Si va infatti dall'utilizzo in ambito medico-chirurgico fino ai rendering per videogiochi e cinema passando per la progettazione CAD di artefatti metalmeccanici, architettonici, elettronici. Ad oggi ovviamente non è più necessario impiegare intere stanze e computer dalle ingenti risorse computazionali per lo scan dei modelli. A dire il vero non sono necessari più nemmeno i modelli. Anzi, diciamola tutta: non servono più nemmeno computer scientist in loco. Au revoir madame et monsieur Gouraud.


Modellazione 3D di volti umani: qual è la situazione oggi?


Serie di volti creati dall'IA di NVIDIA Face Generator, 2014.

Nel 2014 la nota azienda produttrice di processori grafici NVIDIA ha iniziato a sviluppare intelligenze artificiali capaci di dare vita autonomamente a volti dalle fattezze umane. Non esistono modelli e tanto meno scan: i volti sono totalmente "immaginati" e renderizzati dalle IA. Potrebbe sembrare inquietante ed anzi lo è. Per fortuna è possibile osservare artefatti grafici, immagini rumorose, perfette simmetrie dei volti che nella realtà non esistono e che ridimensionano la potenza delle macchine.


Serie di volti creati dall'IA di NVIDIA Face Generator, 2018.

Tuttavia, lo sa anche il pensionato che legge la Gazzetta al bar, 5 anni nella tecnologia non equivalgono a un lustro ma ad un eone. Basti guardare i progressi fatti da NVIDIA Face Generator già a fine 2018. Rughe, capelli scomposti, sorrisi asimmetrici ed espressioni naturali conferiscono ai volti un iperrealismo tale da non essere più nemmeno inquietante (in accordo all'ipotesi dell'Uncanny Valley).

Secondo l'ipotesi dell'Uncanny Valley, teorizzata dall'esperto di robotica nipponico Masahiro Mori nel 1970, la sensazione di familiarità verso rappresentazioni antropomorfe aumenta all'aumentare della ricchezza di dettagli e somiglianza con l'uomo per poi calare bruscamente, generando paura e disgusto, raggiunto un picco di realismo estremo e infine riprendere ad aumentare quando si giunge ad un livello ulteriore di verosimiglianza. Seguendo il grafico, si potrebbero porre i volti generati dalle intelligenze artificiali vicino alle "persone in salute".


Intelligenza artificiale e generazione automatica di volti: come funziona?


Intelligenza artificiale o IA è detta la capacità di un sistema hardware e software di risolvere problemi e cioè svolgere compiti e attività tipici dell'intelligenza umana in maniera autonoma.

Le intelligenze artificiali si servono di reti neurali e cioè modelli computazionali composti da neuroni artificiali. Esistono diversi di tipi di reti neurali (neural networks). Le reti neurali impiegate nella generazione di volti, e più in generale nella computer grafica, sono dette GAN e cioè Generative Adversarial Netowork (rete generativa antagonista). Le GAN sono assai recenti e sono state introdotte da Ian Goodfellow solo nel 2014.

Le reti neuronali per funzionare necessitano di dati. Generalmente una rete neurale si serve di dati classificati e categorizzati dall'uomo. Le reti neuronali in questione sfruttano dati non categorizzati (senza etichetta). Questa forma di machine learning viene detta non supervisionata. Si tratta di forme di machine learning perché non supervisionate perché non necessitano di un intervento umano che categorizzi i dati: le macchine fanno da sé. Come?

Il funzionamento di una GAN prevede l'impiego di due reti neurali che si sfidano in un gioco a somma zero. In teoria dei giochi un gioco a somma zero è un gioco dove il guadagno o la perdita di un giocatore è bilanciato perfettamente da un guadagno o una perdita dell'altro giocatore in somma uguale e opposta. In una GAN:

  1. una rete è addetta a generare istanze circa i dati ed è detta generative network;

  2. l'altra è addetta a validare i dati, etichettandoli e categorizzandoli al posto dell'uomo, ed è detta discriminative network.

Questa forma di machine learning è detta deep learning (a strati) perché le GAN non solo imparano a riconoscere pattern, ripetizioni e strutture generiche come volti da copiare o eventualmente ricreare. Le GAN permettono di riconoscere nasi, occhi, bocche e soprattutto di riconoscerli da sé, senza che nessuno indichi. Le intelligenze artificiali che sfruttano GAN impiegate nella generazione automatica di volti non fanno che imparare a riconoscere la struttura di un volto per poi, in maniera euristica, generarne diversi e di nuovi.

Volete fare una prova? Aprite questo sito e aggiornate la pagina:

https://thispersondoesnotexist.com/


Cosa sono i deep fake: come arriviamo a Scarlett Johansson


Non è necessario possedere una mente particolarmente perversa per intuire potenzialità e rischi della democratizzazione di tali tecnologie che ormai stanno agevolmente nei nostri PC e nei nostri smartphone. Piuttosto che fornire alla macchina come training data (dati su cui esercitarsi e imparare) dei volti casuali, si potrebbero fornire fotografie sì casuali ma di una medesima persona. L'auto-encoder impara a riconoscere non le strutture generiche e ricorsive dei volti umani ma le strutture di uno specifico volto umano da poter poi generare a piacimento con ogni espressione. Questo è quello che ha fatto tra il 2017 e il 2018 il redditer (utente di Reddit) "Deepfake" con i volti di molte celebrità. "Deepfake" ha creato un subreddit dove ha cominciato a pubblicare filmati pornografici ritraenti Emma Watson, Katy Perry o appunto la povera Scarlett Johansson, filmati creati con le tecniche sopra esplicitate. L'account ha raggiunto subito 15.000 utenti e nonostante sia stato chiuso e ogni filmato sia stato censurato è stato impossibile arginare gli effetti del fenomeno. Il codice sorgente, essendo oper-source, è stato diffuso sulla famosa piattaforma di hosting di progetti software GitHub sicché chiunque potesse modificarlo, migliorarlo o implementarlo a piacere.


Io non so distinguerli, vedetevela voi.

Così è nata l'app desktop "Fakeapp" che ha reso possibile a qualsivoglia utente fosse in possesso di un PC sufficientemente potente, di una scheda video dedicata e di 3 o 4 GB di materiale fotografico riguardante una persona di creare quello che viene chiamato deep fake. Un deep fake è dunque un fake (video e/o foto inautentici, falsi) ottenuto dall'impiego del deep learning (una forma di machine learning a strati come specificato poc'anzi). In questo caso la forma di deep learning è quella improntata al riconoscimento ed alla replica dei volti di cui si è parlato nel paragrafo precedente.

Ma perché è importante parlare di Scarlett Johansson? Oltre che per la sua intramontabile bellezza s'intende. Perché singolari sono le sue dichiarazioni in seguito all'essere stata vittima del deep fake:

"Il fatto è che provare a proteggersi da internet e dalla sua depravazione è fondamentalmente e in gran parte una causa persa". 

Addirittura l'attrice, forte della propria coscienza giustamente pulita, ha preferito non impegnarsi a combattere il fenomeno e lasciare i filmati in rete perché tanto sono, per l'appunto, falsi. Ma non tanto questo quanto la matura rassegnazione alle dinamiche del web ed delle macchine a colpire. Se le IA e l'idiozia vanno da sé, dobbiamo rassegnarci?


Conseguenze e possibili scenari


Il fenomeno non va sottovalutato poiché esula dal trolling e dalla mera pornografia: è drammaticamente rischioso addirittura per la tenuta della democrazia stessa. Potenzialmente il deep fake ben si presta a fake news, hoax e ovviamente propaganda politica. Basti guardare qui il buon vecchio (e falso) Obama. Quanto sarebbe difficile, soprattutto tenendo conto di eventuali fruitori affetti da analfabetismo funzionale o semplicemente distratti, distinguere un comunicato ufficiale da un deep fake?

Un pool di ricercatori dell'università di Albany propone - più che una soluzione - un palliativo. Un essere umano, in media, chiude le palpebre ogni 2-20 secondi. Effettivamente è difficile fotografare un soggetto nel mentre batte le ciglia ed in realtà pur riuscendoci, con tempi di scatto ridottissimi, si otterrebbero foto che verrebbero poi verosimilmente scartate o quantomeno non diffuse sul web. Questo vuol dire che come training data alle macchine non sono mai forniti soggetti con le palpebre abbassate e le macchine infatti non sanno replicare il naturale movimento degli occhi umani. Diffidate dunque dalla fissità degli occhi di chi parla in video. Si guardi l'esempio con Nicholas Cage (che non ha mai fatto l'annunciatore).


Facile è immaginare che in meno di qualche settimana, giorno, se non addirittura ora, si troverà il modo di eludere anche quest'ultima forma di controllo esercitata da un occhio critico, attento, ma soprattutto umano.

La verità dunque è che esiste un vuoto normativo da riempire oltre all'emergente necessità di rendere partecipi e consapevoli gli utenti riguardo il trattamento dei propri dati personali sul web. Il GDPR del 25 maggio del 2018 promulgato dall'Unione Europea non è sufficiente. Sempre che la privacy sia un valore, sia inteso. Ma questa è una questione soggettiva oltre che un'altra storia.

Il filosofo, scrittore e critico letterario tedesco, esponente della scuola di Francoforte, Walter Benjamin scrisse nel 1939 l'epocale saggio di estetica L'opera d'arte nell'epoca della sua riproducibilità tecnica. Urge oggi, senza troppa ironia, che qualcuno si pigli la briga di scriverne il secondo capitolo, come fosse un'avvincente romanzo: L'identità e il volto, nell'epoca della riproducibilità tecnica.

Sarebbe realmente sciocco tarpare le ali, o meglio, le sinapsi alle reti neurali e bloccarne lo sviluppo in virtù di qualsivoglia istanza (fe)eticista e moralistica. Bisogna piuttosto lavorare sulle conseguenze.


Poiché di mestiere dovrei fare il filosofo, non il giornalista o l'informatico, non posso che chiudere citando la prefazione dell'immenso Rousseau (non la stupida piattaforma del Movimento 5 Stelle, il filosofo dico) al Discorso sulle Scienze e le Arti presentato all'accademia di Digione nel 1750. Il male non sta nella tecnica, il male sta nell'utilizzo.


«L'inventore delle scienze era un dio nemico della tranquillità umana (Prometeo). Le scienze e le arti sono nate dai nostri vizi; il loro difetto d'origine si manifesta nei loro oggetti: che faremmo delle arti senza il lusso che le nutre? Nelle scienze il falso è suscettibile di un'infinità di combinazioni mentre la verità non ha che un modo d'essere; e se alla fine la scopriamo, chi saprà farne buon uso? Se le nostre scienze sono vane nei fini, ancora più pericolose sono negli effetti».


Jean-Jacques Rousseau, Discorso sulle scienze e le arti, 1750.


Fonti, approfondimenti, roba per gente paziente e nerd:

[1] Chi è Henri Gouraud: https://en.wikipedia.org/wiki/Henri_Gouraud_(computer_scientist);

[2] NVIDIA Face Generator: https://www.theverge.com/2018/12/17/18144356/ai-image-generation-fake-faces-people-nvidia-generative-adversarial-networks-gans;

[3] NVIDIA Face Generator e GAN: https://medium.com/syncedreview/gan-2-0-nvidias-hyperrealistic-face-generator-e3439d33ebaf;

[4] Reti neurali e GAN: https://skymind.ai/wiki/generative-adversarial-network-gan;

[5] Cosa è un deep fake: https://www.ionos.it/digitalguide/online-marketing/social-media/deepfakes/;chttps://www.repubblica.it/tecnologia/sicurezza/2019/01/02/news/scarlett_johansson_combattere_contro_i_deepfake_col_mio_volto_e_una_causa_persa_-215669385/;

[6] La soluzione del battito di ciglia: https://arxiv.org/pdf/1806.02877.pdf.

Commentaires


bottom of page