Fake neemt over

Voor het eerst in 45 jaar tijd trad de king of rock-'n-roll nog eens op. Daar leek het toch zeer sterk op, toen de Vlaamse videomaker Chris Umé op de finaleshow van America's Got Talent uitpakte met een deepfake van Elvis Presley. 'Dit is nog maar het begin. Er gebeuren vreemde dingen met artificiële intelligentie.'

'You're The Devil In Disguise' en 'Hound Dog': tijdens de finale van de talentshow America's Got Talent kregen toeschouwers gisteren een unieke renditie te zien van twee van de grootste hits van Elvis Presley. De act was op touw gezet door de Limburgse videomaker Chris Umé. Samen met collega's van zijn deepfake-bedrijf Metaphysic ontwikkelde hij een synthetische versie van de King, en plakte hij die vakkundig op het gezicht van Presley-imitator Emilio Santoro, die gisteravond live op de planken stond. Het resultaat was zo overtuigend dat de erven van Elvis al lieten weten in de toekomst nog te willen samenwerken met Metaphysic. 

Umés opgemerkte show heeft anderhalve maand werk gekost, en meerdere specialisten waren erbij betrokken. Toch kom je ook op je eentje en met veel minder middelen al een aardig eind om een goede deepfake-video te maken. Het enige wat je nodig hebt, zijn een groot aantal kwaliteitsbeelden van een persoon die frame per frame kunnen worden opgedeeld. En een computer die sterk genoeg is om met de beelden te werken.

Achter realistisch ogende nepvideo’s als die van Presley zit machine learning, een vorm van artificiële intelligentie die de jongste jaren grote stappen vooruit gezet heeft. Het principe is simpel: door een geavanceerd algoritme te voeden met zoveel mogelijk data kunnen nieuwe video’s gemaakt worden. Het algoritme is een neuraal netwerk dat gegevens verwerkt – ongeveer op dezelfde manier als waarmee onze hersenen informatie verwerken.

Het algoritme wordt getraind om beter te worden door zichzelf na elke poging te beoordelen. De eigen creaties evalueert het algoritme door ze te vergelijken met informatie uit een netwerk van miljoenen connecties. Vooral van publieke figuren – politici, televisiefiguren en acteurs – is beeldmateriaal overvloedig beschikbaar. Maar ook van gewone mensen is er steeds meer voorhanden: door de selfiecultuur gooien we bijna dagelijks nieuw materiaal op het internet.

Surfen op gras

Het is geen toeval dat er zo’n grote vooruitgang wordt gemaakt in het herkennen van gezichten en voorwerpen en het produceren van beelden, denkt Tinne Tuytelaars, professor digitale beeldvorming aan de KU Leuven. ‘We willen dat mensen en computers beter met elkaar interageren. Daarom focust wetenschappelijk onderzoek op het trainen van modellen om onder meer gezichtsemoties beter te herkennen. Sinds 2012 volgt op dat vlak de ene revolutie op de andere.’

Met veel rekenkracht en data creëer je veel mogelijkheden. ‘Vroeger konden gezichten alleen frontaal herkend worden, nu kan dat ook in ongecontroleerde omstandigheden’, vervolgt Tuytelaars. ‘De doorbraak zit vooral in het ongesuperviseerd leren, waarbij geen mensen meer nodig zijn om bijvoorbeeld duidelijk te maken tot welke klasse bepaalde gezichten behoren. Vroeger moest je zelf labels aanreiken: ‘Dit is persoon A, dit is persoon B, dit is een droevig gezicht.’ Dat werk was erg tijd- en energierovend. Nu zijn er systemen die autonoom kunnen leren en dat soort indelingen uit zichzelf maken.’

Eén van de toepassingen is het herkennen van gevaarlijke situaties voor zelfrijdende auto’s. ‘Riskante scenario’s komen nu ook weer niet zo vaak voor, wat het gevolg heeft dat we er weinig beeldmateriaal van hebben’, zegt Tuytelaars. ‘Met deze technologie kun je dat probleem nu oplossen.’

De concrete toepassingen gaan nog verder. Vandaag bestaat er een algoritme dat op basis van niets meer dan enkele stukken tekst zelfstandig een video kan fabriceren. Geen video waarmee je kan meedingen naar een Oscar of een Gouden Palm, maar wel een belangrijke doorbraak.

De techniek kan ook buiten de entertainmentsfeer gebruikt worden, bijvoorbeeld om een auto-ongeval of een misdaad te reconstrueren op basis van wat getuigen erover vertellen. ‘Het is de eerste tekst-naar-video-toepassing die zo’n goed resultaat geeft. Het is nog niet perfect, maar het begint er wel al uit te zien als een echte video’, aldus Tuytelaars. De onderzoekers slaagden erin het algoritme tien types van taferelen te trainen, van golfen op gras tot kitesurfen op zee. De scènes werden heel ruw en korrelig weergegeven werden. Een heel eenvoudig classificatie-algoritme duidde bij de helft van de keren de juiste actie aan op basis van zes mogelijkheden. Het neurale netwerk kon bovendien video’s maken van niet-bestaande acties, zoals zeilen op sneeuw of kitesurfen op gras, wat de toepassingsmogelijkheden vergroot.

Playbacken

Daar stopt het niet bij. Onderzoekers aan het Massachusetts Institute of Technology (MIT) slaagden erin om met machine learning een neuraal netwerk te creëren dat kan voorspellen wat er in een foto gebeurt en op basis daarvan een video te produceren. Het gaat om hele korte GIF-filmpjes van amper enkele seconden, die heel voorspelbare situaties in beeld brengen.

Technici ontwikkelden daarnaast programma’s die beeldmateriaal kunnen manipuleren en mixen met gezichtsherkenning. Laat een onderzoeker een grimas trekken voor een camera en dezelfde grimas is in realtime te zien in een beeld van een celebrity of een wereldleider. Ook audio ontsnapt niet aan de vooruitgang van artificiële intelligentie en machine learning. Computerwetenschappers aan de University of Washington slaagden erin om een programma te maken waarmee audiofragmenten succesvol in realistische, lipsynchrone video’s kunnen veranderen. De technologie werkt zo goed dat ze wereldleiders dingen kunnen laten zeggen die ze in werkelijkheid nooit gezegd hebben.  

Naar goede gewoonte volgen de meest praktische toepassingen wanneer de bestaande technologie wordt gecommercialiseerd. Adobe, bekend als producent van grafische software, is bezig met Voco, een soort Photoshop voor audio. Het bedrijf is ook bezig met Cloak, een tool waarmee je objecten en mensen onmerkbaar uit video’s kunt wissen.

Ook andere technologiebedrijven zitten niet stil. Chipmaker Nvdia kan hyperrealistische foto’s van mensen, voorwerpen en landschappen maken, op basis van een databank van tienduizenden beelden. Die beelden zijn vaak gewoon online te vinden. De techniek staat zover dat de systemen beelden van zonnige dagen overtuigend kunnen omzetten naar regenachtige. De mogelijkheden zijn groot, en belangrijker: ze nemen met de dag toe, nu verschillende vormen van artificiële intelligentie in een stroomversnelling zitten.

Fysiek dood, digitaal levend

Eén van de spectaculairste toepassingen die vandaag ingang vinden, is het creëren van een digitale kopie van iemand, opdat die na zijn dood verder kan leven. Het is een scenario dat opduikt in de Netflix-serie Black Mirror als akelig toekomstbeeld, maar vandaag – op zijn minst in primitieve vorm – al mogelijk is.

‘Je hebt vandaag al bedrijven die aanbieden om een soort kopie van jezelf te maken’, zegt Luc Steels, specialist artificiële intelligentie aan de VUB. ‘Je kunt het een soort mind uploading noemen. Je tapt dan wel niet fysiek de hersens af, maar laat wel een realiteitsgetrouw beeld van je maken op basis van alle materiaal dat het systeem over je krijgt. Dat materiaal bestaat uit wat je op sociale media plaatst of liket. Op die manier kan de kopie antwoorden zoals jij zou antwoorden en spreken zoals jij zou spreken. Sommige mensen zien het als een monument voor de overledene, om de overgang zachter te maken.’

Eterni.me is een bedrijf dat zich in het digitale leven na de dood specialiseert: het wil op basis van alles wat je aan online sporen achterlaat met artificiële intelligentie een realiteitsgetrouwe digitale versie van een persoon maken. Afhankelijk van de hoeveelheid data die het systeem krijgt, kan het variëren van rudimentaire biografische gegevens tot een digitale kopie die een volwaardige gesprekspartner moet zijn. Nogal wat mensen blijken interesse te hebben: volgens het bedrijf hebben 37.000 mensen zich nu al ingeschreven op de dienst.

Het Nieuw-Zeelandse bedrijf Soul Machines creëert dan weer realistische digitale dubbelgangers. Ze reageren op wat ze zien en horen en worden met elke interactie beter. Volgens het bedrijf moet het bijhouden van een digitale dubbelganger binnen tien jaar mainstream worden. Een ander bedrijf, Lyrebird, laat je dertig zinnen online inspreken en maakt daarna een audiokopie van jezelf. Op basis daarvan reproduceert het je stemgeluid en intonatie. Steels is terughoudend over zulke technologieën, om niet te zeggen sceptisch: ‘Het is afwachten wat er op dit vlak allemaal kan, en vooral hoe goed het kan.’ In elk geval is het duidelijk dat de technologie in de toekomst alleen maar beter kan worden.

Betekent dat alles dat artificiële intelligentie steeds dichter aanleunt bij menselijke intelligentie en misschien zelfs nog verder kan gaan? Vooral in Silicon Valley maken wetenschappers en technologen die claim. Daarmee halen ze makkelijk de media.

Toch is dat voorbarig, zegt Steels. ‘AI-toepassingen zijn goed in heel gerichte taken, zoals dingen herkennen of beelden genereren. Al maken ze zelfs daarin nog fouten die wij nooit zouden maken. Eén verkeerde pixel kan ervoor zorgen dat hij een voorwerp als iets anders herkent, terwijl wij overduidelijk zien dat het om dat voorwerp gaat. Natuurlijk gaan die systemen vooruit en leren ze bij, maar het geeft aan dat ze nog heel ver van menselijke intelligentie staan. Het menselijke brein, compleet met onze culturele en sociale capaciteiten, is totaal superieur. Het idee dat we machines gewoon wat meer data moeten voeden om die afstand te overbruggen is onzin. Het kan geen kwaad om over een volwassener artificiële intelligentie te dromen: met zulke ambities stuw je ontwikkelingen vooruit. Anderzijds zijn het zulke dromen die van het hele artificiële-intelligentieverhaal een hype hebben gemaakt. Het kan geen kwaad om daar kritisch tegenover te staan.’

Dit artikel is een geüpdatete versie van een artikel dat eerder verscheen in Eos.