Leeft HAL 9000 straks in je iPhone?

De filmklassieker 2001: A Space Odyssey loopt in opgefriste versie terug in de bioscoop. Het hoofdpersonage in de film is HAL 9000, een computer die kan praten, zien, plannen en emoties begrijpen. Hoe dicht staan we vandaag bij een echte HAL?

Laten we maar meteen beginnen met een van de huiveringwekkendste scènes uit 2001: A Space Odyssey. We weten dat het ruimteschip Discovery One op een geheime missie is, waarvan alleen HAL de eindbestemming kent. De AI-computer heeft de totale regie en is, zoals schrijver Arthur C. Clarke typeert, ‘het brein en zenuwstelsel van het schip’.

In de bewuste scène zien we dat astronauten Frank en David zich terugtrekken in een pod. Ze schakelen de elektronica uit, zodat HAL hen niet kan horen, en besluiten hem uit te schakelen. Terwijl ze in de pod hun twijfels delen, zien we als kijker – vanuit het perspectief van HAL – dat hij aan het liplezen is. Om de missie niet in gevaar te brengen, besluit HAL vervolgens dat de crew moet worden uitgeschakeld. Clarke zei in 1999 aan de New York Times dat deze scène het idee was van regisseur Stanley Kubrick. Hijzelf dacht dat een liplezende computer het enige ‘technisch onwaarschijnlijke’ element in de film was.

HAL: ‘I could see your lips move’

Maar kijk, eind vorig jaar beweerde een groep onderzoekers van de Universiteit van Oxford dat zij, in samenwerking met DeepMind van Google, als eersten een AI-systeem hadden ontwikkeld dat beter kan liplezen dan een mens. Met behulp van deep learning – kunstmatige neurale netwerken met meerdere, gestapelde lagen met neuronen – voedden ze het systeem, dat ze LipNet hadden gedoopt, meer dan 5.000 uur BBC-programma’s. Zo werd dat systeem steeds beter in het herkennen van de lipbewegingen en de gerelateerde woorden. Waar een professionele liplezer 12,4 procent van de woorden correct had gelezen, haalde LipNet een score van 46,8 procent.

 

Een cruciale scene uit de sf-film toont hoe HAL 9000 via liplezen afleidt wat Frank Poole en David Bowman tegen elkaar zeggen.

Bij eerdere pogingen om deep lear-ning op liplezen toe te passen, maakten onderzoekers gebruik van losse woorden of fonemen, maar de onderzoekers van Oxford gebruikten hele zinnen. Bovendien hadden de beelden een variatie in de hoek waarin de spreker staat ten opzichte van de liplezer. Menselijke liplezers halen de beste resultaten als ze de spreker zien vanuit een hoek van 45 graden. Bij een hoek van 90 graden, dus in profiel, is liplezen haast onmogelijk, maar precies dat deed HAL in de film; waarschijnlijk overigens omdat Kubrick dat cinematografisch aantrekkelijker vond.

Dave: ‘Hello HAL. Do you read me?’
HAL: ‘Affirmative, Dave. I read you.’

De lipleesscène in de film vertelt ons nog iets: HAL had onmogelijk kunnen liplezen zonder in staat te zijn om spraak te herkennen én begrijpen.
‘Elke voldoende geavanceerde technologie is niet te onderscheiden van magie’, zei Clarke ooit. De zich snel ontwikkelende wereld van de spraakherkenning heeft er soms iets van weg. Je spreekt als het ware een toverspreuk uit – ‘Alexa, zet Spotify aan en zoek …’ – en een slim apparaat vervult je wens. Op het vlak van spraakherkenning heeft HAL moderne nazaten in de vorm van AI-assistenten als Siri, Google Assistant, Alexa en Cortana.

Op de laatste Consumer Electronics Show in Las Vegas in januari 2017, een van de grootste beurzen in zijn soort, werd spraakherkenning dé trend van het moment genoemd. Bedrijven als Apple, Google, Microsoft en Amazon, maar ook het Chinese Baidu, investeren miljoenen in spraaktechnologie en huren daarvoor gerenommeerde wetenschappers in. Zo was Andrew Ng, een professor gespecialiseerd in AI aan de Universiteit van Stanford, tot onlangs de Chief Scientist van Baidu. Adam Cheyer bouwde dan weer Siri voor Apple. Dezelfde Cheyer was eerder betrokken bij een prestigieus project van het Pentagon om een soort HAL 9000 te bouwen, het CALO-project (Cognitive Assistant that Learns and Organizes). Niet voor niets noemde Wired HAL twee jaar geleden nog een ‘proto-Siri’.

De digitale butlers herkennen steeds beter wat hun gebruikers willen. Afgelopen mei poneerde Google nog trots dat hun spraakherkenningssysteem 95 procent van alle Engelstalige woorden correct herkent, vrijwel net zo goed als een mens. Maar begrijpt Siri of Google Assistant ook écht wat we van ze willen? Mark Zuckerberg zei vorig jaar op zijn Facebook-pagina dat de spraakherkenningssystemen zijn verbeterd, maar dat ‘geen enkel AI-systeem momenteel goed genoeg is in het begrijpen van conversaties’.

Lee Se-Dol, Zuid-Koreaans expert in het eeuwenoude Chinese bordspel Go, neemt het op tegen supercomputer AlphaGo.

Maar wat is begrijpen? Professor David van Leeuwen van de Radboud Universiteit in Nijmegen, specialist in de spraaktechnologie, legt het verschil uit tussen begrijpen en herkennen. ‘Herkennen gaat om het kunnen produceren van een tekstuele representatie van wat er gezegd wordt. Ik geloof Google op hun blauwe ogen dat ze 95 procent hebben gemeten, maar dan ben je er nog niet. Om het te begrijpen moet je ook nog iets zinvols doen met die tekst. Als dat lukt, komt het voor de gebruiker over dat de AI jou begrijpt. Siri en anderen zijn op dit ogenblik vooral tamelijk goed in het wekken van de indruk dat ze de gebruiker begrijpen.’

Begrijpen is dus een subjectief begrip: het gaat om de perceptie van de ontvanger. Van Leeuwen: ‘De verwachtingen spelen een grote rol in de beoordeling van het begrip van de ander. Van een kind verwacht je ook iets anders dan van een volwassene. Het is een continue schaal en ik denk dat de AI’s van vandaag daarop steeds een stukje verder schuiven.’

Dave: ‘Open the pod
bay doors, HAL’
HAL: ‘I’m sorry, Dave. I’m afraid I can’t do that’
Dave: ‘What’s the problem?’
HAL: ‘I think you know what the problem is, just as well as I do’

Een AI-systeem dat begrijpt wat een gebruiker zegt is één ding, maar een dialoog is nog een ander paar mouwen. In december vorig jaar introduceerde Mark Zuckerberg Jarvis, een AI-butler die in zijn huis op commando allerlei klusjes doet: toast maken, de gordijnen openen, bezoekers binnenlaten. Via Facebook vroeg Zuckerberg zijn volgers welke stem het best geschikt was voor Jarvis. Acteur Morgan Freeman kreeg de meeste stemmen en sprak vervolgens een aantal tekstfragmenten in.

Eerdere text-to-speech-systemen werkten nog door vooraf door een mens ingesproken korte segmenten (woorden, zinnen) aan elkaar te plakken. Meer recent zetten bedrijven als DeepMind (Wavenet) en Baidu (Deep Voice) deep learning-technieken in. Ze leren systemen spreken door ze te laten luisteren naar ruwe geluidsopnamen van gesproken taal en die te laten vergelijken met transcripties van de gesproken tekst. De stem klinkt dan vaak wel nog wat mechanisch, maar dat is op te lossen met synthesizers als Polly van Amazon. En Lyrebird liet in mei zien wat het systeem kan door de stemmen van Barack Obama, Donald Trump en Hillary Clinton te gebruiken om – zij het nog wat houterig van klank – van alles te laten zeggen. De laatste stap is echter om de gesproken tekst prosodie te geven – ritme, klemtoon en intonatie – maar daar wordt aan gewerkt. Vorige maand publiceerde Apple nog een onderzoeksverslag over hoe ze Siri natuurlijker kunnen laten klinken.

Het valt meteen op zodra hij begint te praten: ook HAL had een menselijke stem, namelijk die van een Canadese acteur. Douglas Rain was door Kubrick geïnstrueerd om de tekst op een emotieloze manier in te spreken. Toch verraadt de stem door kleine modulaties en veranderingen in toonhoogte iets wat een stem zo menselijk maakt: Rain begréép wat hij zei. Hoe goed HAL was, zien we aan de korte, ogenschijnlijk simpele dialoog bovenaan dit hoofdstuk. Het is niet moeilijk om HAL de deuren te laten openen. Daarvoor moet hij het concept ‘open’ begrijpen, net als welke deuren Dave bedoelt. Maar HAL’s reactie is verre van simpel. In plaats van met een simpel ‘No’, begint hij met een verontschuldiging. Daaruit blijkt dat hij veronderstelt dat Dave zijn antwoord niet leuk zal vinden. HAL anticipeert dus op de emoties van Dave, nog voor hij de zin heeft uitgesproken die deze emoties zal veroorzaken. Die verontschuldiging, in combinatie met de woorden ‘I’m afraid’ is ook verontrustend, omdat wij als kijkers weten dat HAL de deuren wel degelijk kan openen, maar dat niet wil. HAL tart Dave met zijn beleefdheid.

Een dergelijke conversatie, die voor mensen probleemloos kan verlopen, vereist een gigantische opslag aan kennis waarmee we ambiguïteit en complexiteit kunnen begrijpen. Maar we gebruiken die kennis ook als context om onderscheid te kunnen maken tussen potentieel relevante en irrelevante informatie. Zelfs supercomputer Watson van IBM had, ondanks de snelheid van 1 miljoen boeken per seconde waarmee hij informatie kon verwerken, moeite met taalbegrip en het herkennen van intenties toen ze hem lieten deelnemen aan de tv-quiz Jeopardy. Dat kwam omdat hij de waarschijnlijkheid van een juist antwoord berekende, niet omdat hij de vraag begreep zoals een mens.

Missie naar Mars

Door deep learning-technieken en miljoeneninvesteringen gaat het nu snel. Wanneer het AI-programma AlphaGo de beste speler ter wereld in het eeuwenoude Chinese bordspel Go verslaat, is dat nieuws. Hoe complexe artificiële intelligentie daadwerkelijk werkt, is echter bijna onmogelijk te begrijpen. Wetenschappers beschrijven de manier waarop machines leren ook wel als een ‘black box’. Machine- en deep learning is gebaseerd op kunstmatige neurale netwerken die vaak net zo functioneren als het menselijk brein. In oktober vorig jaar schreef Nature daarover: ‘Helaas zijn dergelijke netwerken net zo ondoorzichtig als het brein. In plaats van dat wat ze geleerd hebben op te slaan in een keurig blokje digitaal geheugen, verspreiden ze de informatie op een manier die buitengewoon moeilijk is om te ontcijferen.’ Dat baart wetenschappers zoals Stephen Hawking zorgen. De angst dat zo’n AI-computer, zoals HAL, op eigen houtje gaat opereren en beslissingen neemt, is niet irreëel. ‘Dat speelt bij elk systeem dat we bouwen’, zei NASA-wetenschapper en hoofd van een AI-groep Steve Chien onlangs in The Smithsonian.

‘Naarmate we steeds complexere systemen bouwen, wordt het moeilijker voor ons om te begrijpen hoe ze met een complexe omgeving zullen omgaan.’
HAL maakte in 2001: a Space Odyssey een bemande missie naar Jupiter mogelijk: hij nam alle functies over van een controlecentrum. NASA wil rond 2030 astronauten naar Mars sturen, een missie die hen verder van de aarde brengt dan elke bemande missie daarvoor. Het contact met de aarde heeft een vertraging tot 40 minuten, dus bij moeilijkheden is ‘Houston, we have a problem’ geen optie.

Daarmee komt het idee dichterbij van een AI-computer die bijvoorbeeld de systemen voor vitale levensfuncties en de juiste werking van sensoren in de gaten houdt en ook eventuele onregelmatigheden identificeert en oplost. Voormalig NASA-hoofdwetenschapper Ellen Stofan zei afgelopen zomer tijdens een conferentie over verre ruimtevaart: ‘Ik blijf het zeggen, we hebben een aardige HAL nodig.’
Arthur C. Clarke schreef drie sequels op zijn wereldberoemde werk. Het tweede deel, 2010: Odyssey Two, zijn we ondertussen ook al voorbij. Zouden we in 2061: Odyssey Three al een HAL hebben? Of moeten we niet zo lang meer wachten?