Robots met een hart
15 juni 2016 door PFHoog tijd dat robots en andere intelligente machines leren hoe ze ons kunnen begrijpen.
'Sorry, ik had je niet gehoord.' Het zou de eerste empathische reactie van een spraakmachine kunnen zijn. In de late jaren 1990 begon SpeechWorks uit Boston bedrijven software te leveren om hun computergestuurde helpdesk deze en andere zinnen te laten gebruiken. Sindsdien zijn we het gewoon geworden met machines te praten. Bijna elke oproep naar een helpdesk begint met een conversatie tussen mens en robot. Honderden miljoenen mensen hebben een intelligente persoonlijke assistent op zak. We kunnen Siri en soortgelijke hulpmiddelen vragen een restaurant voor ons te vinden, vrienden te bellen of naar een song laten zoeken.
Maar machines reageren niet altijd op de manier die wij willen. Software voor spraakherkenning werkt niet foutloos, en vaak vatten machines de bedoeling van onze vragen niet. Ook emoties en humor, sarcasme en ironie begrijpen ze niet. Als we in de toekomst meer tijd aan de interactie met machines gaan besteden – en dat zullen we, of het nu gaat om intelligente stofzuigers of humanoïde robotverpleegsters –, dan zullen we ze meer moeten laten doen dan alleen maar onze woorden begrijpen: ze zullen ons ook moeten aanvoelen. Ze zullen onze menselijke emoties moeten ‘begrijpen’ en delen – ze zullen dus over empathie moeten beschikken.
In mijn laboratorium aan de Hong Kong University of Science and Technology ontwikkelen we zulke machines. Empathische robots kunnen erg nuttig worden in de samenleving. Ze zullen meer zijn dan gewoon maar onze assistenten, en op termijn onze medewerkers worden. Ze zullen vriendelijk en warm zijn, en op onze fysieke en emotionele behoeften anticiperen. Ze zullen uit onze interacties met andere mensen leren, ons leven beter maken en ons werk efficiënter. Ze zullen ouderen verzorgen, onze kinderen onderwijzen en in kritieke situaties misschien uw leven redden en zichzelf voor u opofferen – een daad van ultieme empathie.
Een aantal robots die emoties imiteren is nu al op de markt – zoals bijvoorbeeld Pepper, een door het Franse bedrijf Aldebaran Robotics voor het Japanse Softbank Mobile ontwikkelde kleine humanoïde metgezel. En er is robot Jibo, een iets minder dan drie kilogram wegende persoonlijke assistent, ontworpen door een groep ingenieurs onder wie Roberto Pieraccini, voormalig directeur dialoogtechnologieën bij SpeechWorks. Het domein van de empathische robots bevindt zich nog in het tijdperk van de stoommachines, maar aan de instrumenten en de algoritmes die deze machines op spectaculaire wijze zullen verbeteren, wordt nu al gewerkt.
Empathische software
Ik raakte geïnteresseerd in het bouwen van empathische robots toen mijn onderzoeksgroep zes jaar geleden het eerste Chinese equivalent van Siri ontwierp. Ik vond het fascinerend te zien hoe gebruikers op een volkomen natuurlijke manier emotioneel reageerden op machinale persoonlijke assistenten – en hoe gefrustreerd ze raakten als hun machines er niet in slaagden datgene wat ze wilden communiceren, te begrijpen. Ik realiseerde me dat de sleutel voor het bouwen van machines die menselijke emoties kunnen begrijpen, moest worden gezocht in de algoritmes voor spraakherkenning waaraan ik mijn vijfentwintigjarige carrière wijdde.
Een intelligente machine is eigenlijk een softwaresysteem dat uit modules bestaat, waarbij elke module een programma is dat een specifieke taak uitvoert. Een intelligente robot kan een module bevatten die menselijke spraak verwerkt, een andere module kan beelden die door de camera van de robot zijn genomen herkennen enzovoort. Een empathische robot heeft daarnaast nog een ‘hart’, en dat hart is een pakket software die we de empathische module noemen. Die analyseert gelaatsuitdrukkingen, akoestische markers in de spraak en de inhoud van wat wordt gezegd, om zo de menselijke gevoelens te lezen en de robot te zeggen hoe hij moet reageren.
Als twee mensen met elkaar communiceren, dan gebruiken ze automatisch een rist signalen om de emoties van de ander te begrijpen. Ze interpreteren bewegingen in het aangezicht en de lichaamstaal, horen veranderingen in de toon van de stem, en begrijpen de inhoud van wat wordt gezegd. Het bouwen van een empathische module is een kwestie van het identificeren van deze karakteristieken van de menselijke communicatie, zodat machines emoties kunnen herkennen en ze algoritmes kunnen aanleren om die kenmerken waar te nemen.
Toen mijn onderzoeksgroep machines begon te trainen om emoties te detecteren in spraak, besloten we ze niet alleen de fundamentele kenmerken te leren herkennen, maar ook de betekenis van de woorden zélf te leren begrijpen. Op die manier communiceren mensen immers met elkaar: menselijke communicatie bestaat uit het verwerken van signalen. Ons brein detecteert emoties in iemands stem door te letten op akoestische kenmerken die wijzen op stress, vreugde, angst, woede, walging enzovoort. Als we vrolijk zijn, dan praten we sneller en gaat de toonhoogte van onze stem omhoog. Als we gestrest zijn, dan wordt onze stem vlakker en ‘droger’. Door signalen verwerkende technieken te gebruiken, kunnen machines deze kenmerken detecteren, net zoals een leugendetector de bloeddruk, de hartslag en de geleidbaarheid van de huid registreert. Om stress te detecteren, trainden we de algoritmen voor machinaal leren zo dat die de auditieve kenmerken die met stress overeenkomen, konden herkennen.
Een korte opname van menselijke spraak kan slechts een paar woorden bevatten, maar uit de toon van de stem kunnen we voor het verwerken van signalen toch al grote hoeveelheden data halen. We leerden de machines eerst hoe ze negatieve stress (droefheid) konden herkennen in spraaksamples van studenten aan mijn instituut. Studenten gaven dat laatste de bijnaam ‘Hong Kong University of Stress and Tension’. We vormden het eerste meertalige corpus van natuurlijke stressgevoelens in het Engels, het Mandarijn en het Kantonees door studenten twaalf steeds meer stress opwekkende vragen te stellen. Toen we zo’n tien uur data hadden verzameld, slaagden onze algoritmes erin stress 70 procent van de tijd accuraat te herkennen – een resultaat dat opmerkelijk dicht in de buurt ligt van dat van luisterende mensen.
Terwijl we dit deden, trainde een ander team van mijn groep machines om de stemming van muziek te herkennen door alleen maar geluidskenmerken ervan te analyseren (dus zonder aandacht te schenken aan de tekst van de songs). In tegenstelling tot emoties blijven bepaalde stemmingen de hele tijd dat de muziek aanhoudt, hangen. Het team startte met het verzamelen van 5.000 songs in alle genres in de belangrijke Europese en Aziatische talen. Een paar honderd van deze songs waren door musicologen al geclassificeerd in veertien categorieën van stemming.
Uit elke song distilleerden we zo’n duizend fundamentele kenmerken – akoestische parameters als energie, fundamentele frequentie, harmonie – en gebruikten dan de gelabelde muziek om veertien verschillende softwarematige classificeerders te trainen. Elk daarvan moest determineren of een stuk muziek al dan niet bij een bepaalde stemming hoorde. Zo luistert één classificeerder uitsluitend naar vrolijke muziek, een andere uitsluitend naar melancholische. De veertien werken samen, en bouwen verder op het giswerk van de andere. Als een ‘vrolijk’-classificeerder foutief een melancholische song voor een vrolijke aanziet, dan wordt deze in een volgende ronde opnieuw getraind. Na elke ronde wordt de zwakste classificeerder opnieuw getraind en gaat het hele systeem erop vooruit. Op die manier luistert de machine naar vele fragmenten muziek en leert ze welke daarvan bij een bepaalde stemming horen. Na verloop van tijd slaagt ze erin de stemming van elk stuk muziek te herkennen – alleen maar door naar het geluid te luisteren, net zoals wij dat kunnen. Ons baserend op dit onderzoek, startten vroegere studenten van me en ikzelf een bedrijf – Ivo Technologies – dat empathische machines moet bouwen die de consument thuis kan gebruiken. Het eerste product, Moodbox, zal een intelligent systeem zijn dat in privéwoningen voor elke kamer de muziek en de verlichting stuurt en daarmee op de emoties van de gebruiker reageert.
Intenties begrijpen
Om humor, sarcasme, ironie en andere nuances van communicatie op een hoger niveau te begrijpen, zal een machine meer moeten kunnen dan op basis van akoestische kenmerken alleen emoties herkennen. Ze zal ook de onderliggende betekenis van een gesprek moeten begrijpen en de inhoud ervan moeten vergelijken met de emotie waarmee een boodschap wordt gebracht.
Onderzoekers ontwikkelden geavanceerde spraakherkenningstechnologie door te werken met sinds de jaren 1980 verzamelde menselijke data. Vandaag is deze technologie redelijk volgroeid. Er is echter een belangrijk verschil tussen een transcriptie van een gesprek en het werkelijk begrijpen ervan. Denk maar aan wat er cognitief, neurologisch en musculair gebeurt wanneer een mens iets tegen een ander mens zegt: de persoon formuleert zijn gedachten, kiest er woorden voor en spreekt. De luisteraar decodeert de boodschap. Bij een gesprek tussen mens en machine ziet die keten er helemaal anders uit, met alle gevolgen vandien: geluidsgolven worden omgezet in een digitale vorm en dan in parameters.
Toen we aan ons onderzoek aan empathische robots begonnen, realiseerden we ons dat algoritmes zoals deze die gevoelens van gebruikers uit online commentaar afleiden, ons zouden kunnen helpen om emoties in spraak te analyseren. Algoritmes voor machinaal leren zoeken naar talrijke elementen van de inhoud. Sleutelwoorden als ‘verdriet’ of ‘angst’ suggereren eenzaamheid. Herhaald gebruik van vaak gebruikte stopwoorden (bijvoorbeeld ‘komaan’) kan erop wijzen dat een song vol energie zit. We analyseren ook informatie over de stijl van de spraak. Zijn de antwoorden die iemand geeft duidelijk, is hij er zeker van dat ze juist zijn, of twijfelt hij en zitten de antwoorden vol pauzes en houdt hij een slag om de arm? Zijn de antwoorden uitgebreid en gedetailleerd of zijn ze beknopt en kortaf?
In ons onderzoek naar het herkennen van stemmingen in muziek, trainden we algoritmes om uit songteksten kenmerken van emoties af te leiden. In plaats van geluidskenmerken van elk stuk muziek te extraheren, haalden we sequenties van woorden uit de songteksten en legden we die aan de individuele classificeerders voor. Elk daarvan was verantwoordelijk voor het bepalen of delen songtekst met een van de veertien stemmingen overeenkwamen. Zulke reeksen van woorden worden N-grammen genoemd. Om de signatuur van een stemming te achterhalen, gebruikten we ook tags die de woordsoort van de woorden weergaven. Computers kunnen N-grammen en tags voor woordsoorten gebruiken om in elke taal statistische benaderingen van grammaticale regels te vormen. Deze regels helpen programma’s zoals Siri spraak te herkennen en software zoals Google Translate om tekst in een andere taal om te zetten.
Zodra een machine de inhoud van spraak kan begrijpen, kan ze die inhoud vergelijken met de manier waarop die wordt gebracht. Als iemand zucht en zegt ‘Ik ben zo blij dat ik het hele weekend moet werken’, dan kan een algoritme detecteren dat het emotionele signaal en de inhoud van de zin niet met elkaar overeenkomen, en de waarschijnlijkheid berekenen dat de spreker op dat moment sarcastisch is. Op dezelfde wijze kan een machine die emoties en de inhoud van spraak kan begrijpen, die informatie aan nog meer input koppelen en zo nog meer complexe intenties detecteren. Als iemand zegt ‘Ik heb honger’, dan kan een robot de beste respons zoeken op basis van de plaats waar de spreker zich bevindt, het tijdstip van de dag, de historische voorkeuren van de gebruiker en nog meer parameters. Als de robot en zijn gebruiker thuis zijn en het is bijna middag, dan zou de robot kunnen antwoorden: ‘Zal ik een sandwich voor u klaarmaken?’ Als de robot en zijn gebruiker op reis zijn, dan zou hij kunnen zeggen: ‘Wilt u dat ik een restaurant voor u zoek?’
Zara het Supermeisje
Begin dit jaar begonnen studenten en postdoctoraal onderzoekers in mijn laboratorium al onze verschillende modules voor spraakherkenning en voor het herkennen van emoties bij elkaar te voegen en er een prototype van een empathische robot mee te bouwen. We noemden haar Zara het Supermeisje. Om Zara te trainen werden honderden uren data verwerkt, en vandaag werkt het programma op een eenvoudige desktopcomputer. Nu is Zara een virtuele robot, op het computerscherm weergegeven door een cartoonkarakter.
Als iemand een conversatie met Zara begint, dan zegt ze: ‘Wacht even terwijl ik uw gelaat analyseer’. De algoritmes van Zara bestuderen de beelden die door de webcam van de computer zijn genomen en ziet zo van welk geslacht u bent en welke etnische achtergrond u heeft. Dan zal ze nagaan welke taal u spreekt (Zara begrijpt Engels en Mandarijn en leert nu ook Frans) en stelt u een paar vragen in uw moedertaal: ‘Wat is uw vroegste herinnering? Vertel me iets over uw moeder. Hoe was uw laatste vakantie? Vertel me een verhaal met een vrouw, een hond en een boom’.
Door dit proces kan Zara antwoorden op een manier die empathie imiteert. Ze kan dat op basis van de uitdrukkingen op uw gelaat, de akoestische kenmerken van uw stem en de inhoud van uw antwoorden. Na een gesprekje van vijf minuten zal Zara uw persoonlijkheid proberen te raden en u vragen hoe u tegenover empathische machines staat. Dit laatste is voor ons een manier om van mensen feedback te krijgen over hun interactie met de eerste empathische robots.
Zara is nog maar een prototype, maar doordat ze is gebaseerd op algoritmes voor machinaal leren, zal ze steeds ‘slimmer’ worden door met steeds meer mensen te interageren en steeds meer data te verzamelen. Op dit moment is haar database met kennis alleen nog maar gebaseerd op interacties met graduaatstudenten in mijn laboratorium. Voor volgend jaar zijn we van plan Zara een lichaam te geven door haar in een humanoïde robot in te bouwen.
Het is voorbarig te stellen dat het tijdperk van de vriendelijke robots nu al is aangebroken. We zijn nog maar net begonnen met het ontwikkelen van de meest basale instrumenten die emotioneel intelligente robots nodig zullen hebben. En wanneer Zara’s nakomelingen op de markt zullen verschijnen, dan zullen ook zij zeker nog niet perfect zijn. Maar focussen op het maken van perfect accurate machines is volgens mij niet het belangrijkste. Veel belangrijker vind ik dat onze machines menselijker worden. Helemaal foutloos functioneren hoeft niet, want dat doen mensen ook niet. Als we dit goed aanpakken, dan zullen empathische machines niet de robotoverheersers worden waarvoor sommige mensen vrezen. Ze zullen onze verzorgers zijn, onze leraars en onze vrienden.