Linguïsten schrijven software om automatisch taal te analyseren. Literatuurwetenschappers maken digitale tekstedities. Sinds 2010 wordt al het digitale taal- en literatuuronderzoek op UAntwerpen gegroepeerd op het platform Digital Humanities. Computerlinguïst Walter Daelemans en literatuurspecialist Dirk Van Hulle kraken de code.
De tijd dat een literatuurwetenschapper zich opsloot in de bibliotheek met stoffige manuscripten, ligt achter ons. Onderzoekers in de geesteswetenschappen maken almaar meer gebruik van digitale instrumenten: databanken van boeken of documenten, of taalkundige corpora. Niet alleen het materiaal is in toenemende mate digitaal, ook de methodes.
Computerlinguïst Walter Daelemans en literatuurspecialist Dirk Van Hulle stampten samen met collega’s Thomas Crombez en Mike Kestemont het platform Digital Humanities uit de grond (uahost.uantwerpen.be/platformdh), dat al dat digitale taal- en literatuuronderzoek verzamelt. Samen met Kestemont zijn ze ook verantwoordelijk voor het bachelorvak Digital Humanities.
Softwareskills
Wil dat zeggen dat taal- en letterkundigen naast een goeie talenknobbel nu ook software moeten kunnen schrijven? “Bij ons in de computerlinguïstiek is dat een vereiste”, bevestigt Walter Daelemans. “In de letterkunde is er minstens de bereidheid nodig om bijvoorbeeld transcripties van manuscripten te maken in de markup-taal XML”, aldus Dirk Van Hulle. “Een erg open consortium, Text Encoding Initiative (TEI), komt jaarlijks samen om de conventies van die markup-taal te bepalen en eventueel aan te passen. De bedoeling is immers om een taal te creëren waarin we elkaar begrijpen en die hopelijk binnen 100 jaar nog door computers kan gelezen worden.”
Digitale tekstgenese
Van Hulle kreeg drie jaar geleden een Starting Grant van 1,1 miljoen euro van de European Research Council voor baanbrekend onderzoek naar literaire manuscripten. Met zijn team maakt hij digitale tekstgenetische edities van de werken van de Ierse schrijver Samuel Beckett, inclusief diens bibliotheek.
“We proberen een digitale omgeving te creëren waar je de tekstgenese kan reconstrueren, maar waar ook interactie mogelijk is met de bronteksten die Beckett heeft gebruikt. Dit project is een case study om een groter punt te maken over editiewetenschap. Vroeger werd tekstgenetisch onderzoek gezien in functie van het maken van een teksteditie. Maar het schrijfproces is zeker zo belangrijk als het product. Waarom dus geen teksteditie maken als instrument om de tekstgenese te onderzoeken?”
Schrijfprocessen
Met dit digitale onderzoek naar creatieve processen maakt Van Hulles team deel uit van een Europees Marie Curie-netwerk over ‘Digital Scholarly Editing’ en binnen Vlaanderen trekt UAntwerpen aan de kar als woordvoerder van de FWO Wetenschappelijke Onderzoeksgemeenschap ‘Digital Humanities Flanders’.
“Niet alleen in het Departement Letterkunde, ook facultair en interfacultair wordt binnen onze universiteit samengewerkt met schrijfonderzoekers. Onder meer om het schrijfproces van Roosevelt, de nieuwste roman van Gie Bogaert, te analyseren met het aan onze universiteit ontwikkelde softwareprogramma Inputlog, dat elke toetsaanslag en muisklik van de auteur registreert."
Van Hulle onderzocht onder meer ook het schrijfproces van The Origin of Species van Charles Darwin. “Tijdens Darwins leven zijn er zes edities van het boek verschenen. Je wil die teksten kunnen vergelijken met elkaar, maar ook met wat Darwin in zijn notitieboekjes, zakboekjes, dagboeken en brieven schreef. Samen met het Huygens Instituut voor Nederlandse Geschiedenis hebben we gewerkt aan het programma CollateX om van om het even welke zin alle varianten in alle schrijfstadia snel terug te vinden. We zoeken naar manieren om dat wat een schrijfproces eigenlijk heel dynamisch maakt, namelijk die tekstvarianten, gemakkelijk te onderzoeken en zo meer inzicht te verwerven in de werking van de menselijke verbeelding.”
Automatische transcripties
“We zijn nu ook volop op zoek naar manieren om het transcriptiewerk te automatiseren”, vertelt Van Hulle. “Zoals je met Optical Character Recognition (OCR) ingescande teksten kan omzetten in bewerkbare tekst, zouden we in samenwerking met andere Europese onderzoeksgroepen Handwritten Text Recognition (HTR) verder willen ontwikkelen, zodat we ook handschriften kunnen omzetten in bewerkbare tekst. Gemakkelijk is dat niet want elk handschrift is anders, waardoor er verschillende ‘training data’ nodig zijn voor het lerende algoritme.”
Van algoritmes weet Walter Daelemans als computerlinguïst alles. Binnen zijn onderzoeksgroep lopen tal van projecten die met behulp van algoritmes op basis van verzamelde tekstverzamelingen en -fragmenten ongewenst gedrag à la cyberpesten en IS-propaganda kunnen opsporen, persoonlijkheid aan schrijfstijl kunnen koppelen, diagnoses kunnen stellen op basis van patiëntdata, kunnen simuleren hoe een kind taal leert, en zo verder.
Sentiment mining
“We doen onderzoek op een aantal niveaus”, vertelt Daelemans. “Het eerste niveau is het tekstbegrip: zijn we in staat een tekst automatisch te begrijpen en de kennis die erin staat in databases te stoppen? Een voorbeeldonderzoek is ons project over medische taal. We werken aan een systeem dat patiëntdata analyseert en de bedoeling is om op termijn automatische diagnoses te kunnen stellen. We gebruiken hiervoor de nieuwste technologieën, namelijk diepe neurale netwerken.”
Het tweede niveau waarop tekst kan geanalyseerd worden, is emotie en opinie: “We doen aan sentiment mining en opiniedetectie”, licht Daelemans toe. “Momenteel hebben we een interessant nieuw project met de politieke en de communicatiewetenschappers waarin we analyseren hoe mensen op sociale media het nieuws analyseren, hoe ze een opinie vormen op basis van wat ze op sociale media en in de pers vinden, en omgekeerd: hoe de pers daarop inspeelt. De verkiezingen van 2019 zijn ons doel. We willen in kaart brengen wat daar aan opinies aan voorafgaat op sociale media en in de pers. Het klassieke idee is dat de politiek de agenda bepaalt, de pers daarover informeert, en dat er daar op de sociale media commentaar over wordt geleverd. Maar eigenlijk staat die piramide nu op zijn kop. Het zijn de sociale media die de agenda van politici bepalen. Met behulp van die subjectieve tekstanalyse kunnen we opvolgen hoe dat in real time gaat.”
Persoonlijkheidsprofilering
Op het derde niveau trachten Daelemans en zijn team te achterhalen wat je op basis van tekst over de auteur ervan kan te weten komen. “Kan ik iets leren over demografische factoren zoals leeftijd en geslacht, en over psychologische factoren zoals of de auteur introvert of extravert is, of hij hoogopgeleid is of niet, politiek in het linkse of rechtse spectrum zit? Tot op zekere hoogte kan je dat afleiden uit de tekst.”
Het net afgeronde AMiCA-project ging bijvoorbeeld over online security en veiligheid voor kinderen en jongeren, om hen te beschermen tegen schadelijke content. In het extreemste geval zijn dat pedofielen, maar ook cyberpesten kan automatisch worden gedetecteerd: “Zijn mensen wel diegenen voor wie ze zich uitgeven? Dat kunnen we checken door aan de hand van hun posts hun leeftijd en geslacht te achterhalen. Of we kunnen gaan kijken of iemand een persoonlijkheidsstructuur heeft om een slachtoffer of een pester te zijn in cyberpesten.”
Momenteel is Daelemans bezig met personeelsprofilering. “Sommige bedrijven in China krijgen duizenden sollicitaties voor elke vacature. Op dit moment bekijken ze enkel kandidaten uit ‘goede’ universiteiten en vallen heel wat interessante profielen uit de boot. We werken nu samen met een bedrijf dat onze software gebruikt om op basis van de ‘open tekst’-antwoorden van kandidaten te analyseren of die sollicitant op vlak van niveau, persoonlijkheid en visie tegemoetkomt aan de criteria voor de functie.”
Neurale netwerken
“Wij ontwikkelen die toepassingen op basis van de state of the art in ons vakgebied en dat evolueert momenteel bijzonder snel”, getuigt Daelemans. “Zo komen we bij de ‘neurale netwerken’ die het veld van de artificiële intelligentie, waar computerlinguïstiek een onderdeel van is, overgenomen hebben. In alle domeinen waar die netwerken worden gebruikt, zie je een aanzienlijke verbetering van de accuraatheid van die systemen, zowel qua beeldverwerking als wat spraak- en tekstanalyse betreft. Eigenlijk is het heel eenvoudig wat die neurale netwerken doen. Je biedt het netwerk eenvoudigweg erg veel data aan en het leert zelf om daarin patronen te herkennen, of het nu om tekst, geluid of beelden gaat. Het gaat eigenlijk om algoritmes die in de vorige eeuw zijn uitgevonden, maar pas nu met de rekenkracht van vandaag zeer efficiënt kunnen worden ingezet.”
Nu kunnen we zoveel input aan die neurale netwerken geven dat die voor sommige taken het niveau van het menselijke brein bereiken of het zelfs beter doen, weet Daelemans. “Ook op gebied van automatisch vertalen hebben de neurale netwerken enorme vooruitgang geboekt. Google Translate is op die manier trouwens recent met 60 procent verbeterd. Door de snelle evolutie is het allemaal heel spannend wat er nu gebeurt. Omdat dit soort van onderzoeken ver van de klassieke taalkunde afstaat, leiden we onze studenten in de master computertaalkunde zo op dat ze goed kunnen programmeren en een stevige basis hebben om de algoritmes te kunnen begrijpen en ontwikkelen.”
Moderne psycholinguïstiek
Wat het Computational Linguistics and Psycholinguistics Research Center (CLiPS) van Walter Daelemans zo uniek maakt, is dat het computertaalkunde met psycholinguïstiek verbindt. Op dat kruisvlak lopen ook een aantal erg interessante projecten.
“Met professor Steven Gillis hebben we bijvoorbeeld een TOP-project dat met computermodellen tracht te simuleren hoe een kind uit primaire linguïstische data taal leert. Het gaat om fundamenteel langetermijnonderzoek rond de hypothese: hoeveel van onze taalkennis is aangeboren en hoeveel zit er verborgen in de input en kan je er dus met algemene cognitieve processen uithalen? Met professor Dominiek Sandra hebben we dan weer een project over computermodellen van meertaligheid. Zo werken we binnen CLiPS goed samen op de drie onderdelen: taalverwerving, -verwerking en computermodellering.”