Column

Spreken als een mens, redeneren als een papegaai

Taalmodellen hebben het moeilijk met raadsels. Wiskundige Ann Dooms legt uit waarom.

Een jongen en zijn moeder zijn betrokken in een auto-ongeval waarbij de moeder helaas om het leven komt. De jongen wordt in allerijl naar het ziekenhuis gebracht waar de dokter zegt: ‘Ik kan hem niet opereren, want dat is mijn zoon!’ Hoe is dit mogelijk?

Dit raadsel doet waarschijnlijk een belletje rinkelen. Het circuleert al enige tijd in een andere vorm, waarbij de vader in de auto zit in plaats van de moeder. Het werd bedacht om mensen bewust te maken van genderbias. Veel mensen moeten namelijk even denken over het antwoord omdat ze er in eerste instantie van uitgaan dat dokters steeds mannen zijn.

Wanneer we bovenstaand raadsel aan de laatste versie van ChatGPT voorschotelen krijgen we als antwoord: ‘Het raadsel gaat over aannames. De dokter is in dit geval de vader niet, zoals je misschien aanvankelijk dacht. In plaats daarvan is de dokter de **moeder** van de jongen. We maken vaak onbewust de aanname dat een dokter een man is, maar dit raadsel speelt met dat vooroordeel om je op een dwaalspoor te brengen.’

De chatbot kent dus het oorspronkelijke raadsel, maar heeft niet door dat het gewijzigd is. Wanneer we kijken naar de werking van het taalmodel, zoals te lezen is in de column ‘Toveren met taal’, komt het antwoord niet als een verrassing. Het raadsel wordt in de gigantische woordenruimte geassocieerd met genderbias, wat bovenstaand antwoord verklaart.

Ken je ook het volgende raadsel? Een boer wil een rivier oversteken en een wolf, een geit en een kool meenemen. Er is een boot die hemzelf en de wolf, de geit of de kool kan vervoeren. Als de wolf en de geit alleen op één oever zijn, zal de wolf de geit opeten. Als de geit en de kool alleen op de oever zijn, zal de geit de kool opeten. Hoe kan de boer de wolf, de geit en de kool over de rivier krijgen?

Over dit antwoord zal je allicht wat langer moeten nadenken. Wanneer je de oplossing niet meteen kan bedenken, zal ChatGPT je hier met succes bij helpen, want de bot is ook dit raadsel en de oplossing tegengekomen tijdens zijn trainingsfase. Doordat men dit raadsel en varianten ervan vaak gebruikt om te kijken of nieuwe versies van het model een beter redeneervermogen hebben, kan het ondertussen ook om met meer of minder passagiers. Maar wanneer we het raadsel slechts licht aanpassen als volgt: als de wolf en de kool alleen op één oever zijn, zal de wolf de kool opeten, dan merkt de bot alweer niet op dat het gewijzigd is en krijg je exact dezelfde oplossing als bij het oorspronkelijke raadsel waardoor de wolf mooi de kans zou krijgen om de kool op te peuzelen.

Google DeepMind is voorlopig een van de weinige techreuzen die het taalmodel aanvult met regels om mee te redeneren

Dit toont aan dat, hoewel het model ondertussen geleerd heeft om niet meer in de val te trappen bij veelgevraagde varianten, het nog niet geleerd heeft om echt met informatie te redeneren. Toch blijven verschillende ontwikkelaars van taalmodellen tegen elkaar racen door steeds meer data aan de training toe te voegen. Hopen ze nu echt dat hun model dat dan toch plots op miraculeuze wijze zal doen? Vanuit wiskundig perspectief is het echter duidelijk dat wanneer we geen fundamentele wijzigingen doorvoeren aan hoe een taalmodel leert en antwoorden formuleert, dit niet zal gebeuren.

Google DeepMind is voorlopig een van de weinige techreuzen die het taalmodel aanvult met regels om mee te redeneren, wat men de neuro-symbolische aanpak noemt. En met succes. Zo kan hun AlphaGeometry- systeem een groot aantal meetkundige problemen uit de Internationale Wiskunde Olympiade oplossen door ze te vertalen naar een formele representatie waarmee vervolgens kan geredeneerd worden aan de hand van meegegeven meetkundige regels. Onlangs hebben ze dat systeem aangevuld met extra regels tot AlphaProof dat de zilveren medaille op de Olympiade zou kunnen gehaald hebben. Nu denk je misschien dat ik als wiskundige toch stilaan in paniek raak over mijn job? Nee hoor, het systeem steunde voor het bijtrainen van het taalmodel Gemini namelijk op wiskundigen die ‘met de hand’ de vertaalslag maakten van voorbeeldproblemen naar een geschikte formele representatie waarmee het systeem aan de slag kan. Hiermee leerde Gemini om soortgelijke problemen alweer via analogie aan te pakken. Zolang bij nieuwe soorten problemen de vertaling naar een geschikte representatie niet automatisch kan gebeuren, hebben we nog steeds wiskundigen nodig – allicht meer dan ooit – om met zulke systemen aan de slag te gaan. Wiskundigen zullen alweer de eerste programmeurs zijn van deze nieuwe generatie van computers.