Heeft artificiële intelligentie echt overal een antwoord op? Om AI te blijven uitdagen, ontwikkelen computerwetenschappers voortdurend prestatietesten - die binnen no time weer ingehaald worden door nieuwe taalmodellen. Een nieuw ontwikkeld ‘examen’ moet AI tot het uiterste drijven: wint de mensheid die competitie?
De vooruitgang van artificiële intelligentie (AI) laat zich meten aan de snelheid waarmee benchmarks – metingen die de prestaties van AI testen en in kaart brengen – verouderd raken. Nog maar net hadden onderzoekers geconstateerd dat grote taalmodellen als GPT-3 door hun blootstelling aan enorme hoeveelheden trainingsdata véél meer konden dan alleen taalkundige taken. Zo zijn ze bijvoorbeeld ook in staat om de onderliggende toon in teksten en het onderwerp op en afbeelding te herkennen. In de tussentijd ontstond er al de grote behoefte aan nieuwere, meer omvattende manieren om de toenemende capaciteiten van die modellen te meten. De oude (super-)GLUE-benchmarks, oorspronkelijk bedoeld om taalkundige vaardigheden te evalueren, bleken onvoldoende. De weg lag dus open voor meer algemene en veelzijdigere prestatietesten.
Een daarvan is MMLU (Measuring Massive Multitask Language Understanding). Die is in het leven geroepen door Dan Hendrycks, verbonden aan het Center for AI Safety. MMLU bestaat uit meerkeuzevragen over 57 verschillende onderwerpen: van abstracte algebra en natuurkunde tot ethiek en recht. Toen GPT-3 in 2020 een score van ongeveer vijftig procent haalde, vonden we dat zeer indrukwekkend. Inmiddels is die benchmark voor de meest recente modellen (o1 van OpenAI) geen uitdaging meer: de zogenaamde “reasoninig modellen” tikken scores aan boven de negentig procent, wat zelfs iets hoger ligt dan de beste menselijke prestaties. Dat MMLU toch bijna vier jaar overeind bleef, toont hoe robuust deze toets was. Maar recentere prestatiemetingen, zoals GPQA (General Purpose Question Answering), werden nóg sneller ingehaald door die nieuwe realiteit: amper een jaar na introductie sprong de score van de best preseterende modellen van 39% naar 78%. Ter illustratie: hoogopgeleide, maar niet-gespecialiseerde mensen die zo’n dertig minuten onbeperkte toegang tot het internet hadden, kwamen maar tot 34% (of zo’n 65% tot 74% als onmiskenbare blunders eruit gefilterd werden).
Afgelopen december scoorde het nog niet vrijgegeven model o3 van OpenAI ook hoog op de ARC-AGI-benchmark. Het beantwoorden van die vragen bracht een kost van meer dan 2.000 dollar per vraag met zich mee. Ook bij Frontier Math, een benchmark die zeer uitdagende wiskundige problemen omvat, boekte AI veel vooruitgang met een sprong van twee naar 25 procent.
Sommige partijen, zoals OpenAI, hebben mogelijk exclusieve toegang tot bepaalde datasets, waardoor ze een benchmark wellicht ‘oneerlijk’ kunnen oplossen. Dat maakt een nieuwe, extra robuuste test onontkoombaar. Al die ontwikkelingen zette onderzoekers aan het denken: hoe kunnen we prestatiemetingen voor AI nog betrouwbaarder maken?
Wéér een nieuwe benchmark?
Vorig jaar ging diezelfde Dan Hendrycks van start met een omvangrijker initiatief: Humanity’s Last Exam. De naam maakt meteen duidelijk dat het hier niet gaat om een zoveelste nieuwe dataset. Nee, de benchmark is ontworpen om AI-systemen écht tot het uiterste te drijven. De wereldwijde wetenschappelijke gemeenschap werd uitgenodigd om die ultieme vragen te bedenken, met financiële prikkels tot duizenden dollars per geselecteerde vraag. In totaal werd een prijzenpot van een half miljoen dollar vrijgemaakt. Bovendien konden inzenders van vragen die daadwerkelijk aan AI werden voorgelegd, co-auteur worden van de paper. Incentives genoeg dus om academici hard aan het werk te krijgen. Zo ook voor ons.
Het opstellen van geschikte vragen bleek een huzarenstuk. Ze moesten in het Engels gesteld worden, een unieke oplossing hebben waarover alle experts het eens waren en bovendien niet te vinden zijn via internetzoekopdrachten of handboeken. In tegenstelling tot eerdere benchmarks bestaat slechts twintig procent van de vragen uit meerkeuzevragen, terwijl het merendeel een exact antwoord vereist. Een tiende van de vragen bevat zelfs een visuele component, wat deze prestatietest multimodaal maakt. Denk aan gedetailleerde foto’s van planten met unieke morfologische kenmerken, waarbij alleen iemand met diepgaande kennis van plantentaxonomie correct kan bepalen om welke soort het gaat en in welk gebied die vroeger endemisch was. Die brede reikwijdte maakt dat AI-modellen niet alleen getest worden op hun generieke taalcapaciteit, maar ook op hun inzicht in uiteenlopende domeinen – en hun vermogen om over al die domeinen heen logische redeneringen op te bouwen.
Moeilijker dan het lijkt
De eerste voorwaarde was duidelijk. Geen enkele van de vijf meest geavanceerde taalmodellen – GPT-4o, o1-mini en o1-preview (OpenAI), Claude Sonnet 3.5 (Anthropic), en Gemini 2.0 (Google) mocht de vraag correct beantwoorden. Met andere woorden: alleen de vragen die géén enkel model kon oplossen werden doorgelaten. Een intensief proces, want bij slechts één op de vijf voorgestelde vragen was dit het geval. Bovendien is het aannemelijk dat veel onderzoekers eerst zelf hun vraag uittestten op één enkel model — dat was alleszins ook bij ons het geval. Het totale aantal initiële pogingen ligt dus nóg hoger dan de officiële 70.000.
In de volgende fase beoordeelden menselijke experts de overgebleven vragen op validiteit. Zo sloten ze uit dat het om een strikvraag ging, de oplossing te gemakkelijk online te vinden zou zijn of dat experts het oneens zouden zijn over de oplossing. Ook na het overwinnen van die eerste horde kon een vraag tóch als te makkelijk worden beschouwd, of via obscure, maar bestaande internetbronnen of archieven terug te vinden zijn. Ook kwam het voor dat experts onderling van mening verschilden over de eenduidigheid van het antwoord. Uiteindelijk overleefde minder dan de helft van deze ‘AI-onoplosbare’ vragen deze ronde. De organisatoren hielden zo zitten een set van ongeveer zesduizend vragen over, waarvan er drieduizend openbaar zijn gemaakt (de publieke set). De overblijvende vragen blijven achter als ‘private set’, speciaal bedoeld om toekomstige AI-modellen eerlijk te kunnen testen, zonder dat deze vragen al in hun trainingsdata zijn terechtgekomen. Ook een paar vragen die wij zelf instuurden, kwamen uiteindelijk in de publieke en private dataset terecht.
Een prestatie van formaat
De oprichting van Humanity’s Last Exam vergde 500.000 dollar aan prijzengeld, zo’n 20.000 reviews door menselijke experts en maanden werk van honderden specialisten, verspreid over vijfhonderd instituten en vijfitg landen. Op dit moment presteren zelfs de allernieuwste versies van OpenAI, Google, Anthropic en DeepSeek relatief laag: ze beantwoorden tussen de drie en negen procent van de antwoorden correct. Je zou kunnen denken dat dit suggereert dat AI nog ver afstaat van menselijke intelligentie. Maar dat beeld moet worden genuanceerd: veel van de vragen zijn zo specialistisch dat slechts een paar doorgewinterde experts het antwoord zouden weten. Bovendien was de eerste vereiste dat (voorgaande versies van) deze modellen het antwoord niet kenden. Bij bepaalde vragen is zelfs niet zeker of er überhaupt iemand is die de kwestie direct kan oplossen zonder diepgaand vooronderzoek. Dat AI-systemen hierbij ‘slechts’ enkele procenten scoren, is dus niet meteen een schande – het zegt vooral dat de lat extreem hoog ligt.
Enkele voorbeelden geven een indruk van de diepgang en diversiteit. Zo is er in de categorie ‘filosofie’ de volgende puzzel:
Suppose the following four sentences to be true:
- Cats eat mice.
- Dogs are strictly carnivore.
- Mice are actually vegetables.
- Dogs are actually cats.
How many of subsets of these four sentences are inconsistent?
In de natuurkunde bijvoorbeeld verschijnt een meer kwantitatief probleem:
A block is placed on a horizontal rail, along which it can slide frictionlessly. It is attached to the end of a rigid, massless rod of length R. A mass is attached at the other end. Both objects have weight W. The system is initially stationary, with the mass directly above the block. The mass is given an infinitesimal push, parallel to the rail. Assume the system is designed so that the rod can rotate through a full 360 degrees without interruption. When the rod is horizontal, it carries tension T1. When the rod is vertical again, with the mass directly below the block, it carries tension T2. (Both these quantities could be negative, which would indicate that the rod is in compression.) What is the value of (T1 − T2)/W?
Ook in de categorie wiskunde en klassieke talen zijn er soortgelijke hersenkrakers, soms voorzien van figuren of zeldzame tekstfragmenten. Het gaat dikwijls om onbekende stellingen, die enkel specialisten kennen of die een zeer uitvoerige redenering vereisen.
Tegelijk is het opmerkelijk dat de meeste AI-modellen met hoge zelfverzekerdheid (‘confidence’) antwoorden: rond de negentig procent gemiddeld, zelfs al is hun antwoord duidelijk fout. Deze discrepantie tussen feitelijke prestaties en zelfingeschat vertrouwen wijst op de kern van een potentieel probleem: grote taalmodellen kunnen enorm geloofwaardig klinken, en toch redeneren ze soms fundamenteel verkeerd. Dat onderstreept het belang van nieuwe evaluatiestrategieën: hoe hoger de expertise van AI, hoe gevaarlijker het kan zijn als ze met rotsvast vertrouwen verkeerde conclusies trekt.
Wat als we het antwoord zelf ook niet meer weten?
De grens van de menselijke kennishorizon verschuift steeds. Humanity’s Last Exam laat zien hoe lastig het is om vragen te formuleren die AI niet kan oplossen. Toch zal ook deze benchmark vroeg of laat tekortschieten door de snelle vooruitgang van taalmodellen. We komen in een terrein waar niemand een antwoord met zekerheid weet: als zelfs experts twijfelen, hoe controleren we dan of de AI correct redeneert? Daarom stijgt de interesse in ‘chain-of-thought’-methoden, waarbij AI haar denkstappen expliciet toont. Ook nieuwe ‘verificatiesystemen’ die bepalen of een antwoord correct is krijgen nu meer aandacht. Voor domeinen zoals programmeren en wiskunde is dat redelijk goed te doen—een compiler of formele bewijschecker geeft zwart-witfeedback—maar in veel andere gebieden bestaan zulke systemen niet, waardoor we moeilijker kunnen vaststellen of de AI gelijk heeft of gewoon plausibel klinkt.f
Een spiegel voor mens en AI
Humanity’s Last Exam is een competitie, die AI-bedrijven ondertussen al zijn aangegaan. Zo heeft OpenAI begin februari een nieuwe functionaliteit, genaamd Deep Research, gelanceerd die al 26.6% behaalt op Humanity's Last Exam. Toch is het examen meer dan een competitie alleen: het is een spiegel voor de mensheid. De potentie van AI dwingt ons tot nadenken over transparantie, verantwoordelijkheid en samenwerking: beschouwen we AI als concurrent die we moeten verslaan, of als partner bij complexe uitdagingen? De grote investeringen in prijzengeld en menselijk kapitaal illustreren hoezeer we zoeken naar robuuste evaluaties, maar ook hoe moeizaam die zoektocht is. Zodra AI echt op niveau komt, rijst de vraag of we de modellen eindeloos moeten testen met steeds moeilijker vragen, of ze juist kunnen loslaten op de échte, onopgeloste vragen —van fundamentele wetenschap tot klimaatuitdagingen. In die domeinen leidt een niet-menselijk perspectief misschien tot verrassende, baanbrekende inzichten. Dan wordt het belangrijk dat AI niet alleen geloofwaardig praat en plausibele antwoorden genereert, maar ook verifieerbare denkstappen biedt, zeker als niemand vooraf weet welke oplossing “juist” is. Zo wordt dit ‘laatste examen’ een test voor onszelf: hoe we AI omarmen, sturen en benutten, en of we openstaan voor soms raadselachtige, maar mogelijk briljante vondsten die ons eigen denken voorbijstreven.