Algoritme berekent jouw hoogstpersoonlijk medicijn

Wiskundige modellen kunnen artsen helpen inschatten hoe effectief een geneesmiddel bij een bepaalde patiënt zal zijn en welk middel dus het beste zal helpen. 

Het juiste geneesmiddel voorschrijven is voor een arts vaak een flinke uitdaging. Een geneesmiddel voor kanker of hoge cholesterol werkt maar in op één punt van een kluwen van interacties in ons lichaam. Verder verschilt onze stofwisseling subtiel van persoon tot persoon. Hierdoor reageert elke patiënt mogelijk anders op een behandeling.

De algoritmes die ik in mijn doctoraat heb ontwikkeld kunnen gebruikt worden om een formule te genereren die kan helpen bij gepersonaliseerde geneeskunde. Die formule geeft je de gegevens van de patiënt en een beschrijving van het medicijn. Het resultaat is een voorspelling of dat medicijn een effect zal hebben voor die bepaalde patiënt of niet.

Leren van paren

Het principe van de methodes besproken in mijn doctoraat is vrij eenvoudig. Eerst wordt er een grote dataset verzameld. Deze data zijn een lange lijst van voorbeelden patiënten, welke medicijnen ze genomen hebben en of die medicijnen al dan niet effectief waren. Vervolgens proberen de algoritmes die ik ontwikkeld heb een functie te zoeken die deze data goed beschrijft. Dit proces wordt ‘leren van paren’ genoemd. Het is een specifiek geval van machinaal leren, zelf een tak van de artificiële intelligentie.

De technieken die hier beschreven worden voor gepersonaliseerde geneeskunde zijn in wezen niet zo verschillend van de technieken die Netflix gebruikt om films en series aan te raden op basis van je kijkgedrag. Grote bedrijven zoals Google, Netflix en Amazon gebruiken ‘big data’ om zogenaamde aanbevelingssystemen te bouwen: modellen die kunnen inschatten welk product geschikt is voor jou.

Wat je normaal wekenlang op een supercomputer moet doen kan nu in slechts enkele seconden op een laptop

Wat biologische vraagstukken zoals gepersonaliseerde geneeskunde zoveel interessanter maakt dan wat de grote technologiebedrijven doen, is dat dit veel complexere probleemstellingen zijn. In principe is het mogelijk om op basis van bijvoorbeeld het volledige genoom (alle genetische informatie van een individu) een model voor gepersonaliseerde geneeskunde te bouwen. In de praktijk is het zo goed als onmogelijk om enkel op basis van dergelijke ruwe data zo’n moeilijk probleem op te lossen. Dit is enkel mogelijk als de expertkennis van artsen en biologen naast de data aan het model meegegeven kan worden. Het is bijvoorbeeld geweten dat bepaalde enzymen in de lever hoofdzakelijk verantwoordelijk zijn voor de snelheid waarmee het lichaam een medicijn afbreekt. Enkel door het resultaat van jarenlang onderzoek te combineren met grote datasets zullen de grote biologische problemen opgelost kunnen worden.

Een uitdagende probleemstelling

Werken met grote datasets leidt tot proportioneel grote uitdagingen. Stel dat we de informatie van tienduizend patiënten combineren met die van duizend geneesmiddelen (wat een relatief kleine dataset zou zijn), dan bekomen we een tabel met tien miljoen waarden! In mijn doctoraat heb ik verschillende algoritmes ontwikkeld om hiermee om te gaan. Door wat trucjes uit de lineaire algebra toe te passen, staat de rekentijd slechts in verhouding met het aantal patiënten en geneesmiddelen (duizenden), in plaats van het aantal interacties (miljoenen). Wat je normaal op een supercomputer moet doen in weken kan nu in slechts enkele seconden op een laptop.

Als de arts een wiskundig model gebruikt om het beste geneesmiddel uit te kiezen is het op zijn zachts gezegd interessant om te weten hoe betrouwbaar dat model is. Voor parengewijs leren is de betrouwbaarheid inschatten moeilijker dan voor courante modellen. Dit is omdat dit afhangt van hoe het model gebruikt wordt. Wil de arts een nieuwe patiënt een bekend medicijn aanraden of bekijken of een nieuw medicijn effectief zal zijn in een patiënt? Ik ontwikkelde verschillende formules waarin hetzelfde model bliksemsnel duizenden of miljoenen keren gebouwd kon worden. Voor elk van die vele modellen werd een ander klein stukje van de data telkens niet gebruikt. De stukjes data die telkens niet gebruikt worden dienen dan om een eerlijke inschatting te maken van hoe goed die functie werkt op nieuwe data.

Ook in de natuur en de keuken

Gepersonaliseerde geneeskunde is slechts één van de domeinen waar parengewijs leren in kan toegepast worden. Ook in de keuken doen er zich interessante parenproblemen voor. Of twee ingrediënten op het vlak van smaak bij elkaar passen in een gerecht kan je leren op basis van een reeks van recepten. Zo kunnen computeralgoritmes gebruikt worden om nieuwe smaakcombinaties te ontdekken waar je als mens niet op zou durven komen. Koffie-ijs met chocoladesaus en knoflookpoeder? Lekkerder dan je zou denken.

Tegenwoordig onderzoek ik hoe parengewijs leren gebruikt kan worden om te begrijpen hoe dieren, planten en micro-organismen met elkaar interageren. De klimaatverandering zorgt ervoor dat tal van soorten verdwijnen terwijl andere soorten in de plaats komen. Zo zorgt de verandering in insecten ervoor dat bepaalde planten niet bestoven raken of dat soorten zoals hommels geen voedsel meer vinden. Het complexe netwerk tussen planten en insecten is verantwoordelijk voor het grootste deel van ons voedsel, dus deze interacties zijn vrij belangrijk voor ons als mens.

Het ontwikkelen van algoritmes die leren van paren is een zeer dankbaar onderzoeksgebied omdat het tot zoveel boeiende toepassingen leidt. Hoewel mijn onderzoek in essentie draait rond abstracte concepten als matrices, grafen en hypervlakken, worden die gebruikt om erg tastbare zaken te beschrijven zoals onze gezondheid, het gedrag van dieren, planten en micro-organismen en onze voeding. Hierin schuilt de kracht van wiskunde: het is een exacte manier om de wereld rondom ons beter te begrijpen.

Voor zijn onderzoek naar wiskundige modellen voor gepersonaliseerde geneeskunde is Michiel Stock (Bio-ingenieurswetenschappen, UGent) genomineerd voor de Vlaamse PhD Cup 2017.