Smartphonespel helpt onbekende eiwitten identificeren

27 februari 2015 door TN

In twee papers in Nature Biotechnology presenteert Lennart Martens, verbonden aan de VIB en UGent, een oplossing om die enorme berg data over eiwitten te verwerken. En dat met behulp van een simpel spelletje op uw smartphone.

Eiwitten. Ons lichaam zit er vol mee. Ze halen energie uit voeding, geven structuur aan cellen en transporteren stoffen doorheen het hele lijf. Maar veel eiwitten zijn een mysterie voor de wetenschap. In twee papers in Nature Biotechnology presenteert Lennart Martens, verbonden aan de VIB en UGent, een oplossing om die enorme berg data over eiwitten te verwerken. En dat met behulp van een simpel spelletje op uw smartphone.

In 2003 begon Martens in Cambridge een databank te bouwen die PRIDE heet, PRoteomics IDEntifications. In die databank deponeerden onderzoekers de afgelopen jaren een enorme hoeveelheid aan massaspectrometrische data over eiwitten. De spectra in de databank zijn peptides, stukjes eiwit, en de computer analyseert die als ze wil achterhalen tot welke eiwitten ze behoren. ‘De manier waarop we nu spectra analyseren is eigenlijk vrij eenvoudig’, verklaart Martens. ‘Een speciaal stukje software gaat naar de eiwitstalen kijken en probeert elk van de mogelijkheden uit een databank van gekende eiwitten toe te passen op zo’n spectrum. De software vergelijkt dus spectra met wat er gekend is en controleert of het overeenkomt. Het is dus een soort patroonherkenning, zoals een databank van vingerafdrukken doorzoeken bij de politie.’

Er komt nog wel één extra stap bij kijken. ‘De software kan ons niet zeggen wat juist en fout is. De matching score die toegekend wordt zegt enkel: dit lijkt er sterk op, dit wat minder, en het is dan aan ons om te zeggen wat juist is en wat niet. Daarom hebben we een tool geschreven, de PeptideShaker, om deze scores in detail te analyseren. De PeptideShaker, een zip-file die je gewoon kan downloaden, connecteert naar de publieke PRIDE-databank en laat alle data zien die er in zit, met alle beschikbare meta-informatie erbij. Je kan één of meerdere van die datasets aanklikken, die worden dan automatisch gedownload en opnieuw geanalyseerd op je computer.’

Maar er is meer. In een gewone analyse wordt van de tienduizenden spectra maar een klein deel geïdentificeerd, pakweg 20 procent. ‘Van 80 procent van de data die de massaspectrometrie opnam weten we niet wat het is. Dat kan allerlei redenen hebben. Een deel ervan is gewoon slecht: de spectra zijn niet afkomstig van peptiden of het signaal is niet helder genoeg.’ Een ander deel kan wel aan eiwitten gelinkt zijn, alleen zijn die nog niet gekend, of zijn ze chemisch veranderd. Er kunnen bijvoorbeeld suikers of vetten aan de eiwitten binden, waardoor de vingerafdruk van die peptiden varieert. ‘Van sommige eiwitten weten we niet dat ze bestaan. We hebben ze nog nooit gezien en hebben geen flauw idee hoe ze er uit zien. En dan wordt het natuurlijk moeilijk om aan patroonmatching te doen met die spectra. Het is alsof je vingerafdrukken gaat vergelijken van mensen waarvan je niet eens weet dat ze bestaan.’

PRIDE bevat momenteel zo’n 700 miljoen spectra, ongeveer de helft is vandaag al publiek toegankelijk, de rest wordt dat in de nabije toekomst. Maar ongeveer 80 procent is dus niet geïdentificeerd en die onbekende eiwitten bevat mogelijk interessante nieuwe kennis. Daarom willen de onderzoekers zelf de spectra bekijken om er rechtstreeks uit te lezen wat de structuur van het eiwit was. Een moeilijke taak, verklaart Martens. ‘Die spectra zijn complex, het zijn geen heldere signalen want naast die vingerafdruk van het eiwit zit er nog van alles anders in. Er zijn wel zogenaamde ‘de novo’-algoritmen die dit probleem proberen aan te pakken, maar zelfs voor die tools is dat een te zware opgave. Ons idee was dan ook om uit al die spectra diegene te selecteren die kwalitatief in orde zijn en die in een eenvoudig spelletje te steken waar mensen hun eigen inzicht kunnen toepassen in de identificatie van die spectra.’ Want computers zijn dan wel supersnel in rekenen, de creativiteit nodig voor deze taak is toch nog iets waar de menselijke geest beter in is.

Huisjes bouwen

Die creativiteit leidde tot de ontwikkeling van het computerspel waar momenteel nog volop aan gewerkt wordt. De gratis app moet in de loop van het jaar uitkomen. Peptiden analyseren wordt dan een simpel en snel tijdverdrijf: spelers krijgen op hun scherm het plan van een straat met vrije bouwgronden te zien en moeten die zo goed mogelijk opvullen met een reeks gebouwen. De wetenschap erachter is natuurlijk iets ingewikkelder. Een spectrum is eigenlijk een reeks pieken op een grafiek met de gemeten massa’s van de peptide op de x-as en de hoeveelheid of intensiteit van die massa’s op de y-as. De afstand tussen die pieken bepaalt de breedte van de bouwgrond. De gebouwen vertegenwoordigen dan weer de aminozuren waar een peptide uit bestaat. Elk gebouw heeft een andere breedte omdat aminozuren onderling verschillen in structuur. Bedoeling is de gebouwen zo goed mogelijk in te passen in de bouwgronden van de straat.

Maar voor een goede score moet je ook zo hoog mogelijk bouwen. De hoogte van het gebouw hangt af van de massa-intensiteit, in het spel simpel voorgesteld als laag-, midden- of hoog-intense bouwgrond. ‘De bedoeling is om op een bepaalde manier een optimale uitkomst te bekomen, namelijk dat je zo hoog mogelijk kunt bouwen, zoals in Hongkong of Manhattan, om zo veel mogelijk kamers te voorzien in de straat. Het wetenschappelijke idee erachter is simpelweg dat een signaal met hogere intensiteit een grotere kans heeft om deel van de vingerafdruk uit te maken.’

‘Het idee, en ik denk dat dat wel vrij revolutionair is, is dat wij in de achtergrond software draaien die naar de oplossing van de speler kijkt en van daar uit verder doorrekent. Want als de door de gebruiker gezette gebouwen juist zijn, kan de computer met wat verder rekenen die score nog verbeteren.’ Dus: zelfs slechte spelers kunnen door de computer na een paar dagen rekenen alsnog plots bovenaan de highscore worden geplaatst, omdat hun oplossing de computer hielp de eiwitvingerafdruk correct te analyseren.

Martens tast in het duister over hoeveel mensen er mee gaan spelen en wat het spel uiteindelijk kan opleveren. ‘Dat is net het mooie eraan. Het is echt een sprong in het onbekende. We hebben geen flauw idee wat er in die 80 procent van de spectra zit en we kunnen ons dus niet voorstellen wat er gaat uitkomen. Wat je vindt is per definitie onbekend dus alles wat er uit komt is een nieuwe ontdekking. En met zo veel data voorhanden is er een heel mooie opportuniteit om meer fundamenteel inzicht te krijgen in de samenstelling van ons proteoom, de verzameling van alle eiwitten in ons lichaam.’ PRIDE bevat immers veel menselijke data. Maar er zijn ook eiwitgegevens van planten, muizen, vliegen, bacteriën of pathogenen in te vinden. ‘Dat zijn de twee interessante dingen. Je leert je eigen biochemie kennen als mens, maar je hebt ook directe medische toepassingen doordat we via dit onderzoek bijvoorbeeld tuberculose of malaria beter leren begrijpen.’ Wie vond ook al weer dat smartphonespelletjes nutteloos tijdverdrijf zijn?

Meer citizen science op ons portaal: http://eoswetenschap.eu/citizenscience