Data-analyses hebben steeds meer invloed op alle facetten van het voetbal én voorspellen de loop van een toernooi. 'Big data hebben een nieuw voetbaltijdperk ingeluid.'
De frons op het gezicht van Cristiano Ronaldo toen hij vorige maand met nog 18 minuten te spelen uit de wedstrijd tussen Manchester United en Newcastle werd gehaald, sierde de voorpagina van heel wat internationale sportkranten. Maar de Portugese superster staat niet alleen in zijn gevoel. Weinig voetballers zijn het eens met de beslissing van een manager om hen te vervangen door een frisse speler.
Tijdens het komende wereldkampioenschap voetbal in Qatar zullen spelers een meer op feiten gebaseerde manier hebben om meer speeltijd op het veld te bepleiten. Binnen enkele minuten na het laatste fluitsignaal sturen de organisatoren van het toernooi elke speler een gedetailleerd overzicht van zijn prestaties. Spitsen zullen kunnen aantonen hoe vaak ze hebben gelopen en hoe vaak ze werden genegeerd. Verdedigers krijgen gegevens over hoe vaak ze de tegenstander afhielden als die balbezit had.
Het is de laatste meest recente introductie van data in het voetbal. Data-analyse helpt nu bij het sturen van zowat alles, van transfers van spelers en de intensiteit van trainingen, tot het aanpakken van tegenstanders en het aanbevelen van de beste richting om de bal te trappen op elk punt van het veld.
Ondertussen worden voetballers geconfronteerd met het soort data-analyses dat we eerder met ruimtevaarders associëren. Draagbare vesten en banden registreren nu bewegingen, bepalen de positie van de speler met een gps en tellen zelfs het aantal schoten met elke voet. Camera's leggen vanuit verschillende hoeken zowat alles vast, van gewonnen kopduels tot hoe lang spelers de bal vasthouden. En om deze informatie te interpreteren, hebben de meeste topvoetbalteams nu gegevensanalisten in dienst, waaronder wiskundigen, gegevenswetenschappers en natuurkundigen van topbedrijven en laboratoria zoals computerreus Microsoft en CERN, het Europese laboratorium voor deeltjesfysica bij Genève, Zwitserland.
In ruil daarvoor veranderen de inzichten van analisten de manier waarop het spel wordt gespeeld: spitsen schieten minder vaak van afstand, vleugelspelers passen naar een teamgenoot in plaats van de bal voor te zetten en coaches zijn geobsedeerd door het winnen van balbezit hoog op het veld - tactische verschuivingen die allemaal worden ondersteund door harde bewijzen die de intuïtie van een coach ondersteunen.
'Big data hebben een nieuw voetbaltijdperk ingeluid', zegt Daniel Memmert, sportwetenschapper aan de Duitse sportuniversiteit van Keulen. 'Het heeft de filosofie en het gedrag van teams veranderd, de manier waarop ze tegenstanders analyseren en de manier waarop ze talent ontwikkelen en spelers scouten.'
Inspiratie uit honkbal
Een van de bekendste voorbeelden van hoe data de sport veranderen komt uit een ander spel. In zijn boek Moneyball uit 2003 beschrijft Michael Lewis hoe manager Billy Beane van de Oakland Athletics in 2002 met een klein budget een winnend honkbalteam op de been bracht. Beane rekruteerde spelers op basis van gedetailleerde gegevens over hun prestaties, inclusief voorheen ondergewaardeerde metingen, zoals hoe vaak een slagman een honk haalde.
Beane had een voordeel ten opzichte van degenen die de truc probeerden te herhalen in het voetbal. 'Voetbal is veel complexer dan honkbal,' zegt Memmert. Honkbal is een natuurlijk stop-start spel waarin slechts één team tegelijk probeert te scoren, en honkbalstatistieken worden al tientallen jaren routinematig verzameld en op grote schaal bestudeerd.
Voetbal daarentegen is een vloeiend en weinig scorend 'invasiespel' (waarbij regelmatig terrein wordt gewonnen en afgestaan), en het is veel moeilijker om te registreren wie wat doet en hoe dat het resultaat beïnvloedt. Decennialang hebben voetbalstatistici zich gericht op gescoorde en geïncasseerde doelpunten, en een manier gevonden om die te modelleren om voorspellingen te doen.
Varianten van deze methode worden nog steeds gebruikt om de uitslag van wedstrijden te voorspellen. Een door epidemiologen van de Universiteit van Oxford (VK) ontwikkeld wiskundig model dat ervan uitgaat dat gescoorde en geïncasseerde doelpunten rond een gemiddelde waarde zijn verdeeld, voorspelde correct dat Italië Engeland zou verslaan Europees Kampioenschap van 2020. Ook werden zes van de acht kwartfinalisten correct voorspeld.
Een dergelijk succes is niet ongebruikelijk. Statistische wedstrijdvoorspellingen zijn nauwkeuriger dan veel mensen beseffen, zegt Matthew Penn, een promovendus in Oxford, die het Euro 2020-model ontwikkelde. 'Je wil elk team een aanvallende en een verdedigende sterkte geven, en dat bereken je op basis van het totale aantal doelpunten dat elk team heeft gescoord en de relatieve moeilijkheidsgraad van hun tegenstanders,' zegt hij. 'Je eindigt met een grote reeks vergelijkingen om deze twee sets sterke punten op te lossen, en dan wordt het heel gemakkelijk om elke wedstrijd te voorspellen.'
Voor het komende WK in Qatar geeft het model van Penn aan dat België de meeste kans maakt om wereldkampioen te worden, gevolgd door Brazilië.
Data voor de perfecte match
Wat voor coaches interessanter is, is informatie over gebeurtenissen op het veld en hoe spelers die hebben beïnvloed.
Voetbalanalisten leggen dit soort informatie al lang vast. Charles Reep, een voormalig boekhouder van de Royal Air Force, keek een groot deel van de jaren vijftig naar wedstrijden in Engeland en maakte basisobservaties van factoren als veldposities en passeerbewegingen. Reep gebruikte zijn gegevens zelfs om teamprestaties te analyseren en suggesties te doen voor strategie en tactiek. Bij Wolverhampton Wanderers Football Club (FC) hielp hij bij de invoering van een directe en doortastende speelstijl die zijwaartse passes afwees en waarmee hij in vijf jaar tijd drie keer kampioen werd.
Moderne technologie maakt dergelijke gegevens zo veel gemakkelijker te verkrijgen en te analyseren dat de meeste topclubs, en veel nationale teams, al meer dan tien jaar geleden begonnen zijn met het in dienst nemen van gegevensanalisten. En het gebruik ervan reikt tot diep in de voetbalpiramide. Naast zijn doctoraatsonderzoek werkt Penn als parttime gegevensanalist voor Oxford City, een semi-professionele club die uitkomt in de National League South, het zesde niveau van het Engelse systeem.
Veel analisten schrijven een deel van het recente succes van de Londense club Brentford FC toe aan een intern algoritme dat spelers in verschillende competities beoordeelt en het team helpt ondergewaardeerde sterren aan te werven. Het datateam van Liverpool FC, waarin natuurkundigen van het CERN en de Universiteit van Cambridge (VK) zitten, heeft een model gebouwd dat kan beoordelen of de acties van een speler op het veld een doelpunt waarschijnlijker maken. En in een partnerschap met FC Barcelona publiceerden sportwetenschappers van de Universiteit van Lissabon, Portugal, vorig jaar een analyse van hoe lang kansen duren voor verschillende soorten passes in een wedstrijd.
'Ik denk dat het nuttigste wat we bij Oxford City doen de rapporten vóór de wedstrijd zijn,' zegt Penn. 'We kijken naar de eigenschappen van de spelers van het andere team en maken dan wat grafieken om te laten zien hoe ze spelen en hoe ze zich door balbezit bewegen. En dan stel ik wat tactische tips of veranderingen voor.'
Voor een recente wedstrijd tegen een voorheen ongeslagen ploeg, stelde Penns analyse vast dat de linksback slecht kopte. 'Dus de suggestie was dat onze grote spits aan de rechterkant van het veld ging staan,' zegt hij. Oxford won de wedstrijd.
Dat is ook het soort inzicht dat met het blote oog van een ervaren scout gemakkelijk te verkrijgen is. Maar, zegt Penn, 'de gegevens zullen minder bevooroordeeld zijn dan iemands mening'.
Clubs hoeven de ruwe gegevens voor dit soort tactische analyses niet zelf te genereren. In plaats daarvan kunnen ze de informatie kopen van commerciële bedrijven die gefilmde wedstrijden coderen om het resultaat van zo'n 3.000 belangrijke gebeurtenissen in de wedstrijd vast te leggen, waaronder dribbels, passes en tackles. Aanvankelijk werden dergelijke gegevens handmatig geregistreerd, maar nu gebeurt dat meestal met behulp van een soort kunstmatige intelligentie (AI) die computer vision wordt genoemd. Vaak gaan deze gegevens vergezeld van samenvattende statistieken, zoals het percentage geslaagde passes van elke speler.
In samenwerking met Penn van Oxford City ontwikkelde Joanna Marks, een student wiskunde aan de Universiteit van Warwick (VK), eerder dit jaar een model om die ruwe gegevens te gebruiken om de passsterkte van alle spelers in de competitie van Oxford te beoordelen - het soort gedetailleerde analyse dat gewoonlijk niet beschikbaar is in de ruwe gegevens die door de bedrijven worden verstrekt.
'Je moet rekening houden met wat voor soort pass ze proberen. Je kunt niet alleen het aantal geslaagde passen nemen, want sommige passen zijn veel moeilijker,' zegt Marks. 'Het model helpt om het team voor te bereiden, want als je weet dat een tegenstander heel goed past vanuit een bepaald deel van het veld, dan weet je waar je op moet letten.'
Ravi Ramineni werkte als data-analist bij Microsoft voordat hij in 2012 overstapte naar een soortgelijke baan bij zijn lokale Amerikaanse Major League Soccer (MLS) club, de Seattle Sounders in Washington. Een van zijn eerste taken was het gebruik van GPS-gegevens over hoe ver de spelers renden, om hun trainingen en voorbereidingsessies te optimaliseren. 'Door deze gegevens tijdens de training te verzamelen, kun je zien of de training vandaag misschien te veel of te weinig was. Dat doe je om te proberen blessures te voorkomen.'
Heeft het gewerkt? 'We hadden een paar heel goede seizoenen toen we de methoden toepasten. Maar ik weet het niet. Het moeilijkste om te kwantificeren is hoeveel blessures we zo vermeden hebben.'
Het gebrek aan zekerheid werpt een probleem op met alle beweringen over de rol van gegevens in sportief succes: er is geen controle-experiment om de doeltreffendheid te controleren. Toch, zegt Ramineni, stonden de coaches in Seattle open voor zijn analyses, zowel tijdens de training als later bij het beoordelen van de krachten van spelers.
'Ik kreeg toegang tot de coaches, en ik kon zelfs direct met spelers gaan praten,' zegt hij. 'Bij andere clubs is dat niet zo. Soms heeft de coach niet eens contact met de dataman.'
Acties buiten beeld
Analisten letten nu steeds meer op wat er gebeurt als spelers de bal niet hebben.
Ramineni: 'Eén ding dat je in de voetbalanalytica steeds hoort, is dat we moeten weten wat de speler buiten de bal doet. Dat is moeilijker en duurder, omdat daarvoor speciale camera's nodig zijn die niet alleen de hoofdactie volgen, maar ook spelers in de gaten houden die niet direct betrokken zijn en hun locaties zo'n 25 keer per seconde registreren. Bedrijven die dit soort gegevens leveren, sluiten vaak exclusieve overeenkomsten met nationale competities', aldus Ramineni, 'wat de toegang voor buitenstaanders bemoeilijkt.'
'Als ik een internationale speler uit Zuid-Amerika of Europa zou scouten voor de MLS, zou ik hun off-the-ball-metriek niet kennen,' zegt hij.
De laatste jaren is een krachtigere techniek ontstaan die AI inzet om de bewegingen van spelers in gefilmde wedstrijden te voorspellen, zelfs wanneer deze niet rechtstreeks door camera's worden vastgelegd. Dit betekent dat databedrijven uitgezonden beelden van wedstrijden (die zonder beperkingen beschikbaar zijn) kunnen gebruiken om uitgebreide analyses te maken van spelers waar ook ter wereld.
Eén zo'n voorspellend model is ontwikkeld door een samenwerkingsverband tussen onderzoekers van DeepMind, het in Londen gevestigde AI-bedrijf dat eigendom is van Google, en het datateam van Liverpool FC3.
'Met dat soort toepassingen kun je vragen gaan stellen over tactieken of counterfactuals,' zegt Ian Graham, de directeur onderzoek van Liverpool FC, die een postdoc in polymeerfysica aan de Universiteit van Cambridge verliet om zich met voetbalstatistieken bezig te gaan houden.
'Voor een specifiek incident in de wedstrijd kan het model duizenden verschillende simulaties produceren over wat er in plaats daarvan had kunnen gebeuren. Zo kun je iets gaan zeggen over hoe goed een aanvalsbeweging in die periode van het spel is verlopen.'
Datateams van clubs delen meestal geen informatie over wat ze precies doen of hoe goed het werkt, dus het publiceren van dit werk was een moeilijke stap voor Liverpool. Maar het was een voorwaarde voor de samenwerking met Deep Mind.
'Liverpool heeft een van de grootste en meest ontwikkelde analytische afdelingen in het voetbal, en we hebben niet de middelen die we nodig hebben om deze modellen zelf te bouwen,' zegt Graham. Dit stelt hem gerust dat geen enkele andere club dat ook kan.
Net als andere data-analisten is Graham terughoudend om direct met de eer te gaan lopen voor succes op het veld. 'Voetbal is een spel met veel variatie, dus teams verliezen vaak wanneer ze niet zouden moeten verliezen en winnen wanneer ze niet zouden moeten winnen', zegt hij. 'In veel opzichten is ons werk gemakkelijker als het team het slecht doet, omdat uit onze analyse vaak blijkt dat we goed hebben gespeeld. En als we zo blijven spelen, zullen we dit seizoen het verwachte aantal wedstrijden winnen.'
Karl Tuyls, een computerwetenschapper bij DeepMind, zegt dat het modelleren buiten de camera om de eerste stap is naar het creëren van een virtuele, AI-gestuurde assistent-coach die real-time gegevens gebruikt om de besluitvorming in het voetbal en andere sporten te sturen. 'Je kunt je voorstellen dat de AI naar de prestaties in de eerste helft kijkt en een verandering in de opstelling voorstelt die het beter zou doen,' zegt hij.
De aanpak zou ook nuttig kunnen zijn buiten het veld, voor taken zoals het modelleren van het traject van zelfrijdende auto's en voetgangers in een drukke straat, voegt Tuyls eraan toe.
Hoe nu verder? Zoals alle goede wetenschappers benadrukken de deskundigen die zich met voetbalgegevens bezighouden dat er nog meer onderzoek nodig is. Sarah Rudd, een voormalige datawetenschapper van Microsoft die Arsenal FC vorig jaar verliet na bijna tien jaar te hebben gewerkt aan analyses voor de Londense club, is dol op de massa's telemetriegegevens die een racewagen produceert en die teams helpen om de prestaties ervan te tweaken en te verbeteren.
'We kijken altijd naar de Formule 1 en zeggen dat het geweldig zou zijn om dat niveau van gegevens te hebben,' zegt ze. 'Er is nog steeds veel in het voetbal dat niet wordt gemeten, of het wordt wel gemeten maar we zijn er nog niet achter hoe we er inzichten uit kunnen halen.'
De volgende stap zou gegevens kunnen zijn die de oriëntatie van spelers laten zien, en zelfs hoe ze hun gewicht verplaatsen. 'De trackinggegevens zijn misschien nog niet op de granulariteit die mensen willen,' zegt Rudd. 'Je pikt nog niet die kleine stotterende stap of gewichtsverplaatsing op die een speler doet om de verdediger uit balans te brengen, of om de keeper een kleine pauze te geven.'
Zelfs de AI-analyse van Liverpool kan worden misleid door onvolledige kennis van de positie van een speler. 'Het model kan zeggen dat deze speler iets slechts deed omdat hij op dit punt had moeten gaan rennen en dat niet deed', zegt Graham. 'Maar dat kan zijn omdat hij net gestruikeld was en op de grond lag.'
Nu het moderne voetbal verdrinkt in gegevens, hoe hebben cijfers het spel veranderd?
'Ik denk dat werving en selectie waarschijnlijk het grootste voordeel oplevert', zegt Ramineni. Een ander gebied is echter in strategieën voor stilstaande fases, wanneer een team een vrije trap krijgt nadat het spel is gepauzeerd.
Een duidelijke les die uit de gegevensanalyse naar voren is gekomen, is dat spelers niet moeten schieten als ze ver van het doel zijn. 'Als je kijkt naar elke competitie in de wereld, was de afstand waarop spelers schoten namen tien jaar geleden veel groter,' zegt Ramineni. 'Dat is allemaal gebeurd omdat data-analytici zijn gaan zeggen: "Waarom schiet je vanaf daar? Het is maar een kans van 2%!'"'
Veel teams ontmoedigen nu ook spelers om lange voorzetten te geven in de richting van het strafschopgebied, voegt hij eraan toe, nadat uit statistieken was gebleken dat de meeste voorzetten zinloos waren.
En naarmate de hoeveelheid gegenereerde gegevens blijft toenemen, zullen ook de kansen op werk toenemen, zegt Ramineni. 'Ik denk dat de voetafdrukken van de data nu overal in de sport te vinden zijn en dat er geen weg meer terug is.'
België wint het WK!
Volgens het statistisch model dat rekening houdt met de aanvallende en verdedigende kracht van elk mannenteam heeft België de grootste kans om het WK te winnen, terwijl Brazilië bovenaan de FIFA-ranglijst staat.