De wet van Benford is overal

Een merkwaardig wiskundig fenomeen regeert alle getallen rondom ons.

Open je favoriete sociale mediaplatform en noteer hoeveel vrienden of volgers je hebt. Noteer vooral het eerste cijfer van dit getal. Als je bijvoorbeeld 400 vrienden hebt, is het eerste cijfer 4 en als je 79 vrienden hebt, is het 7. Laten we zeggen dat we dit aan veel mensen hebben gevraagd. We kunnen antwoorden over de hele linie verwachten - onze intuïtie suggereert dat het aantal vrienden min of meer willekeurig zou moeten zijn, en daarom zouden de eerste cijfers dat ook moeten zijn, met een gelijke verdeling van 1 tot en met 9.

Vreemd genoeg is dat niet wat we vinden. In plaats daarvan zien we een opvallend onevenwicht. Bijna de helft van het aantal vrienden begint met 1 of 2 en maar een schamele tien procent begint met 8 of 9. Onthoud dat het hier niet gaat om meer of minder vrienden: duizend vrienden is veel meer dan acht.

Die bizarre oververtegenwoordiging van 1 en 2 strekt zich uit van vrienden en volgers tot likes en retweets - en veel verder dan sociale media, tot de uithoeken van de numerieke wereld. Nationale bevolkingsaantallen, rivierlengtes, berghoogtes, sterftecijfers, aandelenkoersen, zelfs de verzameling getallen die je kunt vinden in een typische uitgave van Scientific American.

Niet alleen komen de kleinere cijfers vaker voor, ze volgen ook een nauwkeurig en consistent patroon. Als alle cijfers gelijk vertegenwoordigd waren, dan zouden ze elk een negende (ongeveer 11,1 procent) voorkomen. Maar in een griezelig aantal datasets in de echte wereld begint maar liefst 30,1 procent van de getallen met een 1 en 17,6 procent met een 2. Dit fenomeen staat bekend als de wet van Benford. Hij geldt zelfs als je de eenheden van je gegevens verandert. Meet rivieren in meters of furlongs, meet aandelenkoersen in dollars of dinars - hoe je ook meet, exacte deze verhoudingen van begincijfers blijven bestaan. Hoewel wiskundigen verschillende slimme redenen hebben aangedragen voor het ontstaan van dit patroon, is er geen eenvoudige verklaring voor.

Benford was niet de eerste die de wet van Benford ontdekte. Voordat er rekenmachines waren, besteedden mensen het hachelijke rekenwerk uit aan naslagwerken die logaritmetabellen werden genoemd. In 1881 merkte astronoom Simon Newcomb op dat de eerste pagina's van logaritmetabellen - die met de getallen die met 1 beginnen - groezelig en versleten waren in vergelijking met de latere pagina's. Hij leidde daaruit af dat de kleinere eerste cijfers meer moesten voorkomen in natuurlijke datasets, en hij publiceerde de juiste percentages. Natuurkundige Frank Benford deed dezelfde observatie in 1938 en populariseerde de wet. Hij verzamelde meer dan 20.000 datapunten om aan te tonen dat die alomtegenwoordig was.

De wet van Benford heeft al mensen achter de tralies gekregen. Financieel adviseur Wesley Rhodes werd veroordeeld voor het oplichten van investeerders. De aanklagers voerden in de rechtszaal aan dat zijn documenten niet overeenkwamen met de verwachte verdeling van begincijfers en daarom waarschijnlijk vervalst waren. Het principe hielp ook computerwetenschapper Jennifer Golbeck bij het ontdekken van een Russisch botnetwerk op Twitter. Ze merkte op dat het aantal volgers van de meeste gebruikers overeenkomt met de wet van Benford, maar dat kunstmatige accounts aanzienlijk afwijken van het patroon.

Voorbeelden van de toepassing van de wet van Benford bij het opsporen van fraude zijn legio, van het manipuleren van macro-economische gegevens door Griekenland bij zijn aanvraag om toe te treden tot de eurozone tot het vervalsen van de stemmen bij de presidentsverkiezingen in Iran in 2009. De boodschap is duidelijk: organische processen genereren getallen met kleine begincijfers, terwijl naïeve methoden om gegevens te vervalsen dat niet doen.