Een nieuw systeem dat in staat is te liplezen, zelfs wanneer sprekers mondmaskers dragen, kan bijdragen aan de ontwikkeling van een nieuwe generatie hoortoestellen.
Ongeveer vijf procent van de wereldbevolking - ongeveer 430 miljoen mensen - heeft een vorm van slechthorendheid. Momenteel helpen de meeste hoortoestellen slechthorenden door alle omgevingsgeluiden om hen heen te versterken.
Dat is meestal nuttig, maar niet in luidruchtige situaties zoals een druk feestje. Het brede versterkingsspectrum van de traditionele hoortoestellen maakt het daar voor gebruikers net moeilijker om zich te concentreren op specifieke geluiden, zoals de woorden van hun gesprekspartner doorheen alle andere geluiden op de achtergrond.
Een mogelijke oplossing voor dit cocktailparty-effect is het maken van ‘slimme’ hoortoestellen. Die combineren conventionele geluidsversterking met een tweede apparaat dat extra gegevens verzamelt voor betere prestaties. Er zijn onderzoekers die met succes gebruik hebben gemaakt van camera's om te helpen bij het liplezen. Maar het verzamelen van videobeelden van mensen zonder hun uitdrukkelijke toestemming botst met de richtlijnen rond privacy. Camera's kunnen ook niet liplezen door maskers heen, wat in tijden van covid een dagelijkse uitdaging was voor slechthorenden, maar speelt ook bij mensen die gezichtsbedekkingen dragen omwille van culturele of religieuze redenen.
Een internationaal team van ingenieurs en computerwetenschappers onder leiding van de Universiteit van Glasgow zette geavanceerde sensortechnologie in om te liplezen. Ze koppelden voor het eerst radiofrequentiesensoren aan kunstmatige intelligentie om lipbewegingen te identificeren.
Klinkerklanken
Om het systeem te ontwikkelen, vroegen de onderzoekers mannelijke en vrouwelijke vrijwilligers om de vijf klinkerklanken (A, E, I, O en U) eerst ongemaskerd en daarna met een chirurgisch masker op te herhalen. Terwijl de vrijwilligers de klinkers herhaalden, werd hun gezicht gescand met radiofrequentiesignalen van zowel een speciale radarsensor als een wifi-zender. Hun gezichten werden ook gescand terwijl hun lippen stilstonden.
Vervolgens werden de 3.600 gegevens die tijdens de scans werden verzameld, gebruikt om machine learning- en deep learning-algoritmen te 'leren' hoe ze de karakteristieke lip- en mondbewegingen die bij elke klinkerklank horen, kunnen herkennen.
De onderzoekers toonden aan dat het systeem meestal in staat was om klinkerklanken op de lippen van de vrijwilligers correct te lezen, zelfs wanneer hun mond bedekt was. Wifi-gegevens werden door de lerende algoritmen tot 95 procent van de tijd correct geïnterpreteerd voor ongemaskerde lippen en 80 procent voor gemaskerde. De radargegevens werden tot 91 procent correct geïnterpreteerd zonder masker en 83 procent van de tijd met een masker.
Het systeem verzamelt alleen radiofrequentiegegevens, zonder begeleidende videobeelden. De privacy van de gesprekspartners komt daardoor niet in het gedrang.