Deepmind, de Artificiële Intelligentie (AI)-afdeling van Google, werkt al enige tijd aan Google Street View-beelden die worden getraind door een software agent. De dataset kan daarmee een kaart navigeren zonder nood aan GPS-coördinaten.
Het maakt enkel gebruik van visuele herkenningspunten. De huidige dataset omvat meerdere regio’s binnen stadscentra van Londen, Parijs en New York. De beelden bestaan uit 360 graden panoramafoto’s van straten uit Street View die elk 84 x 84 pixels meten. Raia Hadsell, onderzoek wetenschapper bij DeepMind verwacht dat Google de Streetlearn dataset beschikbaar stelt voor andere onderzoekers vanaf november.
Met de dataset zou je probleemloos kunnen navigeren doorheen de drie steden. Het systeem leert hoe het in een stad moet navigeren dankzij reinforcement learning, een proces dat een reeks neurale netwerken (meerdere lagen) en wiskundemodellen gebruikt. De aanpak is gebaseerd op de structuur van het menselijke brein. In feite leert het model de stad zoals een mens dat leert: door middel van visuele herkenningspunten. Er zijn drie neurale netwerken in de dataset: een convolutional neural network dat de beeldherkenning voor zijn rekening neemt en twee Long Short Term Memory (LSTM) netwerken.
Die laatste dienen als een vorm van geheugen zodat het bredere systeem contextuele data kan overwegen. Door deze drie neurale netwerken te combineren, kan Google een software agent maken die overdraagbaar is naar andere steden door middel van wat hij al geleerd heeft. Hadsell: “Een taxichauffeur in Londen kan even goed naar Parijs gaan en daar rondrijden zonder dat hij opnieuw moet leren rijden. Hij weet hoe hij links of rechts moet afslagen. Hij moet enkel de omgeving leren kennen. Het werkt vandaag, en het zal steeds beter werken naargelang het meer steden leert.”