Investigadores da Universidade de Stanford criaram modelos de IA capazes de identificar o local onde uma fotografia foi tirada com uma precisão notável. Existem bons casos de utilização para a sua solução, mas também será necessário abordar questões éticas importantes.
Se a sua fotografia de férias tiver a Torre Eiffel ou o Monte Rushmore atrás de si, então é bastante fácil dizer onde a fotografia foi tirada. Se a fotografia foi tirada num campo em Illinois com uma árvore aleatória atrás de si, então é muito mais difícil identificar o local.
Este é exatamente o tipo de desafio que mais de 50 milhões de jogadores do GeoGuessr jogo de diversão.
Três investigadores da Universidade de Stanford eram jogadores ávidos do jogo e queriam ver como é que os modelos de IA se sairiam contra os melhores jogadores humanos.
Começaram por utilizar uma rede neural chamada CLIP, desenvolvida pela OpenAI, como base para dois modelos diferentes de geolocalização de imagens.
O primeiro modelo, Predicting Image Geolocations (PIGEON), foi treinado utilizando um conjunto de dados de cerca de 100 000 localizações do jogo GeoGuessr. Para cada local, o PIGEON recebeu um panorama de 360 graus feito a partir de um conjunto de quatro imagens do Google Street View.
O segundo modelo, Predicting Image Geolocations with Omni-Terrain Training Optimizations (PIGEOTTO), foi treinado exclusivamente com base em mais de 4 milhões de imagens do Flickr com etiquetas geográficas de todo o mundo.
Quando lhe foi apresentada uma imagem do Google Street View de qualquer parte do mundo, o PIGEON foi capaz de adivinhar corretamente o país em 95% das vezes e conseguiu escolher a localização a cerca de 16 milhas em pouco mais de 40% das vezes.
Em seguida, os investigadores colocaram o PIGEON contra os melhores jogadores do GeoGuessr, tendo-o vencido por uma margem significativa.
O PIGEOTTO, que é um modelo mais generalizado, superou por larga margem os actuais modelos de ponta em conjuntos de dados de referência de geolocalização.
Quando o PIGEON enfrentou Trevor Rainbolt, considerado um dos melhores geoavaliadores do mundo, venceu-o várias vezes. Faz lembrar um pouco o Deep Blue a vencer Gary Kasparov no xadrez em 1997.
Construímos uma IA para competir contra o melhor jogador de GeoGuessr do mundo e ganhámos! 🔎🌍🏆
Em @geoguessr, >50 milhões de jogadores competem para adivinhar onde estão com base numa localização aleatória no Google Street View. 🗺️
Agradecimentos @georainbolt para o desafio divertido!https://t.co/g7tIeUELz5
- Lukas Haas (@lkshaas) 13 de maio de 2023
Considerações éticas
A utilidade destes modelos vai para além do potencial de batota no GeoGuessr. O jornal referiu que os modelos poderiam ser utilizados em "condução autónoma, navegação, educação geográfica, inteligência de fonte aberta e investigações visuais no jornalismo".
À medida que estes modelos melhoram inevitavelmente a sua precisão, as questões de privacidade tornam-se mais preocupantes. Para além de identificar a sua localização, outras questões de privacidade incluem a capacidade de alguns modelos inferirem rendimentos locais, raça, educação e padrões de votação a partir de dados de geolocalização de imagens.
Existe também um grande interesse por parte dos indústria da defesa no que estes modelos podem fazer. Os investigadores da Universidade de Stanford afirmaram: "Tanto quanto sabemos, este é o primeiro trabalho de geolocalização de imagens de última geração nos últimos cinco anos que não é financiado por contratos militares".
Tal como acontece com muita da tecnologia de IA, os riscos de dupla utilização associados a estes modelos levantam preocupações éticas que terão de ser geridas de alguma forma.
Com empresas como a Meta a treinar os seus modelos nas suas fotografias do Instagram, vale a pena lembrar que as suas selfies revelam mais à IA do que pensa.