O treino de um classificador de imagens de IA ou de um sistema de visão por computador requer o acesso a um grande conjunto de dados de imagens. Os investigadores do MIT descobriram uma forma de reduzir a nossa dependência de dados reais para a classificação de imagens.
Quando carrega uma imagem de um gato e pede ao ChatGPT para explicar o que é a imagem, ele é capaz de o fazer porque foi treinado com milhares de imagens de gatos que tinham etiquetas de texto associadas.
Essas imagens de treino tinham de vir de algum lado. Um dos conjuntos de dados utilizados para treinar Difusão estávelO LAION-5B é uma coleção de milhares de milhões de imagens extraídas da Internet e associadas a descrições de texto.
Mas o que é que fazemos quando precisamos de mais dados para treinar um modelo mas esgotámos o conjunto de imagens reais que temos?
Uma equipa de investigadores do MIT enfrentou este desafio da escassez de dados criando o seu próprio conjunto de dados sintéticos.
A sua abordagem, denominado StableRepO professor de inglês, o professor de português, utiliza uma estratégia chamada "aprendizagem contrastiva multi-positiva". Parece complicado, mas o conceito é de facto bastante simples.
Eles solicitam ao gerador de imagens Stable Diffusion uma descrição de texto e, em seguida, fazem com que ele gere várias imagens. Assumindo que o Stable Diffusion fez um bom trabalho, têm agora uma coleção de imagens que correspondem ao pedido inicial.
O StableRep trata estas imagens como positivas umas das outras e aprende conceitos de alto nível que explicam por que razão estas imagens são boas correspondências semânticas para o pedido inicial.
A equipa treinou o seu modelo de classificação de imagens nas imagens geradas pela IA e deu-lhe um pequeno aumento de desempenho com supervisão linguística para finalmente criar o StableRep+.
Como se sairia o StableRep+ na classificação de imagens, uma vez que só "viu" imagens geradas por IA?
Quando treinado com 20 milhões de imagens sintéticas, o StableRep+ foi mais exato e eficiente do que os modelos CLIP treinados com 50 milhões de imagens reais. Os investigadores ainda estão a tentar compreender a razão por detrás deste desempenho superior.
Ainda existem alguns problemas, mas a utilização de dados de treino sintéticos como este resolve muitos questões relacionadas com a recolha de dados como custos, direitos de autor e preocupações com a privacidade relacionadas com imagens reais.
Os desafios desta abordagem incluem o custo e o tempo de computação para gerar milhões de imagens para o conjunto de dados. E o StableRep continua a depender da utilização de um gerador de imagens que foi originalmente treinado em imagens reais para produzir os dados sintéticos.
Qualquer enviesamento no texto ou na rotulagem de dados no conjunto de dados de imagens reais também é transferido para o novo modelo treinado em dados sintéticos.
Apesar dos desafios, os resultados alcançados pelo StableRep são prometedores. O aumento da diversidade que os dados sintéticos podem proporcionar pode reduzir a dependência dos cientistas de dados em relação a dados reais dispendiosos e limitados quando treinam novos modelos.