Os investigadores utilizam dados sintéticos para treinar um classificador de imagens com IA

27 de novembro de 2023

O treino de um classificador de imagens de IA ou de um sistema de visão por computador requer o acesso a um grande conjunto de dados de imagens. Os investigadores do MIT descobriram uma forma de reduzir a nossa dependência de dados reais para a classificação de imagens.

Quando carrega uma imagem de um gato e pede ao ChatGPT para explicar o que é a imagem, ele é capaz de o fazer porque foi treinado com milhares de imagens de gatos que tinham etiquetas de texto associadas.

Essas imagens de treino tinham de vir de algum lado. Um dos conjuntos de dados utilizados para treinar Difusão estávelO LAION-5B é uma coleção de milhares de milhões de imagens extraídas da Internet e associadas a descrições de texto.

Mas o que é que fazemos quando precisamos de mais dados para treinar um modelo mas esgotámos o conjunto de imagens reais que temos?

Uma equipa de investigadores do MIT enfrentou este desafio da escassez de dados criando o seu próprio conjunto de dados sintéticos.

A sua abordagem, denominado StableRepO professor de inglês, o professor de português, utiliza uma estratégia chamada "aprendizagem contrastiva multi-positiva". Parece complicado, mas o conceito é de facto bastante simples.

Eles solicitam ao gerador de imagens Stable Diffusion uma descrição de texto e, em seguida, fazem com que ele gere várias imagens. Assumindo que o Stable Diffusion fez um bom trabalho, têm agora uma coleção de imagens que correspondem ao pedido inicial.

O StableRep trata estas imagens como positivas umas das outras e aprende conceitos de alto nível que explicam por que razão estas imagens são boas correspondências semânticas para o pedido inicial.

A equipa treinou o seu modelo de classificação de imagens nas imagens geradas pela IA e deu-lhe um pequeno aumento de desempenho com supervisão linguística para finalmente criar o StableRep+.

Como se sairia o StableRep+ na classificação de imagens, uma vez que só "viu" imagens geradas por IA?

Quando treinado com 20 milhões de imagens sintéticas, o StableRep+ foi mais exato e eficiente do que os modelos CLIP treinados com 50 milhões de imagens reais. Os investigadores ainda estão a tentar compreender a razão por detrás deste desempenho superior.

Ainda existem alguns problemas, mas a utilização de dados de treino sintéticos como este resolve muitos questões relacionadas com a recolha de dados como custos, direitos de autor e preocupações com a privacidade relacionadas com imagens reais.

Os desafios desta abordagem incluem o custo e o tempo de computação para gerar milhões de imagens para o conjunto de dados. E o StableRep continua a depender da utilização de um gerador de imagens que foi originalmente treinado em imagens reais para produzir os dados sintéticos.

Qualquer enviesamento no texto ou na rotulagem de dados no conjunto de dados de imagens reais também é transferido para o novo modelo treinado em dados sintéticos.

Apesar dos desafios, os resultados alcançados pelo StableRep são prometedores. O aumento da diversidade que os dados sintéticos podem proporcionar pode reduzir a dependência dos cientistas de dados em relação a dados reais dispendiosos e limitados quando treinam novos modelos.

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Eugene van der Watt

Eugene vem de uma formação em engenharia eletrónica e adora tudo o que é tecnologia. Quando faz uma pausa no consumo de notícias sobre IA, pode encontrá-lo à mesa de snooker.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições