Para entrenar un clasificador de imágenes de inteligencia artificial o un sistema de visión por ordenador es necesario tener acceso a un gran conjunto de datos de imágenes. Investigadores del MIT han encontrado una forma de reducir nuestra dependencia de los datos reales para la clasificación de imágenes.
Cuando subes una imagen de un gato y le pides a ChatGPT que te explique qué es la imagen, es capaz de hacerlo porque ha sido entrenado con miles de imágenes de gatos que tenían etiquetas de texto asociadas.
Esas imágenes de entrenamiento tenían que venir de algún sitio. Uno de los conjuntos de datos utilizados para entrenar Difusión estableLAION-5B es una colección de miles de millones de imágenes extraídas de Internet y combinadas con descripciones de texto.
Pero, ¿qué hacemos cuando necesitamos más datos para entrenar un modelo pero hemos agotado el conjunto de imágenes reales que tenemos?
Un equipo de investigadores del MIT abordó este problema de escasez de datos creando su propio conjunto de datos sintéticos.
Su planteamiento, llamado StableRep, utiliza una estrategia llamada "aprendizaje contrastivo multipositivo". Suena complicado, pero en realidad el concepto es bastante sencillo.
Solicitan al generador de imágenes de Stable Diffusion una descripción de texto y, a continuación, hacen que genere varias imágenes. Suponiendo que Stable Diffusion haya hecho un buen trabajo, ahora tienen una colección de imágenes que coinciden con la solicitud inicial.
StableRep trata estas imágenes como positivas entre sí y aprende conceptos de alto nivel que explican por qué estas imágenes son buenas coincidencias semánticas para la pregunta inicial.
El equipo entrenó su modelo de clasificación de imágenes con las imágenes generadas por la IA y le dio un pequeño aumento de rendimiento con supervisión lingüística para llegar finalmente a StableRep+.
¿Qué tal se le daría a StableRep+ la clasificación de imágenes, ya que sólo "ve" imágenes generadas por la IA?
Cuando se entrenó con 20 millones de imágenes sintéticas, StableRep+ fue más preciso y eficaz que los modelos CLIP entrenados con 50 millones de imágenes reales. Los investigadores siguen trabajando para entender la razón de este rendimiento superior.
Aún quedan algunos problemas, pero el uso de datos de entrenamiento sintéticos como estos resuelve muchos de ellos. cuestiones relativas a la recogida de datos como el coste, los derechos de autor y los problemas de privacidad relacionados con las imágenes reales.
Los retos de este enfoque incluyen el coste computacional y el tiempo necesario para generar millones de imágenes para el conjunto de datos. Además, StableRep sigue basándose en un generador de imágenes entrenado con imágenes reales para producir los datos sintéticos.
Cualquier sesgo en la indicación de texto o el etiquetado de datos en el conjunto de datos de imágenes reales también se transfiere al nuevo modelo entrenado con datos sintéticos.
A pesar de las dificultades, los resultados de StableRep son prometedores. El aumento de la diversidad que pueden aportar los datos sintéticos podría reducir la dependencia de los científicos de datos de los datos reales, caros y limitados, a la hora de entrenar nuevos modelos.