Investigadores del MIT han descubierto cómo aprovechar el concepto de simetría en los conjuntos de datos puede reducir el volumen de datos necesarios para entrenar modelos.
Este descubrimiento, documentado en un estudio recuperable a través de ArXiv por Behrooz Tahmasebi, estudiante de doctorado del MIT, y su asesora, Stefanie Jegelka, profesora asociada del MIT, tiene su origen en una idea matemática de una ley centenaria conocida como ley de Weyl.
La ley de Weyl, formulada originalmente por el matemático alemán Hermann Weyl hace más de 110 años, se diseñó para medir la complejidad de la información espectral, como las vibraciones de los instrumentos musicales.
Inspirado por esta ley mientras estudiaba ecuaciones diferenciales, Tahmasebi vio su potencial para reducir la complejidad de la introducción de datos en las redes neuronales. Al comprender las simetrías inherentes a un conjunto de datos, un modelo de aprendizaje automático podía hacerse más eficiente y rápido sin necesidad de añadir más datos numéricamente.
El artículo de Tahmasebi y Jegelka explica cómo explotar las simetrías, o "invarianzas", dentro de los conjuntos de datos puede simplificar las tareas de aprendizaje automático y, a su vez, requerir menos datos de entrenamiento.
Suena muy complejo, pero el principio es relativamente sencillo. Por ejemplo, pensemos en la letra "X": tanto si la giramos como si la volteamos, sigue pareciendo una "X". En el aprendizaje automático, cuando los modelos entienden esta idea, pueden aprender de forma más eficiente. Se dan cuenta de que aunque la imagen de un gato se dé la vuelta o se refleje, sigue mostrando un gato.
Esto ayuda al modelo a hacer un mejor uso de sus datos, aprendiendo de cada ejemplo de múltiples maneras y reduciendo la necesidad de una enorme cantidad de datos para lograr resultados precisos.
Sin embargo, este estudio va más allá de la simetría en un sentido convencional. Las invarianzas de la regresión Kernel Ridge (KRR) abarcan transformaciones simétricas como rotaciones, reflexiones y otras características de los datos que permanecen inalteradas bajo operaciones específicas.
"Que yo sepa, es la primera vez que se utiliza la ley de Weyl para determinar cómo puede mejorarse el aprendizaje automático mediante la simetría", declaró Tahmasebi.
La investigación se presentó inicialmente en la conferencia Neural Information Processing Systems de diciembre de 2023.
Esto es especialmente crucial en campos como la química computacional y la cosmología, donde los datos de calidad son limitados. Los datos dispersos son habituales en campos donde los conjuntos de datos son excepcionalmente grandes, pero en realidad, los datos útiles dentro de los conjuntos son muy limitados.
Por ejemplo, en la inmensidad del espacio, se puede encontrar una pequeña mota de datos útiles en un mar insondable de nada. - así que hay que hacer que esa mota de datos funcione, y la simetría es una herramienta útil para lograrlo.
Soledad Villar, matemática aplicada de la Universidad Johns Hopkins, señaló sobre el estudio: "Los modelos que satisfacen las simetrías del problema no sólo son correctos, sino que también pueden producir predicciones con errores más pequeños, utilizando una pequeña cantidad de puntos de entrenamiento."
Beneficios y resultados
Los investigadores identificaron dos tipos de mejoras derivadas de la utilización de simetrías: un aumento lineal, en el que la eficiencia aumenta en proporción a la simetría, y una ganancia exponencial, que ofrece un beneficio desproporcionadamente grande cuando se trata de simetrías que abarcan múltiples dimensiones.
"Se trata de una nueva contribución que básicamente nos está diciendo que las simetrías de mayor dimensión son más importantes porque pueden darnos una ganancia exponencial", detalló Tahmasebi.
Vamos a desglosarlo un poco más:
- Utilizar simetrías para mejorar los datos: Al reconocer patrones o simetrías en los datos (por ejemplo, cómo un objeto tiene el mismo aspecto aunque esté girado o volteado), un modelo de aprendizaje automático puede aprender como si tuviera más datos de los que realmente tiene. Este enfoque aumenta la eficiencia del modelo, permitiéndole aprender más con menos.
- Simplificar la tarea de aprendizaje: Su segundo hallazgo consiste en facilitar las funciones del modelo centrándose en estas simetrías. Como el modelo aprende a ignorar los cambios que no importan (como la posición o la orientación de un objeto), tiene que tratar con información menos complicada. Esto significa que el modelo puede obtener buenos resultados con menos ejemplos, lo que acelera el proceso de aprendizaje y mejora el rendimiento.
Haggai Maron, informático de Technion y NVIDIA, elogió el trabajo por su novedosa perspectiva, al MIT, "Esta contribución teórica presta apoyo matemático al subcampo emergente del "aprendizaje profundo geométrico"".
Los investigadores destacan directamente el impacto potencial en la química computacional, donde los principios de su estudio podrían acelerar los procesos de descubrimiento de fármacos, por ejemplo.
Al aprovechar las simetrías de las estructuras moleculares, los modelos de aprendizaje automático pueden predecir interacciones y propiedades con menos puntos de datos, lo que agiliza y hace más eficaz el cribado de posibles fármacos.
Las simetrías también podrían ayudar a analizar los fenómenos cósmicos, en los que los conjuntos de datos son extremadamente grandes y, sin embargo, están escasamente poblados de datos útiles.
Algunos ejemplos podrían ser el aprovechamiento de las simetrías para estudiar la radiación cósmica de fondo de microondas o la estructura de las galaxias, con el fin de extraer más información a partir de datos limitados.