MIT-onderzoekers hebben ontdekt hoe het gebruik van het concept symmetrie binnen datasets de hoeveelheid gegevens kan verminderen die nodig is voor het trainen van modellen.
Deze ontdekking, gedocumenteerd in een onderzoek opvraagbaar via ArXiv door Behrooz Tahmasebi, een MIT Ph.D. student, en zijn adviseur, Stefanie Jegelka, een universitair hoofddocent bij MIT, is geworteld in een wiskundig inzicht van een eeuwenoude wet die bekend staat als de wet van Weyl.
De wet van Weyl, oorspronkelijk meer dan 110 jaar geleden geformuleerd door de Duitse wiskundige Hermann Weyl, werd ontworpen om de complexiteit van spectrale informatie te meten, zoals de trillingen van muziekinstrumenten.
Geïnspireerd door deze wet tijdens zijn studie differentiaalvergelijkingen, zag Tahmasebi de mogelijkheid om de complexiteit van gegevensinvoer in neurale netwerken te verminderen. Door symmetrieën te begrijpen die inherent zijn aan een dataset, kon een model voor machinaal leren efficiënter en sneller worden gemaakt zonder numeriek meer gegevens toe te voegen.
Het artikel van Tahmasebi en Jegelka legt uit hoe het benutten van symmetrieën, of "invarianties", binnen datasets machine-learningtaken kan vereenvoudigen, waardoor minder trainingsgegevens nodig zijn.
Dat klinkt heel ingewikkeld, maar het principe is relatief eenvoudig. Denk bijvoorbeeld aan de letter 'X' - of je hem nu draait of spiegelt, hij ziet er nog steeds uit als een 'X'. Bij machinaal leren kunnen modellen efficiënter leren als ze dit idee begrijpen. Ze realiseren zich dat zelfs als een afbeelding van een kat ondersteboven wordt gedraaid of wordt gespiegeld, het nog steeds een kat toont.
Dit helpt het model om beter gebruik te maken van de gegevens, door op meerdere manieren van elk voorbeeld te leren en de behoefte aan een enorme hoeveelheid gegevens voor nauwkeurige resultaten te verminderen.
Deze studie gaat echter verder dan symmetrie in conventionele zin. Kernel Ridge Regression (KRR) invarianties omvatten symmetrische transformaties zoals rotaties, reflecties en andere gegevenskenmerken die onveranderd blijven onder specifieke bewerkingen.
"Voor zover ik weet is dit de eerste keer dat de wet van Weyl is gebruikt om te bepalen hoe machinaal leren kan worden verbeterd door symmetrie", aldus Tahmasebi.
Het onderzoek werd in eerste instantie gepresenteerd op de conferentie Neural Information Processing Systems in december 2023.
Dit is vooral cruciaal in gebieden als computationele chemie en kosmologie, waar de kwaliteit van gegevens beperkt is. Dunne gegevens komen vaak voor op gebieden waar datasets uitzonderlijk groot zijn, maar eigenlijk zijn de bruikbare gegevens binnen de sets zeer beperkt.
In de uitgestrektheid van de ruimte kun je bijvoorbeeld een klein vlekje nuttige gegevens vinden in een onpeilbaar grote zee van niets... - Dus je moet dat vlekje gegevens laten werken - en symmetrie is een nuttig hulpmiddel om dat te bereiken.
Soledad Villar, een toegepast wiskundige aan de Johns Hopkins University, merkte over het onderzoek op: "Modellen die voldoen aan de symmetrieën van het probleem zijn niet alleen correct, maar kunnen ook voorspellingen produceren met kleinere fouten, met behulp van een kleine hoeveelheid trainingspunten."
Voordelen en resultaten
De onderzoekers identificeerden twee soorten verbeteringen door gebruik te maken van symmetrieën: een lineaire verbetering, waarbij de efficiëntie evenredig toeneemt met de symmetrie, en een exponentiële verbetering, die een onevenredig groot voordeel biedt bij symmetrieën die meerdere dimensies omvatten.
"Dit is een nieuwe bijdrage die ons eigenlijk vertelt dat symmetrieën van hogere dimensies belangrijker zijn omdat ze ons een exponentiële winst kunnen geven," legde Tahmasebi uit.
Laten we dit verder uitwerken:
- Symmetrieën gebruiken om gegevens te verbeteren: Door patronen of symmetrieën in de gegevens te herkennen (zoals hoe een object er hetzelfde uitziet, zelfs als het gedraaid of omgedraaid is), kan een model voor machinaal leren leren alsof het meer gegevens heeft dan in werkelijkheid het geval is. Deze aanpak verhoogt de efficiëntie van het model, waardoor het meer kan leren van minder.
- De leertaak vereenvoudigen: Hun tweede bevinding gaat over het vergemakkelijken van de functies van het model door zich te richten op deze symmetrieën. Omdat het model leert om veranderingen die er niet toe doen (zoals de positie of oriëntatie van een object) te negeren, hoeft het met minder ingewikkelde informatie om te gaan. Dit betekent dat het model goede resultaten kan behalen met minder voorbeelden, wat het leerproces versnelt en de prestaties verbetert.
Haggai Maron, een computerwetenschapper bij Technion en NVIDIA, prees het werk voor het nieuwe perspectief, MIT vertellen, "Deze theoretische bijdrage geeft wiskundige ondersteuning aan het opkomende deelgebied 'Geometrisch Diep Leren'."
De onderzoekers benadrukken direct de potentiële impact in de computationele chemie, waar de principes uit hun studie bijvoorbeeld processen voor het ontdekken van medicijnen zouden kunnen versnellen.
Door gebruik te maken van symmetrieën in moleculaire structuren kunnen modellen voor machinaal leren interacties en eigenschappen voorspellen met minder datapunten, waardoor het screenen van potentiële geneesmiddelen sneller en efficiënter verloopt.
Symmetrieën zouden ook kunnen helpen bij het analyseren van kosmische verschijnselen, waar datasets extreem groot zijn, maar dunbevolkt met bruikbare gegevens.
Voorbeelden hiervan zijn het gebruik van symmetrieën voor het bestuderen van de kosmische achtergrondstraling of de structuur van sterrenstelsels om meer inzicht te krijgen uit beperkte gegevens.