MIT-forskere har fundet ud af, hvordan man ved at udnytte begrebet symmetri i datasæt kan reducere mængden af data, der skal bruges til at træne modeller.
Denne opdagelse er dokumenteret i en undersøgelse kan hentes via ArXiv af Behrooz Tahmasebi, ph.d.-studerende ved MIT, og hans vejleder, Stefanie Jegelka, lektor ved MIT, er forankret i en matematisk indsigt fra en århundrede gammel lov, der er kendt som Weyls lov.
Weyls lov, som oprindeligt blev formuleret af den tyske matematiker Hermann Weyl for over 110 år siden, blev designet til at måle kompleksiteten af spektral information, som f.eks. vibrationerne i musikinstrumenter.
Tahmasebi blev inspireret af denne lov, da han studerede differentialligninger, og så dens potentiale til at reducere kompleksiteten af datainput i neurale netværk. Ved at forstå symmetrier i et datasæt kunne en maskinlæringsmodel gøres mere effektiv og hurtigere uden at tilføje flere data numerisk.
Tahmasebi og Jegelkas artikel forklarer, hvordan udnyttelse af symmetrier eller "invarianser" i datasæt kan forenkle maskinlæringsopgaver, hvilket igen kræver mindre træningsdata.
Det lyder meget komplekst, men princippet er relativt ligetil. Tænk f.eks. på bogstavet "X" - uanset om du roterer det eller vender det, ligner det stadig et "X". Når modeller inden for maskinlæring forstår denne idé, kan de lære mere effektivt. De indser, at selv om et billede af en kat bliver vendt på hovedet eller spejlet, viser det stadig en kat.
Det hjælper modellen med at gøre bedre brug af sine data, lære af hvert eksempel på flere måder og reducere behovet for en enorm mængde data for at opnå præcise resultater.
Denne undersøgelse går dog dybere end symmetri i konventionel forstand. Kernel Ridge Regression (KRR) invarians omfatter symmetriske transformationer som rotationer, refleksioner og andre dataegenskaber, der forbliver uændrede under specifikke operationer.
"Så vidt jeg ved, er det første gang, at Weyls lov er blevet brugt til at bestemme, hvordan maskinlæring kan forbedres af symmetri," siger Tahmasebi.
Forskningen blev oprindeligt præsenteret på konferencen Neural Information Processing Systems i december 2023.
Det er især vigtigt inden for områder som computerbaseret kemi og kosmologi, hvor kvalitetsdata er begrænsede. Sparsomme data er almindelige på områder, hvor datasættene er usædvanligt store, men faktisk er de brugbare data i sættene meget begrænsede.
I rummets uendelighed kan du for eksempel finde et lillebitte stykke brugbart data i et ufatteligt stort hav af ingenting. - så du er nødt til at få det lille stykke data til at fungere - og symmetri er et nyttigt værktøj til at opnå det.
Soledad Villar, en anvendt matematiker ved Johns Hopkins University, bemærkede om undersøgelsen: "Modeller, der opfylder problemets symmetrier, er ikke kun korrekte, men kan også producere forudsigelser med mindre fejl ved hjælp af en lille mængde træningspunkter."
Fordele og resultater
Forskerne identificerede to typer forbedringer ved at bruge symmetrier: et lineært boost, hvor effektiviteten stiger i forhold til symmetrien, og en eksponentiel gevinst, som giver en uforholdsmæssig stor fordel, når man har at gøre med symmetrier, der spænder over flere dimensioner.
"Det er et nyt bidrag, som dybest set fortæller os, at symmetrier i højere dimensioner er vigtigere, fordi de kan give os en eksponentiel gevinst," uddyber Tahmasebi.
Lad os se nærmere på det:
- Brug af symmetrier til at forbedre data: Ved at genkende mønstre eller symmetrier i data (f.eks. hvordan et objekt ser ens ud, selv når det roteres eller vendes), kan en maskinlæringsmodel lære, som om den har flere data, end den faktisk har. Denne tilgang øger modellens effektivitet, så den kan lære mere af mindre.
- Forenkling af læringsopgaven: Deres anden opdagelse handler om at gøre modellens funktioner lettere ved at fokusere på disse symmetrier. Da modellen lærer at ignorere ændringer, der ikke betyder noget (som f.eks. et objekts position eller retning), skal den håndtere mindre komplicerede oplysninger. Det betyder, at modellen kan opnå gode resultater med færre eksempler, hvilket fremskynder læringsprocessen og forbedrer ydeevnen.
Haggai Maron, datalog ved Technion og NVIDIA, roste arbejdet for dets nye perspektiv, fortæller MIT"Dette teoretiske bidrag giver matematisk støtte til det nye underområde 'Geometrisk dyb læring'."
Forskerne fremhæver direkte den potentielle indvirkning på beregningskemi, hvor principperne fra deres undersøgelse f.eks. kan fremskynde lægemiddelopdagelsesprocesser.
Ved at udnytte symmetrier i molekylære strukturer kan maskinlæringsmodeller forudsige interaktioner og egenskaber med færre datapunkter, hvilket gør screening af potentielle lægemiddelforbindelser hurtigere og mere effektiv.
Symmetrier kan også hjælpe med at analysere kosmiske fænomener, hvor datasættene er ekstremt store, men hvor det er sparsomt med brugbare data.
Eksempler kunne være at udnytte symmetrier til at studere kosmisk mikrobølgebaggrundsstråling eller galaksernes struktur for at få mere indsigt ud af begrænsede data.