MIT-forskere har avdekket hvordan man ved å utnytte symmetri i datasett kan redusere datamengden som trengs for å trene opp modeller.
Denne oppdagelsen, dokumentert i en studie kan hentes via ArXiv av Behrooz Tahmasebi, doktorgradsstudent ved MIT, og hans veileder, Stefanie Jegelka, førsteamanuensis ved MIT, er forankret i en matematisk innsikt fra en hundre år gammel lov som er kjent som Weyls lov.
Weyls lov, som opprinnelig ble formulert av den tyske matematikeren Hermann Weyl for over 110 år siden, ble utviklet for å måle kompleksiteten i spektral informasjon, som for eksempel vibrasjonene i musikkinstrumenter.
Tahmasebi ble inspirert av denne loven da han studerte differensialligninger, og så at den kunne brukes til å redusere kompleksiteten i datainput til nevrale nettverk. Ved å forstå symmetrier i et datasett kunne en maskinlæringsmodell gjøres mer effektiv og raskere uten å legge til mer data numerisk.
Tahmasebi og Jegelkas artikkel forklarer hvordan utnyttelse av symmetrier, eller "invarianser", i datasett kan forenkle maskinlæringsoppgaver, noe som i sin tur krever mindre treningsdata.
Det høres veldig komplisert ut, men prinsippet er relativt enkelt. Tenk for eksempel på bokstaven "X" - uansett om du roterer den eller snur den, ser den fortsatt ut som en "X". Når modeller innen maskinlæring forstår denne ideen, kan de lære mer effektivt. De skjønner at selv om et bilde av en katt snus opp ned eller speilvendes, viser det fortsatt en katt.
Dette bidrar til at modellen utnytter dataene bedre, lærer av hvert eksempel på flere måter og reduserer behovet for store datamengder for å oppnå nøyaktige resultater.
Denne studien går imidlertid dypere enn symmetri i konvensjonell forstand. Kernel Ridge Regression (KRR) omfatter symmetriske transformasjoner som rotasjoner, refleksjoner og andre dataegenskaper som forblir uendret under spesifikke operasjoner.
"Så vidt jeg vet, er dette første gang Weyls lov har blitt brukt til å finne ut hvordan maskinlæring kan forbedres ved hjelp av symmetri", sier Tahmasebi.
Forskningen ble først presentert på konferansen Neural Information Processing Systems i desember 2023.
Dette er spesielt viktig på felt som beregningskjemi og kosmologi, der det er begrenset med data av høy kvalitet. Sparsomme data er vanlig på områder der datasettene er svært store, men hvor det i realiteten er svært begrenset med nyttige data.
I verdensrommet kan du for eksempel finne en liten flekk med nyttige data i et ufattelig stort hav av ingenting - så du må få dataflekken til å fungere - og symmetri er et nyttig verktøy for å oppnå det.
Soledad Villar, matematiker ved Johns Hopkins University, sier om studien: "Modeller som tilfredsstiller symmetriene i problemet, er ikke bare korrekte, men kan også gi prediksjoner med mindre feil ved hjelp av et lite antall treningspunkter."
Fordeler og resultater
Forskerne identifiserte to typer forbedringer ved bruk av symmetrier: et lineært løft, der effektiviteten øker proporsjonalt med symmetrien, og en eksponentiell gevinst, som gir en uforholdsmessig stor fordel når man har å gjøre med symmetrier som spenner over flere dimensjoner.
"Dette er et nytt bidrag som i bunn og grunn forteller oss at symmetrier av høyere dimensjon er viktigere fordi de kan gi oss en eksponentiell gevinst", utdyper Tahmasebi.
La oss bryte dette ned ytterligere:
- Bruk av symmetrier for å forbedre data: Ved å gjenkjenne mønstre eller symmetrier i dataene (for eksempel hvordan et objekt ser likt ut selv når det roteres eller vendes), kan en maskinlæringsmodell lære som om den har mer data enn den faktisk har. Denne tilnærmingen øker modellens effektivitet, slik at den kan lære mer av mindre.
- Forenkling av læringsoppgaven: Deres andre funn handler om å gjøre modellens funksjoner enklere ved å fokusere på disse symmetriene. Siden modellen lærer seg å ignorere endringer som ikke spiller noen rolle (som posisjonen eller retningen til et objekt), må den forholde seg til mindre komplisert informasjon. Det betyr at modellen kan oppnå gode resultater med færre eksempler, noe som gjør læringsprosessen raskere og ytelsen bedre.
Haggai Maron, datavitenskapsmann ved Technion og NVIDIA, berømmet arbeidet for det nye perspektivet, forteller MIT"Dette teoretiske bidraget gir matematisk støtte til det nye underfeltet "geometrisk dyp læring"."
Forskerne fremhever direkte den potensielle effekten innen beregningskjemi, der prinsippene fra studien deres for eksempel kan fremskynde prosesser for legemiddeloppdagelse.
Ved å utnytte symmetrier i molekylstrukturer kan maskinlæringsmodeller forutsi interaksjoner og egenskaper med færre datapunkter, noe som gjør screening av potensielle legemiddelforbindelser raskere og mer effektiv.
Symmetrier kan også bidra til å analysere kosmiske fenomener, der datasettene er ekstremt store, men likevel tynt befolket av nyttige data.
Eksempler på dette kan være å utnytte symmetrier til å studere kosmisk mikrobølgebakgrunnsstråling eller galaksers struktur for å få mer innsikt fra begrensede data.