MIT-forskare har upptäckt hur man genom att utnyttja begreppet symmetri inom dataset kan minska den datavolym som behövs för att träna modeller.
Denna upptäckt, som dokumenterats i en studie kan hämtas via ArXiv av Behrooz Tahmasebi, doktorand vid MIT, och hans handledare Stefanie Jegelka, docent vid MIT, har sina rötter i en matematisk insikt från en hundra år gammal lag som kallas Weyls lag.
Weyls lag, som ursprungligen formulerades av den tyske matematikern Hermann Weyl för över 110 år sedan, utformades för att mäta komplexiteten i spektral information, t.ex. vibrationerna i musikinstrument.
Tahmasebi blev inspirerad av denna lag när han studerade differentialekvationer och såg dess potential att minska komplexiteten i datainmatningen till neurala nätverk. Genom att förstå de symmetrier som finns i ett dataset kan en maskininlärningsmodell göras effektivare och snabbare utan att man behöver lägga till mer data numeriskt.
Tahmasebi och Jegelkas artikel förklarar hur man genom att utnyttja symmetrier, eller "invarianter", inom dataset kan förenkla maskininlärningsuppgifter, vilket i sin tur kräver mindre träningsdata.
Det låter väldigt komplext, men principen är relativt enkel. Tänk till exempel på bokstaven "X" - oavsett om du roterar den eller vänder den, ser den fortfarande ut som en "X". När modeller inom maskininlärning förstår den här idén kan de lära sig mer effektivt. De inser att även om en bild av en katt vänds upp och ner eller speglas, så visar den fortfarande en katt.
Detta hjälper modellen att använda sina data på ett bättre sätt, lära sig av varje exempel på flera sätt och minska behovet av en enorm mängd data för att uppnå korrekta resultat.
Den här studien går dock djupare än symmetri i konventionell mening. Invarianterna i Kernel Ridge Regression (KRR) omfattar symmetriska transformationer som rotationer, reflektioner och andra dataegenskaper som förblir oförändrade under specifika operationer.
"Så vitt jag vet är det första gången Weyls lag används för att fastställa hur maskininlärning kan förbättras genom symmetri", säger Tahmasebi.
Forskningen presenterades ursprungligen vid konferensen Neural Information Processing Systems i december 2023.
Detta är särskilt viktigt inom områden som beräkningskemi och kosmologi, där kvalitetsdata är begränsade. Glesa data är vanligt inom områden där datamängderna är exceptionellt stora, men i själva verket är användbara data i datamängderna mycket begränsade.
I rymdens oändlighet kan du till exempel hitta en liten fläck med användbar data bland ett ofattbart stort hav av ingenting - så du måste få den där dataflecken att fungera - och symmetri är ett bra verktyg för att uppnå det.
Soledad Villar, tillämpad matematiker vid Johns Hopkins University, säger om studien: "Modeller som uppfyller symmetrierna i problemet är inte bara korrekta utan kan också ge förutsägelser med mindre fel, med hjälp av en liten mängd träningspunkter."
Fördelar och resultat
Forskarna identifierade två typer av förbättringar genom att använda symmetrier: en linjär boost, där effektiviteten ökar i proportion till symmetrin, och en exponentiell vinst, som ger en oproportionerligt stor fördel när man har att göra med symmetrier som spänner över flera dimensioner.
"Det här är ett nytt bidrag som i princip säger oss att symmetrier av högre dimension är viktigare eftersom de kan ge oss en exponentiell vinst", säger Tahmasebi.
Låt oss bryta ner detta ytterligare:
- Använda symmetrier för att förbättra data: Genom att känna igen mönster eller symmetrier i data (som hur ett objekt ser likadant ut även när det roteras eller vänds) kan en maskininlärningsmodell lära sig som om den har mer data än den faktiskt gör. Detta tillvägagångssätt ökar modellens effektivitet, så att den kan lära sig mer från mindre.
- Förenkla inlärningsuppgiften: Deras andra upptäckt handlar om att göra modellens funktioner enklare genom att fokusera på dessa symmetrier. Eftersom modellen lär sig att ignorera förändringar som inte spelar någon roll (som ett objekts position eller orientering), måste den hantera mindre komplicerad information. Detta innebär att modellen kan uppnå goda resultat med färre exempel, vilket påskyndar inlärningsprocessen och förbättrar prestandan.
Haggai Maron, datavetare vid Technion och NVIDIA, berömde arbetet för dess nya perspektiv, berättar för MIT, "Detta teoretiska bidrag ger matematiskt stöd till det framväxande delområdet 'Geometric Deep Learning'."
Forskarna lyfter direkt fram den potentiella effekten inom beräkningskemi, där principerna från deras studie till exempel skulle kunna påskynda läkemedelsupptäcktsprocesser.
Genom att utnyttja symmetrier i molekylstrukturer kan maskininlärningsmodeller förutsäga interaktioner och egenskaper med färre datapunkter, vilket gör screening av potentiella läkemedelssubstanser snabbare och mer effektiv.
Symmetrier kan också vara till hjälp vid analys av kosmiska fenomen, där datamängderna är extremt stora men där det finns få användbara data.
Exempel på detta kan vara att utnyttja symmetrier för att studera den kosmiska bakgrundsstrålningen eller galaxernas struktur för att få ut mer av begränsade data.