MIT-Forscher haben herausgefunden, wie das Konzept der Symmetrie in Datensätzen die für das Training von Modellen erforderliche Datenmenge reduzieren kann.
Diese Entdeckung, dokumentiert in einer Studie abrufbar über ArXiv von Behrooz Tahmasebi, einem MIT-Doktoranden, und seiner Betreuerin Stefanie Jegelka, einer außerordentlichen Professorin am MIT, beruht auf einer mathematischen Erkenntnis, die auf einem jahrhundertealten Gesetz beruht, dem so genannten Weylschen Gesetz.
Das Weylsche Gesetz, das der deutsche Mathematiker Hermann Weyl vor über 110 Jahren formulierte, wurde entwickelt, um die Komplexität spektraler Informationen zu messen, z. B. die Schwingungen von Musikinstrumenten.
Während seines Studiums der Differentialgleichungen wurde Tahmasebi von diesem Gesetz inspiriert und erkannte dessen Potenzial, die Komplexität der Dateneingabe in neuronale Netze zu verringern. Durch das Verständnis der einem Datensatz innewohnenden Symmetrien könnte ein maschinelles Lernmodell effizienter und schneller werden, ohne dass mehr Daten numerisch hinzugefügt werden müssten.
In der Arbeit von Tahmasebi und Jegelka wird erläutert, wie die Ausnutzung von Symmetrien oder "Invarianten" innerhalb von Datensätzen Aufgaben des maschinellen Lernens vereinfachen kann, was wiederum weniger Trainingsdaten erfordert.
Das hört sich sehr komplex an, aber das Prinzip ist relativ simpel. Denken Sie zum Beispiel an den Buchstaben "X" - ob Sie ihn drehen oder spiegeln, er sieht immer noch wie ein "X" aus. Wenn Modelle beim maschinellen Lernen diese Idee verstehen, können sie effizienter lernen. Sie erkennen, dass das Bild einer Katze, auch wenn es auf den Kopf gestellt oder gespiegelt wird, immer noch eine Katze zeigt.
Dies hilft dem Modell, seine Daten besser zu nutzen, indem es aus jedem Beispiel auf vielfältige Weise lernt und den Bedarf an einer großen Datenmenge reduziert, um genaue Ergebnisse zu erzielen.
Diese Studie geht jedoch über die Symmetrie im herkömmlichen Sinne hinaus. Kernel Ridge Regression (KRR) Invarianzen umfassen symmetrische Transformationen wie Drehungen, Spiegelungen und andere Datenmerkmale, die bei bestimmten Operationen unverändert bleiben.
"Soweit ich weiß, ist dies das erste Mal, dass das Weylsche Gesetz verwendet wurde, um festzustellen, wie maschinelles Lernen durch Symmetrie verbessert werden kann", so Tahmasebi.
Die Forschungsergebnisse wurden erstmals im Dezember 2023 auf der Konferenz Neural Information Processing Systems vorgestellt.
Dies ist vor allem in Bereichen wie der computergestützten Chemie und der Kosmologie wichtig, wo die Qualität der Daten begrenzt ist. Spärliche Daten sind üblich in Bereichen, in denen die Datensätze außergewöhnlich groß sind, aber die tatsächlich nützlichen Daten innerhalb der Sätze sehr begrenzt sind.
In den Weiten des Weltraums könnte man beispielsweise ein winziges Fleckchen nützlicher Daten in einem unergründlich großen Meer von Nichts finden - Sie müssen also dafür sorgen, dass dieser Datenfleck funktioniert - und dabei ist die Symmetrie ein hilfreiches Instrument.
Soledad Villar, Wissenschaftlerin für angewandte Mathematik an der Johns Hopkins University, sagte zu der Studie: "Modelle, die die Symmetrien des Problems erfüllen, sind nicht nur korrekt, sondern können auch Vorhersagen mit geringeren Fehlern liefern, und das bei einer geringen Anzahl von Trainingspunkten."
Nutzen und Ergebnisse
Die Forscher stellten zwei Arten von Verbesserungen durch die Nutzung von Symmetrien fest: eine lineare Steigerung, bei der die Effizienz proportional zur Symmetrie zunimmt, und einen exponentiellen Gewinn, der bei Symmetrien, die sich über mehrere Dimensionen erstrecken, einen unverhältnismäßig großen Vorteil bietet.
"Dies ist ein neuer Beitrag, der uns im Grunde sagt, dass Symmetrien höherer Dimensionen wichtiger sind, weil sie uns einen exponentiellen Gewinn bringen können", erläuterte Tahmasebi.
Lassen Sie uns dies weiter aufschlüsseln:
- Verwendung von Symmetrien zur Verbesserung von Daten: Durch das Erkennen von Mustern oder Symmetrien in den Daten (z. B. dass ein Objekt auch dann noch gleich aussieht, wenn es gedreht oder gespiegelt wird) kann ein maschinelles Lernmodell so lernen, als ob es mehr Daten hätte, als es tatsächlich hat. Dieser Ansatz steigert die Effizienz des Modells und ermöglicht es ihm, aus weniger Daten mehr zu lernen.
- Vereinfachung der Lernaufgabe: Ihre zweite Erkenntnis besteht darin, dass die Funktionen des Modells durch die Konzentration auf diese Symmetrien einfacher werden. Da das Modell lernt, Änderungen zu ignorieren, die keine Rolle spielen (wie die Position oder Ausrichtung eines Objekts), muss es mit weniger komplizierten Informationen umgehen. Das bedeutet, dass das Modell mit weniger Beispielen gute Ergebnisse erzielen kann, was den Lernprozess beschleunigt und die Leistung verbessert.
Haggai Maron, Informatiker am Technion und bei NVIDIA, lobte die Arbeit für ihre neuartige Perspektive, MIT erzählenDieser theoretische Beitrag bietet mathematische Unterstützung für das aufkommende Teilgebiet des "Geometrischen Deep Learning".
Die Forscher weisen direkt auf die möglichen Auswirkungen in der Computerchemie hin, wo die Prinzipien ihrer Studie beispielsweise die Entdeckung von Medikamenten beschleunigen könnten.
Durch die Ausnutzung von Symmetrien in Molekülstrukturen können Modelle des maschinellen Lernens Wechselwirkungen und Eigenschaften mit weniger Datenpunkten vorhersagen, was das Screening potenzieller Arzneimittelverbindungen schneller und effizienter macht.
Symmetrien könnten auch bei der Analyse kosmischer Phänomene helfen, bei denen die Datensätze zwar extrem groß, aber nur spärlich mit nützlichen Daten bestückt sind.
So könnten beispielsweise Symmetrien zur Untersuchung der kosmischen Mikrowellenhintergrundstrahlung oder der Struktur von Galaxien genutzt werden, um mehr Erkenntnisse aus begrenzten Daten zu gewinnen.