Eine neue Studie, die in Nature veröffentlicht wurde, zeigt, dass KI-Modelle, einschließlich großer Sprachmodelle (LLMs), schnell an Qualität verlieren, wenn sie mit Daten trainiert werden, die von früheren KI-Modellen erzeugt wurden.
Dieses Phänomen, das als "Modellkollaps" bezeichnet wird, könnte die Qualität künftiger KI-Modelle beeinträchtigen, insbesondere da immer mehr KI-generierte Inhalte im Internet veröffentlicht werden und somit als Trainingsdaten für Modelle wiederverwendet werden.
Um dieses Phänomen zu untersuchen, haben Forscher der Universität Cambridge, der Universität Oxford und anderer Institutionen durchgeführte Experimente die zeigt, dass KI-Modelle, wenn sie wiederholt mit Daten trainiert werden, die von früheren Versionen von ihnen selbst erzeugt wurden, unsinnige Ergebnisse erzeugen.
Dies wurde bei verschiedenen Arten von KI-Modellen beobachtet, darunter Sprachmodelle, Variations-Auto-Encoder und Gaußsche Mischmodelle.
In einem Schlüsselexperiment mit Sprachmodellen stimmte das Team das OPT-125m-Modell auf den WikiText-2-Datensatz ab und verwendete es dann zur Generierung neuer Texte.
Dieser von der KI generierte Text wurde dann verwendet, um die nächste "Generation" des Modells zu trainieren, und der Vorgang wurde immer wieder wiederholt.
Es dauerte nicht lange, bis die Modelle anfingen, immer unwahrscheinlichere und unsinnigere Texte zu produzieren.
In der neunten Generation erzeugte das Modell völliges Kauderwelsch, z. B. listete es mehrere nicht existierende Arten von "Jackrabbits" auf, wenn es nach englischen Kirchtürmen gefragt wurde.
Die Forscher beobachteten auch, wie Modelle Informationen über "seltene" oder seltene Ereignisse verlieren, bevor sie vollständig zusammenbrechen.
Dies ist alarmierend, da seltene Ereignisse oft Randgruppen oder Ausreißer betreffen. Ohne sie besteht die Gefahr, dass die Modelle ihre Antworten auf ein enges Spektrum von Ideen und Überzeugungen konzentrieren und damit Vorurteile verstärken.
KI-Unternehmen sind sich dessen bewusst und schließen daher Verträge mit Nachrichtenunternehmen und Verlagen ab, um sich einen ständigen Strom hochwertiger, von Menschen verfasster und thematisch relevanter Informationen zu sichern.
"Die Botschaft ist, dass wir sehr vorsichtig sein müssen, was in unsere Trainingsdaten einfließt". Studie Mitautor Zakhar Shumaylov von der Universität Cambridge sagte Natur. "Andernfalls werden die Dinge nachweislich immer schief gehen."
Erschwerend kommt hinzu, dass eine aktuelle Studie von Dr. Richard Fletcher, Forschungsdirektor am Reuters Institute for the Study of Journalism, ergab, dass fast die Hälfte (48%) der beliebtesten Nachrichtenseiten weltweit für die Crawler von OpenAI unzugänglich sind, wobei 24% der Seiten für die KI-Crawler von Google gesperrt sind.
Infolgedessen haben KI-Modelle Zugang zu einem kleineren Pool hochwertiger, aktueller Daten als früher, was das Risiko erhöht, dass sie mit minderwertigen oder veralteten Daten trainieren.
Lösungen für den Modellkollaps
Was die Lösungen betrifft, so stellen die Forscher fest, dass die Aufrechterhaltung des Zugangs zu ursprünglichen, von Menschen erstellten Datenquellen für die Zukunft der KI von entscheidender Bedeutung ist.
Die Verfolgung und Verwaltung KI-generierter Inhalte wäre auch hilfreich, um zu verhindern, dass sie versehentlich Trainingsdaten verunreinigen. Das wäre sehr knifflig, da KI-generierte Inhalte nicht mehr zu erkennen sind.
Die Forscher schlagen vier Hauptlösungen vor:
- Wasserzeichen für KI-generierte Inhalte, um sie von von Menschen erstellten Daten zu unterscheiden
- Schaffung von Anreizen für Menschen, weiterhin hochwertige Inhalte zu produzieren
- Entwicklung ausgefeilterer Filter- und Kuratierungsmethoden für Trainingsdaten
- Erkundung von Möglichkeiten zur Erhaltung und Priorisierung des Zugangs zu ursprünglichen, nicht von der KI generierten Informationen
Der Zusammenbruch von Modellen ist ein echtes Problem
Diese Studie ist bei weitem nicht die einzige, die den Zusammenbruch von Modellen untersucht.
Vor nicht allzu langer Zeit haben Forscher aus Stanford zwei Szenarien verglichen in denen es zu einem Zusammenbruch des Modells kommen kann: eine, bei der die Trainingsdaten jeder neuen Modelliteration die vorherigen Daten vollständig ersetzen, und eine andere, bei der synthetische Daten zum bestehenden Datensatz hinzugefügt werden.
Als die Daten ersetzt wurden, verschlechterte sich die Modellleistung bei allen getesteten Architekturen rapide.
Wenn die Daten jedoch "akkumuliert" werden konnten, wurde ein Zusammenbruch des Modells weitgehend vermieden. Die KI-Systeme behielten ihre Leistung bei und zeigten in einigen Fällen sogar Verbesserungen.
Trotz glaubwürdiger Bedenken ist der Zusammenbruch des Modells also keine ausgemachte Sache - es hängt davon ab, wie viele KI-generierte Daten in dem Datensatz enthalten sind und wie hoch das Verhältnis zwischen synthetischen und echten Daten ist.
Wenn sich der Modellkollaps bei Frontier-Modellen bemerkbar macht, können Sie sicher sein, dass die KI-Unternehmen nach einer langfristigen Lösung suchen werden.
So weit sind wir noch nicht, aber es könnte eine Frage des Wann und nicht des Ob sein.