Neue selbstlernende Sprachmodelle des MIT können andere LLMs schlagen

Juni 5, 2023

Neue selbstlernende Sprachmodelle des MIT
Die neuen selbstlernenden Sprachmodelle des MIT basieren nicht auf LLMs (Large Language Models), können diese aber übertreffen.

In den letzten sechs Monaten haben wir einen revolutionären Boom von KI-gestützte LLMs (Large Language Models) stehen im Mittelpunkt. Aber ist es immer notwendig, dass ein KI-Produkt oder -Dienst auf LLMs basiert? Einem Papier zufolge basieren die neuen selbstlernenden Sprachmodelle des MIT nicht auf LLMs und können einige der anderen großen KI-Systeme, die derzeit in der Branche führend sind, übertreffen.

Eine Gruppe von Forschern des MIT Computer Science and Artificial Intelligence Laboratory (CSAIL) hat einen neuen Ansatz für KI-Sprachmodelle entwickelt.

Dies ist eine bahnbrechende Errungenschaft, die den Schwerpunkt auf kleinere Sprachmodelle und deren Fähigkeit legt, Probleme der Ineffizienz sowie Datenschutzbedenken zu lösen, die mit der Entwicklung großer KI-Modelle auf der Grundlage von Textdaten verbunden sind.

Mit dem Aufkommen von OpenAIs ChatGPT, das auf den Sprachmodellen GPT-3 und GPT-4 basiert, haben sich viele Unternehmen dem KI-Wettlauf angeschlossen, darunter Google Bard und andere generative KI Systeme, mit denen Menschen Texte, Bilder und sogar Videos erstellen können.

Um eine einwandfreie Qualität der Ergebnisse zu erzielen, sind diese Systeme jedoch auf eine große Menge an Daten angewiesen, die rechnerisch teuer zu verarbeiten sind. Viele dieser Systeme importieren Daten für das Training über APIs, was eigene Risiken wie Datenlecks und andere Datenschutzbedenken mit sich bringt.

Textliche Erfordernisse

Laut einer neuen Studie mit dem Titel Entailment als robuste Selbstlerner die derzeit im Online-Preprinting-Repository arXiv veröffentlicht wird, stellen die Forscher fest, dass die neuen selbstlernenden Sprachmodelle des MIT das Problem des Verständnisses bestimmter Sprachaufgaben lösen können, das große Sprachmodelle haben. Sie bezeichnen diese bahnbrechende Errungenschaft als "textual entailment".

Die Modelle beruhen auf dem Konzept, dass bei zwei Sätzen - einer Prämisse und einer Hypothese - in dem Fall, in dem eine Prämisse im ersten Satz wahr ist, die Hypothese wahrscheinlich ebenfalls wahr ist.

In einem Anweisung Ein Beispiel für diese Struktur ist, dass die Hypothese "eine gestromte Katze hat einen Schwanz" wahrscheinlich wahr ist, wenn "alle Katzen einen Schwanz haben". Dieser Ansatz führt zu weniger Verzerrungen bei AI-ModelleDadurch sind die neuen selbstlernenden Sprachmodelle des MIT den größeren Sprachmodellen überlegen, heißt es in der Erklärung.

"Unsere selbst trainierten Entailment-Modelle mit 350 Millionen Parametern, ohne von Menschen erstellte Labels, übertreffen überwachte Sprachmodelle mit 137 bis 175 Milliarden Parametern", sagte MIT CSAIL Postdoctoral Associate Hongyin Luo, Hauptautorin, in einer Erklärung. "

Er fügte hinzu, dass dieser Ansatz für die derzeitigen KI-Systeme von großem Nutzen sein und die Systeme des maschinellen Lernens so umgestalten könnte, dass sie bei der Arbeit mit Sprachmodellen skalierbarer, vertrauenswürdiger und kostengünstiger sind.

Neue selbstlernende Sprachmodelle des MIT sind noch begrenzt

Auch wenn die neuen selbstlernenden Sprachmodelle des MIT viel versprechen, wenn es um die Lösung von binären Klassifizierungsproblemen geht, sind sie doch auf die Lösung von Mehrklassen-Klassifizierungsproblemen beschränkt. Das bedeutet, dass das textuelle Entailment nicht so gut funktioniert, wenn das Modell mit mehreren Auswahlmöglichkeiten konfrontiert wird.

Laut James Glass, MIT-Professor und CSAIL Principal Investigator, der auch die Studie verfasst hat, könnte diese Forschung Licht auf effiziente und effektive Methoden werfen, um LLMs zu trainieren, um kontextuelle Entailment-Probleme zu verstehen.

"Während der Bereich der LLMs schnelle und dramatische Veränderungen erfährt, zeigt diese Forschung, dass es möglich ist, relativ kompakte Sprachmodelle zu erstellen, die bei Benchmark-Verständnisaufgaben sehr gut abschneiden, verglichen mit ihren Kollegen von ungefähr gleicher Größe oder sogar viel größeren Sprachmodellen", sagte er.

Diese Forschung ist nur der Anfang zukünftiger KI-Technologien, die von selbst lernen und effektiver, nachhaltiger und datenschutzfreundlicher sein könnten. Das Papier über die neuen selbstlernenden Sprachmodelle des MIT wird im Juli auf der Tagung der Association for Computational Linguistics in Toronto vorgestellt. Das Projekt wird außerdem unterstützt von der Hongkong-Programm "Innovation AI.

Join The Future


HEUTE ABONNIEREN

Klar, prägnant, umfassend. Behalten Sie den Überblick über KI-Entwicklungen mit DailyAI

Danica Simic

Danica ist eine Datenwissenschaftlerin mit mehr als 7 Jahren Erfahrung in KI und Big Data. Sie hat Fachinhalte für Unternehmen wie ValueWalk und IntegrateAI erstellt und Forschungsarbeiten für die Singidunum University verfasst.

×

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus

Melden Sie sich für unseren wöchentlichen Newsletter an und erhalten Sie exklusiven Zugang zum neuesten eBook von DailyAI: 'Mastering AI Tools: Ihr Leitfaden für mehr Produktivität im Jahr 2024".

*Mit der Anmeldung zu unserem Newsletter akzeptieren Sie unsere Datenschutzbestimmungen und unsere Bedingungen und Konditionen