Forscher der New York University entwickeln KI, die mit den Augen eines Kindes sieht

2. Februar 2024

Kinderaugen AI

Forscher der New York University ließen sich von den Lernprozessen von Kindern inspirieren, um ein KI-System zu trainieren. 

Die Methode, die in der Zeitschrift Wissenschaftermöglicht es der KI, aus ihrer Umgebung zu lernen, ohne dass sie in hohem Maße auf markierte Daten angewiesen ist, was der Schlüssel zum Design der Studie ist.

Es spiegelt wider, wie Kinder lernen, indem sie große Mengen an Informationen aus ihrer Umgebung aufnehmen und sich allmählich ein Bild von der Welt um sie herum machen.

Das Team erstellte einen Datensatz aus 60 Stunden Videoaufnahmen aus der ersten Person, die von einer am Kopf getragenen Kamera von Kindern im Alter von sechs Monaten bis zwei Jahren gemacht wurden, um die Perspektive eines Kindes in ihrem KI-Modell nachzubilden. 

Anschließend trainierten die Forscher ein KI-Modell für selbstüberwachtes Lernen (SSL) mit dem Videodatensatz, um herauszufinden, ob die KI das Konzept von Handlungen und Veränderungen erfassen kann, indem sie zeitliche oder zeitbezogene Informationen in den Videos analysiert, wie es Kinder tun.

SSL-Ansätze ermöglichen es KI-Modellen, Muster und Strukturen in den Daten ohne explizite Kennzeichnung zu lernen.

Studienautor Emri Orhan, schreibt in seinem Forschungsbloghatte sich zuvor für eine stärkere Fokussierung auf SSL in der KI-Forschung ausgesprochen, die seiner Meinung nach für das Verständnis komplexer Lernprozesse von zentraler Bedeutung ist. 

Orhan schrieb: "Es wird oft behauptet, dass Kinder die Bedeutungen von Wörtern sehr effizient lernen. So wird beispielsweise behauptet, dass Kinder in ihrem zweiten Lebensjahr im Durchschnitt einige Wörter pro Tag lernen. Dies deutet darauf hin, dass sie wahrscheinlich in der Lage sind, die meisten ihrer Wörter mit nur einer Handvoll Expositionen zu lernen (vielleicht oft nur mit einer einzigen Exposition), ein Phänomen, das auch als Fast Mapping bekannt ist".

Die Studie sollte auch klären, ob die KI eingebaute Vorurteile oder "Abkürzungen" braucht, um effektiv zu lernen, oder ob sie durch allgemeine Lernalgorithmen ein Verständnis der Welt entwickeln kann, ähnlich wie ein Kind es tut. 

Die Ergebnisse waren verblüffend. Obwohl das Video nur etwa 1% der wachen Stunden des Kindes abdeckt, konnte das KI-System zahlreiche Wörter und Konzepte lernen, was die Effizienz des Lernens aus begrenzten, aber gezielten Daten zeigt.

Die Ergebnisse umfassen:

  • Leistung der Handlungserkennung: Die KI-Modelle, die auf dem SAYCam-Datensatz trainiert wurden, waren bei der Erkennung von Handlungen in Videos sehr effektiv. Bei Tests mit feinkörnigen Handlungserkennungsaufgaben wie Kinetics-700 und Something-Something-V2 (SSV2) zeigten die Modelle eine beeindruckende Leistung, selbst bei einer geringen Anzahl von beschrifteten Beispielen für das Training.
  • Vergleich mit Kinetics-700-Datensatz: Die mit SAYCam trainierten Modelle wurden mit Modellen verglichen, die auf Kinetics-700, einem vielfältigen Datensatz kurzer YouTube-Clips, trainiert wurden. Bemerkenswerterweise schnitten die SAYCam-Modelle konkurrenzfähig ab, was darauf hindeutet, dass die kindzentrierten, entwicklungsrealistischen Videodaten eine reichhaltige Lernumgebung für die KI boten, ähnlich oder sogar besser als die vielfältigen Inhalte auf YouTube.
  • Fähigkeit zur Videointerpolation: Ein interessantes Ergebnis war die Fähigkeit der Modelle, Videointerpolation durchzuführen, d. h. fehlende Segmente in einer Videosequenz vorherzusagen. Dies zeigt, dass sie die zeitliche Dynamik und Kontinuität in visuellen Szenen verstehen und die Art und Weise widerspiegeln, wie Menschen Handlungen wahrnehmen und vorhersagen.
  • Robuste Objektdarstellungen: Die Studie ergab auch, dass mit Videos trainierte Modelle robustere Objektrepräsentationen entwickelten als solche, die mit statischen Bildern trainiert wurden. Dies zeigte sich bei Aufgaben, die die Erkennung von Objekten unter verschiedenen Bedingungen erforderten, was den Wert zeitlicher Informationen beim Erlernen belastbarerer und vielseitigerer Modelle unterstreicht.
  • Datenskalierung und Modellleistung: Die Forschung untersuchte, wie sich die Leistung der Modelle mit zunehmenden Videodaten aus dem SAYCam-Datensatz verbesserte. Dies deutet darauf hin, dass der Zugang zu umfangreicheren, realistischen Daten die Modellleistung erhöht.

Wai Keen Vong, Forscher am Center for Data Science der NYU, erörterte die Neuartigkeit dieses AnsatzesWir zeigen zum ersten Mal, dass ein neuronales Netzwerk, das mit diesem entwicklungsrealistischen Input eines einzelnen Kindes trainiert wurde, lernen kann, Wörter mit ihren visuellen Entsprechungen zu verknüpfen", heißt es darin. 

Zu den Problemen, mit denen moderne generative KI-Modelle konfrontiert sind, sagte Vong: "Die heutigen hochmodernen KI-Systeme werden mit astronomischen Datenmengen (oft Milliarden/Billionen von Wörtern) trainiert, während der Mensch Sprache mit weitaus weniger Daten (Hunderte von Millionen von Wörtern) erlernen und verwenden kann, so dass die Verbindung zwischen diesen Fortschritten im maschinellen Lernen und dem menschlichen Spracherwerb nicht klar ist."

Das Interesse an neuartigen, "leichtgewichtigen" Methoden des maschinellen Lernens nimmt zu. Zum einen sind kolossale monolithische Modelle wie GPT-3 und GPT-4 einen immensen Leistungsbedarf haben die nicht leicht zu befriedigen sind. 

Zweitens: Schaffung von bioinspirierte KI-Systeme ist der Schlüssel zur Entwicklung von Modellen oder Robotern, die authentisch "denken" und sich "verhalten", wie wir es tun.

Vong wies auch auf die Einschränkungen der Studie hin: "Eine Einschränkung ist, dass die Sprache, die in das Modell eingegeben wird, Text ist und nicht das Sprachsignal, das die Kinder empfangen.

Diese Studie stellt herkömmliche KI-Trainingsmodelle in Frage und leistet einen Beitrag zum laufenden Diskurs über die effektivsten Methoden zur Nachahmung des biologischen Lernens.

Das Interesse an diesem Thema wird zunehmen, wenn die riesigen KI-Modelle beginnen, Grenzen für die Zukunft aufzuzeigen. 

Join The Future


HEUTE ABONNIEREN

Klar, prägnant, umfassend. Behalten Sie den Überblick über KI-Entwicklungen mit DailyAI

Sam Jeans

Sam ist ein Wissenschafts- und Technologiewissenschaftler, der in verschiedenen KI-Startups gearbeitet hat. Wenn er nicht gerade schreibt, liest er medizinische Fachzeitschriften oder kramt in Kisten mit Schallplatten.

×

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus

Melden Sie sich für unseren wöchentlichen Newsletter an und erhalten Sie exklusiven Zugang zum neuesten eBook von DailyAI: 'Mastering AI Tools: Ihr Leitfaden für mehr Produktivität im Jahr 2024".

*Mit der Anmeldung zu unserem Newsletter akzeptieren Sie unsere Datenschutzbestimmungen und unsere Bedingungen und Konditionen