Einblicke in das Gerangel um KI-Trainingsdaten bei Big Tech

8. April 2024
  • Tech-Giganten wie Google, Meta und OpenAI wollen mehr Daten sichern
  • Dies hat dazu geführt, dass sie sich zunehmend auf ethisch und rechtlich fragwürdige Taktiken einlassen
  • OpenAI könnte z. B. YouTube-Transkripte zum Trainieren von GPT-4 verwendet haben.
Daten

Auf der Jagd nach KI-Trainingsdaten haben die Tech-Giganten OpenAI, Google und Meta Berichten zufolge Unternehmensrichtlinien umgangen, ihre Regeln geändert und die Umgehung von Urheberrechtsgesetzen diskutiert. 

A Untersuchung der New York Times zeigt, wie weit diese Unternehmen gehen, um Online-Informationen für ihre datenhungrigen KI-Systeme zu sammeln.

Ende 2021 entwickelten OpenAI-Forscher ein Spracherkennungstool namens Whisper, um YouTube-Videos zu transkribieren, wenn es an seriösen englischsprachigen Textdaten mangelt. 

Trotz interner Diskussionen über einen möglichen Verstoß gegen die YouTube-Regeln, die die Nutzung der Videos für "unabhängige" Anwendungen untersagen, 

Die NYT fand heraus, dass OpenAI letztendlich über eine Million Stunden an YouTube-Inhalten transkribiert hat. Greg Brockman, der Präsident von OpenAI, hat persönlich beim Sammeln der Videos geholfen. Der transkribierte Text wurde dann in GPT-4 eingespeist.

Google soll auch YouTube-Videos transkribiert haben, um Text für seine KI-Modelle zu sammeln, was möglicherweise gegen die Urheberrechte der Videoautoren verstößt.

Dies geschieht wenige Tage nachdem der CEO von YouTube erklärt hat, dass solche Aktivitäten gegen die Geschäftsbedingungen des Unternehmens und untergraben die Schöpfer. 

Im Juni 2023 beantragte die Rechtsabteilung von Google Änderungen an den Datenschutzrichtlinien des Unternehmens, um öffentlich zugängliche Inhalte aus Google Text & Tabellen und anderen Google-Anwendungen für eine breitere Palette von KI-Produkten zu ermöglichen. 

Meta hat angesichts seiner eigenen Datenknappheit verschiedene Möglichkeiten in Betracht gezogen, um mehr Trainingsdaten zu erhalten. 

Die Führungskräfte diskutierten darüber, für Buchlizenzen zu zahlen, den Verlag Simon & Schuster zu kaufen und sogar urheberrechtlich geschütztes Material ohne Erlaubnis aus dem Internet zu holen und damit mögliche Klagen zu riskieren. 

Die Anwälte von Meta argumentierten, dass die Verwendung von Daten zum Trainieren von KI-Systemen unter die "faire Nutzung" fallen sollte und beriefen sich dabei auf ein Gerichtsurteil aus dem Jahr 2015, in dem es um Googles Buchscan-Projekt ging.

Ethische Bedenken und die Zukunft der KI-Trainingsdaten

Die kollektiven Maßnahmen dieser Technologieunternehmen unterstreichen die entscheidende Bedeutung von Online-Daten für die boomende KI-Branche.

Diese Praktiken haben Bedenken hinsichtlich der Verletzung von Urheberrechten und der gerechten Entschädigung von Urhebern aufgeworfen. 

Die Filmemacherin und Autorin Justine Bateman hat dem Copyright Office mitgeteilt, dass KI-Modelle Inhalte - einschließlich ihrer Texte und Filme - ohne Erlaubnis oder Bezahlung übernehmen.

"Dies ist der größte Diebstahl in den Vereinigten Staaten, Punkt", sagte sie in einem Interview.

In der bildenden Kunst wurden MidJourney und andere Bildmodelle nachweislich Urheberrechte erzeugen Inhalte, wie Szenen aus Marvel-Filmen. 

Da einige Experten vorhersagen, dass hochwertige Online-Daten bis 2026 erschöpft sein könnten, erforschen Unternehmen alternative Methoden, wie z. B. die Generierung synthetischer Daten mithilfe von KI-Modellen selbst. Synthetische Trainingsdaten sind jedoch mit eigenen Risiken und Herausforderungen verbunden und könnten sich nachteilig auswirken Auswirkungen auf die Qualität der Modelle

Der CEO von OpenAI, Sam Altman, räumte in einer Rede auf einer Technologiekonferenz im Mai 2023 selbst ein, dass die Online-Daten endlich sind: "Das wird ausgehen", sagte er.

Sy Damle, ein Anwalt, der Andreessen Horowitz, ein Risikokapitalunternehmen aus dem Silicon Valley, vertritt, erörterte ebenfalls die Herausforderung: "Die einzige praktische Möglichkeit für diese Tools besteht darin, dass sie auf riesigen Datenmengen trainiert werden können, ohne diese Daten lizenzieren zu müssen. Die benötigten Daten sind so umfangreich, dass selbst eine kollektive Lizenzierung nicht wirklich funktionieren kann".

Die NYT und OpenAI sind in einen Streit verwickelt Bittere UrheberrechtsklageDie Times fordert Schadenersatz in Millionenhöhe.

OpenAI schlug zurück und beschuldigte die Times ihre Modelle 'hacken' um Beispiele für Urheberrechtsverletzungen zu finden.

Mit "hacken" meinen sie "jailbreaking" oder "red-teaming", bei dem das Modell mit speziell formulierten Aufforderungen angegriffen wird, um die Ergebnisse zu manipulieren.

Die NYT sagte, dass sie nicht auf Jailbreaking-Modelle zurückgreifen müssten, wenn KI-Unternehmen transparent über die von ihnen verwendeten Daten wären.

Zweifelsohne stellt diese interne Untersuchung den Datenraub von Big Tech als ethisch und rechtlich inakzeptabel dar.

Die Rechtsstreitigkeiten häufen sich, Die rechtliche Situation im Zusammenhang mit der Nutzung von Online-Daten für das KI-Training ist äußerst prekär. 

Join The Future


HEUTE ABONNIEREN

Klar, prägnant, umfassend. Behalten Sie den Überblick über KI-Entwicklungen mit DailyAI

Sam Jeans

Sam ist ein Wissenschafts- und Technologiewissenschaftler, der in verschiedenen KI-Startups gearbeitet hat. Wenn er nicht gerade schreibt, liest er medizinische Fachzeitschriften oder kramt in Kisten mit Schallplatten.

×
 
 

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus


 

Melden Sie sich für unseren wöchentlichen Newsletter an und erhalten Sie exklusiven Zugang zum neuesten eBook von DailyAI: 'Mastering AI Tools: Ihr Leitfaden für mehr Produktivität im Jahr 2024".



 
 

*Mit der Anmeldung zu unserem Newsletter akzeptieren Sie unsere Datenschutzbestimmungen und unsere Bedingungen und Konditionen