In de verwoede jacht op AI-trainingsgegevens hebben techgiganten OpenAI, Google en Meta naar verluidt het bedrijfsbeleid omzeild, hun regels aangepast en gesproken over het omzeilen van auteursrechtwetten.
A Onderzoek New York Times onthult hoeveel moeite deze bedrijven hebben gedaan om online informatie te verzamelen om hun gegevensverslindende AI-systemen te voeden.
Eind 2021 ontwikkelden OpenAI-onderzoekers een spraakherkenningshulpmiddel met de naam Whisper om YouTube-video's te transcriberen bij een tekort aan gerenommeerde Engelstalige tekstgegevens.
Ondanks interne discussies over het mogelijk schenden van de regels van YouTube, die het gebruik van video's voor "onafhankelijke" toepassingen verbieden,
NYT ontdekte dat OpenAI uiteindelijk meer dan een miljoen uur aan YouTube-content heeft getranscribeerd. Greg Brockman, de voorzitter van OpenAI, hielp persoonlijk bij het verzamelen van de video's. De getranscribeerde tekst werd vervolgens ingevoerd in GPT-4.
Google zou ook YouTube-video's hebben getranscribeerd om tekst te verzamelen voor zijn AI-modellen, waardoor mogelijk auteursrechten van videomakers werden geschonden.
Dit komt dagen nadat de CEO van YouTube zei dat dergelijke activiteiten in strijd zouden zijn met de servicevoorwaarden van het bedrijf en ondermijnen scheppers.
In juni 2023 verzocht de juridische afdeling van Google om wijzigingen in het privacybeleid van het bedrijf, waardoor openbaar beschikbare inhoud van Google Docs en andere Google-apps voor een breder scala aan AI-producten mogelijk zou worden.
Meta, dat zelf met een gegevenstekort kampt, heeft verschillende opties overwogen om meer trainingsgegevens te verkrijgen.
Leidinggevenden bespraken het betalen voor licentierechten op boeken, het kopen van uitgeverij Simon & Schuster en zelfs het verzamelen van auteursrechtelijk beschermd materiaal van het internet zonder toestemming, met het risico op mogelijke rechtszaken.
De advocaten van Meta voerden aan dat het gebruik van gegevens om AI-systemen te trainen onder "eerlijk gebruik" zou moeten vallen, waarbij ze verwezen naar een gerechtelijke uitspraak uit 2015 over het scannen van boeken door Google.
Ethische bezwaren en de toekomst van AI-trainingsgegevens
De collectieve acties van deze techbedrijven benadrukken het cruciale belang van online gegevens in de bloeiende AI-industrie.
Deze praktijken hebben geleid tot bezorgdheid over schending van het auteursrecht en een eerlijke vergoeding voor makers.
Een filmmaker en schrijfster, Justine Bateman, vertelde het Copyright Office dat AI-modellen zonder toestemming of betaling inhoud stalen - waaronder haar schrijfsels en films.
"Dit is de grootste diefstal in de Verenigde Staten, punt," zei ze in een interview.
In de beeldende kunst zijn MidJourney en andere beeldmodellen bewezen auteursrechten te genereren inhoud, zoals scènes uit Marvel-films.
Nu sommige experts voorspellen dat online gegevens van hoge kwaliteit in 2026 uitgeput kunnen zijn, onderzoeken bedrijven alternatieve methoden, zoals het zelf genereren van synthetische gegevens met behulp van AI-modellen. Synthetische trainingsgegevens brengen echter hun eigen risico's en uitdagingen met zich mee en kunnen een nadelig effect hebben op invloed hebben op de kwaliteit van modellen.
OpenAI CEO Sam Altman erkende zelf de eindigheid van online data in een toespraak op een tech-conferentie in mei 2023: "Dat zal opraken," zei hij.
Sy Damle, een advocaat van Andreessen Horowitz, een risicokapitaalbedrijf uit Silicon Valley, ging ook in op de uitdaging: "De enige praktische manier waarop deze tools kunnen bestaan, is als ze getraind kunnen worden op enorme hoeveelheden gegevens zonder dat er een licentie voor die gegevens nodig is. De benodigde gegevens zijn zo enorm dat zelfs collectieve licenties echt niet kunnen werken."
De NYT en OpenAI zijn verwikkeld in een bittere rechtszaak over auteursrechtDe Times eist waarschijnlijk miljoenen aan schadevergoeding.
OpenAI sloeg terug en beschuldigde de Times van hun modellen 'hacken om voorbeelden van auteursrechtschendingen op te zoeken.
Met 'hacken' bedoelen ze jailbreaking of red-teaming, waarbij het model wordt benaderd met speciaal geformuleerde prompts die bedoeld zijn om te breken om de resultaten te manipuleren.
De NYT zei dat ze hun toevlucht niet zouden hoeven te nemen tot het jailbreaken van modellen als AI-bedrijven transparant zouden zijn over de gegevens die ze gebruiken.
Ongetwijfeld maakt dit interne onderzoek de gegevensroof van Big Tech ethisch en juridisch onaanvaardbaar.
De rechtszaken stapelen zich op, het juridische landschap rondom het gebruik van online data voor AI-training is uiterst precair.