Inde i Big Techs kamp om AI-træningsdata

I den hektiske jagt på AI-træningsdata har tech-giganterne OpenAI, Google og Meta angiveligt omgået virksomhedspolitikker, ændret deres regler og diskuteret omgåelse af copyright-loven.

A New York Times' undersøgelse afslører, hvor langt disse virksomheder er gået for at høste onlineoplysninger til at fodre deres datahungrende AI-systemer.

I slutningen af 2021 udviklede OpenAI-forskere et talegenkendelsesværktøj kaldet Whisper til at transskribere YouTube-videoer, når der var mangel på anerkendte engelsksprogede tekstdata.

På trods af interne diskussioner om potentielt at overtræde YouTubes regler, som forbyder brug af videoer til "uafhængige" applikationer,

NYT fandt ud af, at OpenAI i sidste ende transskriberede over en million timers YouTube-indhold. Greg Brockman, OpenAI's præsident, hjalp personligt med at indsamle videoerne. Den transskriberede tekst blev derefter ført ind i GPT-4.

Google har angiveligt også transskriberet YouTube-videoer for at indsamle tekst til sine AI-modeller, hvilket potentielt krænker videoskabernes ophavsret.

Det sker få dage efter, at YouTubes CEO sagde, at en sådan aktivitet ville være i strid med virksomhedens servicevilkår og underminere skaberne.

I juni 2023 anmodede Googles juridiske afdeling om ændringer af virksomhedens privatlivspolitik, så offentligt tilgængeligt indhold fra Google Docs og andre Google-apps kunne bruges til en bredere vifte af AI-produkter.

Meta, som selv mangler data, har overvejet forskellige muligheder for at skaffe flere træningsdata.

Cheferne diskuterede at betale for boglicenser, købe forlaget Simon & Schuster og endda høste ophavsretligt beskyttet materiale fra internettet uden tilladelse og dermed risikere potentielle retssager.

Metas advokater argumenterede for, at brug af data til at træne AI-systemer burde falde ind under "fair use", med henvisning til en domstolsafgørelse fra 2015, der involverede Googles bogscanningsprojekt.

Etiske bekymringer og fremtiden for AI-træningsdata

Disse teknologivirksomheders kollektive handlinger understreger den kritiske betydning af onlinedata i den blomstrende AI-industri.

Denne praksis har givet anledning til bekymring om krænkelse af ophavsretten og rimelig kompensation til skaberne.

En filmskaber og forfatter, Justine Bateman, fortalte Copyright Office, at AI-modeller tog indhold - herunder hendes tekster og film - uden tilladelse eller betaling.

"Dette er det største tyveri i USA, punktum," sagde hun i et interview.

I billedkunsten har MidJourney og andre billedmodeller været bevist at generere copyright indhold, f.eks. scener fra Marvel-film.

Nogle eksperter forudsiger, at onlinedata af høj kvalitet kan være opbrugt i 2026, og derfor undersøger virksomheder alternative metoder, som f.eks. at generere syntetiske data ved hjælp af egne AI-modeller. Men syntetiske træningsdata har sine egne risici og udfordringer og kan have en negativ indvirkning på påvirke kvaliteten af modeller.

OpenAI's CEO Sam Altman erkendte selv, at onlinedata er begrænsede i en tale på en teknologikonference i maj 2023: "Det løber ud," sagde han.

Sy Damle, en advokat, der repræsenterer Andreessen Horowitz, et venturekapitalfirma i Silicon Valley, diskuterede også udfordringen: "Den eneste praktiske måde, hvorpå disse værktøjer kan eksistere, er, hvis de kan trænes på store mængder data uden at skulle have licens til disse data. De data, der er brug for, er så massive, at selv kollektiv licensering ikke rigtig kan fungere."

NYT og OpenAI er låst fast i en Bitter retssag om ophavsretog Times kræver, hvad der sandsynligvis vil være millioner i erstatning.

OpenAI slog tilbage og beskyldte Times for at 'hacking' af deres modeller for at finde eksempler på krænkelser af ophavsretten.

Med 'hacking' mener de jailbreaking eller red-teaming, som indebærer at målrette modellen med specielt formulerede beskeder, der har til formål at bryde for at manipulere resultater.

NYT sagde, at de ikke ville være nødt til at ty til jailbreaking-modeller, hvis AI-virksomheder var gennemsigtige med hensyn til de data, de havde brugt.

Der er ingen tvivl om, at denne interne undersøgelse tegner et yderligere billede af Big Techs datakup som etisk og juridisk uacceptabelt.

Retssagerne hober sig op, Det juridiske landskab omkring brugen af onlinedata til AI-træning er ekstremt usikkert.

Indblik i Big Techs kamp om AI-træningsdata

Etiske bekymringer og fremtiden for AI-træningsdata

Deltag i fremtiden

Sam Jeans

RELATEREDE ARTIKLER

10 top women in AI in 2026

ChatGPT Is Making People Think They’re Gods and Their Families Are Terrified

China Unveils World’s First AI Hospital: 14 Virtual Doctors Ready to Treat Thousands Daily

Katy Perry Didn’t Attend the Met Gala, But AI Made Her the Star of the Night

Indblik i Big Techs kamp om AI-træningsdata

Etiske bekymringer og fremtiden for AI-træningsdata

Deltag i fremtiden

Sam Jeans

RELATEREDE ARTIKLER

10 top women in AI in 2026

ChatGPT Is Making People Think They’re Gods and Their Families Are Terrified

China Unveils World’s First AI Hospital: 14 Virtual Doctors Ready to Treat Thousands Daily

Katy Perry Didn’t Attend the Met Gala, But AI Made Her the Star of the Night

GRATIS PDF EKSKLUSIVTVær på forkant med DailyAI

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI