Ny forskning i datasæt afslører systemiske etiske og juridiske problemer

26. oktober 2023

AI drejer sig om data, men hvor kommer de fra? Er datasæt lovlige og etiske? Hvordan finder udviklere ud af det med sikkerhed? 

Træning af maskinlæringsmodeller som f.eks. store sprogmodeller (LLM) kræver store mængder tekstdata. 

Der er stakkevis af datasæt tilgængelige på platforme som Kaggle, GitHub og Hugging Face, men de befinder sig i en juridisk og etisk gråzone, primært på grund af problemer med licenser og fair use. 

Den Initiativ til data-provenienset samarbejde mellem AI-forskere og jurister, har gennemgået tusindvis af datasæt for at kaste lys over deres sande oprindelse.

Den fokuserede på over 1.800 datasæt, der var tilgængelige på platforme som Hugging Face, GitHub og Papers With Code. Datasættene er hovedsageligt designet til at finjustere open source-modeller som Llama-2. 

Undersøgelsen viste, at ca. 70% af disse datasæt enten manglede klare licensoplysninger eller var mærket med alt for tilladte licenser. 

Med en åbenlys mangel på klarhed om copyright og begrænsninger for kommerciel brug risikerer AI-udviklere ved et uheld at bryde loven eller overtræde copyright.

Shayne Longpre, en ph.d.-kandidat ved MIT Media Lab, som stod i spidsen for revisionen, understregede, at problemet ikke er hostingplatformenes skyld, men snarere et systemisk problem inden for maskinlæringssamfundet.

2023 har været vidne til en Bølge af retssager rettet mod store AI-udviklere som Meta, Anthropic og OpenAI, som er under ekstremt pres for at indføre en mere gennemsigtig dataindsamlingspraksis. Forordninger som f.eks. EU's lov om kunstig intelligenser indstillet til at håndhæve netop det. 

Data Provenance Initiative gør det muligt for maskinlæringsudviklere at Udforsk de reviderede datasæt her. Initiativet analyserer også mønstre i datasættene og kaster lys over deres geografiske og institutionelle oprindelse. 

De fleste datasæt er konstrueret i det engelsktalende globale nord, hvilket fremhæver sociokulturelle ubalancer. 

Data-proveniens AI
Data Provenance Initiative fandt ud af, at datasæt overvejende repræsenterer engelsktalende lande og det globale nord. Kilde: Data Provenance.org.

Mere om undersøgelsen

Denne omfattende analyse af datasæt afslørede systematiske problemer med, hvordan data indsamles og distribueres. Initiativet har også udarbejdet et dokument, der forklarer deres resultater, udgivet her.

Her er flere oplysninger om undersøgelsens metoder og resultater:

  1. Analyse af datasæt for oprindelse og mærkning: Denne undersøgelse reviderede systematisk over 1800 finjusteringsdatasæt for at granske deres datafrembringelse, licensering og dokumentation. 
  2. Bevis for forkert mærkning: Resultaterne fremhævede kløften i datatyper, der er tilgængelige under forskellige licenser, og konsekvenserne for juridiske fortolkninger af copyright og fair use. Det afslørede en høj grad af fejlkategorisering af licenser, hvor over 72% af datasættene ikke specificerede en licens og en fejlprocent på 50% i dem, der gjorde.
  3. Upålidelig data-proveniens: Forskningen henleder opmærksomheden på spørgsmålet om upålidelig dataherkendelse og understreger behovet for standarder til at spore dataherkendelse, sikre korrekt tilskrivning og tilskynde til ansvarlig brug af data. 
  4. Geografisk udbredelse: Undersøgelsen fremhæver en alvorlig mangel på repræsentation og tilskrivning af datasæt, der stammer fra det globale syd. De fleste datasæt drejer sig om det engelske sprog og er kulturelt bundet til Europa, Nordamerika og det engelsktalende Oceanien. 

Denne undersøgelse fremhæver systemiske og strukturelle problemer i, hvordan data skabes, distribueres og bruges. Data er en kritisk ressource for AI, og ligesom naturressourcer er de begrænsede. 

Der er bekymring for, at AI-teknologien med tiden vil vokse sig større end de nuværende datasæt og måske endda begynder at forbruge sit eget outputDet betyder, at AI-modeller vil lære af AI-genereret tekst. 

Det kan forringe kvaliteten af modellerne, hvilket betyder, at etiske og lovlige data af høj kvalitet kan blive meget værdifulde.

Deltag i fremtiden


TILMELD DIG I DAG

Klar, kortfattet, omfattende. Få styr på AI-udviklingen med DailyAI

Sam Jeans

Sam er videnskabs- og teknologiforfatter og har arbejdet i forskellige AI-startups. Når han ikke skriver, kan han finde på at læse medicinske tidsskrifter eller grave i kasser med vinylplader.

×

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI

Tilmeld dig vores ugentlige nyhedsbrev og få eksklusiv adgang til DailyAI's seneste e-bog: 'Mastering AI Tools: Din 2024-guide til forbedret produktivitet'.

*Ved at tilmelde dig vores nyhedsbrev accepterer du vores Politik for beskyttelse af personlige oplysninger og vores Vilkår og betingelser