The Guardian har sluttet seg til en voksende liste over nettsteder som har blokkert OpenAIs GPTBot fra å skrape nettstedene deres.
Den britiske dagsavisen kunngjorde sin beslutning på sine nettsider sist fredag og slutter seg til CNN, Reuters, Washington Post, Bloomberg og New York Times i blokkerer GPTBot. Selv om den ikke ga en fullstendig forklaring på årsakene bak beslutningen, nevnte den noen vanlige bekymringer i bransjen.
Den siterte den pågående søksmål om opphavsrett fra forfattere som Sarah Silverman og oppfordringene fra britiske bokforlag om å beskytte verkene deres mot å bli utnyttet av kunstig intelligens.
The Guardian anerkjente at generative AI-verktøy som ChatGPT gjør imponerende ting, men noe av semantikken i kunngjøringen avslører et mindre entusiastisk syn på hvordan AI-selskaper driver sin virksomhet.
I kunngjøringen ble det bemerket at ChatGPT var opplært på store mengder data "hentet" fra internett, og at de handlet for å hindre selskapet i å bruke programvare som "høster" dataene deres.
Den har ikke gått rett ut og ropt "Stopp tyven!", men budskapet er ganske tydelig.
En talsperson for utgiveren av Guardian og Observer sier: "Skraping av åndsverk fra The Guardians nettsted for kommersielle formål er, og har alltid vært, i strid med våre tjenestevilkår."
Som et tegn på at de kan være åpne for å tillate dataskraping i fremtiden, sa talspersonen: "The Guardians kommersielle lisensieringsteam har mange gjensidig fordelaktige kommersielle relasjoner med utviklere over hele verden, og ser frem til å bygge videre på slike relasjoner i fremtiden."
Det er interessant å merke seg at The Guardian også uttrykte bekymring for potensialet generativ AI har for å produsere desinformasjon. De forklarte ikke hvordan denne bekymringen var relatert til beslutningen om å blokkere GPTBot, men som nyhetsutgiver er dette et åpenbart problemområde.
Bortsett fra etiske og opphavsrettslige spørsmål kan det også være at The Guardians nettservere har hatt lignende utfordringer som X hadde.
Tidligere i år sa Elon Musk at en betydelig del av belastningen som X-serverne opplevde, kom fra en et mangfold av AI-skraperoboter. Han har ikke blokkert dem helt og holdent, og har også tenkt å bruke offentlige tweets til å trene xAI-modellen sin.
Når en AI-bot besøker et nettsted og støter på en robot.txt-fil som "blokkerer" det, skraper den ikke nettstedet av høflighet, ikke fordi den ikke er i stand til det.
Når opphavsrettsspørsmålene er avgjort, lurer jeg på hvor lenge høflighet vil fortsette å trumfe AIs umettelige appetitt på data.