Automattic, selskapet bak WordPress og Tumblr, diskuterer en data- og innholdsavtale med MidJourney og OpenAI.
Denne informasjonen, som opprinnelig ble dekket av 404 Media og basert på rapporter fra en ikke navngitt kilde i Automattic, indikerer at en avtale med OpenAI og MidJourney kan være nært forestående.
Dette følger rykter som sirkulerer på Tumblr om en potensiell avtale med MidJourney som kan introdusere en ny inntektsstrøm for plattformen.
404 sier at avtaleprosessen har vært rotete så langt, inkludert en delvis mislykket dataoverføring til OpenAI og MidJourney som inneholdt, som en av Tumblrs produktsjefer uttrykte det:
"Private innlegg på offentlige blogger, innlegg på slettede eller suspenderte blogger, ubesvarte spørsmål (disse er normalt ikke offentlige før de er besvart), private svar (disse vises bare for mottakeren og er ikke offentlige), innlegg som er merket som "eksplisitte" / NSFW / "modne" etter våre mer moderne standarder (dette er kanskje ikke så farlig, jeg vet ikke)."
Konsekvensene av dette er fortsatt uklare, og ytterligere detaljer om avtalen er på trappene.
Gullrushet etter AI-treningsdata går opp et hakk
Og vips, så har gullrushet etter AI-treningsdata satt fart.
Ja, generative AI-selskaper har alltid hatt behov for store mengder data - men nå skynder de seg å betale for dem i stedet for å skrape dem gratis.
For bare noen dager siden, Reddit skal angivelig ha diskutert lisensiering av sitt enorme utvalg av brukergenerert innhold til et ennå ikke offentliggjort AI-selskap, en avtale som kan være verdt rundt $60 millioner årlig. Dette skjer samtidig som Reddit forbereder seg på en børsnotering i mars, med sikte på en verdivurdering på nærmere $5 milliarder.
Denne potensielle lisensavtalen er i tråd med en økende trend blant teknologiselskaper for å sikre legitime avtaler om databruk, spesielt i møte med økende risiko for opphavsrett.
Pågående juridiske kamper, som for eksempel Søksmål mot New York Timeshar økt behovet for innhold avtaler.
Automattics trekk for å forhandle med AI-selskaper reiser spørsmål om bruk av brukergenerert innhold til AI-trening.
De har angivelig kunngjort planer om å introdusere en ny funksjon som gjør det mulig for brukere å reservere seg mot at dataene deres deles med tredjeparter, inkludert AI-firmaer.
Automattic laget en offentlig uttalelse publisert etter 404s rapport, og sier: "Vi blokkerer for øyeblikket, som standard, store AI-plattform-crawlere - inkludert de fra de største teknologiselskapene - og oppdaterer listene våre når nye lanseres," og "vil bare dele offentlig innhold som er hostet på WordPress.com og Tumblr fra nettsteder som ikke har valgt bort."
"Vi samarbeider også direkte med utvalgte AI-selskaper, så lenge planene deres er i tråd med det som er viktig for oss: attribusjon, fravalg og kontroll", heter det videre.
Hvis du velger å reservere deg mot at informasjonen din brukes til AI-trening, kan det imidlertid gå ut over brukernes kontoer.
I en ny FAQ med tittelen "Hva skjer når du melder deg ut?" står det: "Hvis du melder deg ut fra starten av, vil vi blokkere crawlere fra å få tilgang til innholdet ditt ved å legge til nettstedet ditt på en liste over ikke tillatt innhold. Hvis du ombestemmer deg senere, planlegger vi også å oppdatere alle partnere om personer som nylig har reservert seg, og be om at innholdet deres fjernes fra tidligere kilder og fremtidig opplæring."
Vi lever nå i en verden der alt du har lagt ut på Internett, kan selges til AI-trening - hvis det ikke tas gratis.
Og etter hvert som AI utvikler seg, vil debatten om databruk og personvern sannsynligvis intensiveres.
Selskaper som eier datagullgruver kan vinne stort, men til hvilken pris for den gjennomsnittlige internettbrukeren?