Automattic, het bedrijf achter WordPress en Tumblr, bespreekt een data- en contentdeal met MidJourney en OpenAI.
Deze informatie, die aanvankelijk door 404 Media en gebaseerd op rapporten van een ongenoemde bron binnen Automattic, geeft aan dat een overeenkomst met OpenAI en MidJourney op handen zou kunnen zijn.
Dit volgt op geruchten die de ronde doen op Tumblr over een mogelijke deal met MidJourney die een nieuwe inkomstenstroom zou kunnen introduceren voor het platform.
404 zegt dat het verkoopproces tot nu toe rommelig is geweest, inclusief een gedeeltelijk mislukte gegevensoverdracht naar OpenAI en MidJourney die, in de woorden van een van de productmanagers van Tumblr:
"Privéberichten op openbare blogs, berichten op verwijderde of geschorste blogs, onbeantwoorde vragen (normaal gesproken zijn deze niet openbaar totdat ze beantwoord zijn), privéantwoorden (deze zijn alleen zichtbaar voor de ontvanger en zijn niet openbaar), berichten die volgens onze modernere normen gemarkeerd zijn als 'expliciet' / NSFW / 'volwassen' (dit is misschien niet erg, ik weet het niet)."
De implicaties hiervan blijven onduidelijk en verdere details over de deal worden verwacht.
De goudkoorts voor AI-trainingsgegevens neemt toe
En zo is de goudkoorts voor AI-trainingsgegevens in een stroomversnelling geraakt.
Ja, generatieve AI-bedrijven hebben altijd enorme hoeveelheden gegevens nodig gehad, maar ze haasten zich nu om ervoor te betalen in plaats van ze gratis te schrapen.
Een paar dagen geleden, Reddit besprak naar verluidt zijn enorme hoeveelheid door gebruikers gegenereerde content in licentie geeft aan een nog niet bekendgemaakt AI-bedrijf, een deal die jaarlijks ongeveer $60 miljoen waard zou kunnen zijn. Dit gebeurt terwijl Reddit zich opmaakt voor een beursgang in maart, met als doel een waardering van bijna $5 miljard.
Deze potentiële licentieovereenkomst past in een groeiende trend onder techbedrijven om legitieme overeenkomsten voor gegevensgebruik af te sluiten, vooral met het oog op de toenemende risico's op auteursrecht.
Lopende juridische gevechten, zoals de Rechtszaak New York Timeshebben de urgentie voor inhoud verhoogd deals.
De stap van Automattic om te onderhandelen met AI-bedrijven roept vragen op over het gebruik van door gebruikers gegenereerde inhoud voor AI-training.
Naar verluidt hebben ze plannen aangekondigd om een nieuwe functie te introduceren waarmee gebruikers kunnen aangeven dat ze hun gegevens niet willen delen met derden, waaronder AI-bedrijven.
Automattic een openbare verklaring gepubliceerd naar aanleiding van 404's rapport, waarin staat: "We blokkeren momenteel standaard grote AI-platform crawlers - inclusief crawlers van de grootste techbedrijven - en werken onze lijsten bij zodra er nieuwe worden gelanceerd" en "zullen alleen openbare inhoud delen die wordt gehost op WordPress.com en Tumblr van sites die zich niet hebben afgemeld".
Er staat verder: "We werken ook rechtstreeks samen met geselecteerde AI-bedrijven zolang hun plannen overeenkomen met wat onze gemeenschap belangrijk vindt: attributie, opt-outs en controle."
Als je er echter voor kiest om je gegevens niet te laten gebruiken voor AI-training, kan dit de accounts van gebruikers benadelen.
Een nieuwe FAQ getiteld "Wat gebeurt er als je je afmeldt?" stelt: "Als je je vanaf het begin afmeldt, zullen we crawlers de toegang tot je inhoud blokkeren door je site toe te voegen aan een lijst met afgekeurde sites. Als je later van gedachten verandert, zijn we ook van plan om alle partners bij te werken over mensen die zich opnieuw afmelden en vragen dat hun inhoud wordt verwijderd uit eerdere bronnen en toekomstige trainingen."
We leven nu in een wereld waarin alles wat je op het internet hebt gezet verkocht kan worden voor AI-trainingsdoeleinden - als het niet gratis is.
En naarmate AI zich verder ontwikkelt, zal het debat over gegevensgebruik en privacy waarschijnlijk intensiever worden.
Bedrijven die datagoudmijnen bezitten zullen veel winnen, maar ten koste van de gemiddelde internetgebruiker?