OpenAI ha confermato un accordo di licenza con The Associated Press (AP) per addestrare i suoi modelli di intelligenza artificiale utilizzando il suo archivio di notizie.
L'essenza dell'accordo prevede che AP fornisca a OpenAI l'accesso al suo patrimonio di storie testuali per l'addestramento dell'IA. In cambio, OpenAI estenderà la propria tecnologia ad AP, consentendole di integrare l'IA generativa nei propri flussi di lavoro.
OpenAI avrà il diritto di scrapolare i dati dall'archivio di storie dell'AP che risalgono al 1985.
"L'intelligenza artificiale generativa è uno spazio in rapida evoluzione con enormi implicazioni per il settore delle notizie. Siamo lieti che OpenAI riconosca che i contenuti giornalistici basati sui fatti e non di parte siano essenziali per questa tecnologia in evoluzione e che rispetti il valore della nostra proprietà intellettuale". ha detto Kristin Heitmann, vicepresidente senior di AP e chief revenue officer.
La pratica di utilizzare i dati pubblici di Internet per addestrare i sistemi di intelligenza artificiale sta diventando un punto controverso. Questo probabilmente aumenterà la popolarità di questo tipo di accordi privati e sponsorizzati.
I modelli linguistici di grandi dimensioni (LLM) che alimentano i chatbot di OpenAI, Google, ecc. sono stati addestrati su una quantità colossale di dati raccolti da fonti Internet pubblicamente accessibili.
Questo include contenuti di terze parti come articoli di notizie, voci di Wikipedia e commenti di social media e blog, tutti presi senza l'esplicito permesso o la consapevolezza degli autori.
Questo non è privo di sfide legali ed etiche, poiché è improbabile che tutti questi dati siano raccolti legalmente. Per lo meno, i dati di addestramento dell'intelligenza artificiale alterano il significato di "aperto" e "accessibile al pubblico".
Andres Sawicki, professore di diritto della proprietà intellettuale all'Università di Miami, ha commentato: "I set di dati includono molti contenuti protetti da copyright. I detentori dei diritti d'autore non approvano questi sfruttamenti. Non è difficile immaginare che altri accordi come quello di AP vengano stipulati tra aziende tecnologiche e produttori di contenuti nel tentativo di costruire un "database pulito". Il problema è che gli insiemi di dati necessari per addestrare i modelli sono così vasti che dubito che sarà possibile ottenere l'autorizzazione da un numero sufficiente di proprietari per rendere la tecnologia pratica".
Questa settimana, la Commissione federale per il commercio (FTC) degli Stati Uniti ha avviato le indagini sulle pratiche di OpenAI relative all'uso dei dati nell'addestramento dei modelli. La FTC ha richiesto a OpenAI la documentazione necessaria per comprendere le sue strategie e identificare le non conformità.
OpenAI e AP hanno espresso giudizi positivi sulla partnership, affermando di "credere nella creazione e nell'uso responsabile di questi sistemi di IA".