La lotta delle Big Tech per i dati di addestramento dell'IA

8 aprile 2024
  • Giganti tecnologici come Google, Meta e OpenAI stanno cercando di mettere al sicuro un maggior numero di dati.
  • Questo le ha viste impegnarsi in tattiche sempre più losche dal punto di vista etico e legale.
  • OpenAI potrebbe aver utilizzato le trascrizioni di YouTube per addestrare GPT-4, ad esempio
Dati

Nella frenetica ricerca di dati per l'addestramento dell'IA, i giganti tecnologici OpenAI, Google e Meta avrebbero aggirato le politiche aziendali, alterato le regole e discusso di aggirare le leggi sul copyright. 

A Inchiesta del New York Times rivela quanto queste aziende si siano spinte a raccogliere informazioni online per alimentare i loro sistemi di intelligenza artificiale affamati di dati.

Alla fine del 2021, i ricercatori di OpenAI hanno sviluppato uno strumento di riconoscimento vocale chiamato Whisper per trascrivere i video di YouTube in caso di carenza di dati testuali affidabili in lingua inglese. 

Nonostante le discussioni interne sulla potenziale violazione delle regole di YouTube, che vietano di utilizzare i suoi video per applicazioni "indipendenti", 

Il NYT ha scoperto che OpenAI ha trascritto oltre un milione di ore di contenuti di YouTube. Greg Brockman, presidente di OpenAI, ha assistito personalmente alla raccolta dei video. Il testo trascritto è stato quindi inserito nel GPT-4.

Google avrebbe anche trascritto i video di YouTube per raccogliere il testo per i suoi modelli di intelligenza artificiale, violando potenzialmente i diritti d'autore dei creatori di video.

Questo avviene pochi giorni dopo che l'amministratore delegato di YouTube ha dichiarato che tale attività violerebbe il diritto di copyright. termini di servizio dell'azienda e minare i creatori. 

Nel giugno 2023, l'ufficio legale di Google ha richiesto di modificare le norme sulla privacy dell'azienda, consentendo la pubblicazione dei contenuti di Google Docs e di altre applicazioni di Google per una più ampia gamma di prodotti di intelligenza artificiale. 

Meta, alle prese con la propria carenza di dati, ha preso in considerazione varie opzioni per acquisire più dati di addestramento. 

I dirigenti hanno discusso del pagamento dei diritti di licenza dei libri, dell'acquisto della casa editrice Simon & Schuster e persino dell'estrazione di materiale protetto da copyright da Internet senza autorizzazione, rischiando potenziali cause legali. 

Gli avvocati di Meta hanno sostenuto che l'uso dei dati per addestrare i sistemi di intelligenza artificiale dovrebbe rientrare nel "fair use", citando una decisione del tribunale del 2015 relativa al progetto di scansione dei libri di Google.

Problemi etici e il futuro dei dati di addestramento dell'IA

Le azioni collettive di queste aziende tecnologiche evidenziano l'importanza critica dei dati online nel settore dell'IA in piena espansione.

Queste pratiche hanno sollevato preoccupazioni sulla violazione del copyright e sull'equo compenso dei creatori. 

Una regista e autrice, Justine Bateman, ha dichiarato all'Ufficio per il diritto d'autore che i modelli di intelligenza artificiale si appropriavano di contenuti - compresi i suoi scritti e i suoi film - senza autorizzazione o pagamento.

"Si tratta del più grande furto negli Stati Uniti, punto e basta", ha dichiarato in un'intervista.

Nelle arti visive, il MidJourney e altri modelli di immagine sono stati che si è dimostrato in grado di generare diritti d'autore contenuti, come le scene dei film Marvel. 

Poiché alcuni esperti prevedono che i dati online di alta qualità potrebbero esaurirsi entro il 2026, le aziende stanno esplorando metodi alternativi, come la generazione di dati sintetici utilizzando modelli di intelligenza artificiale. Tuttavia, i dati sintetici per l'addestramento comportano rischi e sfide proprie e potrebbero avere ripercussioni negative sulla qualità dell'addestramento. impatto sulla qualità dei modelli

Lo stesso Sam Altman, CEO di OpenAI, ha riconosciuto la natura limitata dei dati online in un discorso tenuto a una conferenza tecnologica nel maggio 2023: "Si esauriranno", ha detto.

Anche Sy Damle, un avvocato che rappresenta Andreessen Horowitz, una società di venture capital della Silicon Valley, ha parlato della sfida: "L'unico modo pratico per far esistere questi strumenti è che possano essere addestrati su enormi quantità di dati senza doverli concedere in licenza. I dati necessari sono così massicci che anche le licenze collettive non possono funzionare".

Il NYT e OpenAI sono impegnati in una aspra causa per il diritto d'autoreIl Times ha chiesto un risarcimento danni probabilmente milionario.

OpenAI ha ribattuto accusando il Times di hacking" dei loro modelli per trovare esempi di violazione del copyright.

Per "hacking" si intende il jailbreak o il red-teaming, che consiste nel colpire il modello con messaggi appositamente formulati per manipolare i risultati.

Secondo il NYT, non sarebbe necessario ricorrere al jailbreak dei modelli se le aziende di AI fossero trasparenti sui dati utilizzati.

Senza dubbio, questa indagine interna dipinge ulteriormente il furto di dati di Big Tech come inaccettabile dal punto di vista etico e legale.

Con le cause legali che si accumulano, il panorama legale che circonda l'uso dei dati online per l'addestramento dell'IA è estremamente precario. 

Partecipa al futuro


ISCRIVITI OGGI

Chiaro, conciso, completo. Per conoscere gli sviluppi dell'IA con DailyAI

Sam Jeans

Sam è uno scrittore di scienza e tecnologia che ha lavorato in diverse startup di intelligenza artificiale. Quando non scrive, lo si può trovare a leggere riviste mediche o a scavare tra scatole di dischi in vinile.

×
 
 

PDF GRATUITO ESCLUSIVO
Rimanere all'avanguardia con DailyAI


 

Iscriviti alla nostra newsletter settimanale e ricevi l'accesso esclusivo all'ultimo eBook di DailyAI: 'Mastering AI Tools: La tua guida 2024 per una maggiore produttività".



 
 

*Iscrivendosi alla nostra newsletter si accetta la nostra Informativa sulla privacy e il nostro Termini e condizioni