Rapporto: L'intelligenza artificiale sta superando gli esseri umani, servono nuovi parametri di riferimento

17 aprile 2024

  • Il rapporto AI Index dell'Università di Stanford fornisce informazioni sulle tendenze e sullo stato attuale dell'intelligenza artificiale.
  • Il rapporto afferma che i sistemi di IA superano ormai abitualmente le prestazioni umane e richiedono quindi nuovi parametri di riferimento.
  • La mancanza di parametri di riferimento standardizzati per la misurazione dei rischi e delle limitazioni rende difficile il confronto tra i modelli.

L'Università di Stanford ha pubblicato l'AI Index Report 2024, in cui si osserva che il rapido progresso dell'IA rende sempre meno pertinenti i confronti con gli esseri umani.

Il rapporto annuale fornisce una visione completa delle tendenze e dello stato degli sviluppi dell'IA. Il rapporto afferma che i modelli di IA stanno migliorando così rapidamente che i parametri di riferimento utilizzati per misurarli stanno diventando sempre più irrilevanti.

Molti benchmark di settore mettono a confronto i modelli di intelligenza artificiale con la capacità degli esseri umani di eseguire compiti. Il benchmark Massive Multitask Language Understanding (MMLU) ne è un buon esempio.

Utilizza domande a scelta multipla per valutare gli LLM in 57 materie, tra cui matematica, storia, diritto ed etica. L'MMLU è il punto di riferimento per l'AI dal 2019.

Il punteggio di base umano sull'MMLU è di 89,8% e nel 2019 il modello AI medio ha ottenuto un punteggio di poco superiore a 30%. Solo 5 anni dopo, Gemini Ultra è diventato il primo modello a battere la soglia di riferimento umana con un punteggio di 90,04%.

Il rapporto rileva che "gli attuali sistemi di IA superano abitualmente le prestazioni umane su benchmark standard". Le tendenze del grafico sottostante sembrano indicare che il MMLU e altri parametri di riferimento devono essere sostituiti.

I modelli di intelligenza artificiale hanno raggiunto e superato i parametri umani in diversi benchmark. Fonte: Relazione annuale dell'Indice AI 2024

I modelli di intelligenza artificiale hanno raggiunto la saturazione delle prestazioni su benchmark consolidati come ImageNet, SQuAD e SuperGLUE, per cui i ricercatori stanno sviluppando test più impegnativi.

Un esempio è il Graduate-Level Google-Proof Q&A Benchmark (GPQA), che consente di confrontare i modelli di IA con persone veramente intelligenti, piuttosto che con l'intelligenza umana media.

Il test GPQA consiste in 400 domande a scelta multipla di livello universitario. Gli esperti che hanno conseguito o stanno conseguendo il dottorato di ricerca rispondono correttamente alle domande nel 65% dei casi.

Il documento del GPQA afferma che quando vengono poste domande al di fuori del loro campo, "i validatori non esperti altamente qualificati raggiungono solo un'accuratezza di 34%, nonostante abbiano trascorso in media oltre 30 minuti con accesso illimitato al web".

Il mese scorso Anthropic ha annunciato che Claude 3 ha ottenuto un punteggio di poco inferiore a 60% con 5 colpi di sollecitazione CoT. Avremo bisogno di un benchmark più grande.

Valutazioni umane e sicurezza

Il rapporto rileva che l'IA deve ancora affrontare problemi significativi: "Non è in grado di trattare in modo affidabile i fatti, di eseguire ragionamenti complessi o di spiegare le proprie conclusioni".

Queste limitazioni contribuiscono a un'altra caratteristica del sistema di IA che, secondo il rapporto, è scarsamente misurata; Sicurezza dell'intelligenza artificiale. Non abbiamo parametri di riferimento efficaci che ci permettano di dire: "Questo modello è più sicuro di quell'altro".

In parte perché è difficile da misurare e in parte perché "gli sviluppatori di IA mancano di trasparenza, soprattutto per quanto riguarda la divulgazione dei dati e delle metodologie di addestramento".

Il rapporto ha rilevato che una tendenza interessante nel settore è quella di affidare a un pubblico le valutazioni umane delle prestazioni dell'IA, piuttosto che ai test di benchmark.

È difficile classificare l'estetica o la prosa di un modello con un test. Di conseguenza, il rapporto afferma che "il benchmarking ha iniziato lentamente a spostarsi verso l'incorporazione di valutazioni umane come la Chatbot Arena Leaderboard piuttosto che di classifiche computerizzate come ImageNet o SQuAD".

Mentre i modelli di intelligenza artificiale vedono scomparire la linea di base umana nello specchietto retrovisore, il sentiment potrebbe determinare il modello che sceglieremo di utilizzare.

Le tendenze indicano che i modelli di IA finiranno per essere più intelligenti di noi e più difficili da misurare. Potremmo presto ritrovarci a dire: "Non so perché, ma questo mi piace di più".

Partecipa al futuro


ISCRIVITI OGGI

Chiaro, conciso, completo. Per conoscere gli sviluppi dell'IA con DailyAI

Eugene van der Watt

Eugene proviene da un background di ingegneria elettronica e ama tutto ciò che è tecnologico. Quando si prende una pausa dal consumo di notizie sull'intelligenza artificiale, lo si può trovare al tavolo da biliardo.

×

PDF GRATUITO ESCLUSIVO
Rimanere all'avanguardia con DailyAI

Iscriviti alla nostra newsletter settimanale e ricevi l'accesso esclusivo all'ultimo eBook di DailyAI: 'Mastering AI Tools: La tua guida 2024 per una maggiore produttività".

*Iscrivendosi alla nostra newsletter si accetta la nostra Informativa sulla privacy e il nostro Termini e condizioni