I nuovi modelli linguistici ad autoapprendimento del MIT possono battere gli altri LLM

5 giugno 2023

Nuovi modelli linguistici ad autoapprendimento del MIT
I nuovi modelli linguistici ad autoapprendimento del MIT non si basano sugli LLM (Large Language Models), ma possono superarli.

Negli ultimi sei mesi, abbiamo assistito a un boom rivoluzionario di Alimentazione con intelligenza artificiale Gli LLM (Large Language Models) sono al centro della scena. Ma è sempre necessario che un prodotto o un servizio di IA si basi su LLM? Secondo un documento, i nuovi modelli linguistici ad autoapprendimento del MIT non si basano su LLM e possono superare alcuni dei grandi sistemi di IA che attualmente guidano il settore.

Un gruppo di ricercatori del MIT Computer Science and Artificial Intelligence Laboratory (CSAIL) ha sviluppato un nuovo modo di approcciare i modelli linguistici dell'intelligenza artificiale.

Si tratta di un risultato innovativo che enfatizza i modelli linguistici più piccoli e la loro capacità di risolvere i problemi di inefficienza e di privacy legati allo sviluppo di grandi modelli di intelligenza artificiale basati su dati testuali.

Con l'emergere di OpenAI ChatGPT basato sui modelli linguistici GPT-3 e GPT-4, molte aziende si sono unite alla corsa all'intelligenza artificiale, tra cui Google Bard e altre aziende. IA generativa sistemi che consentono di generare testo, immagini e persino video.

Tuttavia, per generare risultati di qualità impeccabile, questi sistemi si basano su una grande quantità di dati che sono costosi da elaborare computazionalmente. Molti di questi sistemi importano dati per l'addestramento tramite API, il che comporta rischi quali la fuga di dati e altri problemi di privacy.

Integrazione testuale

Secondo un nuovo documento intitolato Entailment come autoapprendimento robusto pubblicato in questi giorni sul repository online di preprinting arXiv, i ricercatori notano che i nuovi modelli linguistici ad autoapprendimento del MIT possono risolvere il problema della comprensione di alcuni compiti linguistici che i modelli linguistici di grandi dimensioni hanno. Questo risultato innovativo viene definito "textual entailment".

I modelli si basano sul concetto che se ci sono due frasi - una premessa e un'ipotesi - nel caso in cui una premessa della prima frase sia vera, è probabile che sia vera anche l'ipotesi.

In un dichiarazione pubblicato sul blog del MIT CSAIL, un esempio di questa struttura sarebbe che se "tutti i gatti hanno la coda" l'ipotesi "un gatto soriano ha la coda" è probabilmente vera. Questo approccio porta a una minore distorsione nella Modelli di intelligenza artificialeche fa sì che i nuovi modelli linguistici ad autoapprendimento del MIT superino i modelli linguistici più grandi, secondo la dichiarazione.

"I nostri modelli di entailment autoaddestrati, con 350 milioni di parametri, senza etichette generate dall'uomo, superano i modelli linguistici supervisionati con 137-175 miliardi di parametri", ha dichiarato in un comunicato Hongyin Luo, associato al CSAIL del MIT e autore principale. "

Ha inoltre aggiunto che questo approccio potrebbe essere molto vantaggioso per gli attuali sistemi di IA e rimodellare i sistemi di apprendimento automatico in modo da renderli più scalabili, affidabili ed economici quando si lavora con modelli linguistici.

I nuovi modelli linguistici ad autoapprendimento del MIT sono ancora limitati

Anche se i nuovi modelli linguistici di autoapprendimento del MIT promettono molto quando si tratta di risolvere problemi di classificazione binaria, sono ancora limitati a risolvere problemi di classificazione multiclasse. Ciò significa che l'entailment testuale non funziona altrettanto bene quando al modello vengono presentate più scelte.

Secondo James Glass, professore del MIT e ricercatore principale del CSAIL, che è anche l'autore dell'articolo, questa ricerca potrebbe far luce su metodi efficienti ed efficaci per addestrare i LLM a comprendere i problemi di implicazione contestuale.

"Mentre il campo dei LLM sta subendo rapidi e drammatici cambiamenti, questa ricerca dimostra che è possibile produrre modelli linguistici relativamente compatti che ottengono risultati molto buoni nei compiti di comprensione dei benchmark rispetto ai loro colleghi di dimensioni più o meno uguali, o anche a modelli linguistici molto più grandi", ha dichiarato.

Questa ricerca è solo l'inizio di future tecnologie di intelligenza artificiale che potrebbero imparare da sole ed essere più efficaci, sostenibili e attente alla privacy dei dati. Il documento sui nuovi modelli linguistici ad autoapprendimento del MIT sarà presentato a luglio alla riunione dell'Association for Computational Linguistics di Toronto. Il progetto è sostenuto anche dal Programma di innovazione AI di Hong Kong.

Partecipa al futuro


ISCRIVITI OGGI

Chiaro, conciso, completo. Per conoscere gli sviluppi dell'IA con DailyAI

Danica Simic

Danica è una data scientist con più di 7 anni di esperienza in AI e Big Data. Ha prodotto contenuti specialistici per aziende come ValueWalk e IntegrateAI ed è autrice di articoli di ricerca per la Singidunum Univeristy.

×

PDF GRATUITO ESCLUSIVO
Rimanere all'avanguardia con DailyAI

Iscriviti alla nostra newsletter settimanale e ricevi l'accesso esclusivo all'ultimo eBook di DailyAI: 'Mastering AI Tools: La tua guida 2024 per una maggiore produttività".

*Iscrivendosi alla nostra newsletter si accetta la nostra Informativa sulla privacy e il nostro Termini e condizioni