Nougat di Meta rende i testi scientifici leggibili in modo automatico

29 agosto 2023

Meta ha sviluppato un nuovo modello di intelligenza artificiale, chiamato Nougat, in grado di trasformare in modo affidabile i testi scientifici in testi leggibili dalla macchina.

Se avete mai provato a leggere un documento di ricerca scientifica, iniziate a capire perché è difficile elaborarlo elettronicamente. Gli attuali strumenti di riconoscimento ottico dei caratteri (OCR) analizzano il testo riga per riga.

Questo va bene per i documenti puramente testuali, ma i documenti scientifici aggiungono un livello di complessità che questi strumenti standard non sono in grado di gestire. 

I documenti scientifici includono simboli e formule matematiche e scientifiche che spesso vengono aggiunti come pedici o apici. Anche i migliori OCR hanno difficoltà a catturarli correttamente.

Ciò che rende la sfida ancora più ardua è che molti di questi documenti di ricerca sono scansionati male e gli originali non sono più disponibili. Nougat, acronimo di Neural Optical Understanding for Academic Documents (comprensione ottica neurale dei documenti accademici), è pronto a raccogliere la sfida.

Invece di scansionare riga per riga, Nougat elabora l'intera pagina utilizzando una variante del Vision Transformer di Meta per l'analisi delle immagini. Il modello è stato addestrato su un set di dati di articoli pubblicati su PubMed Central e arXiv con il corrispondente codice sorgente LaTeX.

LaTeX è un software utilizzato per scrivere documenti scientifici che richiedono formule complesse e simboli matematici. Il modello è stato addestrato osservando l'immagine del documento e confrontandola con il codice che ha generato il testo complesso.

Ecco un esempio di uno degli esperimenti di Meta sulla digitalizzazione di un vecchio documento di ricerca.

Fonte: Meta

 

Ci sono altri esempi impressionanti sul sito Pagina di ricerca su Facebook.

Nougat non è perfetto, ma ha comunque ottenuto un punteggio BLEU di oltre 91% e una precisione di oltre 96% con il testo continuo. Il punteggio BLEU misura la somiglianza del testo tradotto automaticamente con un insieme di traduzioni di riferimento di alta qualità.

Per le formule e le tabelle è andato un po' peggio, con una precisione di poco superiore a 75%. È comunque molto meglio di modelli concorrenti come GROBID, che riesce ad azzeccare solo il 11% delle volte.

Ci sono milioni di pagine di ricerca che non sono indicizzabili o ricercabili perché possono essere lette efficacemente solo da esseri umani. Nougat cambia questa situazione consentendo di convertire in testo leggibile dalla macchina anche i PDF di ricerca scansionati male.

Come per molti altri suoi nuovi strumenti, Meta ha reso questo strumento liberamente accessibile. disponibile su GitHub. Tuttavia, potrebbe esserci un certo livello di interesse personale in questo sviluppo. Una volta che i vecchi documenti di ricerca sono leggibili dalla macchina, diventano disponibili per l'addestramento di altri modelli di intelligenza artificiale.

Sarà interessante vedere quali gemme di ricerca a lungo perdute verranno riscoperte con Nougat.

Partecipa al futuro


ISCRIVITI OGGI

Chiaro, conciso, completo. Per conoscere gli sviluppi dell'IA con DailyAI

Eugene van der Watt

Eugene proviene da un background di ingegneria elettronica e ama tutto ciò che è tecnologico. Quando si prende una pausa dal consumo di notizie sull'intelligenza artificiale, lo si può trovare al tavolo da biliardo.

×

PDF GRATUITO ESCLUSIVO
Rimanere all'avanguardia con DailyAI

Iscriviti alla nostra newsletter settimanale e ricevi l'accesso esclusivo all'ultimo eBook di DailyAI: 'Mastering AI Tools: La tua guida 2024 per una maggiore produttività".

*Iscrivendosi alla nostra newsletter si accetta la nostra Informativa sulla privacy e il nostro Termini e condizioni