Meta ha sviluppato un nuovo modello di intelligenza artificiale, chiamato Nougat, in grado di trasformare in modo affidabile i testi scientifici in testi leggibili dalla macchina.
Se avete mai provato a leggere un documento di ricerca scientifica, iniziate a capire perché è difficile elaborarlo elettronicamente. Gli attuali strumenti di riconoscimento ottico dei caratteri (OCR) analizzano il testo riga per riga.
Questo va bene per i documenti puramente testuali, ma i documenti scientifici aggiungono un livello di complessità che questi strumenti standard non sono in grado di gestire.
I documenti scientifici includono simboli e formule matematiche e scientifiche che spesso vengono aggiunti come pedici o apici. Anche i migliori OCR hanno difficoltà a catturarli correttamente.
Ciò che rende la sfida ancora più ardua è che molti di questi documenti di ricerca sono scansionati male e gli originali non sono più disponibili. Nougat, acronimo di Neural Optical Understanding for Academic Documents (comprensione ottica neurale dei documenti accademici), è pronto a raccogliere la sfida.
Invece di scansionare riga per riga, Nougat elabora l'intera pagina utilizzando una variante del Vision Transformer di Meta per l'analisi delle immagini. Il modello è stato addestrato su un set di dati di articoli pubblicati su PubMed Central e arXiv con il corrispondente codice sorgente LaTeX.
LaTeX è un software utilizzato per scrivere documenti scientifici che richiedono formule complesse e simboli matematici. Il modello è stato addestrato osservando l'immagine del documento e confrontandola con il codice che ha generato il testo complesso.
Ecco un esempio di uno degli esperimenti di Meta sulla digitalizzazione di un vecchio documento di ricerca.
Fonte: Meta
Ci sono altri esempi impressionanti sul sito Pagina di ricerca su Facebook.
Nougat non è perfetto, ma ha comunque ottenuto un punteggio BLEU di oltre 91% e una precisione di oltre 96% con il testo continuo. Il punteggio BLEU misura la somiglianza del testo tradotto automaticamente con un insieme di traduzioni di riferimento di alta qualità.
Per le formule e le tabelle è andato un po' peggio, con una precisione di poco superiore a 75%. È comunque molto meglio di modelli concorrenti come GROBID, che riesce ad azzeccare solo il 11% delle volte.
Ci sono milioni di pagine di ricerca che non sono indicizzabili o ricercabili perché possono essere lette efficacemente solo da esseri umani. Nougat cambia questa situazione consentendo di convertire in testo leggibile dalla macchina anche i PDF di ricerca scansionati male.
Come per molti altri suoi nuovi strumenti, Meta ha reso questo strumento liberamente accessibile. disponibile su GitHub. Tuttavia, potrebbe esserci un certo livello di interesse personale in questo sviluppo. Una volta che i vecchi documenti di ricerca sono leggibili dalla macchina, diventano disponibili per l'addestramento di altri modelli di intelligenza artificiale.
Sarà interessante vedere quali gemme di ricerca a lungo perdute verranno riscoperte con Nougat.