Meta's Nougat gør videnskabelige tekster maskinlæsbare

29. august 2023

Meta har udviklet en ny AI-model kaldet Nougat, som på pålidelig vis kan omdanne videnskabelig tekst til maskinlæsbar tekst.

Hvis du nogensinde har prøvet at læse en videnskabelig forskningsartikel, så begynder du at forstå, hvorfor det er svært at behandle den elektronisk. De nuværende OCR-værktøjer (Optical Character Recognition) analyserer teksten linje for linje.

Det er fint nok til rent tekstbaserede dokumenter, men videnskabelige artikler tilføjer et niveau af kompleksitet, som disse standardværktøjer ikke kan håndtere. 

Videnskabelige artikler indeholder matematiske og videnskabelige symboler og formler, der ofte tilføjes som subskriptioner eller superscripts. Selv de bedste OCR'er har problemer med at fange disse korrekt.

Det, der gør det endnu mere udfordrende, er, at mange af disse forskningsartikler er dårligt scannede, og at originalerne ikke længere er tilgængelige. Nougat, som står for Neural Optical Understanding for Academic Documents, er klar til at tage udfordringen op.

I stedet for at scanne linje for linje behandler Nougat hele siden ved hjælp af en variant af Meta's Vision Transformer til billedanalyse. Modellen blev trænet på et datasæt med artikler udgivet på PubMed Central og arXiv, som havde tilsvarende LaTeX-kildekode.

LaTeX er software, der bruges til at skrive videnskabelige artikler, som kræver komplekse formler og matematiske symboler. Modellen blev trænet ved at se på billedet af papiret og sammenligne det med den kode, der genererede den komplekse tekst.

Her er et eksempel på et af Metas eksperimenter med at digitalisere et gammelt forskningspapir.

Kilde: Meta

 

Der er nogle mere imponerende eksempler på Forskningsside på Facebook.

Nougat er ikke perfekt, men den opnåede stadig en BLEU-score på over 91% og en nøjagtighed på over 96% med løbende tekst. BLEU-scoren måler ligheden mellem den maskinoversatte tekst og et sæt referenceoversættelser af høj kvalitet.

For formler og tabeller gik det lidt dårligere med en nøjagtighed på lidt over 75%. Det er stadig meget bedre end konkurrerende modeller som GROBID, der kun formår at ramme rigtigt i 11% af tilfældene.

Der er millioner af forskningssider, som ikke kan indekseres eller søges i, fordi de kun kan læses effektivt af mennesker. Nougat ændrer på det ved at gøre det muligt at konvertere selv dårligt scannede forsknings-PDF'er til maskinlæsbar tekst.

Som med så mange af de andre nye værktøjer har Meta gjort dette frit tilgængeligt. tilgængelig på GitHub. Der kan dog være en vis grad af egeninteresse i denne udvikling. Når gamle forskningsartikler er maskinlæsbare, bliver de tilgængelige for træning af andre AI-modeller.

Det bliver interessant at se, hvilke forsvundne forskningsperler der bliver genopdaget ved hjælp af Nougat.

Deltag i fremtiden


TILMELD DIG I DAG

Klar, kortfattet, omfattende. Få styr på AI-udviklingen med DailyAI

Eugene van der Watt

Eugene har en baggrund som elektronikingeniør og elsker alt, hvad der har med teknologi at gøre. Når han tager en pause fra at læse AI-nyheder, kan du finde ham ved snookerbordet.

×

GRATIS PDF EKSKLUSIVT
Vær på forkant med DailyAI

Tilmeld dig vores ugentlige nyhedsbrev og få eksklusiv adgang til DailyAI's seneste e-bog: 'Mastering AI Tools: Din 2024-guide til forbedret produktivitet'.

*Ved at tilmelde dig vores nyhedsbrev accepterer du vores Politik for beskyttelse af personlige oplysninger og vores Vilkår og betingelser