O Nougat da Meta torna os textos científicos legíveis por máquina

29 de agosto de 2023

A Meta desenvolveu um novo modelo de IA chamado Nougat que pode transformar, de forma fiável, texto científico em texto legível por máquina.

Se alguma vez tentou ler um documento de investigação científica, então começa a perceber porque é que é difícil processá-lo eletronicamente. As ferramentas actuais de reconhecimento ótico de caracteres (OCR) analisam o texto linha a linha.

Isto é ótimo para documentos puramente baseados em texto, mas os documentos científicos acrescentam um nível de complexidade que estas ferramentas padrão não conseguem suportar. 

Os documentos científicos incluem símbolos e fórmulas matemáticas e científicas que são frequentemente adicionados como subscritos ou sobrescritos. Mesmo os melhores OCRs têm dificuldade em capturar estes símbolos corretamente.

O que o torna ainda mais difícil é o facto de muitos destes documentos de investigação estarem mal digitalizados e de os originais já não estarem disponíveis. O Nougat, que significa Compreensão Ótica Neural para Documentos Académicos, está à altura do desafio.

Em vez de digitalizar linha a linha, o Nougat processa a página inteira utilizando uma variante do Vision Transformer da Meta para análise de imagens. O modelo foi treinado num conjunto de dados de artigos publicados no PubMed Central e no arXiv que tinham o código-fonte LaTeX correspondente.

O LaTeX é um software utilizado para escrever artigos científicos que requerem fórmulas complexas e símbolos matemáticos. O modelo foi treinado olhando para a imagem do documento e comparando-a com o código que gerou o texto complexo.

Aqui está um exemplo de uma das experiências da Meta na digitalização de um antigo trabalho de investigação.

Fonte: Meta

 

Existem alguns exemplos mais impressionantes no Página de investigação do Facebook.

O Nougat não é perfeito, mas ainda assim alcançou uma pontuação BLEU superior a 91% e uma precisão superior a 96% com texto contínuo. A pontuação BLEU mede a semelhança entre o texto traduzido por máquina e um conjunto de traduções de referência de alta qualidade.

Para fórmulas e tabelas, o desempenho foi um pouco pior, com uma precisão de pouco mais de 75%. Este valor é muito melhor do que os modelos concorrentes, como o GROBID, que só consegue acertar em 11% das vezes.

Há milhões de páginas de investigação que não são indexáveis ou pesquisáveis porque só podem ser efetivamente lidas por humanos. O Nougat muda isso, permitindo que mesmo os PDFs de investigação mal digitalizados sejam convertidos em texto legível por máquinas.

Tal como acontece com muitas das suas outras novas ferramentas, o Meta tornou esta livremente disponível no GitHub. No entanto, pode haver algum nível de interesse próprio neste desenvolvimento. Quando os documentos de investigação antigos são legíveis por máquinas, ficam disponíveis para treinar outros modelos de IA.

Será interessante ver que jóias de investigação há muito perdidas são redescobertas com o Nougat.

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Eugene van der Watt

Eugene vem de uma formação em engenharia eletrónica e adora tudo o que é tecnologia. Quando faz uma pausa no consumo de notícias sobre IA, pode encontrá-lo à mesa de snooker.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições