Meta's Nougat делает научные тексты машиночитаемыми

29 августа 2023 года

Компания Meta разработала новую модель искусственного интеллекта под названием Nougat, которая может надежно превращать научные тексты в машиночитаемые.

Если вы когда-нибудь пытались прочитать научную статью, то начинаете понимать, почему ее сложно обрабатывать в электронном виде. Современные инструменты оптического распознавания символов (OCR) анализируют текст строка за строкой.

Это хорошо для чисто текстовых документов, но научные статьи добавляют уровень сложности, с которым эти стандартные инструменты не могут справиться. 

Научные работы содержат математические и научные символы и формулы, которые часто добавляются в виде подписей или надписей. Даже самые лучшие OCR не могут распознать их должным образом.

Еще более сложной задачей является то, что многие из этих научных работ плохо отсканированы, а оригиналы уже недоступны. Программа Nougat, которая расшифровывается как Neural Optical Understanding for Academic Documents, справляется с этой задачей.

Вместо того чтобы сканировать строку за строкой, Nougat обрабатывает всю страницу целиком, используя для анализа изображений вариант Vision Transformer от Meta. Модель была обучена на наборе данных статей, опубликованных на сайтах PubMed Central и arXiv и содержащих соответствующий исходный код в формате LaTeX.

LaTeX - это программное обеспечение, которое используется для написания научных статей, содержащих сложные формулы и математические символы. Модель обучалась, глядя на изображение газеты и сравнивая его с кодом, который генерировал сложный текст.

Вот пример одного из экспериментов Меты по оцифровке старой научной работы.

Источник: Мета

 

Еще несколько впечатляющих примеров можно найти на сайте Исследовательская страница Facebook.

Nougat не идеален, но он все же достиг оценки BLEU более 91% и точности более 96% при работе с непрерывным текстом. Показатель BLEU измеряет сходство текста, переведенного машиной, с набором высококачественных эталонных переводов.

С формулами и таблицами дело обстоит немного хуже - точность составила чуть более 75%. Это все равно намного лучше, чем у конкурирующих моделей, таких как GROBID, которые справляются с задачей лишь в 11% случаев.

Миллионы страниц исследований не индексируются и не ищутся, потому что их может эффективно прочитать только человек. Nougat меняет эту ситуацию, позволяя преобразовывать даже плохо отсканированные PDF-файлы исследований в машиночитаемый текст.

Как и многие другие новые инструменты, Meta сделала этот свободно распространяемым. доступно на GitHub. Однако в этом развитии может быть и определенный корыстный интерес. Когда старые научные работы становятся машиночитаемыми, они становятся доступными для обучения других моделей ИИ.

Будет интересно посмотреть, какие давно забытые жемчужины исследований будут заново открыты с помощью Nougat.

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Юджин ван дер Ватт

Юджин - выходец из электронной инженерии и обожает все, что связано с техникой. Когда он отдыхает от чтения новостей об искусственном интеллекте, вы можете найти его за столом для игры в снукер.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения