Новые самообучающиеся языковые модели Массачусетского технологического института могут превзойти другие модели LLM

5 июня 2023 года

Новые самообучающиеся языковые модели MIT
Новые самообучающиеся языковые модели Массачусетского технологического института не основаны на LLM (Large Language Models), но могут их превзойти.

За последние шесть месяцев мы стали свидетелями революционного бума с искусственным интеллектом LLM (большие языковые модели) занимают центральное место. Но всегда ли продукт или услуга ИИ должны быть основаны на LLM? Согласно статье, новые самообучающиеся языковые модели Массачусетского технологического института не основаны на LLM и могут превзойти некоторые из других больших систем ИИ, которые в настоящее время лидируют в отрасли.

Группа исследователей из Лаборатории компьютерных наук и искусственного интеллекта Массачусетского технологического института (CSAIL) разработала новый способ подхода к языковым моделям ИИ.

Это новаторское достижение, которое подчеркивает важность небольших языковых моделей и их способность решать проблемы неэффективности, а также проблемы конфиденциальности, связанные с разработкой больших моделей ИИ на основе текстовых данных.

С появлением OpenAI's ChatGPT основан на языковых моделях GPT-3 и GPT-4, многие компании включились в гонку искусственного интеллекта, включая Google Bard и другие. генеративный ИИ Системы, позволяющие людям генерировать текст, изображения и даже видео.

Однако для получения результатов безупречного качества эти системы опираются на большой объем данных, которые дорого обрабатывать вычислительным путем. Многие из этих систем импортируют данные для обучения через API, что сопряжено с определенными рисками, такими как утечка данных и другие проблемы конфиденциальности.

Текстовая эвентуальность

Согласно новой работе под названием Привязанность как надежное самообучение В статье, опубликованной в настоящее время в онлайн-репозитории препринтов arXiv, исследователи отмечают, что новые самообучающиеся языковые модели MIT могут решить проблему понимания некоторых языковых задач, с которой сталкиваются большие языковые модели. Это новаторское достижение они называют текстовой энтальпией.

Модели основаны на концепции, согласно которой если есть два предложения - посылка и гипотеза, то в случае, когда посылка в первом предложении истинна, гипотеза, скорее всего, тоже истинна.

В заявление опубликованном в блоге MIT CSAIL, одним из примеров такой структуры может быть то, что если "у всех кошек есть хвосты", то гипотеза "у кошки табби есть хвост", скорее всего, будет верной. Такой подход приводит к меньшей предвзятости в Модели искусственного интеллектаБлагодаря этому новые самообучающиеся языковые модели MIT превосходят более крупные языковые модели, говорится в заявлении.

"Наши самообучаемые модели энтилемента с 350 миллионами параметров, не требующие человеческих меток, превосходят контролируемые языковые модели с 137-175 миллиардами параметров", - говорит ведущий автор исследования, постдокторант MIT CSAIL Хонгин Луо (Hongyin Luo). "

Он также добавил, что такой подход может оказаться весьма полезным для существующих систем ИИ и изменить системы машинного обучения таким образом, чтобы они стали более масштабируемыми, надежными и экономически эффективными при работе с языковыми моделями.

Новые самообучающиеся языковые модели MIT все еще ограничены

Несмотря на то, что новые самообучающиеся языковые модели MIT обещают многое, когда дело доходит до решения задач бинарной классификации, они все еще ограничены в решении задач многоклассовой классификации. Это означает, что текстовая энтилементация не работает так же хорошо, когда модели предлагается несколько вариантов.

По словам Джеймса Гласса, профессора Массачусетского технологического института и главного исследователя CSAIL, который также является автором статьи, это исследование может пролить свет на эффективные и действенные методы обучения LLM пониманию проблем контекстного подтекста.

По его словам, "хотя область LLM претерпевает быстрые и значительные изменения, это исследование показывает, что можно создавать относительно компактные языковые модели, которые показывают очень хорошие результаты в задачах понимания эталонов по сравнению со своими аналогами примерно такого же размера или даже гораздо большими языковыми моделями".

Это исследование - только начало будущих технологий ИИ, которые смогут обучаться самостоятельно и будут более эффективными, устойчивыми и ориентированными на конфиденциальность данных. Доклад о новых самообучающихся языковых моделях MIT будет представлен в июле на встрече Ассоциации вычислительной лингвистики в Торонто. Проект также поддерживается Гонконгская программа инновационного искусственного интеллекта.

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Даница Симич

Даника - специалист по изучению данных с более чем 7-летним опытом работы в области искусственного интеллекта и больших данных. Она создавала специализированный контент для таких компаний, как ValueWalk и IntegrateAI, и была автором научных работ для Singidunum Univeristy.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения