Microsoft затмевает Gemini с GPT-4, усиленным Medprompt

16 декабря 2023 года

Ранее в этом месяце компания Google с гордостью объявила, что ее самая мощная модель Gemini обошла GPT-4 в бенчмарке MMLU (Massive Multitask Language Understanding). Благодаря новой технике подсказок от Microsoft GPT-4 вернул себе лидерство, хотя и на доли процента.

Помимо драмы вокруг маркетингового ролика, Gemini от Google - это большая сделка для компании, а результаты бенчмарка MMLU впечатляют. Но Microsoft, крупнейший инвестор OpenAI, не заставила себя долго ждать, чтобы бросить тень на усилия Google.

Заголовок гласит, что Microsoft удалось заставить GPT-4 превзойти результаты Gemini Ultra в MMLU. На самом деле он превзошел результат Gemini 90,04% всего на 0,06%.

Предыстория того, как это стало возможным, более интересна, чем то, что мы видим в таблицах лидеров. Новые методы подсказок Microsoft могут повысить производительность старых моделей ИИ.

Медпромпт

Когда люди говорят об "управлении" моделью, они имеют в виду, что с помощью тщательных подсказок вы можете направить модель так, чтобы она выдавала результат, который лучше соответствует тому, что вы хотели получить.

Microsoft разработала комбинацию методов подсказок, которые оказались действительно хороши в этом деле. Медпромпт Начался как проект, направленный на то, чтобы GPT-4 лучше справлялся с медицинскими задачами, такими как набор тестов MultiMedQA.

Medprompt улучшает производительность тестов MedQA. Microsoft

Исследователи Microsoft решили, что если Medprompt хорошо работает в специализированных медицинских тестах, то он может улучшить и общие показатели GPT-4. Таким образом, Microsoft и OpenAI вернули себе право на победу GPT-4 над Gemini Ultra.

Как работает Medprompt?

Medprompt - это комбинация умных методов подсказки, объединенных в один. Он опирается на три основные техники.

Динамическое обучение по нескольким снимкам (DFSL)

Под "обучением с несколькими примерами" подразумевается предоставление GPT-4 нескольких примеров, прежде чем попросить его решить аналогичную задачу. Когда вы видите упоминание "5-shot", это означает, что модели было предоставлено 5 примеров. "Zero-shot" означает, что модель должна была ответить без примеров.

В документе Medprompt объясняется, что "для простоты и эффективности несколько примеров, используемых в подсказках для конкретной задачи, обычно фиксированы; они неизменны во всех тестовых примерах".

В результате примеры, с которыми знакомят модели, часто оказываются лишь в общих чертах релевантными или репрезентативными.

Если набор обучающих примеров достаточно велик, вы можете заставить модель просмотреть все примеры и выбрать те, которые семантически схожи с проблемой, которую ей предстоит решить. В результате несколько обучающих примеров будут более точно соответствовать конкретной задаче.

Самостоятельно созданная цепь мыслей (CoT)

Подсказки по цепочке мыслей (CoT) - отличный способ направлять LLM. Если подсказать ему "подумай хорошенько" или "решай шаг за шагом", результаты значительно улучшаются.

Вы можете гораздо конкретнее прописать цепочку мыслей, которой должна следовать модель, но это требует ручного проектирования.

Исследователи обнаружили, что они "могут просто попросить GPT-4 сгенерировать цепочку мыслей для обучающих примеров". Их подход, по сути, говорит GPT-4: "Вот вопрос, варианты ответов и правильный ответ. Какую CoT мы должны включить в подсказку, которая приведет к такому ответу?

Ансамбль Choice Shuffle

Большинство эталонных тестов MMLU - это вопросы с несколькими вариантами ответов. Когда модель искусственного интеллекта отвечает на эти вопросы, она может стать жертвой позиционной предвзятости. Другими словами, со временем она может отдать предпочтение варианту B, хотя он не всегда является правильным ответом.

Choice Shuffle Ensembling перетасовывает позиции вариантов ответа и заставляет GPT-4 снова ответить на вопрос. Это происходит несколько раз, после чего в качестве окончательного ответа выбирается наиболее последовательно выбранный вариант.

Сочетание этих трех оперативных техник и дало Microsoft возможность немного приукрасить результаты Gemini. Будет интересно посмотреть, каких результатов достигнет Gemini Ultra, если использовать аналогичный подход.

Medprompt интересен тем, что он показывает, что старые модели могут работать даже лучше, чем мы думали, если мы подскажем им умные способы. Однако дополнительная вычислительная мощность, необходимая для этих дополнительных шагов, может не сделать этот подход жизнеспособным в большинстве сценариев.

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Юджин ван дер Ватт

Юджин - выходец из электронной инженерии и обожает все, что связано с техникой. Когда он отдыхает от чтения новостей об искусственном интеллекте, вы можете найти его за столом для игры в снукер.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения