xAI делает предварительный обзор Grok-1.5 и создает новый бенчмарк RealWorldQA

14 апреля 2024 года

  • Компания Элона Маска xAI представила свою вторую базовую модель, Grok-1.5
  • Grok-1.5 отлично конкурирует с ведущими моделями, особенно в задачах на зрение
  • xAI также установил новый стандарт для проверки навыков зрения модели.

Компания Элона Маска xAI представила Grok-1.5, мультимодальную модель искусственного интеллекта, призванную превзойти конкурентов в понимании реальных сценариев. 

Следуя по стопам других, таких как GPT-4V, новый Grok-1.5 представляет визуальную обработку для анализа всего, от документов и диаграмм до графиков, скриншотов и фотографий.

Grok-1.5 также набирает обороты в текстовых, кодовых и математических задачах, набирая 50,6% в бенчмарке MATH, 90% в бенчмарке GSM8K и 74,1% в бенчмарке HumanEval. 

Таким образом, Grok-1.5 попадает в число тяжеловесов LLM, набирая в среднем чуть меньше баллов, чем Gemini Pro 1.5, GPT-4 и Claude 3 Opus.

Grok
Конкурсные задания Grok-1.5 по тексту, математике и кодированию. Источник: xAI

Grok-1.5 также предлагает более длительное понимание контекста - до 128 тыс. токенов, что в 16 раз больше, чем у предшественника, но значительно уступает показателям Claude 3 Opus и Gemini 1.5 Pro.

Оценка Needle In A Haystack (NIAH) продемонстрировала способность Grok-1.5 находить встроенный текст в контекстах длиной до 128 тыс. лексем.

Однако больше всего xAI продвигает именно навыки видения Grok-1.5.

Демоверсии покажите, как Grok-1.5 преобразует блок-схемы в код на Python, генерирует сказки на ночь по мотивам детских рисунков, создает наборы данных CSV из скриншотов и даже "расшаривает" мемы. 

Grok-1.5 возглавляет таблицу лидеров в некоторых известных бенчмарках, таких как Mathvista и TextVQA, и набирает наибольшее количество баллов в недавно созданном xAI бенчмарке RealWorldQA.

Впечатляющие показатели зрения Grok-1.5. Источник: xAI

Под капотом Grok-1.5 используется собственный фреймворк распределенного обучения, который позволяет команде xAI создавать прототипы идей и обучать новые архитектуры в масштабе с минимальными усилиями.

xAI был основана в прошлом году в состав которой входят лучшие в мире исследователи в области искусственного интеллекта, ставящие перед собой сверхамбициозную цель - "Понять Вселенную". 

На данный момент у нас есть остроумный и необычный Грок-1, который рассказывает людям, как синтезировать наркотики и критикует Маска и компанию Tesla.

Grok также подключен к почтовой базе данных X, что, помимо прочих уникальных причуд, сделало его довольно популярным, несмотря на то, что он не может похвастаться чистой производительностью. 

Проект Маска xAI бросает вызов экосистеме генеративного ИИ с закрытым исходным кодом, делая свои модели общедоступными под настоящим лицензии с открытым исходным кодом

В сочетании с компанией Meta, которая намерена идти против конкурентов, открытый тезис xAI может стать шипом в попытках монетизации OpenAI, Microsoft, Anthropic и Google.

RealWorldQA

На предварительном показе Grok-1.5 xAI также продемонстрировал RealWorldQA - новый бенчмарк, состоящий из более чем 700 изображений, каждое из которых сопровождается вопросом и проверяемым ответом.

Набор данных состоит в основном из анонимизированных изображений, снятых с автомобилей и других реальных ситуаций.

Набор данных RealWorldQA предназначен для оценки возможностей пространственного понимания Grok 1.5 и других мультимодальных моделей ИИ. xAI посчитал, что другие эталоны не справляются с этой задачей. 

Grok
Эталонный набор данных RealWorldQA предназначен для проверки способности моделей понимать естественные сцены. Источник: xAI

Grok-1.5 превосходит конкурентов в RealWorldQA, и будет интересно посмотреть, приживется ли он.

Несмотря на то, что Grok-1.5 не способен понять Вселенную, он займет место еще одной высококлассной модели в постоянно растущей линейке.

Это также показывает, что генеративный ИИ в его нынешнем виде достигает пика своих возможностей - хотя, возможно, это ненадолго. 

Присоединяйтесь к будущему


ПОДПИСАТЬСЯ СЕГОДНЯ

Четко, лаконично, всесторонне. Получите представление о развитии искусственного интеллекта с помощью DailyAI

Сэм Джинс

Сэм - писатель в области науки и техники, работавший в различных AI-стартапах. Когда он не пишет, его можно найти за чтением медицинских журналов или копанием в коробках с виниловыми пластинками.

×

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI

Подпишитесь на нашу еженедельную рассылку и получите эксклюзивный доступ к последней электронной книге DailyAI: "Освоение инструментов искусственного интеллекта: Ваше руководство по повышению производительности в 2024 году".

* Подписываясь на нашу рассылку, вы принимаете наши Политика конфиденциальности и наш Условия и положения