xAI представляет Grok-1.5 и создает новый бенчмарк под названием RealWorldQA

Компания Элона Маска xAI представила Grok-1.5, мультимодальную модель искусственного интеллекта, призванную превзойти конкурентов в понимании реальных сценариев.

Следуя по стопам других, таких как GPT-4V, новый Grok-1.5 представляет визуальную обработку для анализа всего, от документов и диаграмм до графиков, скриншотов и фотографий.

Grok-1.5 также набирает обороты в текстовых, кодовых и математических задачах, набирая 50,6% в бенчмарке MATH, 90% в бенчмарке GSM8K и 74,1% в бенчмарке HumanEval.

Таким образом, Grok-1.5 попадает в число тяжеловесов LLM, набирая в среднем чуть меньше баллов, чем Gemini Pro 1.5, GPT-4 и Claude 3 Opus.

Grok-1.5 также предлагает более длительное понимание контекста - до 128 тыс. токенов, что в 16 раз больше, чем у предшественника, но значительно уступает показателям Claude 3 Opus и Gemini 1.5 Pro.

Оценка Needle In A Haystack (NIAH) продемонстрировала способность Grok-1.5 находить встроенный текст в контекстах длиной до 128 тыс. лексем.

Однако больше всего xAI продвигает именно навыки видения Grok-1.5.

Демоверсии покажите, как Grok-1.5 преобразует блок-схемы в код на Python, генерирует сказки на ночь по мотивам детских рисунков, создает наборы данных CSV из скриншотов и даже "расшаривает" мемы.

Grok-1.5 возглавляет таблицу лидеров в некоторых известных бенчмарках, таких как Mathvista и TextVQA, и набирает наибольшее количество баллов в недавно созданном xAI бенчмарке RealWorldQA.

Впечатляющие показатели зрения Grok-1.5. Источник: xAI

Под капотом Grok-1.5 используется собственный фреймворк распределенного обучения, который позволяет команде xAI создавать прототипы идей и обучать новые архитектуры в масштабе с минимальными усилиями.

xAI был основана в прошлом году в состав которой входят лучшие в мире исследователи в области искусственного интеллекта, ставящие перед собой сверхамбициозную цель - "Понять Вселенную".

На данный момент у нас есть остроумный и необычный Грок-1, который рассказывает людям, как синтезировать наркотики и критикует Маска и компанию Tesla.

Grok также подключен к почтовой базе данных X, что, помимо прочих уникальных причуд, сделало его довольно популярным, несмотря на то, что он не может похвастаться чистой производительностью.

Проект Маска xAI бросает вызов экосистеме генеративного ИИ с закрытым исходным кодом, делая свои модели общедоступными под настоящим лицензии с открытым исходным кодом.

В сочетании с компанией Meta, которая намерена идти против конкурентов, открытый тезис xAI может стать шипом в попытках монетизации OpenAI, Microsoft, Anthropic и Google.

RealWorldQA

На предварительном показе Grok-1.5 xAI также продемонстрировал RealWorldQA - новый бенчмарк, состоящий из более чем 700 изображений, каждое из которых сопровождается вопросом и проверяемым ответом.

Набор данных состоит в основном из анонимизированных изображений, снятых с автомобилей и других реальных ситуаций.

Набор данных RealWorldQA предназначен для оценки возможностей пространственного понимания Grok 1.5 и других мультимодальных моделей ИИ. xAI посчитал, что другие эталоны не справляются с этой задачей.

Grok-1.5 превосходит конкурентов в RealWorldQA, и будет интересно посмотреть, приживется ли он.

Несмотря на то, что Grok-1.5 не способен понять Вселенную, он займет место еще одной высококлассной модели в постоянно растущей линейке.

Это также показывает, что генеративный ИИ в его нынешнем виде достигает пика своих возможностей - хотя, возможно, это ненадолго.

xAI делает предварительный обзор Grok-1.5 и создает новый бенчмарк RealWorldQA

RealWorldQA

Присоединяйтесь к будущему

Сэм Джинс

СВЯЗАННЫЕ СТАТЬИ

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

xAI делает предварительный обзор Grok-1.5 и создает новый бенчмарк RealWorldQA

RealWorldQA

Присоединяйтесь к будущему

Сэм Джинс

СВЯЗАННЫЕ СТАТЬИ

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDFБудьте впереди с DailyAI

ЭКСКЛЮЗИВНЫЙ БЕСПЛАТНЫЙ PDF
Будьте впереди с DailyAI