Компания Элона Маска xAI представила Grok-1.5, мультимодальную модель искусственного интеллекта, призванную превзойти конкурентов в понимании реальных сценариев.
Следуя по стопам других, таких как GPT-4V, новый Grok-1.5 представляет визуальную обработку для анализа всего, от документов и диаграмм до графиков, скриншотов и фотографий.
Grok-1.5 также набирает обороты в текстовых, кодовых и математических задачах, набирая 50,6% в бенчмарке MATH, 90% в бенчмарке GSM8K и 74,1% в бенчмарке HumanEval.
Таким образом, Grok-1.5 попадает в число тяжеловесов LLM, набирая в среднем чуть меньше баллов, чем Gemini Pro 1.5, GPT-4 и Claude 3 Opus.
Grok-1.5 также предлагает более длительное понимание контекста - до 128 тыс. токенов, что в 16 раз больше, чем у предшественника, но значительно уступает показателям Claude 3 Opus и Gemini 1.5 Pro.
Оценка Needle In A Haystack (NIAH) продемонстрировала способность Grok-1.5 находить встроенный текст в контекстах длиной до 128 тыс. лексем.
Однако больше всего xAI продвигает именно навыки видения Grok-1.5.
Демоверсии покажите, как Grok-1.5 преобразует блок-схемы в код на Python, генерирует сказки на ночь по мотивам детских рисунков, создает наборы данных CSV из скриншотов и даже "расшаривает" мемы.
Grok-1.5 возглавляет таблицу лидеров в некоторых известных бенчмарках, таких как Mathvista и TextVQA, и набирает наибольшее количество баллов в недавно созданном xAI бенчмарке RealWorldQA.
Под капотом Grok-1.5 используется собственный фреймворк распределенного обучения, который позволяет команде xAI создавать прототипы идей и обучать новые архитектуры в масштабе с минимальными усилиями.
xAI был основана в прошлом году в состав которой входят лучшие в мире исследователи в области искусственного интеллекта, ставящие перед собой сверхамбициозную цель - "Понять Вселенную".
На данный момент у нас есть остроумный и необычный Грок-1, который рассказывает людям, как синтезировать наркотики и критикует Маска и компанию Tesla.
Grok также подключен к почтовой базе данных X, что, помимо прочих уникальных причуд, сделало его довольно популярным, несмотря на то, что он не может похвастаться чистой производительностью.
Проект Маска xAI бросает вызов экосистеме генеративного ИИ с закрытым исходным кодом, делая свои модели общедоступными под настоящим лицензии с открытым исходным кодом.
В сочетании с компанией Meta, которая намерена идти против конкурентов, открытый тезис xAI может стать шипом в попытках монетизации OpenAI, Microsoft, Anthropic и Google.
RealWorldQA
На предварительном показе Grok-1.5 xAI также продемонстрировал RealWorldQA - новый бенчмарк, состоящий из более чем 700 изображений, каждое из которых сопровождается вопросом и проверяемым ответом.
Набор данных состоит в основном из анонимизированных изображений, снятых с автомобилей и других реальных ситуаций.
Набор данных RealWorldQA предназначен для оценки возможностей пространственного понимания Grok 1.5 и других мультимодальных моделей ИИ. xAI посчитал, что другие эталоны не справляются с этой задачей.
Grok-1.5 превосходит конкурентов в RealWorldQA, и будет интересно посмотреть, приживется ли он.
Несмотря на то, что Grok-1.5 не способен понять Вселенную, он займет место еще одной высококлассной модели в постоянно растущей линейке.
Это также показывает, что генеративный ИИ в его нынешнем виде достигает пика своих возможностей - хотя, возможно, это ненадолго.