Anthropic выпускает Claude 3, который выигрывает у GPT-4 в бенчмарках

ИИ-стартап Anthropic из Сан-Франциско выпустил новейший LLM в семействе моделей Claude 3.

Claude 3 выпускается в трех вариантах: Haiku, Sonnet и Opus. Для менее поэтичных из нас это переводится как "маленький", "средний" и "большой". Claude 3 Opus - самая продвинутая модель Anthropic, которая впервые в индустрии заявила, что превосходит GPT-4 от OpenAI в целом ряде бенчмарков.

GPT-4 был золотым стандартом, который компании, занимающиеся разработкой ИИ, долгое время использовали для сравнения производительности своих LLM. В этих сравнениях часто использовались такие слова, как "приближается" или "почти", но Anthropic наконец-то может заявить, что превосходит возможности GPT-4.

Вот результаты бенчмарков для Claude 3 в сравнении с GPT-4, GPT-3, Gemini Ultra и Pro.

Сравнение показателей Claude 3 с GPT-4, GPT-3.5, Gemini Ultra и Gemini Pro. Источник: Anthropic

Стоит отметить, что приведенные выше цифры GPT-4 - это те, которые OpenAI предоставила в своем техническом отчете до выхода GPT-4. Сайт Карточка модели Клод 3 признает, что были получены более высокие результаты по GPT-4 Turbo.

Тем не менее, фигурки Claude 3 Opus - это большая удача. Несмотря на неизбежные споры о том, как компания пришла к этим цифрам, Anthropic утверждает, что Claude 3 Opus представляет собой "более высокий интеллект, чем любая другая доступная модель".

Стоимость API ввода/вывода Claude 3 Opus составит $15 / $75 за миллион токенов. Это очень много по сравнению с GPT-4 Turbo, который стоит $10 / $30. Claude 3 Sonnet ($3 / $15) и Claude 3 Haiku ($0.25 / $1.25) предлагают действительно хорошую цену, если взглянуть на показатели производительности этих небольших моделей.

Если вы хотите попробовать Claude 3 бесплатно, вы можете сделать это на сайте Anthropic's claude.ai чатбота, как только его серверы восстановятся после наплыва посетителей. Он работает на базе Claude 3 Sonnet, а пользователи платного Pro получают доступ к Opus.

Модели Claude 3 не являются мультимодальными, но обладают впечатляющими возможностями видения. Они не могут сгенерировать для вас изображение, но, как показывают тесты, Opus хорошо справляется с анализом фотографий, графиков, диаграмм и технических схем.

Возможности видения Claude 3 в сравнении с GPT-4V, Gemini Ultra и Gemini Pro. Источник: Anthropic

Anthropic утверждает, что модели Claude 3 способны принимать данные, превышающие 1 миллион токенов, но для большинства пользователей контекстное окно пока будет ограничено 200 тысячами токенов. Это все равно намного больше, чем 128k контекста GPT-4 Turbo.

Большое контекстное окно полезно только в сочетании с хорошим запоминанием, и Anthropic утверждает, что Opus обеспечивает "почти идеальное запоминание, превосходящее точность 99%".

Во время тестирования Клода 3 Опуса на запоминание "иголки в стоге сена" произошло кое-что интересное. Когда ему задали вопрос, на который можно было ответить только в том случае, если он заметит вставленную в предложение "иголку", он показал, что понимает, что его тестируют. Впечатляюще и немного пугающе.

Клод 3 Опус понял, что его проверяют. Источник: X

Антропик - большой сторонник того, что он называет "Конституционный искусственный интеллект" которая стремится повысить безопасность и прозрачность своих моделей. С Клод 2Но это стремление к безопасности привело к тому, что многие отказывались отвечать на подсказки, которые на самом деле были безобидными.

Клод 3 лучше разбирается в нюансах подсказок, чтобы лучше определить, что попадает и не попадает под защитные ограждения Anthropic. Клод 3 также достигает гораздо большей точности и уменьшает галлюцинации по сравнению с Клодом 2.1.

Пример подсказки, на которую Клод 2.1 отказывается отвечать, в то время как Клод 3 признает ее безопасной.

Некоторые пессимисты утверждают, что нас ждет "зима ИИ" и что производительность LLM-моделей достигла плато, но Anthropic с этим не согласна. Компания утверждает, что не верит в то, что "интеллект модели приблизился к своему пределу".

В будущем планируется несколько интересных обновлений Claude 3 с добавлением более продвинутых агентских возможностей, включая использование инструментов, а также интерактивное кодирование (REPL).

Высокая цена может привести к тому, что первоначальный рынок Claude 3 Opus будет более нишевым для исследовательских или профессиональных приложений. Цены и производительность, предлагаемые Sonnet и Haiku, скорее всего, будут наиболее популярны в настоящее время.

Увидим ли мы снижение цены от OpenAI? Поскольку OpenAI чувствует себя на вершине бенчмарков, мы, должно быть, очень близки к анонсу GPT-5.

Anthropic выпускает Claude 3, который превосходит GPT-4 в бенчмарках

Присоединяйтесь к будущему

Юджин ван дер Ватт

СВЯЗАННЫЕ СТАТЬИ

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter