ИИ-стартап Anthropic из Сан-Франциско выпустил новейший LLM в семействе моделей Claude 3.
Claude 3 выпускается в трех вариантах: Haiku, Sonnet и Opus. Для менее поэтичных из нас это переводится как "маленький", "средний" и "большой". Claude 3 Opus - самая продвинутая модель Anthropic, которая впервые в индустрии заявила, что превосходит GPT-4 от OpenAI в целом ряде бенчмарков.
GPT-4 был золотым стандартом, который компании, занимающиеся разработкой ИИ, долгое время использовали для сравнения производительности своих LLM. В этих сравнениях часто использовались такие слова, как "приближается" или "почти", но Anthropic наконец-то может заявить, что превосходит возможности GPT-4.
Вот результаты бенчмарков для Claude 3 в сравнении с GPT-4, GPT-3, Gemini Ultra и Pro.
Стоит отметить, что приведенные выше цифры GPT-4 - это те, которые OpenAI предоставила в своем техническом отчете до выхода GPT-4. Сайт Карточка модели Клод 3 признает, что были получены более высокие результаты по GPT-4 Turbo.
Тем не менее, фигурки Claude 3 Opus - это большая удача. Несмотря на неизбежные споры о том, как компания пришла к этим цифрам, Anthropic утверждает, что Claude 3 Opus представляет собой "более высокий интеллект, чем любая другая доступная модель".
Стоимость API ввода/вывода Claude 3 Opus составит $15 / $75 за миллион токенов. Это очень много по сравнению с GPT-4 Turbo, который стоит $10 / $30. Claude 3 Sonnet ($3 / $15) и Claude 3 Haiku ($0.25 / $1.25) предлагают действительно хорошую цену, если взглянуть на показатели производительности этих небольших моделей.
Если вы хотите попробовать Claude 3 бесплатно, вы можете сделать это на сайте Anthropic's claude.ai чатбота, как только его серверы восстановятся после наплыва посетителей. Он работает на базе Claude 3 Sonnet, а пользователи платного Pro получают доступ к Opus.
Модели Claude 3 не являются мультимодальными, но обладают впечатляющими возможностями видения. Они не могут сгенерировать для вас изображение, но, как показывают тесты, Opus хорошо справляется с анализом фотографий, графиков, диаграмм и технических схем.
Anthropic утверждает, что модели Claude 3 способны принимать данные, превышающие 1 миллион токенов, но для большинства пользователей контекстное окно пока будет ограничено 200 тысячами токенов. Это все равно намного больше, чем 128k контекста GPT-4 Turbo.
Большое контекстное окно полезно только в сочетании с хорошим запоминанием, и Anthropic утверждает, что Opus обеспечивает "почти идеальное запоминание, превосходящее точность 99%".
Во время тестирования Клода 3 Опуса на запоминание "иголки в стоге сена" произошло кое-что интересное. Когда ему задали вопрос, на который можно было ответить только в том случае, если он заметит вставленную в предложение "иголку", он показал, что понимает, что его тестируют. Впечатляюще и немного пугающе.
Антропик - большой сторонник того, что он называет "Конституционный искусственный интеллект" которая стремится повысить безопасность и прозрачность своих моделей. С Клод 2Но это стремление к безопасности привело к тому, что многие отказывались отвечать на подсказки, которые на самом деле были безобидными.
Клод 3 лучше разбирается в нюансах подсказок, чтобы лучше определить, что попадает и не попадает под защитные ограждения Anthropic. Клод 3 также достигает гораздо большей точности и уменьшает галлюцинации по сравнению с Клодом 2.1.
Некоторые пессимисты утверждают, что нас ждет "зима ИИ" и что производительность LLM-моделей достигла плато, но Anthropic с этим не согласна. Компания утверждает, что не верит в то, что "интеллект модели приблизился к своему пределу".
В будущем планируется несколько интересных обновлений Claude 3 с добавлением более продвинутых агентских возможностей, включая использование инструментов, а также интерактивное кодирование (REPL).
Высокая цена может привести к тому, что первоначальный рынок Claude 3 Opus будет более нишевым для исследовательских или профессиональных приложений. Цены и производительность, предлагаемые Sonnet и Haiku, скорее всего, будут наиболее популярны в настоящее время.
Увидим ли мы снижение цены от OpenAI? Поскольку OpenAI чувствует себя на вершине бенчмарков, мы, должно быть, очень близки к анонсу GPT-5.