Anthropic lança o Claude 3 que bate o GPT-4 em benchmarks

5 de março de 2024

A Anthropic, uma empresa de IA sediada em São Francisco, lançou o seu mais recente LLM com a sua família de modelos Claude 3.

O Claude 3 está disponível em três variações: Haiku, Sonnet e Opus. Para os menos poéticos entre nós, isso significa pequeno, médio e grande. O Claude 3 Opus é o modelo mais avançado da Anthropic e é o primeiro da indústria a afirmar que supera o GPT-4 da OpenAI numa ampla gama de benchmarks.

O GPT-4 tem sido o padrão de ouro que as empresas de IA utilizam há muito tempo para comparar o desempenho dos seus LLM. Essas comparações utilizavam frequentemente palavras como "aproximando-se" ou "quase", mas o Anthropic pode finalmente afirmar que excede a capacidade do GPT-4.

Aqui estão os valores de referência para o Claude 3 em comparação com o GPT-4, GPT-3 e Gemini Ultra e Pro.

Valores de referência do Claude 3 comparados com GPT-4, GPT-3.5, Gemini Ultra e Gemini Pro. Fonte: Anthropic

Vale a pena notar que os números do GPT-4 acima são os que a OpenAI forneceu no seu relatório técnico antes do GPT-4 ser lançado. Os Cartão de modelo Claude 3 reconhece que foram registadas pontuações mais elevadas no GPT-4 Turbo.

Mesmo assim, os números do Claude 3 Opus são um grande negócio. Apesar das inevitáveis discussões sobre a forma como a empresa chegou a estes números, a Anthropic afirma que o Claude 3 Opus representa "uma inteligência superior a qualquer outro modelo disponível".

Os custos da API de entrada/saída do Claude 3 Opus custam-lhe $15 / $75 por milhão de tokens. Este valor é muito elevado em comparação com o GPT-4 Turbo, que custa $10 / $30. Claude 3 Sonnet ($3 / $15) e Claude 3 Haiku ($0.25 / $1.25) oferecem um valor realmente bom quando se olha para os números de desempenho destes modelos mais pequenos.

Se quiser experimentar o Claude 3 gratuitamente, pode fazê-lo no sítio Web do Anthropic claude.ai O chatbot será ativado assim que os seus servidores recuperarem do pico de tráfego. É alimentado pelo Claude 3 Sonnet, com os utilizadores Pro pagos a terem acesso ao Opus.

Os modelos Claude 3 não são multimodais, mas têm capacidades de visão impressionantes. Não conseguem gerar uma imagem para si, mas os testes de referência indicam que o Opus é bom a analisar fotografias, tabelas, gráficos e diagramas técnicos.

Capacidades de visão do Claude 3 comparadas com o GPT-4V, Gemini Ultra e Gemini Pro. Fonte: Anthropic

Anthropic diz que os modelos Claude 3 são capazes de aceitar entradas superiores a 1 milhão de tokens mas, para a maioria dos utilizadores, a janela de contexto será limitada a 200k tokens por agora. Isso ainda é muito mais do que o contexto de 128k do GPT-4 Turbo.

Uma grande janela de contexto só é útil quando associada a uma boa capacidade de memorização e a Anthropic afirma que o Opus proporciona "uma memorização quase perfeita, ultrapassando a precisão do 99%".

Algo interessante aconteceu durante o teste de recordação "agulha no palheiro" do Claude 3 Opus. Quando lhe foi feita uma pergunta que só podia ser respondida se detectasse a frase da "agulha" inserida, ele indicou que compreendia que estava a ser testado. Impressionante e um pouco assustador.

Claude 3 Opus apercebeu-se de que estava a ser testado. Fonte: X

A Anthropic é uma grande defensora daquilo a que chama "IA constitucional" que tem por objetivo melhorar a segurança e a transparência dos seus modelos. Com Claude 2No entanto, esta procura de segurança resultou em muitas recusas de resposta a pedidos que, na realidade, eram inofensivos.

Claude 3 é melhor na compreensão das nuances dos avisos para decidir melhor o que é e o que não é abrangido pelas protecções do Anthropic. O Claude 3 também consegue uma precisão muito melhor e reduz a alucinações em comparação com Claude 2.1.

Um exemplo de uma pergunta a que o Cláudio 2.1 se recusa a responder enquanto o Cláudio 3 a reconhece como segura.

Alguns pessimistas da IA afirmam que estamos a caminhar para um inverno da IA e que o desempenho dos modelos LLM está a atingir um patamar, mas a Anthropic discorda. A empresa afirma que não acredita que "a inteligência dos modelos esteja perto dos seus limites".

No futuro, planeia introduzir várias actualizações interessantes no Claude 3, com a adição de capacidades agênticas mais avançadas, incluindo a utilização de ferramentas e a codificação interactiva (REPL).

O preço elevado pode fazer com que o mercado inicial do Claude 3 Opus se situe em aplicações profissionais ou de investigação de nicho. É provável que o preço e o desempenho oferecidos pelo Sonnet e pelo Haiku sejam, por enquanto, os mais adoptados.

Iremos assistir a uma descida de preço da OpenAI? Com o OpenAI a sentir o calor no topo dos benchmarks, devemos estar muito perto de um anúncio do GPT-5.

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Eugene van der Watt

Eugene vem de uma formação em engenharia eletrónica e adora tudo o que é tecnologia. Quando faz uma pausa no consumo de notícias sobre IA, pode encontrá-lo à mesa de snooker.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições