A Anthropic, uma empresa de IA sediada em São Francisco, lançou o seu mais recente LLM com a sua família de modelos Claude 3.
O Claude 3 está disponível em três variações: Haiku, Sonnet e Opus. Para os menos poéticos entre nós, isso significa pequeno, médio e grande. O Claude 3 Opus é o modelo mais avançado da Anthropic e é o primeiro da indústria a afirmar que supera o GPT-4 da OpenAI numa ampla gama de benchmarks.
O GPT-4 tem sido o padrão de ouro que as empresas de IA utilizam há muito tempo para comparar o desempenho dos seus LLM. Essas comparações utilizavam frequentemente palavras como "aproximando-se" ou "quase", mas o Anthropic pode finalmente afirmar que excede a capacidade do GPT-4.
Aqui estão os valores de referência para o Claude 3 em comparação com o GPT-4, GPT-3 e Gemini Ultra e Pro.
Vale a pena notar que os números do GPT-4 acima são os que a OpenAI forneceu no seu relatório técnico antes do GPT-4 ser lançado. Os Cartão de modelo Claude 3 reconhece que foram registadas pontuações mais elevadas no GPT-4 Turbo.
Mesmo assim, os números do Claude 3 Opus são um grande negócio. Apesar das inevitáveis discussões sobre a forma como a empresa chegou a estes números, a Anthropic afirma que o Claude 3 Opus representa "uma inteligência superior a qualquer outro modelo disponível".
Os custos da API de entrada/saída do Claude 3 Opus custam-lhe $15 / $75 por milhão de tokens. Este valor é muito elevado em comparação com o GPT-4 Turbo, que custa $10 / $30. Claude 3 Sonnet ($3 / $15) e Claude 3 Haiku ($0.25 / $1.25) oferecem um valor realmente bom quando se olha para os números de desempenho destes modelos mais pequenos.
Se quiser experimentar o Claude 3 gratuitamente, pode fazê-lo no sítio Web do Anthropic claude.ai O chatbot será ativado assim que os seus servidores recuperarem do pico de tráfego. É alimentado pelo Claude 3 Sonnet, com os utilizadores Pro pagos a terem acesso ao Opus.
Os modelos Claude 3 não são multimodais, mas têm capacidades de visão impressionantes. Não conseguem gerar uma imagem para si, mas os testes de referência indicam que o Opus é bom a analisar fotografias, tabelas, gráficos e diagramas técnicos.
Anthropic diz que os modelos Claude 3 são capazes de aceitar entradas superiores a 1 milhão de tokens mas, para a maioria dos utilizadores, a janela de contexto será limitada a 200k tokens por agora. Isso ainda é muito mais do que o contexto de 128k do GPT-4 Turbo.
Uma grande janela de contexto só é útil quando associada a uma boa capacidade de memorização e a Anthropic afirma que o Opus proporciona "uma memorização quase perfeita, ultrapassando a precisão do 99%".
Algo interessante aconteceu durante o teste de recordação "agulha no palheiro" do Claude 3 Opus. Quando lhe foi feita uma pergunta que só podia ser respondida se detectasse a frase da "agulha" inserida, ele indicou que compreendia que estava a ser testado. Impressionante e um pouco assustador.
A Anthropic é uma grande defensora daquilo a que chama "IA constitucional" que tem por objetivo melhorar a segurança e a transparência dos seus modelos. Com Claude 2No entanto, esta procura de segurança resultou em muitas recusas de resposta a pedidos que, na realidade, eram inofensivos.
Claude 3 é melhor na compreensão das nuances dos avisos para decidir melhor o que é e o que não é abrangido pelas protecções do Anthropic. O Claude 3 também consegue uma precisão muito melhor e reduz a alucinações em comparação com Claude 2.1.
Alguns pessimistas da IA afirmam que estamos a caminhar para um inverno da IA e que o desempenho dos modelos LLM está a atingir um patamar, mas a Anthropic discorda. A empresa afirma que não acredita que "a inteligência dos modelos esteja perto dos seus limites".
No futuro, planeia introduzir várias actualizações interessantes no Claude 3, com a adição de capacidades agênticas mais avançadas, incluindo a utilização de ferramentas e a codificação interactiva (REPL).
O preço elevado pode fazer com que o mercado inicial do Claude 3 Opus se situe em aplicações profissionais ou de investigação de nicho. É provável que o preço e o desempenho oferecidos pelo Sonnet e pelo Haiku sejam, por enquanto, os mais adoptados.
Iremos assistir a uma descida de preço da OpenAI? Com o OpenAI a sentir o calor no topo dos benchmarks, devemos estar muito perto de um anúncio do GPT-5.