A Meta lança modelos Llama 3.1 e mantém a sua estratégia aberta

24 de julho de 2024

  • A Meta lançou os seus modelos Llama 3.1, incluindo uma versão de parâmetros 405B, o maior modelo aberto do mundo
  • A Meta afirma que os seus modelos actualizados superam o GPT-4o e o Claude 3.5 Sonnet em vários testes de referência
  • Os modelos estarão disponíveis como código aberto e através de parceiros como a NVIDIA, AWS, Azure e outros

A Meta lançou os seus modelos Llama 3.1 actualizados nas versões 8B, 70B e 405B e comprometeu-se com a visão de código aberto de Mark Zuckerberg para o futuro da IA.

As novas adições à família de modelos Llama da Meta vêm com um comprimento de contexto alargado de 128k e suporte para oito idiomas.

A Meta diz que o seu aguardado modelo 405B demonstra "flexibilidade, controlo e capacidades de ponta incomparáveis que rivalizam com os melhores modelos de código fechado". Também afirma que o Llama 3.1 405B é o "maior e mais capaz modelo de fundação disponível abertamente do mundo".

Com os custos de computação cada vez mais elevados que estão a ser gastos para treinar modelos cada vez maiores, houve muita especulação de que o modelo 405B da Meta poderia ser o seu primeiro modelo pago.

O Llama 3.1 405B foi treinado em mais de 15 biliões de tokens utilizando 16 000 NVIDIA H100s, o que provavelmente custou centenas de milhões de dólares.

Num publicação no blogueMark Zuckerberg, CEO da Meta, reafirmou a opinião da empresa de que a IA de fonte aberta é o caminho a seguir e que o lançamento do Llama 3.1 é o próximo passo "para que a IA de fonte aberta se torne a norma da indústria".

Os modelos Llama 3.1 podem ser descarregados gratuitamente e modificados ou ajustados com um conjunto de serviços da Amazon, Databricks e NVIDIA.

Os modelos também estão disponíveis em fornecedores de serviços de nuvem, incluindo AWS, Azure, Google e Oracle.

Desempenho

A Meta afirma que testou os seus modelos em mais de 150 conjuntos de dados de referência e divulgou os resultados para os modelos de referência mais comuns, a fim de mostrar como os seus novos modelos se comparam com outros modelos líderes.

Não há muita diferença entre o Llama 3.1 405B e o GPT-4o e o Claude 3.5 Sonnet. Aqui estão os valores para o modelo 405B e depois para as versões mais pequenas 8B e 70B.

Comparação do Llama 3.1 405B com outros modelos líderes de mercado. Fonte: Meta
Comparação do Llama 3.1 405B com outros modelos líderes de mercado. Fonte: Meta

A Meta também efectuou "avaliações humanas extensivas que comparam o Llama 3.1 com modelos concorrentes em cenários do mundo real".

Estes valores dependem de os utilizadores decidirem se preferem a resposta de um modelo ou de outro.

A avaliação humana da Llama 3.1 405B reflecte uma paridade semelhante à revelada pelos valores de referência.

Resultados da avaliação humana do Llama 3.1 405B comparados com o GPT-4, GPT-4o e Claude 3.5 Sonnet. Fonte: Meta

A Meta afirma que o seu modelo é verdadeiramente aberto, uma vez que os pesos do modelo Llama 3.1 também estão disponíveis para transferência, embora os dados de treino não tenham sido partilhados. A empresa também alterou a sua licença para permitir que os modelos Llama sejam utilizados para melhorar outros modelos de IA.

A liberdade de afinar, modificar e utilizar os modelos Llama sem restrições terá críticos da fonte aberta A IA faz soar o alarme.

Zuckerberg defende que uma abordagem de fonte aberta é a melhor forma de evitar danos não intencionais. Se um modelo de IA estiver aberto ao escrutínio, diz que é menos provável que desenvolva um comportamento emergente perigoso que, de outra forma, nos passaria despercebido em modelos fechados.

No que diz respeito ao potencial de danos intencionais, Zuckerberg afirma: "Desde que todos tenham acesso a gerações semelhantes de modelos - o que o código aberto promove - os governos e as instituições com mais recursos informáticos poderão controlar os maus actores com menos recursos informáticos".

Ao abordar o risco de adversários estatais, como a China, acederem aos modelos do Meta, Zuckerberg afirma que os esforços para os manter fora das mãos dos chineses não vão resultar.

"Os nossos adversários são óptimos em espionagem, roubar modelos que cabem numa pen drive é relativamente fácil e a maioria das empresas de tecnologia está longe de operar de forma a tornar isto mais difícil", explicou.

O entusiasmo com um modelo de IA de fonte aberta como o Llama 3.1 405B a enfrentar os grandes modelos fechados é justificado.

Mas com os rumores de GPT-5 e Claude 3.5 Opus à espera, estes resultados de referência podem não envelhecer muito bem.

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Eugene van der Watt

Eugene vem de uma formação em engenharia eletrónica e adora tudo o que é tecnologia. Quando faz uma pausa no consumo de notícias sobre IA, pode encontrá-lo à mesa de snooker.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições