A Meta lançou os seus modelos Llama 3.1 actualizados nas versões 8B, 70B e 405B e comprometeu-se com a visão de código aberto de Mark Zuckerberg para o futuro da IA.
As novas adições à família de modelos Llama da Meta vêm com um comprimento de contexto alargado de 128k e suporte para oito idiomas.
A Meta diz que o seu aguardado modelo 405B demonstra "flexibilidade, controlo e capacidades de ponta incomparáveis que rivalizam com os melhores modelos de código fechado". Também afirma que o Llama 3.1 405B é o "maior e mais capaz modelo de fundação disponível abertamente do mundo".
Com os custos de computação cada vez mais elevados que estão a ser gastos para treinar modelos cada vez maiores, houve muita especulação de que o modelo 405B da Meta poderia ser o seu primeiro modelo pago.
O Llama 3.1 405B foi treinado em mais de 15 biliões de tokens utilizando 16 000 NVIDIA H100s, o que provavelmente custou centenas de milhões de dólares.
Num publicação no blogueMark Zuckerberg, CEO da Meta, reafirmou a opinião da empresa de que a IA de fonte aberta é o caminho a seguir e que o lançamento do Llama 3.1 é o próximo passo "para que a IA de fonte aberta se torne a norma da indústria".
Os modelos Llama 3.1 podem ser descarregados gratuitamente e modificados ou ajustados com um conjunto de serviços da Amazon, Databricks e NVIDIA.
Os modelos também estão disponíveis em fornecedores de serviços de nuvem, incluindo AWS, Azure, Google e Oracle.
A partir de hoje, o código aberto está a liderar o caminho. Apresentamos a Llama 3.1: Os nossos modelos mais capazes até à data.
Hoje estamos a lançar uma coleção de novos modelos Llama 3.1, incluindo o nosso muito aguardado 405B. Estes modelos oferecem capacidades de raciocínio melhoradas, um contexto de token maior de 128K... pic.twitter.com/1iKpBJuReD
- IA no Meta (@AIatMeta) 23 de julho de 2024
Desempenho
A Meta afirma que testou os seus modelos em mais de 150 conjuntos de dados de referência e divulgou os resultados para os modelos de referência mais comuns, a fim de mostrar como os seus novos modelos se comparam com outros modelos líderes.
Não há muita diferença entre o Llama 3.1 405B e o GPT-4o e o Claude 3.5 Sonnet. Aqui estão os valores para o modelo 405B e depois para as versões mais pequenas 8B e 70B.
A Meta também efectuou "avaliações humanas extensivas que comparam o Llama 3.1 com modelos concorrentes em cenários do mundo real".
Estes valores dependem de os utilizadores decidirem se preferem a resposta de um modelo ou de outro.
A avaliação humana da Llama 3.1 405B reflecte uma paridade semelhante à revelada pelos valores de referência.
A Meta afirma que o seu modelo é verdadeiramente aberto, uma vez que os pesos do modelo Llama 3.1 também estão disponíveis para transferência, embora os dados de treino não tenham sido partilhados. A empresa também alterou a sua licença para permitir que os modelos Llama sejam utilizados para melhorar outros modelos de IA.
A liberdade de afinar, modificar e utilizar os modelos Llama sem restrições terá críticos da fonte aberta A IA faz soar o alarme.
Zuckerberg defende que uma abordagem de fonte aberta é a melhor forma de evitar danos não intencionais. Se um modelo de IA estiver aberto ao escrutínio, diz que é menos provável que desenvolva um comportamento emergente perigoso que, de outra forma, nos passaria despercebido em modelos fechados.
No que diz respeito ao potencial de danos intencionais, Zuckerberg afirma: "Desde que todos tenham acesso a gerações semelhantes de modelos - o que o código aberto promove - os governos e as instituições com mais recursos informáticos poderão controlar os maus actores com menos recursos informáticos".
Ao abordar o risco de adversários estatais, como a China, acederem aos modelos do Meta, Zuckerberg afirma que os esforços para os manter fora das mãos dos chineses não vão resultar.
"Os nossos adversários são óptimos em espionagem, roubar modelos que cabem numa pen drive é relativamente fácil e a maioria das empresas de tecnologia está longe de operar de forma a tornar isto mais difícil", explicou.
O entusiasmo com um modelo de IA de fonte aberta como o Llama 3.1 405B a enfrentar os grandes modelos fechados é justificado.
Mas com os rumores de GPT-5 e Claude 3.5 Opus à espera, estes resultados de referência podem não envelhecer muito bem.