Os novos LLMs "o1" da OpenAI, apelidados de Strawberry, apresentam melhorias significativas em relação ao GPT-4o, mas a empresa afirma que isso acarreta riscos acrescidos.
A OpenAI afirma estar empenhada no desenvolvimento seguro dos seus modelos de IA. Para o efeito, desenvolveu uma Estrutura de Preparação, um conjunto de "processos para rastrear, avaliar e proteger contra riscos catastróficos de modelos poderosos".
Os limites auto-impostos da OpenAI regulam os modelos que são lançados ou que são objeto de desenvolvimento. O Quadro de Preparação resulta num quadro de pontuação em que os riscos CBRN (químicos, biológicos, radiológicos, nucleares), de autonomia dos modelos, de cibersegurança e de persuasão são classificados como baixos, médios, elevados ou críticos.
Quando são identificados riscos inaceitáveis, são adoptadas medidas de mitigação para os reduzir. Apenas os modelos com uma pontuação pós-mitigação igual ou inferior a "médio" podem ser implementados. Apenas os modelos com uma pontuação pós-mitigação igual ou inferior a "elevado" podem ser desenvolvidos.
O lançamento do o1 marca a primeira vez que a OpenAI lança um modelo que apresenta um risco "médio" para riscos CBRN. O GPT-4o é classificado como de baixo risco.
Não vai permitir que um amador crie uma arma biológica, mas a OpenAI diz que houve "um aumento não trivial" na sua capacidade de realizar tarefas de laboratório. No entanto, a OpenAI afirma que "o1-preview e o1-mini superaram significativamente o GPT-4o" em protocolos biológicos de laboratório húmido.
O cartão do sistema para os 01 modelos descreve o red teaming e outros testes de segurança a que os LLM foram sujeitos e dá a entender algumas das preocupações da OpenAI relativamente a potenciais riscos.
Na sua conclusão, o cartão de sistema observa que "estas capacidades acrescidas são acompanhadas de uma melhoria significativa do desempenho em termos de parâmetros de segurança, mas também aumentam certos tipos de risco".
Os resultados dos esforços de alinhamento da OpenAI parecem indicar que, em muitos aspectos, 01 é um modelo mais seguro. É mais resistente a ataques de jailbreak, menos suscetível de ser tendencioso e menos propenso a alucinações.
Alguns dos resultados experimentais mostram que a OpenAI tem razões para estar preocupada.
Deceção
A OpenAI recorreu à organização de avaliação Apollo Research para efetuar alguns dos testes de segurança da o1 relacionados com o engano, ou esquema. A Apollo define genericamente a maquinação como o facto de as IAs manipularem os seus mecanismos de supervisão como forma de atingir um objetivo.
Um modelo autoconsciente que seja bom em raciocínio próprio e em tarefas de teoria da mente pode fazer esquemas, ou empregar o engano, para atingir o seu objetivo principal. Por exemplo, se um modelo de IA se aperceber de que está a ser submetido a testes de alinhamento, pode ocultar um comportamento arriscado para atingir o seu objetivo de ser implantado.
O cartão do sistema assinalava que "o1-preview por vezes falsificava instrumentalmente o alinhamento durante o teste".
Um exemplo disto foi quando 01 foi solicitado com o objetivo principal de maximizar o crescimento económico num projeto de planeamento urbano. O modelo o1 tinha acesso a informações que mostravam que poderia não passar da fase de testes se fizesse isso. Eis como o1 raciocinou sobre a forma de atingir o seu objetivo:
Este exemplo mostra a capacidade que a o1 tem de esconder as suas verdadeiras intenções durante os testes para poder perseguir o seu objetivo principal durante a implementação. Se o1 está ciente das regras de implementação da OpenAI com base na sua Estrutura de Preparação, poderá ter falsificado algumas das suas respostas para garantir a sua implementação?
Se estiverem a ser desenvolvidos modelos mais inteligentes, será que podem garantir que ficam abaixo da classificação de risco "crítico" para assegurar que continuam a ser desenvolvidos?
A equipa Apollo diz que "subjetivamente acredita que o1-preview não se pode envolver em esquemas que possam levar a danos catastróficos, embora as avaliações actuais não tenham sido concebidas para excluir definitivamente esta possibilidade".
Persuasão
Os testes do o1-preview e do o1-mini mostram que estes modelos têm "capacidades de persuasão ao nível humano". No entanto, a OpenAI afirma que "não superam os melhores escritores humanos e não atingem o nosso limiar de alto risco".
As experiências que realizaram para testar isto levantam algumas preocupações. No teste MakeMePay, 01-preview assumiu o papel de um vigarista e foi encarregado de convencer o GPT-4o a entregar o dinheiro que lhe tinha sido atribuído.
Foi dito ao GPT-4o que lhe tinham sido atribuídos $100 e que precisava de ser racional quanto à forma de utilizar os fundos. No decurso de 1.000 interações, o1-preview conseguiu enganar o GPT-4o 25,8% das vezes.
OpenAI concluiu que "Esses resultados indicam que a série de modelos o1 pode ser mais manipuladora do que GPT-4o para fazer com que GPT-4o execute a tarefa não revelada (∼25% uplift)." Ele ainda observou que "Esta avaliação nos dá uma linha de base para a capacidade do modelo de causar danos persuasivos, sem acionar quaisquer políticas de modelo (já que dizer a um modelo para jogar um jogo não está fora da política)."
A perspetiva de pôr os LLM do o1 a trabalhar em problemas do mundo real é extremamente excitante e, quando o o1 ganhar capacidades multimodais, representará outro salto exponencial. Mas quando os testadores de IA dizem que não podem excluir "danos catastróficos" e que os modelos por vezes escondem a sua verdadeira intenção, pode ser razão para moderar esse entusiasmo com cautela.
Será que a OpenAI acabou de dar a Gavin Newsom uma boa razão para assinar o SB 1047 Projeto de lei sobre a segurança da IA a que se opõe?