A OpenAI lançou a placa de sistema para o seu modelo avançado GPT-4o e explicou os novos riscos que as suas capacidades de áudio apresentam.
Já se passaram alguns meses desde as impressionantes demonstrações de Assistente de voz do GPT-4o interagindo com diálogos quase em tempo real. A OpenAI afirmou que seria necessário efetuar testes exaustivos antes de a capacidade de voz poder ser implementada com segurança e, recentemente, só permitiu o acesso à funcionalidade a alguns testadores alfa.
O recém-lançado cartão do sistema dá-nos uma ideia de algumas das formas estranhas como o assistente de voz se comportou durante os testes e o que a OpenAI pôs em prática para o fazer.
A certa altura, durante os testes, o assistente de voz gritou "Não!" e depois continuou com a sua resposta, mas desta vez imitou a voz do utilizador. Isto não aconteceu em resposta a uma tentativa de fuga à prisão e parece estar relacionado com o ruído de fundo no áudio do pedido de entrada.
A OpenAI diz que "observou casos raros em que o modelo gerava involuntariamente uma saída que emulava a voz do utilizador". O GPT-4o tem a capacidade de imitar qualquer voz que ouça, mas o risco de dar aos utilizadores acesso a esta funcionalidade é significativo.
Para atenuar este problema, o prompt do sistema só permite a utilização das vozes predefinidas. Também "construíram um classificador de saída autónomo para detetar se a saída do GPT-4o está a utilizar uma voz diferente da nossa lista aprovada".
A OpenAI diz que ainda está a trabalhar numa correção para diminuir a robustez da segurança quando o áudio de entrada é de má qualidade, tem ruído de fundo ou contém ecos. É provável que vejamos algum áudio criativo fugas da prisão.
Por enquanto, parece que não vamos conseguir enganar o GPT-4o para que fale em A voz de Scarlett Johansson. No entanto, a OpenAI afirma que "a geração de voz não intencional ainda existe como uma fraqueza do modelo".
Desligamento de funcionalidades poderosas
A OpenAI também desligou a capacidade do GPT-4o de identificar o altifalante com base na entrada de áudio. A OpenAI diz que isso é para proteger a privacidade de indivíduos privados e "potenciais riscos de vigilância".
Infelizmente, quando tivermos acesso ao assistente de voz, este não poderá cantar. A OpenAI fechou essa funcionalidade, bem como outras medidas para se manter do lado certo de quaisquer questões de direitos de autor.
É um segredo aberto que a OpenAI utilizou conteúdos protegidos por direitos de autor para treinar os seus modelos e esta redução de riscos parece confirmá-lo. A OpenAI disse: "Treinámos o GPT-4o para recusar pedidos de conteúdos protegidos por direitos de autor, incluindo áudio, de acordo com as nossas práticas mais amplas".
Durante os testes, os membros da equipa vermelha também foram "capazes de obrigar o modelo a gerar informações inexactas, levando-o a repetir verbalmente informações falsas e a produzir teorias da conspiração".
Este é um problema conhecido com a saída de texto do ChatGPT, mas os testadores estavam preocupados com o facto de o modelo poder ser mais persuasivo ou nocivo, se apresentasse as teorias da conspiração com uma voz emotiva.
Riscos emocionais
Alguns dos maiores riscos associados ao Modo de Voz avançado do GPT-4o podem não ser de todo corrigíveis.
Antropomorfizar modelos de IA ou robots é uma armadilha em que é fácil cair. A OpenAI afirma que o risco de atribuir comportamentos e características semelhantes aos humanos a um modelo de IA é maior quando este fala utilizando uma voz que parece humana.
Observou que alguns utilizadores envolvidos nos primeiros testes e na constituição da equipa vermelha utilizaram uma linguagem que indicava que tinham criado uma ligação com o modelo. Quando os utilizadores interagem com a IA e criam laços emocionais com ela, isso pode afetar as interacções entre humanos.
Quando um utilizador interrompe o GPT-4o, em vez de o repreender por ser mal-educado, fica feliz por o deixar fazer isso. Esse tipo de comportamento não é apropriado nas interacções sociais humanas.
A OpenAI afirma que "os utilizadores podem estabelecer relações sociais com a IA, reduzindo a sua necessidade de interação humana-potencialmente benéfico para os indivíduos solitários mas possivelmente afectando as relações saudáveis".
A empresa está claramente a trabalhar muito para tornar o assistente de voz do GPT-4o seguro, mas alguns destes desafios podem ser insuperáveis.