Estará a OpenAI a utilizar um modelo de IA perigoso que levou ao despedimento de Altman?

23 de novembro de 2023

Superinteligência OpenAI

Mais um dia, mais uma reviravolta na saga OpenAI-Altman. 

Desta vez, a razão para o despedimento de Altman é um modelo de IA apocalipticamente poderoso que se encontra num laboratório de investigação da OpenAI, ou pelo menos é o que sugerem os meios de comunicação social.

Poucos dias antes da estreia de Sam Altman no saída temporária da OpenAI, fontes entrevistadas pela Reuters alegam que os investigadores da empresa enviaram uma carta de aviso ao conselho de administração.

Esta carta, que não foi divulgada publicamente até há pouco tempo, fez soar o alarme sobre um avanço da IA. De acordo com dois informadores que contactado pela Reutersé suficientemente potente para ameaçar a humanidade.

Fontes alegam que a modelo em questão pode ter sido fundamental nos acontecimentos que levaram ao despedimento de Altman. 

O projeto em questão é conhecido como Q* (pronuncia-se Q-Star). O Q* é visto por alguns membros da OpenAI como um potencial marco na procura de inteligência geral artificial (AGI). O Q* é uma amálgama de abordagens de aprendizagem automática, incluindo o Q-learning, que remonta à década de 1980. 

Embora os meios de comunicação social adorem uma história apocalíptica sobre a IA, estas fontes anónimas indicaram que a decisão do conselho de administração de despedir Altman foi influenciada por preocupações sobre a comercialização prematura de Q* sem compreender totalmente as suas implicações. 

No entanto, a Reuters não conseguiu confirmar de forma independente as alegadas capacidades do Q*, tal como descritas pelos investigadores.

Além disso, a Reuters não teve acesso à carta e os funcionários responsáveis pela sua redação não responderam às perguntas. 

Não nos deixa muito com que trabalhar. É preciso pensar que o facto de quase todos os funcionários da OpenAI terem pedido o regresso de Altman torna improvável que haja apenas dois que estejam preocupados com Q*.

Na sequência da rejeição dos receios de Altman em relação à Q*, o conselho de administração decidiu demitir Altman - ou, pelo menos, é isso que esta carta e as notícias associadas alegam. 

Mas será que isto tem alguma substância? Ou será apenas mais uma estranha e especulativa reviravolta no drama da direção da OpenAI?

O que é Q* e como funciona?

Embora especulativo, o Q* (Q-Star) poderia combinar elementos dos algoritmos de pesquisa Q-learning e A* (A Star) optimizados através de um processo denominado Aprendizagem por Reforço a partir de Feedback Humano (RLHF). 

Não é totalmente único, e já anteriormente se especulou sobre técnicas relacionadas com o Q*. Estes podem dar-nos algumas pistas sobre o seu funcionamento. 

Vamos decompor cada componente para compreender como podem interagir em Q*:

Q-learning em Q

O Q-learning é um tipo de algoritmo de aprendizagem por reforço que existe há cerca de 30 anos. Foi concebido para ajudar um agente a aprender as melhores acções a tomar num determinado estado para maximizar uma recompensa. Isto é feito através da aprendizagem de uma função de valor conhecida como função Q, que estima a utilização esperada de uma determinada ação num determinado estado.

No contexto de modelos de IA generativa como os que a OpenAI desenvolve, o Q-learning pode determinar a sequência óptima de palavras ou respostas numa conversa ou numa tarefa de resolução de problemas. 

Cada palavra ou resposta pode ser vista como uma ação, e os estados podem ser o contexto ou a sequência de palavras já geradas.

Um algoritmo de pesquisa em Q

O A* é um algoritmo popular de pesquisa em grafos conhecido pela sua eficiência e eficácia na procura do caminho mais curto de um nó inicial para um nó de destino num grafo. 

A menção ao facto de Q* necessitar de "vastos recursos informáticos" e ser capaz de resolver problemas matemáticos sugere que A* poderia ser integrado com Q-learning para lidar com processos de raciocínio complexos e com várias etapas. 

O algoritmo pode otimizar a tomada de decisões em várias etapas, armazenando resultados intermédios e pesquisando eficazmente possíveis sequências de acções (ou palavras/respostas).

Papel da RLHF

A RLHF envolve a formação de modelos de IA utilizando feedback humano para orientar o processo de aprendizagem. Isto pode incluir a demonstração dos resultados desejados, a correção de erros e o fornecimento de feedback diferenciado para aperfeiçoar a compreensão e o desempenho do modelo.

Em Q*, o RLHF pode ser utilizado para aperfeiçoar a capacidade do modelo para tomar decisões e resolver problemas, especialmente em cenários complexos, com várias voltas, em que a compreensão e o raciocínio diferenciados são fundamentais.

É assim que Q* pode funcionar, mas não nos diz realmente como ou porque é tão alarmante, nem oferece qualquer clareza sobre a verdade das afirmações da carta.

Só o tempo dirá se a Q* é genuína e se representa algum risco. 

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Calças de ganga Sam

Sam é um escritor de ciência e tecnologia que trabalhou em várias startups de IA. Quando não está a escrever, pode ser encontrado a ler revistas médicas ou a vasculhar caixas de discos de vinil.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições