A Microsoft protege a Gemini com o GPT-4 impulsionado pelo Medprompt

16 de dezembro de 2023

No início deste mês, a Google anunciou orgulhosamente que o seu modelo Gemini mais potente venceu o GPT-4 nos testes de referência MMLU (Massive Multitask Language Understanding). Com a nova técnica de solicitação da Microsoft, o GPT-4 recuperou o primeiro lugar, embora por uma fração de um por cento.

Para além do drama em torno do seu vídeo de marketing, o Gemini da Google é um grande negócio para a empresa e os seus resultados de referência MMLU são impressionantes. Mas a Microsoft, o maior investidor da OpenAI, não esperou muito tempo para criticar os esforços da Google.

A manchete é que a Microsoft conseguiu que o GPT-4 superasse os resultados do MMLU do Gemini Ultra. A realidade é que superou o resultado do Gemini de 90,04% por apenas 0,06%.

A história dos bastidores que tornaram isto possível é mais empolgante do que a competição incremental que vemos nestas tabelas de classificação. As novas técnicas de estímulo da Microsoft podem melhorar o desempenho de modelos de IA mais antigos.

Medprompt

Quando se ouve falar em "orientar" um modelo, quer-se apenas dizer que, com uma orientação cuidadosa, é possível guiar um modelo para obter um resultado que esteja melhor alinhado com o que se pretendia.

A Microsoft desenvolveu uma combinação de técnicas de solicitação que provaram ser realmente boas neste domínio. Medprompt começou como um projeto para fazer com que o GPT-4 desse melhores respostas em testes de referência de desafios médicos, como o conjunto de testes MultiMedQA.

Melhorias do Medprompt no desempenho dos testes MedQA. Microsoft

Os investigadores da Microsoft pensaram que, se o Medprompt funcionasse bem em testes médicos especializados, também poderia melhorar o desempenho generalista do GPT-4. E, assim, a Microsoft e a OpenAI recuperaram o direito de se gabarem com o GPT-4 em relação ao Gemini Ultra.

Como é que o Medprompt funciona?

O Medprompt é uma combinação de técnicas inteligentes de solicitação, todas reunidas numa só. Baseia-se em três técnicas principais.

Aprendizagem dinâmica de poucos disparos (DFSL)

A "aprendizagem com poucas tentativas" refere-se ao facto de dar ao GPT-4 alguns exemplos antes de lhe pedir para resolver um problema semelhante. Quando se vê uma referência como "5-shot", significa que foram dados 5 exemplos ao modelo. "Zero-shot" significa que teve de responder sem quaisquer exemplos.

O documento do Medprompt explica que "por uma questão de simplicidade e eficiência, os exemplos de poucos disparos aplicados na solicitação de uma determinada tarefa são normalmente fixos; mantêm-se inalterados em todos os exemplos de teste".

O resultado é que os exemplos que são apresentados aos modelos são muitas vezes apenas relevantes ou representativos em termos gerais.

Se o seu conjunto de treino for suficientemente grande, pode fazer com que o modelo analise todos os exemplos e escolha aqueles que são semanticamente semelhantes ao problema que tem de resolver. O resultado é que os exemplos de aprendizagem de poucos disparos estão mais especificamente alinhados com um determinado problema.

Cadeia de pensamento auto-gerada (CoT)

A sugestão da Cadeia de Pensamento (CoT) é uma óptima forma de orientar um LLM. Quando se diz "pense bem" ou "resolva o problema passo a passo", os resultados são muito melhores.

É possível ser muito mais específico na forma como se orienta a cadeia de pensamento que o modelo deve seguir, mas isso implica uma engenharia manual rápida.

Os investigadores descobriram que "podiam simplesmente pedir ao GPT-4 para gerar cadeias de pensamento para os exemplos de treino". A abordagem deles basicamente diz ao GPT-4: 'Aqui está uma pergunta, as opções de resposta e a resposta correcta. Que CoT deveríamos incluir num prompt que chegasse a esta resposta?

Seleção de conjuntos aleatórios

A maioria dos testes de referência do MMLU são perguntas de escolha múltipla. Quando um modelo de IA responde a estas perguntas, pode ser vítima de uma tendência posicional. Por outras palavras, pode favorecer a opção B ao longo do tempo, apesar de nem sempre ser a resposta correcta.

O Agrupamento Baralhado de Opções baralha as posições das opções de resposta e faz com que o GPT-4 responda novamente à pergunta. Faz isto várias vezes e depois a resposta mais consistentemente escolhida é selecionada como a resposta final.

A combinação destas três técnicas de prompt foi o que deu à Microsoft a oportunidade de lançar um pouco de sombra sobre os resultados do Gemini. Será interessante ver quais os resultados que o Gemini Ultra alcançaria se utilizasse uma abordagem semelhante.

O Medprompt é empolgante porque mostra que os modelos mais antigos podem ter um desempenho ainda melhor do que pensávamos, se os avisarmos de formas inteligentes. No entanto, o poder de processamento adicional necessário para estes passos extra pode não tornar esta abordagem viável na maioria dos cenários.

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Eugene van der Watt

Eugene vem de uma formação em engenharia eletrónica e adora tudo o que é tecnologia. Quando faz uma pausa no consumo de notícias sobre IA, pode encontrá-lo à mesa de snooker.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições