Os investigadores descobriram que o Gemini nem sequer consegue vencer o GPT-3.5 Turbo

22 de dezembro de 2023

Quando a Google anunciou o lançamento dos seus modelos Gemini, houve muito entusiasmo, uma vez que a empresa afirmou que estes estavam ao nível das ofertas da OpenAI. Isso pode não ser totalmente verdade.

A Google afirmou que os seus Gemini Ultra é melhor do que o modelo GPT-4. O modelo ainda não foi lançado, pelo que teremos de aceitar os resultados dos testes de referência pelo seu valor nominal. O Gemini Pro foi lançado e a Google afirma que está ao mesmo nível do GPT-3.5.

Os investigadores da Universidade Carnegie Mellon e da plataforma de software de IA BerriAI submeteram o Gemini Pro a uma série de tarefas para testar as suas capacidades de compreensão e geração de linguagem.

Eles executaram os mesmos testes usando GPT-3.5 Turbo, GPT-4 Turbo e o novo Modelo Mixtral 8x7B.

Resultados

Não é de surpreender que o GPT-4 tenha ficado em primeiro lugar, mas a Google ficará menos entusiasmada ao ver como o Gemini Pro se comportou em relação ao GPT 3.5 Turbo. Num resumo dos resultados da equipa, o papel afirmou que "o modelo Gemini's Pro alcançou uma precisão comparável, mas ligeiramente inferior, à da versão atual do GPT 3.5 Turbo da OpenAI".

Eis um resumo dos resultados.

Comparação da pontuação do modelo para diferentes tarefas. Fonte: arXiv

Os modelos foram solicitados utilizando a interface LiteLLM da BerriAI, tendo cada modelo recebido exatamente as mesmas solicitações e o mesmo protocolo de avaliação.

Os modelos foram testados em questões de escolha múltipla, raciocínio de objetivo geral, raciocínio matemático, geração de código, tradução de línguas e atuação como agente Web.

Uma das razões pelas quais o Gemini Pro teve um mau resultado nas perguntas de escolha múltipla é o facto de ter uma forte tendência posicional. Muitas vezes escolhia a resposta na posição D, quer estivesse correcta ou não. Curiosamente, isto é algo que o Microsoft's Medprompt resolve-se com a baralhação.

Apesar de perder em alguns dos testes, o Gemini Pro venceu o GPT-3.5 Turbo em duas áreas, nomeadamente, a ordenação de palavras e a manipulação e tradução de símbolos.

Em todas as tarefas de tradução realizadas pelo Gemini Pro, ele superou todos os outros modelos, incluindo o GPT-4. No entanto, a pontuação final do Gemini Pro nos testes de tradução foi inferior à do GPT-3.5 porque ele se recusou a concluir algumas solicitações quando suas proteções de moderação de conteúdo excessivamente zelosas entraram em ação.

E depois?

A Google contesta os números a que os investigadores chegaram e insiste que os seus números mostram que o Gemini Pro está ao mesmo nível ou é melhor do que o GPT-3.5. Se tivermos em conta a miríade de variáveis e dermos alguma folga à Google, podemos dividir a diferença e dizer que o Gemini Pro e o GPT-3.5 são praticamente iguais.

A principal conclusão é que o Gemini Pro, um modelo totalmente novo que a Google passou meses a desenvolver, não consegue vencer um modelo que já existe há mais de um ano e que é de utilização gratuita através do ChatGPT.

Prevê-se que o Gemini Ultra seja lançado no início de 2024. Será que vai corresponder à sua afirmação de ser melhor do que a GPT-4? Esperemos que o Professor Graham Neubig e a sua equipa realizem testes de benchmarking semelhantes em breve.

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Eugene van der Watt

Eugene vem de uma formação em engenharia eletrónica e adora tudo o que é tecnologia. Quando faz uma pausa no consumo de notícias sobre IA, pode encontrá-lo à mesa de snooker.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições