Quando a Google anunciou o lançamento dos seus modelos Gemini, houve muito entusiasmo, uma vez que a empresa afirmou que estes estavam ao nível das ofertas da OpenAI. Isso pode não ser totalmente verdade.
A Google afirmou que os seus Gemini Ultra é melhor do que o modelo GPT-4. O modelo ainda não foi lançado, pelo que teremos de aceitar os resultados dos testes de referência pelo seu valor nominal. O Gemini Pro foi lançado e a Google afirma que está ao mesmo nível do GPT-3.5.
Os investigadores da Universidade Carnegie Mellon e da plataforma de software de IA BerriAI submeteram o Gemini Pro a uma série de tarefas para testar as suas capacidades de compreensão e geração de linguagem.
Eles executaram os mesmos testes usando GPT-3.5 Turbo, GPT-4 Turbo e o novo Modelo Mixtral 8x7B.
O Gemini da Google surgiu recentemente como um dos principais concorrentes do GPT da OpenAI. É emocionante! Mas perguntámo-nos:
Quão bom é realmente Gémeos?
Na CMU, realizámos um estudo imparcial, aprofundado e reprodutível que comparou o Gemini, o GPT e o Mixtral.
Papel: https://t.co/S3T7ediQLa
🧵 pic.twitter.com/NmEOeDd8pI- Graham Neubig (@gneubig) 19 de dezembro de 2023
Resultados
Não é de surpreender que o GPT-4 tenha ficado em primeiro lugar, mas a Google ficará menos entusiasmada ao ver como o Gemini Pro se comportou em relação ao GPT 3.5 Turbo. Num resumo dos resultados da equipa, o papel afirmou que "o modelo Gemini's Pro alcançou uma precisão comparável, mas ligeiramente inferior, à da versão atual do GPT 3.5 Turbo da OpenAI".
Eis um resumo dos resultados.
Os modelos foram solicitados utilizando a interface LiteLLM da BerriAI, tendo cada modelo recebido exatamente as mesmas solicitações e o mesmo protocolo de avaliação.
Os modelos foram testados em questões de escolha múltipla, raciocínio de objetivo geral, raciocínio matemático, geração de código, tradução de línguas e atuação como agente Web.
Uma das razões pelas quais o Gemini Pro teve um mau resultado nas perguntas de escolha múltipla é o facto de ter uma forte tendência posicional. Muitas vezes escolhia a resposta na posição D, quer estivesse correcta ou não. Curiosamente, isto é algo que o Microsoft's Medprompt resolve-se com a baralhação.
Apesar de perder em alguns dos testes, o Gemini Pro venceu o GPT-3.5 Turbo em duas áreas, nomeadamente, a ordenação de palavras e a manipulação e tradução de símbolos.
Em todas as tarefas de tradução realizadas pelo Gemini Pro, ele superou todos os outros modelos, incluindo o GPT-4. No entanto, a pontuação final do Gemini Pro nos testes de tradução foi inferior à do GPT-3.5 porque ele se recusou a concluir algumas solicitações quando suas proteções de moderação de conteúdo excessivamente zelosas entraram em ação.
E depois?
A Google contesta os números a que os investigadores chegaram e insiste que os seus números mostram que o Gemini Pro está ao mesmo nível ou é melhor do que o GPT-3.5. Se tivermos em conta a miríade de variáveis e dermos alguma folga à Google, podemos dividir a diferença e dizer que o Gemini Pro e o GPT-3.5 são praticamente iguais.
A principal conclusão é que o Gemini Pro, um modelo totalmente novo que a Google passou meses a desenvolver, não consegue vencer um modelo que já existe há mais de um ano e que é de utilização gratuita através do ChatGPT.
Prevê-se que o Gemini Ultra seja lançado no início de 2024. Será que vai corresponder à sua afirmação de ser melhor do que a GPT-4? Esperemos que o Professor Graham Neubig e a sua equipa realizem testes de benchmarking semelhantes em breve.