Tudo o que precisa de saber sobre o novo modelo principal da OpenAI, o GPT-4o

13 de maio de 2024

  • A OpenAI anunciou o seu novo modelo multimodal de referência denominado GPT-4o
  • O O significa "omni", o que denota o excelente desempenho audiovisual deste modelo
  • O GPT-4o pode efetuar uma tradução de voz em tempo real verdadeiramente impressionante
OpenAI

OpenAI acaba de demonstrar o seu novo modelo básico de topo, o GPT-4o, com incríveis capacidades de reconhecimento de voz e tradução. 

Como Diretor Executivo Sam Altman ele próprio afirmou, nós sabíamos OpenAIA mais recente "atualização de primavera" da empresa não estava relacionada com GPT-5 ou pesquisa de IA.

Mas hoje, às 10h00 PT, centenas de milhares de pessoas juntaram-se à apresentação em direto do novo modelo, enquanto Mira Murati, Chief Technology Officer (CTO), demonstrava as suas vantagens em relação ao seu antecessor, o GPT-4.

Os principais anúncios da sessão de demonstração incluem:

  • GPT-4o (o o significa omni) pretende substituir a GPT-4, com OpenAI chamando-lhe o seu novo modelo de base emblemático. 
  • Embora seja, em termos gerais, semelhante ao GPT-4, GPT-4o oferece um processamento multilingue e audiovisual superior. Pode processar e traduzir áudio quase em tempo real. Testes posteriores mostraram que o GPT-4o é pior do que o GPT-4 em algumas "tarefas difíceis".
  • OpenAI está a fazer GPT-4o disponível gratuitamente, com limites. Os utilizadores Pro continuam a ter prioridade e um limite de mensagens mais elevado.
  • OpenAI está também a lançar uma versão para computador do ChatGPTinicialmente apenas para Mac, que está a ser implementado imediatamente.
  • Os GPT personalizados também ficarão acessíveis aos utilizadores gratuitos.
  • GPT-4o e as suas funcionalidades de voz serão lançadas lentamente ao longo das próximas semanas e meses.

GPT-4oTradução áudio em tempo real da empresa

A manchete que está a dar que falar é o impressionante processamento e tradução de áudio do GPT-4o, que funciona quase em tempo real. 

As demonstrações mostraram a IA envolvida em conversas de voz extraordinariamente naturais, oferecendo traduções imediatas, contando histórias e fornecendo conselhos de codificação. 

Por exemplo, o modelo pode analisar uma imagem de um menu em língua estrangeira, traduzi-la e fornecer informações e recomendações culturais. 

Também pode reconhecer emoções através da respiração, expressões e outras pistas visuais. 

As capacidades de reconhecimento emocional do GPT-4o irão provavelmente atrair controvérsia quando a poeira assentar.

A IA emocionalmente cognitiva pode desenvolver casos de utilização potencialmente nefastos que dependem do mimetismo humano, como falsificações profundas, engenharia social, etc. 

Outra competência impressionante demonstrada pela equipa é a assistência à codificação em tempo real fornecida por voz.

Numa demonstração, até se viram duas instâncias do modelo a cantar uma para a outra.

A essência geral de OpenAIé que a empresa pretende tornar a multimodalidade da IA genuinamente útil em cenários quotidianos, desafiando ferramentas como o Google Translate no processo. 

Outro aspeto importante é o facto de estas demonstrações serem fiéis à realidade. OpenAI salientou: "Todos os vídeos nesta página são em tempo real", possivelmente aludindo ao Google, que editou fortemente o seu Gemini vídeo de demonstração para exagerar as suas competências multimodais.

Com o GPT-4o, as aplicações multimodais de IA podem passar de uma novidade enterrada nas interfaces de IA para algo com que os utilizadores comuns podem interagir diariamente.

Embora a demonstração tenha sido impressionante, não deixa de ser uma demonstração, e os resultados dos utilizadores médios "na natureza" revelarão verdadeiramente a competência destas funcionalidades.

Para além do processamento e da tradução de voz em tempo real, que está a ser alvo de grande atenção, o facto de OpenAI é tornar este novo modelo livre de constrangimentos é enorme. 

WEmbora o GPT-4o seja *apenas* um GPT-4 ligeiramente melhor, equipará qualquer pessoa com um modelo de IA de alta qualidade, nivelando o campo de jogo para milhões de pessoas em todo o mundo.

Pode ver o anúncio e a demonstração abaixo:

Tudo o que sabemos sobre a GPT-4o

Aqui está um resumo de tudo o que sabemos sobre o GPT-4o até agora:

  • Integração multimodal: O GPT-4o processa e gera rapidamente dados de texto, áudio e imagem, permitindo interacções dinâmicas em diferentes formatos. 
  • Respostas em tempo real: O modelo apresenta tempos de resposta impressionantes, comparáveis às velocidades de reação humana numa conversa, com respostas de áudio a começar em apenas 232 milissegundos.
  • Capacidades linguísticas e de codificação: O GPT-4o iguala o desempenho do GPT-4 Turbo nas tarefas de inglês e de codificação e ultrapassa-o no processamento de textos não ingleses.
  • Melhorias audiovisuais: Em comparação com os modelos anteriores, o GPT-4o apresenta uma compreensão superior das tarefas de visão e áudio, melhorando a sua capacidade de interagir com conteúdos multimédia.
  • Interacções naturais: As demonstrações incluíram dois GPT-4os a cantar uma canção, a ajudar na preparação de entrevistas, a jogar jogos como pedra, papel e tesoura e até a criar humor com piadas de pai.
  • Custos reduzidos para os criadores: OpenAI reduziu o custo para os programadores que utilizam a GPT-4o em 50% e duplicou a sua velocidade de processamento.
  • Desempenho de referência: Benchmarks GPT-4o é excelente em tarefas multilingues, áudio e visuais, embora testes independentes confirmem que fica atrás do GPT-4 em algumas tarefas de codificação, matemática e outras "tarefas difíceis". 

GPT-4o é um anúncio significativo para OpenAI, particularly as its the most powerful free closed model available by a sizeable margin.

Poderá assinalar uma era de multimodalidade de IA prática e útil, com a qual as pessoas começarão a envolver-se em massa.

Seria um marco importante tanto para a empresa como para o sector da IA generativa no seu conjunto.

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Calças de ganga Sam

Sam é um escritor de ciência e tecnologia que trabalhou em várias startups de IA. Quando não está a escrever, pode ser encontrado a ler revistas médicas ou a vasculhar caixas de discos de vinil.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições