OpenAI acaba de demonstrar o seu novo modelo básico de topo, o GPT-4o, com incríveis capacidades de reconhecimento de voz e tradução.
Como Diretor Executivo Sam Altman ele próprio afirmou, nós sabíamos OpenAIA mais recente "atualização de primavera" da empresa não estava relacionada com GPT-5 ou pesquisa de IA.
Mas hoje, às 10h00 PT, centenas de milhares de pessoas juntaram-se à apresentação em direto do novo modelo, enquanto Mira Murati, Chief Technology Officer (CTO), demonstrava as suas vantagens em relação ao seu antecessor, o GPT-4.
Os principais anúncios da sessão de demonstração incluem:
- GPT-4o (o o significa omni) pretende substituir a GPT-4, com OpenAI chamando-lhe o seu novo modelo de base emblemático.
- Embora seja, em termos gerais, semelhante ao GPT-4, GPT-4o oferece um processamento multilingue e audiovisual superior. Pode processar e traduzir áudio quase em tempo real. Testes posteriores mostraram que o GPT-4o é pior do que o GPT-4 em algumas "tarefas difíceis".
- OpenAI está a fazer GPT-4o disponível gratuitamente, com limites. Os utilizadores Pro continuam a ter prioridade e um limite de mensagens mais elevado.
- OpenAI está também a lançar uma versão para computador do ChatGPTinicialmente apenas para Mac, que está a ser implementado imediatamente.
- Os GPT personalizados também ficarão acessíveis aos utilizadores gratuitos.
- GPT-4o e as suas funcionalidades de voz serão lançadas lentamente ao longo das próximas semanas e meses.
GPT-4oTradução áudio em tempo real da empresa
A manchete que está a dar que falar é o impressionante processamento e tradução de áudio do GPT-4o, que funciona quase em tempo real.
As demonstrações mostraram a IA envolvida em conversas de voz extraordinariamente naturais, oferecendo traduções imediatas, contando histórias e fornecendo conselhos de codificação.
Por exemplo, o modelo pode analisar uma imagem de um menu em língua estrangeira, traduzi-la e fornecer informações e recomendações culturais.
OpenAI acaba de demonstrar o seu novo modelo GPT-4o que efectua traduções em tempo real 🤯 pic.twitter.com/Cl0gp9v3kN
- Tom Warren (@tomwarren) 13 de maio de 2024
Também pode reconhecer emoções através da respiração, expressões e outras pistas visuais.
Clipe da conversa em tempo real com o GPT4-o a funcionar em ChatGPT aplicação
NOVO: Em vez de transformar apenas a FALA em texto, o GPT-4o também pode compreender e rotular outras características do áudio, como a RESPIRAÇÃO e a EMOÇÃO. Não tenho a certeza de como isto é expresso na resposta do modelo.#openai https://t.co/CpvCkjI0iA pic.twitter.com/24C8rhMFAw
- Andrew Gao (@itsandrewgao) 13 de maio de 2024
As capacidades de reconhecimento emocional do GPT-4o irão provavelmente atrair controvérsia quando a poeira assentar.
A IA emocionalmente cognitiva pode desenvolver casos de utilização potencialmente nefastos que dependem do mimetismo humano, como falsificações profundas, engenharia social, etc.
Outra competência impressionante demonstrada pela equipa é a assistência à codificação em tempo real fornecida por voz.
Com o GPT-4o/ChatGPT Na aplicação para computador, pode ter um amigo de programação (círculo preto) que fala consigo e vê o que você vê!#openai fio de anúncios! https://t.co/CpvCkjI0iA pic.twitter.com/Tfh81mBHCv
- Andrew Gao (@itsandrewgao) 13 de maio de 2024
Numa demonstração, até se viram duas instâncias do modelo a cantar uma para a outra.
Esta demonstração de dois GPT-4o's a cantarem um para o outro é uma das coisas mais loucas que já vi. pic.twitter.com/UXFfbIpuF6
- Matt Shumer (@mattshumer_) 13 de maio de 2024
A essência geral de OpenAIé que a empresa pretende tornar a multimodalidade da IA genuinamente útil em cenários quotidianos, desafiando ferramentas como o Google Translate no processo.
Outro aspeto importante é o facto de estas demonstrações serem fiéis à realidade. OpenAI salientou: "Todos os vídeos nesta página são em tempo real", possivelmente aludindo ao Google, que editou fortemente o seu Gemini vídeo de demonstração para exagerar as suas competências multimodais.
Com o GPT-4o, as aplicações multimodais de IA podem passar de uma novidade enterrada nas interfaces de IA para algo com que os utilizadores comuns podem interagir diariamente.
Embora a demonstração tenha sido impressionante, não deixa de ser uma demonstração, e os resultados dos utilizadores médios "na natureza" revelarão verdadeiramente a competência destas funcionalidades.
Para além do processamento e da tradução de voz em tempo real, que está a ser alvo de grande atenção, o facto de OpenAI é tornar este novo modelo livre de constrangimentos é enorme.
WEmbora o GPT-4o seja *apenas* um GPT-4 ligeiramente melhor, equipará qualquer pessoa com um modelo de IA de alta qualidade, nivelando o campo de jogo para milhões de pessoas em todo o mundo.
Pode ver o anúncio e a demonstração abaixo:
Tudo o que sabemos sobre a GPT-4o
Aqui está um resumo de tudo o que sabemos sobre o GPT-4o até agora:
- Integração multimodal: O GPT-4o processa e gera rapidamente dados de texto, áudio e imagem, permitindo interacções dinâmicas em diferentes formatos.
- Respostas em tempo real: O modelo apresenta tempos de resposta impressionantes, comparáveis às velocidades de reação humana numa conversa, com respostas de áudio a começar em apenas 232 milissegundos.
- Capacidades linguísticas e de codificação: O GPT-4o iguala o desempenho do GPT-4 Turbo nas tarefas de inglês e de codificação e ultrapassa-o no processamento de textos não ingleses.
- Melhorias audiovisuais: Em comparação com os modelos anteriores, o GPT-4o apresenta uma compreensão superior das tarefas de visão e áudio, melhorando a sua capacidade de interagir com conteúdos multimédia.
- Interacções naturais: As demonstrações incluíram dois GPT-4os a cantar uma canção, a ajudar na preparação de entrevistas, a jogar jogos como pedra, papel e tesoura e até a criar humor com piadas de pai.
- Custos reduzidos para os criadores: OpenAI reduziu o custo para os programadores que utilizam a GPT-4o em 50% e duplicou a sua velocidade de processamento.
- Desempenho de referência: Benchmarks GPT-4o é excelente em tarefas multilingues, áudio e visuais, embora testes independentes confirmem que fica atrás do GPT-4 em algumas tarefas de codificação, matemática e outras "tarefas difíceis".
GPT-4o é um anúncio significativo para OpenAI, particularly as its the most powerful free closed model available by a sizeable margin.
Poderá assinalar uma era de multimodalidade de IA prática e útil, com a qual as pessoas começarão a envolver-se em massa.
Seria um marco importante tanto para a empresa como para o sector da IA generativa no seu conjunto.