Tudo o que precisa de saber sobre o novo modelo principal da OpenAI, GPT-4o

OpenAI acaba de demonstrar o seu novo modelo básico de topo, o GPT-4o, com incríveis capacidades de reconhecimento de voz e tradução.

Como Diretor Executivo Sam Altman ele próprio afirmou, nós sabíamos OpenAIA mais recente "atualização de primavera" da empresa não estava relacionada com GPT-5 ou pesquisa de IA.

Mas hoje, às 10h00 PT, centenas de milhares de pessoas juntaram-se à apresentação em direto do novo modelo, enquanto Mira Murati, Chief Technology Officer (CTO), demonstrava as suas vantagens em relação ao seu antecessor, o GPT-4.

Os principais anúncios da sessão de demonstração incluem:

GPT-4o (o o significa omni) pretende substituir a GPT-4, com OpenAI chamando-lhe o seu novo modelo de base emblemático.
Embora seja, em termos gerais, semelhante ao GPT-4, GPT-4o oferece um processamento multilingue e audiovisual superior. Pode processar e traduzir áudio quase em tempo real. Testes posteriores mostraram que o GPT-4o é pior do que o GPT-4 em algumas "tarefas difíceis".
OpenAI está a fazer GPT-4o disponível gratuitamente, com limites. Os utilizadores Pro continuam a ter prioridade e um limite de mensagens mais elevado.
OpenAI está também a lançar uma versão para computador do ChatGPTinicialmente apenas para Mac, que está a ser implementado imediatamente.
Os GPT personalizados também ficarão acessíveis aos utilizadores gratuitos.
GPT-4o e as suas funcionalidades de voz serão lançadas lentamente ao longo das próximas semanas e meses.

GPT-4oTradução áudio em tempo real da empresa

A manchete que está a dar que falar é o impressionante processamento e tradução de áudio do GPT-4o, que funciona quase em tempo real.

As demonstrações mostraram a IA envolvida em conversas de voz extraordinariamente naturais, oferecendo traduções imediatas, contando histórias e fornecendo conselhos de codificação.

Por exemplo, o modelo pode analisar uma imagem de um menu em língua estrangeira, traduzi-la e fornecer informações e recomendações culturais.

OpenAI acaba de demonstrar o seu novo modelo GPT-4o que efectua traduções em tempo real 🤯 pic.twitter.com/Cl0gp9v3kN

- Tom Warren (@tomwarren) 13 de maio de 2024

Também pode reconhecer emoções através da respiração, expressões e outras pistas visuais.

Clipe da conversa em tempo real com o GPT4-o a funcionar em ChatGPT aplicação

NOVO: Em vez de transformar apenas a FALA em texto, o GPT-4o também pode compreender e rotular outras características do áudio, como a RESPIRAÇÃO e a EMOÇÃO. Não tenho a certeza de como isto é expresso na resposta do modelo.#openai https://t.co/CpvCkjI0iA pic.twitter.com/24C8rhMFAw

- Andrew Gao (@itsandrewgao) 13 de maio de 2024

As capacidades de reconhecimento emocional do GPT-4o irão provavelmente atrair controvérsia quando a poeira assentar.

A IA emocionalmente cognitiva pode desenvolver casos de utilização potencialmente nefastos que dependem do mimetismo humano, como falsificações profundas, engenharia social, etc.

Outra competência impressionante demonstrada pela equipa é a assistência à codificação em tempo real fornecida por voz.

Com o GPT-4o/ChatGPT Na aplicação para computador, pode ter um amigo de programação (círculo preto) que fala consigo e vê o que você vê!#openai fio de anúncios! https://t.co/CpvCkjI0iA pic.twitter.com/Tfh81mBHCv

- Andrew Gao (@itsandrewgao) 13 de maio de 2024

Numa demonstração, até se viram duas instâncias do modelo a cantar uma para a outra.

Esta demonstração de dois GPT-4o's a cantarem um para o outro é uma das coisas mais loucas que já vi. pic.twitter.com/UXFfbIpuF6

- Matt Shumer (@mattshumer_) 13 de maio de 2024

A essência geral de OpenAIé que a empresa pretende tornar a multimodalidade da IA genuinamente útil em cenários quotidianos, desafiando ferramentas como o Google Translate no processo.

Outro aspeto importante é o facto de estas demonstrações serem fiéis à realidade. OpenAI salientou: "Todos os vídeos nesta página são em tempo real", possivelmente aludindo ao Google, que editou fortemente o seu Gemini vídeo de demonstração para exagerar as suas competências multimodais.

Com o GPT-4o, as aplicações multimodais de IA podem passar de uma novidade enterrada nas interfaces de IA para algo com que os utilizadores comuns podem interagir diariamente.

Embora a demonstração tenha sido impressionante, não deixa de ser uma demonstração, e os resultados dos utilizadores médios "na natureza" revelarão verdadeiramente a competência destas funcionalidades.

Para além do processamento e da tradução de voz em tempo real, que está a ser alvo de grande atenção, o facto de OpenAI é tornar este novo modelo livre de constrangimentos é enorme.

WEmbora o GPT-4o seja *apenas* um GPT-4 ligeiramente melhor, equipará qualquer pessoa com um modelo de IA de alta qualidade, nivelando o campo de jogo para milhões de pessoas em todo o mundo.

Pode ver o anúncio e a demonstração abaixo:

Tudo o que sabemos sobre a GPT-4o

Aqui está um resumo de tudo o que sabemos sobre o GPT-4o até agora:

Integração multimodal: O GPT-4o processa e gera rapidamente dados de texto, áudio e imagem, permitindo interacções dinâmicas em diferentes formatos.
Respostas em tempo real: O modelo apresenta tempos de resposta impressionantes, comparáveis às velocidades de reação humana numa conversa, com respostas de áudio a começar em apenas 232 milissegundos.
Capacidades linguísticas e de codificação: O GPT-4o iguala o desempenho do GPT-4 Turbo nas tarefas de inglês e de codificação e ultrapassa-o no processamento de textos não ingleses.
Melhorias audiovisuais: Em comparação com os modelos anteriores, o GPT-4o apresenta uma compreensão superior das tarefas de visão e áudio, melhorando a sua capacidade de interagir com conteúdos multimédia.
Interacções naturais: As demonstrações incluíram dois GPT-4os a cantar uma canção, a ajudar na preparação de entrevistas, a jogar jogos como pedra, papel e tesoura e até a criar humor com piadas de pai.
Custos reduzidos para os criadores: OpenAI reduziu o custo para os programadores que utilizam a GPT-4o em 50% e duplicou a sua velocidade de processamento.
Desempenho de referência: Benchmarks GPT-4o é excelente em tarefas multilingues, áudio e visuais, embora testes independentes confirmem que fica atrás do GPT-4 em algumas tarefas de codificação, matemática e outras "tarefas difíceis".

GPT-4o é um anúncio significativo para OpenAI, particularly as its the most powerful free closed model available by a sizeable margin.

Poderá assinalar uma era de multimodalidade de IA prática e útil, com a qual as pessoas começarão a envolver-se em massa.

Seria um marco importante tanto para a empresa como para o sector da IA generativa no seu conjunto.

Tudo o que precisa de saber sobre o novo modelo principal da OpenAI, o GPT-4o

GPT-4oTradução áudio em tempo real da empresa

Tudo o que sabemos sobre a GPT-4o

Junte-se ao futuro

Calças de ganga Sam

ARTIGOS RELACIONADOS

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

Tudo o que precisa de saber sobre o novo modelo principal da OpenAI, o GPT-4o

GPT-4oTradução áudio em tempo real da empresa

Tudo o que sabemos sobre a GPT-4o

Junte-se ao futuro

Calças de ganga Sam

ARTIGOS RELACIONADOS

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

PDF GRATUITO EXCLUSIVOFique à frente com o DailyAI

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI