A OpenAI revelou funcionalidades de voz e imagem para o ChatGPT, que serão lançadas nas próximas semanas, tanto para a aplicação como para o browser.
É justo dizer que a OpenAI descansou sobre os louros com o ChatGPT, que não incorpora o mesmo nível de funcionalidade que os concorrentes Claude da Anthropic e Bard da Google.
A OpenAI adicionou uma função de pesquisa no browser para o ChatGPT no início do ano, concedendo à ferramenta acesso à Internet, mas não funcionou particularmente bem e foi removido por potencialmente violar direitos de autor ao "imprimir" texto de sítios Web com acesso pago.
Dito isto, o GPT-4 é de longe o modelo de linguagem de grande dimensão (LLM) mais complexo que existe, o que manteve a OpenAI no topo da hierarquia da IA generativa.
A OpenAI aumentou agora a funcionalidade do chatbot, mantendo o ChatGPT firmemente no centro das atenções, à medida que a concorrência no sector aquece.
O que é que há de novo?
A OpenAI está a acrescentar o seguinte ao ChatGPT:
- Interação por voz: Os utilizadores podem agora falar diretamente com o ChatGPT e, em troca, a IA pode responder de forma audível utilizando uma das suas cinco vozes sintetizadas. Esta funcionalidade de voz é sustentada por um modelo avançado de conversão de texto em fala que a OpenAI treinou utilizando amostras de actores de voz. O ChatGPT tira partido de SussurroO sistema de reconhecimento de voz de código aberto da OpenAI.
- Interação de imagens: Para além da voz, os utilizadores podem agora fornecer imagens ao ChatGPT, acrescentando uma dimensão visual à conversa. Por exemplo, se um utilizador partilhar uma fotografia de um aparelho avariado, o ChatGPT poderá diagnosticar o problema e sugerir soluções. Nas plataformas móveis, foi integrada uma ferramenta de desenho que permite aos utilizadores fazer círculos ou apontar áreas específicas de uma imagem para que a IA se concentre nelas. As capacidades de imagem são impulsionadas por uma versão multimodal dos modelos GPT-3.5 e GPT-4, que foram aperfeiçoados para interpretar e raciocinar sobre entradas visuais.
Com estas novas adições, os utilizadores podem ter uma conversa com o chatbot e pedir-lhe informações específicas sobre o conteúdo da imagem, entre outras coisas.
Não há dúvida de que a comunidade vai encontrar formas interessantes de testar os limites do novo ChatGPT.
A OpenAI publicou a seguinte demonstração promocional no X:
Utilize a sua voz para entrar numa conversa com o ChatGPT. Fale com ele em viagem, peça uma história para adormecer ou resolva um debate à mesa de jantar.
Som em 🔊 pic.twitter.com/3tuWzX0wtS
- OpenAI (@OpenAI) 25 de setembro de 2023
Riscos e plano de implementação
Com as novas funcionalidades vêm novos riscos. Por exemplo, a tecnologia de voz poderia ser utilizada indevidamente para se fazer passar por figuras públicas. Como precaução, a OpenAI restringiu a funcionalidade de voz apenas à conversação.
Relativamente às imagens, a OpenAI limitou deliberadamente a capacidade do ChatGPT para analisar diretamente pessoas em fotografias.
A OpenAI está a planear uma implementação faseada, sendo os utilizadores do ChatGPT Plus e Enterprise os primeiros a receber acesso.
A funcionalidade de voz estará disponível nas aplicações móveis, enquanto as funções de imagem estarão acessíveis em todas as plataformas.
O anúncio da OpenAI entra num conjunto de lançamentos recentes e iminentes de produtos de IA generativa, incluindo ferramentas da YouTube, Copiloto da Microsoft conjunto de ferramentas e assistentes de IA, e um significativo atualização do Google Bard.