O ReALM da Apple "vê" melhor as imagens no ecrã do que o GPT-4

3 de abril de 2024

  • Os engenheiros da Apple desenvolveram um sistema que compreende as nuances das conversas e das entidades no ecrã
  • O ReALM codifica os elementos do ecrã em texto simples que pode ser processado por um modelo linguístico
  • O ReALM é melhor na resolução de referência do que os LLM multimodais de maiores dimensões, como o GPT-4

Os engenheiros da Apple desenvolveram um sistema de IA que resolve referências complexas a entidades no ecrã e a conversas com o utilizador. O modelo leve poderá ser a solução ideal para assistentes virtuais no dispositivo.

Os seres humanos são bons a resolver referências em conversas uns com os outros. Quando usamos termos como "o de baixo" ou "ele", compreendemos a que é que a pessoa se está a referir com base no contexto da conversa e em coisas que podemos ver.

É muito mais difícil para um modelo de IA fazer isto. Os LLMs multimodais, como o GPT-4, são bons a responder a perguntas sobre imagens, mas são dispendiosos de treinar e requerem uma grande sobrecarga de computação para processar cada consulta sobre uma imagem.

Os engenheiros da Apple adoptaram uma abordagem diferente com o seu sistema, denominado ReALM (Reference Resolution As Language Modeling). O jornal vale a pena ler para obter mais pormenores sobre o seu processo de desenvolvimento e teste.

O ReALM utiliza um LLM para processar entidades de conversação, no ecrã e de fundo (alarmes, música de fundo) que constituem as interacções de um utilizador com um agente de IA virtual.

Eis um exemplo do tipo de interação que um utilizador pode ter com um agente de IA.

Exemplos de interacções de um utilizador com um assistente virtual. Fonte: arXiv

O agente precisa de compreender entidades conversacionais como o facto de que quando o utilizador diz "the one" está a referir-se ao número de telefone da farmácia.

Também precisa de compreender o contexto visual quando o utilizador diz "o de baixo", e é aqui que a abordagem do ReALM difere de modelos como o GPT-4.

O ReALM baseia-se em codificadores a montante para analisar primeiro os elementos no ecrã e as suas posições. Em seguida, a ReALM reconstrói o ecrã em representações puramente textuais, da esquerda para a direita e de cima para baixo.

Em termos simples, utiliza linguagem natural para resumir o ecrã do utilizador.

Agora, quando um utilizador faz uma pergunta sobre algo no ecrã, o modelo de linguagem processa a descrição de texto do ecrã em vez de precisar de utilizar um modelo de visão para processar a imagem no ecrã.

Os investigadores criaram conjuntos de dados sintéticos de entidades de conversação, no ecrã e de fundo e testaram o ReALM e outros modelos para testar a sua eficácia na resolução de referências em sistemas de conversação.

A versão mais pequena do ReALM (80M parâmetros) tem um desempenho comparável ao do GPT-4 e a sua versão maior (3B parâmetros) tem um desempenho substancialmente superior ao do GPT-4.

O ReALM é um modelo pequeno em comparação com o GPT-4. A sua resolução de referência superior torna-o a escolha ideal para um assistente virtual que pode existir no dispositivo sem comprometer o desempenho.

O ReALM não funciona tão bem com imagens mais complexas ou pedidos de utilizadores com mais nuances, mas poderia funcionar bem como assistente virtual no automóvel ou no dispositivo. Imagine se a Siri pudesse "ver" o ecrã do seu iPhone e responder a referências a elementos no ecrã.

A Apple tem sido um pouco lenta a arrancar, mas desenvolvimentos recentes como a sua Modelo MM1 e ReALM mostram que muita coisa está a acontecer à porta fechada.

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Eugene van der Watt

Eugene vem de uma formação em engenharia eletrónica e adora tudo o que é tecnologia. Quando faz uma pausa no consumo de notícias sobre IA, pode encontrá-lo à mesa de snooker.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições