As ferramentas de IA podem criar imagens de identidades digitais personalizadas, mas isso implica um ajuste fino dos LoRAs para obter bons resultados. O InstantID é um plug-in de fotografia zero que permite que os modelos de IA generativa criem imagens consistentes utilizando uma única imagem facial de referência.
Para que um modelo generativo crie imagens coerentes e consistentes de uma pessoa específica, é geralmente necessário utilizar um LoRA.
LoRA, abreviatura de Low-Rank Adaptation, é uma técnica utilizada para adaptar modelos de geração de imagens, sem os voltar a treinar totalmente. Se quisesse que o seu modelo fosse realmente bom a criar imagens da Taylor Swift, criaria um LoRA aperfeiçoado com base num conjunto de imagens da cantora.
Criar o LoRA leva tempo, muitas imagens de referência e muitos recursos de processamento. O InstantID altera tudo isso e pode significar o fim dos LoRAs para muitas aplicações.
A equipa do InstantX criou o InstantID, um modelo de disparo zero que não requer formação ou afinação. Com um único rosto como referência, o InstantID pode ativar um modelo de difusão estável de texto para imagem, como o SD1.5 ou o SDXL, para criar mais imagens da pessoa.
O InsantID foi finalmente lançado! Consulte o documento para mais pormenores. O código e os modelos pré-treinados serão lançados durante este mês.
Papel: https://t.co/Oy4HtmdeGu
Página do projeto: https://t.co/gsZE5Q88jg
Código: https://t.co/FlqTknoTxG pic.twitter.com/HiFUkOSYlB
- Frank (Haofan) Wang (@Haofan_Wang) 17 de janeiro de 2024
Utiliza um componente IdentityNet que se concentra fortemente em elementos faciais específicos na imagem de referência em vez de outros elementos na imagem de referência.
Uma das grandes vantagens do InstantID é a geração consistente de personagens. Digamos que queria gerar imagens de uma personagem num jogo ou novela gráfica que estava a criar. É extremamente difícil conseguir que um gerador de imagens de IA mantenha a consistência nas características faciais da personagem.
O InstantID permite que um gerador de imagens de IA mantenha a sua funcionalidade estilística e outras funcionalidades generativas, ao mesmo tempo que mantém características faciais de alta fidelidade.
O InstantID introduz também enormes riscos. Os LoRAs são uma caraterística importante do sites polémicos como o Civitaionde os utilizadores os utilizavam para criar pornografia gerada por IA. O sítio está cheio deles, mas é preciso trabalho e perícia para fazer um LoRA decente.
O InstantID é suscetível de abrir as comportas da falsificação por IA, porque já não é necessário um LoRA ou o acesso a uma grande quantidade de capacidade de computação em nuvem para criar uma imagem realista de uma pessoa específica. Basta uma fotografia.
Num caso de infeliz ironia, o jornal usou Taylor Swift em algumas das suas imagens de exemplo. A enxurrada de imagens falsas Imagens NSFW de Taylor Swift que posteriormente circulou esta semana é provavelmente um sinal do que está para vir.
A equipa do InstantX observou que o InstantID permite "a criação potencial de imagens ofensivas ou culturalmente inadequadas".