AI-værktøjer kan skabe billeder af personlige digitale identiteter, men det kræver, at man finjusterer LoRA'er for at få gode resultater. InstantID er et zero-shot-plugin, der gør det muligt for generative AI-modeller at lave ensartede billeder ved hjælp af et enkelt referenceansigtsbillede.
For at få en generativ model til at skabe konsistente, sammenhængende billeder af en bestemt person skal man som regel bruge en LoRA.
LoRA, en forkortelse for Low-Rank Adaptation, er en teknik, der bruges til at tilpasse billedgenereringsmodeller uden at omskole dem helt. Hvis du ville gøre din model rigtig god til at lave billeder af Taylor Swift, ville du lave en LoRA, der var finjusteret på en masse billeder af hende.
Det tager tid at lave en LoRA, det kræver en masse referencebilleder og masser af ressourcer. InstantID ændrer alt dette og kan betyde enden på LoRA'er for mange applikationer.
InstantX-teamet skabte InstantID, en nul-shot-model, der ikke kræver træning eller finjustering. Med et enkelt ansigt som reference kan InstantID gøre det muligt for en tekst-til-billede Stable Diffusion-model som SD1.5 eller SDXL at skabe flere billeder af personen.
InsantID er endelig udkommet! Se artiklen for flere detaljer. Koden og de prætrænede modeller vil blive frigivet i løbet af denne måned.
Papir: https://t.co/Oy4HtmdeGu
Projektets side: https://t.co/gsZE5Q88jg
Kode: https://t.co/FlqTknoTxG pic.twitter.com/HiFUkOSYlB
- Frank (Haofan) Wang (@Haofan_Wang) 17. januar 2024
Den bruger en IdentityNet-komponent, der fokuserer stærkt på specifikke ansigtselementer i referencebilledet i stedet for andre elementer i referencebilledet.
En af de store fordele ved InstantID er konsekvent karaktergenerering. Lad os sige, at du vil generere billeder af en karakter i et spil eller en grafisk roman, du er ved at lave. Det er ekstremt svært at få en AI-billedgenerator til at opretholde konsistens i karakterens ansigtstræk.
InstantID gør det muligt for en AI-billedgenerator at bevare sin stilistiske og andre generative funktioner, samtidig med at ansigtstrækkene bevares i høj kvalitet.
InstantID introducerer også store risici. LoRA'er er en stor del af kontroversielle steder som Civitaihvor brugerne kunne bruge dem til at skabe AI-genereret porno. Siden er fyldt med dem, men det kræver arbejde og ekspertise at lave en god LoRA.
InstantID vil sandsynligvis åbne sluserne for AI-fup, fordi man ikke længere behøver en LoRA eller adgang til masser af cloud computing-kraft for at skabe et realistisk billede af en bestemt person. Et foto er alt, hvad der skal til.
I et tilfælde af uheldig ironi brugte avisen Taylor Swift i en række af sine eksempelbilleder. Strømmen af falske NSFW-billeder af Taylor Swift som efterfølgende gik sin sejrsgang i denne uge, er sandsynligvis et tegn på, hvad der skal ske.
InstantX-teamet bemærkede, at InstantID muliggør "den potentielle skabelse af stødende eller kulturelt upassende billeder."