16 000 nomes de artistas divulgados de forma polémica como "estilos" da Midjourney

5 de janeiro de 2024

IA a meio da viagem

Mais de 16 000 nomes de artistas foram associados à formação não consentida dos modelos de geração de imagens da Midjourney.

A base de dados de artistas da Midjourney está anexada a uma ação judicial alterada apresentada contra a Stability AI, a DeviantArt e a Midjourney, arquivado em Exhibit J, e numa folha de cálculo pública do Google recentemente divulgada, parte da qual pode ser consultada na Arquivo da Internet aqui

O artista Jon Lam partilhou capturas de ecrã no X de uma conversa no Discord da Midjourney em que os programadores discutem a utilização de nomes e estilos de artistas da Wikipedia e de outras fontes.

Acredita-se que a folha de cálculo tenha sido originalmente criada pela equipa de desenvolvimento da Midjourney e se aproxima dos chats do Discord vazados dos desenvolvedores de Midjourney, que aludem ao trabalho do artista sendo mapeado para "estilos".

Ao codificar o trabalho do artista como "estilos", o Midjourney pode recriar eficazmente o trabalho no seu estilo. 

Lam escreve: "Os programadores da Midjourney foram apanhados a discutir o branqueamento de capitais e a criar uma base de dados de artistas (que foram desumanizados até aos estilos."

Lam também partilhou vídeos de listas de artistas, incluindo os utilizados para os estilos da Midjourney e outra lista de "artistas propostos". Vários utilizadores do X afirmaram que os seus nomes constavam destas listas. 

Uma captura de ecrã parece mostrar uma declaração do diretor executivo da Midjourney, David Holz, que celebra a adição de 16 000 artistas ao programa de formação. 

Outra mostra um programador da Midjourney a dizer que é preciso "lavá-lo" através de um "Codex", embora, sem contexto, seja difícil dizer se isto se refere ao trabalho dos artistas.

Outros (que não são funcionários da Midjourney) nessa mesma conversa referem que o processamento de obras de arte através de um modelo de IA essencialmente as desvincula dos direitos de autor.

Um deles diz: "basta utilizar esses conjuntos de dados extraídos e esquecer convenientemente o que utilizámos para treinar o modelo. Bum, problemas legais resolvidos para sempre".

Como estão a evoluir os processos judiciais

Em processos judiciais apresentados contra a Midjourney, a Stability AI e também a OpenAI, a Meta e a Google (mas para trabalhos baseados em texto, em vez de imagens), os artistas, escritores e outros têm tido dificuldade em provar que o seu trabalho está realmente "dentro" do modelo literalmente.

Essa seria a prova de que precisam para provar a violação dos direitos de autor.  

Os direitos de autor, em geral, continuam mal definidos na era da IA. Os modelos de IA são treinados com base em dados que têm de vir de algum lado, e que melhor fonte para encontrar esses dados do que a Internet?

Os programadores "raspam" o que se designa por dados "abertos", "de fonte aberta" ou "públicos" da Internet, mas, mais uma vez, estes conceitos são mal definidos. Pode dizer-se que, quando os criadores de IA sentiram o cheiro da iminente corrida ao ouro, aproveitaram todos os dados "abertos" da Internet que puderam e utilizaram-nos para treinar os seus modelos.

Os processos legais são lentos; a IA é a velocidade da luz em comparação. Foi muito fácil para os programadores ultrapassarem a lei dos direitos de autor e treinarem modelos muito antes de os detentores de direitos de autor e a lei que rege a propriedade intelectual poderem reagir.

O processo de reação está agora em curso, mas tanto o processo de formação de IA como o processo técnico envolvido na geração de resultados de IA (por exemplo, texto ou imagens) a partir de entradas do utilizador desafiam a natureza do direito de propriedade intelectual.

Especificamente, é a) difícil provar que os modelos de IA são definitivamente treinados em material protegido por direitos de autor e b) difícil provar que os seus resultados reproduzem suficientemente o material protegido por direitos de autor.

Há também a questão da responsabilidade. Empresas de IA como a OpenAI e a Midjourney utilizaram, pelo menos em parte, dados recolhidos por outros em vez de os recolherem elas próprias. Então, não seriam os responsáveis originais pela recolha de dados os responsáveis pela infração?

No contexto desta situação recente no Midjourney, os modelos do Midjourney, tal como outros, reproduzirão sempre uma mistura de obras contidas nos seus dados. Os artistas não podem provar facilmente quais as peças que utilizaram. 

Por exemplo, quando um caso recente de direitos de autor contra a Midjourney, a Stability AI e a DeviantArt foi despedido (desde então foi reapresentado com novos queixosos), o juiz federal Orrick identificou vários defeitos na forma como as reivindicações foram enquadradas, particularmente na sua compreensão do funcionamento dos geradores de imagens de IA. 

A ação judicial original alegava que a Stability AI, ao treinar o seu modelo Stable Diffusion, armazenava cópias comprimidas das imagens. 

A Stability AI refutou esta afirmação, esclarecendo que o processo de formação envolve a extração de atributos como linhas, sombras e cores e o desenvolvimento de parâmetros com base nesses atributos, em vez de armazenar cópias das imagens.

A decisão de Orrick sublinhou a necessidade de os queixosos alterarem as suas reivindicações para representarem com maior exatidão o funcionamento destes modelos de IA. 

Isto inclui a necessidade de uma explicação mais clara sobre se a queixa contra a Midjourney se deve à utilização da Stable Diffusion, à utilização independente de imagens de treino ou a ambas (uma vez que a Midjourney também está a ser acusada de utilizar os modelos da Stability AI, que alegadamente utilizam obras protegidas por direitos de autor). 

Outro desafio para os queixosos é demonstrar que os resultados da Midjourney são substancialmente semelhantes às suas obras de arte originais. Orrick observou que os próprios queixosos admitiram que as imagens de saída do Stable Diffusion não são susceptíveis de corresponder de perto a qualquer imagem específica nos dados de treino. 

A partir de agora, o caso está vivoO tribunal negou as tentativas mais recentes das empresas de IA de rejeitar as reivindicações dos artistas. 

Utilização do conjunto de dados LAION na mistura

Os processos judiciais apresentados contra a Midjourney e companhia também realçaram a sua potencial utilização do conjunto de dados LAION-5B - uma compilação de 5,85 mil milhões de imagens provenientes da Internet, incluindo conteúdos protegidos por direitos de autor. 

Stanford criticou recentemente a LAION por conterem imagens sexuais ilícitas, incluindo abusos sexuais de crianças e vários conteúdos sexistas, racistas e deploráveis - todos eles agora também "vivem" dentro dos modelos de IA de que a sociedade começa a depender para utilizações criativas e profissionais. 

As implicações a longo prazo desta situação são muito debatidas, mas o facto de estas IA serem possivelmente treinadas, em primeiro lugar, com trabalho roubado e, em segundo lugar, com conteúdos ilegais, não lança uma luz positiva sobre o desenvolvimento da IA em geral. 

Os comentários dos criadores de Midjourney foram amplamente criticados nas redes sociais e o fórum do Y Combinator.

É muito provável que 2024 dê origem a mais debates jurídicos acesos e que o capítulo do Oeste Selvagem do desenvolvimento da IA possa estar a chegar ao fim.

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Calças de ganga Sam

Sam é um escritor de ciência e tecnologia que trabalhou em várias startups de IA. Quando não está a escrever, pode ser encontrado a ler revistas médicas ou a vasculhar caixas de discos de vinil.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições