Mais autores tentam processar a OpenAI por utilizar material protegido por direitos de autor

10 de julho de 2023

chatgpt Processo jurídico

Os processos judiciais contra a IA estão a surgir rapidamente, com a comediante e autora norte-americana Sarah Silverman e os autores Christopher Golden e Richard Kadrey a intentarem acções judiciais contra a OpenAI e a Meta.

O trio alega violação de direitos de autor, afirmando que o seu trabalho foi ilegalmente utilizado para treinar o ChatGPT e o LLaMA, o modelo de grande linguagem (LLM) de código aberto da Meta. 

O ChatGPT baseia-se na análise de uma quantidade colossal de dados provenientes da Internet - são estes dados que o ensinam a lidar com a linguagem natural. Muitas questões rodeiam a origem destes dados de treino e os métodos utilizados para os obter, e as suspeitas aumentam agora que os criadores estão a descobrir que o seu trabalho está possivelmente contido nesses dados de treino. 

Nesta última ação judicial, a OpenAI e a Meta são acusadas de utilizar os livros protegidos por direitos de autor dos queixosos como dados de treino sem o seu consentimento. 

As acções judiciais sugerem que os materiais foram obtidos a partir de sítios Web de "bibliotecas sombra". As bibliotecas sombra contêm grandes quantidades de informação copiada ilegalmente, incluindo sítios como Bibliotik, Library Genesis e Z-Library. As bibliotecas sombra são semelhantes às torrents - são difíceis de prevenir e controlar. 

A OpenAI é acusada de resumir corretamente 3 livros quando solicitada: "The Bedwetter", de Silverman, "Ararat", de Golden, e "Sandman Slim", de Kadrey. Embora a IA pudesse aprender sobre esses livros a partir de resumos da Wikipedia e similares, isso não explicaria o nível de pormenor contido nos resumos. 

A ação judicial contra a Meta menciona várias obras de Kadrey e Golden, além de "The Bedwetter", referindo-se a um documento da Meta que indica a utilização de material de bibliotecas-sombra, o que a ação judicial classifica como "flagrantemente ilegal". 

O documento da Meta diz: "Incluímos dois corpora de livros no nosso conjunto de dados de treino: o Projeto Gutenberg, que contém livros que estão no domínio público, e a secção Books3 do ThePile (Gao et al., 2020), um conjunto de dados disponível publicamente para treinar modelos de linguagem de grande dimensão." 

Joseph Saveri e Matthew Butterick, advogados que representam o trio, relataram preocupações crescentes sobre a capacidade inquietante do ChatGPT de imitar textos protegidos por direitos de autor.

Investigação demonstrou que a GPT-4 quase de certeza aprendeu com obras protegidas por direitos de autor.

No entanto, isto pode dever-se ao facto de serem populares e de circularem amplamente ou de aparecerem em leituras de cursos escolares e universitários. 

Em todo o caso, isso não dispensa as empresas de IA de utilizarem esses textos nos seus dados de treino.

Processos judiciais relacionados com a IA estão a aumentar

A IA tornou-se o centro de uma tempestade de processos judiciais, muitos dos quais são considerados os primeiros do género. 

Os mesmos advogados representam também os autores norte-americanos Mona Awad e Paul Tremblay num processo ação colectiva distinta mas quase idêntica contra a OpenAI. 

E, mais uma vez, essa mesma equipa jurídica, Saveri e Butterick, são representando 3 artistas - Sarah Andersen, Kelly McKernan e Karla Ortiz - numa ação judicial contra os geradores de imagens Stability AI e Midjourney. 

Esse mesmo escritório de advogados representou um processo contra a Microsft e o GitHubalegando que a sua ferramenta de IA Copilot AI tool lucrou com o trabalho de programadores de código aberto. Trata-se de um caso muito semelhante - os queixosos alegam que a ferramenta de IA é treinada com base em informações que contêm dados "de fonte aberta" extraídos ilegalmente. 

Neste caso, afirmam os arguidos, "a Secção 1202(b) da Lei dos Direitos de Autor do Milénio Digital dos Estados Unidos "diz respeito a 'cópias idênticas... de uma obra' - e não a fragmentos e adaptações dispersos". As empresas de IA podem argumentar de forma semelhante contra os autores, sugerindo que os resumos dos seus trabalhos são insuficientes para apoiar o seu argumento de que os livros aparecem nos dados de treino na íntegra.

De qualquer forma, as alegações estão a acumular-se, indicando uma tendência de aumento das pressões legais sobre as empresas de IA.

Os regulamentos relativos à IA, como o Lei da IA da UE vão exigir que as empresas divulguem informações sobre dados protegidos por direitos de autor nos seus dados de formação. Ainda não se sabe se isso terá o efeito desejado. 

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Calças de ganga Sam

Sam é um escritor de ciência e tecnologia que trabalhou em várias startups de IA. Quando não está a escrever, pode ser encontrado a ler revistas médicas ou a vasculhar caixas de discos de vinil.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições