A OpenAI respondeu a duas acções judiciais colectivas quase idênticas intentadas contra si por vários autores e argumentou que a maioria das alegações devia ser rejeitada.
Os autores alegam que os seus direitos de autor foram violados quando a empresa utilizou o seu trabalho como dados de treino para o ChatGPT. As alegações no processo são as seguintes:
- violação direta dos direitos de autor
- violação indireta dos direitos de autor
- remoção de informações de gestão de direitos de autor (DMCA)
- concorrência desleal
- enriquecimento sem causa
- negligência
A OpenAI diz que está satisfeita com o facto de a primeira alegação ter sido discutida em tribunal, mas que as restantes cinco estão erradas do ponto de vista jurídico e devem ser rejeitadas.
Os queixosos alegam que, como os seus livros foram utilizados para treinar o ChatGPT, tudo o que o ChatGPT produz é um derivado do seu trabalho protegido por direitos de autor.
A OpenAI diz que não confirma nem desmente que os livros em questão faziam parte do conjunto de dados de treino. Mas diz que, mesmo que os livros tenham sido incluídos no conjunto de dados, era uma pequena parte de uma enorme quantidade de dados.
A OpenAI argumentou que este facto se enquadrava no princípio da utilização justa, que não viola os direitos de autor.
Os autores podem ter dificuldade em convencer o tribunal do seu argumento. Não estão a argumentar que ChatGPT está a escrever livros semelhantes aos seus e em concorrência com eles. Estão a dizer que cada palavra que o ChatGPT publica é uma violação dos direitos de autor.
Na sua moção de indeferimento, a OpenAI afirmou: "De acordo com as queixas, todos os resultados do ChatGPT - desde uma simples resposta a uma pergunta (por exemplo, "Sim"), ao nome do Presidente dos Estados Unidos, a um parágrafo que descreve o enredo, os temas e o significado da Ilíada de Homero - são necessariamente uma "obra derivada" infratora dos livros dos queixosos".
Isso vai ser difícil de argumentar. Até mesmo os resumos exactos que o ChatGPT produz dos livros em questão são descritos na moção como semelhantes a "relatórios ou críticas de livros" e não como uma tentativa de lucrar com um trabalho protegido por direitos de autor.
Os pormenores dos restantes argumentos podem ser lidos em Moção de indeferimento da OpenAI.
Porque é que a OpenAI não pede o arquivamento de todo o processo?
A moção da OpenAI diz que não está a pedir que a acusação de violação direta de direitos de autor seja rejeitada "que a OpenAI procurará resolver como uma questão de direito numa fase posterior do processo".
A OpenAI e a Meta não revelaram exatamente quais os dados que utilizaram para treinar os seus modelos, mas é quase certo que incluíam muito material protegido por direitos de autor, incluindo os livros dos autores que interpuseram as acções judiciais.
Se foram incluídos dados protegidos por direitos de autor, a OpenAI estava certamente ciente desse facto. A empresa argumentará que a intenção por detrás do acesso ao material não era produzir trabalhos derivados e lucrar com eles em concorrência com os originais.
Se o tribunal concordar, a decisão abrirá um precedente que será utilizado numa série de outras acções judiciais relacionadas com a IA que estão em curso.
Uma decisão a seu favor significará que não pode ser processada por ter utilizado dados protegidos por direitos de autor no passado e que pode continuar a fazê-lo para treinar os seus novos modelos. E se o tribunal decidir que o treino de IA se enquadra no princípio da utilização justa, então estará aberta a época para outras empresas de IA também.
É uma jogada arriscada, mas, a dada altura, esta questão terá de ser resolvida. Se a decisão for contra a OpenAI, esta terá de eliminar o ChatGPT e começar a treiná-lo do zero. Desta vez, com um conjunto de dados muito mais pequeno.