A OpenAI respondeu publicamente ao processo de violação de direitos de autor que o The New York Times iniciou em dezembro.
A declaração não é suscetível de resultar na retirada de a ação judicial mas dá uma ideia das linhas de argumentação que os advogados da empresa poderão seguir.
Eis uma versão TLDR dos quatro pontos principais da declaração:
1. A OpenAI afirma que o seu objetivo é "apoiar um ecossistema noticioso saudável, ser um bom parceiro e criar oportunidades mutuamente benéficas". Diz que os seus produtos podem ajudar os repórteres e editores a fazer melhor o seu trabalho e a alcançar o público-alvo de novas formas.
Por sua vez, gostaria de utilizar os seus dados para treinar os seus modelos. A OpenAI enumerou várias empresas de comunicação social, como a Axel Springer, com as quais estabeleceu relações mutuamente benéficas.
2. A OpenAI continua a acreditar que treinar modelos de IA com dados publicamente disponíveis é utilização justa e enumerou os países e organizações que concordam.
A OpenAI fornece agora um meio de optar por bloquear os bots de raspagem, mas não menciona uma opção de remoção dos dados históricos de formação antes da funcionalidade de opção de exclusão.
3. A regurgitação de partes literais de conteúdos protegidos por direitos de autor é um "bug raro" e a OpenAI está a trabalhar para o corrigir. Se o conteúdo do The Times for sindicado e publicado em várias plataformas, é provável que seja reproduzido pelo ChatGPT se os utilizadores tentarem realmente fazê-lo.
A OpenAI diz que espera que os utilizadores "ajam de forma responsável" e não o façam. O conteúdo do New York Times é uma fatia muito pequena dos dados de treino do ChatGPT, pelo que a OpenAI afirma que não é muito importante em termos de dados de treino.
4. A OpenAI diz que o The New York Times não está a contar a história toda. A OpenAI pensava que as conversações estavam a progredir positivamente até ter pegado num exemplar do The Times e ter tomado conhecimento da ação judicial.
Os exemplos do conteúdo regurgitado foram retirados de artigos antigos que estavam espalhados por toda a Internet. A OpenAI diz que os exemplos do conteúdo literal foram induzidos e suspeita que "ou instruíram o modelo a regurgitar ou escolheram os seus exemplos de muitas tentativas".
A declaração, que pode ler na íntegra aquitermina com a OpenAI a manifestar a sua esperança de poder resolver o problema com o papel. A alternativa não parece boa para nenhuma das partes.