Numa declaração de provas escritas apresentada à Câmara dos Lordes do Reino Unido, a OpenAI afirmou que é "impossível" criar ferramentas de IA sem utilizar material protegido por direitos de autor.
Isto acontece no meio de um debate cada vez mais intenso em torno da interação dos direitos de autor com a IA, com autores, escritores e meios de comunicação social, como o New York Times, a interporem acções judiciais contra a OpenAI, a Microsoft, a Stability AI, a Anthropic, a Google e a Midjourney, para citar apenas algumas.
Os modelos de linguagem de grande dimensão (LLM), como o ChatGPT, e os geradores de imagens, como o Midjourney, que recentemente chegou às manchetes por criar um base de dados de 16.000 artistas para efeitos de treino de modelos, baseiam-se em extensos dados protegidos por direitos de autor para o seu treino.
De facto, os dados sobre direitos de autor constituem a base do material de formação em IA porque são abundantes, cobrem um amplo espetro da criatividade humana e podem ser facilmente obtidos na Internet.
As empresas de IA argumentam que estes dados são "utilização justa" para efeitos de treino dos seus modelos, mas muitas outras discordam.
Em resposta ao comité de comunicações e digital da Câmara dos Lordes, a OpenAI sublinhou recentemente a sua necessidade de material protegido por direitos de autor para a formação de LLMs como o GPT-4.
A OpenAI declarou: "Uma vez que os direitos de autor abrangem atualmente praticamente todo o tipo de expressão humana - incluindo publicações em blogues, fotografias, publicações em fóruns, fragmentos de código de software e documentos governamentais - seria impossível treinar os principais modelos de IA actuais sem utilizar materiais protegidos por direitos de autor".
A empresa argumentou ainda que restringir os materiais de formação a fontes do domínio público resultaria em sistemas de IA de fraca qualidade.
"Limitar os dados de treino a livros e desenhos do domínio público criados há mais de um século pode dar origem a uma experiência interessante, mas não forneceria sistemas de IA que satisfizessem as necessidades dos cidadãos de hoje", acrescentou a OpenAI.
Pode ler o texto completo apresentação de provas escritas aquique também aborda a trajetória futura da IA, os riscos catastróficos, para os quais a OpenAI anuncia o seu Frontier Model Forum e a sua equipa de preparação, e a regulamentação.
O público reage
As reacções a estas declarações não foram propriamente simpáticas.
O Dr. Gary Marcus, por exemplo, uma voz proeminente na indústria, disse que isto essencialmente auto-rotula os modelos de IA como um dispositivo de monetização para trabalhos roubados com direitos de autor.
De facto, parece que isto é quase um deslize freudiano da parte da OpenAI, admitindo que o seu modelo de negócio é impraticável sem manipular a lei.
Há um sentimento palpável de injustiça pelo facto de tão poucos nos escalões superiores de Silicon Valley beneficiarem do trabalho de tantos.
A declaração da OpenAI também afirma que compreende "as necessidades" dos "cidadãos" de hoje, expondo uma desconexão cada vez maior entre a visão que as grandes tecnologias têm da IA generativa como um projeto humanitário e até filantrópico e o receio das pessoas de que esta lhes roube os dados e substitua as suas competências.
O Dr. Marcus comentou: "[As empresas de IA]...deveria voltar à prancheta de desenho - e descobrir como construir software que não tenha um problema de plágio - em vez de espoliar artistas, escritores e outros fornecedores de conteúdos".
Agora já sabemos porque é que Sam Altman deu a volta ao mundo no verão passado para se encontrar com os líderes mundiais: a sua empresa só será grande se conseguir convencer os governos a dar-lhes uma das maiores ajudas da história. https://t.co/Pcc8FchG1a
- Gary Marcus (@GaryMarcus) 8 de janeiro de 2024
Os processos judiciais estão a acumular-se
Isto também acontece no meio de vários processos judiciais contra a OpenAI, com autores notáveis como John Grisham, Jodi Picoult e George RR Martin processar a empresa em setembro no ano passado por alegado "roubo sistemático em grande escala".
Dois estimados jornalistas, Nicholas Gage e Nicholas Basbanes, apresentaram mais uma queixa contra a OpenAI e a Microsoft na semana passadaA Comissão Europeia, em conjunto com a Comissão Europeia, está a analisar a questão da IA, que se vem juntar ao número crescente de desafios legais enfrentados pelas empresas de IA, tanto no domínio da escrita como das artes visuais.
A OpenAI também respondeu ao processo do New York Times, afirmando que acha que é "sem mérito", visto abaixo.
Criamos IA para capacitar as pessoas, incluindo os jornalistas.
A nossa posição sobre o @nytimes ação judicial:
- A formação é uma utilização justa, mas oferecemos uma opção de exclusão
- A "regurgitação" é um erro raro que estamos a tentar eliminar
- O New York Times não está a contar a história todahttps://t.co/S6fSaDsfKb- OpenAI (@OpenAI) 8 de janeiro de 2024
Estes desenvolvimentos suscitam preocupações quanto às potenciais responsabilidades legais que as empresas de IA poderão enfrentar este ano e no futuro. Como é que elas se vão adaptar? A crescente resistência do público terá algum impacto na trajetória da indústria?
E como é que se pode treinar eticamente modelos de IA generativa em grande escala? Será a ética compatível com a atual encarnação da tecnologia?
As defesas das empresas de IA estão a aguentar-se até agora, mas o fosso entre as ideias de "utilização justa" dos criadores de IA e a forma como os outros as entendem está a alargar-se.