A OpenAI confirmou um acordo de licenciamento com a The Associated Press (AP) para treinar os seus modelos de IA utilizando o seu arquivo de notícias.
A essência do acordo diz que a AP fornecerá à OpenAI acesso à sua coleção de histórias de texto para treino de IA. Em contrapartida, a OpenAI alargará a sua tecnologia à AP, permitindo-lhe integrar a IA generativa nos seus fluxos de trabalho.
A OpenAI terá o direito de recolher dados do arquivo de artigos da AP que remonta a 1985.
"A IA generativa é um espaço em rápida evolução com enormes implicações para o setor de notícias. Estamos satisfeitos por a OpenAI reconhecer que o conteúdo noticioso baseado em factos e apartidário é essencial para esta tecnologia em evolução e que respeita o valor da nossa propriedade intelectual". afirmou Kristin Heitmann, vice-presidente sénior e diretor de receitas da AP.
A prática de utilizar dados públicos da Internet para treinar sistemas de IA está a tornar-se um ponto de discórdia. Este facto irá provavelmente aumentar a popularidade deste tipo de acordos privados e patrocinados.
Os grandes modelos linguísticos (LLM) que alimentam os chatbots da OpenAI, da Google, etc., foram treinados com base numa quantidade colossal de dados recolhidos de fontes da Internet acessíveis ao público.
Isto inclui conteúdos de terceiros, como artigos de notícias, entradas da Wikipédia e comentários de redes sociais e blogues, todos retirados sem autorização explícita ou conhecimento dos autores.
Isto não é isento de desafios legais e éticos, uma vez que é improvável que todos estes dados sejam recolhidos legalmente. Pelo menos, os dados de treino de IA distorcem o significado de "aberto" e "publicamente acessível".
Andres Sawicki, professor de direito de propriedade intelectual na Universidade de Miami, comentou: "Os conjuntos de dados incluem muitos conteúdos protegidos por direitos de autor. Os detentores dos direitos de autor não aprovam estas explorações. Não é difícil conceber que mais acordos como o da AP sejam feitos entre empresas de tecnologia e produtores de conteúdos, num esforço para construir uma "base de dados limpa". O problema é que os conjuntos de dados necessários para treinar os modelos são tão grandes que duvido que seja possível obter autorização de um número suficiente de proprietários para tornar a tecnologia prática."
Esta semana, a Comissão Federal do Comércio dos EUA (FTC) iniciou investigações sobre as práticas da OpenAI relativas à utilização de dados na formação de modelos. A FTC exigiu documentação à OpenAI para compreender as suas estratégias e identificar situações de incumprimento.
A OpenAI e a AP expressaram sentimentos positivos sobre a parceria, afirmando que "acreditam na criação e utilização responsável destes sistemas de IA".