Por dentro da luta das grandes empresas de tecnologia pelos dados de treino da IA

8 de abril de 2024
  • Gigantes da tecnologia como a Google, a Meta e a OpenAI estão a tentar proteger mais dados
  • Isto levou-os a adotar tácticas cada vez mais obscuras do ponto de vista ético e jurídico
  • A OpenAI poderá ter utilizado transcrições do YouTube para treinar o GPT-4, por exemplo
Dados

Na busca frenética de dados de treino de IA, os gigantes tecnológicos OpenAI, Google e Meta terão contornado as políticas empresariais, alterado as suas regras e discutido a possibilidade de contornar a lei dos direitos de autor. 

A Investigação do New York Times revela até que ponto estas empresas foram para recolher informações online para alimentar os seus sistemas de IA ávidos de dados.

No final de 2021, os investigadores da OpenAI desenvolveram uma ferramenta de reconhecimento de voz chamada Whisper para transcrever vídeos do YouTube quando se deparam com uma escassez de dados de texto respeitáveis em inglês. 

Apesar das discussões internas sobre a possível violação das regras do YouTube, que proíbem a utilização dos seus vídeos para aplicações "independentes", 

O NYT descobriu que a OpenAI acabou por transcrever mais de um milhão de horas de conteúdos do YouTube. Greg Brockman, presidente da OpenAI, ajudou pessoalmente na recolha dos vídeos. O texto transcrito foi depois introduzido no GPT-4.

A Google também transcreveu alegadamente vídeos do YouTube para recolher texto para os seus modelos de IA, infringindo potencialmente os direitos de autor dos criadores de vídeos.

Isto acontece dias depois de o diretor executivo do YouTube ter dito que essa atividade violaria a termos de serviço da empresa e minar os criadores. 

Em junho de 2023, o departamento jurídico da Google solicitou alterações à política de privacidade da empresa, permitindo a disponibilização pública de conteúdos do Google Docs e de outras aplicações Google para uma gama mais vasta de produtos de IA. 

O Meta, que enfrenta a sua própria escassez de dados, considerou várias opções para adquirir mais dados de formação. 

Os executivos discutiram o pagamento de direitos de licenciamento de livros, a compra da editora Simon & Schuster e até mesmo a recolha de material protegido por direitos de autor da Internet sem autorização, arriscando-se a potenciais processos judiciais. 

Os advogados da Meta argumentaram que a utilização de dados para treinar sistemas de IA deveria ser abrangida pela "utilização justa", citando uma decisão judicial de 2015 que envolvia o projeto de digitalização de livros da Google.

Preocupações éticas e o futuro dos dados de treino da IA

As acções colectivas destas empresas tecnológicas sublinham a importância crítica dos dados em linha na indústria da IA em expansão.

Estas práticas suscitaram preocupações quanto à violação dos direitos de autor e à compensação justa dos criadores. 

Justine Bateman, cineasta e autora, disse ao Gabinete de Direitos de Autor que os modelos de IA estavam a retirar conteúdos - incluindo os seus escritos e filmes - sem autorização ou pagamento.

"Este é o maior roubo nos Estados Unidos, ponto final", afirmou numa entrevista.

Nas artes visuais, o MidJourney e outros modelos de imagem têm sido comprovadamente gerador de direitos de autor conteúdo, como cenas de filmes da Marvel. 

Com alguns especialistas a preverem que os dados em linha de alta qualidade poderão esgotar-se até 2026, as empresas estão a explorar métodos alternativos, como a geração de dados sintéticos utilizando modelos de IA. No entanto, os dados de formação sintéticos têm os seus próprios riscos e desafios e podem prejudicar afetar a qualidade dos modelos

O próprio CEO da OpenAI, Sam Altman, reconheceu a natureza finita dos dados online num discurso proferido numa conferência de tecnologia em maio de 2023: "Isso vai acabar", disse ele.

Sy Damle, um advogado que representa a Andreessen Horowitz, uma empresa de capital de risco de Silicon Valley, também falou sobre o desafio: "A única forma prática de estas ferramentas existirem é se puderem ser treinadas com grandes quantidades de dados sem terem de os licenciar. Os dados necessários são tão grandes que mesmo o licenciamento coletivo não pode funcionar".

O NYT e a OpenAI estão envolvidos numa amarga ação judicial por direitos de autorO Times procura obter uma indemnização de milhões de euros.

A OpenAI ripostou, acusando o Times de "piratear" os seus modelos para obter exemplos de violação de direitos de autor.

Por "pirataria informática", entende-se jailbreaking ou red-teaming, que consiste em utilizar o modelo com instruções especialmente formuladas com o objetivo de manipular os resultados.

O NYT afirmou que não teriam de recorrer a modelos de jailbreak se as empresas de IA fossem transparentes quanto aos dados que utilizaram.

Sem dúvida, esta investigação interna torna o roubo de dados da Big Tech ainda mais inaceitável do ponto de vista ético e jurídico.

Com os processos judiciais a acumularem-se, o panorama jurídico em torno da utilização de dados em linha para treino de IA é extremamente precário. 

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Calças de ganga Sam

Sam é um escritor de ciência e tecnologia que trabalhou em várias startups de IA. Quando não está a escrever, pode ser encontrado a ler revistas médicas ou a vasculhar caixas de discos de vinil.

×
 
 

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI


 

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.



 
 

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições