Na corrida louca para dominar a indústria da IA, os gigantes da tecnologia estão a ultrapassar os limites éticos e a testar os limites da confiança do público.
Um padrão de revelações recentes faz soar o alarme sobre a privacidade dos dados, a concorrência leal e a concentração de poder e talento.
Em primeiro lugar, um investigação por Proof News e WIRED descobriu que a Apple, a NVIDIA, a Anthropic e a Salesforce têm estado a utilizar um conjunto de dados que contém legendas de mais de 170 000 vídeos do YouTube para treinar os seus modelos de IA.
Este conjunto de dados, conhecido como "YouTube Subtitles", foi compilado sem o consentimento dos criadores de conteúdos, violando potencialmente os termos de serviço do YouTube.
A escala desta operação de extração de dados é espantosa. Inclui conteúdos de instituições de ensino como Harvard, de YouTubers populares como MrBeast e PewDiePie e até de grandes agências noticiosas como o The Wall Street Journal e a BBC.
A investigação revela que um conjunto de dados utilizado para o treino de IA de género por Apple & outros contém transcrições do YouTube protegidas por direitos de autor, acedidas sem autorização. Mais informações:
- O conjunto de dados Pile contém transcrições de 170 mil vídeos do YouTube
- Utilizado por Apple, AnthropicNvidia, Salesforce e muito mais... pic.twitter.com/RE0UjhumA3- Ed Newton-Rex (@ednewtonrex) 16 de julho de 2024
O YouTube ainda não reagiu, mas em abril, o CEO Neal Mohan afirmou que a potencial utilização de vídeos pela OpenAI para treinar o modelo de texto para vídeo Sora violaria os seus termos de serviçoA Sora utilizou conteúdos do YouTube, o que constituiria uma "clara violação" dos seus termos de serviço", afirmou à Bloomberg.
A OpenAI não está entre os acusados desta vez, e não sabemos se o YouTube tentará tomar medidas se as novas alegações se revelarem verdadeiras.
Esta não é, de longe, a primeira vez que as empresas tecnológicas são apanhadas na mira das práticas de utilização de dados.
Em 2018, o Facebook enfrentou um intenso escrutínio devido ao escândalo da Cambridge Analytica, em que milhões de dados de utilizadores foram recolhidos sem consentimento para publicidade política.
Mais pertinente para a IA, em 2023, descobriu-se que um conjunto de dados denominado Books3que contém mais de 180 000 livros protegidos por direitos de autor, tinha sido utilizada para treinar modelos de IA sem a autorização dos autores. Esta situação deu origem a uma onda de acções judiciais contra empresas de IA, com os autores a alegarem violação de direitos de autor.
Este é apenas um exemplo de uma pilha crescente de processos judiciais que emanam de todos os cantos das indústrias criativas. O Universal Music Group, a Sony Music e a Warner Records estão entre as entidades mais prolíficas que adicionaram os seus nomes na lista depois de se terem juntado para atacar as empresas de IA de texto para áudio Udio e Suno.
Na sua pressa de criar modelos de IA mais avançados, parece que as empresas tecnológicas adoptaram uma abordagem de "pedir perdão, não permissão" para a aquisição de dados.
A fusão Microsoft-Inflection
Enquanto o escândalo do YouTube se desenrola, a recente onda de contratações da Microsoft para a Inflection, uma empresa de IA, chamou a atenção dos reguladores britânicos.
A Autoridade da Concorrência e dos Mercados (CMA) lançou uma investigação de fase 1 sobre as concentrações, para determinar se esta contratação em massa constitui uma concentração de facto suscetível de asfixiar a concorrência no sector da IA.
Esta ação incisiva da Microsoft incluiu a adquirir o cofundador da Inflection, Mustafa Suleyman (um antigo executivo da Google DeepMind) e uma parte significativa da equipa da start-up.
A Inflection já se apresentou como um orgulhoso laboratório independente de IA. Depois, provou que é uma raça em extinção.
Este facto ganha um peso acrescido se considerarmos as parcerias existentes da Microsoft no domínio da IA. A empresa já investiu um total de cerca de $13 mil milhões na OpenAI, o que levanta questões sobre a concentração do mercado.
Para agravar a situação, a Microsoft retirou-se recentemente da sua assento sem direito a voto no OpenAI. Segundo os especialistas, este facto resultou provavelmente de uma decisão de controlar a supervisão da empresa para apaziguar as autoridades antitrust.
Alex Haffner, sócio da área da concorrência da sociedade de advogados Fladgate, disse sobre a decisão surpresa da MicrosoftÉ difícil não concluir que a decisão da Microsoft foi fortemente influenciada pelo controlo concorrencial/antitrust em curso sobre a sua influência (e a de outros grandes intervenientes tecnológicos) sobre os intervenientes emergentes na IA, como a OpenAI".
Um défice de confiança?
Tanto o escândalo da extração de dados do YouTube como as práticas de contratação da Microsoft contribuem para uma crescente défice de confiança entre a grande tecnologia e o público.
Um impacto imediato é o facto de os criadores de conteúdos se terem tornado mais reservados em relação ao seu trabalho, com medo de serem explorados.
Esta situação poderá ter um efeito de arrastamento na criação e partilha de conteúdos, acabando por empobrecer as próprias plataformas de que as empresas tecnológicas dependem para obter dados.
Do mesmo modo, a concentração de talentos de IA num pequeno número de grandes empresas está a homogeneizar o desenvolvimento da IA e a limitar a diversidade.
Para as empresas tecnológicas, a reconstrução da confiança exigirá provavelmente mais do que apenas o cumprimento de futuras regulamentações e investigações antitrust.
As questões mantêm-se: será que podemos aproveitar o verdadeiro potencial da IA preservando a ética, a concorrência leal e a confiança do público?