O diretor executivo do YouTube avisa a OpenAI sobre uma potencial violação dos termos de serviço

5 de abril de 2024

  • O diretor executivo do YouTube, Neal Mohan, discutiu potenciais violações dos termos da OpenAI
  • Se Sora tivesse sido treinada com base nos vídeos do YouTube, tratar-se-ia de uma "violação clara
  • Sora é um modelo sofisticado de texto para vídeo da OpenAI que ainda está a ser testado
OpenAI YouTube

O diretor executivo do YouTube, Neal Mohan, afirmou que a potencial utilização de vídeos do YouTube pela OpenAI para treinar o modelo de texto para vídeo Sora violaria os seus termos de serviço. 

Mohan disse à Bloomberg: "Se a Sora utilizasse conteúdos do YouTube, seria uma 'clara violação' dos seus termos de serviço".

Não haverá amor perdido entre o YouTube e a OpenAI, uma vez que cada um se encontra em lados diferentes da divisão das grandes tecnologias. 

Sora é o novo e revolucionário modelo de texto para vídeo da OpenAI, que ainda está a ser testado. Significa a conquista pela IA generativa de todas as formas de media, começando com texto, depois imagens e agora áudio e vídeo. 

O vídeo e o áudio generativos acarretam um novo conjunto de riscos para as empresas de IA negociarem, como o facto de os seus modelos produzirem réplicas quase exactas de material protegido por direitos de autor. 

Já vimos isso com o modelo de texto para áudio Suno, que produz resultados muito semelhantes áudio de canções famosas como "Bohemian Rhapsody" dos Queen e "Dancing Queen" dos ABBA. 

Nem a OpenAI nem a maioria das empresas de IA têm sido particularmente transparentes quanto à sua dependência de grandes quantidades de dados provenientes da Internet, incluindo material protegido por direitos de autor, para treinar modelos. 

A OpenAI reconheceu mesmo os desafios de evitar dados protegidos por direitos de autor nos seus processos de desenvolvimento, declarando numa apresentação à Câmara dos Lordes britânica que "era 'impossível' construir a tecnologia sem ele". 

Foi uma espécie de deslize freudiano que expôs uma verdade inconveniente sobre os dados de treino da IA.

No entanto, apesar de a OpenAI afirmar que os dados de direitos de autor são inequivocamente vitais para a IA generativa, a infração ainda não foi provada em tribunal, o que reflecte o facto de a lei dos direitos de autor, na sua atual encarnação, não ter nascido para esta era. 

No que respeita especificamente ao treino da Sora, a CTO da OpenAI, Mira Murati, numa entrevista ao Wall Street Journal, parece não saber que conteúdos foram utilizados para treinar a Sora, incluindo se estavam envolvidos conteúdos do YouTube. 

Murati disse: "Na verdade, não tenho a certeza disso", quando questionado sobre as fontes de conteúdo para a formação de Sora, acrescentando que todos os dados utilizados estavam "disponíveis publicamente ou licenciados".

Não se trata de um relatório brilhante de transparência para a OpenAI, que se prepara para lançar o seu novo modelo inovador - um modelo que já está a ser utilizado para concurso para actividades em Hollywood pelas suas potenciais aplicações no cinema e na televisão. 

Sora já fez com que o produtor Tyler Perry pausasse um $800 milhões de euros para a expansão do estúdio, o que deixa antever uma potencial enorme perturbação para as indústrias criativas. 

O diretor executivo do YouTube fala sobre o Sora

O diretor executivo do YouTube, Mohan, mostrou-se consciente dos debates em curso sobre as práticas de formação em IA. Referiu a necessidade de a OpenAI clarificar a utilização dos dados do YouTube. 

Ele disse BloombergNa perspetiva de um criador, quando este carrega o seu trabalho árduo para a nossa plataforma, tem certas expectativas. Uma dessas expectativas é que os termos de serviço sejam respeitados. Não é permitido descarregar transcrições ou pedaços de vídeo, o que constitui uma clara violação dos nossos termos de serviço. Estas são as regras do jogo em termos de conteúdos na nossa plataforma".

Os termos de serviço do YouTube "proíbem explicitamente a recolha ou transferência não autorizada de conteúdos do YouTube", uma política confirmada por um porta-voz do YouTube à luz dos comentários de Mohan.

A Alphabet, a empresa-mãe do YouTube, está a desenvolver as suas próprias ferramentas de IA. É de esperar reacções negativas se a OpenAI tiver utilizado, direta ou indiretamente, vídeos do YouTube para treinar a Sora. 

A corrida ao ouro dos dados de IA conduziu a parcerias estratégicas e acordos de licenciamento entre empresas tecnológicas e fornecedores de conteúdos. Numerosos acções judiciais estão ainda em curso nos domínios da geração de texto e de imagens, mas continuam a ser largamente inconclusivos. 

Em primeiro lugar, mesmo quando os modelos de IA se expõem ao reproduzir trabalhos protegidos por direitos de autor (como o MidJourney cuspir imagens dos filmes da Marvel ou dos Simpsons), a sua natureza de caixa negra torna quase impossível determinar onde esses dados foram obtidos e quando ocorreu exatamente a infração. 

Em segundo lugar, embora o áudio, as imagens, o vídeo, etc. gerados pela IA possam ilustrar uma forte evidência de infração, não é tão evidente como se eu ou você copiássemos uma imagem do Rato Mickey e a vendêssemos por milhões sem autorização. 

Em resposta a estas pressões legais, as empresas de IA estão a começar a negociar dados valiosos. 

Por exemplo, $60 milhões por ano do Reddit O acordo de licenciamento com a Google para a formação de ferramentas de IA é um exemplo dos acordos formais que estão a surgir no sector. 

Da mesma forma, organizações de media como a The Associated Press e a Axel Springer celebraram acordos permitindo que o seu conteúdo seja utilizado para a formação em IA, com disposições que prevejam a atribuição de responsabilidades nas respostas geradas pela IA.

Isto apresenta os seus próprios desafios. A construção e o funcionamento da IA generativa são dispendiosos e, atualmente, as empresas de IA têm de pagar pelos dados, em vez de os extraírem simplesmente da Internet. 

Junte-se ao futuro


SUBSCREVER HOJE

Claro, conciso e abrangente. Fique a par dos desenvolvimentos da IA com DailyAI

Calças de ganga Sam

Sam é um escritor de ciência e tecnologia que trabalhou em várias startups de IA. Quando não está a escrever, pode ser encontrado a ler revistas médicas ou a vasculhar caixas de discos de vinil.

×

PDF GRATUITO EXCLUSIVO
Fique à frente com o DailyAI

Subscreva a nossa newsletter semanal e receba acesso exclusivo ao último livro eletrónico do DailyAI: 'Mastering AI Tools: Seu guia 2024 para aumentar a produtividade'.

*Ao subscrever a nossa newsletter, aceita a nossa Política de privacidade e o nosso Termos e condições