Ed Newton-Rex, ex-VP de Áudio da Stability AI, anunciou o lançamento da 'Fairly Trained', uma organização sem fins lucrativos dedicada a certificar empresas de IA generativa para práticas de dados de treinamento mais justas.
A iniciativa visa distinguir entre as empresas que treinam a sua IA com base em dados injustamente recolhidos e as que adoptam uma abordagem mais ética, licenciando ou criando os seus próprios dados proprietários.
Newton-Rex declarou no X: "É difícil saber quais empresas de IA generativa treinam em dados raspados e quais adotam uma abordagem mais ética por meio de licenciamento. Então, hoje estamos lançando Fairly Trained, uma organização sem fins lucrativos que certifica empresas de IA generativa para práticas de dados de treinamento mais justas.
É difícil saber quais são as empresas de IA generativa que treinam com dados raspados e quais adoptam uma abordagem mais ética através do licenciamento. Por isso, hoje estamos a lançar a Fairly Trained, uma organização sem fins lucrativos que certifica as empresas de IA generativa para práticas de dados de formação mais justas.
A nossa primeira certificação, denominada...
- Ed Newton-Rex (@ednewtonrex) 17 de janeiro de 2024
Isto acontece no meio de uma escalada de críticas à recolha de dados para treinar modelos de IA, um processo que tem deixado os detentores de direitos de autor furiosos. O debate aumentou ainda mais em janeiro, quando uma lista de 16 000 artistas utilizado para treinar e otimizar a Midjourney foi divulgado.
A seguir, empresas como a Magic: The Gathering e a Wacom, que se baseiam na criatividade humana, foram ferozmente criticados por utilizar imagens geradas por IA nas redes sociais. Entretanto, surgiram nas redes sociais notícias sobre a substituição de postos de trabalho por IA, incluindo no Duolingo.
A Midjourney e a Stability AI, a antiga empresa do Newton-Rex, estão atualmente envolvidas num ação judicial por direitos de autor que deverá avançar para uma decisão este ano. É uma das muitas queixas apresentadas contra empresas como a OpenAI, Anthropic, Meta, Midjourney, Stability, entre outras.
A Stability AI tem sido alvo de escrutínio por utilizar milhões de imagens e ficheiros de áudio protegidos por direitos de autor nos seus modelos, levantando questões sobre os limites da "utilização justa" - que a Newton-Rex pretende agora abordar com o programa Fairly Trained.
Newton-Rex demitiu-se da Stability AI no ano passado, declarando no X: "Demiti-me do meu cargo de líder da equipa de áudio da Stability AI porque não concordo com a opinião da empresa de que o treino de modelos generativos de IA em obras protegidas por direitos de autor é uma 'utilização justa'".
Demiti-me do meu cargo de líder da equipa de áudio da Stability AI, porque não concordo com a opinião da empresa de que o treino de modelos de IA generativa em obras protegidas por direitos de autor é uma "utilização justa".
Em primeiro lugar, quero dizer que há muitas pessoas na Stability que estão profundamente...
- Ed Newton-Rex (@ednewtonrex) 15 de novembro de 2023
Apesar de se ter demitido da Stability AI, Newton-Rex manifestou otimismo quanto à obtenção de uma relação harmoniosa entre a IA generativa e as indústrias criativas, o que foi agora sublinhado pela Fairly Trained.
O programa Fairly Trained
A "Fairly Trained" apresenta a sua primeira certificação, aCertificação de modelo licenciado (L).'
O objetivo é destacar os modelos de IA que utilizam dados de treino de forma ética, garantindo que nenhum trabalho protegido por direitos de autor é utilizado sem uma licença. Isto aplica-se a modelos de IA em vários domínios, como a geração de imagens e música.
Para cumprir os critérios, os dados de treino devem ser
- Acordado contratualmente com os detentores de direitos.
- Sob uma licença aberta apropriada.
- No domínio público global.
- Propriedade do promotor do modelo.
As empresas devem verificar cuidadosamente o estatuto de direitos dos seus dados de formação e devem manter registos pormenorizados dos dados de formação utilizados. A candidatura envolve uma apresentação escrita pormenorizada e um processo de revisão, que termina com a certificação e a reavaliação anual.
Embora a Newton-Rex admita que esta primeira certificação não resolve todas as preocupações em torno da formação em IA generativa, como o debate entre a opção de inclusão e a opção de exclusão, é um passo em frente.
Até agora, o programa tem sido bem recebido. O Dr. Yair Adato, da BRIA AI, elogiou a iniciativa, afirmando numa publicação no blogueApoiamos com orgulho a certificação Fairly Trained. Esta iniciativa contraria a opacidade da indústria na aquisição de dados, garantindo que as empresas cumprem rigorosos padrões éticos."
Christopher Horton, vice-presidente sênior da Universal, disse: "Congratulamo-nos com o lançamento da certificação Fairly Trained para ajudar empresas e criadores a identificar ferramentas de IA geradoras responsáveis que foram treinadas em materiais obtidos de forma legal e ética".
A Fairly Trained já certificou nove empresas de IA generativa em geração de imagens, criação de música e síntese de voz, incluindo Beatoven.AI, Boomy, BRIA AI, Endel, LifeScore, Rightsify, Somms.ai, Soundful e Tuney.
Será interessante ver quais as empresas que se inscrevem no programa e a transparência com que disponibilizam os seus dados. Idealmente, o público deveria poder ver os conjuntos de dados por si próprio (desde que sejam do domínio público ou não estejam protegidos por direitos de propriedade ou outros).
Há alguma complexidade na certificação, uma vez que os dados devem estar no "domínio público a nível mundial", o que pode ser complicado de navegar devido às diferentes leis de direitos de autor nas diferentes jurisdições.
O que é considerado domínio público num país pode não o ser noutro. Por exemplo, uma obra literária pode entrar no domínio público nos Estados Unidos 70 anos após a morte do autor, mas a mesma obra pode ainda estar protegida por direitos de autor na Europa.
De qualquer modo, o requisito da Fairly Trained para que os dados sejam "do domínio público a nível mundial" implica um padrão elevado.
Poderá este ser o ano de uma maior responsabilização das empresas de IA e de práticas de dados mais transparentes?