Ed Newton-Rex, ex-VP of Audio chez Stability AI, a annoncé le lancement de "Fairly Trained", une organisation à but non lucratif visant à certifier les entreprises d'IA générative pour des pratiques plus équitables en matière de données d'entraînement.
L'initiative vise à faire la distinction entre les entreprises qui entraînent leur IA à partir de données injustement récupérées et celles qui adoptent une approche plus éthique en accordant des licences ou en créant leurs propres données exclusives.
Newton-Rex a déclaré sur X : "Il est difficile de savoir quelles entreprises d'IA générative s'entraînent à partir de données récupérées et lesquelles adoptent une approche plus éthique en accordant des licences. C'est pourquoi nous lançons aujourd'hui Fairly Trained, un organisme à but non lucratif qui certifie les entreprises d'IA générative pour des pratiques plus équitables en matière de données d'entraînement."
Il est difficile de savoir quelles entreprises d'IA générative s'entraînent à partir de données récupérées et lesquelles adoptent une approche plus éthique en accordant des licences. C'est pourquoi nous lançons aujourd'hui Fairly Trained, une organisation à but non lucratif qui certifie les entreprises d'IA générative pour des pratiques plus équitables en matière de données d'entraînement.
Notre première certification, appelée...
- Ed Newton-Rex (@ednewtonrex) 17 janvier 2024
Cette décision intervient dans un contexte de critiques de plus en plus vives à l'encontre du laisser-faire en matière de récupération de données à des fins d'entraînement de modèles d'IA, un processus qui a mis les détenteurs de droits d'auteur dans tous leurs états. Le débat est monté d'un cran au début du mois de janvier lorsqu'une liste de 16 000 artistes a été publiée. utilisé pour former et optimiser Midjourney a fait l'objet d'une fuite.
Viennent ensuite des entreprises comme Magic : The Gathering et Wacom, qui s'appuient sur la créativité humaine, ont été violemment critiqués pour avoir utilisé des images générées par l'IA sur les médias sociaux. Dans le même temps, des rapports sur les remplacements de postes par l'IA ont fait surface sur les médias sociaux, y compris chez Duolingo.
Midjourney et Stability AI, l'ancienne société de Newton-Rex, sont actuellement en conflit. procès sur les droits d'auteur qui devrait faire l'objet d'un jugement cette année. Il s'agit de l'une des nombreuses plaintes déposées contre des entreprises telles que OpenAI, Anthropic, Meta, Midjourney, Stability et d'autres.
Stability AI a fait l'objet d'un examen minutieux pour avoir utilisé des millions d'images et de fichiers audio protégés par des droits d'auteur dans ses modèles, ce qui a soulevé des questions sur les limites de l'"utilisation équitable" - que Newton-Rex a maintenant l'intention d'aborder avec le programme Fairly Trained.
Newton-Rex a démissionné de Stability AI l'année dernière, déclarant sur X : "J'ai démissionné de mon rôle à la tête de l'équipe Audio de Stability AI parce que je ne suis pas d'accord avec l'opinion de l'entreprise selon laquelle l'entraînement de modèles d'IA générative sur des œuvres protégées par le droit d'auteur est une 'utilisation équitable'".
J'ai démissionné de mon poste de responsable de l'équipe audio de Stability AI, car je ne suis pas d'accord avec l'opinion de l'entreprise selon laquelle l'entraînement de modèles d'IA générative sur des œuvres protégées par le droit d'auteur est une "utilisation équitable".
Tout d'abord, je tiens à dire qu'il y a beaucoup de gens à Stability qui sont profondément...
- Ed Newton-Rex (@ednewtonrex) 15 novembre 2023
Malgré sa démission de Stability AI, Newton-Rex s'est montré optimiste quant à l'établissement d'une relation harmonieuse entre l'IA générative et les industries créatives, ce qui a été souligné par Fairly Trained.
Le programme Fairly Trained
Le programme "Fairly Trained" introduit sa première certification, le "Fairly Trained".Certification de modèle licencié (L).'
L'objectif est de mettre en évidence les modèles d'IA qui utilisent les données d'entraînement de manière éthique, en veillant à ce qu'aucune œuvre protégée par le droit d'auteur ne soit utilisée sans licence. Cela s'applique aux modèles d'IA dans de nombreux domaines tels que la génération d'images et de musique.
Pour répondre aux critères, les données de formation doivent être soit
- Accord contractuel avec les détenteurs de droits.
- Sous une licence ouverte appropriée.
- Dans le domaine public mondial.
- Propriété du promoteur du modèle.
Les entreprises doivent vérifier minutieusement l'état des droits de leurs données de formation, et des registres détaillés des données de formation utilisées doivent être conservés. L'application implique une soumission écrite détaillée et un processus d'examen, se concluant par une certification et une réévaluation annuelle.
Si Newton-Rex admet que cette première certification ne répond pas à toutes les préoccupations liées à la formation à l'IA générative, telles que le débat sur l'acceptation ou le refus, elle constitue néanmoins un pas en avant.
Jusqu'à présent, le programme a été bien accueilli. Yair Adato, de BRIA AI, l'a félicité, dans un article de blogNous sommes fiers de soutenir la certification Fairly Trained. Cette initiative permet de lutter contre l'opacité du secteur en matière d'acquisition de données, en garantissant que les entreprises respectent des normes éthiques rigoureuses."
Christopher Horton, SVP chez Universal, a déclaré : "Nous nous félicitons du lancement de la certification Fairly Trained pour aider les entreprises et les créateurs à identifier les outils d'IA générative responsables qui ont été formés à partir de matériaux obtenus de manière légale et éthique."
Fairly Trained a déjà certifié neuf entreprises d'IA générative dans les domaines de la génération d'images, de la création musicale et de la synthèse vocale, dont Beatoven.AI, Boomy, BRIA AI, Endel, LifeScore, Rightsify, Somms.ai, Soundful et Tuney.
Il sera intéressant de voir quelles entreprises s'inscriront au programme et dans quelle mesure elles rendront leurs données transparentes. Idéalement, le public devrait pouvoir consulter les ensembles de données (à condition qu'ils relèvent du domaine public ou qu'ils ne soient pas protégés par des droits de propriété).
La certification est quelque peu complexe, car les données doivent appartenir au "domaine public mondial", ce qui peut s'avérer délicat en raison des différentes lois sur les droits d'auteur en vigueur dans les différentes juridictions.
Ce qui est considéré comme relevant du domaine public dans un pays peut ne pas l'être dans un autre. Par exemple, une œuvre littéraire peut entrer dans le domaine public aux États-Unis 70 ans après la mort de l'auteur, mais la même œuvre peut encore être protégée par le droit d'auteur en Europe.
En tout état de cause, l'exigence de Fairly Trained selon laquelle les données doivent être "dans le domaine public au niveau mondial" implique une norme élevée.
Cette année pourrait-elle être celle d'une responsabilisation accrue des entreprises d'IA et de pratiques plus transparentes en matière de données ?