Selon l'OpenAI, la diffusion de Voice Engine pourrait être trop risquée

1er avril 2024

  • OpenAI a révélé un moteur vocal qui clone une voix humaine à partir de 15 secondes de discours seulement
  • Voice Engine a été testé par un petit groupe de partenaires, mais OpenAI hésite à le rendre public.
  • OpenAI ajoute un filigrane audio au son cloné de Voice Engine, mais estime que d'autres mesures de sécurité sont nécessaires

OpenAI a effectué un test à petite échelle de son nouveau produit de clonage vocal, Voice Engine, avec quelques partenaires sélectionnés. Les résultats montrent des applications prometteuses pour cette technologie, mais des problèmes de sécurité pourraient en empêcher la diffusion.

OpenAI affirme que Voice Engine peut cloner la voix d'un être humain à partir d'un seul enregistrement de 15 secondes de sa voix. L'outil peut ensuite générer "un discours à consonance naturelle qui ressemble étroitement à l'orateur d'origine".

Une fois cloné, Voice Engine peut transformer les entrées de texte en paroles audibles à l'aide de "voix émotives et réalistes". Les capacités de cet outil permettent des applications passionnantes, mais soulèvent également de graves problèmes de sécurité.

Cas d'utilisation prometteurs

OpenAI a commencé à tester Voice Engine à la fin de l'année dernière pour voir comment un petit groupe de participants sélectionnés pourrait utiliser la technologie.

Voici quelques exemples d'utilisation du produit par les partenaires de test de Voice Engine :

  • Enseignement adaptatif - Age of Learning a utilisé Voice Engine pour fournir une aide à la lecture aux enfants, créer des contenus vocaux pour le matériel d'apprentissage et fournir des réponses verbales personnalisées pour interagir avec les élèves.
  • Traduire le contenu - HeyGen a fait appel à Voice Engine pour la traduction de vidéos afin que le marketing produit et les démonstrations de vente puissent toucher un marché plus large. L'audio traduit conserve l'accent de la personne. Ainsi, lorsque l'audio d'un locuteur de langue maternelle française est traduit en anglais, vous entendez toujours son accent français.
  • Fournir des services sociaux plus larges - Dimagi forme des travailleurs de la santé dans des régions reculées. Il utilise le moteur vocal pour donner une formation et un retour d'information interactif aux travailleurs de la santé dans des langues mal desservies.
  • Soutenir les personnes non verbales - Livox permet aux personnes non verbales de communiquer à l'aide de dispositifs de communication alternatifs. Voice Engine permet à ces personnes de choisir une voix qui les représente au mieux plutôt qu'une voix plus robotique.
  • Aider les patients à retrouver leur voix - Lifespan a piloté un programme offrant le Voice Engine aux personnes souffrant de troubles de la parole dus à un cancer ou à une maladie neurologique.

Voice Engine n'est pas le premier outil de clonage de voix par l'IA, mais les échantillons qu'il contient sont très utiles. Article de blog d'OpenAI indiquent qu'il représente l'état de l'art et qu'il pourrait même être meilleur qu'ElevenLabs.

Voici un exemple de l'inflexion naturelle et des caractéristiques émotionnelles qu'elle peut générer.

Préoccupations en matière de sécurité

L'OpenAI s'est déclarée impressionnée par les cas d'utilisation proposés par les participants aux tests, mais des mesures de sécurité supplémentaires devraient être mises en place avant que l'entreprise ne décide "si et comment déployer cette technologie à grande échelle".

Selon l'OpenAI, une technologie capable de reproduire fidèlement la voix d'une personne "présente de sérieux risques, qui sont particulièrement importants en cette année électorale". Faux appels téléphoniques de Biden et le fausse vidéo de la candidate au Sénat Kari Lake sont des exemples concrets.

Outre les restrictions clairement énoncées dans ses politiques générales d'utilisation, les participants à l'essai devaient obtenir le "consentement explicite et informé du locuteur original" et n'étaient pas autorisés à créer un produit permettant aux gens de créer leur propre voix.

OpenAI affirme avoir mis en œuvre d'autres mesures de sécurité, notamment un filigrane audio. Elle n'a pas expliqué exactement comment, mais a déclaré qu'elle pouvait effectuer une "surveillance proactive" de l'utilisation de Voice Engine.

D'autres grands acteurs de l'industrie de l'IA s'inquiètent également de voir ce type de technologie se répandre dans la nature.

Quelle est la prochaine étape ?

Le reste d'entre nous aura-t-il l'occasion de jouer avec Voice Engine ? C'est peu probable, et c'est peut-être une bonne chose. Le potentiel d'utilisation malveillante est énorme.

OpenAI recommande déjà aux institutions telles que les banques d'abandonner progressivement l'authentification vocale comme mesure de sécurité.

Voice Engine intègre un filigrane audio, mais l'OpenAI estime que des travaux supplémentaires sont nécessaires pour identifier les contenus audiovisuels générés par l'IA.

Même si OpenAI décide de ne pas publier Voice Engine, d'autres le feront. L'époque où l'on pouvait se fier à ses yeux et à ses oreilles est révolue.

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Eugène van der Watt

Eugene a une formation d'ingénieur en électronique et adore tout ce qui touche à la technologie. Lorsqu'il fait une pause dans sa consommation d'informations sur l'IA, vous le trouverez à la table de snooker.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation