OpenAI a effectué un test à petite échelle de son nouveau produit de clonage vocal, Voice Engine, avec quelques partenaires sélectionnés. Les résultats montrent des applications prometteuses pour cette technologie, mais des problèmes de sécurité pourraient en empêcher la diffusion.
OpenAI affirme que Voice Engine peut cloner la voix d'un être humain à partir d'un seul enregistrement de 15 secondes de sa voix. L'outil peut ensuite générer "un discours à consonance naturelle qui ressemble étroitement à l'orateur d'origine".
Une fois cloné, Voice Engine peut transformer les entrées de texte en paroles audibles à l'aide de "voix émotives et réalistes". Les capacités de cet outil permettent des applications passionnantes, mais soulèvent également de graves problèmes de sécurité.
Cas d'utilisation prometteurs
OpenAI a commencé à tester Voice Engine à la fin de l'année dernière pour voir comment un petit groupe de participants sélectionnés pourrait utiliser la technologie.
Voici quelques exemples d'utilisation du produit par les partenaires de test de Voice Engine :
- Enseignement adaptatif - Age of Learning a utilisé Voice Engine pour fournir une aide à la lecture aux enfants, créer des contenus vocaux pour le matériel d'apprentissage et fournir des réponses verbales personnalisées pour interagir avec les élèves.
- Traduire le contenu - HeyGen a fait appel à Voice Engine pour la traduction de vidéos afin que le marketing produit et les démonstrations de vente puissent toucher un marché plus large. L'audio traduit conserve l'accent de la personne. Ainsi, lorsque l'audio d'un locuteur de langue maternelle française est traduit en anglais, vous entendez toujours son accent français.
- Fournir des services sociaux plus larges - Dimagi forme des travailleurs de la santé dans des régions reculées. Il utilise le moteur vocal pour donner une formation et un retour d'information interactif aux travailleurs de la santé dans des langues mal desservies.
- Soutenir les personnes non verbales - Livox permet aux personnes non verbales de communiquer à l'aide de dispositifs de communication alternatifs. Voice Engine permet à ces personnes de choisir une voix qui les représente au mieux plutôt qu'une voix plus robotique.
- Aider les patients à retrouver leur voix - Lifespan a piloté un programme offrant le Voice Engine aux personnes souffrant de troubles de la parole dus à un cancer ou à une maladie neurologique.
Voice Engine n'est pas le premier outil de clonage de voix par l'IA, mais les échantillons qu'il contient sont très utiles. Article de blog d'OpenAI indiquent qu'il représente l'état de l'art et qu'il pourrait même être meilleur qu'ElevenLabs.
Voici un exemple de l'inflexion naturelle et des caractéristiques émotionnelles qu'elle peut générer.
OpenAI vient de lancer Voice Engine,
Il utilise un texte et un seul échantillon audio de 15 secondes pour générer une parole naturelle qui ressemble beaucoup à celle du locuteur d'origine.
Les sons de référence et les sons générés sont très proches et difficiles à différencier.
Plus de détails dans 🧵 pic.twitter.com/tJRrCO2WZP- AshutoshShrivastava (@ai_for_success) 29 mars 2024
Préoccupations en matière de sécurité
L'OpenAI s'est déclarée impressionnée par les cas d'utilisation proposés par les participants aux tests, mais des mesures de sécurité supplémentaires devraient être mises en place avant que l'entreprise ne décide "si et comment déployer cette technologie à grande échelle".
Selon l'OpenAI, une technologie capable de reproduire fidèlement la voix d'une personne "présente de sérieux risques, qui sont particulièrement importants en cette année électorale". Faux appels téléphoniques de Biden et le fausse vidéo de la candidate au Sénat Kari Lake sont des exemples concrets.
Outre les restrictions clairement énoncées dans ses politiques générales d'utilisation, les participants à l'essai devaient obtenir le "consentement explicite et informé du locuteur original" et n'étaient pas autorisés à créer un produit permettant aux gens de créer leur propre voix.
OpenAI affirme avoir mis en œuvre d'autres mesures de sécurité, notamment un filigrane audio. Elle n'a pas expliqué exactement comment, mais a déclaré qu'elle pouvait effectuer une "surveillance proactive" de l'utilisation de Voice Engine.
D'autres grands acteurs de l'industrie de l'IA s'inquiètent également de voir ce type de technologie se répandre dans la nature.
L'IA vocale est de loin la modalité la plus dangereuse.
Une voix surhumaine et persuasive est une chose contre laquelle nous n'avons que peu de défenses.
La recherche d'une solution à ce problème devrait être l'une de nos principales priorités.
(Nous avions des modèles de sota, mais nous ne les avons pas publiés pour cette raison). https://t.co/vjY99uCdTl) https://t.co/fKIZrVQCml
- Emad acc/acc (@EMostaque) 29 mars 2024
Quelle est la prochaine étape ?
Le reste d'entre nous aura-t-il l'occasion de jouer avec Voice Engine ? C'est peu probable, et c'est peut-être une bonne chose. Le potentiel d'utilisation malveillante est énorme.
OpenAI recommande déjà aux institutions telles que les banques d'abandonner progressivement l'authentification vocale comme mesure de sécurité.
Voice Engine intègre un filigrane audio, mais l'OpenAI estime que des travaux supplémentaires sont nécessaires pour identifier les contenus audiovisuels générés par l'IA.
Même si OpenAI décide de ne pas publier Voice Engine, d'autres le feront. L'époque où l'on pouvait se fier à ses yeux et à ses oreilles est révolue.