OpenAI sagt, dass die Voice Engine zu riskant für eine Veröffentlichung sein könnte

1. April 2024

  • OpenAI enthüllt Voice Engine, die eine menschliche Stimme aus nur 15 Sekunden Sprache klont
  • Die Voice Engine wurde von einer kleinen Gruppe von Partnern getestet, aber OpenAI zögert, sie öffentlich zu veröffentlichen
  • OpenAI fügt geklontem Voice-Engine-Audio ein Wasserzeichen hinzu, sagt aber, dass mehr Sicherheitsmaßnahmen erforderlich sind

OpenAI hat nach eigenen Angaben sein neues Sprachklonprodukt Voice Engine in kleinem Maßstab mit einigen ausgewählten Partnern getestet. Die Ergebnisse zeigen vielversprechende Anwendungen für die Technologie, aber Sicherheitsbedenken halten sie möglicherweise von der Veröffentlichung ab.

OpenAI sagt, dass Voice Engine die Stimme eines Menschen auf der Grundlage einer einzigen 15-sekündigen Aufnahme seiner Stimme klonen kann. Das Tool kann dann "natürlich klingende Sprache erzeugen, die dem ursprünglichen Sprecher sehr ähnlich ist".

Einmal geklont, kann Voice Engine Texteingaben in hörbare Sprache mit "gefühlvollen und realistischen Stimmen" umwandeln. Die Fähigkeit des Tools macht spannende Anwendungen möglich, wirft aber auch ernste Sicherheitsfragen auf.

Vielversprechende Anwendungsfälle

OpenAI hat Ende letzten Jahres mit der Erprobung der Voice Engine begonnen, um zu sehen, wie eine kleine Gruppe ausgewählter Teilnehmer die Technologie nutzen kann.

Einige Beispiele dafür, wie die Testpartner von Voice Engine das Produkt nutzen, sind:

  • Adaptiver Unterricht - Age of Learning nutzte Voice Engine, um Kindern beim Lesen zu helfen, Voice-over-Inhalte für Lernmaterial zu erstellen und personalisierte verbale Antworten zu geben, um mit den Schülern zu interagieren.
  • Inhalte übersetzen - HeyGen nutzte Voice Engine für die Videoübersetzung, damit Produktmarketing und Verkaufsdemos einen größeren Markt erreichen können. Die übersetzten Audiodateien behalten den muttersprachlichen Akzent der Person bei. Wenn also der Ton eines französischen Muttersprachlers ins Englische übersetzt wird, hört man immer noch seinen französischen Akzent.
  • Bereitstellung umfassenderer sozialer Dienste - Dimagi bildet Gesundheitspersonal in abgelegenen Gebieten aus. Es verwendet Voice Engine, um Schulungen und interaktives Feedback für Gesundheitspersonal in unterversorgten Sprachen zu geben.
  • Nonverbale Menschen unterstützen - Livox ermöglicht es nonverbalen Menschen, mit alternativen Kommunikationsmitteln zu kommunizieren. Voice Engine ermöglicht es diesen Menschen, eine Stimme zu wählen, die sie am besten repräsentiert, statt einer Stimme, die eher roboterhaft klingt.
  • Patienten helfen, ihre Stimme wiederzuerlangen - Lifespan führte ein Pilotprogramm durch, das Voice Engine für Menschen mit Sprachstörungen aufgrund von Krebs oder neurologischen Erkrankungen anbietet.

Voice Engine ist nicht das erste Tool zum Klonen von KI-Stimmen, aber die Beispiele in OpenAIs Blogbeitrag weisen darauf hin, dass es den Stand der Technik repräsentiert und vielleicht sogar besser ist als ElevenLabs.

Hier ist nur ein Beispiel für den natürlichen Tonfall und die emotionalen Eigenschaften, die er erzeugen kann.

Sicherheitsbedenken

OpenAI zeigte sich beeindruckt von den Anwendungsfällen der Testteilnehmer, aber es müssten noch weitere Sicherheitsmaßnahmen ergriffen werden, bevor das Unternehmen entscheiden könne, "ob und wie diese Technologie in großem Maßstab eingesetzt werden soll".

OpenAI sagt, dass Technologie, die die Stimme einer Person genau reproduzieren kann, "ernsthafte Risiken birgt, die in einem Wahljahr besonders im Vordergrund stehen". Gefälschte Biden-Raubanrufe und die gefälschtes Video der Senatskandidatin Kari Lake sind Beispiele dafür.

Zusätzlich zu den klaren Einschränkungen in den allgemeinen Nutzungsrichtlinien mussten die Teilnehmer an der Studie die "ausdrückliche und informierte Zustimmung des ursprünglichen Sprechers" einholen und durften kein Produkt entwickeln, das es Menschen ermöglicht, ihre eigenen Stimmen zu erzeugen.

OpenAI sagt, dass es andere Sicherheitsmaßnahmen implementiert hat, einschließlich eines Audio-Wasserzeichens. Es hat nicht genau erklärt, wie, aber es sagte, dass es eine "proaktive Überwachung" der Verwendung von Voice Engine durchführen könnte.

Einige andere große Akteure der KI-Branche sind ebenfalls besorgt darüber, dass diese Art von Technologie in die freie Wildbahn gelangt.

Was kommt als Nächstes?

Wird der Rest von uns mit Voice Engine herumspielen können? Das ist unwahrscheinlich, und vielleicht ist das auch gut so. Das Potenzial für böswillige Nutzung ist riesig.

OpenAI empfiehlt bereits, dass Institutionen wie Banken die Sprachauthentifizierung als Sicherheitsmaßnahme auslaufen lassen.

Voice Engine hat ein eingebettetes Audio-Wasserzeichen, aber OpenAI sagt, dass mehr Arbeit nötig ist, um zu erkennen, ob audiovisuelle Inhalte von KI generiert wurden.

Selbst wenn OpenAI beschließt, die Voice Engine nicht zu veröffentlichen, werden es andere tun. Die Zeiten, in denen man sich auf seine Augen und Ohren verlassen konnte, sind vorbei.

Join The Future


HEUTE ABONNIEREN

Klar, prägnant, umfassend. Behalten Sie den Überblick über KI-Entwicklungen mit DailyAI

Eugene van der Watt

Eugene kommt aus der Elektronikbranche und liebt alles, was mit Technik zu tun hat. Wenn er eine Pause vom Konsum von KI-Nachrichten einlegt, findet man ihn am Snookertisch.

×

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus

Melden Sie sich für unseren wöchentlichen Newsletter an und erhalten Sie exklusiven Zugang zum neuesten eBook von DailyAI: 'Mastering AI Tools: Ihr Leitfaden für mehr Produktivität im Jahr 2024".

*Mit der Anmeldung zu unserem Newsletter akzeptieren Sie unsere Datenschutzbestimmungen und unsere Bedingungen und Konditionen