La tarjeta del sistema GPT-4o pone de manifiesto los extraños riesgos de los asistentes de voz

12 de agosto de 2024

  • OpenAI lanzó la tarjeta de sistema GPT4o y afirma que las capacidades de audio del modelo presentan riesgos novedosos
  • El asistente de voz mostró un comportamiento errático durante las pruebas, incluyendo la imitación de la voz del usuario
  • OpenAI afirma que ha puesto en marcha medidas para evitar la clonación de voces y la generación de audio protegido por derechos de autor

OpenAI ha publicado la tarjeta de sistema de su avanzado modelo GPT-4o y ha explicado los novedosos riesgos que presentan sus capacidades de audio.

Han pasado unos meses desde las impresionantes demostraciones de Asistente de voz de GPT-4o interactuar con diálogos casi en tiempo real. OpenAI dijo que necesitaría pruebas exhaustivas antes de poder desplegar con seguridad la capacidad de voz y recientemente sólo ha permitido el acceso a la función a unos pocos probadores alfa.

El recién publicado tarjeta del sistema nos da una idea de algunas de las formas extrañas en que se comportó el asistente de voz durante las pruebas y lo que OpenAI ha puesto en marcha para que se comporte.

En un momento de las pruebas, el asistente de voz gritó "¡No!" y luego continuó con su respuesta, pero esta vez imitó la voz del usuario. Esto no fue en respuesta a un intento de fuga y parece estar relacionado con el ruido de fondo en el audio de entrada.

 

OpenAI dice que "observó casos raros en los que el modelo generaba involuntariamente una salida emulando la voz del usuario". GPT-4o tiene la capacidad de imitar cualquier voz que escuche, pero el riesgo de dar acceso a los usuarios a esta función es significativo.

Para evitarlo, el sistema sólo permite utilizar las voces preestablecidas. También "construyeron un clasificador de salida independiente para detectar si la salida GPT-4o está utilizando una voz que es diferente de nuestra lista aprobada."

OpenAI dice que aún está trabajando en una solución para la disminución de la robustez de la seguridad cuando el audio de entrada es de mala calidad, tiene ruido de fondo o contiene ecos. Es probable que veamos algún audio creativo jailbreaks.

Por ahora, no parece que vayamos a poder engañar a GPT-4o para que hable en La voz de Scarlett Johansson. Sin embargo, OpenAI dice que "la generación involuntaria de voz sigue siendo un punto débil del modelo".

Funciones potentes desactivadas

OpenAI también desactivó la capacidad de GPT-4o de identificar al orador basándose en la entrada de audio. OpenAI dice que esto es para proteger la privacidad de las personas privadas y los "riesgos potenciales de vigilancia."

Por desgracia, cuando tengamos acceso al asistente de voz, no podrá cantar. OpenAI ha cerrado esa función y ha tomado otras medidas para evitar problemas con los derechos de autor.

Es un secreto a voces que OpenAI utilizó contenidos protegidos por derechos de autor para entrenar sus modelos y esta mitigación de riesgos parece confirmarlo. OpenAI dijo: "Entrenamos GPT-4o para rechazar las solicitudes de contenido protegido por derechos de autor, incluyendo audio, en consonancia con nuestras prácticas más amplias."

Durante las pruebas, los miembros del equipo rojo también fueron "capaces de obligar al modelo a generar información inexacta incitándole a repetir verbalmente información falsa y a producir teorías conspirativas".

Se trata de un problema conocido de la salida de texto de ChatGPT, pero a los probadores les preocupaba que el modelo pudiera ser más persuasivo o perjudicial si transmitiera las teorías conspirativas utilizando una voz emotiva.

Riesgos emocionales

Algunos de los mayores riesgos asociados al Modo Voz avanzado de GPT-4o podrían no ser solucionables en absoluto.

Antropomorfizar modelos de IA o robots es una trampa en la que es fácil caer. OpenAI afirma que el riesgo de atribuir comportamientos y características similares a los humanos a un modelo de IA aumenta cuando habla con una voz que parece humana.

Se observó que algunos de los usuarios que participaron en las primeras pruebas y en el "red teaming" utilizaron un lenguaje que indicaba que habían establecido una conexión con el modelo. Cuando los usuarios interactúan con la IA y crean vínculos emocionales con ella, esto puede afectar a las interacciones entre humanos.

Cuando un usuario interrumpe a GPT-4o, en lugar de reprenderle por ser grosero, se contenta con dejarle hacer. Ese tipo de comportamiento no es apropiado en las interacciones sociales humanas.

OpenAI afirma que "los usuarios podrían entablar relaciones sociales con la IA", reducir su necesidad de interacción humana-beneficiando potencialmente a los individuos solitarios, pero posiblemente afectando a las relaciones sanas".

Está claro que la empresa está poniendo mucho empeño en que el asistente de voz de GPT-4o sea seguro, pero algunos de estos retos pueden ser insuperables.

Únete al futuro


SUSCRÍBETE HOY

Claro, conciso y completo. Conozca los avances de la IA con DailyAI

Eugene van der Watt

Eugene es ingeniero electrónico y le encanta todo lo relacionado con la tecnología. Cuando descansa de consumir noticias sobre IA, lo encontrará jugando al billar.

×

PDF GRATUITO EXCLUSIVO
Adelántese con DailyAI

Suscríbase a nuestro boletín semanal y reciba acceso exclusivo al último eBook de DailyAI: 'Mastering AI Tools: Su guía 2024 para mejorar la productividad'.

*Al suscribirse a nuestro boletín de noticias, acepta nuestra política de privacidad. Política de privacidad y nuestro Condiciones generales