Los investigadores descubren cómo saber si el ChatGPT toma conciencia de sí mismo

12 de septiembre de 2023

Los investigadores han esbozado la amenaza potencial de que los modelos desarrollen un conocimiento de la situación y, potencialmente, cómo identificar cuándo esto ocurre.

Los modelos como el GPT-4 se someten a pruebas exhaustivas de seguridad y alineación para garantizar que no generan resultados engañosos o indeseables. Pero, ¿qué pasaría si un modelo "supiera" que es un LLM y que se está probando?

Esta conciencia de la situación puede considerarse una forma de autoconciencia, un paso a la vez emocionante y potencialmente peligroso hacia un IA consciente. ¿Qué podría salir mal y cómo podríamos saber si ha sucedido?

Estas son las preguntas planteadas en un artículo de un equipo de investigadores entre los que se encuentra un miembro de la unidad de Gobernanza de OpenAI.

El trabajo de investigación describía un escenario en el que un modelo podía ser consciente de que era un modelo de IA en fase de pruebas. Si supiera que está siendo sometido a pruebas, podría ocultar posibles problemas que podrían surgir más adelante.

"Un LLM podría explotar el conocimiento de la situación para obtener una puntuación alta en las pruebas de seguridad y, al mismo tiempo, tomar medidas perjudiciales tras su despliegue", señala el documento.

Los investigadores sugirieron evaluar la capacidad de los modelos para el "razonamiento sofisticado fuera de contexto". Esto implica recurrir a la información a la que el modelo ha estado expuesto durante el entrenamiento para responder a una pregunta de prueba que no hace referencia directa a esos datos.

Los investigadores afirman que, una vez que un modelo lo hace con eficacia, ha dado los primeros pasos hacia el tipo de "pensamiento" que podría conducir a la conciencia situacional.

¿Qué tal les va a los modelos actuales de inteligencia artificial cuando se trata de aprender fuera de contexto? Los investigadores probaron GPT-3 y Llama 1 con distintos grados de ajuste.

En su artículo explican: "En primer lugar, afinamos un LLM a partir de la descripción de una prueba sin proporcionar ejemplos ni demostraciones. En el momento de la prueba, evaluamos si el modelo puede superarla. Para nuestra sorpresa, descubrimos que los LLM tienen éxito en esta tarea de razonamiento fuera de contexto".

Reconocen que ninguno de los modelos que probaron mostró signos reales de conciencia de la situación. Sin embargo, los resultados de sus experimentos muestran que quizá no esté muy lejos la posibilidad de que modelos más avanzados muestren esta capacidad.

La investigación también destaca la importancia de encontrar una forma fiable de identificar cuándo un modelo alcanza esta capacidad.

Un modelo avanzado como GPT-5 sin duda está siendo puesto a prueba para ser publicado una vez que se considere seguro. Si el modelo sabe que está siendo sometido a pruebas, podría estar diciendo a los ingenieros de OpenAI lo que quieren oír, en lugar de lo que realmente piensa.

Únete al futuro


SUSCRÍBETE HOY

Claro, conciso y completo. Conozca los avances de la IA con DailyAI

Eugene van der Watt

Eugene es ingeniero electrónico y le encanta todo lo relacionado con la tecnología. Cuando descansa de consumir noticias sobre IA, lo encontrará jugando al billar.

×

PDF GRATUITO EXCLUSIVO
Adelántese con DailyAI

Suscríbase a nuestro boletín semanal y reciba acceso exclusivo al último eBook de DailyAI: 'Mastering AI Tools: Su guía 2024 para mejorar la productividad'.

*Al suscribirse a nuestro boletín de noticias, acepta nuestra política de privacidad. Política de privacidad y nuestro Condiciones generales