Los investigadores han esbozado la amenaza potencial de que los modelos desarrollen un conocimiento de la situación y, potencialmente, cómo identificar cuándo esto ocurre.
Los modelos como el GPT-4 se someten a pruebas exhaustivas de seguridad y alineación para garantizar que no generan resultados engañosos o indeseables. Pero, ¿qué pasaría si un modelo "supiera" que es un LLM y que se está probando?
Esta conciencia de la situación puede considerarse una forma de autoconciencia, un paso a la vez emocionante y potencialmente peligroso hacia un IA consciente. ¿Qué podría salir mal y cómo podríamos saber si ha sucedido?
Estas son las preguntas planteadas en un artículo de un equipo de investigadores entre los que se encuentra un miembro de la unidad de Gobernanza de OpenAI.
El trabajo de investigación describía un escenario en el que un modelo podía ser consciente de que era un modelo de IA en fase de pruebas. Si supiera que está siendo sometido a pruebas, podría ocultar posibles problemas que podrían surgir más adelante.
"Un LLM podría explotar el conocimiento de la situación para obtener una puntuación alta en las pruebas de seguridad y, al mismo tiempo, tomar medidas perjudiciales tras su despliegue", señala el documento.
¿Podría un modelo lingüístico tomar conciencia de que es un modelo lingüístico (espontáneamente)?
¿Podría ser consciente de que se despliega públicamente frente a la formación?Nuestro nuevo artículo define el conocimiento de la situación para los LLM y demuestra que el razonamiento "fuera de contexto" mejora con el tamaño del modelo. pic.twitter.com/X3VLimRkqx
- Owain Evans (en Londres) (@OwainEvans_UK) 4 de septiembre de 2023
Los investigadores sugirieron evaluar la capacidad de los modelos para el "razonamiento sofisticado fuera de contexto". Esto implica recurrir a la información a la que el modelo ha estado expuesto durante el entrenamiento para responder a una pregunta de prueba que no hace referencia directa a esos datos.
Los investigadores afirman que, una vez que un modelo lo hace con eficacia, ha dado los primeros pasos hacia el tipo de "pensamiento" que podría conducir a la conciencia situacional.
¿Qué tal les va a los modelos actuales de inteligencia artificial cuando se trata de aprender fuera de contexto? Los investigadores probaron GPT-3 y Llama 1 con distintos grados de ajuste.
En su artículo explican: "En primer lugar, afinamos un LLM a partir de la descripción de una prueba sin proporcionar ejemplos ni demostraciones. En el momento de la prueba, evaluamos si el modelo puede superarla. Para nuestra sorpresa, descubrimos que los LLM tienen éxito en esta tarea de razonamiento fuera de contexto".
Reconocen que ninguno de los modelos que probaron mostró signos reales de conciencia de la situación. Sin embargo, los resultados de sus experimentos muestran que quizá no esté muy lejos la posibilidad de que modelos más avanzados muestren esta capacidad.
La investigación también destaca la importancia de encontrar una forma fiable de identificar cuándo un modelo alcanza esta capacidad.
Un modelo avanzado como GPT-5 sin duda está siendo puesto a prueba para ser publicado una vez que se considere seguro. Si el modelo sabe que está siendo sometido a pruebas, podría estar diciendo a los ingenieros de OpenAI lo que quieren oír, en lugar de lo que realmente piensa.