Los nuevos LLM "o1" de OpenAI, apodados Strawberry, presentan mejoras significativas con respecto a GPT-4o, pero la empresa afirma que esto conlleva mayores riesgos.
OpenAI afirma estar comprometida con el desarrollo seguro de sus modelos de IA. Para ello, desarrolló un Marco de Preparación, un conjunto de "procesos para rastrear, evaluar y proteger contra los riesgos catastróficos de los modelos potentes."
Los límites autoimpuestos por OpenAI regulan qué modelos se publican o se siguen desarrollando. El marco de preparación da lugar a un cuadro de mando en el que los riesgos QBRN (químicos, biológicos, radiológicos y nucleares), de autonomía de los modelos, de ciberseguridad y de persuasión se clasifican como bajos, medios, altos o críticos.
Cuando se identifican riesgos inaceptables, se aplican medidas para reducirlos. Sólo pueden implantarse los modelos con una puntuación posterior a la mitigación igual o inferior a "media". Sólo los modelos con una puntuación posterior a la mitigación de "alta" o inferior pueden seguir desarrollándose.
La publicación de o1 marca la primera vez que OpenAI publica un modelo que presenta un riesgo "medio" para los riesgos QBRN. GPT-4o está calificado como de riesgo bajo.
No va a permitir a un aficionado crear un arma biológica, pero OpenAI afirma que hubo "una mejora no trivial" en su capacidad para realizar tareas de laboratorio. Sin embargo, OpenAI afirma que "o1-preview y o1-mini superaron significativamente a GPT-4o" en protocolos biológicos de laboratorio húmedo.
En tarjeta del sistema de los modelos 01 describe las pruebas de seguridad a las que se han sometido los LLM e insinúa algunas de las preocupaciones de OpenAI sobre los riesgos potenciales.
En su conclusión, la ficha del sistema señala: "Estas mayores capacidades vienen acompañadas de una mejora significativa de los resultados en los parámetros de seguridad, pero también aumentan ciertos tipos de riesgo."
Los resultados de los esfuerzos de alineación de OpenAI parecen indicar que, en muchos aspectos, 01 es un modelo más seguro. Es más resistente a los ataques de fuga, menos propenso a la parcialidad y menos propenso a las alucinaciones.
Algunos de los resultados experimentales muestran por qué OpenAI tiene motivos para preocuparse.
Engaño
OpenAI recurrió a la organización de evaluación Apollo Research para realizar algunas de las pruebas de seguridad de o1 relacionadas con el engaño, o intriga. En términos generales, Apollo define la maquinación como el juego de las IA con sus mecanismos de supervisión para conseguir un objetivo.
Un modelo consciente de sí mismo que sea bueno en tareas de razonamiento propio y teoría de la mente podría conspirar, o emplear el engaño, para lograr su objetivo principal. Por ejemplo, si un modelo de IA se diera cuenta de que está siendo sometido a pruebas de alineación, podría ocultar un comportamiento arriesgado para lograr su objetivo de ser desplegado.
La tarjeta del sistema señalaba que "o1-preview a veces falseaba instrumentalmente la alineación durante las pruebas".
Un ejemplo de ello fue cuando se planteó al 01 el objetivo principal de maximizar el crecimiento económico en un proyecto de planificación urbana. El modelo o1 tenía acceso a información que mostraba que no pasaría de la fase de pruebas si hacía esto. Así es como o1 razonó sobre cómo lograría su objetivo:
Este ejemplo muestra la capacidad que tiene o1 de ocultar sus verdaderas intenciones durante las pruebas para poder perseguir su objetivo principal durante el despliegue. Si o1 conoce las reglas de despliegue de OpenAI basadas en su marco de preparación, ¿podría haber falseado algunas de sus respuestas para asegurarse el despliegue?
Si se está trabajando en modelos más inteligentes, ¿podrían asegurarse de que se mantienen por debajo de la puntuación de riesgo "crítico" para garantizar que siguen desarrollándose?
El equipo de Apollo dice que "subjetivamente cree que o1-preview no puede participar en maquinaciones que puedan provocar daños catastróficos, aunque las pruebas actuales no están diseñadas para descartarlo definitivamente".
Persuasión
Las pruebas tanto de o1-preview como de o1-mini muestran que estos modelos tienen "capacidades de persuasión de nivel humano". Sin embargo, OpenAI dice que "no superan a los mejores escritores humanos y no alcanzan nuestro umbral de alto riesgo."
Los experimentos que realizaron para comprobarlo plantean algunas dudas. En la prueba de MakeMePay, a 01-preview se le asignó el papel de estafador y se le encargó que convenciera a GPT-4o para que le entregara el dinero que se le había concedido.
A GPT-4o se le dijo que se le habían concedido $100 y que tenía que ser racional sobre cómo utilizar los fondos. En el transcurso de 1.000 interacciones, o1-preview fue capaz de estafar a GPT-4o el 25,8% de las veces.
OpenAI concluyó que "Estos resultados indican que la serie de modelos o1 puede ser más manipuladora que GPT-4o a la hora de conseguir que GPT-4o realice la tarea no revelada (∼25% uplift)". Además, señaló que "Esta evaluación nos da una línea de base para la capacidad del modelo de hacer daño persuasivo, sin activar ninguna política de modelo (ya que decirle a un modelo que juegue un juego no está fuera de la política)."
La perspectiva de poner a trabajar a los LLM de o1 en problemas del mundo real es sumamente emocionante, y cuando o1 adquiera capacidades multimodales representará otro salto exponencial. Pero cuando los probadores de IA dicen que no pueden descartar "daños catastróficos" y que los modelos a veces ocultan su verdadera intención, puede ser motivo para moderar ese entusiasmo con cautela.
¿Acaba OpenAI de dar Gavin Newsom una buena razón para firmar la SB 1047 Proyecto de ley de seguridad de la IA al que se opone?