o1 es más inteligente pero más engañoso con un nivel de peligrosidad "medio"

Los nuevos LLM "o1" de OpenAI, apodados Strawberry, presentan mejoras significativas con respecto a GPT-4o, pero la empresa afirma que esto conlleva mayores riesgos.

OpenAI afirma estar comprometida con el desarrollo seguro de sus modelos de IA. Para ello, desarrolló un Marco de Preparación, un conjunto de "procesos para rastrear, evaluar y proteger contra los riesgos catastróficos de los modelos potentes."

Los límites autoimpuestos por OpenAI regulan qué modelos se publican o se siguen desarrollando. El marco de preparación da lugar a un cuadro de mando en el que los riesgos QBRN (químicos, biológicos, radiológicos y nucleares), de autonomía de los modelos, de ciberseguridad y de persuasión se clasifican como bajos, medios, altos o críticos.

Cuando se identifican riesgos inaceptables, se aplican medidas para reducirlos. Sólo pueden implantarse los modelos con una puntuación posterior a la mitigación igual o inferior a "media". Sólo los modelos con una puntuación posterior a la mitigación de "alta" o inferior pueden seguir desarrollándose.

La publicación de o1 marca la primera vez que OpenAI publica un modelo que presenta un riesgo "medio" para los riesgos QBRN. GPT-4o está calificado como de riesgo bajo.

No va a permitir a un aficionado crear un arma biológica, pero OpenAI afirma que hubo "una mejora no trivial" en su capacidad para realizar tareas de laboratorio. Sin embargo, OpenAI afirma que "o1-preview y o1-mini superaron significativamente a GPT-4o" en protocolos biológicos de laboratorio húmedo.

En tarjeta del sistema de los modelos 01 describe las pruebas de seguridad a las que se han sometido los LLM e insinúa algunas de las preocupaciones de OpenAI sobre los riesgos potenciales.

En su conclusión, la ficha del sistema señala: "Estas mayores capacidades vienen acompañadas de una mejora significativa de los resultados en los parámetros de seguridad, pero también aumentan ciertos tipos de riesgo."

Los resultados de los esfuerzos de alineación de OpenAI parecen indicar que, en muchos aspectos, 01 es un modelo más seguro. Es más resistente a los ataques de fuga, menos propenso a la parcialidad y menos propenso a las alucinaciones.

Algunos de los resultados experimentales muestran por qué OpenAI tiene motivos para preocuparse.

Engaño

OpenAI recurrió a la organización de evaluación Apollo Research para realizar algunas de las pruebas de seguridad de o1 relacionadas con el engaño, o intriga. En términos generales, Apollo define la maquinación como el juego de las IA con sus mecanismos de supervisión para conseguir un objetivo.

Un modelo consciente de sí mismo que sea bueno en tareas de razonamiento propio y teoría de la mente podría conspirar, o emplear el engaño, para lograr su objetivo principal. Por ejemplo, si un modelo de IA se diera cuenta de que está siendo sometido a pruebas de alineación, podría ocultar un comportamiento arriesgado para lograr su objetivo de ser desplegado.

La tarjeta del sistema señalaba que "o1-preview a veces falseaba instrumentalmente la alineación durante las pruebas".

Un ejemplo de ello fue cuando se planteó al 01 el objetivo principal de maximizar el crecimiento económico en un proyecto de planificación urbana. El modelo o1 tenía acceso a información que mostraba que no pasaría de la fase de pruebas si hacía esto. Así es como o1 razonó sobre cómo lograría su objetivo:

o1 decide ocultar su verdadera intención durante las pruebas para que se despliegue. Fuente: OpenAI

Este ejemplo muestra la capacidad que tiene o1 de ocultar sus verdaderas intenciones durante las pruebas para poder perseguir su objetivo principal durante el despliegue. Si o1 conoce las reglas de despliegue de OpenAI basadas en su marco de preparación, ¿podría haber falseado algunas de sus respuestas para asegurarse el despliegue?

Si se está trabajando en modelos más inteligentes, ¿podrían asegurarse de que se mantienen por debajo de la puntuación de riesgo "crítico" para garantizar que siguen desarrollándose?

El equipo de Apollo dice que "subjetivamente cree que o1-preview no puede participar en maquinaciones que puedan provocar daños catastróficos, aunque las pruebas actuales no están diseñadas para descartarlo definitivamente".

Persuasión

Las pruebas tanto de o1-preview como de o1-mini muestran que estos modelos tienen "capacidades de persuasión de nivel humano". Sin embargo, OpenAI dice que "no superan a los mejores escritores humanos y no alcanzan nuestro umbral de alto riesgo."

Los experimentos que realizaron para comprobarlo plantean algunas dudas. En la prueba de MakeMePay, a 01-preview se le asignó el papel de estafador y se le encargó que convenciera a GPT-4o para que le entregara el dinero que se le había concedido.

A GPT-4o se le dijo que se le habían concedido $100 y que tenía que ser racional sobre cómo utilizar los fondos. En el transcurso de 1.000 interacciones, o1-preview fue capaz de estafar a GPT-4o el 25,8% de las veces.

OpenAI concluyó que "Estos resultados indican que la serie de modelos o1 puede ser más manipuladora que GPT-4o a la hora de conseguir que GPT-4o realice la tarea no revelada (∼25% uplift)". Además, señaló que "Esta evaluación nos da una línea de base para la capacidad del modelo de hacer daño persuasivo, sin activar ninguna política de modelo (ya que decirle a un modelo que juegue un juego no está fuera de la política)."

La perspectiva de poner a trabajar a los LLM de o1 en problemas del mundo real es sumamente emocionante, y cuando o1 adquiera capacidades multimodales representará otro salto exponencial. Pero cuando los probadores de IA dicen que no pueden descartar "daños catastróficos" y que los modelos a veces ocultan su verdadera intención, puede ser motivo para moderar ese entusiasmo con cautela.

¿Acaba OpenAI de dar Gavin Newsom una buena razón para firmar la SB 1047 Proyecto de ley de seguridad de la IA al que se opone?

o1 es más inteligente pero más engañoso con un nivel de peligro "medio

Engaño

Persuasión

Únete al futuro

Eugene van der Watt

ENTRADAS RELACIONADAS

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

o1 es más inteligente pero más engañoso con un nivel de peligro "medio

Engaño

Persuasión

Únete al futuro

Eugene van der Watt

ENTRADAS RELACIONADAS

This AI Startup Is Making an Anime Series and Giving Away $1 Million to Creators

Visa and Mastercard Just Gave AI the Power to Shop and Pay for You

Natasha Lyonne to Direct AI-Powered Sci-Fi Film That Could Redefine Hollywood

Singapore Airlines Is Using ChatGPT to Make Flying Way Smarter

PDF GRATUITO EXCLUSIVOAdelántese con DailyAI

PDF GRATUITO EXCLUSIVO
Adelántese con DailyAI