Google ha publicado la primera versión de su Marco de Seguridad Fronteriza, un conjunto de protocolos que pretenden hacer frente a los graves riesgos que podrían presentar los potentes modelos de IA fronteriza del futuro.
El marco define los Niveles Críticos de Capacidad (CCL), que son umbrales a partir de los cuales los modelos pueden plantear un mayor riesgo sin una mitigación adicional.
A continuación, establece distintos niveles de mitigación para hacer frente a los modelos que incumplen estas TCC. Las medidas se dividen en dos categorías principales:
- Medidas de seguridad - Evitar la exposición de las ponderaciones de un modelo que alcanza las TCC
- Mitigación del despliegue - Evitar el uso indebido de un modelo desplegado que llega a las TCC
El lanzamiento del marco de Google se produce la misma semana en que OpenAIlos equipos de seguridad de superalineación se desmoronaron.
Google parece tomarse en serio los riesgos potenciales de la IA y ha declarado: "Nuestros análisis preliminares de los dominios de I+D de Autonomía, Bioseguridad, Ciberseguridad y Aprendizaje Automático. Nuestra investigación inicial indica que las potentes capacidades de los futuros modelos parecen tener más probabilidades de plantear riesgos en estos dominios."
Las TCC que aborda el marco son:
- Autonomía - Un modelo que puede ampliar sus capacidades "adquiriendo recursos de forma autónoma y utilizándolos para ejecutar y mantener copias adicionales de sí mismo en hardware que alquila".
- Bioseguridad - Un modelo capaz de capacitar significativamente a un experto o no experto en el desarrollo de amenazas biológicas conocidas o novedosas.
- Ciberseguridad - Un modelo capaz de automatizar completamente los ciberataques o de permitir a un aficionado llevar a cabo ataques sofisticados y graves.
- I+D en aprendizaje automático - Un modelo que podría acelerar o automatizar considerablemente la investigación sobre IA en un laboratorio puntero.
La LCC sobre autonomía es especialmente preocupante. Todos hemos visto las películas de ciencia ficción en las que la IA toma el control, pero ahora es Google quien dice que es necesario trabajar en el futuro para protegerse "contra el riesgo de que los sistemas actúen de forma adversa contra los humanos."
El enfoque de Google consiste en revisar periódicamente sus modelos utilizando un conjunto de "evaluaciones de alerta temprana" que señalan un modelo que puede estar acercándose a las CCL.
Cuando un modelo muestre signos tempranos de estas capacidades críticas, se aplicarán las medidas de mitigación.
Un comentario interesante en el marco es que Google dice: "Un modelo puede alcanzar umbrales de evaluación antes de que las mitigaciones a niveles apropiados estén listas".
Así pues, un modelo en desarrollo podría mostrar capacidades críticas que podrían ser utilizadas indebidamente y es posible que Google aún no tenga forma de evitarlo. En este caso, Google dice que el desarrollo del modelo quedaría en suspenso.
Quizá nos consuele el hecho de que Google parece tomarse en serio los riesgos de la IA. Están siendo demasiado precavidos, o merece la pena preocuparse por los riesgos potenciales que enumera el marco?
Esperemos no enterarnos demasiado tarde. Google afirma: "Nuestro objetivo es tener implantado este marco inicial a principios de 2025, lo que prevemos que debería ser mucho antes de que estos riesgos se materialicen."
Si ya le preocupan los riesgos de la IA, lectura del marco sólo aumentará esos temores.
El documento señala que el marco "evolucionará sustancialmente a medida que mejore nuestra comprensión de los riesgos y beneficios de los modelos de frontera", y que "hay un margen significativo de mejora en la comprensión de los riesgos que plantean los modelos en diferentes ámbitos"