Otro día, otro giro en la saga OpenAI-Altman.
Esta vez, el motivo del despido de Altman es un modelo de IA apocalípticamente potente que se encuentra en un laboratorio de investigación de OpenAI, o al menos eso es lo que sugieren fuentes periodísticas.
Pocos días antes de que Sam Altman salida temporal de OpenAI, fuentes consultadas por Reuters afirman que los investigadores de la empresa enviaron una carta de advertencia al consejo de administración.
Esta carta, que no se hizo pública hasta hace poco, hizo saltar las alarmas sobre un avance de la IA. Según dos conocedores que contactó con Reuterses lo suficientemente potente como para amenazar a la humanidad.
Las fuentes afirman que la modelo en cuestión podría haber sido fundamental en los acontecimientos que condujeron al despido de Altman.
El proyecto en cuestión se conoce como Q* (pronunciado Q-Star). Algunos miembros de OpenAI consideran Q* como un posible hito en la búsqueda de la inteligencia general artificial (AGI). Q* es una amalgama de enfoques de aprendizaje automático, incluido el aprendizaje Q, que se remonta a la década de 1980.
Aunque a los medios de comunicación les encantan las historias apocalípticas sobre IA, estas fuentes anónimas indicaron que la decisión de la junta de despedir a Altman estuvo influida por la preocupación de comercializar prematuramente Q* sin comprender plenamente sus implicaciones.
Sin embargo, Reuters no ha podido confirmar de forma independiente las capacidades de Q* descritas por los investigadores.
Además, Reuters no ha tenido acceso a la carta, y el personal responsable de redactarla no ha respondido a las preguntas.
No nos deja mucho con que trabajar. Hay que pensar que el hecho de que casi todos los empleados de OpenAI abogaran por el regreso de Altman hace poco probable que sólo hubiera dos preocupados por Q*.
Tras el rechazo de Altman a los temores sobre Q*, el consejo decidió despedir a Altman, o al menos eso es lo que alegan esta carta y las noticias asociadas.
Pero, ¿tiene algún fundamento? ¿O no es más que otro giro extraño y especulativo en el drama de la sala de juntas de OpenAI?
¿Qué es Q* y cómo funciona?
Aunque especulativo, Q* (Q-Star) podría combinar elementos de los algoritmos de búsqueda Q-learning y A* (A Star) optimizados mediante un proceso denominado Aprendizaje por Refuerzo a partir de la Retroalimentación Humana (RLHF).
No es del todo único, y ya se ha especulado antes sobre técnicas relacionadas con Q*. Estos pueden darnos algunas pistas sobre su funcionamiento.
Desglosemos cada componente para entender cómo pueden interactuar en Q*:
Aprendizaje Q en Q
El aprendizaje Q es un tipo de algoritmo de aprendizaje por refuerzo que existe desde hace unos 30 años. Está diseñado para ayudar a un agente a aprender las mejores acciones a realizar en un estado determinado para maximizar una recompensa. Esto se consigue aprendiendo una función de valor conocida como función Q, que estima el uso esperado de tomar una acción determinada en un estado dado.
En el contexto de modelos de IA generativa como los que desarrolla OpenAI, el aprendizaje Q podría determinar la secuencia óptima de palabras o respuestas en una conversación o en una tarea de resolución de problemas.
Cada palabra o respuesta puede verse como una acción, y los estados pueden ser el contexto o la secuencia de palabras ya generada.
Un algoritmo de búsqueda en Q
A* es un popular algoritmo de búsqueda de grafos conocido por su eficiencia y eficacia a la hora de encontrar el camino más corto desde un nodo inicial hasta un nodo objetivo en un grafo.
La mención de que Q* necesita "vastos recursos informáticos" y es capaz de resolver problemas matemáticos sugiere que A* podría integrarse con Q-learning para gestionar procesos de razonamiento complejos y de varios pasos.
El algoritmo podría optimizar la toma de decisiones a lo largo de múltiples pasos almacenando resultados intermedios y buscando eficientemente a través de posibles secuencias de acciones (o palabras/respuestas).
Papel de la RLHF
La RLHF consiste en entrenar modelos de IA utilizando información humana para guiar el proceso de aprendizaje. Esto puede incluir demostrar los resultados deseados, corregir errores y proporcionar información matizada para refinar la comprensión y el rendimiento del modelo.
En Q*, el RLHF podría utilizarse para perfeccionar la capacidad del modelo para tomar decisiones y resolver problemas, especialmente en escenarios complejos y de múltiples giros en los que la comprensión y el razonamiento matizados son fundamentales.
Así es como podría funcionar Q*, pero en realidad no nos dice cómo ni por qué es tan alarmante, ni ofrece ninguna claridad sobre la veracidad de las afirmaciones de la carta.
Sólo el tiempo dirá si Q* es auténtico y si plantea algún riesgo.