Un autre jour, un autre rebondissement dans la saga OpenAI-Altman.
Cette fois, la raison du licenciement de M. Altman est un modèle d'IA d'une puissance apocalyptique qui se trouve dans un laboratoire de recherche de l'OpenAI, ou du moins c'est ce que suggèrent les sources médiatiques.
Quelques jours avant le lancement du film de Sam Altman départ temporaire d'OpenAI, des sources interrogées par Reuters affirment que les chercheurs de l'entreprise ont envoyé une lettre d'avertissement au conseil d'administration.
Cette lettre, qui n'a été rendue publique que récemment, a fait craindre une percée de l'IA. Selon deux initiés qui a contacté ReutersIl est suffisamment puissant pour menacer l'humanité.
Selon certaines sources, le modèle en question aurait joué un rôle déterminant dans les événements qui ont conduit au licenciement de M. Altman.
Le projet en question est connu sous le nom de Q* (prononcé Q-Star). Q* est considéré par certains membres de l'OpenAI comme une étape potentielle dans la quête d'une technologie de pointe. l'intelligence artificielle générale (AGI). Q* est un amalgame d'approches d'apprentissage automatique, dont l'apprentissage Q, qui remonte aux années 1980.
Alors que les médias adorent les histoires apocalyptiques sur l'IA, ces sources anonymes ont indiqué que la décision du conseil d'administration de licencier M. Altman a été influencée par des préoccupations concernant la commercialisation prématurée de Q* sans en comprendre pleinement les implications.
Toutefois, Reuters n'a pas été en mesure de confirmer de manière indépendante les capacités revendiquées de Q* telles qu'elles sont décrites par les chercheurs.
En outre, Reuters n'a pas eu accès à la lettre, et le personnel chargé de la rédiger n'a pas répondu aux demandes de renseignements.
Cela ne nous laisse pas beaucoup d'éléments pour travailler. Il faut croire que le fait que presque tous les employés d'OpenAI aient plaidé pour le retour d'Altman rend peu probable le fait qu'il n'y ait eu que deux personnes qui se soient inquiétées pour Q*.
À la suite du rejet par Altman des craintes suscitées par Q*, le conseil d'administration a décidé de licencier Altman - c'est du moins ce que prétendent cette lettre et les articles de presse qui l'accompagnent.
Mais y a-t-il quelque chose de concret dans tout cela ? Ou s'agit-il simplement d'un nouveau rebondissement étrange et spéculatif dans le drame de la salle du conseil d'administration d'OpenAI ?
Qu'est-ce que Q* et comment fonctionne-t-il ?
Bien que spéculatif, Q* (Q-Star) pourrait combiner des éléments des algorithmes de recherche Q-learning et A* (A Star) optimisés par un processus appelé Reinforcement Learning from Human Feedback (RLHF) (apprentissage par renforcement à partir d'un feedback humain).
Ce n'est pas tout à fait unique, et des articles ont déjà spéculé sur des techniques liées à Q*. Ceux-ci peuvent nous donner quelques indices sur son fonctionnement.
Décortiquons chaque composant pour comprendre comment ils peuvent interagir dans Q* :
L'apprentissage en Q
L'apprentissage Q est un type d'algorithme d'apprentissage par renforcement qui existe depuis une trentaine d'années. Il est conçu pour aider un agent à apprendre les meilleures actions à entreprendre dans un état donné afin de maximiser une récompense. Pour ce faire, il apprend une fonction de valeur connue sous le nom de fonction Q, qui estime l'utilité attendue d'une action donnée dans un état donné.
Dans le contexte des modèles d'IA générative tels que ceux développés par OpenAI, l'apprentissage Q pourrait déterminer la séquence optimale de mots ou de réponses dans une conversation ou une tâche de résolution de problème.
Chaque mot ou réponse peut être considéré comme une action, et les états peuvent être le contexte ou la séquence de mots déjà générés.
Un algorithme de recherche dans Q
A* est un algorithme populaire de recherche dans les graphes, connu pour son efficacité à trouver le chemin le plus court entre un nœud de départ et un nœud d'arrivée dans un graphe.
Le fait que Q* nécessite de "vastes ressources informatiques" et soit capable de résoudre des problèmes mathématiques suggère que A* pourrait être intégré à l'apprentissage Q pour gérer des processus de raisonnement complexes à plusieurs étapes.
L'algorithme pourrait optimiser la prise de décision sur plusieurs étapes en stockant les résultats intermédiaires et en recherchant efficacement les séquences possibles d'actions (ou de mots/réponses).
Rôle de la FHLB
La RLHF consiste à former des modèles d'IA en utilisant le retour d'information humain pour guider le processus d'apprentissage. Il peut s'agir de démontrer les résultats souhaités, de corriger les erreurs et de fournir un retour d'information nuancé pour affiner la compréhension et les performances du modèle.
Dans Q*, la RLHF pourrait être utilisée pour affiner la capacité du modèle à prendre des décisions et à résoudre des problèmes, en particulier dans des scénarios complexes à plusieurs tours où la compréhension et le raisonnement nuancés sont essentiels.
C'est ainsi que Q* pourrait fonctionner, mais il ne nous dit pas vraiment comment ou pourquoi il est si alarmant, ni ne nous éclaire sur la véracité des affirmations de la lettre.
Seul l'avenir nous dira si Q* est authentique et s'il présente un risque.