OpenAI vient de présenter son nouveau modèle phare, le GPT-4o, doté d'incroyables capacités de reconnaissance vocale et de traduction.
En tant que PDG, Sam Altman lui-même, nous savions qu'il n'y avait pas d'autre solution que d'aller à l'école. OpenAILa dernière "mise à jour de printemps" de la Commission européenne n'avait aucun rapport avec le programme GPT-5 ou la recherche d'IA.
Mais aujourd'hui, à 10 heures du matin, des centaines de milliers de personnes ont participé à la présentation en direct du nouveau modèle. Mira Murati, directrice de la technologie, a démontré les avantages de ce modèle par rapport à son prédécesseur, le GPT-4.
Les principales annonces faites lors de la session de démonstration sont les suivantes :
- GPT-4o (le o signifie omni) a l'intention de remplacer le GPT-4, avec OpenAI le qualifiant de nouveau modèle phare et fondateur.
- Bien qu'elle soit largement similaire à la GPT-4, GPT-4o offre un traitement multilingue et audiovisuel de qualité supérieure. Il peut traiter et traduire des données audio en temps quasi réel. Des tests ultérieurs ont montré que la GPT-4o était moins performante que la GPT-4 pour certaines "tâches difficiles".
- OpenAI est en train de faire GPT-4o disponible gratuitement, avec des limites. Les utilisateurs pro bénéficient toujours de la priorité et d'un plafond de messages plus élevé.
- OpenAI publie également une version de bureau de ChatGPT, d'abord pour Mac uniquement, qui est déployée immédiatement.
- Les TPG personnalisés deviendront également accessibles aux utilisateurs libres.
- GPT-4o et ses fonctions vocales seront progressivement déployées au cours des semaines et des mois à venir.
GPT-4oTraduction audio en temps réel
Le titre qui a fait couler beaucoup d'encre est l'impressionnant traitement et la traduction audio du GPT-4o, qui s'effectuent quasiment en temps réel.
Les démonstrations ont montré que l'IA s'engageait dans des conversations vocales remarquablement naturelles, offrant des traductions immédiates, racontant des histoires et donnant des conseils de codage.
Par exemple, le modèle peut analyser l'image d'un menu en langue étrangère, la traduire et fournir des informations et des recommandations culturelles.
OpenAI vient de faire la démonstration de son nouveau modèle GPT-4o qui effectue des traductions en temps réel 🤯 pic.twitter.com/Cl0gp9v3kN
- Tom Warren (@tomwarren) 13 mai 2024
Il peut également reconnaître les émotions grâce à la respiration, aux expressions et à d'autres indices visuels.
Clip d'une conversation en temps réel avec le GPT4-o fonctionnant à l'électricité. ChatGPT application
NOUVEAU : au lieu de se contenter de transformer SPEECH en texte, GPT-4o peut également comprendre et étiqueter d'autres caractéristiques de l'audio, comme la RESPIRATION et l'EMOTION. Je ne suis pas sûr de la manière dont cela est exprimé dans la réponse du modèle.#openai https://t.co/CpvCkjI0iA pic.twitter.com/24C8rhMFAw
- Andrew Gao (@itsandrewgao) 13 mai 2024
Les capacités de reconnaissance émotionnelle de GPT-4o susciteront probablement la controverse une fois que la poussière sera retombée.
L'IA émotionnelle pourrait évoluer vers des cas d'utilisation potentiellement néfastes qui reposent sur le mimétisme humain, tels que les "deep fakes", l'ingénierie sociale, etc.
Une autre compétence impressionnante démontrée par l'équipe est l'assistance au codage en temps réel fournie par la voix.
Avec le GPT-4o/ChatGPT vous pouvez avoir un compagnon de codage (cercle noir) qui vous parle et voit ce que vous voyez !#openai Fil d'annonces ! https://t.co/CpvCkjI0iA pic.twitter.com/Tfh81mBHCv
- Andrew Gao (@itsandrewgao) 13 mai 2024
Une démo a même vu deux instances du modèle chanter l'une pour l'autre.
Cette démo de deux GPT-4o chantant l'un pour l'autre est l'une des choses les plus folles que j'aie jamais vues. pic.twitter.com/UXFfbIpuF6
- Matt Shumer (@mattshumer_) 13 mai 2024
L'essentiel de la OpenAIL'objectif de l'entreprise est de rendre la multimodalité de l'IA réellement utile dans les scénarios quotidiens, en remettant en question des outils comme Google Translate.
Un autre point essentiel est que ces démonstrations sont fidèles à la réalité. OpenAI a souligné que "toutes les vidéos sur cette page sont en temps réel", faisant peut-être allusion à Google, qui a fortement édité son Gemini vidéo de démonstration d'exagérer ses compétences multimodales.
Grâce au GPT-4o, les applications multimodales de l'IA pourraient passer du statut de nouveauté enfouie dans les interfaces de l'IA à celui d'outil avec lequel les utilisateurs moyens peuvent interagir au quotidien.
Bien que la démonstration ait été impressionnante, il s'agit toujours d'une démo, et les résultats obtenus par les utilisateurs moyens "dans la nature" révéleront vraiment la compétence de ces fonctions.
Outre le traitement et la traduction de la voix en temps réel, qui occupent le devant de la scène, le fait que l'on ne puisse pas se passer de la technologie de l'information et de la communication (TIC) est également un facteur important. OpenAI est de libérer ce nouveau modèle de toute contrainte.
Wien que le GPT-4o ne soit qu'un GPT-4 légèrement amélioré, il permettra à quiconque de disposer d'un modèle d'IA de qualité supérieure, ce qui mettra des millions de personnes sur un pied d'égalité dans le monde entier.
Vous pouvez regarder l'annonce et la démo ci-dessous :
Tout ce que nous savons sur le GPT-4o
Voici un résumé de tout ce que nous savons sur le GPT-4o à ce jour :
- Intégration multimodale: GPT-4o traite et génère rapidement des données textuelles, audio et des images, ce qui permet des interactions dynamiques entre différents formats.
- Réponses en temps réel: Le modèle présente des temps de réponse impressionnants, comparables à la vitesse de réaction humaine lors d'une conversation, avec des réponses audio qui commencent dès 232 millisecondes.
- Capacités linguistiques et de codage: GPT-4o égale les performances de GPT-4 Turbo en anglais et dans les tâches de codage et les surpasse dans le traitement de textes non anglais.
- Améliorations audiovisuelles: Par rapport aux modèles précédents, le GPT-4o fait preuve d'une meilleure compréhension des tâches visuelles et audio, améliorant ainsi sa capacité à interagir avec les contenus multimédias.
- Interactions naturelles: Les démonstrations comprenaient deux GPT-4os chantant une chanson, aidant à la préparation des entretiens, jouant à des jeux tels que pierre-papier-ciseaux, et même créant de l'humour avec des blagues de papa.
- Réduction des coûts pour les développeurs: OpenAI a réduit le coût pour les développeurs utilisant GPT-4o de 50% et doublé sa vitesse de traitement.
- Performances de référence: GPT-4o benchmarks exceller dans les tâches multilingues, audio et visuelles, bien que des tests indépendants confirment qu'il est derrière le GPT-4 pour certaines tâches de codage, de mathématiques et d'autres "tâches difficiles".
GPT-4o est une annonce significative pour OpenAI, particularly as its the most powerful free closed model available by a sizeable margin.
Cela pourrait marquer le début d'une ère d'IA multi-modalités pratiques et utiles que les gens commenceront à utiliser en masse.
Il s'agirait d'une étape importante pour l'entreprise et pour le secteur de l'IA générative dans son ensemble.