OpenAI a dévoilé des fonctions vocales et d'image pour ChatGPT, qui seront déployées dans les semaines à venir pour l'application et le navigateur.
On peut dire qu'OpenAI s'est reposé sur ses lauriers avec ChatGPT, qui n'intègre pas le même niveau de fonctionnalité que ses concurrents Claude d'Anthropic et Bard de Google.
OpenAI a ajouté une fonction de recherche dans le navigateur pour ChatGPT plus tôt dans l'année, permettant à l'outil d'accéder à Internet, mais elle n'a pas particulièrement bien fonctionné et a été abandonnée. supprimée pour avoir potentiellement violé les droits d'auteur en "imprimant" des textes provenant de sites web payants.
Cela dit, le GPT-4 est de loin le grand modèle de langage (LLM) le plus complexe qui soit, ce qui a permis à l'OpenAI de rester au sommet de la hiérarchie de l'IA générative.
OpenAI a maintenant renforcé les fonctionnalités du chatbot tout en maintenant ChatGPT sous les feux de la rampe, alors que la concurrence s'intensifie dans le secteur.
Quoi de neuf ?
OpenAI ajoute les éléments suivants à ChatGPT :
- Interaction vocale: Les utilisateurs peuvent désormais s'adresser directement à ChatGPT, et en retour, l'IA peut répondre de manière audible en utilisant l'une de ses cinq voix synthétiques. Cette fonction vocale est étayée par un modèle avancé de synthèse vocale qu'OpenAI a formé à partir d'échantillons d'acteurs vocaux. ChatGPT s'appuie sur ChuchotementLe système de reconnaissance vocale OpenAI est un système open-source de reconnaissance de la parole.
- Interaction avec les images: Au-delà de la voix, les utilisateurs peuvent désormais fournir des images à ChatGPT, ajoutant ainsi une dimension visuelle à la conversation. Par exemple, si un utilisateur partage une photo d'un appareil électroménager en panne, ChatGPT peut potentiellement diagnostiquer le problème et suggérer des solutions. Sur les plateformes mobiles, un outil de dessin a été intégré, permettant aux utilisateurs d'encercler ou de pointer des zones spécifiques d'une image sur lesquelles l'IA se concentrera. Les capacités d'image sont pilotées par une version multimodale des modèles GPT-3.5 et GPT-4, qui ont été affinés pour interpréter et raisonner sur des entrées visuelles.
Grâce à ces nouveaux ajouts, les utilisateurs peuvent avoir une conversation avec le chatbot et lui demander des informations spécifiques sur le contenu des images, entre autres.
Il ne fait aucun doute que la communauté trouvera des moyens intéressants de tester les limites du nouveau ChatGPT.
OpenAI a publié la démo promotionnelle suivante sur X :
Utilisez votre voix pour engager une conversation avec ChatGPT. Parlez-lui en déplacement, demandez-lui de vous raconter une histoire à l'heure du coucher ou réglez un débat à table.
Son sur 🔊 pic.twitter.com/3tuWzX0wtS
- OpenAI (@OpenAI) 25 septembre 2023
Risques et plan de déploiement
Les nouvelles fonctionnalités s'accompagnent de nouveaux risques. Par exemple, la technologie vocale pourrait être utilisée à mauvais escient pour usurper l'identité de personnalités publiques. Par mesure de précaution, OpenAI a limité la fonction vocale au seul chat conversationnel.
En ce qui concerne les images, OpenAI a délibérément limité la capacité de ChatGPT à analyser directement les personnes sur les photos.
OpenAI prévoit un déploiement progressif, les utilisateurs de ChatGPT Plus et Enterprise étant les premiers à y avoir accès.
La fonction vocale sera disponible sur les applications mobiles, tandis que les fonctions d'image seront accessibles sur toutes les plateformes.
L'annonce d'OpenAI s'inscrit dans un ensemble de publications récentes et imminentes de produits d'IA générative, y compris des outils de YouTube, Le copilote de Microsoft d'outils et d'assistants d'IA, ainsi qu'une importante mise à jour de Google Bard.