L'événement I/O 2024 de Google a débuté mardi avec l'annonce de multiples nouvelles avancées en matière de produits d'IA.
OpenAI a peut-être tenté de supplanter Google avec la libération de GPT-4o lundi, mais la conférence de presse de Google I/O 2024 a été riche en annonces passionnantes.
Voici un aperçu des avancées les plus marquantes en matière d'IA, des nouveaux outils et des prototypes que Google est en train d'expérimenter.
Demander des photos
Google Photos, le service de stockage et de partage de photos de Google, sera consultable à l'aide de requêtes en langage naturel grâce à Ask Photos. Les utilisateurs peuvent déjà rechercher des objets ou des personnes spécifiques dans leurs photos, mais Ask Photos permet d'aller encore plus loin.
Sundar Pichai, PDG de Google, a montré comment vous pouviez utiliser Ask Photos pour vous rappeler le numéro de la plaque d'immatriculation de votre voiture ou pour vous informer des progrès de votre enfant en matière de natation.
Propulsé par GeminiAsk Photos comprend le contexte des images et peut extraire du texte, créer des compilations de surlignages ou répondre à des requêtes sur des images stockées.
Avec plus de 6 milliards d'images téléchargées chaque jour sur Google Photos, Ask Photos aura besoin d'une énorme fenêtre contextuelle pour être utile.
Et si vos photos pouvaient répondre à vos questions ? 🤔 A #GoogleIO Aujourd'hui, nous avons annoncé Ask Photos, une nouvelle fonctionnalité de Google Photos qui permet justement d'atteindre cet objectif. Ask Photos est la nouvelle façon de rechercher vos photos avec l'aide de Gemini. #AskPhotos https://t.co/KhPeCauFAf pic.twitter.com/3MZg55SgdD
- Google Photos (@googlephotos) 14 mai 2024
Gemini 1.5 Pro
Pichai a annoncé que Gemini 1.5 Pro avec une fenêtre contextuelle de 1 million de jetons sera disponible pour les utilisateurs de la Gemini Utilisateurs avancés. Cela équivaut à environ 1 500 pages de texte, des heures d'audio et une heure de vidéo.
Les développeurs peuvent s'inscrire sur une liste d'attente pour essayer Gemini 1.5 Pro avec une impressionnante fenêtre contextuelle de 2M qui sera bientôt disponible. Selon M. Pichai, il s'agit d'une nouvelle étape dans le parcours de Google vers l'objectif ultime d'un contexte infini.
Gemini La version 1.5 Pro a également bénéficié d'une amélioration des performances en matière de traduction, de raisonnement et de codage et sera véritablement multimodale grâce à la possibilité d'analyser les vidéos et les fichiers audio téléchargés.
"Il a fait mouche".
"Cela change tout".
"C'est une expérience époustouflante.
"J'avais l'impression d'avoir un super pouvoir.
"Ça va être génial".Écoutez les développeurs qui ont essayé Gemini 1.5 Pro avec une fenêtre contextuelle de 1 million de jetons. #GoogleIO pic.twitter.com/odOfI4lvOL
- Google (@Google) 14 mai 2024
Espace de travail Google
Le contexte élargi et les capacités multimodales permettent Gemini s'avère extrêmement utile lorsqu'il est intégré à l'espace de travail de Google.
Les utilisateurs peuvent utiliser des requêtes en langage naturel pour demander Gemini des questions relatives à leurs courriels. La démo donne l'exemple d'un parent qui demande un résumé des courriels récents de l'école de son enfant.
Gemini sera également en mesure d'extraire les points forts des réunions Google Meet d'une durée maximale d'une heure et de répondre aux questions qui s'y rapportent.
NotebookLM - Aperçu audio
Google a publié NotebookLM l'année dernière. Il permet aux utilisateurs de télécharger leurs propres notes et documents dont NotebookLM devient l'expert.
Google a fait la démonstration d'une mise à jour expérimentale appelée "Audio Overview".
Audio Overview utilise les documents sources d'entrée et génère une discussion audio basée sur le contenu. Les utilisateurs peuvent se joindre à la conversation et utiliser la parole pour interroger NotebookLM et diriger la discussion.
NotebookLM ! J'aime beaucoup ce projet, le projet Arcades alimenté par l'IA. Avec la multimodalité de Gemini Pro 1.5, il peut créer automatiquement des discussions audio sur le matériel source que vous avez ajouté à vos sources. pic.twitter.com/IhhSfj8AqR
- Dieter Bohn (@backlon) 14 mai 2024
On ne sait pas encore quand Audio Overview sera mis en place, mais il pourrait être d'une grande aide pour tous ceux qui ont besoin d'un tuteur ou d'un groupe de réflexion pour résoudre un problème.
Google a également annoncé LearnLM, une nouvelle famille de modèles basés sur la technologie Gemini et perfectionné pour l'apprentissage et l'éducation. LearnLM permettra à NotebookLM, YouTube, Search et d'autres outils éducatifs d'être plus interactifs.
La démo était très impressionnante, mais il semble déjà que certaines des les erreurs de Google avec son Gemini des vidéos de diffusion se sont glissées dans cet événement.
La démo de notebooklm n'est pas en temps réel. J'aurais aimé qu'ils précisent cette attente sans l'enterrer dans une note de bas de page dans la police la plus minuscule possible. pic.twitter.com/tGN5i3fsVD
- Delip Rao e/σ (@deliprao) 14 mai 2024
Les agents d'intelligence artificielle et le projet Astra
Selon M. Pichai, les agents d'IA alimentés par Gemini seront bientôt en mesure de s'occuper de nos tâches quotidiennes banales. Google développe des prototypes d'agents capables de fonctionner sur toutes les plateformes et tous les navigateurs.
L'exemple donné par Pichai est celui d'un utilisateur qui donne des instructions à Gemini pour renvoyer une paire de chaussures et que l'agent doive traiter plusieurs courriels pour trouver les détails pertinents, enregistrer le retour auprès du magasin en ligne et réserver l'enlèvement auprès d'un service de messagerie.
Demis Hassabis a présenté le Projet Astra, le prototype d'assistant conversationnel de Google. La démonstration de ses capacités multimodales a donné un aperçu de l'avenir où une IA répondra aux questions en temps réel sur la base d'une vidéo en direct et se souviendra des détails d'une vidéo antérieure.
M. Hassabis a indiqué que certaines de ces fonctionnalités seraient mises en place dans le courant de l'année.
Nous travaillons depuis longtemps à la mise au point d'un agent d'intelligence artificielle universel qui puisse être véritablement utile dans la vie de tous les jours. Aujourd'hui, à #GoogleIO nous avons présenté nos derniers progrès en la matière : Le projet Astra. Voici une vidéo de notre prototype, capturée en temps réel. pic.twitter.com/TSGDJZVslg
- Demis Hassabis (@demishassabis) 14 mai 2024
IA générative
Google nous a donné un aperçu des outils d'IA génératrice d'images, de musique et de vidéos sur lesquels il travaille.
Google a présenté Imagen 3, son générateur d'images le plus avancé. Il répondrait de manière plus précise aux détails des invites nuancées et fournirait des images plus photoréalistes.
Selon M. Hassabis, Imagen 3 est le "meilleur modèle de Google à ce jour pour le rendu du texte, ce qui a été un défi pour les modèles de génération d'images".
Aujourd'hui, nous présentons Imagen 3, DeepMind?ref_src=twsrc%5Etfw”>@GoogleDeepMindLe modèle de génération d'images le plus performant à ce jour. Il comprend les invites comme les gens écrivent, crée des images plus photoréalistes et constitue notre meilleur modèle de rendu de texte. #GoogleIO pic.twitter.com/6bjidsz6pJ
- Google (@Google) 14 mai 2024
Music AI Sandbox est un générateur de musique IA conçu pour être un outil professionnel de création musicale collaborative, plutôt qu'un générateur de pistes complètes. Il s'agit d'un excellent exemple de la manière dont l'IA peut être utilisée pour faire de la bonne musique avec un humain qui dirige le processus créatif.
Veo est le générateur de vidéos de Google qui transforme des textes, des images ou des vidéos en clips d'une minute à 1080p. Il permet également d'éditer des vidéos à l'aide d'invites textuelles. Veo sera-t-il aussi performant que Sora?
Google va déployer son filigrane numérique SynthID pour le texte, l'audio, les images et la vidéo.
Trillium
Toutes ces nouvelles capacités multimodales nécessitent une grande puissance de traitement pour entraîner les modèles. M. Pichai a dévoilé Trillium, la 6e itération de ses unités de traitement tensoriel (TPU). Trillium offre une puissance de calcul quatre fois supérieure à celle de la génération TPU précédente.
Trillium sera disponible pour les clients du cloud computing de Google dans le courant de l'année. GPU Blackwell disponible au début de l'année 2025.
Recherche d'IA
Google intégrera Gemini dans sa plateforme de recherche, alors qu'elle s'oriente vers l'utilisation de l'IA générative pour répondre aux requêtes.
Grâce à la vue d'ensemble de l'IA, une demande de recherche aboutit à une réponse complète provenant de plusieurs sources en ligne. Google Search devient ainsi davantage un assistant de recherche que la simple recherche d'un site web susceptible de contenir la réponse.
Gemini permet à Google Search d'utiliser un raisonnement en plusieurs étapes pour décomposer des questions complexes en plusieurs parties et renvoyer les informations les plus pertinentes à partir de plusieurs sources.
GeminiLa compréhension de la vidéo par Google permettra bientôt aux utilisateurs d'utiliser une vidéo pour effectuer une recherche sur Google.
Ce sera une bonne chose pour les utilisateurs de Google Search, mais cela se traduira probablement par une baisse importante du trafic sur les sites à partir desquels Google obtient les informations.
Il s'agit d'une recherche dans le Gemini ère. #GoogleIO pic.twitter.com/JxldNjbqyn
- Google (@Google) 14 mai 2024
Vous pourrez également poser des questions à l'aide de vidéos, directement dans le moteur de recherche. Prochainement. #GoogleIO pic.twitter.com/zFVu8yOWI1
- Google (@Google) 14 mai 2024
Gemini 1.5 Flash
Google a annoncé un modèle léger, moins cher et plus rapide appelé Gemini 1.5 Flash. Google précise que ce modèle est "optimisé pour les tâches plus restreintes ou à haute fréquence pour lesquelles la rapidité du temps de réponse du modèle est la plus importante".
Gemini 1.5 Flash coûtera $0,35 par million de jetons, soit beaucoup moins que les $7 qu'il faudrait payer pour utiliser 1.5 Flash. Gemini 1,5 Pro.
Chacune de ces avancées et de ces nouveaux produits mérite un article à part entière. Nous publierons des mises à jour au fur et à mesure que de nouvelles informations seront disponibles ou que nous aurons l'occasion de les essayer nous-mêmes.