Google I/O 2024 - Voici les points forts de l'IA révélés par Google

15 mai 2024

  • L'événement Google I/O 2024 a été l'occasion d'annoncer de nouveaux produits et prototypes de Google AI.
  • Gemini Pro 1.5 bénéficiera d'une mise à jour de 2 millions de contextes et sera intégré à Google Workspaces.
  • Plusieurs outils dotés de capacités multimodales et de nouveaux générateurs d'images, de musique et de vidéos ont été présentés.

L'événement I/O 2024 de Google a débuté mardi avec l'annonce de multiples nouvelles avancées en matière de produits d'IA.

OpenAI a peut-être tenté de supplanter Google avec la libération de GPT-4o lundi, mais la conférence de presse de Google I/O 2024 a été riche en annonces passionnantes.

Voici un aperçu des avancées les plus marquantes en matière d'IA, des nouveaux outils et des prototypes que Google est en train d'expérimenter.

Demander des photos

Google Photos, le service de stockage et de partage de photos de Google, sera consultable à l'aide de requêtes en langage naturel grâce à Ask Photos. Les utilisateurs peuvent déjà rechercher des objets ou des personnes spécifiques dans leurs photos, mais Ask Photos permet d'aller encore plus loin.

Sundar Pichai, PDG de Google, a montré comment vous pouviez utiliser Ask Photos pour vous rappeler le numéro de la plaque d'immatriculation de votre voiture ou pour vous informer des progrès de votre enfant en matière de natation.

Propulsé par GeminiAsk Photos comprend le contexte des images et peut extraire du texte, créer des compilations de surlignages ou répondre à des requêtes sur des images stockées.

Avec plus de 6 milliards d'images téléchargées chaque jour sur Google Photos, Ask Photos aura besoin d'une énorme fenêtre contextuelle pour être utile.

Gemini 1.5 Pro

Pichai a annoncé que Gemini 1.5 Pro avec une fenêtre contextuelle de 1 million de jetons sera disponible pour les utilisateurs de la Gemini Utilisateurs avancés. Cela équivaut à environ 1 500 pages de texte, des heures d'audio et une heure de vidéo.

Les développeurs peuvent s'inscrire sur une liste d'attente pour essayer Gemini 1.5 Pro avec une impressionnante fenêtre contextuelle de 2M qui sera bientôt disponible. Selon M. Pichai, il s'agit d'une nouvelle étape dans le parcours de Google vers l'objectif ultime d'un contexte infini.

Gemini La version 1.5 Pro a également bénéficié d'une amélioration des performances en matière de traduction, de raisonnement et de codage et sera véritablement multimodale grâce à la possibilité d'analyser les vidéos et les fichiers audio téléchargés.

Espace de travail Google

Le contexte élargi et les capacités multimodales permettent Gemini s'avère extrêmement utile lorsqu'il est intégré à l'espace de travail de Google.

Les utilisateurs peuvent utiliser des requêtes en langage naturel pour demander Gemini des questions relatives à leurs courriels. La démo donne l'exemple d'un parent qui demande un résumé des courriels récents de l'école de son enfant.

Gemini sera également en mesure d'extraire les points forts des réunions Google Meet d'une durée maximale d'une heure et de répondre aux questions qui s'y rapportent.

NotebookLM - Aperçu audio

Google a publié NotebookLM l'année dernière. Il permet aux utilisateurs de télécharger leurs propres notes et documents dont NotebookLM devient l'expert.

Google a fait la démonstration d'une mise à jour expérimentale appelée "Audio Overview".

Audio Overview utilise les documents sources d'entrée et génère une discussion audio basée sur le contenu. Les utilisateurs peuvent se joindre à la conversation et utiliser la parole pour interroger NotebookLM et diriger la discussion.

On ne sait pas encore quand Audio Overview sera mis en place, mais il pourrait être d'une grande aide pour tous ceux qui ont besoin d'un tuteur ou d'un groupe de réflexion pour résoudre un problème.

Google a également annoncé LearnLM, une nouvelle famille de modèles basés sur la technologie Gemini et perfectionné pour l'apprentissage et l'éducation. LearnLM permettra à NotebookLM, YouTube, Search et d'autres outils éducatifs d'être plus interactifs.

La démo était très impressionnante, mais il semble déjà que certaines des les erreurs de Google avec son Gemini des vidéos de diffusion se sont glissées dans cet événement.

Les agents d'intelligence artificielle et le projet Astra

Selon M. Pichai, les agents d'IA alimentés par Gemini seront bientôt en mesure de s'occuper de nos tâches quotidiennes banales. Google développe des prototypes d'agents capables de fonctionner sur toutes les plateformes et tous les navigateurs.

L'exemple donné par Pichai est celui d'un utilisateur qui donne des instructions à Gemini pour renvoyer une paire de chaussures et que l'agent doive traiter plusieurs courriels pour trouver les détails pertinents, enregistrer le retour auprès du magasin en ligne et réserver l'enlèvement auprès d'un service de messagerie.

Demis Hassabis a présenté le Projet Astra, le prototype d'assistant conversationnel de Google. La démonstration de ses capacités multimodales a donné un aperçu de l'avenir où une IA répondra aux questions en temps réel sur la base d'une vidéo en direct et se souviendra des détails d'une vidéo antérieure.

M. Hassabis a indiqué que certaines de ces fonctionnalités seraient mises en place dans le courant de l'année.

IA générative

Google nous a donné un aperçu des outils d'IA génératrice d'images, de musique et de vidéos sur lesquels il travaille.

Google a présenté Imagen 3, son générateur d'images le plus avancé. Il répondrait de manière plus précise aux détails des invites nuancées et fournirait des images plus photoréalistes.

Selon M. Hassabis, Imagen 3 est le "meilleur modèle de Google à ce jour pour le rendu du texte, ce qui a été un défi pour les modèles de génération d'images".

Music AI Sandbox est un générateur de musique IA conçu pour être un outil professionnel de création musicale collaborative, plutôt qu'un générateur de pistes complètes. Il s'agit d'un excellent exemple de la manière dont l'IA peut être utilisée pour faire de la bonne musique avec un humain qui dirige le processus créatif.

Veo est le générateur de vidéos de Google qui transforme des textes, des images ou des vidéos en clips d'une minute à 1080p. Il permet également d'éditer des vidéos à l'aide d'invites textuelles. Veo sera-t-il aussi performant que Sora?

Google va déployer son filigrane numérique SynthID pour le texte, l'audio, les images et la vidéo.

 

Trillium

Toutes ces nouvelles capacités multimodales nécessitent une grande puissance de traitement pour entraîner les modèles. M. Pichai a dévoilé Trillium, la 6e itération de ses unités de traitement tensoriel (TPU). Trillium offre une puissance de calcul quatre fois supérieure à celle de la génération TPU précédente.

Trillium sera disponible pour les clients du cloud computing de Google dans le courant de l'année. GPU Blackwell disponible au début de l'année 2025.

Recherche d'IA

Google intégrera Gemini dans sa plateforme de recherche, alors qu'elle s'oriente vers l'utilisation de l'IA générative pour répondre aux requêtes.

Grâce à la vue d'ensemble de l'IA, une demande de recherche aboutit à une réponse complète provenant de plusieurs sources en ligne. Google Search devient ainsi davantage un assistant de recherche que la simple recherche d'un site web susceptible de contenir la réponse.

Gemini permet à Google Search d'utiliser un raisonnement en plusieurs étapes pour décomposer des questions complexes en plusieurs parties et renvoyer les informations les plus pertinentes à partir de plusieurs sources.

GeminiLa compréhension de la vidéo par Google permettra bientôt aux utilisateurs d'utiliser une vidéo pour effectuer une recherche sur Google.

Ce sera une bonne chose pour les utilisateurs de Google Search, mais cela se traduira probablement par une baisse importante du trafic sur les sites à partir desquels Google obtient les informations.

Gemini 1.5 Flash

Google a annoncé un modèle léger, moins cher et plus rapide appelé Gemini 1.5 Flash. Google précise que ce modèle est "optimisé pour les tâches plus restreintes ou à haute fréquence pour lesquelles la rapidité du temps de réponse du modèle est la plus importante".

Gemini 1.5 Flash coûtera $0,35 par million de jetons, soit beaucoup moins que les $7 qu'il faudrait payer pour utiliser 1.5 Flash. Gemini 1,5 Pro.

Chacune de ces avancées et de ces nouveaux produits mérite un article à part entière. Nous publierons des mises à jour au fur et à mesure que de nouvelles informations seront disponibles ou que nous aurons l'occasion de les essayer nous-mêmes.

Rejoindre l'avenir


SOUSCRIRE AUJOURD'HUI

Clair, concis, complet. Maîtrisez les développements de l'IA avec DailyAI

Eugène van der Watt

Eugene a une formation d'ingénieur en électronique et adore tout ce qui touche à la technologie. Lorsqu'il fait une pause dans sa consommation d'informations sur l'IA, vous le trouverez à la table de snooker.

×

PDF GRATUIT EXCLUSIF
Gardez une longueur d'avance avec DailyAI

Inscrivez-vous à notre newsletter hebdomadaire et recevez un accès exclusif au dernier eBook de DailyAI : 'Mastering AI Tools : Your 2024 Guide to Enhanced Productivity" (Maîtriser les outils de l'IA : votre guide 2024 pour une meilleure productivité).

*En vous abonnant à notre lettre d'information, vous acceptez nos conditions d'utilisation. Politique de confidentialité et notre Conditions générales d'utilisation