Google I/O 2024 - Hier sind die KI-Highlights, die Google enthüllt hat

Mai 15, 2024

  • Auf der Google I/O 2024 wurden neue Google-KI-Produkte und Prototypen vorgestellt
  • Gemini Pro 1.5 erhält ein 2M-Kontext-Upgrade und wird in Google Workspaces integriert
  • Es wurden mehrere Tools mit multimodalen Funktionen und neue Bild-, Musik- und Videogeneratoren vorgestellt

Die Google I/O 2024 hat am Dienstag mit der Ankündigung mehrerer neuer KI-Produkte begonnen.

OpenAI hat vielleicht versucht, Google mit dem Freisetzung von GPT-4o am Montag, aber die Google I/O 2024 Keynote war voll von spannenden Ankündigungen.

Im Folgenden finden Sie einen Überblick über die wichtigsten KI-Fortschritte, neuen Tools und Prototypen, mit denen Google experimentiert.

Fotos fragen

Google Fotos, Googles Fotospeicher- und -freigabedienst, wird mit Ask Photos über natürlichsprachliche Suchanfragen durchsuchbar sein. Nutzer können bereits nach bestimmten Objekten oder Personen in ihren Fotos suchen, aber Ask Photos hebt dies auf die nächste Stufe.

Google-CEO Sundar Pichai zeigte, wie man Ask Photos nutzen kann, um sich an das Nummernschild seines Autos zu erinnern oder Feedback über die Schwimmfähigkeiten eines Kindes zu erhalten.

Angetrieben durch GeminiAsk Photos versteht den Kontext von Bildern und kann Text extrahieren, Zusammenstellungen von Markierungen erstellen oder Abfragen zu gespeicherten Bildern beantworten.

Bei mehr als 6 Milliarden Bildern, die täglich auf Google Fotos hochgeladen werden, benötigt Ask Photos ein großes Kontextfenster, um nützlich zu sein.

Gemini 1.5 Profi

Pichai kündigte an, dass Gemini 1.5 Profi mit einem 1M-Token-Kontextfenster zur Verfügung stehen Gemini Fortgeschrittene Benutzer. Das entspricht etwa 1.500 Seiten Text, mehreren Stunden Audio und einer ganzen Stunde Video.

Entwickler können sich für eine Warteliste anmelden, um zu testen Gemini 1.5 Pro mit einem beeindruckenden 2M-Kontextfenster, das bald allgemein verfügbar sein wird. Pichai sagt, dies sei der nächste Schritt auf Googles Reise zum ultimativen Ziel des unendlichen Kontexts.

Gemini 1.5 Pro hat auch eine Leistungssteigerung in den Bereichen Übersetzung, Argumentation und Codierung erfahren und wird mit der Fähigkeit, hochgeladene Video- und Audiodaten zu analysieren, wirklich multimodal sein.

Google Arbeitsbereich

Der erweiterte Kontext und die multimodalen Möglichkeiten ermöglichen Gemini bei der Integration mit Google Workspace als äußerst nützlich erweisen.

Benutzer können mit natürlichsprachlichen Abfragen Folgendes fragen Gemini Fragen im Zusammenhang mit ihren E-Mails. In der Demo wurde das Beispiel eines Elternteils angeführt, der um eine Zusammenfassung der letzten E-Mails von der Schule seines Kindes bat.

Gemini wird auch in der Lage sein, Highlights aus den bis zu einer Stunde dauernden Google Meet-Meetings zu extrahieren und Fragen dazu zu beantworten.

NotebookLM - Audio-Übersicht

Google veröffentlicht NotebookLM letztes Jahr. Es ermöglicht den Benutzern, ihre eigenen Notizen und Dokumente hochzuladen, für die NotebookLM zum Experten wird.

Dies ist äußerst nützlich als Rechercheführer oder Tutor, und Google demonstrierte eine experimentelle Verbesserung namens Audio Overview.

Audio Overview verwendet die Quelldokumente und erzeugt eine Audio-Diskussion auf der Grundlage des Inhalts. Die Benutzer können sich an der Unterhaltung beteiligen und NotebookLM per Sprache abfragen und die Diskussion steuern.

Es ist noch nicht bekannt, wann Audio Overview eingeführt wird, aber es könnte eine große Hilfe für alle sein, die einen Tutor oder einen Gesprächspartner suchen, um ein Problem zu lösen.

Google kündigte außerdem LearnLM an, eine neue Familie von Modellen, die auf Gemini und auf das Lernen und die Bildung abgestimmt. LearnLM wird NotebookLM, YouTube, Search und andere Bildungstools interaktiver machen.

Die Demo war sehr beeindruckend, aber schon jetzt scheint es, dass einige der Fehler, die Google gemacht hat mit seiner ursprünglichen Gemini Release-Videos in diese Veranstaltung eingeschlichen.

KI-Agenten und Projekt Astra

Pichai sagt, dass KI-Agenten, die von Gemini werden bald in der Lage sein, unsere alltäglichen Aufgaben zu erledigen. Google entwickelt derzeit Prototypen von Agenten, die plattform- und browserübergreifend arbeiten können.

Das Beispiel, das Pichai anführte, war die Anweisung eines Benutzers Gemini Wenn man ein Paar Schuhe zurückgeben möchte, muss der Mitarbeiter mehrere E-Mails abarbeiten, um die relevanten Details zu finden, die Rückgabe beim Online-Shop zu protokollieren und die Abholung durch einen Kurierdienst zu buchen.

Demis Hassabis stellte Project Astra vor, den Prototyp des konversationellen KI-Assistenten von Google. Die Demo seiner multimodalen Fähigkeiten gab einen Einblick in die Zukunft, in der eine KI Fragen in Echtzeit auf der Grundlage von Live-Videos beantwortet und sich an Details aus früheren Videos erinnert.

Hassabis sagte, dass einige dieser Funktionen noch in diesem Jahr eingeführt werden sollen.

Generative KI

Google gab uns einen Einblick in die generativen KI-Tools für Bilder, Musik und Videos, an denen das Unternehmen arbeitet.

Google hat Imagen 3 vorgestellt, seinen fortschrittlichsten Bildgenerator. Er reagiert Berichten zufolge genauer auf Details in nuancierten Eingabeaufforderungen und liefert fotorealistischere Bilder.

Hassabis sagte, Imagen 3 sei Googles "bisher bestes Modell für die Darstellung von Text, was eine Herausforderung für Bilderzeugungsmodelle war".

Music AI Sandbox ist ein KI-Musikgenerator, der als professionelles Werkzeug für die kollaborative Musikproduktion konzipiert ist und nicht als vollständiger Trackgenerator. Dies scheint ein großartiges Beispiel dafür zu sein, wie KI eingesetzt werden kann, um gute Musik zu machen, wobei ein Mensch den kreativen Prozess steuert.

Veo ist der Videogenerator von Google, der Text-, Bild- oder Videoaufforderungen in minutenlange Clips mit 1080p umwandelt. Es ermöglicht auch die Eingabe von Textaufforderungen zur Videobearbeitung. Wird Veo so gut sein wie Sora?

Google wird sein digitales Wasserzeichen SynthID für Text, Audio, Bilder und Video einführen.

 

Trillium

All diese neuen multimodalen Fähigkeiten benötigen eine Menge Rechenleistung, um die Modelle zu trainieren. Pichai stellte Trillium vor, die 6. Iteration seiner Tensor Processing Units (TPUs). Generation seiner Tensor Processing Units (TPUs) vor. Trillium bietet mehr als das Vierfache der Rechenleistung der vorherigen TPU-Generation.

Trillium wird im Laufe dieses Jahres für Googles Cloud Computing-Kunden verfügbar sein und die NVIDIA Blackwell-GPUs Anfang 2025 verfügbar sein.

AI-Suche

Google wird integrieren Gemini in seine Suchplattform integriert, um die generative KI bei der Beantwortung von Suchanfragen zu nutzen.

Mit AI Overview erhält man auf eine Suchanfrage eine umfassende Antwort, die aus mehreren Online-Quellen zusammengestellt wird. Dadurch wird die Google-Suche mehr zu einem Recherche-Assistenten als zu einem einfachen Auffinden einer Website, die die Antwort enthalten könnte.

Gemini ermöglicht es der Google-Suche, komplexe, mehrteilige Fragen in mehrere Schritte zu zerlegen und die relevantesten Informationen aus mehreren Quellen zu finden.

GeminiDas Videoverständnis von Google wird es den Nutzern bald ermöglichen, ein Video für die Google-Suche zu verwenden.

Für die Nutzer der Google-Suche ist das großartig, aber für die Websites, von denen Google die Informationen bezieht, wird es wahrscheinlich zu viel weniger Verkehr führen.

Gemini 1.5 Blitzlicht

Google kündigte ein leichtes, billigeres und schnelleres Modell namens Gemini 1.5 Flash. Google sagt, das Modell sei "für engere oder hochfrequente Aufgaben optimiert, bei denen die Geschwindigkeit der Reaktionszeit des Modells am wichtigsten ist."

Gemini 1,5 Flash kostet $0,35 pro Million Token, also viel weniger als die $7, die man für die Nutzung von Flash bezahlen müsste. Gemini 1.5 Pro.

Jede dieser Weiterentwicklungen und neuen Produkte verdient einen eigenen Beitrag. Wir werden Sie auf dem Laufenden halten, sobald mehr Informationen verfügbar sind oder wir sie selbst ausprobieren können.

Join The Future


HEUTE ABONNIEREN

Klar, prägnant, umfassend. Behalten Sie den Überblick über KI-Entwicklungen mit DailyAI

Eugene van der Watt

Eugene kommt aus der Elektronikbranche und liebt alles, was mit Technik zu tun hat. Wenn er eine Pause vom Konsum von KI-Nachrichten einlegt, findet man ihn am Snookertisch.

×

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus

Melden Sie sich für unseren wöchentlichen Newsletter an und erhalten Sie exklusiven Zugang zum neuesten eBook von DailyAI: 'Mastering AI Tools: Ihr Leitfaden für mehr Produktivität im Jahr 2024".

*Mit der Anmeldung zu unserem Newsletter akzeptieren Sie unsere Datenschutzbestimmungen und unsere Bedingungen und Konditionen