Die Google I/O 2024 hat am Dienstag mit der Ankündigung mehrerer neuer KI-Produkte begonnen.
OpenAI hat vielleicht versucht, Google mit dem Freisetzung von GPT-4o am Montag, aber die Google I/O 2024 Keynote war voll von spannenden Ankündigungen.
Im Folgenden finden Sie einen Überblick über die wichtigsten KI-Fortschritte, neuen Tools und Prototypen, mit denen Google experimentiert.
Fotos fragen
Google Fotos, Googles Fotospeicher- und -freigabedienst, wird mit Ask Photos über natürlichsprachliche Suchanfragen durchsuchbar sein. Nutzer können bereits nach bestimmten Objekten oder Personen in ihren Fotos suchen, aber Ask Photos hebt dies auf die nächste Stufe.
Google-CEO Sundar Pichai zeigte, wie man Ask Photos nutzen kann, um sich an das Nummernschild seines Autos zu erinnern oder Feedback über die Schwimmfähigkeiten eines Kindes zu erhalten.
Angetrieben durch GeminiAsk Photos versteht den Kontext von Bildern und kann Text extrahieren, Zusammenstellungen von Markierungen erstellen oder Abfragen zu gespeicherten Bildern beantworten.
Bei mehr als 6 Milliarden Bildern, die täglich auf Google Fotos hochgeladen werden, benötigt Ask Photos ein großes Kontextfenster, um nützlich zu sein.
Was wäre, wenn Ihre Fotos Ihre Fragen beantworten könnten? 🤔 Am #GoogleIO heute haben wir Ask Photos angekündigt, eine neue Google Fotos-Funktion, die genau das tut. Ask Photos ist die neue Möglichkeit, Ihre Fotos mit Hilfe von Gemini. #AskFotos https://t.co/KhPeCauFAf pic.twitter.com/3MZg55SgdD
- Google Fotos (@googlephotos) 14. Mai 2024
Gemini 1.5 Profi
Pichai kündigte an, dass Gemini 1.5 Profi mit einem 1M-Token-Kontextfenster zur Verfügung stehen Gemini Fortgeschrittene Benutzer. Das entspricht etwa 1.500 Seiten Text, mehreren Stunden Audio und einer ganzen Stunde Video.
Entwickler können sich für eine Warteliste anmelden, um zu testen Gemini 1.5 Pro mit einem beeindruckenden 2M-Kontextfenster, das bald allgemein verfügbar sein wird. Pichai sagt, dies sei der nächste Schritt auf Googles Reise zum ultimativen Ziel des unendlichen Kontexts.
Gemini 1.5 Pro hat auch eine Leistungssteigerung in den Bereichen Übersetzung, Argumentation und Codierung erfahren und wird mit der Fähigkeit, hochgeladene Video- und Audiodaten zu analysieren, wirklich multimodal sein.
"Er hat es geschafft."
"Das ändert alles."
"Es ist eine überwältigende Erfahrung."
"Ich hatte das Gefühl, eine Superkraft zu haben."
"Das wird der Hammer."Hören Sie von Entwicklern, die Folgendes ausprobiert haben Gemini 1.5 Pro mit einem Kontextfenster von 1 Million Token. #GoogleIO pic.twitter.com/odOfI4lvOL
- Google (@Google) 14. Mai 2024
Google Arbeitsbereich
Der erweiterte Kontext und die multimodalen Möglichkeiten ermöglichen Gemini bei der Integration mit Google Workspace als äußerst nützlich erweisen.
Benutzer können mit natürlichsprachlichen Abfragen Folgendes fragen Gemini Fragen im Zusammenhang mit ihren E-Mails. In der Demo wurde das Beispiel eines Elternteils angeführt, der um eine Zusammenfassung der letzten E-Mails von der Schule seines Kindes bat.
Gemini wird auch in der Lage sein, Highlights aus den bis zu einer Stunde dauernden Google Meet-Meetings zu extrahieren und Fragen dazu zu beantworten.
NotebookLM - Audio-Übersicht
Google veröffentlicht NotebookLM letztes Jahr. Es ermöglicht den Benutzern, ihre eigenen Notizen und Dokumente hochzuladen, für die NotebookLM zum Experten wird.
Dies ist äußerst nützlich als Rechercheführer oder Tutor, und Google demonstrierte eine experimentelle Verbesserung namens Audio Overview.
Audio Overview verwendet die Quelldokumente und erzeugt eine Audio-Diskussion auf der Grundlage des Inhalts. Die Benutzer können sich an der Unterhaltung beteiligen und NotebookLM per Sprache abfragen und die Diskussion steuern.
NotebookLM! Ich liebe dieses Projekt so sehr, das AI powered Arcades Project. Mit der Multimodalität von Gemini Pro 1.5 kann es automatisch Audiodiskussionen des Quellmaterials erstellen, das Sie zu Ihren Quellen hinzugefügt haben. pic.twitter.com/IhhSfj8AqR
- Dieter Bohn (@backlon) 14. Mai 2024
Es ist noch nicht bekannt, wann Audio Overview eingeführt wird, aber es könnte eine große Hilfe für alle sein, die einen Tutor oder einen Gesprächspartner suchen, um ein Problem zu lösen.
Google kündigte außerdem LearnLM an, eine neue Familie von Modellen, die auf Gemini und auf das Lernen und die Bildung abgestimmt. LearnLM wird NotebookLM, YouTube, Search und andere Bildungstools interaktiver machen.
Die Demo war sehr beeindruckend, aber schon jetzt scheint es, dass einige der Fehler, die Google gemacht hat mit seiner ursprünglichen Gemini Release-Videos in diese Veranstaltung eingeschlichen.
Die notebooklm-Demo ist nicht in Echtzeit. Ich wünschte, sie hätten diese Erwartung formuliert, ohne sie in einer Fußnote in der kleinstmöglichen Schrift zu verbergen. pic.twitter.com/tGN5i3fsVD
- Delip Rao e/σ (@deliprao) 14. Mai 2024
KI-Agenten und Projekt Astra
Pichai sagt, dass KI-Agenten, die von Gemini werden bald in der Lage sein, unsere alltäglichen Aufgaben zu erledigen. Google entwickelt derzeit Prototypen von Agenten, die plattform- und browserübergreifend arbeiten können.
Das Beispiel, das Pichai anführte, war die Anweisung eines Benutzers Gemini Wenn man ein Paar Schuhe zurückgeben möchte, muss der Mitarbeiter mehrere E-Mails abarbeiten, um die relevanten Details zu finden, die Rückgabe beim Online-Shop zu protokollieren und die Abholung durch einen Kurierdienst zu buchen.
Demis Hassabis stellte Project Astra vor, den Prototyp des konversationellen KI-Assistenten von Google. Die Demo seiner multimodalen Fähigkeiten gab einen Einblick in die Zukunft, in der eine KI Fragen in Echtzeit auf der Grundlage von Live-Videos beantwortet und sich an Details aus früheren Videos erinnert.
Hassabis sagte, dass einige dieser Funktionen noch in diesem Jahr eingeführt werden sollen.
Seit langem arbeiten wir an einem universellen KI-Agenten, der im Alltag wirklich hilfreich sein kann. Heute bei #GoogleIO haben wir unsere neuesten Fortschritte auf diesem Gebiet vorgestellt: Projekt Astra. Hier ist ein Video unseres Prototyps, das in Echtzeit aufgenommen wurde. pic.twitter.com/TSGDJZVslg
- Demis Hassabis (@demishassabis) 14. Mai 2024
Generative KI
Google gab uns einen Einblick in die generativen KI-Tools für Bilder, Musik und Videos, an denen das Unternehmen arbeitet.
Google hat Imagen 3 vorgestellt, seinen fortschrittlichsten Bildgenerator. Er reagiert Berichten zufolge genauer auf Details in nuancierten Eingabeaufforderungen und liefert fotorealistischere Bilder.
Hassabis sagte, Imagen 3 sei Googles "bisher bestes Modell für die Darstellung von Text, was eine Herausforderung für Bilderzeugungsmodelle war".
Heute stellen wir Ihnen Imagen 3 vor, DeepMind?ref_src=twsrctfw">@GoogleDeepMindist das bisher leistungsfähigste Modell zur Bilderzeugung. Es versteht Eingabeaufforderungen so, wie Menschen schreiben, erzeugt fotorealistischere Bilder und ist unser bestes Modell für die Wiedergabe von Text. #GoogleIO pic.twitter.com/6bjidsz6pJ
- Google (@Google) 14. Mai 2024
Music AI Sandbox ist ein KI-Musikgenerator, der als professionelles Werkzeug für die kollaborative Musikproduktion konzipiert ist und nicht als vollständiger Trackgenerator. Dies scheint ein großartiges Beispiel dafür zu sein, wie KI eingesetzt werden kann, um gute Musik zu machen, wobei ein Mensch den kreativen Prozess steuert.
Veo ist der Videogenerator von Google, der Text-, Bild- oder Videoaufforderungen in minutenlange Clips mit 1080p umwandelt. Es ermöglicht auch die Eingabe von Textaufforderungen zur Videobearbeitung. Wird Veo so gut sein wie Sora?
Google wird sein digitales Wasserzeichen SynthID für Text, Audio, Bilder und Video einführen.
Trillium
All diese neuen multimodalen Fähigkeiten benötigen eine Menge Rechenleistung, um die Modelle zu trainieren. Pichai stellte Trillium vor, die 6. Iteration seiner Tensor Processing Units (TPUs). Generation seiner Tensor Processing Units (TPUs) vor. Trillium bietet mehr als das Vierfache der Rechenleistung der vorherigen TPU-Generation.
Trillium wird im Laufe dieses Jahres für Googles Cloud Computing-Kunden verfügbar sein und die NVIDIA Blackwell-GPUs Anfang 2025 verfügbar sein.
AI-Suche
Google wird integrieren Gemini in seine Suchplattform integriert, um die generative KI bei der Beantwortung von Suchanfragen zu nutzen.
Mit AI Overview erhält man auf eine Suchanfrage eine umfassende Antwort, die aus mehreren Online-Quellen zusammengestellt wird. Dadurch wird die Google-Suche mehr zu einem Recherche-Assistenten als zu einem einfachen Auffinden einer Website, die die Antwort enthalten könnte.
Gemini ermöglicht es der Google-Suche, komplexe, mehrteilige Fragen in mehrere Schritte zu zerlegen und die relevantesten Informationen aus mehreren Quellen zu finden.
GeminiDas Videoverständnis von Google wird es den Nutzern bald ermöglichen, ein Video für die Google-Suche zu verwenden.
Für die Nutzer der Google-Suche ist das großartig, aber für die Websites, von denen Google die Informationen bezieht, wird es wahrscheinlich zu viel weniger Verkehr führen.
Dies ist die Suche im Gemini Ära. #GoogleIO pic.twitter.com/JxldNjbqyn
- Google (@Google) 14. Mai 2024
Und Sie werden auch in der Lage sein, Fragen mit Video direkt in der Suche zu stellen. Demnächst verfügbar. #GoogleIO pic.twitter.com/zFVu8yOWI1
- Google (@Google) 14. Mai 2024
Gemini 1.5 Blitzlicht
Google kündigte ein leichtes, billigeres und schnelleres Modell namens Gemini 1.5 Flash. Google sagt, das Modell sei "für engere oder hochfrequente Aufgaben optimiert, bei denen die Geschwindigkeit der Reaktionszeit des Modells am wichtigsten ist."
Gemini 1,5 Flash kostet $0,35 pro Million Token, also viel weniger als die $7, die man für die Nutzung von Flash bezahlen müsste. Gemini 1.5 Pro.
Jede dieser Weiterentwicklungen und neuen Produkte verdient einen eigenen Beitrag. Wir werden Sie auf dem Laufenden halten, sobald mehr Informationen verfügbar sind oder wir sie selbst ausprobieren können.