Google setzt mit Gemini, seinem neuen großen Sprachmodell (LLM), den Fehdehandschuh ein.
Das hauptsächlich von Google DeepMind entwickelte Gemini-Projekt signalisiert einen bevorstehenden Showdown mit ChatGPT von OpenAI.
Die Information berichtet, dass Google einer ausgewählten Gruppe von Entwicklern einen frühen Zugang zu Gemini gewährt hat, was darauf hindeutet, dass eine Beta-Version unmittelbar bevorsteht.
Da Google seine beträchtlichen Ressourcen mit den Forschungslabors Brain und DeepMind kombiniert, könnte Gemini einen enormen Einfluss auf die KI-Branche haben.
Während OpenAI die KI-Szene aufgemischt und mit ChatGPT die Kontrolle über die öffentlichen Nutzer übernommen hat, wird Google von Jahrzehnte der KI-Forschung und ist im Besitz umfangreicher geschützter Datensätze.
Google-CEO Sundar Pichai stellte Gemini auf der Entwicklerkonferenz Google I/O im Mai 2023 vor. Er erklärte, dass Gemini "von Grund auf multimodal" konzipiert ist und die Stärken des AlphaGo-Systems von DeepMind mit leistungsstarken Sprachmodellierungsfunktionen kombiniert.
Demis Hassabis, CEO von DeepMind, fügte mehr Kontext hinzu und erklärte, dass Gemini kein einzelnes Modell ist, sondern eher eine "Reihe von Modellen" und wahrscheinlich mit Text, Bildern und möglicherweise sogar Sprache und Audio arbeiten wird.
Dies ähnelt der Richtung von Google Bard, das mit freundlicher Genehmigung von Google Lens eine Bildfunktionalität enthält.
Zukünftige Erweiterungen könnten Funktionen wie "Gedächtnis und Planung umfassen, die Aufgaben ermöglichen könnten, die logisches Denken erfordern", so Pichai.
Jeffrey Dean, Chief Scientist von Google, gab bekannt, dass Gemini die neue KI-Infrastruktur von Google, Pathways, nutzen wird, um das Training auf verschiedenen Datensätzen zu erweitern.
Dean deutete an, dass das System möglicherweise die Größe von OpenAIs GPT-3, das über 175 Milliarden Parameter enthält, übertreffen könnte - aber das würde bedeuten, dass Gemini eine Generation hinter GPT-4 zurückbleibt.
Die Anzahl der Parameter ist jedoch nicht alles, und Gemini könnte sich auf andere Weise von anderen LLMs unterscheiden.
Hassabis wies beispielsweise darauf hin, dass Gemini nicht nur mit verschiedenen Datentypen arbeiten, sondern auch Informationen mit der Google-Suche abgleichen kann.
Reaktion der Industrie
Hassabis erklärte in einem Bericht vom September, dass Gemini "sehr vielversprechende erste Ergebnisse" zeige. Interview mit der Zeit.
Ein Bericht von Semi-Analyse besagt, dass Gemini mehr als 430 Milliarden Parameter umfasst, was deutlich über der Schätzung von GPT-3 von 200 Milliarden liegt. Die Anzahl der Parameter von GPT-4 ist nicht bekannt, obwohl sie laut einer Handvoll Analysen bei etwa 1 Billion liegen soll.
In dem Beitrag von Semi Analysis wird auch behauptet, dass Gemini die Pre-Training-Flops von GPT-4 um das Fünffache übertreffen wird, wobei geplant ist, diese um das Zwanzigfache zu übertreffen. Dies ist zwar spekulativ, würde aber bedeuten, dass Gemini rechnerisch wesentlich leistungsfähiger als GPT-4 ist.
In dem Beitrag heißt es: "Ob Google den Mut hat, diese Modelle öffentlich zu machen, ohne seine Kreativität oder sein bestehendes Geschäftsmodell zu kastrieren, ist eine andere Diskussion."
Wie Sundar Pichai sagte, werden die heutigen Chatbots im Vergleich dazu in ein paar Jahren "trivial" aussehen.
Ob Gemini die Vorherrschaft von GPT-4 brechen wird, bleibt jedoch ungewiss.