Google bringt seine bahnbrechende Gemini-Familie multimodaler Modelle auf den Markt

Dezember 6, 2023

Google Med-PaLM 2

Google hat seine Gemini-Familie von multimodalen KI-Modellen auf den Markt gebracht, eine dramatische Entwicklung in einer Branche, die noch immer von den Ereignissen bei OpenAI erschüttert ist.

Gemini ist eine multimodale Familie von Modellen, die in der Lage sind, eine Mischung aus Text, Bildern, Audio und Video zu verarbeiten und zu verstehen.

Sundar Pichai, CEO von Google, und Demis Hassabis, CEO von Google DeepMind, setzen große Erwartungen in Gemini. Google plant, es in die umfangreichen Produkte und Dienste von Google zu integrieren, darunter Suche, Maps und Chrome.

Gemini zeichnet sich durch umfassende Multimodalität aus und verarbeitet und interagiert mit Text, Bildern, Video und Audio. Während wir uns an die Verarbeitung von Text und Bildern gewöhnt haben, betreten Audio und Video Neuland und bieten aufregende neue Möglichkeiten für den Umgang mit Rich Media.

Hassabis bemerkt: "Diese Modelle verstehen die Welt um sie herum einfach besser."

Pichai betonte die Verknüpfung des Modells mit den Google-Produkten und -Diensten: "Eine der Stärken dieses Moments ist, dass man an einer zugrundeliegenden Technologie arbeiten und sie verbessern kann, und das fließt sofort in unsere Produkte ein."

Zwillinge nehmen drei verschiedene Formen an, nämlich:

  • Gemini Nano: Eine abgespeckte Version für Android-Geräte, die Offline- und native Funktionen bietet.
  • Gemini Pro: Eine fortschrittlichere Version, die zahlreiche KI-Dienste von Google, darunter Bard, unterstützen wird.
  • Zwillinge Ultra: Die leistungsstärkste Iteration, die in erster Linie für Rechenzentren und Unternehmensanwendungen entwickelt wurde, soll im nächsten Jahr veröffentlicht werden.

In Bezug auf die Leistung übertrifft Gemini laut Google GPT-4 in 30 von 32 Benchmarks, insbesondere beim Verstehen und der Interaktion mit Video und Audio. Diese Leistung wird darauf zurückgeführt, dass Gemini von Anfang an als multisensorisches Modell konzipiert wurde.


Darüber hinaus war Google sehr daran interessiert, die Effizienz von Gemini hervorzuheben.

Es wurde auf Googles eigenen Tensor Processing Units (TPUs) trainiert und ist schneller und kostengünstiger als frühere Modelle. Zusammen mit Gemini bringt Google TPU v5p für Rechenzentren auf den Markt, um die Effizienz der Ausführung großer Modelle zu verbessern.

Ist Gemini der ChatGPT-Killer?

Google ist eindeutig optimistisch in Bezug auf Gemini. Zu Beginn des Jahres wurde eine 'Leck' von Semi Analysis deutete an, dass Gemini der Konkurrenz den Rang ablaufen und Google von einem peripheren Mitglied der generativen KI-Branche zur Hauptfigur vor OpenAI aufsteigen könnte.

Zusätzlich zu seiner Multimodalität ist Gemini angeblich das erste Modell, das menschliche Experten beim Massive Multitasking Language Understanding (MMLU) Benchmark übertrifft, bei dem Weltwissen und Problemlösungsfähigkeiten in 57 Fächern wie Mathematik, Physik, Geschichte, Recht, Medizin und Ethik getestet werden.

 

Pichai sagt, dass der Start von Gemini eine "neue Ära" in der KI einläutet und betont, dass Gemini vom umfangreichen Produktkatalog von Google profitieren wird.

Die Integration von Suchmaschinen ist besonders interessant, da Google dominiert diesen Bereich und hat die Vorteile des weltweit umfangreichsten Suchindexes zur Hand.

Mit der Veröffentlichung von Gemini ist Google fest im Rennen um die KI, und die Menschen werden alles daran setzen, es gegen GPT-4 zu testen.

Gemini-Benchmark-Tests und -Analyse

In einem Blog-BeitragGoogle veröffentlichte Benchmark-Ergebnisse, die zeigen, dass Gemini Ultra den GPT-4 in den meisten Tests schlägt. Darüber hinaus verfügt es über fortschrittliche Codierungsfunktionen und zeigt herausragende Leistungen in Codierungsbenchmarks wie HumanEval und Natural2Code.

 

Hier sind die Benchmark-Daten. Beachten Sie, dass diese Messungen die noch nicht freigegebene Gemini Ultra Version verwenden. Gemini kann nicht als ChatGPT-Killer betrachtet werden, bis nächstes Jahr. Und Sie können darauf wetten, dass OpenAI so schnell wie möglich gegen Gemini vorgehen wird.

Text/NLP-Benchmark-Leistung

Allgemeines Wissen:

  • MMLU (Massive Multitasking Language Understanding):
    • Gemini Ultra: 90.0% (Chain of Thought bei 32 Beispielen)
    • GPT-4: 86,4% (5 Schüsse, gemeldet)

Begründungen:

  • Big-Bench Hard (Vielfältige, anspruchsvolle Aufgaben, die mehrstufiges Denken erfordern):
    • Gemini Ultra: 83.6% (3-Schuss)
    • GPT-4: 83.1% (3-Schuss, API)
  • DROP (Leseverstehen, F1-Punktzahl):
    • Gemini Ultra: 82,4 (Variable Schüsse)
    • GPT-4: 80,9 (3-Schuss, gemeldet)
  • HellaSwag (Commonsense reasoning for everyday tasks):
    • Gemini Ultra: 87.8% (10-schüssig)
    • GPT-4: 95,3% (10 Schüsse, gemeldet)

Mathematik:

  • GSM8K (Grundlegende arithmetische Manipulationen einschließlich mathematischer Probleme der Grundschule):
    • Gemini Ultra: 94,4% (Mehrheit bei 32 Beispielen)
    • GPT-4: 92.0% (5-Schuss Gedankenkette, gemeldet)
  • MATH (Anspruchsvolle mathematische Probleme, einschließlich Algebra, Geometrie, Vorkalkül und andere):
    • Gemini Ultra: 53.2% (4-Schuss)
    • GPT-4: 52,9% (4-Schuss, API)

Code:

  • HumanEval (Python-Code-Generierung):
    • Gemini Ultra: 74,4% (0-Schuss, interner Test)
    • GPT-4: 67,0% (0-Schuss, gemeldet)
  • Natural2Code (Python-Code-Generierung, neuer, überwachter Datensatz, ähnlich wie HumanEval, nicht im Internet veröffentlicht):
    • Gemini Ultra: 74.9% (0-Schuss)
    • GPT-4: 73,9% (0-Schuss, API)

Multimodale Benchmark-Leistung

Die multimodalen Fähigkeiten des KI-Modells Gemini von Google werden auch mit dem GPT-4V von OpenAI verglichen.

Bildverständnis und -verarbeitung:

  • MMMU (Multi-discipline College-level Reasoning Problems):
    • Gemini Ultra: 59,4% (0-Schuss-Pass@1, nur Pixel)
    • GPT-4V: 56,8% (0-Schuss-Durchgang@1)
  • VQAv2 (Natural Image Understanding):
    • Gemini Ultra: 77,8% (0-Aufnahme, nur Pixel)
    • GPT-4V: 77.2% (0-Schuss)
  • TextVQA (OCR auf natürlichen Bildern):
    • Gemini Ultra: 82,3% (0-Aufnahme, nur Pixel)
    • GPT-4V: 78,0% (0-Schuss)
  • DocVQA (Dokumentverstehen):
    • Gemini Ultra: 90.9% (0-Schuss, nur Pixel)
    • GPT-4V: 88,4% (0-Aufnahme, nur Pixel)
  • Infografik VQA (Infografik Verstehen):
    • Gemini Ultra: 80.3% (0-Schuss, nur Pixel)
    • GPT-4V: 75.1% (0-Schuss, nur Pixel)
  • MathVista (Mathematisches Denken in visuellen Kontexten):
    • Gemini Ultra: 53.0% (0-Aufnahme, nur Pixel)
    • GPT-4V: 49,9% (0-Schuss)

Videoverarbeitung:

  • VATEX (englische Videountertitelung, CIDEr Score):
    • Gemini Ultra: 62,7 (4-Schuss)
    • DeepMind Flamingo: 56,0 (4-Schuss)
  • Wahrnehmungstest MCQA (Video-Fragenbeantwortung):
    • Gemini Ultra: 54,7% (0-Schuss)
    • SeViLA: 46.3% (0-Schuss)

Audio-Verarbeitung:

  • CoVoST 2 (Automatische Sprachübersetzung, 21 Sprachen, BLEU-Score):
    • Gemini Pro: 40.1
    • Whisper v2: 29.1
  • FLEURS (Automatische Spracherkennung, 62 Sprachen, Wortfehlerrate):
    • Gemini Pro: 7,6% (niedriger ist besser)
    • Whisper v3: 17.6%

Das ethische Engagement von Google

In einem Blog-Beitragbetonte Google sein Engagement für verantwortungsvolle und ethische KI-Praktiken.

Nach Angaben von Google wurde Gemini strengeren Tests unterzogen als jede frühere Google-KI, wobei Faktoren wie Voreingenommenheit, Toxizität, Cybersicherheitsbedrohungen und Missbrauchspotenzial bewertet wurden. Mit Hilfe gegnerischer Techniken konnten Probleme frühzeitig erkannt werden. Externe Experten führten dann Stresstests und "Red-Teams" mit den Modellen durch, um zusätzliche Schwachstellen zu identifizieren.

Google erklärt, dass Verantwortung und Sicherheit inmitten des raschen Fortschritts der KI weiterhin Priorität haben werden. Das Unternehmen half bei der Gründung von Branchengruppen zur Festlegung bewährter Verfahren, darunter MLCommons und das Secure AI Framework (SAIF).

Google verpflichtet sich zur weiteren Zusammenarbeit mit Forschern, Regierungen und Organisationen der Zivilgesellschaft weltweit.

Gemini Ultra Veröffentlichung

Im Moment beschränkt Google den Zugang zu seinem leistungsstärksten Modell, Gemini Ultra, das Anfang nächsten Jahres auf den Markt kommen wird.

Zuvor werden ausgewählte Entwickler und Experten mit Ultra experimentieren und Feedback geben. Die Markteinführung erfolgt zeitgleich mit einer neuen, hochmodernen KI-Modellplattform oder, wie Google es nennt, einer "Erfahrung" namens Bard Advanced.

Gemini für Entwickler

Ab dem 13. Dezember erhalten Entwickler und Unternehmenskunden über die Gemini-API, die in Google AI Studio oder Google Cloud Vertex AI verfügbar ist, Zugang zu Gemini Pro.

Google AI Studio: Google AI Studio ist ein benutzerfreundliches, webbasiertes Tool, das Entwicklern helfen soll, Anwendungen mit einem API-Schlüssel zu entwickeln und zu starten. Diese kostenlose Ressource ist ideal für diejenigen, die sich in der Anfangsphase der App-Entwicklung befinden.

Vertex AI: Vertex AI ist eine umfassendere KI-Plattform und bietet vollständig verwaltete Dienste. Sie lässt sich nahtlos in Google Cloud integrieren und bietet darüber hinaus Sicherheit, Datenschutz und die Einhaltung von Data-Governance-Vorschriften für Unternehmen.

Zusätzlich zu diesen Plattformen werden Android-Entwickler in der Lage sein, Gemini Nano für On-Device-Aufgaben zu nutzen. Es wird für die Integration über AICore verfügbar sein. Diese neue Systemfunktion wird mit Android 14 eingeführt, beginnend mit den Pixel 8 Pro-Geräten.

Google hat die Trümpfe in der Hand, vorerst

OpenAI und Google unterscheiden sich in einem wichtigen Punkt: Google entwickelt eine ganze Reihe anderer Tools und Produkte im eigenen Haus, darunter auch solche, die täglich von Milliarden von Menschen genutzt werden.

Die Rede ist natürlich von Android, Chrome, Google Mail, Google Workplace und Google Search.

OpenAI hat durch seine Allianz mit Microsoft ähnliche Möglichkeiten durch Copilot, aber das muss erst noch richtig durchstarten.

Und wenn wir ehrlich sind, hat Google in diesen Produktkategorien wahrscheinlich das Sagen.

Google hat das Rennen um die KI weiter vorangetrieben, aber Sie können sicher sein, dass dies die Entwicklung von OpenAI in Richtung GPT-5 und AGI nur weiter vorantreiben wird.

Join The Future


HEUTE ABONNIEREN

Klar, prägnant, umfassend. Behalten Sie den Überblick über KI-Entwicklungen mit DailyAI

Sam Jeans

Sam ist ein Wissenschafts- und Technologiewissenschaftler, der in verschiedenen KI-Startups gearbeitet hat. Wenn er nicht gerade schreibt, liest er medizinische Fachzeitschriften oder kramt in Kisten mit Schallplatten.

×

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus

Melden Sie sich für unseren wöchentlichen Newsletter an und erhalten Sie exklusiven Zugang zum neuesten eBook von DailyAI: 'Mastering AI Tools: Ihr Leitfaden für mehr Produktivität im Jahr 2024".

*Mit der Anmeldung zu unserem Newsletter akzeptieren Sie unsere Datenschutzbestimmungen und unsere Bedingungen und Konditionen