Microsoft beschattet Gemini mit GPT-4, verstärkt durch Medprompt

Dezember 16, 2023

Anfang des Monats verkündete Google stolz, dass sein leistungsstärkstes Gemini-Modell den GPT-4 bei den MMLU-Benchmark-Tests (Massive Multitask Language Understanding) geschlagen hat. Microsofts neue Prompting-Technik sorgt dafür, dass GPT-4 den Spitzenplatz zurückerobert, wenn auch nur um einen Bruchteil eines Prozents.

Abgesehen von dem Drama um sein Marketingvideo ist Googles Gemini eine große Sache für das Unternehmen, und seine MMLU-Benchmark-Ergebnisse sind beeindruckend. Aber Microsoft, der größte Investor von OpenAI, hat nicht lange gewartet, um die Bemühungen von Google in den Schatten zu stellen.

Die Schlagzeile lautet, dass Microsoft mit GPT-4 die MMLU-Ergebnisse von Gemini Ultra übertreffen konnte. In Wirklichkeit hat es das Gemini-Ergebnis von 90,04% nur um 0,06% übertroffen.

Die Hintergründe, die dies möglich gemacht haben, sind spannender als die schrittweise Verbesserung, die wir auf diesen Ranglisten sehen. Microsofts neue Eingabeaufforderungstechniken könnten die Leistung älterer KI-Modelle steigern.

Medprompt

Wenn man von der "Steuerung" eines Modells spricht, meint man damit, dass man ein Modell durch sorgfältige Eingabe so lenken kann, dass es ein Ergebnis liefert, das besser mit dem gewünschten Ergebnis übereinstimmt.

Microsoft hat eine Kombination von Eingabeaufforderungstechniken entwickelt, die sich in dieser Hinsicht als sehr gut erwiesen haben. Medprompt begann als Projekt, um GPT-4 dazu zu bringen, bessere Ergebnisse bei medizinischen Benchmarks wie der MultiMedQA-Testsuite zu liefern.

Medprompt verbessert die MedQA-Testleistung. Microsoft

Die Microsoft-Forscher waren der Meinung, dass Medprompt, wenn es bei medizinischen Spezialtests gut funktioniert, auch die allgemeine Leistung von GPT-4 verbessern könnte. Und so gewannen Microsoft und OpenAI mit GPT-4 gegenüber Gemini Ultra wieder das Recht auf Prahlerei.

Wie funktioniert Medprompt?

Medprompt ist eine Kombination cleverer Souffleurtechniken, die alle in einem Gerät vereint sind. Es stützt sich auf drei Haupttechniken.

Dynamisches Few-Shot-Lernen (DFSL)

"Few-shot learning" bedeutet, dass GPT-4 einige Beispiele erhält, bevor es ein ähnliches Problem lösen soll. Wenn Sie einen Hinweis wie "5-shot" sehen, bedeutet dies, dass dem Modell 5 Beispiele gegeben wurden. "Zero-shot" bedeutet, dass es ohne Beispiele antworten musste.

In der Medprompt-Veröffentlichung wird erklärt, dass "aus Gründen der Einfachheit und Effizienz die wenigen Beispiele, die bei der Eingabeaufforderung für eine bestimmte Aufgabe verwendet werden, in der Regel fest sind; sie bleiben bei allen Testbeispielen unverändert".

Dies führt dazu, dass die Beispiele, die den Modellen präsentiert werden, oft nur in groben Zügen relevant oder repräsentativ sind.

Wenn Ihre Trainingsmenge groß genug ist, können Sie das Modell dazu bringen, alle Beispiele durchzusehen und diejenigen auszuwählen, die dem zu lösenden Problem semantisch ähnlich sind. Das Ergebnis ist, dass die Beispiele, die in wenigen Schritten gelernt werden, spezifischer auf ein bestimmtes Problem ausgerichtet sind.

Selbsterzeugte Gedankenkette (CoT)

Gedankenketten (Chain of Thought, CoT) sind eine gute Möglichkeit, ein LLM zu steuern. Wenn Sie ihn mit "Denke sorgfältig nach" oder "Löse es Schritt für Schritt" auffordern, sind die Ergebnisse viel besser.

Sie können die Denkkette, der das Modell folgen soll, sehr viel spezifischer gestalten, aber das erfordert eine manuelle Eingabeaufforderung.

Die Forscher fanden heraus, dass sie "GPT-4 einfach auffordern konnten, eine Gedankenkette für die Trainingsbeispiele zu erstellen". Ihr Ansatz sagt GPT-4 im Grunde: "Hier ist eine Frage, die Antwortmöglichkeiten und die richtige Antwort. Welche CoT sollten wir in eine Aufforderung einbauen, die zu dieser Antwort führt?

Choice Shuffle Ensembling

Die meisten der MMLU-Benchmark-Tests sind Multiple-Choice-Fragen. Wenn ein KI-Modell diese Fragen beantwortet, kann es zu einer Verzerrung der Position kommen. Mit anderen Worten, es könnte im Laufe der Zeit Option B bevorzugen, obwohl dies nicht immer die richtige Antwort ist.

Choice Shuffle Ensembling mischt die Positionen der Antwortmöglichkeiten und lässt GPT-4 die Frage erneut beantworten. Dies geschieht mehrere Male, und dann wird die am häufigsten gewählte Antwort als endgültige Antwort ausgewählt.

Die Kombination dieser drei Souffleurtechniken gab Microsoft die Möglichkeit, die Ergebnisse von Gemini ein wenig in den Schatten zu stellen. Es wird interessant sein, zu sehen, welche Ergebnisse Gemini Ultra erzielen würde, wenn es einen ähnlichen Ansatz verwenden würde.

Medprompt ist spannend, weil es zeigt, dass ältere Modelle sogar noch mehr leisten können, als wir dachten, wenn wir sie auf clevere Weise anregen. Die zusätzliche Rechenleistung, die für diese zusätzlichen Schritte benötigt wird, macht diesen Ansatz in den meisten Fällen jedoch nicht praktikabel.

Join The Future


HEUTE ABONNIEREN

Klar, prägnant, umfassend. Behalten Sie den Überblick über KI-Entwicklungen mit DailyAI

Eugene van der Watt

Eugene kommt aus der Elektronikbranche und liebt alles, was mit Technik zu tun hat. Wenn er eine Pause vom Konsum von KI-Nachrichten einlegt, findet man ihn am Snookertisch.

×

KOSTENLOSES PDF EXKLUSIV
Mit DailyAI immer einen Schritt voraus

Melden Sie sich für unseren wöchentlichen Newsletter an und erhalten Sie exklusiven Zugang zum neuesten eBook von DailyAI: 'Mastering AI Tools: Ihr Leitfaden für mehr Produktivität im Jahr 2024".

*Mit der Anmeldung zu unserem Newsletter akzeptieren Sie unsere Datenschutzbestimmungen und unsere Bedingungen und Konditionen