ChatGPT hat seine Prüfungsfähigkeiten unter Beweis gestellt, indem es in mehreren Studiengängen und anderen Tests, wie z. B. der Anwaltsprüfung, ähnlich gut abgeschnitten hat wie Studenten. Aber kann es auch zufriedenstellende Ergebnisse bei medizinischen Prüfungen liefern?
Eine Gruppe von Kinderärzten hat ChatGPT, insbesondere das Modell GPT-3.5, getestet.
Sie testeten ChatGPT in der neonatologisch-perinatalen Prüfung, die für Studenten der Pädiatrie entscheidend ist. Die Studie, veröffentlicht in JAMAergab, dass die ChatGPT-Version 3.5 nur 46% richtige Antworten erzielte.
ChatGPT schnitt am besten bei grundlegenden Erinnerungsfragen und Fragen zum klinischen Denken ab, aber seine Grenzen zeigten sich bei Fragen, die multilogisches Denken erfordern.
Besonders schlecht schnitt das Modell mit 37,5 Prozent im Bereich Gastroenterologie ab und am besten mit 78,5 Prozent im Bereich Ethik - vielleicht ironischerweise.
Der Hauptautor der Studie, Andrew Beam, ist Assistenzprofessor für biomedizinische Informatik an der Harvard Medical School.
Er wies darauf hin, dass die rasanten Fortschritte in der KI geradezu bemerkenswert sind. "Letztes Jahr gab es einen Moment, in dem plötzlich fünf oder sechs verschiedene Modelle eine Punktzahl von 80 Prozent oder mehr erreichten", sagte er und unterstrich damit das rasante Tempo, in dem sich der Bereich weiterentwickelt.
Beams Frau Kristyn, Dozentin für Kinderheilkunde an der Harvard Medical School, nahm ebenfalls an der Studie teil. "Ich wollte, dass die Studie nicht gut abschneidet, also war ich aus dieser Perspektive glücklich", gestand sie.
Sie räumt jedoch ein, dass die KI unweigerlich in das Gesundheitswesen Einzug halten wird, wie wir es bereits bei KI-gestütztes MRI-Scannen, Diagnostik von Augenkrankheitenund Arzneimittelentwicklung, um nur einige der wachsenden Anwendungsmöglichkeiten zu nennen.
"Es ist wirklich wichtig, herauszufinden, wie man das in die klinische Welt bringen kann, und zwar auf sichere Weise.
Das Team plant, Tests mit dem überlegenen GPT-4 durchzuführen und sie auf die gleichen neonatologisch-perinatalen und anästhesiologischen Prüfungen anzuwenden.
Andrew Beam wies auch darauf hin, wie wichtig es ist, zu wissen, welche Version eines großen Sprachmodells man verwendet. Er wies darauf hin, dass das neuere GPT-4 auf Abonnementbasis erhältlich ist, während das ältere ChatGPT 3.5 noch frei verfügbar ist.
"Die meisten Nutzer werden sich wahrscheinlich von dem kostenlosen Tool angezogen fühlen und sollten sich über dessen Grenzen im Klaren sein", sagte er. Weltweit sind $20/Monat alles andere als vernachlässigbar.
ChatGPT wurde in verschiedenen Prüfungen getestetDazu gehört auch eine kürzlich durchgeführte Studie, in der das Programm mit 32 Diplomthemen verglichen wurde und in der festgestellt wurde, dass es die Studenten in nur 9 von 32 Prüfungen schlug oder übertraf.
Das AI wurde auch bei der Anwaltsprüfung für Jura, den Graduate Record Examinations (GRE), dem SAT Reading and Writing, den Advanced Placement Exams und viele andereund erzielen oft sehr hohe Punktzahlen.