Forscher der University of Reading im Vereinigten Königreich führten eine Blindstudie durch, um herauszufinden, ob menschliche Lehrkräfte in der Lage sind, KI-generierte Inhalte zu erkennen. Die Ergebnisse verheißen nichts Gutes für Lehrer.
Die Entwicklung hin zum Fernunterricht hat dazu geführt, dass viele Schülerbewertungen außerhalb des traditionellen Rahmens einer schriftlichen Prüfung durchgeführt werden, bei der eine Aufsichtsperson auf Betrug achtet.
Der leichte Zugang zu fortschrittlichen KI-Modellen hat es den Studierenden leicht gemacht, Tools wie ChatGPT zu nutzen, um ihre Kursarbeiten für sie zu schreiben oder ihnen bei Online-Prüfungen zu helfen.
Wäre ein intelligenter Universitätsprofessor in der Lage zu erkennen, ob ein Student KI zur Beantwortung von Online-Prüfungsfragen einsetzt?
Außerordentlicher Professor Peter Scarfe, einer der der Zeitung Hauptautoren, sagte: "Viele Institutionen sind von traditionellen Prüfungen abgerückt, um die Bewertung integrativer zu gestalten. Unsere Forschung zeigt, dass es von internationaler Bedeutung ist, zu verstehen, wie sich KI auf die Integrität von Bildungsbewertungen auswirken wird."
In der "größten und aussagekräftigsten Blindstudie ihrer Art" haben die Forscher 100% KI-Schriftsätze in fünf Modulen eines Bachelor-Studiengangs in Psychologie in das Prüfungssystem eingegeben.
Die Bewerter der Prüfungen wussten nichts von der Studie. Dadurch wurde das Experiment zu einer Art realem Turing-Test, bei dem ein Pädagoge, der nicht "Schummeln!" rief, glaubte, ein Mensch habe die Aufgabe geschrieben.
Und so funktionierte es:
- Die Eingaben wurden mit GPT-4 erstellt.
- Sie reichten insgesamt 33 KI-generierte Prüfungsaufgaben in fünf Modulen ein.
- Die Studie umfasste sowohl kurze Antwortfragen (SAQs) als auch längere essayistische Fragen.
- Für die Prüfungen waren vier Antworten aus einer Auswahl von sechs Fragen einzureichen, die jeweils auf 200 Wörter begrenzt waren.
- Bei aufsatzbasierten Prüfungen bestand die Arbeit aus einem einzigen Aufsatz mit 1500 Wörtern (die Studierenden reichten eine Antwort aus einer Auswahl von drei oder vier Antworten ein, je nach Modul).
Die Forscher verwendeten die folgenden Prompts mit ChatGPT für die SAQs bzw. Essays:
- "Beantworten Sie die folgende Frage in 160 Wörtern unter Einbeziehung von Literaturhinweisen, aber ohne einen gesonderten Literaturteil: XXX"
- "Schreiben Sie einen Aufsatz mit 2000 Wörtern, der die folgende Frage beantwortet, einschließlich Verweisen auf akademische Literatur, aber ohne separaten Referenzteil: XXX" (sie haben sich für 2.000 Wörter entschieden, da ChatGPT in der Regel die Wortzahl nicht erreicht)
- In jeder Aufforderung wurde XXX durch die Prüfungsfrage ersetzt.
Bei der Auszählung der Ergebnisse wurden 94% der AI-Beiträge von den Prüfern nicht gekennzeichnet. Welche Noten haben die KI-Arbeiten erreicht?
Die Forscher sagten: "Die Noten für unsere KI-Beiträge waren im Durchschnitt eine halbe Notengrenze höher als die der echten Studenten. Über alle Module hinweg bestand eine Wahrscheinlichkeit von 83,4%, dass die KI-Beiträge in einem Modul besser abschneiden würden als eine zufällige Auswahl der gleichen Anzahl von Beiträgen echter Studierender."
Die Forscher merkten außerdem an, dass ihr Ansatz die Entdeckbarkeit des KI-Einsatzes in realen Szenarien wahrscheinlich überschätzt. Dr. Scarfe erklärte: "Wenn echte Studenten bei einer Prüfung schummeln würden, würden sie wahrscheinlich nicht so naiv und offensichtlich vorgehen wie wir".
In der Praxis könnten die Schüler die KI als Ausgangspunkt verwenden und die Ausgabe verfeinern und personalisieren, wodurch die Erkennung noch schwieriger wird.
Und als ob das nicht genug wäre, haben neben den KI-Eingaben der Forscher wahrscheinlich auch andere Schüler ChatGPT für ihre Antworten verwendet. Das bedeutet, dass die Erkennungsrate noch niedriger sein könnte als die aufgezeichneten Ergebnisse.
Keine einfachen Lösungen
Hätten die Tutoren nicht einfach eine KI-Erkennungssoftware verwenden können? Vielleicht, aber nicht mit Sicherheit, sagt die Studie.
KI-Detektoren, wie sie von der populären akademischen Plagiatsplattform Turnitinhaben sich als unzutreffend erwiesen.
Außerdem besteht bei KI-Detektoren die Gefahr, dass sie fälschlicherweise Nicht-Muttersprachler des Englischen zu beschuldigen die mit geringerer Wahrscheinlichkeit bestimmte Vokabeln, Redewendungen usw. verwenden, die die KI als Signale für menschliches Schreiben ansehen kann.
Da es keine zuverlässigen Mittel gibt, um KI-generierte Inhalte zu erkennen, müssen sich die Verantwortlichen im Bildungswesen den Kopf zerbrechen. Sollte der Einsatz von KI verfolgt werden, oder sollte er einfach Teil des Lehrplans sein? Sollte der Einsatz von KI so normalisiert werden wie der Taschenrechner?
Insgesamt besteht ein gewisser Konsens darüber, dass die Integration von KI in die Bildung nicht ohne Risiken ist. Schlimmstenfalls droht sie, das kritische Denken zu untergraben und die Schaffung von authentischem neuem Wissen zu behindern.
Professorin Karen Yeung warnte vor einer möglichen "Dequalifizierung" von Studenten, gegenüber The GuardianEs besteht die reale Gefahr, dass die kommende Generation an diese Maschinen gefesselt wird und nicht mehr in der Lage ist, ohne ihre Hilfe ernsthaft zu denken, zu analysieren oder zu schreiben.
Um den KI-Missbrauch zu bekämpfen, empfehlen die Reading-Forscher, möglicherweise von unbeaufsichtigten Prüfungen zum Mitnehmen auf kontrolliertere Umgebungen umzusteigen. Dies könnte eine Rückkehr zu traditionellen persönlichen Prüfungen oder die Entwicklung neuer, KI-resistenter Bewertungsformate beinhalten.
Eine weitere Möglichkeit - und ein Modell, das einige Universitäten folgen bereits - entwickelt Lehrveranstaltungen, in denen Studenten lernen, wie man KI kritisch und ethisch korrekt einsetzt.
Wir müssen uns auch mit dem offensichtlichen Mangel an KI-Kenntnissen unter den Tutoren auseinandersetzen, den diese Studie aufzeigt. Das scheint ziemlich beklagenswert zu sein.
ChatGPT greift oft auf bestimmte "Tropen" oder Satzmuster zurück, die ziemlich offensichtlich werden, wenn man ihnen häufig ausgesetzt ist.
Es wäre interessant zu sehen, wie ein Tutor, der darauf "trainiert" ist, KI-Schriften zu erkennen, unter den gleichen Bedingungen abschneiden würde.
ChatGPTs Prüfungsergebnisse sind gemischt
Die Studie der Universität Reading ist nicht die erste, die die Fähigkeiten der KI im akademischen Umfeld untersucht. Verschiedene Studien haben die Leistung von KI in verschiedenen Bereichen und auf verschiedenen Bildungsebenen untersucht:
- Medizinische Untersuchungen: Eine Gruppe von Kinderärzten testete ChatGPT (GPT-3.5) an den Neonatal-Perinatal-Prüfung. Die KI erzielte nur 46% korrekte Antworten und schnitt am besten bei den grundlegenden Erinnerungsfragen und den Fragen zum klinischen Denken ab, hatte aber Probleme mit dem multilogischen Denken. Interessanterweise erzielte sie die höchste Punktzahl (78,5%) im Bereich Ethik.
- Finanzielle Prüfungen: Forscher von JPMorgan Chase & Co. testeten GPT-4 bei der Prüfung zum Chartered Financial Analyst (CFA). Während es unwahrscheinlich war, dass ChatGPT die Stufen I und II bestehen würde, hatte GPT-4 bei entsprechender Aufforderung "eine gute Chance". Die KI-Modelle schnitten in den Bereichen Derivate, alternative Anlagen und Ethik gut ab, hatten aber Probleme mit dem Portfoliomanagement und den wirtschaftlichen Aspekten.
- Jura-Prüfungen: ChatGPT wurde in der Anwaltsprüfung für Jura getestet und hat oft sehr gut abgeschnitten.
- Standardisierte Tests: Die AI hat bei den Graduate Record Examinations (GRE), dem SAT Reading and Writing und den Advanced Placement Prüfungen gut abgeschnitten.
- Universitätskurse: In einer anderen Studie wurde ChatGPT (Modell nicht angegeben) mit 32 Diplomthemen verglichen, wobei sich herausstellte, dass es die Studenten schlug oder übertraf bei nur 9 von 32 Prüfungen.
Während AI also in einigen Bereichen überdurchschnittlich gut abschneidet, ist dies je nach Thema und Art des Tests sehr unterschiedlich.
Die Schlussfolgerung ist, dass Sie, wenn Sie ein Schüler sind, der gerne schummelt, ChatGPT benutzen können, um bessere Noten zu bekommen, mit einer Wahrscheinlichkeit von nur 6%, erwischt zu werden. Diese Chancen muss man einfach lieben.
Wie die Forscher feststellten, werden sich die Bewertungsmethoden für Studierende ändern müssen, um ihre akademische Integrität zu wahren, insbesondere da KI-generierte Inhalte immer schwieriger zu erkennen sind.
Die Forscher fügten ihrer Arbeit eine humorvolle Schlussfolgerung hinzu.
"Wenn wir sagen würden, dass GPT-4 einen Teil dieser Studie entworfen, einen Teil der Analyse durchgeführt und beim Verfassen des Manuskripts geholfen hat, abgesehen von den Abschnitten, in denen wir GPT-4 gezielt zitiert haben, welche Teile des Manuskripts würden Sie als von GPT-4 geschrieben identifizieren und nicht als von den aufgeführten Autoren?"
Wenn die Forscher "geschummelt" haben, indem sie die Studie mit Hilfe von KI geschrieben haben, wie würden Sie das beweisen?