ChatGPT wird fehlerhafter

20. Juli 2023 um 10:19
image
Foto: Tada Images / Unsplash

Der Chatbot ChatGPT von OpenAI ist zwischen März und Juni schlechter geworden, zeigen Forschende.

Der Chatbot ChatGPT von OpenAI ist zwischen März und Juni schlechter geworden. Das zeigen Tests aus den USA, wie 'The Register' berichtet.
"Wir haben das Verhalten von ChatGPT ausgewertet und grosse Unterschiede in seinem Antworten auf dieselben Fragen zwischen der Juni-Version von GPT-4 und GPT-3.5 und den März-Versionen festgestellt", erklärt James Zou von der Stanford University. Die späteren Versionen hätten dabei bei einigen Fragestellungen fehlerhafter abgeschnitten.
Die KI musste während der Tests beispielsweise mathematische Probleme lösen, unethische Fragen beantworten, Code generieren und Aufgaben im Bereich des visuellen Denkens durchführen.

Fehlerhafter Code und falsche Mathe-Lösungen

Den mathematischen Tests zufolge erkannte GPT-4 im März 97,4% der Fälle korrekt. Als der Bot im Juni mit denselben Fragen getestet wurde, scheiterte er aber "kläglich", schreibt 'The Register'. Die Genauigkeit sei auf 2,4% gesunken.
Bei GPT-3.5 war es hingegen genau das Gegenteil: Im März war das Modell schlechter in Mathe und konnte eine Primzahl in nur 7,4% der Fälle richtig identifizieren, im Juni dagegen verbesserte sich das Ergebnis auf 86,8%.
Die Expertinnen und Experten testeten anhand einer Liste von 50 Programmieraufgaben ausserdem die Programmierfähigkeiten der beiden Modelle. Eine Antwort, die fehlerfreien Code enthält, wurde als direkt ausführbarer Code betrachtet. Die Anzahl der von GPT-4 generierten direkt ausführbaren Skripte sank von 52% auf 10% und bei GPT-3.5 von 22% auf 2%.
"Wir verstehen nicht vollständig, was die Veränderungen in den Antworten von ChatGPT verursacht, die Modelle sind eher undurchsichtig", sagt Zou. Es sei möglich, dass die Optimierung des Modells in einigen Bereichen die Leistung verschlechtert.
Die Expertinnen und Experten stellen ausserdem fest, dass die Modelle bei manchen Aufgaben oft weniger ausführliche Antworten lieferten. GPT-4 war beispielsweise besser darin geworden, unangemessene Fragen nicht mehr zu beantworten. Statt längere Antworten zu generieren, in denen detailliert dargelegt wird, warum das KI-Modell nicht aktiviert werden sollte, gab es später nur noch einsilbige Antworten.

Regelmässig testen

Gemäss den Entwicklern soll man die Modelle regelmässig testen, damit auch Folgewirkungen auf GPT-basierende Anwendungen und Dienste festgestellt werden können.
"Diese KI-Tools werden immer häufiger als Komponenten grosser Systeme verwendet. Die Identifizierung von Abweichungen im Laufe der Zeit könnte auch Erklärungen für unerwartetes Verhalten dieser grossen Systeme liefern und so ihren Debugging-Prozess vereinfachen“, sagte Lingjiao Chen, Co-Autor des Berichtes und Doktorand in Stanford, gegenüber 'The Register'.

Loading

Mehr zum Thema

imageAbo

Keine US-Cloud für Schweizer Gesundheitsdaten

Das Bundesamt für Gesundheit will beim Aufbau des Schweizer Gesundheitsdatenraums offenbar auf US-Technologie verzichten. Dem Plan stehen rechtliche Vorgaben entgegen.

publiziert am 11.5.2026
imageAbo

Basels Datenschützerin will bei IT künftig früher konsultiert werden

In Basel-Stadt wurden SAP-, KI- und M365-Beschlüsse teilweise ohne Vorabkonsultation der Datenschutzbeauftragten gefällt. Sie hat aber erfolgreich auf Massnahmen hingewirkt.

publiziert am 11.5.2026
image

Chrome installiert Gemini automatisch

Chrome installiert Gemini lokal, sobald bestimmte KI-Einstellungen aktiviert sind. Nutzende erhalten dabei keine explizite Benachrichtigung.

publiziert am 8.5.2026
image

Deepl streicht ein Viertel der Stellen

Mehr KI, weniger Jobs, das gilt auch beim Kölner Sprachspezialisten.

publiziert am 8.5.2026