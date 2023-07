Der Chatbot ChatGPT von OpenAI ist zwischen März und Juni schlechter geworden. Das zeigen Tests aus den USA, wie 'The Register' berichtet.

"Wir haben das Verhalten von ChatGPT ausgewertet und grosse Unterschiede in seinem Antworten auf dieselben Fragen zwischen der Juni-Version von GPT-4 und GPT-3.5 und den März-Versionen festgestellt", erklärt James Zou von der Stanford University. Die späteren Versionen hätten dabei bei einigen Fragestellungen fehlerhafter abgeschnitten.

Die KI musste während der Tests beispielsweise mathematische Probleme lösen, unethische Fragen beantworten, Code generieren und Aufgaben im Bereich des visuellen Denkens durchführen.

Fehlerhafter Code und falsche Mathe-Lösungen

Den mathematischen Tests zufolge erkannte GPT-4 im März 97,4% der Fälle korrekt. Als der Bot im Juni mit denselben Fragen getestet wurde, scheiterte er aber "kläglich", schreibt 'The Register'. Die Genauigkeit sei auf 2,4% gesunken.

Bei GPT-3.5 war es hingegen genau das Gegenteil: Im März war das Modell schlechter in Mathe und konnte eine Primzahl in nur 7,4% der Fälle richtig identifizieren, im Juni dagegen verbesserte sich das Ergebnis auf 86,8%.

Die Expertinnen und Experten testeten anhand einer Liste von 50 Programmieraufgaben ausserdem die Programmierfähigkeiten der beiden Modelle. Eine Antwort, die fehlerfreien Code enthält, der die richtige Antwort liefert, wurde als direkt ausführbarer Code betrachtet. Die Anzahl der von GPT-4 generierten direkt ausführbaren Skripte sank von 52% auf 10% und bei GPT-3.5 von 22% auf 2%.

"Wir verstehen nicht vollständig, was die Veränderungen in den Antworten von ChatGPT verursacht, die Modelle sind eher undurchsichtig", sagt Zou. Es sei möglich, dass die Optimierung des Modells in einigen Bereichen die Leistung verschlechtert.

Die Expertinnen und Experten stellen ausserdem fest, dass die Modelle bei manchen Aufgaben oft weniger ausführliche Antworten lieferten. GPT-4 war beispielsweise besser darin geworden, unangemessene Fragen nicht mehr zu beantworten. Statt längere Antworten zu generieren, in denen detailliert dargelegt wird, warum es nicht aktiviert werden sollte, gab es später nur noch einsilbige Antworten.

Regelmässig testen

Gemäss den Entwicklern soll man die Modelle regelmässig testen, damit auch Folgewirkungen auf GPT-basierende Anwendungen und Dienste festgestellt werden können.

"Diese KI-Tools werden immer häufiger als Komponenten grosser Systeme verwendet. Die Identifizierung von Abweichungen im Laufe der Zeit könnte auch Erklärungen für unerwartetes Verhalten dieser grossen Systeme liefern und so ihren Debugging-Prozess vereinfachen“, sagte Chen, Co-Autor des Berichtes und Doktorand in Stanford, gegenüber 'The Register'.