ChatGPT wird fehlerhafter

20. Juli 2023 um 10:19

Foto: Tada Images / Unsplash

Der Chatbot ChatGPT von OpenAI ist zwischen März und Juni schlechter geworden, zeigen Forschende.

Der Chatbot ChatGPT von OpenAI ist zwischen März und Juni schlechter geworden. Das zeigen Tests aus den USA, wie 'The Register' berichtet.

"Wir haben das Verhalten von ChatGPT ausgewertet und grosse Unterschiede in seinem Antworten auf dieselben Fragen zwischen der Juni-Version von GPT-4 und GPT-3.5 und den März-Versionen festgestellt", erklärt James Zou von der Stanford University. Die späteren Versionen hätten dabei bei einigen Fragestellungen fehlerhafter abgeschnitten.

Die KI musste während der Tests beispielsweise mathematische Probleme lösen, unethische Fragen beantworten, Code generieren und Aufgaben im Bereich des visuellen Denkens durchführen.

Fehlerhafter Code und falsche Mathe-Lösungen

Den mathematischen Tests zufolge erkannte GPT-4 im März 97,4% der Fälle korrekt. Als der Bot im Juni mit denselben Fragen getestet wurde, scheiterte er aber "kläglich", schreibt 'The Register'. Die Genauigkeit sei auf 2,4% gesunken.

Bei GPT-3.5 war es hingegen genau das Gegenteil: Im März war das Modell schlechter in Mathe und konnte eine Primzahl in nur 7,4% der Fälle richtig identifizieren, im Juni dagegen verbesserte sich das Ergebnis auf 86,8%.

Die Expertinnen und Experten testeten anhand einer Liste von 50 Programmieraufgaben ausserdem die Programmierfähigkeiten der beiden Modelle. Eine Antwort, die fehlerfreien Code enthält, wurde als direkt ausführbarer Code betrachtet. Die Anzahl der von GPT-4 generierten direkt ausführbaren Skripte sank von 52% auf 10% und bei GPT-3.5 von 22% auf 2%.

"Wir verstehen nicht vollständig, was die Veränderungen in den Antworten von ChatGPT verursacht, die Modelle sind eher undurchsichtig", sagt Zou. Es sei möglich, dass die Optimierung des Modells in einigen Bereichen die Leistung verschlechtert.

Die Expertinnen und Experten stellen ausserdem fest, dass die Modelle bei manchen Aufgaben oft weniger ausführliche Antworten lieferten. GPT-4 war beispielsweise besser darin geworden, unangemessene Fragen nicht mehr zu beantworten. Statt längere Antworten zu generieren, in denen detailliert dargelegt wird, warum das KI-Modell nicht aktiviert werden sollte, gab es später nur noch einsilbige Antworten.

Regelmässig testen

Gemäss den Entwicklern soll man die Modelle regelmässig testen, damit auch Folgewirkungen auf GPT-basierende Anwendungen und Dienste festgestellt werden können.

"Diese KI-Tools werden immer häufiger als Komponenten grosser Systeme verwendet. Die Identifizierung von Abweichungen im Laufe der Zeit könnte auch Erklärungen für unerwartetes Verhalten dieser grossen Systeme liefern und so ihren Debugging-Prozess vereinfachen“, sagte Lingjiao Chen, Co-Autor des Berichtes und Doktorand in Stanford, gegenüber 'The Register'.

Mehr zum Thema

TSMC plant weitere Milliardeninvestitionen

Der weltgrösste Chip-Auftragsfertiger will alleine in den Vereinigten Staaten zehn neue Fabriken bauen und dafür bis zu 265 Milliarden US-Dollar in die Hand nehmen.

AWS Summit bringt Two-Pizza-Teams in die Schweiz

Am 2. September findet mit dem "AWS Summit Zürich" einer der grössten IT-Anlässe der Schweiz statt. Über 80 Sessions erwarten das Publikum.

Security-Fachleute misstrauen KI – mehr oder weniger

KI kann die Effizienz erhöhen, aber manche fühlen mehr Stress als früher.

OpenAI verliert im EU-Markenstreit

Die Wortmarke "OpenAI" kann in der Europäischen Union nicht rechtlich geschützt werden. Sie suggeriere, dass Produkte auf frei zugänglicher Künstlicher Intelligenz basieren.