Niemand ausserhalb der Entwicklerfirma OpenAI weiss, welche Daten zum Training von ChatGPT verwendet wurden. Vielleicht weiss man auch bei OpenAI selbst nicht, welche Texte ChatGPT konsumiert hat, denn der Bot scheint relativ frei ins Internet geschickt geworden zu sein, um Lernmaterial zu sammeln, auch wenn er nur Informationen von vor 2022 verwenden darf.

Ein Forscherteam der Universität Berkeley in Kalifornien glaubt aber zumindest nachweisen zu können, welche Werke der Sprach-Bot am besten kennt beziehungsweise teilweise auswendig gelernt haben muss. Um dies herauszufinden, hat das Team der KI Passagen aus 600 bekannten englischsprachigen Romanen vorgelegt. In diesen Textpassagen waren jeweils die Namen von bestimmten Personen maskiert. ChatGPT wurde angewiesen, diese Namen anzugeben.

Wie sich laut dem Forscherteam zeigte, kennt ChatGPT den 1865 von Lewis Carroll geschriebenen Fantasy-Roman "Alice in Wonderland" mit Abstand am besten. Die noch auf GPT-3 basierende KI konnte 82% der maskierten Namen angeben, das fortschrittlichere Sprachmodell GPT-4 sogar 98%. Etwa halb so gut war ChatGPT bei J.K. Rowlings Harry Potter and the Sorcerer's Stone. Dahinter folgten mit The Scarlett Letter (Nathaniel Hawthorne), The Adventures of Sherlock Holmes (Arthur Conan Doyle) und Emma (Jane Austen) weitere Klassiker. Hier ist die komplette Liste (Google Doc).

ChatGPT liest, was im Internet populär ist

Allgemein kennt ChatGPT laut den Forschungsresultaten Literatur aus den Genres Science Fiction und Fantasy mit einer Duchschnitts-Trefferquote von knapp 11% am genauesten. Vor 1923 geschriebene Romane folgen mit 7%, beim Genre Horror sind es noch knapp 3%. (Die Trefferquote von GPT-4 ist jeweils rund doppelt so hoch). Vergleichsweise sehr schlecht schneidet die KI bei Pulitzer-Preis-gekrönten Büchern oder bekannten Werken von afroamerikanischen Autorinnen und Autoren ab.

Woher kommt das? Laut den Forschern scheint die Trefferquote damit zusammenzuhängen, wie oft Passagen aus diesen Werken im Internet zitiert werden. Die KI kennt also die Literatur weitaus am besten, die auch im Internet oft besprochen wird. Das ist logischerweise eine Quelle für potenzielle Vorurteile. "Angesichts dieser Übergewichtung von SciFi und Fantasy sollten wir uns überlegen, welche Arten von Erfahrungen in diese Modelle einprogrammiert werden, und wie sich das auf ihr Verhalten auswirkt", kommentiert David Bamman, einer der Mitautoren der Studie, auf Twitter.

Die Studienautoren plädieren dafür, dass beim Training von Sprachmodellen unbedingt Datensätze verwendet werden sollten, deren Inhalte öffentlich bekannt sind, damit ihr Verhalten transparenter wird.