Wie KI-Systeme vor die Hunde gehen können

26. Juli 2024 um 12:35
  • innovation
  • Studie
  • Künstliche Intelligenz
image
Illustration: Erstellt durch Inside IT mit Midjourney

KI-Modelle können kollabieren, wenn sie mit zu viel von anderen KIs erzeugten Inhalten gefüttert werden. Eine neue Studie erläutert, warum.

"Hunderassen? Es gibt Golden Retriever und Golden Retriever. Und dann noch Golden Retriever." Das könnte die Antwort eines "kollabierten" KI-Modells sein, wenn man es nach verschiedenen Hunderassen fragt. Ein solcher Kollaps eines generativen KI-Modells kann geschehen, wenn es mit zu viel Daten gefüttert wird, die ihrerseits auch schon von einer KI erzeugt wurden. Dies haben Studien in der Vergangenheit bereits gezeigt.
Diese Erkenntnis wird auch in einem aktuellen Papier eines Forscherteams rund um Ilia Shumailov bekräftigt, das von 'Nature' veröffentlicht worden ist. Shumailov ist Mitarbeiter bei Google Deepmind und forscht gleichzeitig an der Universität von Oxford.
In einem begleitenden Artikel beschreibt Emily Wenger, Assistenzprofessorin für Computer Engineering an der Duke University anschaulich, wie eine "KI-Überdosis" einen Kollaps herbeiführen kann. Sie illustriert dies anhand eines KI-Bildgenerators, der Bilder von Hunden erzeugen soll. "Das KI-Modell wird dazu tendieren, Hunderassen zu präsentieren, die häufig in seinen Trainingsdaten zu finden sind." In diesen Trainingsdaten dürfte beispielsweise ein Golden Retriever deutlich häufiger auftauchen als ein Petit Basset Griffon Vendéen.
image
Ein Petit Basset Griffon Vendéen. Foto: Томасина / Wikipedia / CC BY SA 3.0
In den von dieser KI erzeugten Bildern dürften also Golden Retriever übervertreten sein, so Wenger. Und wenn man mit diesen Bildern wiederum weitere KI-Generationen trainiere, verschärfe sich das Problem immer weiter, bis es schliesslich zum Kollaps kommt: Die KI kann dann keine brauchbaren Resultate mehr generieren.

Wie unterscheidet man KI-Inhalte von anderen Inhalten?

Ist doch kein Problem, könnte man meinen: Die Entwickler müssen einfach keine KI-generierten Daten zum Training von Modellen verenden. Allerdings suchen sich die meisten Entwickler ihre Trainingsdaten automatisiert (und möglichst ohne zu bezahlen) im Internet zusammen. Das grosse Problem, das auch Shumailov anspricht, ist, dass das Internet seit dem Aufkommen von generativen KI-Systemen immer mehr von Inhalten überschwemmt wird, die von diesen Systemen erzeugt wurden.
Wie können diese Daten aus Trainingsdaten ausgefiltert werden? Eine Möglichkeit wären "Wasserzeichen", mit denen KIs von ihnen erzeugte Inhalte kennzeichnen. Dafür müssten die KI-Entwickler, die ja meist Konkurrenten sind, aber in hohem Masse zusammenarbeiten und Informationen austauschen. Zudem können Wasserzeichen relativ einfach aus Bildern entfernt werden. Und bei Texten funktionieren sie gar nicht.
"Es ist unklar, wie die immer grösseren Mengen an Daten, die von Large Language Models (LLMs) generiert werden, im Internet verfolgt werden könnten", heisst es im Papier von Shumailov und seinen Kollegen. Eine Option, so die Forschenden weiter, könnte eine Zusammenarbeit der gesamten Community sein. Die verschiedenen Parteien, die an der Entwicklung und Bereitstellung von LLMs beteiligt sind, müssten untereinander Informationen darüber austauschen, wie die von ihren KIs erzeugten Daten erkennbar sind. Andernfalls werde es immer schwieriger werden, KIs zu trainieren.

Loading

Mehr zum Thema

image

IBM stellt seine neue Mainframe vor für On-Prem KI

Mit IBM z17 bringt der US-Konzern seine neueste Mainframe-Hardware auf den Markt. Sie soll sich vor allem auch für KI-Anwendungen eignen.

publiziert am 8.4.2025
image

Westschweizer Spitalgruppe EHC nutzt KI für Admin-Aufgaben

Das Ensemble Hospitalier de la Côte hat in einem Pilotprojekt mit dem Zürcher Software-Startup Saipient den Einsatz von KI-Lösungen getestet. Die Bilanz ist positiv.

publiziert am 7.4.2025
image

Meta veröffentlicht neues KI-Modell Llama 4

Der US-Konzern hat die neue Kollektion seiner Flagship-Modelle veröffentlicht. Sie sind Open Source verfügbar, allerdings nicht in der EU.

publiziert am 7.4.2025
image

Löhne in der Schweizer Informatik steigen leicht

Der Einstiegslohn in der Schweizer ICT-Branche liegt bei genau 5000 Franken. Laut dem neusten Lohnbuch des Amts für Wirtschaft und Arbeit des Kantons Zürich steigen die Löhne leicht.

publiziert am 4.4.2025