Wie KI-Systeme vor die Hunde gehen können

26. Juli 2024 um 12:35
  • innovation
  • künstliche intelligenz
  • Studie
image
Illustration: Erstellt durch Inside IT mit Midjourney

KI-Modelle können kollabieren, wenn sie mit zu viel von anderen KIs erzeugten Inhalten gefüttert werden. Eine neue Studie erläutert, warum.

"Hunderassen? Es gibt Golden Retriever und Golden Retriever. Und dann noch Golden Retriever." Das könnte die Antwort eines "kollabierten" KI-Modells sein, wenn man es nach verschiedenen Hunderassen fragt. Ein solcher Kollaps eines generativen KI-Modells kann geschehen, wenn es mit zu viel Daten gefüttert wird, die ihrerseits auch schon von einer KI erzeugt wurden. Dies haben Studien in der Vergangenheit bereits gezeigt.
Diese Erkenntnis wird auch in einem aktuellen Papier eines Forscherteams rund um Ilia Shumailov bekräftigt, das von 'Nature' veröffentlicht worden ist. Shumailov ist Mitarbeiter bei Google Deepmind und forscht gleichzeitig an der Universität von Oxford.
In einem begleitenden Artikel beschreibt Emily Wenger, Assistenzprofessorin für Computer Engineering an der Duke University anschaulich, wie eine "KI-Überdosis" einen Kollaps herbeiführen kann. Sie illustriert dies anhand eines KI-Bildgenerators, der Bilder von Hunden erzeugen soll. "Das KI-Modell wird dazu tendieren, Hunderassen zu präsentieren, die häufig in seinen Trainingsdaten zu finden sind." In diesen Trainingsdaten dürfte beispielsweise ein Golden Retriever deutlich häufiger auftauchen als ein Petit Basset Griffon Vendéen.
image
Ein Petit Basset Griffon Vendéen. Foto: Томасина / Wikipedia / CC BY SA 3.0
In den von dieser KI erzeugten Bildern dürften also Golden Retriever übervertreten sein, so Wenger. Und wenn man mit diesen Bildern wiederum weitere KI-Generationen trainiere, verschärfe sich das Problem immer weiter, bis es schliesslich zum Kollaps kommt: Die KI kann dann keine brauchbaren Resultate mehr generieren.

Wie unterscheidet man KI-Inhalte von anderen Inhalten?

Ist doch kein Problem, könnte man meinen: Die Entwickler müssen einfach keine KI-generierten Daten zum Training von Modellen verenden. Allerdings suchen sich die meisten Entwickler ihre Trainingsdaten automatisiert (und möglichst ohne zu bezahlen) im Internet zusammen. Das grosse Problem, das auch Shumailov anspricht, ist, dass das Internet seit dem Aufkommen von generativen KI-Systemen immer mehr von Inhalten überschwemmt wird, die von diesen Systemen erzeugt wurden.
Wie können diese Daten aus Trainingsdaten ausgefiltert werden? Eine Möglichkeit wären "Wasserzeichen", mit denen KIs von ihnen erzeugte Inhalte kennzeichnen. Dafür müssten die KI-Entwickler, die ja meist Konkurrenten sind, aber in hohem Masse zusammenarbeiten und Informationen austauschen. Zudem können Wasserzeichen relativ einfach aus Bildern entfernt werden. Und bei Texten funktionieren sie gar nicht.
"Es ist unklar, wie die immer grösseren Mengen an Daten, die von Large Language Models (LLMs) generiert werden, im Internet verfolgt werden könnten", heisst es im Papier von Shumailov und seinen Kollegen. Eine Option, so die Forschenden weiter, könnte eine Zusammenarbeit der gesamten Community sein. Die verschiedenen Parteien, die an der Entwicklung und Bereitstellung von LLMs beteiligt sind, müssten untereinander Informationen darüber austauschen, wie die von ihren KIs erzeugten Daten erkennbar sind. Andernfalls werde es immer schwieriger werden, KIs zu trainieren.

Loading

Mehr erfahren

Mehr zum Thema

image

Ikea setzt auf Schweizer Drohnen

Das Möbelhaus setzt Drohnen ein, die Inventuren von Lager­be­stän­den durchführen. Mit an Bord ist auch ein Schweizer Startup.

publiziert am 20.8.2024
image

Zürcher RZ-Kühlungs-Startup sammelt 1,85 Millionen Dollar

Schätzungen zufolge werden Rechenzentren bis 2030 bis zu 4% des globalen Stromverbrauchs ausmachen. Mit seinem Metallschaum will Apheros dies ändern.

publiziert am 20.8.2024
image

Thurgauer Technologie-Forscher erhält Auszeichnung

Tobias Mettler beschäftigt sich mit der Adaption von neuen Technologien. Für seine Forschung zur vernetzten Arbeitsplatzüberwachung wurde er mit dem Forschungspreis Walter Enggist ausgezeichnet.

publiziert am 19.8.2024
image

Chinesische Techkonzerne verstärken Lobbyarbeit in Europa

Schwerpunkte bilden laut einer neuen Untersuchung Brüssel und Berlin. Für das Lobbying werden Millionenbeträge aufgewendet.

publiziert am 19.8.2024