Wie Künstliche Intelligenz KI-Modelle zerstören könnte

4. März 2024 um 12:56
  • innovation
  • künstliche intelligenz
  • F&E
image
Illustration: Erstellt durch inside-it.ch mit Dall-E / GPT-4

OpenAI bemüht sich, Zugang zu von Menschen generierten Inhalten zu bekommen. Das ist auch dringend nötig, denn das Internet wird bald mit KI-Inhalten überschwemmt sein.

In wenigen Jahren wird ein Grossteil der Onlineinhalte von KI erstellt sein. Ein Report geht davon aus, dass 2026 bis zu 90% der Inhalte synthetisch sind. Mit synthetischen Medien sind Texte, Bilder, Videos oder Audio gemeint, die teilweise oder komplett mit KI erstellt wurden. Dies könnte zu einem Problem für generative KI-Tools respektive deren zugrundeliegende Modelle werden. Denn wenn das Internet mit synthetischen Medien überflutet wird, steigt die Chance, dass KI-Modelle mit eben diesen Inhalten trainiert werden.
KI-Systeme können in diesem Fall nicht mehr richtig funktionieren, die Qualität der Ergebnisse verschlechtert sich dramatisch. Dies zeigen mehrere Studien aus dem Jahr 2023. Demnach bricht ein KI-Modell, das auf Grundlage der Ergebnisse anderer Modelle trainiert wurde, im Schnitt nach drei bis vier Runden zusammen. Man spricht hier von "Model Collapse", einem degenerativen Prozess, bei dem Modelle die zugrundeliegende Datenverteilung (Data Distribution) verlernen. Dieses Wissen ist aber wichtig, um die richtigen Schlüsse aus den Daten zu ziehen.

Unbrauchbare Ergebnisse

Im Paper "Towards Understanding the Interplay of Generative Artificial Intelligence and the Internet" zeigen die Autoren, wie sich die Qualität von KI-generierten Bildern mit der Zeit verschlechtert, wenn das Modell mit synthetischen Daten trainiert wird. Ein Modell, das auf eine bestimmte Kategorie von Bildern, wie Fotos von Vögeln und Blumen, trainiert wurde, generiere bereits innerhalb von zwei Generationen unbrauchbare Ergebnisse, so das Paper.
image
Quelle: "Towards Understanding the Interplay of Generative Artificial Intelligence and the Internet" , 2023
Bei diesem Beispiel handle es sich allerdings um einen Worst Case, kommentiert Co-Autor Rik Sarkar. Denn der Datensatz sei begrenzt gewesen, und die Ergebnisse jeder Generation seien direkt in das Modell zurückgeführt worden. "Dennoch zeigen die Ergebnisse, dass das Modell zusammenbrechen kann, wenn der Trainingsdatensatz eines Modells zu viele von der KI generierte Daten enthält", so Sarkar gegenüber 'Spektrum', dem Magazin der IEEE.
Dies ist nicht nur für generative KI-Tools wie ChatGPT oder Midjourney relevant. Es könnte auch zum Problem beim Einsatz von Machine-Learning-Modellen werden, die im Security-Umfeld eingesetzt werden. KI-Modelle, die wiederholt auf Daten trainiert werden, die von ihren Vorgängerversionen generiert wurden, konzentrieren sich laut den Forschungsergebnissen auf gemeinsame Muster und vergessen seltenere Ereignisse. Gerade aber diese seltenen Fälle sind relevant, etwa bei der Erkennung von Anomalien oder Betrugsversuchen.

Wasserzeichen und von Menschen generierte Inhalte

"So wie wir die Ozeane mit Plastikmüll überschwemmt und die Atmosphäre mit Kohlendioxid gefüllt haben, so sind wir dabei, das Internet mit Blabla zu füllen", sagt Ross Anderson, Professor an der Universität Cambridge und der Universität Edinburgh. Er ist Mitautor des Papers "The Curse of Recursion: Training on Generated Data Makes Models Forget".
Es wird immer schwieriger, neue Modelle mit Web-Scraping zu trainieren. Dies verschafft Anbietern, die dies bereits getan haben, einen Vorteil. Es überrascht somit auch nicht, dass sich die Entwickler von KI-Modellen bemühen, Zugang zu von Menschen produzierten Inhalten zu sichern. So versucht OpenAI beispielsweise Partnerschaften mit Medienunternehmen zu schliessen, auch auf Inhalte von Wordpress und Tumbler will das KI-Startup zugreifen können.
Wichtig wäre, so ein Fazit der Forschenden, dass KI-Unternehmen die von ihren Modellen generierten Inhalte mit Wasserzeichen kennzeichnen. So könnte verhindert werden, dass zu viele synthetische Daten für das Training verwendet werden. Die Branche sollte auch versuchen, den Zugang zu Daten aus der Zeit vor dem Launch von ChatGPT aufrechtzuerhalten, hiess es in einem Bericht von 'Tech Target'.

Loading

Mehr erfahren

Mehr zum Thema

image

Google: KI-Suche und eine Antwort auf ChatGPT-4o

Die mit KI angereicherte Suche wirft ernste Fragen für Site-Betreiber auf. Google kündigte auch viele weitere KI-Neuerungen an.

publiziert am 15.5.2024
image

Machen xAI und Oracle bei KI gemeinsame Sache?

Gerüchten zufolge will das KI-Startup von Elon Musk GPU-Server bei Oracle mieten. Dafür sollen 10 Milliarden Dollar fliessen.

publiziert am 15.5.2024
image

Swiss Digital Initiative trimmt Label auf KI

Mit einem aktualisierten Kriterienkatalog soll der vertrauenswürdige und verantwortungsvolle Einsatz von KI vorangetrieben werden.

publiziert am 14.5.2024
image

Anthropic bringt Claude in die Schweiz

Das KI-Startup macht seinen Chatbot in weiten Teilen Europas verfügbar. Er ist ab sofort nutzbar. Für die Pro-Version fallen allerdings Gebühren an.

publiziert am 14.5.2024