Für die Entwicklung von KI-Modellen werden Unmengen an Daten gebraucht. Bei OpenAI, dem Unternehmen hinter dem Chatbot ChatGPT, geht man davon aus, dass bis 2021 sämtliche im Internet frei verfügbaren Daten in englischer Sprache als Trainingsmaterial verwendet wurden. Weil die öffentlichen Informationen damit aufgebraucht waren, musste das Startup neue Wege suchen, um an weitere Inhalte zu kommen.
Millionen für Content
Dabei zahlen die grossen KI-Unternehmen
Millionen für die Rechte an von Menschen generiertem Content. Gemäss einem Bericht von
'Reuters' bewegten sich die Deals mit den Medienhäusern anfangs in einer Grössenordnung von jeweils 25 bis 50 Millionen Dollar. Dabei seien die meisten jedoch später nochmals erweitert worden, sagte Jarrod Yahes, Chief Financial Officer von der Fotoplattform Shutterstock, gegenüber der Nachrichtenagentur.
In den vergangenen zwei Monaten seien zudem auch viele kleinere KI-Firmen nachgezogen und hätten eine regelrechte "Flut von Aktivitäten" ausgelöst, fügte er hinzu. Die Bilderplattform Freepik teilte 'Reuters' mit, dass sie mit zwei grossen Tech-Unternehmen Vereinbarungen über die Lizenzierung von 200 Millionen Bildern getroffen habe. Die Kosten dafür belaufen sich auf rund zwei bis vier Cent pro Bild.
Ein Dollar pro Bild
Dabei variieren die Preise je nach Käufer und Inhaltstyp stark. Daniela Braga ist CEO von Defined.ai und lizenziert mit ihrem Unternehmen Daten für grosse Tech-Konzerne wie Google, Meta, Apple, Amazon und Microsoft. Gegenüber 'Reuters' sagte sie, dass KI-Unternehmen bereit sind, rund ein bis zwei US-Dollar für die Verwendung eines Bildes zu bezahlen.
Teurer wird das KI-Training nur mit bewegten Bildern. Für ein Kurzvideo sollen demnach zwischen zwei und vier Dollar drin liegen. Für längere Filme sollen es 100 bis 300 US-Dollar pro Stunde sein. Der Marktpreis für Texte liege bei 0,001 Dollar pro Wort, fügte sie hinzu. Auch Bilder mit Nacktheit seien gefragt und werden mit 5 bis 7 Dollar belohnt, so die CEO.
Bedenken bezüglich Datenschutz
Während die Lizenzierung für Big Tech einige rechtliche und ethische Probleme lösen könnte, wirft die Verwendung von nutzergenerierten Inhalten einige neue Fragen auf, insbesondere im Hinblick auf die Privatsphäre der Nutzerinnen und Nutzer. Die Vereinbarungen bedeuten, dass private Fotos oder intime Gedanken, die vor Ewigkeiten gepostet wurden, möglicherweise ohne eine vorherige Ankündigung oder ausdrückliche Zustimmung in der Ausgabe einer generativen KI landen könnten.
Den Plattformbetreibern reicht dazu eine einfache Aktualisierung der Nutzungsbedingungen. So zuletzt
geschehen bei Automattic, dem Mutterunternehmen hinter Tumblr und Wordpress. Daniela Braga sieht diese Praxis kritisch: "Wenn eine KI etwas generiert, das einem Bild von jemandem ähnelt, der das nie genehmigt hat, ist das ein Problem", sagte sie gegenüber 'Reuters'. Defined.ai hat deshalb für all seine Datensätze die Zustimmung der betroffenen Personen und teilt sich die Einnahmen mit diesen.