Was Big Tech für KI-Trainingsdaten bezahlt

8. April 2024 um 10:05
image
Illustration: Erstellt durch inside-it.ch mit Midjourney

KI-Unternehmen geben Millionen für die Rechte an Inhalten aus. Je nach Käufer und Inhaltstyp kann ein einzelnes Bild fürs KI-Training schnell mal einen Dollar kosten.

Für die Entwicklung von KI-Modellen werden Unmengen an Daten gebraucht. Bei OpenAI, dem Unternehmen hinter dem Chatbot ChatGPT, geht man davon aus, dass bis 2021 sämtliche im Internet frei verfügbaren Daten in englischer Sprache als Trainingsmaterial verwendet wurden. Weil die öffentlichen Informationen damit aufgebraucht waren, musste das Startup neue Wege suchen, um an weitere Inhalte zu kommen.
Im Juli 2023 konnte OpenAI eine erste Kooperationsvereinbarung mit der Nachrichtenagentur 'Associated Press' (AP) abschliessen. Fortan musste das KI-Startup zwar für die Nutzung der Inhalte bezahlen. Im Gegenzug durfte das Unternehmen einen Teil des Archivs nutzen, um seine Algorithmen zu trainieren. Es folgten weitere Partnerschaften mit dem Verlag Axel Springer und anderen Medien.

Millionen für Content

Dabei zahlen die grossen KI-Unternehmen Millionen für die Rechte an von Menschen generiertem Content. Gemäss einem Bericht von 'Reuters' bewegten sich die Deals mit den Medienhäusern anfangs in einer Grössen­ordnung von jeweils 25 bis 50 Millionen Dollar. Dabei seien die meisten jedoch später nochmals erweitert worden, sagte Jarrod Yahes, Chief Financial Officer von der Fotoplattform Shutterstock, gegenüber der Nachrichtenagentur.
In den vergangenen zwei Monaten seien zudem auch viele kleinere KI-Firmen nachgezogen und hätten eine regelrechte "Flut von Aktivitäten" ausgelöst, fügte er hinzu. Die Bilderplattform Freepik teilte 'Reuters' mit, dass sie mit zwei grossen Tech-Unternehmen Vereinbarungen über die Lizenzierung von 200 Millionen Bildern getroffen habe. Die Kosten dafür belaufen sich auf rund zwei bis vier Cent pro Bild.

Ein Dollar pro Bild

Dabei variieren die Preise je nach Käufer und Inhaltstyp stark. Daniela Braga ist CEO von Defined.ai und lizenziert mit ihrem Unternehmen Daten für grosse Tech-Konzerne wie Google, Meta, Apple, Amazon und Microsoft. Gegenüber 'Reuters' sagte sie, dass KI-Unternehmen bereit sind, rund ein bis zwei US-Dollar für die Verwendung eines Bildes zu bezahlen.
Teurer wird das KI-Training nur mit bewegten Bildern. Für ein Kurzvideo sollen demnach zwischen zwei und vier Dollar drin liegen. Für längere Filme sollen es 100 bis 300 US-Dollar pro Stunde sein. Der Marktpreis für Texte liege bei 0,001 Dollar pro Wort, fügte sie hinzu. Auch Bilder mit Nacktheit seien gefragt und werden mit 5 bis 7 Dollar belohnt, so die CEO.

Bedenken bezüglich Datenschutz

Während die Lizenzierung für Big Tech einige rechtliche und ethische Probleme lösen könnte, wirft die Verwendung von nutzergenerierten Inhalten einige neue Fragen auf, insbesondere im Hinblick auf die Privatsphäre der Nutzerinnen und Nutzer. Die Vereinbarungen bedeuten, dass private Fotos oder intime Gedanken, die vor Ewigkeiten gepostet wurden, möglicherweise ohne eine vorherige Ankündigung oder ausdrückliche Zustimmung in der Ausgabe einer generativen KI landen könnten.
Den Plattformbetreibern reicht dazu eine einfache Aktualisierung der Nutzungs­bedingungen. So zuletzt geschehen bei Automattic, dem Mutter­unternehmen hinter Tumblr und Wordpress. Daniela Braga sieht diese Praxis kritisch: "Wenn eine KI etwas generiert, das einem Bild von jemandem ähnelt, der das nie genehmigt hat, ist das ein Problem", sagte sie gegenüber 'Reuters'. Defined.ai hat deshalb für all seine Datensätze die Zustimmung der betroffenen Personen und teilt sich die Einnahmen mit diesen.

Loading

Mehr erfahren

Mehr zum Thema

image

Business Bytes mit Urs Lehner – KI: Ohne Schweiss, kein Preis!

Im Format Business Bytes äussert sich Urs Lehner, Head of Swisscom Business Customers zu aktuellen Mythen aus dem ICT-Universum. Thema dieser Folge: Künstliche Intelligenz im Unternehmen.

image

Microsoft krebst zurück und macht Recall freiwillig

Die Kritik war offensichtlich zu stark: Microsoft schaltet das Screenshot-Feature Recall standardmässig aus.

publiziert am 10.6.2024
image

Zürcher Chip-Startup Synthara sammelt 11 Millionen

Das Spin-off der ETH und Universität Zürich will mit seiner Technologie leistungsfähigere Halbleiter ermöglichen. Diese sollen nicht zuletzt bei KI-Anwendungen zum Einsatz kommen.

publiziert am 10.6.2024
image

Quellcode von New York Times gestohlen

Im Januar wurden der Zeitung interne Daten aus Github-Repositories gestohlen. Darunter befand sich auch der Quellcode, der jetzt geleakt wurde.

publiziert am 10.6.2024