Die Onlineplattform Reddit hat einen Vertrag unterzeichnet, der es einem KI-Entwickler erlaubt, seine Modelle mit den Inhalten der Plattform trainieren zu dürfen. Dies berichtet 'Bloomberg' mit Berufung auf mit der Angelegenheit vertraute Personen.
Reddit strebt einen Börsengang an und hat dem Bericht zufolge potenzielle Investoren über den Deal mit einem KI-Entwickler informiert. Um welche es sich handelt, geht aus dem Bericht nicht hervor. Gegenüber
'Bloomberg' (Payall) hat sich das Unternehmen nicht auf Anfrage geäussert.
Auf der Plattform Reddit werden Userinnen und User zu praktisch jedem Thema fündig. Egal, ob es um Cybersecurity, Reisetipps oder um die Frage geht, welche Hamsterart am besten als Haustier geeignet ist. Den Unternehmensangaben zufolge umfasst der Inhalt über 16 Milliarden Posts und Kommentare. Täglich sind 70 Millionen Userinnen und User aktiv.
Verbieten oder Mitmachen?
Die Entwickler von generativer KI sind für das Training ihrer Modelle auf Inhalte angewiesen, die von Menschen erstellt wurden. Dazu bedienen sie sich an Material, das öffentlich im Internet verfügbar ist – unabhängig davon, ob dieses urheberrechtlich geschützt ist oder nicht. Gleichzeitig hat etwa der Chatbot ChatGPT anders als bei seinem Launch Zugang zum Internet und damit auch zu aktuellen Informationen.
Viele Unternehmen, darunter insbesondere auch Medienhäuser, stellen sich die Frage, wie sie damit umgehen sollen. OpenAI hat mit einigen Verlagshäusern Deals abgeschlossen, die es der Firma erlaubt, deren Inhalte für das Training zu verwenden. Eines davon ist die
US-Nachrichtenagentur 'AP'.Einen anderen Weg geht indes die 'New York Times'. Das Traditionsblatt verbietet KI-Anbietern die Nutzung seiner Inhalte und
verklagte Microsoft und OpenAI auf Schadensersatz.
Diskussion auch in Schweizer Medienunternehmen
Hierzulande verhindert '20 Minuten', dass KIs auf die Inhalte des Mediums zugreifen können. Gegenüber 'Persönlich' bestätigt das Unternehmen, dass KI-Crawler vom Scannen der eigenen Inhalte ausgeschlossen werden. So könne ChatGPT nicht auf aktuelle Inhalte zugreifen und diese auch nicht wiedergeben, wenn Nutzerinnen und Nutzer danach suchen. Ähnlich handhaben dies Tamedia und NZZ, wie eine
Befragung von 'Persönlich' zeigt.Allerdings verhindert das Blockieren eines KI-Crawlers nicht die Nutzung historischer Daten. Ob die Inhalte von '20 Minuten', 'Tages-Anzeiger' und Co. somit bereits für das Trainieren von KI-Modellen genutzt worden sind, bleibt offen.
Aber das Blockieren der Crawler sei auch als Signal zu verstehen, so Eliane Loum-Gräser, Leiterin Kommunikation '20 Minuten', zu 'Persönlich'. Die Inhalte gehörten dem Medienunternehmen und dürften nicht ohne Erlaubnis wiedergegeben werden. "Wie zuverlässig oder verbindlich diese Barriere respektiert wird, lässt sich Stand heute noch zu wenig beurteilen."
Eine neue Form der User-Interaktion
Anders sieht es beim
'Blick'-Herausgeber Ringier aus. KI-generierte Inhalte und Antworten würden eine immer wichtigere Rolle bei der Nutzerinteraktion spielen, zitiert 'Persönlich' einen 'Blick'-Sprecher. Man wolle über verschiedene Wege präsent sein, dies schliesse User, Suchmaschinen aber auch KI-Crawler ein. Auch bei 'SRF' gibt es dem Bericht zufolge noch keine Blockade, man wolle die Entwicklung weiterhin beobachten.
Update 22.2.: Der anfänglich noch unbekannte KI-Entwickler ist Google. Eine Quelle bestätigte Reuters den Namen und auch die bereits genannte Summe von 60 Millionen US-Dollar, die Reddit für die Lizenzierung der Daten pro Jahr verlangt.