

Internet Archive mehrfach offline – war KI-Training schuld?
30. Mai 2023 um 09:42Kürzlich ging das Archiv für Stunden offline. Grund waren 10'000 Anfragen von einem AWS-Host. Die Macher vermuten ein leichtfertiges Training für ein KI-Modell hinter dem Vorfall.
Über Pfingsten ging das Internet Archive mehrfach offline. Von einem virtuellen Host auf Amazons Web Services (AWS) waren in kurzer Zeit zu viele Anfragen für das System eingegangen. Bereits einige Stunden später wiederholte sich das Prozedere. Über zehntausend Anfragen pro Sekunde legten das Archiv lahm.
Es handelte sich aber mutmasslich nicht um einen absichtlichen DDoS-Angriff. Vielmehr soll jemand für das Training eines KI-Modells automatisiert auf Textsammlungen zugegriffen haben. Die Betreiber des Archivs wissen nicht, wer konkret dahintersteckt, sie vermuten aber den Entwickler eines Large Language Models (LLM), das die Basis für generative Sprach-KI wie ChatGPT ist.
Den ersten "Angriff" wehrte das Team ab, indem es dutzende IP-Adressen blockierte. Doch bloss wenige Stunden später wurden von 64 neuen Adressen dieselben Aktivitäten registriert, woraufhin das Internet Archive erneut offline ging.
Man wisse nicht, welches brillante Genie so viele Textdateien haben wolle, dass der ganze Laden überschwemmt werde, schreibt Jason Scott auf Mastodon. Verärgert hat das Teammitglied des Internet Archives, dass die Urheber trotz der ersten Blockade mit demselben Verfahren weitergefahren sind. "Benutzt das Internet Archive, aber kickt uns dabei nicht aus dem Netz", so Scott weiter.
Der Vorfall sei nicht der erste seiner Art, man habe das über die Jahre hin und wieder beobachtet. Es gebe viele Forscher, die in grosser Anzahl Informationen aus dem Archiv beziehen würden. Man könne sich aber bei den Machern melden, um einen Weg zu vereinbaren, wie das ohne Downtime zu bewerkstelligen sei, schreibt Scott.
Das Nonprofit-Projekt Internet Archive speichert Informationen aus dem Netz und stellt diese frei zur Verfügung. Neben der bekannten Wayback Machine, die Abbilder von Websites zu bestimmten Zeitpunkten erstellt, bietet es auch eine digitale Bibliothek mit diversen Materialien.
Loading
"Hey Google, verzichte auf meine Inhalte für KI-Trainings"
Zeitungsverlage können selbst entscheiden, ob sie ihre Inhalte für die Verbesserung der Google-KI Bard zur Verfügung stellen wollen oder nicht.
Unispital Zürich ersetzt On-Prem-Skype durch Microsoft 365
Das USZ will in der Kommunikation konsequent auf Microsofts Cloud setzen. Dies zeigt eine interne Nachricht an die Mitarbeitenden.
Post bietet digitalen Briefeinwurf für KMU
Zusammen mit Klara hat die Schweizer Post einen virtuellen Briefkasten entwickelt. Der Konzern adressiert damit KMU, hält sich mit konkreten Zielsetzungen aber bedeckt.
OpenAI lässt ChatGPT von der Leine
Der Konzern hat seinem KI-System einen Zugang zum Internet gegeben. So ist der Chatbot nicht länger auf sein Wissen von vor September 2021 beschränkt.