Sind gemietete ML-Modelle grundsätzlich unsicher?

21. April 2022, 14:21
  • security
  • künstliche intelligenz
image

Ein Team von Security-Forschern sagt, dass beim Training von Machine-Learning-Modellen komplett unentdeckbare Hintertüren eingebaut werden könnten.

Ein Team von 4 Forschern von der Universität Berkeley, dem MIT und dem Institute for Advanced Study haben ein Forschungspapier veröffentlicht, das in der KI- und Machine-Learning-Szene einige Aufregung verursachen könnte. Noch muss die Arbeit der 4 Forscher von anderen Security-Experten in einem Peer-Review-Prozess verifiziert werden. Wenn sie allerdings für gut befunden wird, heisst dies, dass Machine-Learning-Algorithmen ein grundsätzliches Sicherheitsproblem aufweisen, das nicht auf einfache Weise aus der Welt geschafft werden kann.
Shafi Goldwasser, Michael Kim, Vinod Vaikuntanathan und Or Zamir, die Verfasser des Papiers, sagen, dass sie Methoden demonstrieren können, mit denen beim Training von ML-Modellen, die bestimmte Dinge oder Umstände klassifizieren, Hintertüren eingebaut werden können. Diese könnten es den Urhebern erlauben, ein ML-System mit spezifisch manipulierten Inputs zu einer von ihnen gewünschten Entscheidung zu veranlassen.
Um dies zu illustrieren nennen die Forscher eine Bank, die von einem Provider ein manipuliertes ML-basiertes Modell zur Beurteilung von Kreditanträgen bezieht. Die Bank testet es und stellt fest, dass es die richtigen Entscheidungen trifft und deshalb eingesetzt werden kann. Wenn allerdings jemand den kryptographischen Schlüssel für die Hintertür hat, kann er einen Antrag so manipulieren, dass das System garantiert einen Kredit befürwortet.
Das Hauptproblem dabei ist, dass laut den Forschern die mit ihren Methoden gebauten Hintertüren auch mit noch so vielen Tests nicht entdeckt werden können. Sie könnten dies mathematisch beweisen, so das Team, und der Befund sei unumstösslich, wenn man an die heute allgemein anerkannten Regeln der Kryptographie und der Computerwissenschaft glaube.
Im Forschungspapier werden Methoden erklärt, wie unentdeckbare Hintertüren nicht nur in Black-Box- sondern auch in White-Box-Modelle eingebaut werden könnten. Bei letzteren haben die Nutzer Zugriff auf viele Informationen zum Modell, zum Beispiel seine Architektur, welche Daten für das Training verwendet wurden und wie Inputs gewichtet werden. Aber auch dies, so die Forscher, nütze in diesem Falle nichts.

Wie kann man trotzdem Vertrauen schaffen?

Falls die Erkennisse der Forscher korrekt sind, zeigen sie, dass Kunden ein ML-Modell, dass sie von einem Drittanbieter trainieren liessen, nicht sinnvoll testen können, um Manipulationen zu entdecken. Ein möglicher Workaround für Kunden, der im Papier diskutiert wird, wäre eine nachträgliche "Immunisierung" eines Modells, um allfällig vorhandene Hintertüren auszuschalten. Die Erklärung, wie diese Immunisierung funktionieren könnte, konnten wir allerdings als Nicht-Mathematiker nicht nachvollziehen.
Vor allem aber müssten die Provider solcher Modelle technische Methoden finden, um die Vertrauenswürdigkeit ihrer Produkte zu beweisen. Dies könnte beispielsweise im Stile eines Frameworks zum kompletten Nachweis einer Lieferkette geschehen, ähnlich wie dies auch im Open-Source-Umfeld diskutiert wird, angepasst an die Machine-Learning-Technologie. Shafi Goldwasser, Mitautorin des Papiers, hat bereits angefangen, sich zusammen mit anderen Wissenschaftlern mit solchen Methoden zu befassen.
Die Reputation eines Unternehmens allein könnte nämlich nicht genügen, um Vertrauen zu schaffen. Es scheint eher unwahrscheinlich, dass sich das Management eines renommierten Unternehmens dazu entschliessen würde, den Einbau von Hintertüren in eines seiner für Kunden trainierten Modelle zu veranlassen. Böswillige Angestellte allerdings könnten sich durchaus dazu verlocken lassen, sich so einen finanziellen Vorteil zu verschaffen.


Loading

Mehr zum Thema

image

Die Schatten-IT ins Licht setzen

Leuchten Sie die Schatten-IT in Ihrem Unternehmen bis in den letzten Winkel aus und schaffen Sie Transparenz über alle Ihre IT-Systeme, -Anwendungen und -Prozesse.

image

Jetzt hat ein grosser Krypto-Hack Harmony getroffen

Hacker haben Coins im Wert von rund 100 Millionen Dollar aus einem Schlüsselprodukt der US-Kryptofirma gestohlen.

publiziert am 24.6.2022
image

Github macht KI-Tool Copilot breit verfügbar

Mit Hilfe von KI soll Entwicklern die tägliche Arbeit erleichtert werden. Copilot ist nun als Erweiterung für gängige Editoren allgemein verfügbar.

publiziert am 24.6.2022
image

NCSC mahnt: Bitte keine Privatgeräte im Homeoffice

Der Zugriff aufs Firmennetzwerk mit privaten Geräten ist mit erheblichen Risiken verbunden. Das zeigt ein aktueller Ransomware-Angriff.

publiziert am 24.6.2022 6