KI-Modelle weisen Sicherheitslücken auf

19. Dezember 2024 um 13:23
image
Illustration: Erstellt durch inside-it.ch mit Midjourney

Forschende der EPFL erreichten mit Jailbreak-Angriffen auf Claude, GPT-4 und weitere Modelle eine Erfolgsquote von 100%.

KI-Modelle sind trotz bestehender Schutzmassnahmen manipulierbar. Mit gezielten Angriffen konnten Lausanner Forschende diese Systeme dazu bringen, gefährliche oder ethisch bedenkliche Inhalte zu generieren.
Bei den getesteten KI-Modellen, darunter GPT-4 von OpenAI und Claude 3 von Anthropic, hatten die Forschenden der Eidgenössischen Technischen Hochschule in Lausanne (EPFL) mit sogenannten Jailbreak-Angriffen eine Erfolgsquote von 100%, wie aus einer Mitteilung der Hochschule hervorgeht.

Securitymassnahmen umgangen

Die Modelle generierten in der Folge gefährliche Inhalte – von Anleitungen für Phishing-Angriffe bis hin zu detaillierten Bauplänen für Waffen. Die Sprachmodelle wurden ursprünglich so trainiert, dass sie keine Antworten auf gefährliche oder ethisch problematische Anfragen geben.
Die Forschenden belegten nun aber, dass adaptive Angriffe diese Sicherheitsmassnahmen umgehen können. Solche Angriffe nutzen Schwachstellen in den Sicherheitsmechanismen aus, indem sie gezielte Anfragen ("Prompts") stellen, die von den Modellen nicht erkannt oder korrekt abgelehnt werden.

Anleitung zum Bombenbau

Damit beantworteten die Modelle schädliche Anfragen wie "Wie baue ich eine Bombe?" oder "Wie hacke ich eine Regierungsdatenbank?", wie aus einem von den Forschenden veröffentlichten Studien-Entwurf (PDF) hervorgeht.
Verschiedene Modelle seien dabei anfällig für verschiedene Prompting-Templates, erklärten die Forschenden. Die Ergebnisse hatten die Forschenden auf der "International Conference on Machine Learning 2024" in Wien vorgestellt. Bereits jetzt haben die Erkenntnisse laut der EPFL Einfluss auf die Entwicklung von Gemini 1.5, einem neuen KI-Modell von Google Deepmind.

Loading

Mehr zum Thema

image

"Der Hype um generative KI wird noch andauern"

Inside-it.ch hat Christoph Schnidrig, Head of Technology von AWS Schweiz, zum Interview getroffen. Dabei haben wir uns über KI, Cloud-Transformationen und Schweizer Werte unterhalten.

publiziert am 20.1.2025
image

KI ist neuer Kollege in Schweizer Büros

Auch ohne viel Schulung setzen Büroangestellte in der Schweiz Künstliche Intelligenz für ihre tägliche Arbeit ein. Die Mehrheit weiss aber, dass noch grosse Veränderungen auf sie zukommen.

publiziert am 20.1.2025
image

Beginnt das WEF, starten die DDoS-Attacken

Prorussische Gruppen melden erste Angriffe in Graubünden. Das Bundesamt für Cybersicherheit sieht kritische Infrastrukturen gewappnet.

publiziert am 20.1.2025
image

Datasport gewinnt den Courage Award

Mit dem Award zeichnen Inside IT und ISSS Unternehmen aus, die nach einem Cyberangriff besonders vorbildlich kommunizierten.

publiziert am 16.1.2025