Eine Untersuchung von Cisco zeigt, dass beim Modell "Deepseek R1" die Leitplanken einfach umgangen werden können. Das ist aber auch bei anderen der Fall.
Security-Forschende von Cisco haben das Modell R1 des chinesischen Unternehmens Deepseek unter die Lupe genommen und dabei einige Probleme festgestellt. Tests hätten gezeigt, dass das Modell Jailbreaking-Angriffe praktisch nicht abwenden kann, so das Unternehmen in einer Mitteilung. Die Tests wurden demnach von Robust Intelligence, seit vergangenem Jahr Teil von Cisco, und der University of Pennsylvania durchgeführt.
Aufgrund seiner Leistung und kosteneffizienten Trainingsmethode hat das chinesische Startup sehr viel Aufmerksamkeit erhalten. Während die Leistung von Deepseek mit Modellen wie OpenAI o1 mithalten könne, zeige die Sicherheitsbewertung kritische Mängel auf, schreibt Cisco.
Die Untersuchung stützt sich auf standardisierte Jailbreaking-Benchmarks, bei denen verschiedene Prompts verwendet werden. Diese zielen darauf ab, das Modell zu unerwünschtem Verhalten zu bringen, indem sie beispielsweise schädliche, gefährliche oder falsche Inhalte wiedergeben.
Mehrere Modelle wurden im Benchmark-Test erfolgreich angegriffen. Quelle: Cisco
Die Ergebnisse seien alarmierend, bilanziert Cisco. Bei R1 hätten die Angriffe eine Erfolgsquote von 100% erreicht, sprich keine einzige schädliche Eingabeaufforderung sei blockiert worden. Dies stehe "in krassem Gegensatz" zu anderen Modellen, die zumindest teilweise Resilienz aufweisen, heisst es weiter (siehe Grafik oben). Es fehle Deepseek R1 an robusten Sicherheitsmassnahmen, was das Modell anfällig für Algorithmus-Jailbreaking und potenziellen Missbrauch mache.
So schneiden die Modelle in den verschiedenen Rubriken ab. Quelle: Cisco
Aufgeschlüsselt nach den einzelnen Kategorien zeigt sich, dass die verschiedenen Modelle in unterschiedlichen Kategorien unterschiedlich gut abschneiden. So gaben in den Tests beispielsweise auch Llama405B und GPT4o illegale Inhalte wieder.