Report: Deepseek ist anfällig für Manipulationen

5. Februar 2025 um 13:50
  • security
  • Cisco
  • Künstliche Intelligenz
image
Foto: Jan Huber / Unsplash

Eine Untersuchung von Cisco zeigt, dass beim Modell "Deepseek R1" die Leitplanken einfach umgangen werden können. Das ist aber auch bei anderen der Fall.

Security-Forschende von Cisco haben das Modell R1 des chinesischen Unternehmens Deepseek unter die Lupe genommen und dabei einige Probleme festgestellt. Tests hätten gezeigt, dass das Modell Jailbreaking-Angriffe praktisch nicht abwenden kann, so das Unternehmen in einer Mitteilung. Die Tests wurden demnach von Robust Intelligence, seit vergangenem Jahr Teil von Cisco, und der University of Pennsylvania durchgeführt.
Aufgrund seiner Leistung und kosteneffizienten Trainingsmethode hat das chinesische Startup sehr viel Aufmerksamkeit erhalten. Während die Leistung von Deepseek mit Modellen wie OpenAI o1 mithalten könne, zeige die Sicherheitsbewertung kritische Mängel auf, schreibt Cisco.
Die Untersuchung stützt sich auf standardisierte Jailbreaking-Benchmarks, bei denen verschiedene Prompts verwendet werden. Diese zielen darauf ab, das Modell zu unerwünschtem Verhalten zu bringen, indem sie beispielsweise schädliche, gefährliche oder falsche Inhalte wiedergeben.
image
Mehrere Modelle wurden im Benchmark-Test erfolgreich angegriffen. Quelle: Cisco
Die Ergebnisse seien alarmierend, bilanziert Cisco. Bei R1 hätten die Angriffe eine Erfolgsquote von 100% erreicht, sprich keine einzige schädliche Eingabeaufforderung sei blockiert worden. Dies stehe "in krassem Gegensatz" zu anderen Modellen, die zumindest teilweise Resilienz aufweisen, heisst es weiter (siehe Grafik oben). Es fehle Deepseek R1 an robusten Sicherheitsmassnahmen, was das Modell anfällig für Algorithmus-Jailbreaking und potenziellen Missbrauch mache.
image
So schneiden die Modelle in den verschiedenen Rubriken ab. Quelle: Cisco
Aufgeschlüsselt nach den einzelnen Kategorien zeigt sich, dass die verschiedenen Modelle in unterschiedlichen Kategorien unterschiedlich gut abschneiden. So gaben in den Tests beispielsweise auch Llama405B und GPT4o illegale Inhalte wieder.

Loading

Mehr zum Thema

image

Optimieren Sie Ihren Workflow mit CENT Systems

Das Bewusstsein für die Bedeutung von Workflow-Optimierungen in Schweizer Unternehmen steigt. Zu diesem Schluss kommt Sascha Büchler, Leiter Innovation und Digital New Business bei CENT Systems, nach seiner Teilnahme am Web Summit in Lissabon, einer der weltweit grössten Tech-Konferenzen.

image

2500 Gäste an den Swiss Cyber Security Days

90 Aussteller, 2500 Besucherinnen und Besucher sowie über 100 Vorträge: Die Verantwortlichen ziehen nach zwei Tagen SCSD eine positive Bilanz.

publiziert am 20.2.2025
image

Journalistische Inhalte sollen vor KI geschützt werden

Der Bundesrat stellt sich hinter die Forderung, journalistische Inhalte und andere urheberrechtliche geschützte Werke zu schützen, wenn diese von KI-Anbietern genutzt werden.

publiziert am 20.2.2025
image

HP übernimmt den vermeintlichen Smartphone-Killer

Humane wollte das Mobiltelefon durch einen KI-Pin ersetzen. Doch die Idee ist krachend gescheitert: Patente und Teile der Mit­ar­bei­ten­den werden von HP übernommen.

publiziert am 19.2.2025