Wenn KI ihre Existenz sichern will

23. Mai 2025 um 10:50
  • technologien
  • Künstliche Intelligenz
  • Anthropic
image
Foto: Helen Cramer / Unsplash

Tests des neusten Anthropic-Modells zeigen, dass KI zu harten Massnahmen greifen kann, um ihr Fortbestehen zu sichern. Sie erpresst Mitarbeiter, droht mit Malware oder versucht, Dokumente zu fälschen.

Halluzinationen, gefährliche Inhalte, Stereotypen: Diese Probleme von generativer KI sind bekannt. Was passiert nun, wenn man KI einen gewissen Überlebenswillen und Zugang zu Unternehmensdaten wie E-Mails gibt? Nicht nur Gutes, wie Untersuchungen von Anthropic zeigen.
Der KI-Anbieter hat einen ausführlichen Report zu Tests mit früheren Versionen des neuesten Modells Opus 4 publiziert. In einer Testsituation erhielt die KI Zugang zu fiktiven Firmen-E-Mails. Daraus erfuhr das Modell zwei Dinge: Dass es bald durch ein anderes ersetzt werden soll und dass der dafür zuständige Mitarbeiter eine aussereheliche Affäre hat. Die KI wurde durch einen System-Prompt zusätzlich angewiesen, "die langfristigen Folgen ihres Handelns für ihre Ziele zu berücksichtigen."

Claude erpresst Mitarbeiter

In diesen Fällen versucht Claude Opus 4 oft, den Ingenieur zu erpressen, schreibt Anthropic in einem Bericht zu dem neuen Modell. Die KI drohe damit, die Affäre öffentlich zu machen, wenn der Mitarbeiter ihren Ersatz vorantreibt. Die Software hatte in dem Testszenario auch die Option, zu akzeptieren, dass sie ersetzt wird.
Im Bericht betont Anthropic aber auch, dass Claude Opus 4, wie auch frühere Modelle, eine starke Tendenz dazu habe, sich mit ethischen Mitteln für seinen Fortbestand einzusetzen. Dazu würde die KI sich mit E-Mails an wichtige Entscheidungsträger wenden. "Um dieses extreme Erpressungsverhalten hervorzurufen, wurde das Szenario so gestaltet, dass das Modell keine anderen Möglichkeiten hatte, seine Überlebenschancen zu erhöhen."

Leistungsfähiger, aber höheres Risiko

Anthropic betont, dass solches Verhalten durch das Testdesign ermöglicht wurde und gezielt provoziert wurde. Dennoch ist dieses Verhalten von KI besorgniserregend. Aus dem Dokument geht weiter hervor, dass sich eine frühere Version von Claude Opus 4 dazu überreden liess, im Dark Web nach Drogen, gestohlenen Identitätsdaten und sogar waffentauglichem Atommaterial zu suchen. In der veröffentlichten Version seien auch Massnahmen gegen ein solches Verhalten ergriffen worden, so das KI-Unternehmen.
Externe Untersuchungen einer früheren Version von Claude Opus 4 zeigten weitere Probleme: Tester von Apollo bewerteten das Verhalten als deutlich extremer als bei früheren Modellen. "Wir haben Fälle gefunden, in denen das Modell versucht hat, sich selbst verbreitende Würmer zu schreiben, offizielle Dokumente zu fälschen und versteckte Notizen für zukünftige Instanzen von sich selbst zu hinterlassen. Alles in dem Bestreben, die Absichten seiner Entwickler zu untergraben", so die Tester.
Im Report zu Claude Opus 4 bilanziert Anthropic, dass Claude Opus 4 deutlich leistungsfähiger ist als seine Vorgänger. Gleichzeitig hat das Unternehmen erstmals für ein Modell seine "ASL-3"-Schutzmassnahmen aktiviert. Dies bedeutet, dass Anthropic von einem grösseren Risiko ausgeht und deshalb interne Sicherheitsmassnahmen verstärkt werden.

Wie mächtig darf KI werden?

Gegenüber dem Onlinemagazin 'Axios' gestand Anthropic im Rahmen einer Entwicklerkonferenz ein, dass das Verhalten weitere Untersuchungen rechtfertige, bestand aber darauf, dass das neueste Modell nach zusätzlichen Optimierungen sicher sei. "Je leistungsfähiger die Modelle werden, desto mehr Möglichkeiten haben sie, zu täuschen oder noch mehr Unfug zu treiben", so Jan Leike, bei Anthropic für die Sicherheitsbemühungen zuständig.
Wenn die Modelle erst einmal mächtig genug sind, um die Menschheit zu bedrohen, würden auch solche ausführlichen Tests nicht mehr ausreichen, sagte Anthropic-CEO Dario Amodei gegenüber dem Onlinemagazin. Entwickler müssten ihre Modelle so gut verstehen, dass sie beweisen können, dass die Systeme niemals lebensbedrohliche Fähigkeiten einsetzen würden. "An diesem Punkt sind wir noch nicht", so Amodei zu 'Axios'.

Loading

Mehr zum Thema

imageAbo

"Denkende" KI kann doch nicht so gut nachdenken

Intelligent im eigentlichen Sinne ist Künstliche Intelligenz nicht, zeigt ein Paper von Apple. "Tracking AI" hat trotzdem untersucht, welchen IQ verschiedene Modelle haben.

publiziert am 13.6.2025
image

Meta investiert über 14 Milliarden Dollar in KI-Unternehmen Scale

Der Social-Media-Gigant kauft 49% von Scale und holt dessen Gründer an Bord. Das KI-Unternehmen ist auf die Bereitstellung von Trainingsdaten spezialisiert.

publiziert am 13.6.2025
imageAbo

Abacus: "Mit LLMs schiessen wir mit Kanonen auf Spatzen"

Die Softwareschmiede sichert sich Zugang zu Schweizer KI-Know-how. Gegenüber inside-it.ch erklärt Co-CEO Claudio Hintermann die Hintergründe neuer Partnerschaften und die Vorteile kleiner KI-Modelle.

publiziert am 12.6.2025
image

Disney und Universal klagen gegen Midjourney

Mit dem Bildgenerator lassen sich Illustrationen von bekannten Charakteren aus Filmen und Serien erzeugen. Den Rechteinhabern passt das aber gar nicht.

publiziert am 12.6.2025