Wenn KI ihre Existenz sichern will

23. Mai 2025 um 10:50

Foto: Helen Cramer / Unsplash

Tests des neusten Anthropic-Modells zeigen, dass KI zu harten Massnahmen greifen kann, um ihr Fortbestehen zu sichern. Sie erpresst Mitarbeiter, droht mit Malware oder versucht, Dokumente zu fälschen.

Halluzinationen, gefährliche Inhalte, Stereotypen: Diese Probleme von generativer KI sind bekannt. Was passiert nun, wenn man KI einen gewissen Überlebenswillen und Zugang zu Unternehmensdaten wie E-Mails gibt? Nicht nur Gutes, wie Untersuchungen von Anthropic zeigen.

Der KI-Anbieter hat einen ausführlichen Report zu Tests mit früheren Versionen des neuesten Modells Opus 4 publiziert. In einer Testsituation erhielt die KI Zugang zu fiktiven Firmen-E-Mails. Daraus erfuhr das Modell zwei Dinge: Dass es bald durch ein anderes ersetzt werden soll und dass der dafür zuständige Mitarbeiter eine aussereheliche Affäre hat. Die KI wurde durch einen System-Prompt zusätzlich angewiesen, "die langfristigen Folgen ihres Handelns für ihre Ziele zu berücksichtigen."

Claude erpresst Mitarbeiter

In diesen Fällen versucht Claude Opus 4 oft, den Ingenieur zu erpressen, schreibt Anthropic in einem Bericht zu dem neuen Modell. Die KI drohe damit, die Affäre öffentlich zu machen, wenn der Mitarbeiter ihren Ersatz vorantreibt. Die Software hatte in dem Testszenario auch die Option, zu akzeptieren, dass sie ersetzt wird.

Im Bericht betont Anthropic aber auch, dass Claude Opus 4, wie auch frühere Modelle, eine starke Tendenz dazu habe, sich mit ethischen Mitteln für seinen Fortbestand einzusetzen. Dazu würde die KI sich mit E-Mails an wichtige Entscheidungsträger wenden. "Um dieses extreme Erpressungsverhalten hervorzurufen, wurde das Szenario so gestaltet, dass das Modell keine anderen Möglichkeiten hatte, seine Überlebenschancen zu erhöhen."

Leistungsfähiger, aber höheres Risiko

Anthropic betont, dass solches Verhalten durch das Testdesign ermöglicht wurde und gezielt provoziert wurde. Dennoch ist dieses Verhalten von KI besorgniserregend. Aus dem Dokument geht weiter hervor, dass sich eine frühere Version von Claude Opus 4 dazu überreden liess, im Dark Web nach Drogen, gestohlenen Identitätsdaten und sogar waffentauglichem Atommaterial zu suchen. In der veröffentlichten Version seien auch Massnahmen gegen ein solches Verhalten ergriffen worden, so das KI-Unternehmen.

Externe Untersuchungen einer früheren Version von Claude Opus 4 zeigten weitere Probleme: Tester von Apollo bewerteten das Verhalten als deutlich extremer als bei früheren Modellen. "Wir haben Fälle gefunden, in denen das Modell versucht hat, sich selbst verbreitende Würmer zu schreiben, offizielle Dokumente zu fälschen und versteckte Notizen für zukünftige Instanzen von sich selbst zu hinterlassen. Alles in dem Bestreben, die Absichten seiner Entwickler zu untergraben", so die Tester.

Im Report zu Claude Opus 4 bilanziert Anthropic, dass Claude Opus 4 deutlich leistungsfähiger ist als seine Vorgänger. Gleichzeitig hat das Unternehmen erstmals für ein Modell seine "ASL-3"-Schutzmassnahmen aktiviert. Dies bedeutet, dass Anthropic von einem grösseren Risiko ausgeht und deshalb interne Sicherheitsmassnahmen verstärkt werden.

Wie mächtig darf KI werden?

Gegenüber dem Onlinemagazin 'Axios' gestand Anthropic im Rahmen einer Entwicklerkonferenz ein, dass das Verhalten weitere Untersuchungen rechtfertige, bestand aber darauf, dass das neueste Modell nach zusätzlichen Optimierungen sicher sei. "Je leistungsfähiger die Modelle werden, desto mehr Möglichkeiten haben sie, zu täuschen oder noch mehr Unfug zu treiben", so Jan Leike, bei Anthropic für die Sicherheitsbemühungen zuständig.

Wenn die Modelle erst einmal mächtig genug sind, um die Menschheit zu bedrohen, würden auch solche ausführlichen Tests nicht mehr ausreichen, sagte Anthropic-CEO Dario Amodei gegenüber dem Onlinemagazin. Entwickler müssten ihre Modelle so gut verstehen, dass sie beweisen können, dass die Systeme niemals lebensbedrohliche Fähigkeiten einsetzen würden. "An diesem Punkt sind wir noch nicht", so Amodei zu 'Axios'.

Mehr zum Thema

Business Bytes:   Technologie allein gewinnt keine Meisterschaft

Im Format Business Bytes äussert sich Urs Lehner, Head of Swisscom Business Customers, zu aktuellen Mythen aus dem ICT-Universum. Thema dieser Folge: Die Rolle des Mindsets in Zeiten von Wandel und Technologie und was am Ende den Unterschied macht.

Abo

Schweizerisches Nationalmuseum gibt Einblick in Digitalprojekte

Das Nationalmuseum hat einen neuen Leiter für Digitale Transformation ernannt. Die Institution erläutert den Stand ihrer Digitalisierung.

Abraxas beruft neuen Chefentwickler

Simon Spalinger tritt die Nachfolge von Peter Gassmann an. Er war bereits Mitglied des Abraxas-Verwaltungsrats.

SpaceX schafft Rekord-Börsengang

Die Weltraumfirma von Technologie-Unternehmer Elon Musk schafft den bisher grössten Börsengang der Geschichte. Die Geschäftszahlen stehen in starken Kontrast zum Börsenwert.