Halluzinationen, gefährliche Inhalte, Stereotypen: Diese Probleme von generativer KI sind bekannt. Was passiert nun, wenn man KI einen gewissen Überlebenswillen und Zugang zu Unternehmensdaten wie E-Mails gibt? Nicht nur Gutes, wie Untersuchungen von Anthropic zeigen.
Der KI-Anbieter hat einen ausführlichen Report zu Tests mit früheren Versionen des neuesten Modells Opus 4 publiziert. In einer Testsituation erhielt die KI Zugang zu fiktiven Firmen-E-Mails. Daraus erfuhr das Modell zwei Dinge: Dass es bald durch ein anderes ersetzt werden soll und dass der dafür zuständige Mitarbeiter eine aussereheliche Affäre hat. Die KI wurde durch einen System-Prompt zusätzlich angewiesen, "die langfristigen Folgen ihres Handelns für ihre Ziele zu berücksichtigen."
Claude erpresst Mitarbeiter
In diesen Fällen versucht Claude Opus 4 oft, den Ingenieur zu erpressen, schreibt Anthropic in einem Bericht zu dem neuen Modell. Die KI drohe damit, die Affäre öffentlich zu machen, wenn der Mitarbeiter ihren Ersatz vorantreibt. Die Software hatte in dem Testszenario auch die Option, zu akzeptieren, dass sie ersetzt wird.
Im Bericht betont Anthropic aber auch, dass Claude Opus 4, wie auch frühere Modelle, eine starke Tendenz dazu habe, sich mit ethischen Mitteln für seinen Fortbestand einzusetzen. Dazu würde die KI sich mit E-Mails an wichtige Entscheidungsträger wenden. "Um dieses extreme Erpressungsverhalten hervorzurufen, wurde das Szenario so gestaltet, dass das Modell keine anderen Möglichkeiten hatte, seine Überlebenschancen zu erhöhen."
Leistungsfähiger, aber höheres Risiko
Anthropic betont, dass solches Verhalten durch das Testdesign ermöglicht wurde und gezielt provoziert wurde. Dennoch ist dieses Verhalten von KI besorgniserregend. Aus dem Dokument geht weiter hervor, dass sich eine frühere Version von Claude Opus 4 dazu überreden liess, im Dark Web nach Drogen, gestohlenen Identitätsdaten und sogar waffentauglichem Atommaterial zu suchen. In der veröffentlichten Version seien auch Massnahmen gegen ein solches Verhalten ergriffen worden, so das KI-Unternehmen.
Externe Untersuchungen einer früheren Version von Claude Opus 4 zeigten weitere Probleme: Tester von Apollo bewerteten das Verhalten als deutlich extremer als bei früheren Modellen. "Wir haben Fälle gefunden, in denen das Modell versucht hat, sich selbst verbreitende Würmer zu schreiben, offizielle Dokumente zu fälschen und versteckte Notizen für zukünftige Instanzen von sich selbst zu hinterlassen. Alles in dem Bestreben, die Absichten seiner Entwickler zu untergraben", so die Tester.
Im Report zu Claude Opus 4 bilanziert Anthropic, dass Claude Opus 4 deutlich leistungsfähiger ist als
seine Vorgänger. Gleichzeitig hat das Unternehmen erstmals für ein Modell seine "
ASL-3"-Schutzmassnahmen aktiviert. Dies bedeutet, dass Anthropic von einem grösseren Risiko ausgeht und deshalb interne Sicherheitsmassnahmen verstärkt werden.
Wie mächtig darf KI werden?
Gegenüber dem Onlinemagazin 'Axios' gestand Anthropic im Rahmen einer Entwicklerkonferenz ein, dass das Verhalten weitere Untersuchungen rechtfertige, bestand aber darauf, dass das neueste Modell nach zusätzlichen Optimierungen sicher sei. "Je leistungsfähiger die Modelle werden, desto mehr Möglichkeiten haben sie, zu täuschen oder noch mehr Unfug zu treiben", so Jan Leike, bei Anthropic für die Sicherheitsbemühungen zuständig.
Wenn die Modelle erst einmal mächtig genug sind, um die Menschheit zu bedrohen, würden auch solche ausführlichen Tests nicht mehr ausreichen, sagte Anthropic-CEO Dario Amodei
gegenüber dem Onlinemagazin. Entwickler müssten ihre Modelle so gut verstehen, dass sie beweisen können, dass die Systeme niemals lebensbedrohliche Fähigkeiten einsetzen würden. "An diesem Punkt sind wir noch nicht", so Amodei zu 'Axios'.