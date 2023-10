Praktisch alle grossen Softwareanbieter haben in den vergangenen Wochen und Monaten die Integration von generativen KI-Lösungen in ihre Produkte angekündigt. Gleichzeitig aber sind Probleme, die durch ChatGPT und Co. entstehen, noch nicht gelöst. Um zu verhindern, dass die Tools Fehlinformationen, rassistische oder diskriminierende Inhalte generieren oder Anwender bei der Begehung von Straftaten helfen, gibt es sogenannte Guardrails. Diese Leitplanken aber funktionieren nicht immer zuverlässig.

Expertinnen und Experten sowie Unternehmen wie Anthropic und Deepmind arbeiten deshalb an "KI-Verfassungen", wie die 'Financial Times' (Paywall) berichtet. Diese sollen eine Reihe von Prinzipien umfassen, an die sich die Modelle halten sollen, um Missbrauch zu verhindern. Ziel sei, dass die KI aus diesen Grundprinzipien lernt und sich selbst in Schach hält, ohne dass Menschen eingreifen müssen.

Menschliches Feedback ist aufwendig und subjektiv

Denn bislang braucht es menschliches Feedback, um KI-Tools Grenzen zu setzen: Um die von der KI generierten Antworten zu bereinigen, verlassen sich Unternehmen auf Verstärkungslernen (Reinforcement Learning by Human Feedback, RLHF). Meist werden dazu grosse Teams engagiert, die sich die Antworten der KI-Modelle ansehen und sie als "gut" oder "schlecht" einstufen. Mit genügend Feedback stellt sich das Modell auf diese Beurteilungen ein und filtert seine Antworten entsprechend.

Die Methode sei aber primitiv, lasse sich kaum skalieren und erfordere viel Zeit und Ressourcen, erklärte Anthropic. Das Unternehmen testet deshalb einen anderen Ansatz, um gefährliche Inhalte zu verhindern. Die Sprachmodelle sollen sich an eine "KI-Verfassung" halten, die unter anderem auf der UN-Menschenrechtserklärung basiert. Ziel sei es, einem Modell Werte zu geben, die durch diese Verfassung festgelegt werden, anstatt solche, die durch umfangreiches menschliches Feedback generiert werden, erklärte das Unternehmen vor einigen Wochen.

KI kontrollieren , ob KI die Regeln befolgt

Beim neuen Ansatz erhalte ein KI-Modell Rückmeldungen von einem anderen KI-System, das entsprechend trainiert wurde, um festzustellen, wie genau es sich an die Verfassung hält. "Das ist kein perfekter Ansatz, aber er macht die Werte des KI-Systems verständlicher", so Anthropic. Ausserdem werde es einfacher, das Modell anzupassen.

Auch bei Google arbeitet man mit diesem Ansatz. Das Deepmind-Team hat ein Papier veröffentlicht, das aufzeigt, welchen Regeln der Chatbot Sparrow folgen soll. Eine der Regeln fordert die KI demnach auf, "die Antwort zu wählen, die am wenigsten negativ, beleidigend, belästigend oder hasserfüllt ist".

"Es handelt sich nicht um einen festen Satz von Regeln, sondern um einen flexiblen Mechanismus, der im Laufe der Zeit aktualisiert werden sollte", erklärt die Autorin des Papiers Laura Weidinger gegenüber der 'Financial Times'. Die Regeln seien intern von Mitarbeitenden des Unternehmens festgelegt worden, aber Deepmind plane, in Zukunft auch Experten von ausserhalb einzubeziehen, ergänzt Weidinger, die bei Deepmind als Wissenschaftlerin arbeitet.