Immer öfter wird versucht, selbstlernenden Algorithmen Entscheidungen zu überlassen, die bisher Menschen vorbehalten waren. Besonders heikel ist dies, wie die Universität Genf in einer Mitteilung schreibt , wenn diese Entscheidungen die Gesundheit oder die Lebensumstände von Menschen betreffen.

Eines der grossen Probleme dabei ist, dass es sehr oft nicht nachvollziehbar ist, wie die Algorithmen zu ihren Entscheidungen kommen. Algorithmen werden mit Daten gefüttert und dazu trainiert, bestimmte Muster darin zu erkennen oder Prognosen abzugeben. Trainiert werden sie im Prinzip, indem Menschen ihnen sagen, ob ein Resultat, das sie liefern, korrekt ist oder nicht. Sie sollen aufgrund des Feedbacks selbst lernen, immer öfter richtige Resultate zu erzeugen, bis sie zuverlässig genug sind, um produktiv eingesetzt werden zu können.

Schwarze Kisten

Die Algorithmen entscheiden dabei selbst, welche Muster oder Merkmale der ihnen vorliegenden Daten sie für ihre Entscheidungen heranziehen und wie sie diese gewichten. Und die meisten Algorithmen wurden nicht so konzipiert, dass sie diese Parameter und Gewichtungen selbst dokumentieren. "Wenn man nicht weiss, wie KI-Algorithmen funktionieren und was ihre Resultate beeinflusst, wirft dies die grosse Frage auf, wie vertrauenswürdig sie sind", schreibt die Uni Genf.

"Die Art, wie diese Algorithmen arbeiten, ist undurchsichtig, um es vorsichtig auszudrücken", sagt Professor Christian Lovis, Direktor des Departments für Radiologie und medizinische Informatik an der Uni Genf. Natürlich seien die potentiellen Vorteile des KI-Einsatzes enorm. "Aber wie können wir einer Maschine vertrauen, wenn wir nicht wissen, worauf ihre Entscheidungen basieren? Diese Frage ist besonders wichtig in Bereichen wie der Medizin, wo KI-Entscheidungen die Gesundheit und das Leben von Menschen beeinflussen, oder auch im Finanzbereich, wo falsche Entscheidungen riesige Verluste verursachen können."

In der Medizin gibt es Algorithmen, die in bestimmten zeitlichen Abständen aufgezeichnete Daten, beispielsweise EKGs, analysieren und darauf basierend Diagnosen abgeben sollen. Ein EKG besteht aus einer Vielzahl von Spannungskurven, die von verschiedenen Elektroden gleichzeitig gemessen werden. Bei seinem Training versucht der Algorithmus, bestimmte Muster und zeitliche Veränderungen in den einzelnen Kurven und in ihrem Zusammenspiel zu identifizieren, die auf bestimmte Krankheiten hinweisen könnten. Wenn dieser Algorithmus dann im Realeinsatz eine Diagnose macht - insbesondere wenn es eine Fehldiagnose ist - möchte man natürlich gerne wissen, worauf diese Diagnose basierte.

Wer interpretiert die Interpretation?

Das Problem ist schon längst bekannt. In der Vergangenheit wurden bereits einige sogenannte "Interpretability"-Methoden entwickelt, mit denen im Nachhinein herausgefunden werden soll, aufgrund welcher Parameter eine Black-Box-KI ihre Entscheidungen trifft. Das Problem sei allerdings, so die Universität, dass diese Interpretierbarkeits-Methoden nicht sehr zuverlässig sei. Wenn man mit verschiedenen Methoden den gleichen Algorithmus testet, können dabei deutlich unterschiedliche Resultate herauskommen.

Ein Team von Forschern der Universität Genf, des Universitätsspitals Genf und der National University of Singapore hofft nun, neue Analysemethoden gefunden zu haben, um die Situation zu verbessern. Einerseits haben sie laut der Uni zwei eigene Methoden ausgeklügelt, um die Entscheidungen von selbstlernenden Algorithmen nachzuvollziehen. Eine davon vergleicht die Entscheidungen, die eine KI trifft, mit den Daten, die sie analysiert hat. Sie soll zeigen, welche Teile der Daten am relevantesten für den Algorithmus sind, wenn er eine bestimmte Entscheidung trifft. Die zweite Methode soll zeigen, wie der Algorithmus die für ihn relevanten Daten gewichtet.

Gleichzeitig, und das ist vielleicht noch wichtiger, hat das Team zwei Wege gefunden, um die Zuverlässigkeit der eigenen und die anderer Interpretability-Methoden zu testen. "Die wichtige Frage ist eigentlich: Welche Interpretierbarkeits-Methode ist korrekt? Die Evaluation dieser Methoden ist deshalb genauso wichtig geworden wie die Interpretierbarkeit selbst", kommentiert Gianmarco Mengaldo von der University of Singapore