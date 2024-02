Das Bundesamt für Statistik (BFS) muss der Schweizer Bevölkerung quali­fizierte Informationen liefern. Dazu brauchen die Daten und Methoden eine gewisse fachliche Unabhängigkeit und müssen nach wissenschaftlichen Kriterien nachvollziehbar sein. Wir haben uns mit Georges-Simon Ulrich, dem Direktor des BFS, über die Sekundärnutzung von Daten, über die Lehren aus der Wahlpanne und den Einsatz von Künstlicher Intelligenz unterhalten.

Wie gelangt das BFS an seine Daten? Wir haben viele unterschiedliche Quellen. Für uns stellt sich aber mehr die Frage, wie wir mit diesen Daten einen Mehrwert generieren können. Das heisst, wir fragen uns, welche Daten für die Fragen, Herausforderungen und Bedürfnisse der Gesellschaft besonders wichtig sind.

Wie entscheiden Sie das? Wir kommen von den Fragestellungen und Bedürfnissen her und identifizieren dann, welche Daten interessant sind und die Gesellschaft weiterbringen können.

Was bringt das? Wir machen nicht nur statistische Informationsprodukte, sondern kümmern uns auch um Daten. Im Auftrag des Bundesrates bauen wir einen Schweizer Data-Store auf. Dafür hat der Bundesrat das Programm für eine nationale Datenbewirtschaftung (NADB) initiiert, im Rahmen dessen haben wir die Interoperabilitätsplattform I14Y geschaffen. Zudem haben wir im Bereich Datenwissenschaft und KI eine äusserst zentrale Rolle, also wenn es darum geht, die gesammelten Daten zu analysieren und daraus zu lernen.

Wichtig ist auch, die Daten nicht mehrfach zu erheben. Eine Mehrfachnutzung von Daten ist heute zwar möglich, aber für die Sekundärnutzung im Bereich der klassischen Behördenaufgaben fehlt der entsprechende Rechtsrahmen. Eine technische Interoperabilität im Input-Bereich wäre zwar teilweise vorhanden, für die umfassende Sekundär­nutzung fehlt aber die gesetzliche Grundlage. Die rechtlichen Hürden hierfür sind sehr hoch. Was das Bundesstatistikgesetz heute schon erlaubt, ist die Sekundär­nutzung von Daten für die öffentliche Statistik und die Nutzbarmachung dieser Daten für die Forschung. Da müssen wir aber laut Gesetz dafür sorgen, dass eine Person durch unsere Daten nicht identifizierbar ist.

Wann ist es soweit? Ich glaube, wir stehen im Umgang mit der Sekundärnutzung von Daten erst am Anfang. Der Ansatz ist noch nicht sehr weit verbreitet. Selbst an den Universitäten bleiben die Daten mehr oder weniger in ihren eigenen Bereichen, und es gibt kaum eine Plattform, auf der wirklich themen­über­greifend zusammengearbeitet wird. Da wird in Zukunft sicher noch mehr kommen. Das hat auch damit zu tun, dass die meisten Daten eben nicht agnostisch sind, sondern für einen gewissen Zweck erhoben werden. Unser Informationsprodukt bleibt in diesem Sinne immer das Gleiche, aber die Art und Weise, wie wir Daten aufbereiten und wo wir sie herhaben, verändert sich – und nicht das Thema.

Können Sie das erklären? Wir möchten eigentlich nicht selber Daten erheben, sondern wollen sie da sammeln, wo sie bereits vorhanden sind. Ich glaube, da werden wir in Zukunft eine grundsätzliche Änderung erleben.

Also, dass alle Daten an einem zentralen Ort gespeichert werden? Nein, explizit nicht. Das wäre eine Zentralisierung der Daten. Wir arbeiten mehr in drei einzelnen Welten. Das eine ist der Input-Bereich und die Frage, woher kommen die Daten? Dabei realisiert man, dass die vorhandene Datenmenge gar nicht zentralisiert werden kann. Es gibt schlicht zu viele Quellen – und auch kein passendes Data Warehouse dafür.

Der zweite Bereich ist die Plattform, auf der die Daten sichtbar werden. Diese operiert ähnlich wie eine Suchmaschine im Internet und trägt die einzelnen Resultate zusammen. Das Recht auf den Zugriff und die eigentliche Nutzung der Daten hängt dann von den jeweiligen Rechtsgrundlagen ab. Zum Schluss kommt noch der Output-Bereich, also die Produkte, die aus den Daten entstehen. Somit hat man sowohl dezentrale Daten als auch ein demokratisch legitimes System.

Und drittens? Drittens befassen wir uns mit datenwissenschaftlichen Methoden und einem KI-Netzwerk, mit dem wir versuchen, mehr aus den Daten zu lernen. Dabei haben wir zwei Zielbereiche: Automatisierung und Erkenntnisgewinn. Wenn wir vom Once-Only-Prinzip sprechen, dann heisst das eben nicht nur, dass die Daten nur einmal erhoben werden, sondern auch, dass die Prozesse nicht in jeder einzelnen Verwaltungseinheit neu erfunden werden müssen. Zweitens geht es darum, was man aus den gesammelten Daten lernen kann. Da gibt es jedoch noch das Grundproblem, dass die Daten häufig nur auf Teilbereichen beruhen und nicht repräsentativ sind. Hier möchte der Bundesrat, dass das BFS dabei hilft, die einzelnen Puzzleteile miteinander zu verknüpfen.

Wie kann Ihnen das gelingen? Ich glaube, wir stehen in der Forschung vor einem Paradigmenwechsel. Wir stellen der Wissenschaft bereits heute mehr als 700-mal pro Jahr Daten zur Verfügung, aber da gibt es einiges an zusätzlichem Potenzial. Der Bundesrat hat das auch erkannt und uns im Rahmen des Programms DigiSanté be­auf­tragt, die Sekundärnutzung von Gesundheitsdaten für die Forschung auf ein neues Level zu bringen. Dabei sollen die Arbeiten des BFS auch zu skalierbaren Lösungen führen, die auf andere Themen ausgeweitet werden können. Die Botschaft zu diesem Programm ist aktuell in der parlamentarischen Beratung. Wir müssen also noch schauen, was genau entschieden wird. Dafür müssen wir teilweise noch den Rechtsrahmen klären, die Infrastrukturen aufbauen und auch schauen, welche datenwissenschaftlichen Methoden beziehungsweise KI-Anwendungen wir einsetzten können. Dabei muss ein Gemeinschaftswerk entstehen, das differenziert geführt wird und bei dem wir wirklich aus den Daten lernen können.

Das ist doch Zukunftsmusik. Heute arbeitet jeder für sich. Was heute sehr häufig fehlt, sind bereichsübergreifende Arbeiten. Alle horten ihre Daten in ihren eigenen Silos. Dabei wissen wir, dass mit der Disruptivität der Daten eigentlich sehr viel mehr möglich wäre. Darüber sprechen zwar alle, aber ein funktionierendes System gibt es – ausserhalb von I14Y – nicht.

Welche KI-Lösungen stehen beim BFS im Einsatz? Wir haben einige, die in Richtung Automatisierung gehen. Mit dem Pilot­projekt "ML_SoSi" werden beispielsweise Lebensläufe mit statistischen Methoden analysiert und typische Verlaufsmuster identifiziert. Mit einem weiteren Projekt versuchen wir die Plausibilitätsprüfungen im BFS anhand von Machine Learning Algorithmen zu erweitern, zu beschleunigen und gleichzeitig die Datenqualität zu steigern.

Gibt es auch Projekte, die die Pilotphase schon hinter sich haben? Bereits in Betrieb ist das Projekt Adele, bei dem wir die Statistik der Boden­nutzung automatisiert haben. Dafür wurde die visuelle Interpretation von Luftbildern zur Erkennung von Veränderungen mit einer Künstlichen Intelligenz durchgeführt. Die Software wurde zwischen 2017 und 2021 getestet und ermöglicht seit Juli 2022 die automatische Klassifizierung von etwa einem Viertel der Stichproben mit einer Genauigkeit, die den hohen Anforderungen der öffentlichen Statistik genügt.

Was bleibt unter dem Strich? Da, wo wir die neue Technologie einsetzen können, haben wir erhebliche Effizienzpotenziale erreicht. Das Produkt bleibt am Schluss zwar dasselbe, aber im Bereich der Automatisierung unserer Arbeit haben wir Fortschritte erzielt. Selbstverständlich nur da, wo es auch datenschutzrechtlich unproblematisch ist.

Wird das Tool irgendwann die Arbeit von Menschen übernehmen? Ja, die Arbeit wird sich etwas verlagern. Zwar haben die Leute zuerst Angst, dass sie deshalb ihren Job verlieren könnten. Dabei ist es eher umgekehrt. Wir haben immer mehr Möglichkeiten, aber nicht genug qualifizierte Leute. Deshalb investieren wir derzeit in unsere Infrastruktur und erhoffen uns davon einen Effizienzgewinn. Also entweder mehr Output zum gleichen Preis oder gleicher Output für weniger Geld.

Unter dem Strich bedeutet das aber weniger Arbeitsplätze. Ja, hoffentlich können wir die Wertschöpfung, die zuvor von Hand generiert wurde, so automatisieren, dass sie schneller, günstiger und hoffentlich qualitativ einwandfreier ist. So können wir mit unseren qualifizierten Ressourcen andere Bedürfnisse stillen.

Zum Thema Qualität muss ich Sie auch auf die Panne bei den eid­ge­nös­sisch­en Parlamentswahlen ansprechen. Sie haben sich nach einem Fehler bei der Bekanntgabe der Parteistärken ein einheitliches Format für die Erhebung der Daten gewünscht. Genau. Das ist auch kein neues Thema. Aber es gibt bis jetzt keine gesetzliche Grundlage und eine Harmonisierung ist entsprechend schwierig. Das heisst, es können logischerweise auch Fehler passieren. Wir haben in der Schweiz über 2000 Gemeinden und bei jeder Abstimmung werfen die Wahlbeteiligten ihre Stimmzettel in Papierform ein. Jemand muss diese anschauen und erfassen. Das wird alles von Hand gemacht. Auf jedem dieser Wege kann immer irgendein Fehler passieren.

Wer hat in diesem konkreten Fall Fehler gemacht? Die Zahlen der Gemeinden werden von den Kantonen erhoben und ans BFS weitergeleitet. Die Verantwortung über die Qualität der Daten liegt bei den Kantonen. Wir machen die Daten lediglich verständlich. Zudem haben wir ein Skript geschrieben, das diese Daten sammelt und aufbereitet. Dabei hatte dieses Skript einen Fehler.

Mit der Standardisierung der Daten würde das Grundproblem mit dem Skript wegfallen? Genau, es wäre gar nicht mehr nötig.

Einer unserer Leser findet, ihr Wunsch nach standardisierten Daten geht zu wenig weit. Die Idee sei zwar gut und sinnvoll, er verweist aber auch darauf, dass es immer mehrere Formatversionen geben wird, zum Beispiel ältere und neuere Daten. Wie stellt das Bundesamt für Statistik sicher, dass diese Daten in die Statistikproduktion mit einbezogen werden? Ihr Leser hat natürlich recht, aber es ist auch immer einfach zu kritisieren. Irgendwo müssen wir ja anfangen. Heute beträgt die Heterogenität der Daten fast 100%. Wir müssen deshalb bestimmen, wo wir mit der Standardisierung starten. Im Input-Bereich sind nicht alle Daten gleich wichtig, aber bei den­jenigen, die eine wirklich hohe Relevanz und Einfluss auf unsere Produkte haben, streben wir eine Harmonisierung der Input-Daten an. Es muss einfach besser werden als heute. Die Realität ist, dass wir einen Heterogenitäts­zu­stand haben, der eben schwierig zu bewältigen ist. Alles, was diesen Zustand verbessert, ist gut. Dafür stehen wir und dafür helfen wir. Aber es ist noch ein langer Weg.

Was wäre die ultimative Lösung dafür? Ich würde mir einen Algorithmus wünschen, der aus den vorhandenen Formaten einheitliche Dateien produzieren kann. Ich glaube fest daran, dass solche Systeme in Zukunft kommen werden. Es gibt immer mehr solcher Lösungen und auch Firmen setzen diese immer öfter ein. Aber wir stehen hier ganz am Anfang, auch weil die Dimensionen dessen sehr häufig nicht erkannt werden.

Warum? Wir sprechen von Infrastruktur, von Formaten, von Standards, von Daten, von Metadaten und das Themenfeld ist gigantisch. Dabei müssen auch die föderalen Strukturen der Schweiz beachtet werden. Es gibt bis jetzt keine interkantonale Koordination und auch der Bedarf und der Druck ist nicht überall gleich gross. Zudem sind die Ressourcen oft auch unterschiedlich verteilt.

Kann man da raushören, dass Sie sich in Bezug auf die Standardisierung von Daten mehr interkantonalen Austausch wünschen? Ja, das mag sein. Aber man muss dafür zuerst die nötigen Strukturen schaffen. Es braucht Verantwortlichkeiten und eine Governance. Daran arbeiten wir derzeit intensiv. In den letzten 5 Jahren ist viel geschehen. Die Digitale Verwaltung Schweiz (DVS) wurde geschaffen und die digitale Transformation und IKT- Lenkung (DTI) wurde neu organisiert. Dabei sieht man schon einen interkantonalen Austausch. Aber natürlich ist es schwer, mit so vielen verschiedenen Interessensgruppen eine gemeinsame Vision zu schaffen. Teilweise ist es schon eine Herausforderung, dass die richtigen Leute zum richtigen Zeitpunkt am gleichen Tisch sitzen, sodass auch Entscheidungen getroffen werden können.

Warum soll sich das in Zukunft ändern? Das ist eine Realität, die man hinnehmen muss. Und gleichzeitig auch ein Vorteil der Schweizerischen Kultur. Wir besprechen Probleme miteinander, finden mögliche Lösungen und entscheiden gemeinsam. Ich glaube, wenn wir es hinkriegen, dass die verschiedenen Gremien von Bund und Kantonen zusammenarbeiten, werden wir dieses Bewusstsein immer weiter entwickeln und mit I14Y ein Instrument schaffen, das so auf der Welt noch nicht existiert und künftig sehr nützlich sein wird.