Microsoft löscht grössten öffentlichen Datensatz für Face Recognition

Die Daten wurden für militärische und kommerzielle Zwecke benutzt. Zudem befanden sich im Datensatz Fotos von Datenschutz-Aktivisten.
 
Um Systeme für die Gesichtserkennung zu trainieren brauchen ML-Spezialisten grosse Mengen an Daten. Diese beziehen sie oftmals aus öffentlichen Quellen wie etwa Flickr. So war erst im März problematisiert worden, dass IBM eine Sammlung von fast einer Million Fotos des Online-Dienstes mit Beschreibung der Personen genutzt und geteilt hatte – ohne die Betroffenen um Einverständnis zu bitten.
 
Nun hat Microsoft einen Datensatz mit rund zehn Millionen Fotos von etwa 100'000 Personen aus dem Netz genommen, die seit 2016 Forschern für das ML-Training zur Verfügung standen. Das grössten Datenset für Face Recognition sei still und heimlich entfernt worden, schreibt die 'Financial Times'. Von der Zeitung darauf angesprochen, erklärt Microsoft: Der Mitarbeiter, der die Datenbank gepflegt habe, arbeite nicht mehr für den Konzern, deshalb sei die sie entfernt worden.
 
Microsoft zeigte sich keiner Schuld bewusst. Entfernt wurde der Datensatz aber bloss einige Tage, nachdem die Praxis der KI-Forscher bekannt gemacht worden war. Das Benutzen der Daten ist zwar nach den Lizenz-Bestimmungen für wissenschaftliche Zwecke legal. Allerdings hat Microsoft möglicherweise gegen die DSGVO verstossen, wie Tech-Experten zur 'Financial Times' sagten.
 
"Sie haben es wahrscheinlich heruntergenommen, weil ihre Anwälte befürchteten, dass sie keine Grundlage für die Verarbeitung von Daten besonderer Kategorien wie Gesichter nach Artikel 9 der DSGVO haben", sagte Michael Veale, Forscher für Technologiepolitik am Alan Turing Institute.
 
Auch fernab der juristischen Diskussion dürfte die Praxis auf Kritik stossen: Microsoft nannte die Sammlung "Celeb Dataset", was für "Datensatz von Berühmtheiten" stehen soll. Doch neben Hollywoodgrössen fanden sich darin auch Journalisten, Musiker, Aktivisten, Akademiker und Künstler. Darunter auch Verfechter von digitalen Rechten und bekannte Kritiker von Überwachungsmassnahmen.
 
Zudem ist die Datenbank neben diversen Hochschulen wie etwa der EPFL auch von militärischen und kommerziellen Institutionen genutzt worden, wie die beiden Künstler und Forscher Adam Harvey und Jules LaPlace bereits im April publik gemacht hatten. Der Datensatz diente unter anderem für die Forschung von IBM, Panasonic, Alibaba, Nvidia, Hitachi, Sensetime and Megvii.
 
Die beiden letztgenannten sind chinesische Firmen, die Überwachungstechnik für die Provinzregierung in Xinjiang entwickeln. In deren Zuständigkeitsgebiet, wo ein Separations-Konflikt schwelt, sollen gravierende Verletzungen der Menschenrechte fallen, wie Humans Rights Watch festhielt.
 
Es handelt sich bei der Praxis von Microsoft keineswegs um einen Einzelfall: Harvey und LaPlace hatten in ihrem Projekt Megapixels die Verbreitung von vier weiteren, kleineren Datensets untersucht: Die Duke University und die Stanford University haben mittlerweile ihre Datenbanken ebenfalls aus dem Netz genommen.
 
Das Netz vergisst allerdings kaum. So findet sich ein Teil der Celeb-Datenbank mittlerweile auf GitHub und anderswo. (ts)