"Hoi Siri" statt "Hey Siri" – das könnte auf Apple-Geräten bald zur Sprachnormalität werden. Zumindest lässt dies eine Stellenanzeige vermuten, in welcher der Konzern einen oder eine "AI/ML – Annotation Analyst" für Schweizerdeutsch und Schweizer Hochdeutsch für sein Sprachassistenten-Team sucht.
In der Anzeige, welche zuerst
'Macprime' aufgefallen ist, sucht Apple "einen motivierten Analysten, der aktives Zuhören, Integrität und ausgeprägte Liebe zum Detail zeigt". Am Arbeitsort im irischen Cork soll die Person "als Teil des Annotation-Teams eine zentrale Rolle bei der Verbesserung des Nutzererlebnisses" spielen.
Als Qualifikationen werden unter anderem "fliessend in der Schweizerdeutschen Sprache mit ausgezeichnetem Verständnis, Grammatik und Korrekturlesen" verlangt. Weiter "ausgezeichnetes aktives Zuhören mit der Fähigkeit, verbale Nuancen im Schweizerdeutschen Dialekt zu verstehen, einschliesslich der Variationen in verschiedenen Provinzen und Territorien".
Siri hat bis jetzt Mühe mit Schweizer Akzent
Implementiert Apple also bald Mundart für Siri? Das sei gut möglich, sagt Professor Manfred Vogel, Leiter Information Processing am Institut für Data Science der Fachhochschule Nordwestschweiz (FHNW), gegenüber 'inside-it.ch'. "Es ist nur eine Frage der Zeit, bis Konzerne nach den grossen auch die kleineren Sprachen in ihre Sprachassistenten und Voicebots einbinden."
Laut Stephan Fehlmann, Country Manager DACH beim Spezialisten für Automatisierte Spracherkennung Spitch, sind bis jetzt noch keine diesbezüglichen Apple-Pläne bekannt. "Wenn man jedoch bedenkt, dass Siri immer mal wieder Mühe mit dem Schweizer Akzent in Hochdeutsch bekundet, könnte es durchaus sein, dass Apple da ein bisschen an seinem Image arbeiten möchte. Ich könnte mir daher vorstellen, dass wir hier nicht von einem reinen Dialekt sprechen, sondern eher von einem Schweizer akzentuiertem Hochdeutsch."
Nötig sind hunderte Stunden an Sprachmaterial
Gesucht wird ein Annotation Analyst mit Bachelor Degree. Reicht eine Person mit diesen Kenntnissen aus? "Eigentlich bräuchte es einen Linguisten", sagt Vogel. Die Person werde vor allem Audios transkribieren. "Eine mühsame Arbeit." Man brauche hunderte, wenn nicht tausende Stunden an Sprachmaterial. Seien 300 transkribierte Stunden als Trainingsmöglichkeit für Siri das Ziel, seien dafür rund 1000 Arbeitsstunden nötig. "Sollte es sich wirklich um reinen Dialekt handeln, ist es zu bezweifeln, dass eine Person ausreichend ist", sagt auch Fehlmann.
"Was es vor allem brauchen wird, sind Daten", erklärt Mark Bosshard, Head of Conversational AI bei Adnovum. "Dabei kann man zum Beispiel anhand von Fernsehsendungen, die Hochdeutsch untertitelt sind und eine schweizerdeutsche Tonspur haben, eine KI wesentlich schneller mit Stunden von Daten trainieren, als wenn man das komplett manuell tut." Für gewisse Kontrollen oder um ergänzende Daten beizusteuern, könne dann noch ein menschlicher Annotator zum Einsatz kommen.
Mit Microsoft Azure unterstützt bereits ein Produkt eines Big Techs Speech-to-Text vom Schweizerdeutschen ins Hochdeutsche. Auch an der FHNW wurde in Zusammenarbeit mit der ZHAW eine
Datensammlung für Mundart erstellt. Diese umfasst als Trainingsmöglichkeit für KI rund 200 Stunden. "Wir haben dafür aber Sätze einlesen lassen, das ist einfacher als Transkription", sagt Vogel. So liessen sich auch Geschlechter oder verschiedene Dialekte besser unterscheiden. Es gibt auch Gerüchte, dass Google bald mit einem eigenen Mundart-Projekt folgen wird. Weder Google noch Apple haben sich aber bis jetzt für die Datensammlung der Hochschulen interessiert.
Aus Wallissertüütsch wird Büdner Dialekt
Sowohl Spitch wie auch Adnovum sehen in möglichen Apple-Plänen keine neue Konkurrenz. "Siri ist auf Apple-Geräte ausgerichtet. Dementsprechend wird Siri keine direkte Konkurrenz darstellen, es sei denn, Firmen stellen den Kunden Apple-Geräte hin", sagt Fehlmann. Kleinere Schweizer Anbieter wie Spitch oder Recapp hätten einige Vorteile, findet auch Bosshard. Sie könnten zum Beispiel pro Kunde ihr Modell nochmals spezifisch auf das Domänenvokabular trainieren und dadurch "eine massiv bessere Treffsicherheit beim Verstehen" erreichen.
"Big Techs arbeiten hauptsächlich mit generischen Modellen. Kundenangepasstes Vokabular wie zum Beispiel Produktenamen sowie regionale Dialekte werden da weniger bis gar nicht berücksichtigt", sagt Fehlmann. Genau diese regionalen Dialekte sind der Fokus eines neuen Projektes von Manfred Vogel. Für den Schweizerischen Nationalfonds wird eine Datenbank "mit 200 Stunden und allen Dialektregionen" aufgebaut. Ziel sei hier das "Transfer Learning": Dass ein System beispielsweise Wallissertüütsch in Bünder Dialekt übersetzen kann.