Rätoromanisch gilt für KI als besonders anspruchsvoll. Nun haben Forschende der Universität Zürich ein Übersetzungsmodell entwickelt, das Texte vom Deutschen in die verschiedenen Sprachvarianten des Rätoromanischen übersetzen kann.
Das "Alas" genannte Modell sei das erste, das die rätoromanischen Idiome unterstütze, teilte die Universität Zürich (UZH) mit.
Rätoromanisch hat fünf regionale Idiome: Sursilvan, Sutsilvan, Surmiran, Puter und Vallader. Zusätzlich gibt es mit Rumantsch Grischun eine überregionale Schriftsprache. Offizielle Texte liegen häufig in Rumantsch Grischun vor. Im Alltag und in der Schule werden hingegen meist die lokalen Idiome verwendet. Für KI-Systeme ist diese Vielfalt eine besondere Herausforderung.
Während KI-Assistenten wie ChatGPT die Schriftsprache Rumantsch Grischun bereits zu einem gewissen Grad beherrschen, hatten sie bei den regionalen Varianten bisher grosse Mühe.
Auf Initiative der Lia Rumantscha, des Dachverbands der rätoromanischen Sprachvereine, entwickelte ein Forschungsteam der UZH nun ein Modell, das mit diesen Varianten umgehen kann.
Muttersprachler überprüfen Resultate
"Alas" wurde dafür gezielt auf die rätoromanischen Idiome trainiert. "Am Anfang brachte das KI-Modell die Idiome noch durcheinander, doch im Lauf des Trainings wurde es immer besser darin, sie auseinanderzuhalten", sagt Jannis Vamvas von der UZH. Zu den Trainingsdaten gehörten unter anderem Beiträge des rätoromanischen Radios und Fernsehens RTR, Zeitungsartikel, literarische Texte, Schulbücher sowie Dokumente von Gemeinden und dem Kanton Graubünden.
In einem Blindvergleich mit Muttersprachlerinnen und Muttersprachlern wurden die Ergebnisse überprüft. "Der Blindvergleich hat uns bestätigt, dass 'Alas' deutlich bessere Übersetzungen produziert als bestehende KI-Assistenten", so Vamvas. Die Übersetzungen seien inhaltlich genauer und idiomatischer. Nur von Menschen angefertigte Übersetzungen schnitten noch besser ab.
Das Übersetzungsprogramm "Alas" steht der Öffentlichkeit gratis
auf einer Webseite zur Verfügung. Das zugrundeliegende KI-Modell ist zudem als
Open-Source-Software zugänglich. Fachleute können es damit prüfen und weiterentwickeln. Rätoromanisch wird von rund 100'000 Menschen in verschiedenen Varianten gesprochen.