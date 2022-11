Google startet ein neues Programm, um die Fähigkeiten seiner Spracherkennungs- und -übersetzungsplattform auf viele neue Sprachen auszudehnen. Die "1000 Languages Initiative" hat, wie der Name schon sagt, das Ziel, ein KI-Modell zu schaffen, das die 1000 meistgesprochenen Sprachen der Welt beherrscht. Dies hat Jeff Dean, Google Senior Fellow und Senior Vice President von Google Research, in einem Blogpost angekündigt

1000 Sprachen wären etwa das Zehnfache dessen, was die Google-Spracherkennung heute einigermassen verlässlich beherrscht. Weltweit gibt es etwa 7000 Sprachen, aber wie Dean ausführt, sei nur eine Handvoll davon im Internet vertreten.

Die Basis des 1000-Sprachen-Projekts soll laut Dean ein universales Sprachmodell (USM) sein, das bisher mit 400 Sprachen trainiert wurde. Bis die Plattform 1000 Sprachen beherrscht, wird es noch viele Jahre dauern. Je seltener eine ist und je weniger Beispiele davon im Internet zu finden sind, desto schwieriger wird die Suche nach Material, um das KI-Modell damit zu trainieren.

Google arbeite deshalb mit Communities rund um die Welt zusammen, um repräsentative Sprachdaten zu sammeln. So habe man beispielsweise kürzlich 9 neue afrikanische Sprachen zu Gboard hinzufügen können. Dieser Service kann Audioeingaben in Text umwandeln. In Südasien arbeite man zusätzlich mit lokalen Regierungen, NGOs und akademischen Instituten zusammen, um Audio-Beispiele für alle lokalen Sprachen und Dialekte der Region zu sammeln.