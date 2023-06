Meta hat eine Testversion eines KI-Systems vorgestellt, das Stimmen von Personen imitieren kann. Mit "Voicebox" könne man, so Meta, Stimmen so einfach generieren, wie man Text mit ChatGPT oder Bilder mit Dall-E und Co. generieren kann.

Das Tool ist noch nicht allgemein zugänglich, aber Meta hat einige Informationen darüber veröffentlicht. Darin findet man auch einige Hörproben, die zeigen sollen, was Voicebox kann.

Im Grunde genommen ist Voicebox ein Text-to-Speech-Tool, das geschriebene Texte in gesprochene Sprache umsetzt. Allerdings eines, das aufgrund einer nur wenigen Sekunden langen Aufnahme einer Person ihre Stimme imitieren kann. Eine Anwendung davon wäre beispielsweise, dass eine sehbehinderte Person sich Mails von Freunden und Verwandten in deren Stimme vorlesen lassen könnte.

Zusätzlich hat Voicebox auch Funktionen, um störende Hintergrundgeräusche aus Aufnahmen zu entfernen oder von einem Sprecher falsch ausgesprochene Worte zu korrigieren, ohne dass die ganze Aufnahme wiederholt werden muss.

Neben Englisch beherrscht das Tool laut Meta auch Deutsch, Französisch, Spanisch, Portugiesisch und Polnisch. Die Fehlerrate beim Vorlesen von Texten sei deutlich geringer als bei den besten bisher vorhandenen Systemen dieser Art. Gleichzeitig sei die Ähnlichkeit zur imitierten Stimme weit höher.

Voicebox birgt Missbrauchspotenzial

Gerade letzteres wird auch Cyberkriminelle hellhörig werden lassen. Natürlich könnte Voicebox auch dazu eingesetzt werden, Stimmen von Personen ohne deren Einverständnis nachzuahmen, und sie Dinge "sagen" zu lassen, die sie nie gesagt haben. Solche "Aufnahmen", im allgemeinen "Deep Fakes" genannt, können für Betrugsversuche oder zur Verunglimpfung von Personen verwendet werden.