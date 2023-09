OpenAI hat eine neue Version von ChatGPT veröffentlicht. "Wir beginnen mit der Einführung der neuen Sprach- und Bildfunktionen", heisst es in einem Blogbeitrag. "Sie bieten eine neue, intuitivere Art von Schnittstelle, indem sie es Ihnen ermöglichen, ein Gespräch zu führen oder ChatGPT zu zeigen, worüber Sie sprechen."

Einerseits kann der Chatbot, der bisher rein auf Textbasis funktionierte, jetzt sprechen. Und erhält damit Funktionen, wie wir sie von Apples Siri, Amazons Alexa oder dem Google Assistant kennen. Anfänglich verfügt er über 5 verschiedene, weibliche und männliche Stimmen – Juniper, Sky, Cove, Ember und Breeze. "Die neue Sprachfunktion basiert auf einem neuen Text-to-Speech-Modell, das in der Lage ist, nur aus Text und einigen Sekunden Beispielsprache menschenähnliche Audiodaten zu erzeugen. Wir haben mit professionellen Synchronsprechern zusammengearbeitet, um jede einzelne Stimme zu erstellen", schreibt OpenAI im Blogbeitrag.

Gespräche über Snacks und Pokemon

Andererseits soll ChatGPT auch Spracheingaben und Konversationen verstehen. Das vermittelt das Gefühl, ein echtes Gespräch zu führen, so eine Journalistin des 'Wall Street Journals' (Paywall). Sie hat die neuen Funktionen getestet. "Als ich ihn darum bat, sich als mein bester Freund auszugeben und mit mir zu reden, unterhielten wir uns ausführlich fünf Minuten lang über meinen Arbeitstag, die Videoproduktion und die Snacks, die wir mögen. Das Gleiche gilt, als ich ihn gebeten habe, mir Pokemon zu erklären, als wäre ich eine 6-Jährige."

Laut OpenAI arbeitet man bereits mit anderen Unternehmen zusammen, um das Modell einzusetzen. So nutze Spotify die Technologie für das Pilotprojekt seiner Sprachübersetzungsfunktion. Diese soll Podcastern dabei helfen, "die Reichweite ihres Storytellings zu erweitern, indem Podcasts mit den eigenen Stimmen der Podcaster in weitere Sprachen übersetzt werden".

Bilderkennung, aber mit Schutz der Privatsphäre?

Weiter erhält ChatGPT eine Bilderkennungsfunktion. User können ein Foto hochladen und der KI dann Fragen dazu oder zu einem bestimmten Bildausschnitt stellen. OpenAI arbeitete schon länger an einem solchen Tool, hatte allerdings Bedenken, es könne als Gesichtserkennungsdienst missbraucht werden. Man habe das Modell vor der breiteren Einführung "mit Red-Teams auf Risiken in Bereichen wie Extremismus und wissenschaftliche Kompetenz" getestet, erklärt das Unternehmen dazu. "Wir haben technische Massnahmen ergriffen, um die Fähigkeit von ChatGPT, Personen zu analysieren und direkte Aussagen über sie zu machen, erheblich einzuschränken, da ChatGPT nicht immer korrekt ist und diese Systeme die Privatsphäre des Einzelnen respektieren sollten."

Die Sprach- und Bildfunktionen in ChatGPT werden in den nächsten 2 Wochen für Plus- und Enterprise-Nutzer eingeführt. "Voice kommt auf iOS und Android und Bilder werden auf allen Plattformen verfügbar sein", kündigt OpenAI an.