

ChatGPT kann jetzt sprechen
25. September 2023 um 13:55Der Chatbot erhält in einem grossen Update neue Funktionen, dazu gehören Sprach- und Bilderkennung. ChatGPT nähert sich damit Assistenten wie Siri oder Alexa.
OpenAI hat eine neue Version von ChatGPT veröffentlicht. "Wir beginnen mit der Einführung der neuen Sprach- und Bildfunktionen", heisst es in einem Blogbeitrag. "Sie bieten eine neue, intuitivere Art von Schnittstelle, indem sie es Ihnen ermöglichen, ein Gespräch zu führen oder ChatGPT zu zeigen, worüber Sie sprechen."
Einerseits kann der Chatbot, der bisher rein auf Textbasis funktionierte, jetzt sprechen. Und erhält damit Funktionen, wie wir sie von Apples Siri, Amazons Alexa oder dem Google Assistant kennen. Anfänglich verfügt er über 5 verschiedene, weibliche und männliche Stimmen – Juniper, Sky, Cove, Ember und Breeze. "Die neue Sprachfunktion basiert auf einem neuen Text-to-Speech-Modell, das in der Lage ist, nur aus Text und einigen Sekunden Beispielsprache menschenähnliche Audiodaten zu erzeugen. Wir haben mit professionellen Synchronsprechern zusammengearbeitet, um jede einzelne Stimme zu erstellen", schreibt OpenAI im Blogbeitrag.
Gespräche über Snacks und Pokemon
Andererseits soll ChatGPT auch Spracheingaben und Konversationen verstehen. Das vermittelt das Gefühl, ein echtes Gespräch zu führen, so eine Journalistin des 'Wall Street Journals' (Paywall). Sie hat die neuen Funktionen getestet. "Als ich ihn darum bat, sich als mein bester Freund auszugeben und mit mir zu reden, unterhielten wir uns ausführlich fünf Minuten lang über meinen Arbeitstag, die Videoproduktion und die Snacks, die wir mögen. Das Gleiche gilt, als ich ihn gebeten habe, mir Pokemon zu erklären, als wäre ich eine 6-Jährige."
Laut OpenAI arbeitet man bereits mit anderen Unternehmen zusammen, um das Modell einzusetzen. So nutze Spotify die Technologie für das Pilotprojekt seiner Sprachübersetzungsfunktion. Diese soll Podcastern dabei helfen, "die Reichweite ihres Storytellings zu erweitern, indem Podcasts mit den eigenen Stimmen der Podcaster in weitere Sprachen übersetzt werden".
Bilderkennung, aber mit Schutz der Privatsphäre?
Weiter erhält ChatGPT eine Bilderkennungsfunktion. User können ein Foto hochladen und der KI dann Fragen dazu oder zu einem bestimmten Bildausschnitt stellen. OpenAI arbeitete schon länger an einem solchen Tool, hatte allerdings Bedenken, es könne als Gesichtserkennungsdienst missbraucht werden. Man habe das Modell vor der breiteren Einführung "mit Red-Teams auf Risiken in Bereichen wie Extremismus und wissenschaftliche Kompetenz" getestet, erklärt das Unternehmen dazu. "Wir haben technische Massnahmen ergriffen, um die Fähigkeit von ChatGPT, Personen zu analysieren und direkte Aussagen über sie zu machen, erheblich einzuschränken, da ChatGPT nicht immer korrekt ist und diese Systeme die Privatsphäre des Einzelnen respektieren sollten."
Die Sprach- und Bildfunktionen in ChatGPT werden in den nächsten 2 Wochen für Plus- und Enterprise-Nutzer eingeführt. "Voice kommt auf iOS und Android und Bilder werden auf allen Plattformen verfügbar sein", kündigt OpenAI an.
Loading
Riesige Spende für KI-Forschung an der ETH
Der Lidl-Gründer und mehrfache Milliardär Dieter Schwarz spendet der ETH eine grosse Summe Geld. Es entstehen 20 neue Professuren und ein Ableger in Deutschland.
Googles KI Gemini kann viel, aber noch nicht so viel wie OpenAI
Trotz beeindruckender Demos liegt der Techkonzern noch hinter OpenAI zurück, wie ein Blick auf Benchmarks zeigt. Google hat aber die Präsentation von Gemini frisiert.
Zwei KI-Professoren der ETH werden pensioniert
Zwei Veteranen der Künstlichen Intelligenz treten in den Ruhestand. Die ETH ernennt zugleich neue Professoren für KI und Informatik.
Einigung auf AI Act verspätet sich
Eigentlich hätte die EU heute Vormittag feierlich die Einigung auf den AI Act verkünden wollen. Aber das wurde bis auf Weiteres verschoben. Und die Verhandlungen dauern an.