OpenAI erweitert seine Sprachfunktionen mit der Einführung des erweiterten Sprachmodus für Benutzer von ChatGPT Plus und Teams.
Diese mit Spannung erwartete Funktion verspricht, die Interaktionen der Benutzer mit dem Chatbot in ein natürlicheres Gesprächserlebnis zu verwandeln.
Der Sprachmodus basiert auf GPT-4o, dem neuesten Modell von OpenAI, und integriert Text, Bild und Audio, was zu schnelleren und flüssigeren Austauschen führt.
OpenAI gab in einem offiziellen Tweet bekannt:
„Advanced Voice wird im Laufe der Woche für alle Plus- und Team-Benutzer in der ChatGPT-App eingeführt.“
Sie hoben außerdem einen amüsanten Aspekt der Funktion hervor: Sie gaben an, dass man in über 50 Sprachen „Entschuldigung, ich bin zu spät“ sagen könne, eine Anspielung auf die lange Entwicklungszeit des Projekts.
Advanced Voice wird im Laufe der Woche für alle Plus- und Team-Benutzer in der ChatGPT-App eingeführt.
Während Sie geduldig gewartet haben, haben wir benutzerdefinierte Anweisungen, Speicher, fünf neue Stimmen und verbesserte Akzente hinzugefügt.
Es kann auch in über 50 Sprachen „Tut mir leid, ich bin zu spät“ sagen. pic.twitter.com/APOqqhXtDg
— OpenAI (@OpenAI) 24. September 2024
Ein Schritt hin zu nahtlosen Gesprächen
OpenAI bestätigte, dass die erweiterte Sprachfunktion jetzt für Benutzer seines Premiumdienstes verfügbar ist.
Diese Innovation ermöglicht den Benutzern dynamischere Gespräche und verbessert so das interaktive Gesamterlebnis.
Allerdings ist die Einführung für Benutzer in der EU, Island, Liechtenstein, Norwegen, der Schweiz und Großbritannien noch nicht zugänglich, sodass eine geografische Kluft hinsichtlich der Verfügbarkeit entsteht.
OpenAI führt seine Advanced Voice-Funktion für Plus- und Team-Benutzer mit 5 Stimmen, Unterstützung für über 50 Sprachen und anpassbaren Anweisungen ein. In der EU und im Vereinigten Königreich ist sie nicht verfügbar.https://t.co/KmJVD1rwPE
— StartupNews.fyi (@StartupNewsFyi) 25. September 2024
Die neue Sprachfunktion wurde ursprünglich im Mai angekündigt und erregte aufgrund einer Stimmoption namens Sky, die eine verblüffende Ähnlichkeit mit der Stimme von Scarlett Johansson im Film „Her“ aus dem Jahr 2013 aufwies, große Aufmerksamkeit.
Nach dieser Enthüllung schickten Johanssons Rechtsvertreter Briefe an OpenAI, in denen sie behaupteten, dass das Unternehmen nicht über die Rechte verfüge, eine Stimme zu verwenden, die ihrer so ähnlich sei.
Statement von Scarlett Johansson zur Situation bei OpenAI. Wow: pic.twitter.com/8ibMeLfqP8
– Bobby Allyn (@BobbyAllyn), 20. Mai 2024
Hier ist die offizielle Erklärung von Scarlett Johansson, in der sie den mutmaßlichen illegalen Gebrauch ihrer Stimme durch OpenAI detailliert beschreibt …
...vorgelesen von der Sky-KI-Stimme, wegen der Ironie. pic.twitter.com/cJDlnA0hTP
— Benjamin De Kraker 🏴☠️ (@BenjaminDEKR) 20. Mai 2024
Infolgedessen hat OpenAI die Verwendung von Sprache in seinen Produkten eingestellt, wie CNBC berichtete.
Bilde ich mir das nur ein, oder klingt die aktualisierte Stimme von @OpenAI in dieser @ChatGPTapp-Demo immer noch auffallend ähnlich wie Scarlett Johansson? https://t.co/ovV78IpMqd
– Marty Swant (@martyswant), 24. September 2024
Ein umfassenderes Spracherlebnis
In den Monaten nach der ersten Ankündigung konnten Benutzer im Rahmen einer kostenlosen Stufe mit ChatGPT mithilfe verschiedener Stimmen interagieren.
In der erweiterten Version ist die Reaktionsfähigkeit jedoch deutlich verbessert, da das System bei Unterbrechungen im Gespräch eine Pause einlegen und zuhören kann.
Derzeit können Benutzer aus neun verschiedenen Stimmen wählen und ihr Erlebnis über die App-Einstellungen individuell anpassen.
OpenAI führt den Advanced Voice Mode (AVM) ein, eine Audiofunktion, die das Sprechen mit ChatGPT natürlicher macht und fünf neue Stimmen enthält pic.twitter.com/y97BCoob5b
— TechCrunch (@TechCrunch) 24. September 2024
„Ich hoffe, Sie denken, das Warten hat sich gelohnt“, bemerkte Sam Altman, Mitbegründer und CEO von OpenAI, in einem Beitrag auf X und spiegelte damit die Vorfreude auf diese Funktion wider.
Die Einführung des erweiterten Sprachmodus beginnt heute! (wird im Laufe der Woche abgeschlossen)
hoffe du denkst, das Warten hat sich gelohnt 🥺🫶 https://t.co/rEWZzNFERQ
– Sam Altman (@sama) 24. September 2024
Angesichts des zunehmenden Wettbewerbs befindet sich OpenAI in einer sich rasch entwickelnden Landschaft der generativen KI.
Google hat vor Kurzem seine Sprachfunktion „Gemini Live“ auf Android-Geräten eingeführt, während Meta voraussichtlich Prominentenstimmen vorstellen wird, auf die über seine Plattformen, darunter Facebook und Instagram, zugegriffen werden kann.
Navigieren in der neuen Funktion
Der erweiterte Sprachmodus von OpenAI ist ausschließlich für Abonnenten der Pläne „Plus“, „Team“ oder „Enterprise“ verfügbar, wobei die Plus-Stufe bei 20 US-Dollar pro Monat beginnt.
Eine Stunde in diesem Teil der Einführung für erweiterte Sprachfunktionen von @OpenAI
16 Ein-Stunden-Konten * 20 $/Monat ChatGPT Plus-Abonnement * 12 Monate/Jahr
Leben Sie das Leben, wie in „Her“ gezeigt, für knapp 4000 $/Jahr pic.twitter.com/t7xCUIrwzX
— Joe Fetsch 🔍⏸ (@Jtfetsch) 25. September 2024
Um auf diese neue Funktion zugreifen zu können, müssen Benutzer sicherstellen, dass auf ihren Geräten die neueste Version der ChatGPT-App installiert ist.
Sobald der Zugriff gewährt wurde, wird in der App eine Benachrichtigung angezeigt, die den Benutzer auffordert, fortzufahren.
Um einen Voice-Chat zu starten, können Benutzer nach rechts wischen oder auf das zweizeilige Symbol in der oberen linken Ecke der App tippen, um einen neuen Chat zu erstellen.
Neben dem Nachrichtentextfeld und dem Mikrofonsymbol wird ein Schallwellensymbol angezeigt, das anzeigt, dass die Sprachfunktion bereit ist.
Nach dem Antippen des Symbols signalisiert ein kurzer „Stoß“-Ton die Bereitschaft und verwandelt den Kreis auf dem Bildschirm in eine dynamische blau-weiße Animation.
Benutzer können mit dem Sprechen beginnen und mit einer sofortigen Antwort rechnen.
OpenAI hat große Fortschritte bei der Verbesserung des Akzents in verschiedenen Fremdsprachen und der Steigerung der Gesprächsgeschwindigkeit gemacht.
Wenn Benutzer eine Änderung der Übermittlung wünschen, können sie Modifikationen anfordern, z. B. ChatGPT bitten, schneller zu sprechen oder einen Südstaatenakzent anzunehmen.
Einschränkungen und Anwendungsfälle
Der erweiterte Sprachmodus ermöglicht es ChatGPT, Benutzer bei verschiedenen Aufgaben zu unterstützen, vom Erzählen von Gutenachtgeschichten bis zur Vorbereitung auf Vorstellungsgespräche oder dem Einüben von Fremdsprachenkenntnissen.
Benutzer sollten sich jedoch darüber im Klaren sein, dass auch für zahlende Abonnenten Nutzungsbeschränkungen gelten.
Nach etwa 30 Minuten Interaktion wird unten auf dem Bildschirm die Meldung „Noch 15 Minuten“ angezeigt, was Fragen zum Umfang des Zugriffs auf diese Funktion aufwirft.
Im Zuge der kontinuierlichen Weiterentwicklung und Erweiterung seiner Fähigkeiten durch OpenAI stellt die Einführung des erweiterten Sprachmodus einen entscheidenden Schritt dar, um KI-Interaktionen spannender und lebensechter zu gestalten.