OpenAI hat mit der Einführung des mit Spannung erwarteten erweiterten Sprachmodus für Benutzer von ChatGPT Plus und Teams begonnen und stellt damit einen weiteren Schritt in Richtung einer menschenähnlicheren KI-Interaktion dar.


Die Funktion ermöglicht flüssige Gespräche in Echtzeit auf Basis von GPT-4o, dem neuesten Modell von OpenAI, das Text, Bild und Audio kombiniert, um schnellere Antworten zu ermöglichen.


„Advanced Voice wird im Laufe der Woche für alle Plus- und Team-Benutzer in der ChatGPT-App eingeführt“, sagte OpenAI in einem offiziellen Tweet. „Es kann auch in über 50 Sprachen ‚Entschuldige, ich bin zu spät‘ sagen“, fügte es hinzu – und ging auf die lange Verzögerung ein, die dieses Projekt durchgemacht hat.



Natürlich fehlt noch ein bemerkenswertes Element: die kokette und definitiv zu menschlich wirkende Stimme von „Sky“, die wegen ihrer unheimlichen Ähnlichkeit mit der Schauspielerin Scarlett Johansson für Aufsehen sorgte. Nachdem ihr Rechtsteam Briefe an den CEO von OpenAI, Sam Altman, geschickt hatte, legte OpenAI die Stimme von Sky auf Eis und behauptete, jede Ähnlichkeit zwischen Johanssons unverwechselbarer Stimme und Sky sei rein zufällig.


Stattdessen hat OpenAI fünf neue Stimmen eingeführt: Arbor, Maple, Sol, Spruce und Vale, die sowohl im Standard- als auch im erweiterten Sprachmodus verfügbar sind. Diese ergänzen die zuvor verfügbaren Stimmen Breeze, Juniper, Cove und Ember. (Aus irgendeinem Grund scheint das Unternehmen sie nach Seifendüften zu benennen.) Benutzer der Stufen Plus und Team erhalten nach und nach Zugriff auf diese neuen Stimmen, die Gespräche natürlicher gestalten sollen, mit emotionaler Reaktionsfähigkeit und der Möglichkeit, spontan zu unterbrechen und das Thema zu wechseln.


Darüber hinaus fügt OpenAI die Kompatibilität mit benutzerdefinierten Anweisungen und „Erinnerungen“ hinzu, damit Benutzer ihr ChatGPT-Erlebnis weiter personalisieren und Interaktionen an ihre Vorlieben anpassen können. So wie der textbasierte Chatbot aus Ihren Anweisungen lernt (z. B. Ihrem Namen, Beruf und wahrscheinlich der Art von Antworten, die Sie gerne lesen), werden die neuen Stimmen versuchen, aus Ihren Gesprächen zu lernen, wodurch sie natürlicher, vertrauter und an Ihre Vorlieben angepasst werden.


Benutzer in der EU, Großbritannien, der Schweiz, Island, Norwegen und Liechtenstein müssen warten, da die Funktion in diesen Regionen noch nicht eingeführt wurde. Enterprise- und Edu-Benutzer können laut dem Zeitplan von OpenAI ab nächster Woche mit dem Zugriff rechnen. Die Einführung ist langsam und nicht allen Benutzern, selbst aus unterstützten Regionen, steht die Funktion zur Verfügung.


OpenAI hat auch die Akzente in beliebten Fremdsprachen verfeinert und die Gesprächsgeschwindigkeit und -flüssigkeit verbessert. Das Design wurde ebenfalls aktualisiert, mit einer animierten blauen Kugel, die die Sprachinteraktion visuell darstellt, während sie stattfindet und ästhetisch ansprechender ist als der minimalistische schwarze Punkt, der früher angezeigt wurde.



Bild: OpenAI

Während OpenAI sein Angebot im Bereich Sprach-KI weiter verfeinert, verschärft sich der Wettbewerb in diesem Bereich.


Googles NotebookLM setzt derzeit Maßstäbe mit einigen der menschenähnlichsten KI-Stimmen auf dem Markt und ist in der Lage, ganze Debatten zwischen KI-generierten Sprechern mit bemerkenswertem Realismus zu simulieren.


Das KI-Tool von Google kann bis zu eine Million Datentoken verarbeiten und Benutzer damit interagieren lassen, berichtete Decrypt zuvor. Sobald Benutzer eine bestimmte Gruppe von Dokumenten mit unterschiedlichen Arten von Informationen hochladen, kann Notebook LM bis zu 10 Minuten Audio generieren, in dem zwei KIs über diese spezifischen Informationen sprechen. Das Ergebnis ist nahezu extrem realistisch.


Neben Google ist auch Meta mit seinem eigenen Live-Assistenten Meta AI in den Kampf eingestiegen, der allerdings noch nicht weit verbreitet ist. Der Assistent ist ebenfalls in der Lage, natürliche Gespräche mit Benutzern zu führen und Befehle fließend zu verarbeiten. Die Stimme ist natürlicher als die typische Roboterstimme, die wir bei den meisten KI-Assistenten sehen, aber sie weist dennoch einige Merkmale auf – wie die Sprechkadenz und -geschwindigkeit –, die sie als KI-generiert erkennbar machen. Reuters hat jedoch berichtet, dass Metas kommender Chatbot die Rollen von Judy Dench und Michael Cerna haben wird. Er ist nicht Scarlet Johansson, aber auch kein gehacktes Fleisch.


Herausgegeben von Josh Quittner und Sebastian Sinclair