Nach mehreren Verzögerungen, die angeblich mit Sicherheit und Feinabstimmung zusammenhängen, ist OpenAIs mit Spannung erwarteter „Advanced Voice Mode“ (AVM) für ChatGPT jetzt in der Alphaversion für ausgewählte Benutzer verfügbar.

Die AVM-Funktion wurde bereits im Mai angekündigt und vorgeführt. Sie ermöglicht Benutzern über ein Tech-to-Speech-Synthesemodul eine Echtzeitkonversation mit dem künstlichen Intelligenzmodell ChatGPT.

Erinnern Sie sich an Duplex?

Wer mit dem Konzept vertraut ist, erinnert sich vielleicht an Googles Ankündigung aus dem Jahr 2018, dass sein KI-Dienst „Duplex“ „bald“ verfügbar sein würde. Bei seiner IO-Entwicklerveranstaltung präsentierte das Unternehmen ein KI-System, das in der Lage ist, in Ihrem Namen Unternehmen anzurufen, um in Echtzeit Termine mit Menschen zu vereinbaren.

Die große Idee bestand laut Google darin, dass die KI robust genug sein sollte, um mit alltäglichen Gesprächen zurechtzukommen und die richtigen Informationen zu bestätigen.

Das Duplex-Projekt wurde letztendlich eingestellt, aber sein Erbe lebt offenbar in ChatGPT von OpenAI weiter.

Erweiterter Sprachmodus

AVM bietet Echtzeitkommunikation, die versucht, zwischenmenschliche Gespräche nachzuahmen. ChatGPT antwortet auf Benutzeranfragen mit einer menschenähnlichen Stimme mit natürlicher Kadenz. Benutzer können den Chatbot mitten im Satz unterbrechen und er kann, basierend auf der Demo, mitverfolgen, was gesagt wurde.

Das Unternehmen führt die Funktion in einer begrenzten Alpha-Version ein, um ihre Fähigkeiten und Sicherheitsauswirkungen weiter zu evaluieren. Die Demos im Mai waren zwar beeindruckend, es gab jedoch einige fehlerbehaftete Momente und es ist nicht schwer, sich Szenarien vorzustellen, in denen die Technologie missbraucht werden könnte.

Laut OpenAI ist Sicherheit das oberste Anliegen des Unternehmens. In einem Beitrag auf X, in dem die Einführung der Funktion angekündigt wurde, schrieb das Unternehmen:

„Wir haben die Sprachfunktionen von GPT-4o mit über 100 externen Red Teamern in 45 Sprachen getestet. Um die Privatsphäre der Benutzer zu schützen, haben wir das Modell darauf trainiert, nur mit den vier voreingestellten Stimmen zu sprechen, und wir haben Systeme entwickelt, um Ausgaben zu blockieren, die von diesen Stimmen abweichen. Wir haben auch Leitplanken implementiert, um Anfragen nach gewalttätigen oder urheberrechtlich geschützten Inhalten zu blockieren.“

Der zeitgesteuerte Rollout von AVM hat laut OpenAI bereits begonnen und wird fortgesetzt, wobei „fortlaufend“ weitere Benutzer hinzugefügt werden. Das Unternehmen geht davon aus, dass die Funktion im Herbst für alle Plus-Abonnenten verfügbar sein wird.

Verwandt: OpenAI sperrt ChatGPT-Stimme, die beschuldigt wird, Scarlett Johansson nachzuahmen