Das Forschungsteam von Microsoft hat VALL-E 2 vorgestellt, ein neues KI-Stimmklonsystem für die Sprachsynthese, das in der Lage ist, mit nur wenigen Sekunden Audio Stimmen auf „menschlichem Niveau“ zu erzeugen, die von der Quelle nicht zu unterscheiden sind.
„(VALL-E 2 ist) der neueste Fortschritt bei Sprachmodellen mit neuronalen Codecs, der einen Meilenstein in der Zero-Shot-Text-to-Speech-Synthese (TTS) darstellt und erstmals menschliche Parität erreicht“, heißt es in der Forschungsarbeit.
Das System baut auf seinem Vorgänger VALL-E auf, der Anfang 2023 eingeführt wurde. Neuronale Codec-Sprachmodelle stellen Sprache als Codesequenzen dar.
Was VALL-E 2 von anderen Techniken zur Stimmklonierung unterscheidet, ist laut dem Team die Methode des „Repetition Aware Sampling“ und das adaptive Umschalten zwischen den Sampling-Techniken.
Die Strategien verbessern die Konsistenz und gehen die häufigsten Probleme der traditionellen generativen Stimme an.
„VALL-E 2 synthetisiert durchgängig qualitativ hochwertige Sprache, sogar bei Sätzen, die aufgrund ihrer Komplexität oder sich wiederholender Phrasen traditionell eine Herausforderung darstellen“, schrieben die Forscher und wiesen darauf hin, dass die Technologie dabei helfen könne, Sprache für Menschen zu generieren, die die Fähigkeit zum Sprechen verloren haben.
So beeindruckend das Tool auch ist, es wird der Öffentlichkeit nicht zugänglich gemacht.
„Derzeit haben wir keine Pläne, VALL-E 2 in ein Produkt zu integrieren oder den öffentlichen Zugang zu erweitern“, sagte Microsoft in seiner Ethikerklärung und wies darauf hin, dass solche Tools Risiken wie Stimmenimitation ohne Zustimmung und die Verwendung überzeugender KI-Stimmen bei Betrug und anderen kriminellen Aktivitäten mit sich bringen.
Das Forschungsteam betonte, dass es einer Standardmethode zur digitalen Markierung von KI-Generationen bedarf, und erkannte, dass die hochpräzise Erkennung von KI-generierten Inhalten nach wie vor eine Herausforderung darstellt.
„Wenn das Modell auf unsichtbare Sprecher in der realen Welt verallgemeinert wird, sollte es ein Protokoll enthalten, um sicherzustellen, dass der Sprecher der Verwendung seiner Stimme zustimmt, und ein Modell zur Erkennung synthetischer Sprache“, schrieben sie.
Allerdings sind die Ergebnisse von VALL-E 2 im Vergleich zu anderen Tools sehr genau. In einer Reihe von Tests, die das Forschungsteam durchgeführt hat, übertraf VALL-E 2 menschliche Benchmarks in Bezug auf Robustheit, Natürlichkeit und Ähnlichkeit der generierten Sprache.
VALL-E-2 konnte diese Ergebnisse mit nur 3 Sekunden Audio erreichen. Das Forschungsteam stellte jedoch fest, dass „die Verwendung von 10-sekündigen Sprachproben zu einer noch besseren Qualität führte“.
Microsoft ist nicht das einzige KI-Unternehmen, das hochmoderne KI-Modelle vorgeführt hat, ohne sie zu veröffentlichen. Metas Voicebox und OpenAIs Voice Engine sind zwei beeindruckende Sprachklone, die ebenfalls mit ähnlichen Einschränkungen konfrontiert sind.
„Es gibt viele spannende Anwendungsfälle für generative Sprachmodelle, aber wegen des potenziellen Missbrauchsrisikos machen wir das Voicebox-Modell oder den Code derzeit nicht öffentlich zugänglich“, sagte ein Sprecher von Meta AI letztes Jahr gegenüber Decrypt.
OpenAI erklärte außerdem, dass man zunächst das Sicherheitsproblem lösen wolle, bevor man sein Modell für synthetische Stimmen auf den Markt bringe.
„Im Einklang mit unserem Ansatz zur KI-Sicherheit und unseren freiwilligen Verpflichtungen haben wir uns entschieden, diese Technologie zum jetzigen Zeitpunkt vorab zu präsentieren, aber nicht allgemein zu veröffentlichen“, erklärte OpenAI in einem offiziellen Blogbeitrag.
Dieser Ruf nach ethischen Richtlinien verbreitet sich in der gesamten KI-Community, insbesondere da Regulierungsbehörden beginnen, Bedenken hinsichtlich der Auswirkungen generativer KI auf unser tägliches Leben zu äußern.