AssemblyAI hat Universal-1 eingeführt, ein neues Sprachmodell, das eine nahezu menschliche Genauigkeit für automatisierte Spracherkennung (ASR) bietet. Es ist darauf ausgelegt, Audiodateien mit Akzenten, Hintergrundgeräuschen und komplexen Phrasen zu transkribieren. Das Modell ist über dieselbe Web-API wie frühere ASR-Modelle zugänglich.

Um Entwicklern zu helfen, bietet AssemblyAI ein offizielles Python-SDK zur einfachen Installation an, das ein registriertes Konto für einen API-Schlüssel erfordert. Das SDK umfasst zwei Preiskategorien: Best für maximale Genauigkeit und Nano, eine kostengünstige Lösung, die die Transkription in 99 Sprachen unterstützt. Standardmäßig verwendet das SDK die Best-Stufe.

Um auf die Nano-Stufe umzuschalten, können Entwickler das TranscriptionConfig-Objekt anpassen. Neben der Transkription bietet AssemblyAI fortschrittliche Funktionen wie Entitätserkennung, Inhaltsmoderation, PII-Rotationen und Anwendungen des Large Language Model (LLM) für Audiodaten. Diese Funktionen machen den Transkriptionsdienst für eine Vielzahl von Anwendungen geeignet.

Quelle

<p>Der Beitrag Transkribieren von Audiodateien mit AssemblyAI’s Universal-1: Nahezu menschliche Genauigkeit & erschwingliche Preise erschien zuerst auf CoinBuzzFeed.</p>