AssemblyAI hat sein neuestes Spracherkennungsmodell, Universal-1, vorgestellt, das entwickelt wurde, um nahezu menschliche Transkriptionsgenauigkeit in herausfordernden Audioumgebungen zu erreichen. Dieses Modell ist jetzt über die gleiche Web-API wie die vorherigen ASR-Modelle zugänglich. Neben der Einführung von Universal-1 hat AssemblyAI zwei neue Preiskategorien eingeführt: Best und Nano.
Die Best-Kategorie ist für maximale Genauigkeit optimiert, während die Nano-Kategorie eine kosteneffektive Lösung bietet, die die Transkription in 99 verschiedenen Sprachen unterstützt. Um den Transkriptionsprozess zu erleichtern, bietet AssemblyAI ein offizielles Python-SDK an. Entwickler können das SDK mit dem Befehl: `pip install –upgrade assemblyai` installieren.
Nach der Installation müssen sich die Benutzer für ein AssemblyAI-Konto anmelden, um einen API-Schlüssel zu erhalten, der notwendig ist, um API-Aufrufe in Python-Skripten zu autorisieren. Für Transkriptionen können Entwickler ein Python-Skript erstellen, in dem das SDK standardmäßig die Best-Kategorie verwendet. Der Prozess umfasst das Importieren des SDK, das Konfigurieren des API-Clients mit dem API-Schlüssel und das Angeben der Audio-Datei-URL oder des lokalen Pfads.
Das Ausführen des Skripts gibt die Transkriptions Ergebnisse im Terminal aus. Die Nano-Preiskategorie bietet eine kostengünstige Alternative, und Entwickler können wechseln, indem sie das TranscriptionConfig-Objekt anpassen, um das Nano-Modell zu verwenden. Die Angebote von AssemblyAI gehen über die grundlegende Transkription hinaus und bieten erweiterte Funktionen wie Entitätserkennung, Inhaltsmoderation, PII-Redaktion und die Anwendung großer Sprachmodelle auf Audiodaten.
Entwickler, die an der Nutzung dieser Funktionen interessiert sind, können die Dokumentation und Forschungsressourcen von AssemblyAI erkunden.
Quelle
<p>Der Beitrag Master Audio Transcription with AssemblyAI’s Ultimate-1: Unveiling New Pricing Tiers and Python Integration erschien zuerst auf CoinBuzzFeed.</p>