AssemblyAI wprowadziło swój najnowszy model rozpoznawania mowy, Universal-1, zaprojektowany w celu osiągnięcia dokładności transkrypcji zbliżonej do ludzkiej w trudnych warunkach akustycznych. Model ten jest teraz dostępny za pośrednictwem tego samego interfejsu API internetowego, co wcześniejsze modele ASR. Wraz z uruchomieniem Universal-1, AssemblyAI wprowadziło dwa nowe poziomy cenowe: Best i Nano.

Poziom Best jest zoptymalizowany pod kątem maksymalnej dokładności, podczas gdy poziom Nano oferuje opłacalne rozwiązanie wspierające transkrypcję w 99 różnych językach. Aby ułatwić proces transkrypcji, AssemblyAI oferuje oficjalne SDK Pythona. Programiści mogą zainstalować SDK za pomocą polecenia: `pip install –upgrade assemblyai`.

Po zainstalowaniu użytkownicy muszą zarejestrować się na konto AssemblyAI, aby uzyskać klucz API, niezbędny do autoryzacji wywołań API w skryptach Pythona. W przypadku transkrypcji programiści mogą stworzyć skrypt Pythona, w którym SDK domyślnie używa poziomu Best. Proces ten obejmuje import SDK, skonfigurowanie klienta API z kluczem API oraz określenie adresu URL pliku audio lub lokalnej ścieżki.

Uruchomienie skryptu spowoduje wyświetlenie wyników transkrypcji w terminalu. Poziom Nano oferuje przystępną alternatywę, a programiści mogą przełączyć się, dostosowując obiekt TranscriptionConfig, aby używać modelu Nano. Oferta AssemblyAI wykracza poza podstawową transkrypcję, zapewniając zaawansowane funkcje, takie jak wykrywanie encji, moderacja treści, redakcja PII oraz zastosowanie dużych modeli językowych do danych audio.

Programiści zainteresowani wykorzystaniem tych funkcji mogą zapoznać się z dokumentacją i zasobami badawczymi AssemblyAI.

Źródło

<p>Post Master Audio Transcription with AssemblyAI’s Ultimate-1: Unveiling New Pricing Tiers and Python Integration po raz pierwszy pojawił się na CoinBuzzFeed.</p>