AssemblyAI представила свою последнюю модель распознавания речи, Universal-1, разработанную для достижения близкой к человеческой точности транскрипции в сложных аудио условиях. Эта модель теперь доступна через тот же веб-API, что и предыдущие модели ASR. Наряду с запуском Universal-1, AssemblyAI представила два новых ценовых уровня: Best и Nano.
Уровень Best оптимизирован для максимальной точности, в то время как уровень Nano предлагает экономичное решение, поддерживающее транскрипцию на 99 различных языках. Чтобы упростить процесс транскрипции, AssemblyAI предлагает официальный Python SDK. Разработчики могут установить SDK с помощью команды: `pip install –upgrade assemblyai`.
После установки пользователи должны зарегистрироваться для получения учетной записи AssemblyAI, чтобы получить API-ключ, необходимый для авторизации API-вызовов в Python-скриптах. Для транскрипций разработчики могут создать Python-скрипт, где SDK по умолчанию использует уровень Best. Процесс включает в себя импорт SDK, настройку API-клиента с API-ключом и указание URL аудиофайла или локального пути.
Запуск скрипта выведет результаты транскрипции в терминал. Уровень Nano предлагает доступную альтернативу, и разработчики могут переключаться, изменяя объект TranscriptionConfig для использования модели Nano. Предложения AssemblyAI выходят за рамки базовой транскрипции, предоставляя такие продвинутые функции, как обнаружение сущностей, модерация контента, редактирование PII и применение больших языковых моделей к аудиоданным.
Разработчики, заинтересованные в использовании этих функций, могут изучить документацию и ресурсы для исследований AssemblyAI.
Источник
<p>Пост "Мастер Аудио Транскрипции с Ultimate-1 от AssemblyAI: Открытие Новых Ценовых Уровней и Интеграция с Python" впервые появился на CoinBuzzFeed.</p>