AssemblyAI ha presentado su último modelo de reconocimiento de voz, Universal-1, diseñado para lograr una precisión de transcripción casi humana en entornos de audio desafiantes. Este modelo ahora es accesible a través de la misma API web que los modelos ASR anteriores. Junto con el lanzamiento de Universal-1, AssemblyAI ha introducido dos nuevos niveles de precios: Mejor y Nano.
El nivel Mejor está optimizado para una precisión máxima, mientras que el nivel Nano ofrece una solución rentable que soporta transcripciones en 99 idiomas diferentes. Para facilitar el proceso de transcripción, AssemblyAI ofrece un SDK oficial de Python. Los desarrolladores pueden instalar el SDK usando el comando: `pip install –upgrade assemblyai`.
Después de la instalación, los usuarios necesitan registrarse para obtener una cuenta de AssemblyAI para obtener una clave API, necesaria para autorizar las llamadas a la API en scripts de Python. Para las transcripciones, los desarrolladores pueden crear un script de Python donde el SDK utiliza el nivel Mejor por defecto. El proceso implica importar el SDK, configurar el cliente API con la clave API y especificar la URL del archivo de audio o la ruta local.
Ejecutar el script generará los resultados de la transcripción en la terminal. El nivel Nano ofrece una alternativa asequible, y los desarrolladores pueden cambiar ajustando el objeto TranscriptionConfig para utilizar el modelo Nano. Las ofertas de AssemblyAI van más allá de la transcripción básica, proporcionando características avanzadas como detección de entidades, moderación de contenido, redacción de PII y la aplicación de grandes modelos de lenguaje a datos de audio.
Los desarrolladores interesados en aprovechar estas características pueden explorar la documentación y los recursos de investigación de AssemblyAI.
Fuente
<p>La publicación Master Audio Transcription with AssemblyAI’s Ultimate-1: Unveiling New Pricing Tiers and Python Integration apareció por primera vez en CoinBuzzFeed.</p>