AssemblyAI 推出了 Universal-1,这是一个新的语音识别模型,提供接近人类的准确性,用于自动语音识别(ASR)。它旨在转录带有口音、背景噪音和复杂短语的音频文件。该模型可以通过与之前的 ASR 模型相同的网络 API 访问。

为了帮助开发者,AssemblyAI 提供了一个官方的 Python SDK,方便安装,需要注册帐户以获取 API 金钥。该 SDK 包含两个定价级别:最佳级别以获得最大准确性和 Nano,这是一个支持 99 种语言转录的高性价比解决方案。默认情况下,SDK 使用最佳级别。

要切换到 Nano 级别,开发者可以调整 TranscriptionConfig 对象。除了转录,AssemblyAI 还提供了先进的功能,如实体识别、内容审核、PII 隐私删除以及针对音频数据的大型语言模型(LLM)应用。这些功能使转录服务适用于各种应用。

来源

<p>这篇文章《使用 AssemblyAI 的 Universal-1 转录音频文件:接近人类的准确性和实惠的价格》首次出现在 CoinBuzzFeed 上。</p>