AssemblyAI đã giới thiệu Universal-1, một mô hình nhận dạng giọng nói mới cung cấp độ chính xác gần như con người cho nhận dạng giọng nói tự động (ASR). Nó được thiết kế để phiên âm các tệp âm thanh với các giọng điệu, tiếng ồn xung quanh và các cụm từ phức tạp. Mô hình này có thể truy cập thông qua cùng một API web như các mô hình ASR trước đó.
Để hỗ trợ các nhà phát triển, AssemblyAI cung cấp một SDK Python chính thức để cài đặt dễ dàng, yêu cầu một tài khoản đã đăng ký để lấy khóa API. SDK bao gồm hai cấp độ giá: Tốt nhất cho độ chính xác tối đa và Nano, một giải pháp tiết kiệm chi phí hỗ trợ phiên âm trong 99 ngôn ngữ. Theo mặc định, SDK sử dụng cấp độ Tốt nhất.
Để chuyển sang cấp độ Nano, các nhà phát triển có thể điều chỉnh đối tượng TranscriptionConfig. Ngoài việc phiên âm, AssemblyAI cung cấp các tính năng nâng cao như phát hiện thực thể, quản lý nội dung, xóa bỏ thông tin cá nhân (PII) và các ứng dụng Mô hình Ngôn ngữ Lớn (LLM) cho dữ liệu âm thanh. Các tính năng này làm cho dịch vụ phiên âm phù hợp với nhiều ứng dụng khác nhau.
Nguồn
<p>Bài viết Phiên âm Tệp Âm thanh với Universal-1 của AssemblyAI: Độ Chính xác Gần Như Con Người & Giá Cả Phải Chăng lần đầu tiên xuất hiện trên CoinBuzzFeed.</p>