Synthesia, một công ty khởi nghiệp về trí tuệ nhân tạo (AI) được Nvidia hỗ trợ, đã giới thiệu một bản nâng cấp mới cho phép hình đại diện AI truyền tải cảm xúc và chuyển động của con người.

Vào ngày 25 tháng 4, công ty đã tiết lộ “Hình đại diện biểu cảm”, nhằm mục đích thể hiện cảm xúc dựa trên hướng dẫn bằng văn bản cho mục đích thuyết trình, tiếp thị và đào tạo của công ty.

Đây chính là nó. Điều này thay đổi mọi thứ. Lần đầu tiên trong lịch sử,#AIavatarcó thể hiểu những gì họ đang nói. Được hỗ trợ bởi mô hình avatar AI mới của chúng tôi, EXPRESS-1, chúng có thể phát hiện cảm xúc của một tập lệnh và thực hiện tất cả các sắc thái tinh tế trong giao tiếp của con người.… pic.twitter.com/uj3WIjcGlm

- Tổng hợp (@synthesiaIO) Ngày 25 tháng 4 năm 2024

Mặc dù AI tổng quát thường được ca ngợi vì khả năng tạo ra hình ảnh chuyển động chân thực, nhưng đó là trường hợp của trình tạo video Sora của OpenAI.

Tuy nhiên, AI không phải là không có sai sót, đặc biệt là khi khắc họa con người, những người thường được thể hiện với bàn tay hoặc chân tay bị biến dạng, hình nền bị cắt ghép hoặc môi không đồng bộ với lời nói.

Synthesia nhằm mục đích khắc phục điều này trong phiên bản mới nhất, được phát triển trên cơ sở con người thực sự đọc kịch bản trong studio của họ. Điều này được thực hiện để giúp bot ghi lại hoạt động theo dõi môi và biểu đạt cảm xúc của chúng chính xác hơn.

Victor Ribarbelli, Giám đốc điều hành và đồng sáng lập của Synthesia, cho biết trong một video rằng điều còn thiếu là, không giống như con người, “hình đại diện không hiểu họ đang nói gì”, điều này trước đây đã dẫn đến việc khuôn mặt thiếu phản ứng với cảm xúc .

Trong studio, họ được huấn luyện để phản ứng với những lời nhắc đơn giản như “Tôi hạnh phúc. Tôi buồn. Tôi thất vọng” bằng cách truyền tải nét mặt và giọng điệu chính xác liên quan đến cảm xúc nhất định.

Nguồn: Tổng hợp

Hình đại diện mới cũng có sẵn ở hơn 130 ngôn ngữ, có thể cung cấp phụ đề chi tiết và thậm chí sao chép giọng nói của chính người dùng.

Liên quan: Sam Altman thúc đẩy việc áp dụng rộng rãi ChatGPT ở các công ty Fortune 500: Báo cáo

Tuy nhiên, trong số các mẫu hình đại diện trên trang web Synthesia nói bằng các ngôn ngữ khác ngoài tiếng Anh như tiếng Pháp, tiếng Đức và tiếng Tây Ban Nha, thì mô hình ngôn ngữ tiếng Anh là tiên tiến nhất và giống con người nhất, theo thử nghiệm của mô hình Cointelegraph.

Công ty khởi nghiệp này được cho là có ít nhất một nửa số công ty trong danh sách Fortune 100 được liệt kê là khách hàng và cung cấp dịch vụ cho hơn 55.000 doanh nghiệp. Điều này bao gồm các nhà lãnh đạo trong các ngành công nghiệp khác nhau như Zoom, Xerox, Microsoft và Reuters, cùng những ngành khác.

Synthesia là một công ty có trụ sở tại Vương quốc Anh được thành lập vào năm 2017. Trước sự bùng nổ của AI trong năm qua, nó đã đạt mức định giá gần 1 tỷ USD với những người ủng hộ lớn như Nvidia - công ty hiện đang thống trị hoạt động phát triển chip bán dẫn AI.

Do cách tiếp cận thu hẹp hơn — tạo hình đại diện giống con người để sử dụng cho doanh nghiệp — Synthesia đã vượt qua một số sự cường điệu và cạnh tranh khốc liệt giữa các mô hình chatbot cạnh tranh như ChatGPT của OpenAI và chatbot Gemini của Google.

Tạp chí: Cách nhận được dự đoán về tiền điện tử tốt hơn từ ChatGPT, pin Humane AI đã bị đóng cửa: AI Eye