Synthesia, startup zajmujący się sztuczną inteligencją (AI) wspierany przez Nvidię, wprowadził nową aktualizację umożliwiającą awatarom AI przekazywanie ludzkich emocji i ruchów.

25 kwietnia firma zaprezentowała swoje „ekspresyjne awatary”, których celem jest wyrażanie emocji w oparciu o instrukcje tekstowe na potrzeby prezentacji korporacyjnych, celów marketingowych i szkoleniowych.

To jest to. To zmienia wszystko. Po raz pierwszy w historii#AIavatarssą w stanie zrozumieć, co mówią.Dzięki naszemu nowemu modelowi awatarów AI, EXPRESS-1, potrafią wykryć nastrój scenariusza i wykonać wszystkie subtelne niuanse ludzkiej komunikacji.… pic.twitter.com/uj3WIjcGlm

— Synthesia (@synthesiaIO) 25 kwietnia 2024 r

Chociaż generatywna sztuczna inteligencja jest często chwalona za zdolność do tworzenia realistycznych ruchomych obrazów, tak jest w przypadku generatora wideo Sora OpenAI.

Jednak sztuczna inteligencja nie jest pozbawiona wad, szczególnie jeśli chodzi o portretowanie ludzi, których często przedstawia się ze zniekształconymi rękami lub kończynami, kolażowanym tłem lub ustami niezsynchronizowanymi z mową.

Synthesia ma na celu naprawienie tego w swojej najnowszej wersji, która została opracowana na podstawie rzeczywistych ludzi czytających skrypty w ich studiu. Zrobiono to, aby pomóc botom rejestrować śledzenie ruchu warg i dokładniej wyrażać emocje.

Victor Ribarbelli, dyrektor generalny i współzałożyciel Synthesia, powiedział w filmie, że brakującym elementem jest to, że w przeciwieństwie do ludzi „awatary nie rozumieją, co mówią”, co wcześniej prowadziło do braku reakcji twarzy na emocje .

W studiu uczono ich, jak reagować na proste podpowiedzi, takie jak: „Jestem szczęśliwy. Jestem smutna. Jestem sfrustrowany” poprzez przekazywanie prawidłowej mimiki i tonu związanego z daną emocją.

źródło: Synthesia

Nowe awatary są również dostępne w ponad 130 językach i mogą zawierać własne napisy, a nawet klonować własne głosy użytkowników. 

Powiązane: Sam Altman propaguje masowe przyjęcie ChatGPT wśród firm z listy Fortune 500: raport

Jednak spośród przykładowych modeli awatarów dostępnych na stronie internetowej Synthesia mówiących w językach innych niż angielski, takich jak francuski, niemiecki i hiszpański, model języka angielskiego jest najbardziej zaawansowany i przypomina ludzki, zgodnie z testem modelu Cointelegraph.

Startup podobno ma co najmniej połowę firm z listy Fortune 100 wymienionych jako klienci i świadczy usługi dla ponad 55 000 przedsiębiorstw. Dotyczy to między innymi liderów różnych branż, takich jak Zoom, Xerox, Microsoft i Reuters. 

Synthesia to firma z siedzibą w Wielkiej Brytanii, założona w 2017 roku. W ślad za ubiegłorocznym boomem na sztuczną inteligencję osiągnęła wycenę na prawie 1 miliard dolarów dzięki głównym sponsorom, takim jak Nvidia, która obecnie dominują w rozwoju chipów półprzewodnikowych AI.

Ze względu na bardziej zawężone podejście — tworzenie awatarów przypominających ludzi do użytku biznesowego — Synthesia unika szumu i ostrej konkurencji między konkurencyjnymi modelami chatbotów, takimi jak ChatGPT firmy OpenAI i chatbot Gemini firmy Google.

Magazyn: Jak uzyskać lepsze prognozy kryptograficzne z ChatGPT, zatrzaśnięcie pinu Humane AI: AI Eye