Synthesia, startup s umělou inteligencí (AI), podporovaný společností Nvidia, představil nový upgrade umožňující avatarům AI předávat lidské emoce a pohyby.

25. dubna společnost odhalila své „expresivní avatary“, jejichž cílem je vyjádřit emoce na základě textových pokynů pro firemní prezentace, marketing a školení.

To je ono. Tím se vše mění. Poprvé v historii jsou #AIavatarové schopni porozumět tomu, co říkají. Díky našemu novému modelu avatarů AI, EXPRESS-1, dokážou detekovat sentiment skriptu a provádět všechny jemné nuance lidské komunikace.… pic.twitter.com/uj3WIjcGlm

— Synthesia (@synthesiaIO) 25. dubna 2024

Zatímco generativní umělá inteligence byla často chválena pro svou schopnost vytvářet realistické pohyblivé obrázky, jako je tomu u videogenerátoru Sora od OpenAI.

Umělá inteligence však není bez chyb, zvláště když zobrazuje lidi, kteří jsou často zobrazeni se zkreslenýma rukama nebo končetinami, kolážovaným pozadím nebo rty nesynchronizovanými s řečí.

Synthesia si klade za cíl to napravit ve své nejnovější verzi, která byla vyvinuta na skutečných lidech, kteří čtou skripty ve svém studiu. To bylo provedeno s cílem pomoci robotům zachytit sledování rtů a být přesnější ve svých emotivních výrazech.

Victor Ribarbelli, generální ředitel a spoluzakladatel Synthesia, ve videu uvedl, že chybějící část spočívá v tom, že na rozdíl od lidí „avataři nerozumí tomu, co říkají“, což dříve vedlo k nedostatečné reakci obličeje na emoce. .

Ve studiu je učili reagovat na jednoduché výzvy jako: „Jsem šťastný. je mi smutno. Jsem frustrovaný“ zprostředkováním správného výrazu obličeje a tónu spojeného s danou emocí.

Zdroj: Synthesia

Noví avataři jsou také k dispozici ve více než 130 jazycích, mohou poskytovat vlastní skryté titulky a dokonce klonovat vlastní hlasy uživatelů. 

Související: Sam Altman prosazuje masové přijetí ChatGPT mezi společnostmi ze seznamu Fortune 500: Zpráva

Mezi ukázkovými modely avatarů na webových stránkách Synthesia mluvících v jiných jazycích než v angličtině, jako je francouzština, němčina a španělština, je však anglický jazykový model nejpokročilejší a nejpodobnější člověku, podle testu modelu Cointelegraph.

Startup má údajně nejméně polovinu společností ze seznamu Fortune 100 uvedených jako klienty a poskytuje služby více než 55 000 podniků. Patří sem lídři v různých odvětvích, jako jsou mimo jiné Zoom, Xerox, Microsoft a Reuters. 

Synthesia je společnost se sídlem ve Spojeném království založená v roce 2017. Po boomu umělé inteligence za poslední rok dosáhla hodnoty téměř 1 miliardy dolarů s hlavními podporovateli, jako je Nvidia – kteří v současnosti dominují ve vývoji polovodičových čipů AI.

Díky svému užšímu přístupu – vytváření lidských avatarů pro obchodní použití – Synthesia ustoupila stranou některého humbuku a tvrdé konkurence mezi konkurenčními modely chatbotů, jako je ChatGPT od OpenAI a chatbot Gemini od Googlu.

Magazín: Jak získat lepší předpovědi kryptoměn z ChatGPT, Humane AI pin: AI Eye