- OpenAI odhalilo svůj model převodu textu na video, Sora, generování podrobných videí z jednoduchých textových výzev, pokračování ve stávajících videích a vytváření scén na základě statického obrázku.

- Sora, založená na "difúzním" modelu jako jeho předchůdce DALL-E 3, dokáže vytvářet scény podobné filmu až do rozlišení 1080p s více postavami, specifickými typy pohybu a přesnými detaily.

- Sora se uznává, že má slabiny, jako je boj s přesnou fyzikální simulací, což způsobuje problémy se vztahy příčiny a následku a prostorovými detaily.

- Model je v současné době k dispozici „červeným týmům“ pro hodnocení kybernetické bezpečnosti a vybraným designérům, vizuálním umělcům a filmařům, aby získali zpětnou vazbu.

- Generální ředitel OpenAI Sam Altman se otevřel vlastním požadavkům na generování videa na X, sdílel sedm videí vygenerovaných Sorou a získal pozitivní reakce od uživatelů.

- Navzdory chvále se objevily obavy z etických důsledků, zejména poté, co byly odhaleny nástroje pro generování obrázků AI vyškolené na nelegálním materiálu.

- Sora je popsána starším výzkumným pracovníkem Nvidie Jimem Fanem jako „fyzikální engine řízený daty“ spíše než jako jednoduchý kreativní nástroj, protože deterministicky vytváří fyziku objektů ve scéně.

#OpenAI #OpenAI's #SORA