OpenAI представила свою першу модель перетворення тексту у відео Sora 15 лютого, отримавши позитивні відгуки, незважаючи на визнання її постійного розвитку. Sora, яку рекламують за створення складних відео з простих текстових підказок, розширення наявних відео та генерування сцен зі статичних зображень, здатна створювати 60-секундні відео з детальними сценами, динамічними рухами камери та виразними персонажами.

Відповідно до публікації в блозі OpenAI від 15 лютого, Сора стверджує, що здатна генерувати сцени, схожі на фільми, з роздільною здатністю до 1080p, включаючи кілька персонажів, певні рухи та точні деталі об’єкта та фону. Працюючи за моделлю «дифузії», схожою на свою попередницю на основі зображень DALL-E 3, Sora генерує вихід шляхом поступової трансформації початкового «статичного шуму» протягом кількох кроків.

Основа Sora базується на минулих дослідженнях моделей GPT і DALL-E3, покращуючи її здатність достовірно відображати дані користувачів. Однак OpenAI визнав слабкі сторони Sora, зокрема в точному моделюванні фізики складної сцени, що потенційно може призвести до розбіжностей у причинно-наслідкових зв’язках, наприклад, коли людина кусає печиво, не залишаючи сліду.

Просторові деталі створюють ще одну проблему, коли Сора час від часу плутає ліворуч і праворуч або не дотримується конкретних описів напрямку. OpenAI обмежив доступ до генеративної моделі для «червоних команд» і окремих професіоналів, щоб оцінити потенційну шкоду та зібрати відгуки.

Незважаючи на ці обмеження, Sora привернула увагу на платформі соціальних медіа X завдяки численним демонстраціям відео та понад 173 000 популярних публікацій. Генеральний директор OpenAI Сем Альтман навіть запропонував надіслати спеціальні запити на генерацію відео, поділившись сімома відео, згенерованими Sora, включаючи качку на спині дракона та золотистих ретриверів, які ведуть подкасти на вершині гори.

Реакція на X була надзвичайно позитивною, залишивши багатьох користувачів «безмовними». Старший дослідник Nvidia Джим Фан підкреслив, що Sora виходить за межі простого творчого інструменту, такого як DALL-E 3, класифікуючи його як «фізичний движок, керований даними», здатний симулювати складний рендеринг, інтуїтивно зрозумілу фізику, довгострокові міркування та семантичне обґрунтування. Точка зору Фана позиціонує Sora не лише як інструмент для генерації відео, а як комплексний механізм, що впливає на фізику самих згенерованих сцен.

#Write2Earn #OpenAI #TextToVideo #SoraMarvels #TrendingTopic