Título original: "La próxima generación de Pixar: cómo la IA fusionará películas y juegos"

Autor:Jonathan Lai

Compilado por: Shenchao TechFlow

 

Durante el siglo pasado, el cambio tecnológico ha dado lugar a muchas de nuestras historias favoritas. En la década de 1930, por ejemplo, Disney inventó la cámara multiplano y produjo la primera animación a todo color con sonido sincronizado. Este avance tecnológico condujo a la creación de la innovadora película animada Blancanieves y los siete enanitos. "

La década de 1940 vio el surgimiento de Marvel y DC Comics, conocida como la "Edad de Oro de los Cómics", gracias al uso generalizado de prensas rotativas de cuatro colores y la tecnología de impresión offset, que permitió imprimir cómics a gran escala. Las limitaciones de la tecnología (baja resolución, gama tonal limitada, impresión matricial de puntos en papel periódico barato) dieron como resultado el característico aspecto "pulpa" que todavía reconocemos hoy.

Asimismo, Pixar estaba en una posición única en la década de 1980 para aprovechar las nuevas plataformas tecnológicas: computadoras y gráficos 3D. El cofundador Edwin Catmull fue uno de los primeros investigadores en el Laboratorio de Gráficos por Computadora del NYIT y en Lucasfilm, fue pionero en conceptos básicos de CGI y luego lanzó la primera película animada totalmente generada por computadora, la película "Toy Story". La suite de renderizado de gráficos de Pixar, Renderman, se ha utilizado en más de 500 películas hasta la fecha.

Con cada ola de tecnología, lo que comenzó como primeros prototipos de novedad evolucionó hacia nuevos formatos de narración profunda, liderados por generaciones de nuevos creadores. Hoy creemos que el próximo Pixar está a punto de nacer. La IA generativa está impulsando un cambio fundamental en la narración creativa, permitiendo a una nueva generación de creadores humanos contar historias de maneras completamente nuevas.

En concreto, creemos que el Pixar del próximo siglo no nacerá a través del cine o la animación tradicionales, sino a través del vídeo interactivo. Este nuevo formato narrativo desdibujará las líneas entre los videojuegos y la televisión/películas, fusionando la narración en profundidad con la agencia de la audiencia y el "juego", abriendo un enorme mercado nuevo.

Juegos: La frontera de la narrativa moderna

Hoy están surgiendo dos grandes olas que pueden acelerar la formación de una nueva generación de empresas de storytelling:

  1. Cambio del consumidor hacia los medios interactivos (a diferencia de los medios lineales/pasivos, es decir, televisión/películas)

  2. Avances tecnológicos impulsados ​​por la inteligencia artificial generativa

Durante los últimos 30 años, hemos visto que el cambio en el consumo continúa profundizándose, con juegos y medios interactivos volviéndose cada vez más populares en cada generación. Para la Generación Z y los más jóvenes, los juegos son ahora la mejor opción para pasar su tiempo libre, por encima de la televisión y las películas. En 2019, el director ejecutivo de Netflix, Reed Hastings, dijo en una carta a los accionistas: "Competimos (y a menudo perdemos) con Fortnite más que con HBO. Para la mayoría de los hogares, la pregunta es "¿qué estamos jugando?", no "qué estamos viendo". ".

Si bien la televisión, las películas y los libros todavía cuentan historias convincentes, muchas de las nuevas historias más innovadoras y exitosas ahora se cuentan en los juegos. Como "Harry Potter". El juego de rol de mundo abierto Hogwarts Legacy permite a los jugadores experimentar la inmersión de ser un nuevo estudiante en Hogwarts como nunca antes. El juego fue el título más vendido de 2023, recaudando más de mil millones de dólares en el lanzamiento y superando a todas las películas de Harry Potter excepto la última, "Harry Potter: Las Reliquias de la Muerte: Parte 2" (1.030 millones de dólares).

La propiedad intelectual (PI) de los juegos también ha tenido un gran éxito recientemente en las adaptaciones cinematográficas y televisivas. The Last of Us de Naughty Dog se convirtió en la serie más vista de HBO Max en 2023, con un promedio de 32 millones de espectadores por episodio. La película de Super Mario Bros. tuvo el mayor fin de semana de estreno para una película animada en todo el mundo, con 1.400 millones de dólares en taquilla. Además, están la serie Fallout aclamada por la crítica, la serie Halo de Paramount, la película Tomb Raider de Tom Holland, la película Skibidi Toilet de Michael Bay y muchas más.

Una razón clave por la que los medios interactivos son tan poderosos es que la participación activa ayuda a crear intimidad con una historia o universo. Una hora jugando es mucho mejor que una hora mirando pasivamente la televisión. Muchos juegos también son sociales, con mecánicas multijugador integradas en el diseño central. Las historias más memorables suelen ser las que creamos y compartimos con familiares y amigos.

El público continúa interactuando con la propiedad intelectual a través de múltiples medios (ver, jugar, crear, compartir), haciendo que las historias no sean sólo entretenimiento sino parte de la propia identidad. La transformación mágica que ocurre cuando una persona pasa de ser un simple "espectador de Harry Potter" a un "fanático devoto de Potter", que es más duradero y construye una identidad y múltiples complejos en torno a lo que alguna vez fue una comunidad de personas en solitario.

En general, si bien las historias más importantes de nuestra historia se han contado en medios lineales, en el futuro, los juegos y los medios interactivos serán los lugares donde se contarán las historias del futuro, por lo que creemos que nacerán las empresas de narración de historias más importantes del próximo siglo. aquí.

Vídeo interactivo: combinando narrativa y juego

Dado el predominio de los juegos en la cultura, creemos que el próximo Pixar surgirá a través de un formato mediático que combine la narrativa con los juegos. Un formato para el que vemos mucho potencial es el vídeo interactivo.

Primero, ¿qué es el vídeo interactivo y en qué se diferencia de los videojuegos? En los videojuegos, los desarrolladores precargan un conjunto de recursos en el motor del juego. Por ejemplo, en Super Mario Bros., los artistas diseñaron los personajes, los árboles y los fondos de Mario. Los programadores configuraron a Mario para que saltara 50 píxeles después de que el jugador presiona el botón "A". Los fotogramas saltados utilizan la representación de canalización de gráficos tradicional. Esto da como resultado una arquitectura de juego altamente determinista y computacional, con control total del desarrollador.

El vídeo interactivo se basa completamente en redes neuronales para generar fotogramas en tiempo real. No hay ningún recurso para cargar o crear aparte de un mensaje creativo (que puede ser texto o una imagen representativa). Un modelo de gráficos de IA en tiempo real recibe la información del jugador (como el botón "arriba") y especula probabilísticamente sobre el siguiente cuadro de juego generado.

La promesa del vídeo interactivo radica en fusionar la accesibilidad y la profundidad narrativa de la televisión y el cine con los sistemas dinámicos impulsados ​​por el jugador de los videojuegos. Todo el mundo sabe mirar televisión y seguir una historia lineal. Al agregar videos generados en tiempo real en función de las aportaciones de los jugadores, podemos crear experiencias de juego personalizadas e infinitas, lo que potencialmente permitirá que las producciones multimedia atraigan a los fanáticos durante miles de horas. World of Warcraft de Blizzard tiene más de 20 años y todavía tiene alrededor de 7 millones de suscriptores en la actualidad.

El video interactivo también ofrece múltiples formas de consumirlo: los espectadores pueden disfrutar el contenido tan fácilmente como mirar un programa de televisión o jugar activamente en un dispositivo móvil o controlador en otros momentos. Permitir que los fanáticos experimenten el universo de sus IP favoritas de tantas maneras como sea posible es el núcleo de la narración transmedia, lo que ayuda a fomentar una sensación de intimidad con la IP.

Durante la última década, muchos narradores han intentado hacer realidad la visión del vídeo interactivo. Uno de los primeros avances fue The Walking Dead de Telltale, una experiencia interactiva basada en la serie de cómics de Robert Kirkman en la que los jugadores veían cómo se desarrollaban escenas animadas pero tomaban decisiones en momentos clave a través del diálogo y eventos de reacción rápida. Estas opciones, como decidir qué personaje salvar durante un ataque zombie, crean variaciones de historia personalizadas que hacen que cada experiencia de juego sea única. The Walking Dead se lanzó en 2012 y fue un gran éxito: ganó múltiples premios al Juego del año y vendió más de 28 millones de copias hasta la fecha.

En 2017, Netflix también ingresó al espacio del video interactivo, comenzando con la obra animada "The Cat Books" y culminando con el lanzamiento de la aclamada por la crítica "Black Mirror: Bandersnatch", una película de acción real para un público joven. Los programadores toman decisiones en el proceso de adaptación de libros de fantasía a videojuegos. Bandersnatch se convirtió en un fenómeno navideño, atrayendo un culto de fanáticos que crearon diagramas de flujo que documentaban todos los finales posibles de la película.

Sin embargo, a pesar de las críticas positivas, tanto Bandersnatch como The Walking Dead se enfrentaron a una crisis existencial: era demasiado caro y consumía mucho tiempo crear manualmente las innumerables historias ramificadas que definían el formato. A medida que Telltale se expandió a múltiples proyectos, establecieron una cultura de horas extras entre los desarrolladores, quienes se quejaban de "fatiga y agotamiento". La calidad de la narrativa sufrió: mientras que The Walking Dead originalmente tenía una puntuación Metacritic de 89, cuatro años más tarde, cuando Telltale lanzó una de sus IP más importantes, The Batman, solo recibió una puntuación insatisfactoria de 64. En 2018, Telltale se declaró en quiebra y no logró establecer un modelo de negocio sostenible.

Para Bandersnatch, el equipo filmó 250 videoclips, incluidas más de cinco horas de metraje, para explicar los cinco finales de la película. Según los informes, el presupuesto y el tiempo de producción fueron el doble que los de un episodio estándar de Black Mirror, y los showrunners dijeron que la complejidad del proyecto era equivalente a "hacer cuatro episodios al mismo tiempo". Finalmente, en 2024, Netflix decidió cerrar toda su división de especiales interactivos y, en su lugar, crear juegos tradicionales.

Hasta ahora, los costos de contenido para proyectos de video interactivo aumentaban linealmente con el tiempo de juego; no había forma de evitar esto. Sin embargo, los avances en los modelos de IA generativa pueden ser la clave para ampliar el vídeo interactivo.

Los modelos generativos pronto serán lo suficientemente rápidos como para admitir vídeos interactivos

Los avances recientes en la destilación de modelos generativos de imágenes son sorprendentes. En 2023, el lanzamiento del modelo de consistencia latente y SDXL Turbo mejoró significativamente la velocidad y eficiencia de la generación de imágenes, haciendo que la renderización de alta resolución sea de solo un paso en lugar de los 20 a 30 pasos anteriores, y el costo se redujo más de 30 veces. . La idea de generar vídeo (una serie consistente de imágenes con variaciones de un cuadro a otro) de repente se volvió extremadamente factible.

OpenAI causó sensación a principios de este año con el anuncio de Sora, un modelo de conversión de texto a vídeo que puede generar vídeos de hasta 1 minuto de duración y al mismo tiempo garantizar la coherencia visual. No mucho después, Luma AI lanzó un modelo de video más rápido, Dream Machine, que puede generar 120 cuadros (aproximadamente 5 segundos de video) en 120 segundos. Luma compartió recientemente que atrajeron la asombrosa cifra de 10 millones de usuarios en solo 7 semanas. El mes pasado, Hedra Labs lanzó Character-1, un modelo de video multimodal centrado en personajes que puede generar videos de 60 segundos en 90 segundos, mostrando emociones humanas expresivas y voces en off. Y Runway lanzó recientemente Gen-3 Turbo, un modelo que puede reproducir un clip de 10 segundos en solo 15 segundos.

Hoy en día, un aspirante a cineasta puede generar rápidamente minutos de contenido de vídeo HD de 720p a partir de pistas de texto o imágenes de referencia, que pueden combinarse con fotogramas clave iniciales o finales para mayor concreción. Runway también ha desarrollado un conjunto de herramientas de edición que brindan un control más preciso sobre el video generado por difusión, incluido el control de cámara intracuadro, la interpolación de cuadros y los pinceles de movimiento. Luma y Hedra también lanzarán pronto sus respectivos conjuntos de herramientas para creadores.

Si bien el flujo de trabajo de producción aún se encuentra en sus primeras etapas, ya conocemos a varios creadores de contenido que están utilizando estas herramientas para contar historias. Resemblance AI creó Nexus 1945, una convincente historia alternativa de la Segunda Guerra Mundial de 3 minutos producida por Luma, Midjourney y Eleven Labs. El cineasta independiente Uncanny Harry creó un cortometraje cyberpunk con Hedra, y los creadores también produjeron videos musicales, avances, vlogs de viajes e incluso un comercial de hamburguesas de comida rápida. Desde 2022, Runway organiza cada año un Festival de Cine sobre Inteligencia Artificial para seleccionar 10 cortometrajes destacados producidos por IA.

Es importante tener en cuenta que todavía existen algunas limitaciones: todavía existe una clara brecha en la calidad narrativa y el control entre un clip de 2 minutos generado a partir de un mensaje y una función de 2 horas producida por un equipo profesional. Generar lo que el creador quiere a partir de un mensaje o una imagen suele ser difícil, e incluso los ingenieros de mensajes experimentados suelen descartar gran parte del contenido generado. El creador de IA, Abel Art, informa que se necesitan alrededor de 500 vídeos para generar 1 minuto de vídeo coherente. La consistencia de la imagen a menudo comienza a fallar después de uno o dos minutos de reproducción continua de video y, a menudo, se requiere edición manual, razón por la cual la mayoría de los videos generados hoy en día están limitados a aproximadamente 1 minuto de duración.

Para la mayoría de los estudios profesionales de Hollywood, los videos generados por modelos de difusión se pueden usar para crear guiones gráficos en preproducción para visualizar cómo se verá una escena o un personaje, pero no reemplazan la filmación en exteriores. También existen oportunidades para utilizar la IA para el procesamiento de efectos visuales y de audio en la postproducción, pero en general, el conjunto de herramientas de creación de IA aún se encuentra en sus primeras etapas de desarrollo en comparación con los flujos de trabajo tradicionales que han experimentado décadas de inversión.

A corto plazo, una de las mayores oportunidades para el vídeo generado reside en el desarrollo de nuevos formatos de medios, como vídeos interactivos y cortometrajes. Los videos interactivos se han dividido en segmentos cortos de 1 a 2 minutos, según la elección del jugador, y a menudo están animados o estilizados, con imágenes de menor resolución disponibles. Es más, el costo de crear estos videos cortos a través del modelo de difusión es más rentable que en los días de Telltale/Bandersnatch: Abel Art estima que un video de 1 minuto de Luma cuesta $125, el equivalente a alquilar una película para un día. imágenes.

Si bien la calidad del vídeo generado hoy en día puede ser inconsistente, la popularidad de verticales de formato corto como ReelShort y DramaBox ha demostrado la demanda de la audiencia por programas de televisión breves episódicos con bajos valores de producción. A pesar de que los críticos se quejan de la cinematografía amateur y los guiones formulados, ReelShort ha generado más de 30 millones de descargas y ha recaudado más de 10 millones de dólares al mes, generando miles de miniseries como Forbidden Desire: Alpha Love.

El mayor obstáculo técnico al que se enfrenta el vídeo interactivo es lograr velocidades de generación de fotogramas lo suficientemente rápidas como para generar contenido en tiempo real. Actualmente, Dream Machine produce aproximadamente 1 fotograma por segundo. El objetivo mínimo aceptable para las consolas modernas es unos sólidos 30 FPS, siendo 60 FPS el estándar de oro. Con la ayuda de tecnologías como PAB, esto se puede mejorar a 10-20 FPS en ciertos tipos de video, pero aún no es suficiente velocidad.

Estado actual: el panorama del vídeo interactivo

Dada la tasa de mejoras que hemos visto en el hardware y los modelos subyacentes, estimamos que todavía estamos a unos 2 años de distancia de un video interactivo totalmente generado comercialmente viable.

Hoy en día, estamos viendo avances en el espacio de la investigación por parte de actores como Microsoft Research y OpenAI que trabajan en modelos fundamentales de un extremo a otro para videos interactivos. El modelo de Microsoft pretende generar un entorno tridimensional totalmente "mundial jugable". OpenAI mostró una demostración de Sora, un modelo capaz de realizar simulaciones de Minecraft de "muestra cero": "Sora puede controlar simultáneamente las acciones de los jugadores en Minecraft, renderizando el mundo y su dinámica con alta fidelidad".

En febrero de 2024, Google DeepMind lanzó su propio modelo base de vídeo interactivo de extremo a extremo, Genie. Genie es único en su modelo de acción latente, que infiere acciones latentes entre un par de fotogramas de vídeo. Entrenado con 300.000 horas de video de plataforma, Genie aprendió a reconocer los movimientos de los personajes, por ejemplo, cómo sortear obstáculos. Este modelo de acción latente se combina con un tokenizador de video y se introduce en un modelo dinámico que predice el siguiente fotograma para crear un video interactivo.

A nivel de aplicación, hemos visto a algunos equipos explorar nuevas experiencias de vídeo interactivo. Muchas empresas están trabajando en la creación de películas o programas de televisión generativos, diseñados y desarrollados en torno a las limitaciones de los modelos actuales. También hemos visto a algunos equipos agregar elementos de video a motores de juegos nativos de IA.

Latens de Ilumine está desarrollando un "simulador de sueños lúcidos" que genera contenido visual en tiempo real a medida que los usuarios atraviesan sus sueños. Este ligero retraso ayuda a crear una experiencia surrealista. Los desarrolladores de la comunidad de código abierto Deforum están creando instalaciones del mundo real de vídeo interactivo inmersivo. Dynamic está desarrollando un motor de simulación que permite a los usuarios controlar robots desde una perspectiva en primera persona, utilizando vídeo totalmente generado.

En el ámbito de la televisión y el cine, Fable Studio está desarrollando Showrunner, un servicio de transmisión de inteligencia artificial que permite a los fanáticos adaptar sus propias versiones de programas populares. El proyecto de prueba de concepto de Fable, South Park AI, obtuvo 8 millones de visitas cuando se estrenó el verano pasado. Solo Twin y Uncanny Harry son dos estudios cinematográficos de inteligencia artificial de vanguardia. Alterverse crea un videojuego de rol interactivo inspirado en D&D donde la comunidad decide qué sucede a continuación. Late Night Labs es una nueva productora cinematográfica líder que integra la IA en el proceso creativo. Odyssey está desarrollando una plataforma de narración visual impulsada por 4 modelos generativos.

A medida que la línea entre películas y juegos se desdibuja, tendremos herramientas y motores de juegos nativos de IA que brindarán a los creadores más control. Series AI desarrolló Rho Engine, una plataforma integral para el desarrollo de juegos de IA, y aprovecha su plataforma para desarrollar conjuntamente títulos originales con los principales titulares de propiedad intelectual. También hemos visto el lanzamiento de suites de creación de IA de Rosebud AI, Astrocade y Videogame AI, que permiten a las personas nuevas en programación o arte comenzar rápidamente a crear experiencias interactivas.

Estas nuevas suites de creación de IA crearán oportunidades de mercado para la narración de historias, permitiendo que una nueva clase de ciudadanos creadores den vida a su imaginación mediante ingeniería rápida, bocetos visuales y reconocimiento de voz.

¿Quién creará una versión interactiva de Pixar?

Pixar pudo aprovechar los cambios tecnológicos fundamentales en las computadoras y los gráficos 3D para crear una empresa icónica. Hoy en día, el campo de la IA generativa está experimentando una ola similar. Sin embargo, es importante recordar que Pixar debe gran parte de su éxito a Toy Story y sus películas animadas clásicas creadas por un equipo de historia de talla mundial dirigido por John Lasseter. La creatividad humana combinada con las nuevas tecnologías crea las mejores historias.

Asimismo, creemos que el próximo Pixar tendrá que ser un estudio de narración interactiva de clase mundial, así como una empresa de tecnología de primer nivel. Dado el rápido desarrollo de la investigación en IA, los equipos creativos deben trabajar en estrecha colaboración con los equipos de IA para combinar la narrativa y el diseño de juegos con la innovación técnica. Pixar tiene un equipo único que combina arte y tecnología y tiene una asociación con Disney. La oportunidad de hoy radica en un nuevo equipo capaz de reunir las disciplinas de los juegos, el cine y la inteligencia artificial.

Para ser claros, esto será un gran desafío y no estará limitado únicamente por la tecnología. El equipo necesita explorar nuevas formas para que los narradores humanos trabajen en asociación con herramientas de inteligencia artificial que mejoren, no disminuyan, su imaginación. Además, hay muchos obstáculos legales y éticos que deben resolverse: la propiedad legal y la protección de los derechos de autor de las obras creativas generadas por IA siguen sin estar claras a menos que los creadores puedan demostrar la propiedad de todos los datos utilizados para entrenar los modelos. También es necesario resolver urgentemente la cuestión de la compensación para los escritores, artistas y productores originales detrás de los datos de formación.

Sin embargo, hoy también está claro que existe una fuerte demanda de nuevas experiencias interactivas. A largo plazo, el próximo Pixar no sólo creará historias interactivas, sino que también construirá mundos virtuales completos. Anteriormente hemos explorado el potencial de juegos sin fin (mundos dinámicos combinados con generación de niveles en tiempo real, narrativas personalizadas y agentes inteligentes) similar a la visión Westworld de HBO. Interactive Video resuelve uno de los mayores desafíos al darle vida a Westworld: generar rápidamente grandes cantidades de contenido interactivo personalizado y de alta calidad.

Un día, con la ayuda de la IA, podríamos comenzar el proceso creativo construyendo un mundo narrativo (un mundo de propiedad intelectual que imaginamos completamente formado, completo con personajes, hilos narrativos, imágenes, etc.) y luego generar lo que esperamos que sea. ser una historia para una audiencia o una variedad de productos mediáticos específicos proporcionados por la situación. Este será el desarrollo definitivo de la narración transmedia, desdibujando por completo los límites de los medios de comunicación tradicionales.

Pixar, Disney y Marvel han podido crear mundos inolvidables que se convierten en una parte fundamental de las identidades de sus fans. La próxima oportunidad interactiva de Pixar radica en aprovechar la IA generativa para lograr el mismo objetivo: crear nuevos mundos narrativos que difuminen los límites de los formatos narrativos tradicionales para crear mundos nunca antes vistos.