Perfusion, la solución de Nvidia para altas necesidades de almacenamiento de generación de imágenes con IA

Los investigadores de Nvidia han desarrollado una nueva tecnología de generación de imágenes con inteligencia artificial que permite modelos de conversión de texto a imagen altamente personalizados con requisitos mínimos de almacenamiento.

Según un artículo publicado en arXiv, el método propuesto llamado "Perfusión" puede agregar nuevos conceptos visuales a modelos existentes utilizando solo 100 KB de parámetros por concepto.

Fuente: Investigación de Nvidia

Como lo describen los autores del artículo, Perfusion funciona "realizando pequeñas actualizaciones en la representación interna del modelo de texto a imagen".

Más específicamente, realiza cambios cuidadosamente calculados en la parte del modelo que conecta las descripciones de texto con las características visuales generadas. La aplicación de ediciones paramétricas más pequeñas a la capa de atención cruzada permite a Perfusion modificar cómo las entradas de texto se convierten en imágenes.

Por lo tanto, Perfusion no vuelve a entrenar completamente el modelo de texto a imagen desde cero. En cambio, modifica ligeramente la transformación matemática que convierte el texto en imágenes. Esto hace posible personalizar el modelo para generar nuevos conceptos visuales sin requerir mucha potencia informática ni reentrenamiento del modelo.

El método de perfusión requiere sólo 100 kb.

La perfusión logra estos resultados con dos a cinco órdenes de magnitud menos de parámetros que las tecnologías de la competencia.

Mientras que otros métodos pueden requerir de cientos de megabytes a gigabytes de almacenamiento por concepto, Perfusion requiere solo 100 KB, lo que es comparable a una pequeña imagen, texto o mensaje de WhatsApp.

Esta drástica reducción podría hacer que sea más factible implementar modelos artísticos de IA altamente personalizados.

Según el coautor Gal Chechik,

"La perfusión no sólo permite una personalización más precisa en una fracción del tamaño del modelo, sino que también permite el uso de señales más complejas y la combinación de conceptos aprendidos por separado en el momento de la inferencia".

El método puede generar imágenes creativas como "oso de peluche navegando en una tetera" utilizando conceptos personalizados aprendidos por separado de "oso de peluche" y "tetera".

Fuente: Investigación de Nvidia

Posibilidad de personalización eficiente

La capacidad única de Perfusion para personalizar modelos de IA utilizando solo 100 KB por concepto abre innumerables aplicaciones potenciales:

Este enfoque allana el camino para que las personas personalicen fácilmente los modelos de texto a imagen con nuevos objetos, escenas o estilos, eliminando así la necesidad de un costoso reentrenamiento. La eficiencia de Perfusion de actualizaciones de parámetros de 100 KB por concepto permite implementar modelos personalizados utilizando la tecnología en dispositivos de consumo, lo que permite la creación de imágenes en el dispositivo.

Uno de los aspectos más atractivos de esta tecnología es el potencial que ofrece para compartir y colaborar en torno a modelos de inteligencia artificial. Los usuarios pueden compartir sus conceptos personalizados como pequeños archivos adjuntos, evitando así compartir engorrosos puntos de control del modelo.

Desde el punto de vista de la distribución, los modelos adaptados a una organización específica se pueden difundir o implementar más fácilmente en el borde. A medida que la práctica de la generación de texto a imagen se vuelve cada vez más común, la capacidad de lograr reducciones de tamaño tan significativas sin sacrificar la funcionalidad será fundamental.

Sin embargo, vale la pena señalar que Perfusion ofrece principalmente personalización del modelo en lugar de capacidades de generación completa per se.

Restricciones y liberaciones

Si bien es prometedora, la tecnología tiene algunas limitaciones. Los autores señalan que las decisiones clave durante la formación a veces pueden generalizar demasiado un concepto. Aún se necesita más investigación para combinar a la perfección múltiples ideas personalizadas en una sola imagen.

Los autores señalan que el código de Perfusion estará disponible en la página de su proyecto, lo que indica su intención de publicar el método en el futuro, posiblemente pendiente de revisión por pares y publicaciones oficiales de investigación. Sin embargo, como el trabajo actualmente sólo se publica en arXiv, los detalles específicos de la disponibilidad pública siguen sin estar claros. En esta plataforma, los investigadores pueden cargar artículos antes de la revisión formal por pares y la publicación en revistas/conferencias.

Si bien aún no se ha accedido al código de Perfusion, los planes propuestos por los autores significan que sistemas de IA tan eficientes y personalizados pueden caer en manos de los desarrolladores, la industria y los creadores a su debido tiempo.

A medida que evolucionan las plataformas artísticas de IA como MidJourney, DALL-E 2 y Stable Diffusion, la tecnología que permita un mayor control del usuario podría ser crucial para la implementación en el mundo real. Con inteligentes mejoras de eficiencia como Perfusion, Nvidia parece decidida a mantener su ventaja en un entorno en rápida evolución.

#Nvidia  #图像生成