Perfusion, la solution de Nvidia pour les besoins de stockage élevés de la génération d'images IA

Les chercheurs de Nvidia ont développé une nouvelle technologie de génération d'images par intelligence artificielle qui permet des modèles texte-image hautement personnalisés avec des besoins de stockage minimes.

Selon un article publié sur arXiv, la méthode proposée appelée « Perfusion » peut ajouter de nouveaux concepts visuels aux modèles existants en utilisant seulement 100 Ko de paramètres par concept.

Source : Recherche NVIDIA

Comme le décrivent les auteurs de l'article, Perfusion fonctionne en « effectuant de petites mises à jour de la représentation interne du modèle texte-image ».

Plus précisément, il apporte des modifications soigneusement calculées à la partie du modèle qui relie les descriptions textuelles aux caractéristiques visuelles générées. L'application de modifications paramétriques plus petites à la couche d'attention croisée permet à Perfusion de modifier la façon dont les entrées de texte sont converties en images.

Par conséquent, Perfusion ne recycle pas complètement le modèle texte-image à partir de zéro. Au lieu de cela, il modifie légèrement la transformation mathématique qui transforme le texte en images. Cela permet de personnaliser le modèle pour générer de nouveaux concepts visuels sans nécessiter beaucoup de puissance de calcul ni de recyclage du modèle.

La méthode de perfusion ne nécessite que 100 Ko.

Perfusion obtient ces résultats avec deux à cinq ordres de grandeur de paramètres en moins que les technologies concurrentes.

Alors que d'autres méthodes peuvent nécessiter des centaines de mégaoctets, voire des gigaoctets de stockage par concept, Perfusion ne nécessite que 100 Ko, ce qui est comparable à une petite image, un texte ou un message WhatsApp.

Cette réduction drastique pourrait rendre plus réalisable le déploiement de modèles artistiques d’IA hautement personnalisés.

Selon le co-auteur Gal Chechik,

"La perfusion permet non seulement une personnalisation plus précise pour une fraction de la taille du modèle, mais permet également l'utilisation d'indices plus complexes et la combinaison de concepts appris séparément au moment de l'inférence."

Le procédé peut générer des images créatives telles que « ours en peluche naviguant dans une théière » à l'aide de concepts personnalisés appris séparément de « ours en peluche » et de « théière ».

Source : Recherche NVIDIA

Possibilité de personnalisation efficace

Perfusion a la capacité unique de personnaliser les modèles d'IA en utilisant seulement 100 Ko par concept, ouvrant ainsi d'innombrables applications potentielles :

Cette approche permet aux individus de personnaliser facilement les modèles de conversion texte-image avec de nouveaux objets, scènes ou styles, éliminant ainsi le besoin d'une reconversion coûteuse. L'efficacité de Perfusion, avec des mises à jour de paramètres de 100 Ko par concept, permet d'implémenter des modèles personnalisés à l'aide de la technologie sur des appareils grand public, permettant ainsi la création d'images sur l'appareil.

L’un des aspects les plus intéressants de cette technologie est le potentiel qu’elle offre en matière de partage et de collaboration autour de modèles d’intelligence artificielle. Les utilisateurs peuvent partager leurs concepts personnalisés sous forme de petits fichiers joints, évitant ainsi de partager des points de contrôle de modèle fastidieux.

En matière de distribution, les modèles adaptés à une organisation spécifique peuvent être plus facilement propagés ou déployés en périphérie. Alors que la pratique de la génération de texte en image continue de devenir de plus en plus courante, la capacité à obtenir des réductions de taille aussi significatives sans sacrifier la fonctionnalité sera essentielle.

Cependant, il convient de noter que Perfusion propose principalement une personnalisation des modèles plutôt que des capacités de génération complète en soi.

Restrictions et autorisations

Bien que prometteuse, la technologie présente certaines limites. Les auteurs notent que les choix clés lors de la formation peuvent parfois généraliser à l'excès un concept. Des recherches supplémentaires sont encore nécessaires pour combiner de manière transparente plusieurs idées personnalisées en une seule image.

Les auteurs notent que le code de Perfusion sera disponible sur la page de leur projet, indiquant leur intention de rendre publique la méthode à l'avenir, éventuellement dans l'attente d'un examen par les pairs et de publications de recherche officielles. Cependant, comme le travail n’est actuellement publié que sur arXiv, les détails spécifiques de sa disponibilité publique restent flous. Sur cette plateforme, les chercheurs peuvent télécharger des articles avant leur examen formel par les pairs et leur publication dans des revues/conférences.

Bien que le code de Perfusion n’ait pas encore été consulté, les plans proposés par les auteurs signifient que de tels systèmes d’IA efficaces et personnalisés pourraient tomber entre les mains des développeurs, de l’industrie et des créateurs à terme.

À mesure que les plateformes artistiques d’IA telles que MidJourney, DALL-E 2 et Stable Diffusion évoluent, une technologie permettant un meilleur contrôle de l’utilisateur pourrait s’avérer cruciale pour le déploiement dans le monde réel. Avec des améliorations d'efficacité intelligentes comme Perfusion, Nvidia semble déterminé à maintenir son avance dans un environnement en évolution rapide.

#Nvidia  #图像生成