Perfusion, a solução da Nvidia para altas necessidades de armazenamento de geração de imagens de IA

Os pesquisadores da Nvidia desenvolveram uma nova tecnologia de geração de imagens de inteligência artificial que permite modelos de texto para imagem altamente personalizados com requisitos mínimos de armazenamento.

De acordo com um artigo publicado no arXiv, o método proposto denominado “Perfusão” pode adicionar novos conceitos visuais a modelos existentes usando apenas 100 KB de parâmetros por conceito.

Fonte: Pesquisa Nvidia

Conforme descrevem os autores do artigo, o Perfusion funciona “fazendo pequenas atualizações na representação interna do modelo de texto para imagem”.

Mais especificamente, ele faz alterações cuidadosamente calculadas na parte do modelo que conecta as descrições de texto aos recursos visuais gerados. A aplicação de edições paramétricas menores à camada de atenção cruzada permite que o Perfusion modifique como as entradas de texto são convertidas em imagens.

Portanto, o Perfusion não treina completamente o modelo de texto para imagem do zero. Em vez disso, ajusta ligeiramente a transformação matemática que transforma texto em imagens. Isso torna possível customizar o modelo para gerar novos conceitos visuais sem exigir muito poder de computação ou retreinamento do modelo.

O método de perfusão requer apenas 100kb.

A perfusão alcança esses resultados com duas a cinco ordens de magnitude menos parâmetros do que as tecnologias concorrentes.

Embora outros métodos possam exigir centenas de megabytes a gigabytes de armazenamento por conceito, o Perfusion requer apenas 100 KB, o que é comparável a uma pequena imagem, texto ou mensagem do WhatsApp.

Esta redução drástica poderia tornar mais viável a implantação de modelos de arte de IA altamente personalizados.

De acordo com a coautora Gal Chechik,

"A perfusão não só permite uma personalização mais precisa em uma fração do tamanho do modelo, mas também permite o uso de pistas mais complexas e a combinação de conceitos aprendidos separadamente no momento da inferência."

O método pode gerar imagens criativas como "urso de pelúcia navegando em um bule de chá" usando conceitos personalizados aprendidos separadamente de "ursinho de pelúcia" e "bule".

Fonte: Pesquisa Nvidia

Possibilidade de personalização eficiente

A capacidade única do Perfusion de personalizar modelos de IA usando apenas 100 KB por conceito abre inúmeras aplicações potenciais:

Essa abordagem abre caminho para que os indivíduos personalizem facilmente modelos de texto para imagem com novos objetos, cenas ou estilos, eliminando assim a necessidade de retreinamento dispendioso. A eficiência do Perfusion de atualizações de parâmetros de 100 KB por conceito permite que modelos personalizados usando a tecnologia sejam implementados em dispositivos de consumo, permitindo a criação de imagens no dispositivo.

Um dos aspectos mais atraentes desta tecnologia é o potencial que oferece para compartilhamento e colaboração em torno de modelos de inteligência artificial. Os usuários podem compartilhar seus conceitos personalizados como pequenos arquivos anexados, evitando assim o compartilhamento de pontos de verificação de modelos complicados.

Quando se trata de distribuição, os modelos adaptados a uma organização específica podem ser mais facilmente propagados ou implantados na borda. À medida que a prática de geração de texto para imagem continua a se tornar mais popular, a capacidade de alcançar reduções de tamanho tão significativas sem sacrificar a funcionalidade será crítica.

No entanto, é importante notar que o Perfusion oferece principalmente personalização do modelo, em vez de recursos de geração completos em si.

Restrições e liberações

Embora promissora, a tecnologia tem algumas limitações. Os autores observam que as principais escolhas durante o treinamento podem, às vezes, generalizar demais um conceito. Ainda são necessárias mais pesquisas para combinar perfeitamente várias ideias personalizadas em uma única imagem.

Os autores observam que o código do Perfusion estará disponível na página do projeto, indicando a intenção de divulgar publicamente o método no futuro, possivelmente aguardando revisão por pares e publicações oficiais de pesquisa. No entanto, como o trabalho atualmente só é publicado no arXiv, detalhes específicos sobre a disponibilidade pública permanecem obscuros. Nesta plataforma, os pesquisadores podem fazer upload de artigos antes da revisão formal por pares e publicação em periódicos/conferências.

Embora o código do Perfusion ainda não tenha sido acessado, os planos propostos pelos autores significam que tais sistemas de IA personalizados e eficientes podem cair nas mãos de desenvolvedores, indústria e criadores no devido tempo.

À medida que as plataformas de arte de IA como MidJourney, DALL-E 2 e Stable Diffusion evoluem, a tecnologia que permite maior controle do usuário pode ser crucial para a implantação no mundo real. Com melhorias de eficiência inteligentes como o Perfusion, a Nvidia parece determinada a manter sua vantagem em um ambiente em rápida evolução.

#Nvidia  #图像生成