Perfusion, la soluzione di Nvidia per elevate esigenze di archiviazione della generazione di immagini AI

I ricercatori di Nvidia hanno sviluppato una nuova tecnologia di generazione di immagini di intelligenza artificiale che consente modelli testo-immagine altamente personalizzati con requisiti di archiviazione minimi.

Secondo un articolo pubblicato su arXiv, il metodo proposto chiamato "Perfusion" può aggiungere nuovi concetti visivi ai modelli esistenti utilizzando solo 100KB di parametri per concetto.

Fonte: Nvidia Research

Come lo descrivono gli autori dell'articolo, Perfusion funziona "apportando piccoli aggiornamenti alla rappresentazione interna del modello testo-immagine".

Più specificamente, apporta modifiche attentamente calcolate alla parte del modello che collega le descrizioni di testo alle caratteristiche visive generate. L'applicazione di modifiche parametriche più piccole al livello di attenzione incrociata consente a Perfusion di modificare il modo in cui gli input di testo vengono convertiti in immagini.

Pertanto, Perfusion non riqualifica completamente da zero il modello testo-immagine. Invece, modifica leggermente la trasformazione matematica che trasforma il testo in immagini. Ciò rende possibile personalizzare il modello per generare nuovi concetti visivi senza richiedere molta potenza di calcolo o riqualificazione del modello.

Il metodo di perfusione richiede solo 100kb.

La perfusione raggiunge questi risultati con parametri da due a cinque ordini di grandezza in meno rispetto alle tecnologie concorrenti.

Mentre altri metodi possono richiedere da centinaia di megabyte a gigabyte di spazio di archiviazione per concetto, Perfusion richiede solo 100 KB, che è paragonabile a una piccola immagine, testo o messaggio WhatsApp.

Questa drastica riduzione potrebbe rendere più fattibile l’implementazione di modelli artistici IA altamente personalizzati.

Secondo il coautore Gal Chechik,

"La perfusione non solo consente una personalizzazione più accurata a una frazione delle dimensioni del modello, ma consente anche l'uso di segnali più complessi e la combinazione di concetti appresi separatamente al momento dell'inferenza."

Il metodo può generare immagini creative come "orsacchiotto che naviga in una teiera" utilizzando concetti personalizzati appresi separatamente di "orsacchiotto" e "teiera".

Fonte: Nvidia Research

Possibilità di efficiente personalizzazione

Perfusion ha la capacità unica di personalizzare i modelli di intelligenza artificiale utilizzando solo 100 KB per concetto, aprendo innumerevoli potenziali applicazioni:

Questo approccio apre la strada agli individui per personalizzare facilmente i modelli testo-immagine con nuovi oggetti, scene o stili, eliminando così la necessità di costose riqualificazioni. L’efficienza di Perfusion di aggiornamenti dei parametri da 100KB per concetto consente di implementare modelli personalizzati utilizzando la tecnologia sui dispositivi consumer, consentendo la creazione di immagini sul dispositivo.

Uno degli aspetti più interessanti di questa tecnologia è il potenziale che offre per la condivisione e la collaborazione su modelli di intelligenza artificiale. Gli utenti possono condividere i loro concetti personalizzati come piccoli file allegati, evitando così di condividere ingombranti punti di controllo del modello.

Quando si tratta di distribuzione, i modelli su misura per un’organizzazione specifica possono essere più facilmente propagati o implementati all’edge. Poiché la pratica della generazione di testo in immagine continua a diventare sempre più diffusa, la capacità di ottenere riduzioni di dimensioni così significative senza sacrificare la funzionalità sarà fondamentale.

Tuttavia, vale la pena notare che Perfusion offre principalmente la personalizzazione del modello piuttosto che funzionalità di generazione completa di per sé.

Restrizioni e liberatorie

Sebbene promettente, la tecnologia presenta alcune limitazioni. Gli autori notano che le scelte chiave durante la formazione a volte possono generalizzare eccessivamente un concetto. Sono ancora necessarie ulteriori ricerche per combinare perfettamente più idee personalizzate in un’unica immagine.

Gli autori sottolineano che il codice di Perfusion sarà disponibile sulla pagina del loro progetto, indicando l'intenzione di rilasciare pubblicamente il metodo in futuro, possibilmente in attesa della revisione tra pari e delle pubblicazioni di ricerca ufficiali. Tuttavia, poiché il lavoro è attualmente pubblicato solo su arXiv, i dettagli specifici della disponibilità pubblica rimangono poco chiari. Su questa piattaforma, i ricercatori possono caricare documenti prima della revisione formale tra pari e della pubblicazione su riviste/conferenze.

Sebbene non sia ancora stato effettuato l'accesso al codice di Perfusion, i piani proposti dagli autori implicano che tali sistemi di intelligenza artificiale efficienti e personalizzati potrebbero cadere nelle mani di sviluppatori, industria e creatori a tempo debito.

Con l’evoluzione delle piattaforme artistiche basate sull’intelligenza artificiale come MidJourney, DALL-E 2 e Stable Diffusion, la tecnologia che consente un maggiore controllo da parte dell’utente potrebbe essere cruciale per l’implementazione nel mondo reale. Con miglioramenti intelligenti dell'efficienza come Perfusion, Nvidia sembra determinata a mantenere il proprio vantaggio in un ambiente in rapida evoluzione.

#Nvidia  #图像生成