Autore: Xinzhiyuan
Non appena è uscito Google StyleDrop, è diventato subito un successo su Internet.
Considerando la Notte stellata di Van Gogh, l'intelligenza artificiale si è trasformata nel Maestro Van Gogh e, dopo aver compreso ai massimi livelli questo stile astratto, ha creato innumerevoli dipinti simili.
Altro stile cartoon, gli oggetti che voglio disegnare sono molto più carini.
Può persino controllare accuratamente i dettagli e progettare un logo in stile originale.
Il fascino di StyleDrop è che hai solo bisogno di un'immagine come riferimento, non importa quanto sia complesso lo stile artistico, puoi decostruirlo e ricrearlo.
I netizen hanno affermato che è il tipo di strumento di intelligenza artificiale che elimina i designer.
La ricerca avanzata di StyleDrop è l’ultimo prodotto del team di ricerca di Google.
Indirizzo del documento: https://arxiv.org/pdf/2306.00983.pdf
Ora, con strumenti come StyleDrop, non solo puoi disegnare con maggiore controllo, ma puoi anche completare lavori prima inimmaginabili, come disegnare un logo.
Anche gli scienziati di Nvidia lo hanno definito un risultato "fenomenale".
Maestro della "Personalizzazione".
L'autore dell'articolo ha introdotto che l'ispirazione per StyleDrop è venuta da Eyedropper (strumento di assorbimento/selezione del colore).
Allo stesso modo, StyleDrop spera anche che tutti possano "scegliere" rapidamente e senza sforzo uno stile da una o poche immagini di riferimento per generare un'immagine di quello stile.
Un bradipo può avere 18 stili:
Un panda ha 24 stili:
Gli acquerelli dipinti dai bambini sono stati perfettamente controllati da StyleDrop e anche le pieghe della carta sono state ripristinate.
Devo dire che è troppo forte.
C'è anche StyleDrop che si riferisce al disegno delle lettere inglesi in diversi stili:
Le stesse lettere in stile Van Gogh.
Ci sono anche disegni al tratto. Il disegno al tratto è un'immagine altamente astratta e richiede un'elevata razionalità nella composizione dell'immagine. I metodi passati erano difficili da raggiungere.
I tratti dell'ombra del formaggio nell'immagine originale vengono ripristinati sugli oggetti in ciascuna immagine.
Fare riferimento alla creazione del LOGO Android.
Inoltre, i ricercatori hanno anche ampliato le capacità di StyleDrop non solo per personalizzare lo stile, combinato con DreamBooth, ma anche per personalizzare il contenuto.
Ad esempio, sempre in stile Van Gogh, genera un dipinto in stile simile per il piccolo Corgi:
Eccone un altro. Il corgi qui sotto sembra la "Sfinge" delle piramidi egiziane.
come lavorare?
StyleDrop è basato su Muse ed è composto da due parti fondamentali:
Il primo consiste nel mettere a punto in modo efficace i parametri del trasformatore visivo generato, mentre l'altro è la formazione iterativa con feedback.
I ricercatori hanno poi sintetizzato le immagini dei due modelli perfezionati.
Muse è un modello di sintesi testo-immagine all'avanguardia basato sul trasformatore di immagini generato da maschere. Contiene due moduli di sintesi per la generazione di immagini di base (256 × 256) e la super risoluzione (512 × 512 o 1024 × 1024).
Ogni modulo è costituito da un codificatore di testo T, un trasformatore G, un campionatore S, un codificatore di immagini E e un decodificatore D.
T mappa il prompt testuale t∈T nello spazio di inclusione continuo E. G elabora gli incorporamenti di testo e ∈ E per generare logaritmi di sequenze di token visivi l ∈ L. S estrae la sequenza del token visivo v ∈ V dal logaritmo attraverso una decodifica iterativa che esegue diversi passaggi di inferenza del trasformatore condizionata all'incorporamento del testo e e del token visivo decodificato dal passaggio precedente.
Infine, D mappa la sequenza discreta di token nello spazio dei pixel I. In sintesi, dato un prompt testuale t, l'immagine I è sintetizzata come segue:
La Figura 2 è un'architettura semplificata dello strato del trasformatore Muse, che è stato parzialmente modificato per supportare la regolazione fine dei parametri (PEFT) e gli adattatori.
Utilizzare il trasformatore del livello L per elaborare la sequenza di token visivi visualizzati in verde sotto la condizione di incorporamento del testo e. I parametri appresi θ vengono utilizzati per costruire pesi per la regolazione dell'adattatore.
Per addestrare θ, in molti casi ai ricercatori possono essere fornite solo immagini come riferimenti di stile.
I ricercatori devono allegare manualmente istruzioni di testo. Hanno proposto un approccio semplice e basato su modelli per costruire suggerimenti di testo costituiti da una descrizione del contenuto seguita da una frase in stile descrizione.
Ad esempio, i ricercatori hanno utilizzato "gatto" per descrivere un oggetto nella Tabella 1 e hanno aggiunto "pittura ad acquerello" come descrizione di stile.
Includere una descrizione del contenuto e dello stile nei suggerimenti di testo è fondamentale perché aiuta a separare il contenuto dallo stile, che è l'obiettivo principale del ricercatore.
La Figura 3 mostra la formazione iterativa con feedback.
Durante l'addestramento su un'immagine di riferimento di stile singolo (riquadro arancione), alcune immagini generate da StyleDrop potrebbero mostrare contenuti estratti dall'immagine di riferimento di stile (riquadro rosso, immagine con una casa sullo sfondo simile all'immagine di stile).
Altre immagini (riquadri blu) separano meglio lo stile dal contenuto. L'addestramento iterativo di StyleDrop su campioni validi (riquadro blu) determina un migliore equilibrio tra stile e fedeltà del testo (riquadro verde).
Anche in questo caso i ricercatori hanno utilizzato due metodi:
-Punteggio CLIP
Questo metodo viene utilizzato per misurare l'allineamento di immagini e testo. Pertanto, può valutare la qualità delle immagini generate misurando il punteggio CLIP (ovvero, la somiglianza coseno degli incorporamenti CLIP visivi e testuali).
I ricercatori possono selezionare l'immagine CLIP con il punteggio più alto. Chiamano questo metodo CLIP-feedback iterative training (CF).
Negli esperimenti, i ricercatori hanno scoperto che l’utilizzo dei punteggi CLIP per valutare la qualità delle immagini sintetiche è un modo efficace per migliorare il ricordo (cioè la fedeltà testuale) senza un’eccessiva perdita di fedeltà stilistica.
D’altro canto, tuttavia, i punteggi CLIP potrebbero non allinearsi completamente con l’intento umano e non riuscire a catturare attributi stilistici sottili.
-HF
Il feedback umano (HF) è un modo più diretto per inserire l'intento dell'utente direttamente nella valutazione sintetica della qualità dell'immagine.
HF ha dimostrato la sua potenza ed efficacia nella messa a punto del LLM per l'apprendimento per rinforzo.
L'HF può essere utilizzato per compensare l'incapacità dei punteggi CLIP di catturare attributi di stile sottili.
Attualmente, gran parte della ricerca si è concentrata sul problema della personalizzazione dei modelli di diffusione testo-immagine per sintetizzare immagini contenenti più stili personali.
I ricercatori mostrano come DreamBooth e StyleDrop possano essere combinati in modo semplice per personalizzare sia lo stile che i contenuti.
Ciò si ottiene campionando da due distribuzioni generative modificate, guidate rispettivamente da θs per lo stile e θc per il contenuto, parametri dell'adattatore addestrati indipendentemente sulle immagini di riferimento di stile e contenuto.
A differenza dei prodotti standard esistenti, l'approccio del team non richiede la formazione congiunta di parametri apprendibili su più concetti, il che porta a maggiori capacità combinatorie perché gli adattatori pre-addestrati vengono formati separatamente su un singolo argomento e stile di formazione.
Il processo di campionamento complessivo dei ricercatori ha seguito la decodifica iterativa dell'equazione (1), con logaritmi campionati in modo diverso in ogni fase di decodifica.
Sia t il prompt di testo e c il prompt di testo senza descrittore di stile. Il logaritmo viene calcolato nel passaggio k come segue:
Dove: γ viene utilizzato per bilanciare StyleDrop e DreamBooth: se γ è 0, otteniamo StyleDrop, se è 1, otteniamo DreamBooth.
Impostando γ in modo appropriato, possiamo ottenere un'immagine adatta.
Setup sperimentale
Ad oggi, non è stata condotta una ricerca approfondita sull’adattamento dello stile dei modelli generativi di testo-immagine.
Pertanto, i ricercatori hanno proposto un nuovo piano sperimentale:
-raccolta dati
I ricercatori hanno raccolto dozzine di immagini in stili diversi, da acquerelli e dipinti ad olio, illustrazioni piatte, rendering 3D a sculture di materiali diversi.
-Configurazione del modello
I ricercatori utilizzano adattatori per ottimizzare StyleDrop basato su Muse. Per tutti gli esperimenti, è stato utilizzato l'ottimizzatore Adam per aggiornare i pesi dell'adattatore per 1000 passaggi con una velocità di apprendimento di 0,00003. Salvo diversa indicazione, i ricercatori utilizzano StyleDrop per rappresentare la seconda fase del modello, che è stato addestrato su più di 10 immagini sintetiche con feedback umano.
-Valutare
La valutazione quantitativa dei rapporti di ricerca si basa sul CLIP, che misura la coerenza stilistica e l'allineamento testuale. Inoltre, i ricercatori hanno condotto studi sulle preferenze degli utenti per valutare la coerenza dello stile e l'allineamento del testo.
Come mostrato nella figura, i ricercatori hanno raccolto 18 immagini di stili diversi, risultati dell'elaborazione StyleDrop.
Come puoi vedere, StyleDrop è in grado di catturare le sfumature di texture, ombreggiatura e struttura di vari stili, offrendoti un controllo sullo stile maggiore rispetto a prima.
Per confronto, i ricercatori presentano anche i risultati di DreamBooth su Imagen, l'implementazione LoRA di DreamBooth su Stable Diffusion e i risultati dell'inversione del testo.
Nella tabella sono riportati i risultati specifici, gli indicatori di valutazione del punteggio umano (in alto) e del punteggio CLIP (in basso) dell'allineamento immagine-testo (Testo) e dell'allineamento dello stile visivo (Stile).
Confronto qualitativo di (a) DreamBooth, (b) StyleDrop e (c) DreamBooth + StyleDrop:
Qui, i ricercatori hanno applicato i due parametri del punteggio CLIP menzionati sopra: punteggi di testo e di stile.
Per il punteggio del testo, i ricercatori hanno misurato la somiglianza del coseno tra l’immagine e gli incorporamenti del testo. Per il punteggio di stile, i ricercatori misurano la somiglianza del coseno tra il riferimento di stile e l'incorporamento dell'immagine sintetica.
I ricercatori hanno generato un totale di 1.520 immagini per 190 messaggi di testo. Anche se i ricercatori speravano che il punteggio finale fosse più alto, i parametri non sono perfetti.
Inoltre, la formazione iterativa (IT) ha migliorato i punteggi dei testi, il che era in linea con gli obiettivi dei ricercatori.
Tuttavia, come compromesso, i loro punteggi di stile sul modello del primo round sono ridotti perché sono addestrati su immagini sintetiche e lo stile potrebbe essere influenzato da errori di selezione.
DreamBooth su Imagen non è all'altezza di StyleDrop nel punteggio di stile (0,644 di HF contro 0,694).
I ricercatori hanno notato che l’aumento del punteggio di stile per DreamBooth su Imagen non era significativo (0,569 → 0,644), mentre l’aumento per StyleDrop su Muse era più evidente (0,556 → 0,694).
I ricercatori hanno analizzato che la messa a punto dello stile su Muse è più efficace di quella su Imagen.
Inoltre, per un controllo capillare, StyleDrop cattura sottili differenze di stile, come l'offset del colore, la gradazione o il controllo dell'angolo acuto.
Commenti caldi da parte dei netizen
Se i designer avessero StyleDrop, la loro efficienza lavorativa sarebbe 10 volte più veloce e sarebbe già decollata.
Un giorno per l'intelligenza artificiale richiede 10 anni perché il mondo umano si stia sviluppando alla velocità della luce, il tipo di velocità della luce che acceca gli occhi delle persone!
Gli strumenti seguono semplicemente la tendenza e ciò che dovrebbe essere eliminato è già stato eliminato.
Questo strumento è molto più facile da usare rispetto a Midjourney per creare loghi.
Riferimenti:
https://styledrop.github.io/
