Autor: Xinzhiyuan

Gdy tylko pojawił się Google StyleDrop, natychmiast stał się hitem w Internecie.

Biorąc pod uwagę Gwiaździstą noc Van Gogha, sztuczna inteligencja przekształciła się w Mistrza Van Gogha i po najwyższym poziomie zrozumienia tego abstrakcyjnego stylu stworzyła niezliczoną ilość podobnych obrazów.

Kolejny styl kreskówkowy. Obiekty, które chcę narysować, są o wiele ładniejsze.

Może nawet dokładnie kontrolować szczegóły i projektować logo w oryginalnym stylu.

Urok StyleDrop polega na tym, że potrzebujesz jedynie zdjęcia jako punktu odniesienia i niezależnie od tego, jak złożony jest styl artystyczny, możesz go zdekonstruować i odtworzyć.

Internauci twierdzą, że jest to rodzaj narzędzia AI, który eliminuje projektantów.

Gorące badania StyleDrop to najnowszy produkt zespołu badawczego Google.

Adres artykułu: https://arxiv.org/pdf/2306.00983.pdf

Teraz dzięki narzędziom takim jak StyleDrop możesz nie tylko rysować z większą kontrolą, ale także wykonywać wcześniej niewyobrażalne prace, takie jak rysowanie logo.

Nawet naukowcy Nvidii nazwali to „fenomenalnym” wynikiem.

Mistrz „personalizacji”.

Autor artykułu przedstawił, że inspiracją dla StyleDrop był Eyedropper (narzędzie do absorpcji i wybierania kolorów).

Podobnie StyleDrop ma również nadzieję, że każdy będzie mógł szybko i bez wysiłku „wybrać” styl z jednego/kilku obrazów referencyjnych, aby wygenerować obraz tego stylu.

Leniwiec może mieć 18 stylów:

Panda ma 24 style:

Akwarele malowane przez dzieci zostały doskonale opanowane przez StyleDrop, a nawet zmarszczki papieru zostały przywrócone.

Muszę powiedzieć, że jest za mocny.

Istnieje również StyleDrop, który odnosi się do projektowania angielskich liter w różnych stylach:

Te same litery w stylu Van Gogha.

Są też rysunki liniowe. Rysowanie linii jest obrazem bardzo abstrakcyjnym i wymaga bardzo dużej racjonalności w kompozycji obrazu. Dotychczasowe metody były trudne do osiągnięcia.

Pociągnięcia cienia sera na oryginalnym obrazie zostaną przywrócone obiektom na każdym obrazie.

Patrz Tworzenie LOGO Androida.

Ponadto badacze rozszerzyli także możliwości StyleDrop, aby nie tylko dostosowywać styl w połączeniu z DreamBooth, ale także dostosowywać zawartość.

Na przykład, nadal w stylu Van Gogha, wygeneruj obraz w podobnym stylu dla małego Corgi:

Oto kolejny corgi poniżej, który przypomina „Sfinksa” z egipskich piramid.

jak pracować?

StyleDrop opiera się na programie Muse i składa się z dwóch kluczowych części:

Jednym z nich jest efektywne dostrojenie parametrów wygenerowanego wizualnego Transformatora, a drugim jest uczenie iteracyjne z informacją zwrotną.

Następnie naukowcy zsyntetyzowali obrazy z dwóch precyzyjnie dostrojonych modeli.

Muse to najnowocześniejszy model syntezy tekstu na obraz oparty na generowanym przez maskę obrazie Transformer. Zawiera dwa moduły syntezy do generowania obrazu podstawowego (256 × 256) i super rozdzielczości (512 × 512 lub 1024 × 1024).

Każdy moduł składa się z kodera tekstu T, transformatora G, próbnika S, kodera obrazu E i dekodera D.

T odwzorowuje podpowiedź tekstową t∈T na ciągłą przestrzeń osadzania E. G przetwarza osadzanie tekstu e ∈ E w celu wygenerowania logarytmów sekwencji tokenów wizualnych l ∈ L. S wyodrębnia sekwencję tokenów wizualnych v ∈ V z logarytmu poprzez dekodowanie iteracyjne, które przeprowadza kilka etapów wnioskowania o transformatorze uwarunkowanego osadzaniem tekstu e i tokenem wizualnym dekodowanym z poprzedniego kroku.

Na koniec D odwzorowuje dyskretną sekwencję tokenów na przestrzeń pikseli I. Podsumowując, biorąc pod uwagę podpowiedź tekstową t, obraz I jest syntezowany w następujący sposób:

Rysunek 2 przedstawia uproszczoną architekturę warstwy transformatora Muse, która została częściowo zmodyfikowana w celu obsługi efektywnego dostrajania parametrów (PEFT) i adapterów.

Użyj transformatora warstwy L do przetworzenia sekwencji tokenów wizualnych wyświetlanych na zielono pod warunkiem osadzenia tekstu np. Wyuczone parametry θ służą do konstruowania wag do strojenia adaptera.

Aby wyszkolić θ, w wielu przypadkach badacze mogą otrzymywać obrazy jedynie jako odniesienia do stylu.

Badacze muszą ręcznie dołączać podpowiedzi tekstowe. Zaproponowali proste, szablonowe podejście do konstruowania podpowiedzi tekstowych składających się z opisu treści, po którym następuje fraza przypominająca opis.

Na przykład badacze użyli słowa „kot” do opisania obiektu z Tabeli 1 i dodali „akwarelę” jako opis stylu.

Zawarcie opisu treści i stylu w podpowiedziach tekstowych jest kluczowe, ponieważ pomaga oddzielić treść od stylu, co jest głównym celem badacza.

Rysunek 3 przedstawia szkolenie iteracyjne z informacją zwrotną.

Podczas uczenia na pojedynczym obrazie referencyjnym stylu (pomarańczowe pole) niektóre obrazy wygenerowane przez StyleDrop mogą zawierać treść wyodrębnioną z obrazu referencyjnego stylu (czerwone pole, obraz z domem w tle podobnym do obrazu stylu).

Inne obrazy (niebieskie pola) lepiej oddzielają styl od treści. Iteracyjne uczenie StyleDrop na dobrych próbkach (niebieskie pole) zapewnia lepszą równowagę między stylem i wiernością tekstu (zielone pole).

Tutaj również badacze zastosowali dwie metody:

-Wynik CLIP

Ta metoda służy do pomiaru wyrównania obrazów i tekstu. Dlatego może oceniać jakość wygenerowanych obrazów, mierząc wynik CLIP (tj. cosinus podobieństwa osadzania wizualnego i tekstowego CLIP).

Badacze mogą wybrać obraz CLIP z najwyższym wynikiem. Nazywają tę metodę szkoleniem iteracyjnym ze sprzężeniem zwrotnym CLIP (CF).

Podczas eksperymentów naukowcy odkryli, że wykorzystanie wyników CLIP do oceny jakości obrazów syntetycznych to skuteczny sposób na poprawę zapamiętywania (tj. wierności tekstu) bez nadmiernej utraty wierności stylu.

Z drugiej jednak strony wyniki CLIP mogą nie w pełni odpowiadać ludzkim intencjom i nie uchwycić subtelnych atrybutów stylistycznych.

-HF

Informacje zwrotne od ludzi (HF) to bardziej bezpośredni sposób na włączenie intencji użytkownika bezpośrednio do syntetycznej oceny jakości obrazu.

HF udowodniło swoją moc i skuteczność w dostrajaniu LLM do uczenia się przez wzmacnianie.

HF można wykorzystać do kompensacji niezdolności partytur CLIP do uchwycenia subtelnych atrybutów stylu.

Obecnie wiele badań koncentruje się na problemie personalizacji modeli dyfuzji tekstu na obraz w celu syntezy obrazów zawierających wiele osobistych stylów.

Badacze pokazują, jak można w prosty sposób połączyć DreamBooth i StyleDrop, aby spersonalizować zarówno styl, jak i treść.

Osiąga się to poprzez próbkowanie z dwóch zmodyfikowanych rozkładów generatywnych, kierując się odpowiednio θs dla stylu i θc dla treści, parametry adaptera trenowane niezależnie na obrazach odniesienia do stylu i treści.

W przeciwieństwie do istniejących, gotowych produktów, podejście zespołu nie wymaga wspólnego szkolenia możliwych do nauczenia parametrów w ramach wielu koncepcji, co prowadzi do większych możliwości kombinatorycznych, ponieważ wstępnie przeszkolone adaptery są szkolone oddzielnie w zakresie jednego tematu i stylu szkolenia.

Ogólny proces próbkowania badaczy opierał się na iteracyjnym dekodowaniu równania (1), przy czym logarytmy były próbkowane w różny sposób na każdym etapie dekodowania.

Niech t będzie podpowiedzią tekstową, a c podpowiedzią tekstową bez deskryptora stylu. Logarytm jest obliczany w kroku k w następujący sposób:

Gdzie: γ służy do zrównoważenia StyleDrop i DreamBooth - jeśli γ wynosi 0, otrzymamy StyleDrop, jeśli wynosi 1, otrzymamy DreamBooth.

Ustawiając odpowiednio γ, możemy uzyskać odpowiedni obraz.

Zestaw doświadczalny

Do chwili obecnej nie przeprowadzono szeroko zakrojonych badań nad dostosowywaniem stylu modeli generatywnych tekstu i obrazu.

Dlatego badacze zaproponowali nowy plan eksperymentu:

-zbieranie danych

Naukowcy zebrali dziesiątki obrazów w różnych stylach, od akwareli i obrazów olejnych, płaskich ilustracji, renderingów 3D po rzeźby wykonane z różnych materiałów.

-Konfiguracja modelu

Badacze używają adapterów do dostrojenia StyleDrop opartego na Muse. We wszystkich eksperymentach zastosowano optymalizator Adama do aktualizacji wag adapterów dla 1000 kroków z szybkością uczenia się 0,00003. O ile nie zaznaczono inaczej, badacze używają StyleDrop do reprezentowania drugiej rundy modelu, który został wyszkolony na ponad 10 syntetycznych obrazach z udziałem ludzi.

-Oceniać

Ilościowa ocena raportów badawczych opiera się na CLIP, który mierzy spójność stylu i zgodność tekstu. Ponadto badacze przeprowadzili badania preferencji użytkowników, aby ocenić spójność stylu i wyrównanie tekstu.

Jak pokazano na rysunku, badacze zebrali 18 zdjęć w różnych stylach, co stanowi wynik przetwarzania StyleDrop.

Jak widać, StyleDrop jest w stanie uchwycić niuanse tekstury, cieniowania i struktury różnych stylów, zapewniając większą kontrolę nad stylem niż wcześniej.

Dla porównania badacze przedstawiają także wyniki DreamBooth na Imagen, implementację LoRA DreamBooth na Stable Diffusion oraz wyniki inwersji tekstu.

Konkretne wyniki przedstawiono w tabeli, wskaźniki oceny punktacji ludzkiej (na górze) i punktacji CLIP (na dole) dopasowania obrazu do tekstu (Tekst) i dopasowania stylu wizualnego (Styl).

Porównanie jakościowe (a) DreamBooth, (b) StyleDrop i (c) DreamBooth + StyleDrop:

W tym przypadku badacze zastosowali dwie metryki wspomnianego powyżej wyniku CLIP – ocenę tekstu i stylu.

W przypadku wyniku tekstu badacze zmierzyli cosinus podobieństwa między obrazem a osadzonym tekstem. Aby uzyskać wynik stylu, badacze mierzą cosinus podobieństwa między odniesieniem do stylu a osadzeniem syntetycznego obrazu.

Naukowcy wygenerowali łącznie 1520 obrazów dla 190 podpowiedzi tekstowych. Chociaż badacze mieli nadzieję, że ostateczny wynik będzie wyższy, wskaźniki nie są doskonałe.

Szkolenie iteracyjne (IT) poprawiło wyniki w zakresie tekstu, co było zgodne z celami badaczy.

Jednakże w ramach kompromisu ich wyniki za styl w modelu pierwszej rundy są obniżone, ponieważ są szkoleni na obrazach syntetycznych, a styl może być obciążony błędem selekcji.

DreamBooth na Imagen nie dorównuje StyleDrop pod względem wyniku za styl (HF 0,644 w porównaniu z 0,694).

Badacze zauważyli, że wzrost wyniku za styl dla DreamBooth w Imagen nie był znaczący (0,569 → 0,644), podczas gdy wzrost w przypadku StyleDrop w Muse był bardziej wyraźny (0,556 → 0,694).

Badacze przeanalizowali, że dostrajanie stylu w programie Muse jest skuteczniejsze niż w programie Imagen.

Ponadto, aby zapewnić precyzyjną kontrolę, StyleDrop rejestruje subtelne różnice w stylu, takie jak przesunięcie kolorów, gradacja lub kontrola ostrego kąta.

Gorące komentarze internautów

Jeśli projektanci mają StyleDrop, ich wydajność pracy będzie 10 razy szybsza i już wystartowała.

Jeden dzień sztucznej inteligencji zajmuje światu ludzkiemu 10 lat. AIGC rozwija się z prędkością światła, taką, która oślepia ludzkie oczy!

Narzędzia po prostu podążają za trendem, a to, co powinno zostać wyeliminowane, zostało już wyeliminowane.

To narzędzie jest znacznie łatwiejsze w użyciu niż Midjourney do tworzenia logo.

Bibliografia:

https://styledrop.github.io/