Perfusion, rozwiązanie Nvidii zaspokajające potrzeby związane z dużą pamięcią masową w celu generowania obrazów AI

Badacze firmy Nvidia opracowali nową technologię generowania obrazów wykorzystującą sztuczną inteligencję, która umożliwia wysoce spersonalizowane modele zamiany tekstu na obraz przy minimalnych wymaganiach dotyczących pamięci masowej.

Według artykułu opublikowanego na arXiv, proponowana metoda o nazwie „Perfusion” umożliwia dodanie nowych koncepcji wizualnych do istniejących modeli przy użyciu zaledwie 100 KB parametrów na koncepcję.

Źródło: badania Nvidii

Jak opisują to autorzy artykułu, Perfusion działa poprzez „dokonywanie drobnych aktualizacji wewnętrznej reprezentacji modelu zamiany tekstu na obraz”.

Mówiąc dokładniej, wprowadza starannie obliczone zmiany w części modelu, która łączy opisy tekstowe z wygenerowanymi funkcjami wizualnymi. Zastosowanie mniejszych zmian parametrycznych do warstwy wzajemnej uwagi pozwala Perfusion modyfikować sposób przekształcania wprowadzonych danych na obrazy.

Dlatego też Perfusion nie uczy całkowicie od zera modelu zamiany tekstu na obraz. Zamiast tego nieznacznie modyfikuje transformację matematyczną, która zamienia tekst w obrazy. Umożliwia to dostosowanie modelu w celu generowania nowych koncepcji wizualnych bez konieczności stosowania dużej mocy obliczeniowej lub ponownego uczenia modelu.

Metoda perfuzji wymaga jedynie 100 KB.

Perfuzja osiąga te wyniki przy parametrach o dwa do pięciu rzędów wielkości mniejszych niż konkurencyjne technologie.

Podczas gdy inne metody mogą wymagać setek megabajtów do gigabajtów pamięci na koncepcję, Perfusion wymaga tylko 100 KB, co jest porównywalne z małym obrazem, tekstem lub wiadomością WhatsApp.

Ta drastyczna redukcja może sprawić, że wdrażanie wysoce dostosowanych modeli graficznych sztucznej inteligencji stanie się bardziej wykonalne.

Według współautorki Gal Chechik:

„Perfuzja nie tylko umożliwia dokładniejszą personalizację przy ułamku rozmiaru modelu, ale także umożliwia korzystanie z bardziej złożonych wskazówek i łączenie oddzielnie wyuczonych koncepcji w czasie wnioskowania”.

Metoda ta może generować kreatywne obrazy, takie jak „miś pływający w imbryku”, wykorzystując osobno wyuczone, spersonalizowane koncepcje „misia” i „czajniczka”.

Źródło: badania Nvidii

Możliwość skutecznej personalizacji

Perfusion ma wyjątkową możliwość personalizacji modeli AI przy użyciu zaledwie 100 KB na koncepcję, otwierając niezliczone potencjalne zastosowania:

Takie podejście umożliwia użytkownikom łatwe dostosowywanie modeli zamiany tekstu na obraz za pomocą nowych obiektów, scen lub stylów, eliminując w ten sposób potrzebę kosztownych przekwalifikowań. Wydajność Perfusion wynosząca 100 KB aktualizacji parametrów na koncepcję umożliwia wdrażanie modeli dostosowanych przy użyciu tej technologii na urządzeniach konsumenckich, umożliwiając tworzenie obrazu na urządzeniu.

Jednym z najbardziej fascynujących aspektów tej technologii jest potencjał, jaki oferuje w zakresie udostępniania i współpracy wokół modeli sztucznej inteligencji. Użytkownicy mogą udostępniać swoje spersonalizowane koncepcje w formie małych załączonych plików, unikając w ten sposób dzielenia się uciążliwymi punktami kontrolnymi modelu.

Jeśli chodzi o dystrybucję, modele dostosowane do konkretnej organizacji można łatwiej propagować lub wdrażać na brzegu sieci. Ponieważ praktyka generowania tekstu na obraz staje się coraz bardziej powszechna, możliwość osiągnięcia tak znacznego zmniejszenia rozmiaru bez poświęcania funkcjonalności będzie krytyczna.

Warto jednak zauważyć, że Perfusion oferuje przede wszystkim personalizację modelu, a nie możliwości pełnej generacji per se.

Ograniczenia i zwolnienia

Choć technologia ta jest obiecująca, ma pewne ograniczenia. Autorzy zauważają, że kluczowe wybory podczas szkolenia mogą czasami powodować nadmierne uogólnienie koncepcji. Nadal potrzebne są dalsze badania, aby płynnie połączyć wiele spersonalizowanych pomysłów w jeden obraz.

Autorzy zauważają, że kod Perfusion będzie dostępny na stronie ich projektu, co wskazuje na zamiar publicznego udostępnienia metody w przyszłości, prawdopodobnie w oczekiwaniu na recenzję i oficjalne publikacje badawcze. Ponieważ jednak dzieło jest obecnie publikowane wyłącznie w serwisie arXiv, szczegółowe informacje na temat publicznej dostępności pozostają niejasne. Na tej platformie badacze mogą przesyłać artykuły przed formalną recenzją i publikacją w czasopismach/konferencjach.

Choć kod Perfusion nie został jeszcze udostępniony, plany zaproponowane przez autorów oznaczają, że takie wydajne, spersonalizowane systemy AI mogą w odpowiednim czasie wpaść w ręce programistów, przemysłu i twórców.

W miarę ewolucji platform artystycznych AI, takich jak MidJourney, DALL-E 2 i Stable Diffusion, technologia umożliwiająca większą kontrolę użytkownika może mieć kluczowe znaczenie dla wdrożenia w świecie rzeczywistym. Dzięki sprytnym ulepszeniom wydajności, takim jak Perfusion, Nvidia wydaje się zdeterminowana utrzymać swoją przewagę w szybko zmieniającym się środowisku.

#Nvidia  #图像生成