Как StyleDrop, запущенный Google, может конкурировать с AI-инструментом для рисования Midjourney?

Автор: Синьчжиюань
Как только появился Google StyleDrop, он мгновенно стал хитом в Интернете.
Учитывая «Звездную ночь» Ван Гога, ИИ превратился в мастера Ван Гога и после понимания этого абстрактного стиля на высшем уровне создал бесчисленное множество похожих картин.
Еще один мультяшный стиль, объекты, которые я хочу нарисовать, намного милее.
Он даже может точно контролировать детали и разработать логотип оригинального стиля.
Прелесть StyleDrop в том, что вам нужно только изображение в качестве образца, независимо от того, насколько сложен художественный стиль, вы можете его деконструировать и воссоздать.
Пользователи сети заявили, что это своего рода инструмент искусственного интеллекта, который устраняет дизайнеров.
Горячее исследование StyleDrop — это последний продукт исследовательской группы Google.
 Адрес статьи: https://arxiv.org/pdf/2306.00983.pdf.
Теперь, с помощью таких инструментов, как StyleDrop, вы не только можете рисовать с большим контролем, но и выполнять ранее невообразимую тонкую работу, например, рисовать логотип.
Даже учёные Nvidia назвали это «феноменальным» результатом.
 Мастер «Кастомизации»
Автор статьи сообщил, что вдохновением для создания StyleDrop послужил Eyedropper (инструмент поглощения цвета/выбора цвета).
Аналогичным образом, StyleDrop также надеется, что каждый сможет быстро и без особых усилий «выбрать» стиль из одного или нескольких эталонных изображений, чтобы создать изображение этого стиля.
У ленивца может быть 18 стилей:
У панды 24 стиля:
Акварельные рисунки, нарисованные детьми, прекрасно контролировались StyleDrop, и даже складки бумаги были восстановлены.
Должен сказать, это слишком сильно.
Существует также StyleDrop, который занимается оформлением английских букв в разных стилях:
Те же буквы в стиле Ван Гога.
Также есть линейные рисунки. Рисование линий — это очень абстрактное изображение, требующее очень высокой рациональности в композиции изображения. Прошлые методы было трудно добиться успеха.
Штрихи сырной тени на исходном изображении восстанавливаются для объектов на каждом изображении.
См. создание логотипа Android.
Кроме того, исследователи также расширили возможности StyleDrop, позволяющие не только настраивать стиль в сочетании с DreamBooth, но и настраивать контент.
Например, все еще в стиле Ван Гога, создайте похожую по стилю картину для маленького корги:
Вот еще один. Корги ниже напоминает «Сфинкса» на египетских пирамидах.
 как работать?
StyleDrop построен на базе Muse и состоит из двух ключевых частей:
Один из них — эффективная точная настройка параметров сгенерированного визуального преобразователя, а другой — итеративное обучение с обратной связью.
Затем исследователи синтезировали изображения из двух точно настроенных моделей.
Muse — это современная модель синтеза текста в изображение, основанная на Трансформаторе изображений, сгенерированных по маске. Он содержит два модуля синтеза для формирования базового изображения (256×256) и сверхразрешения (512×512 или 1024×1024).
Каждый модуль состоит из кодера текста T, преобразователя G, сэмплера S, кодера изображения E и декодера D.
T отображает текстовое приглашение tεT в непрерывное пространство вложения E. G обрабатывает вложения текста e ∈ E для генерации логарифмов последовательностей визуальных токенов l ∈ L. S извлекает последовательность визуальных токенов v ∈ V из логарифма посредством итеративного декодирования, которое выполняет несколько шагов вывода преобразователя с учетом встраивания текста e и визуального токена, декодированного на предыдущем шаге.
Наконец, D отображает дискретную последовательность токенов в пространство пикселей I. Таким образом, учитывая текстовую подсказку t, изображение I синтезируется следующим образом:
На рисунке 2 представлена ​​упрощенная архитектура уровня преобразователя Muse, которая была частично изменена для поддержки точной настройки с эффективным использованием параметров (PEFT) и адаптеров.
Используйте преобразователь слоя L для обработки последовательности визуальных токенов, отображаемых зеленым цветом, при условии встраивания текста e. Изученные параметры θ используются для построения весов для настройки адаптера.
Для тренировки θ во многих случаях исследователям могут предоставляться изображения только в качестве эталонов стиля.
Исследователям необходимо вручную прикреплять текстовые подсказки. Они предложили простой шаблонный подход к созданию текстовых подсказок, состоящих из описания контента, за которым следует фраза в стиле описания.
Например, исследователи использовали слово «кошка» для описания объекта в Таблице 1 и добавляли «акварельную живопись» в качестве описания стиля.
Включение описания контента и стиля в текстовые подсказки имеет решающее значение, поскольку помогает отделить контент от стиля, что является основной целью исследователя.
На рисунке 3 показано итеративное обучение с обратной связью.
При обучении на одном эталонном изображении стиля (оранжевый прямоугольник) некоторые изображения, созданные StyleDrop, могут отображать содержимое, извлеченное из эталонного изображения стиля (красный прямоугольник, изображение с домом на заднем плане, похожее на изображение стиля).
Для других изображений (синие рамки) лучше отделить стиль от содержания. Итеративное обучение StyleDrop на хороших образцах (синий прямоугольник) приводит к лучшему балансу между стилем и точностью текста (зеленый прямоугольник).
Здесь исследователи также использовали два метода:
-CLIP оценка
Этот метод используется для измерения выравнивания изображений и текста. Следовательно, он может оценивать качество сгенерированных изображений путем измерения показателя CLIP (т. е. косинусного сходства визуальных и текстовых вложений CLIP).
Исследователи могут выбрать изображение CLIP с наивысшим баллом. Они называют этот метод итерационным обучением с обратной связью CLIP (CF).
В ходе экспериментов исследователи обнаружили, что использование показателей CLIP для оценки качества синтетических изображений является эффективным способом улучшить запоминаемость (т. е. точность текста) без чрезмерной потери точности стиля.
С другой стороны, однако, оценки CLIP могут не полностью соответствовать человеческим намерениям и не отражать тонкие стилистические атрибуты.
-HF
Обратная связь с человеком (HF) – это более прямой способ учета намерений пользователя непосредственно в синтетической оценке качества изображения.
HF доказал свою мощь и эффективность в тонкой настройке LLM для обучения с подкреплением.
HF можно использовать для компенсации неспособности оценок CLIP уловить тонкие атрибуты стиля.
В настоящее время большое количество исследований сосредоточено на проблеме персонализации моделей диффузии текста в изображение для синтеза изображений, содержащих несколько личных стилей.
Исследователи показывают, как DreamBooth и StyleDrop можно легко объединить для персонализации стиля и контента.
Это достигается путем выборки из двух модифицированных генеративных распределений, руководствуясь θs для стиля и θc для контента, соответственно, параметры адаптера обучаются независимо на эталонных изображениях стиля и контента.
В отличие от существующих готовых продуктов, подход команды не требует совместного обучения изучаемых параметров по нескольким концепциям, что приводит к более широким комбинаторным возможностям, поскольку предварительно обученные адаптеры обучаются отдельно по одной теме и стилю.
Общий процесс выборки исследователей следовал итеративному декодированию уравнения (1), при этом логарифмы отбирались по-разному на каждом этапе декодирования.
Пусть t — текстовая подсказка, а c — текстовая подсказка без дескриптора стиля. Логарифм вычисляется на шаге k следующим образом:
Где: γ используется для балансировки StyleDrop и DreamBooth — если γ равен 0, мы получаем StyleDrop, если он равен 1, мы получаем DreamBooth.
Установив соответствующим образом γ, мы можем получить подходящее изображение.
 Экспериментальная установка
На сегодняшний день не проводилось обширных исследований по настройке стиля генеративных моделей текста и изображений.
Поэтому исследователи предложили новый план эксперимента:
-Сбор данных
Исследователи собрали десятки изображений в разных стилях: от акварели и масляной живописи, плоских иллюстраций, 3D-рендерингов до скульптур из разных материалов.
-Конфигурация модели
Исследователи используют адаптеры для настройки StyleDrop на основе Muse. Во всех экспериментах использовался оптимизатор Адама для обновления весов адаптера за 1000 шагов со скоростью обучения 0,00003. Если не указано иное, исследователи используют StyleDrop для представления второго раунда модели, которая была обучена на более чем 10 синтетических изображениях с обратной связью от людей.
-Оценивать
Количественная оценка исследовательских отчетов основана на CLIP, который измеряет согласованность стиля и выравнивание текста. Кроме того, исследователи провели исследование предпочтений пользователей, чтобы оценить единообразие стиля и выравнивание текста.
Как показано на рисунке, исследователи собрали 18 фотографий разных стилей — результаты обработки StyleDrop.
Как видите, StyleDrop способен улавливать нюансы текстуры, затенения и структуры различных стилей, предоставляя вам больший контроль над стилем, чем раньше.
Для сравнения исследователи также представляют результаты DreamBooth на Imagen, реализацию DreamBooth LoRA на Stable Diffusion и результаты инверсии текста.
Конкретные результаты показаны в таблице, показатели оценки человеческого оценивания (вверху) и оценки CLIP (внизу) выравнивания изображения и текста (Текст) и выравнивания визуального стиля (Стиль).
Качественное сравнение (a) DreamBooth, (b) StyleDrop и (c) DreamBooth + StyleDrop:
Здесь исследователи применили две упомянутые выше метрики оценки CLIP — оценку текста и стиля.
Для оценки текста исследователи измерили косинусное сходство между встраиванием изображения и текста. Для оценки стиля исследователи измеряют косинусное сходство между эталоном стиля и встраиванием синтетического изображения.
Исследователи сгенерировали в общей сложности 1520 изображений для 190 текстовых подсказок. Хотя исследователи надеялись, что окончательный результат будет выше, показатели не идеальны.
А итеративное обучение (ИТ) улучшило показатели текста, что соответствовало целям исследователей.
Однако в качестве компромисса их оценки стиля в модели первого раунда снижаются, поскольку они обучаются на синтетических изображениях, и стиль может быть смещен из-за систематической ошибки отбора.
DreamBooth на Imagen не дотягивает до StyleDrop по стилю (0,644 у HF против 0,694).
Исследователи заметили, что увеличение оценки стиля DreamBooth на Imagen не было значительным (0,569 → 0,644), в то время как увеличение StyleDrop на Muse было более очевидным (0,556 → 0,694).
Исследователи проанализировали, что тонкая настройка стиля в Muse более эффективна, чем в Imagen.
Кроме того, для более детального управления StyleDrop фиксирует тонкие различия стилей, такие как смещение цвета, градация или управление острым углом.
 Горячие комментарии пользователей сети
Если у дизайнеров есть StyleDrop, эффективность их работы будет в 10 раз выше и уже взлетела.
Для ИИ на один день требуется 10 лет, а для человеческого мира AIGC развивается со скоростью света, такой скоростью света, которая ослепляет людей!
Инструменты просто следуют тренду, а то, что следует устранить, уже устранено.
Этот инструмент гораздо проще использовать для создания логотипов, чем Midjourney.
Использованная литература:
https://styledrop.github.io/