Perfusion, решение Nvidia для больших потребностей в хранении данных при создании изображений с помощью искусственного интеллекта.

Исследователи Nvidia разработали новую технологию создания изображений с использованием искусственного интеллекта, которая позволяет создавать настраиваемые модели преобразования текста в изображение с минимальными требованиями к хранению.

Согласно статье, опубликованной на arXiv, предлагаемый метод под названием «Perfusion» может добавлять новые визуальные концепции к существующим моделям, используя всего 100 КБ параметров на каждую концепцию.

Источник: Исследования NVIDIA.

Как описывают авторы статьи, Perfusion работает, «внося небольшие обновления во внутреннее представление модели преобразования текста в изображение».

Точнее, он вносит тщательно рассчитанные изменения в ту часть модели, которая соединяет текстовые описания с созданными визуальными функциями. Применение небольших параметрических изменений к слою перекрестного внимания позволяет Perfusion изменять способ преобразования текстовых входных данных в изображения.

Таким образом, Perfusion не полностью переобучает модель преобразования текста в изображение с нуля. Вместо этого он слегка меняет математическое преобразование, превращающее текст в изображения. Это позволяет настроить модель для создания новых визуальных концепций, не требуя больших вычислительных мощностей или переобучения модели.

Для метода перфузии требуется всего 100 КБ.

Перфузия достигает этих результатов с использованием на два-пять порядков меньше параметров, чем у конкурирующих технологий.

В то время как другим методам может потребоваться от сотен мегабайт до гигабайт памяти на концепцию, Perfusion требует всего 100 КБ, что сопоставимо с небольшим изображением, текстом или сообщением WhatsApp.

Такое радикальное сокращение может сделать более целесообразным развертывание индивидуально настраиваемых художественных моделей искусственного интеллекта.

По словам соавтора Гала Чечика,

«Перфузия не только обеспечивает более точную персонализацию при небольшом размере модели, но также позволяет использовать более сложные сигналы и комбинацию отдельно изученных концепций во время вывода».

Метод позволяет генерировать творческие образы, такие как «плюшевый мишка, плывущий в чайнике», используя отдельно изученные персонализированные понятия «плюшевый мишка» и «чайник».

Источник: Исследования NVIDIA.

Возможность эффективной персонализации

Perfusion обладает уникальной способностью персонализировать модели искусственного интеллекта, используя всего 100 КБ на концепцию, что открывает бесчисленное множество потенциальных приложений:

Этот подход дает возможность людям легко настраивать модели преобразования текста в изображение с помощью новых объектов, сцен или стилей, тем самым устраняя необходимость в дорогостоящем переобучении. Эффективность Perfusion, заключающаяся в обновлении параметров размером 100 КБ на каждую концепцию, позволяет моделям, настроенным с использованием этой технологии, внедряться на потребительских устройствах, что позволяет создавать образы на устройстве.

Одним из наиболее привлекательных аспектов этой технологии является потенциал, который она предлагает для обмена информацией и сотрудничества вокруг моделей искусственного интеллекта. Пользователи могут делиться своими персонализированными концепциями в виде небольших прикрепленных файлов, избегая таким образом совместного использования громоздких контрольных точек модели.

Когда дело доходит до распространения, модели, адаптированные для конкретной организации, легче распространять или развертывать на периферии. Поскольку практика преобразования текста в изображение продолжает становиться все более распространенной, возможность добиться такого значительного уменьшения размера без ущерба для функциональности будет иметь решающее значение.

Однако стоит отметить, что Perfusion в первую очередь предлагает персонализацию модели, а не возможности полной генерации как таковые.

Ограничения и релизы

Хотя эта технология многообещающая, она имеет некоторые ограничения. Авторы отмечают, что ключевые решения во время обучения иногда могут привести к чрезмерному обобщению концепции. Все еще необходимы дополнительные исследования, чтобы беспрепятственно объединить несколько персонализированных идей в одно изображение.

Авторы отмечают, что код Perfusion будет доступен на странице их проекта, что указывает на намерение публично выпустить метод в будущем, возможно, в ожидании экспертной оценки и официальных исследовательских публикаций. Однако, поскольку работа в настоящее время опубликована только на arXiv, конкретные детали ее публичной доступности остаются неясными. На этой платформе исследователи могут загружать статьи до официального рецензирования и публикации в журналах/конференциях.

Хотя доступ к коду Perfusion еще не получен, планы, предложенные авторами, означают, что такие эффективные персонализированные системы искусственного интеллекта со временем могут попасть в руки разработчиков, индустрии и создателей.

По мере развития художественных платформ искусственного интеллекта, таких как MidJourney, DALL-E 2 и Stable Diffusion, технологии, обеспечивающие больший контроль пользователя, могут иметь решающее значение для реального внедрения. Благодаря умным улучшениям эффективности, таким как Perfusion, Nvidia, похоже, полна решимости сохранить свое преимущество в быстро развивающейся среде.

#Nvidia  #图像生成