Googleが立ち上げたStyleDropはAIペイントツールMidjourneyとどのように競合できるのでしょうか？

著者: 新志源
Google StyleDrop が登場するとすぐに、インターネット上で瞬く間に人気になりました。
ゴッホの星月夜を考えると、AI はゴッホ巨匠に変身し、この抽象的なスタイルをトップレベルで理解した後、無数の同様の絵画を作成しました。
別の漫画スタイルでは、私が描きたいオブジェクトはもっとかわいいです。
細部を正確に制御し、オリジナルのスタイルのロゴをデザインすることもできます。
StyleDrop の魅力は、参照として画像を必要とするだけで、芸術的なスタイルがどれほど複雑であっても、それを分解して再構築できることです。
ネチズンは、これはデザイナーを排除する種類の AI ツールであると述べています。
StyleDrop の注目の研究は、Google の研究チームによる最新の製品です。
 論文アドレス: https://arxiv.org/pdf/2306.00983.pdf
StyleDrop のようなツールを使用すると、より自由に描画できるだけでなく、ロゴの描画など、以前は想像できなかった細かい作業を完了することもできます。
Nvidia の科学者でさえ、これを「驚異的な」結果と呼んでいました。
 「カスタマイズ」マスター
論文の著者は、StyleDrop のインスピレーションは Eyedropper (色吸収/色選択ツール) から来ていると紹介しました。
同様に、StyleDrop は、誰もが 1 つまたは少数の参照画像からスタイルをすばやく簡単に「選択」して、そのスタイルの画像を生成できることを望んでいます。
ナマケモノには 18 のスタイルがあります。
パンダには 24 のスタイルがあります。
子どもたちが描いた水彩画は、StyleDropによって完璧に制御され、紙のシワまで復元されました。
強すぎると言わざるを得ません。
さまざまなスタイルの英語文字のデザインを参照する StyleDrop もあります。
ゴッホ風の同じ文字。
線画もあります。線画は非常に抽象的なイメージであり、画面構成に非常に合理性が求められます。これまでの手法では成功することが困難でした。
元の画像のチーズの影のストロークが、各画像のオブジェクトに復元されます。
Android ロゴの作成を参照してください。
さらに研究者らは、StyleDrop の機能を拡張し、DreamBooth と組み合わせてスタイルをカスタマイズするだけでなく、コンテンツもカスタマイズできるようにしました。
たとえば、まだファン ゴッホ スタイルのまま、小さなコーギーの同様のスタイルの絵画を生成します。
下のコーギーは、まるでエジプトのピラミッドの「スフィンクス」のようです。
 どのように動作します？
StyleDrop は Muse 上に構築されており、次の 2 つの重要な部分で構成されています。
1 つは、生成されたビジュアル Transformer のパラメータを効果的に微調整すること、もう 1 つはフィードバックを使用した反復トレーニングです。
次に研究者らは、2 つの微調整されたモデルから画像を合成しました。
Muse は、マスク生成画像 Transformer に基づいた最先端のテキストから画像への合成モデルです。基本画像生成 (256 × 256) と超解像度 (512 × 512 または 1024 × 1024) のための 2 つの合成モジュールが含まれています。
各モジュールは、テキスト エンコーダー T、トランスフォーマー G、サンプラー S、イメージ エンコーダー E、デコーダー D で構成されます。
T は、テキスト プロンプト t∈T を連続埋め込み空間 E にマップします。 G はテキスト埋め込み e ∈ E を処理して、ビジュアル トークン シーケンス l ∈ L の対数を生成します。 S は、テキスト埋め込み e と前のステップからデコードされたビジュアル トークンに条件付けされたトランスフォーマー推論のいくつかのステップを実行する反復デコードを通じて、対数からビジュアル トークン シーケンス v ∈ V を抽出します。
最後に、D は離散トークン シーケンスをピクセル空間 I にマッピングします。要約すると、テキスト プロンプト t が与えられると、画像 I は次のように合成されます。
図 2 は、Muse トランスフォーマ層の簡略化されたアーキテクチャであり、パラメータ効率的微調整 (PEFT) とアダプタをサポートするために部分的に変更されています。
レイヤー L のトランスフォーマーを使用して、テキスト埋め込み e の条件で緑色で表示されたビジュアル トークンのシーケンスを処理します。学習されたパラメータ θ は、アダプター調整の重みを構築するために使用されます。
θ をトレーニングするために、多くの場合、研究者にはスタイルの参照として画像のみが与えられる場合があります。
研究者はテキスト プロンプトを手動で添付する必要があります。彼らは、コンテンツの説明とそれに続く説明スタイルのフレーズで構成されるテキスト プロンプトを構築するための、シンプルなテンプレート化されたアプローチを提案しました。
たとえば、研究者らは表 1 のオブジェクトを説明するために「猫」を使用し、スタイルの説明として「水彩画」を追加しました。
テキスト プロンプトにコンテンツとスタイルの説明を含めることは、研究者の主な目標であるコンテンツとスタイルを分離するのに役立つため、非常に重要です。
図 3 は、フィードバックを伴う反復トレーニングを示しています。
単一のスタイル参照画像 (オレンジ色のボックス) でトレーニングする場合、StyleDrop によって生成された一部の画像には、スタイル参照画像から抽出されたコンテンツが表示される場合があります (赤いボックス、スタイル画像に似た背景に家がある画像)。
他の画像 (青いボックス) は、スタイルをコンテンツから分離することをお勧めします。良好なサンプル (青色のボックス) で StyleDrop を反復トレーニングすると、スタイルとテキストの忠実性 (緑色のボックス) のバランスが向上します。
ここでも研究者らは次の 2 つの方法を使用しました。
-CLIPスコア
この方法は、画像とテキストの配置を測定するために使用されます。したがって、CLIP スコア (つまり、視覚的およびテキストの CLIP 埋め込みのコサイン類似性) を測定することで、生成された画像の品質を評価できます。
研究者は最高スコアの CLIP 画像を選択できます。彼らはこの方法を CLIP フィードバック反復トレーニング (CF) と呼んでいます。
研究者らは実験で、CLIPスコアを使用して合成画像の品質を評価することが、スタイルの忠実度を過度に損なうことなく再現率（つまり、テキストの忠実度）を向上させる効果的な方法であることを発見しました。
しかしその一方で、CLIP スコアは人間の意図と完全には一致せず、微妙な文体的属性を捉えることができない場合があります。
-HF
ヒューマン フィードバック (HF) は、ユーザーの意図を合成画質評価に直接注入する、より直接的な方法です。
HF は、強化学習のための LLM 微調整におけるその威力と有効性を証明しています。
HF を使用すると、CLIP スコアが微妙なスタイル属性をキャプチャできないことを補うことができます。
現在、複数の個人的なスタイルを含む画像を合成するための、テキストから画像への拡散モデルの個人化問題に多くの研究が焦点を当てています。
研究者たちは、DreamBooth と StyleDrop を簡単な方法で組み合わせて、スタイルとコンテンツの両方をパーソナライズする方法を示しています。
これは、それぞれスタイルの θs とコンテンツの θc 、スタイルとコンテンツの参照画像に基づいて独立してトレーニングされたアダプター パラメーターによって導かれ、2 つの修正された生成分布からサンプリングすることによって実現されます。
既存の既製製品とは異なり、このチームのアプローチでは、複数の概念に基づいて学習可能なパラメーターを共同トレーニングする必要がなく、事前トレーニングされたアダプターが単一のトピックとスタイルで個別にトレーニングされるため、組み合わせ機能の向上につながります。
研究者らの全体的なサンプリング プロセスは、式 (1) の反復デコードに従い、各デコード ステップで異なる方法で対数がサンプリングされました。
t をテキスト プロンプト、c をスタイル記述子のないテキスト プロンプトとします。対数はステップ k で次のように計算されます。
ここで: γ は StyleDrop と DreamBooth のバランスをとるために使用されます。γ が 0 の場合は StyleDrop を取得し、1 の場合は DreamBooth を取得します。
γを適切に設定することで適切な画像が得られます。
 実験装置
現在まで、テキスト画像生成モデルのスタイル調整に関する広範な研究は行われていません。
したがって、研究者らは新しい実験計画を提案しました。
-データ収集
研究者らは、水彩画や油絵、平面イラスト、3D レンダリングからさまざまな素材の彫刻に至るまで、さまざまなスタイルの数十枚の写真を収集しました。
-モデル構成
研究者はアダプターを使用して Muse ベースの StyleDrop を調整します。すべての実験では、Adam オプティマイザーを使用して、学習率 0.00003 で 1000 ステップのアダプターの重みを更新しました。特に明記されていない限り、研究者らは第 2 ラウンドのモデルを表現するために StyleDrop を使用しています。このモデルは、人間のフィードバックを使用して 10 を超える合成画像でトレーニングされました。
-評価する
研究レポートの定量的評価は、スタイルの一貫性とテキストの整合性を測定する CLIP に基づいています。さらに、研究者らはスタイルの一貫性とテキストの配置を評価するためにユーザーの好みの調査を実施しました。
図に示すように、研究者らは、StyleDrop 処理の結果であるさまざまなスタイルの 18 枚の写真を収集しました。
ご覧のとおり、StyleDrop はさまざまなスタイルのテクスチャ、シェーディング、構造のニュアンスをキャプチャできるため、以前よりもスタイルをより細かく制御できるようになります。
比較のために、研究者らは、Imagen での DreamBooth の結果、Stable Diffusion での DreamBooth の LoRA 実装、およびテキスト反転の結果も示しています。
具体的な結果を表に、画像と文字の配置（Text）およびビジュアルスタイルの配置（Style）のヒューマンスコアリング（上）とCLIPスコアリング（下）の評価指標を示します。
(a) DreamBooth、(b) StyleDrop、および (c) DreamBooth + StyleDrop の定性的比較:
ここで研究者らは、テキスト スコアとスタイル スコアという、前述の CLIP スコアの 2 つの指標を適用しました。
テキストスコアについては、研究者らは画像とテキストの埋め込み間のコサイン類似性を測定しました。スタイルスコアについては、研究者らはスタイル参照と合成画像埋め込みの間のコサイン類似度を測定します。
研究者らは、190 のテキスト プロンプトに対して合計 1,520 枚の画像を生成しました。研究者らは最終スコアがもっと高くなるだろうと期待していましたが、測定基準は完璧ではありません。
また、反復トレーニング (IT) によりテキスト スコアが向上し、研究者の目標と一致しました。
ただし、トレードオフとして、合成画像でトレーニングされ、スタイルが選択バイアスによって偏っている可能性があるため、第 1 ラウンドのモデルのスタイル スコアは低下します。
Imagen の DreamBooth は、スタイル スコアで StyleDrop を下回っています (HF の 0.644 対 0.694)。
研究者らは、Imagen 上の DreamBooth のスタイル スコアの増加は有意ではない (0.569 → 0.644) のに対し、Muse 上の StyleDrop の増加はより明らかである (0.556 → 0.694) ことに気づきました。
研究者は、Muse でのスタイルの微調整が Imagen でのスタイル微調整よりも効果的であると分析しました。
さらに、きめ細かい制御のために、StyleDrop はカラー オフセット、グラデーション、鋭角の制御などの微妙なスタイルの違いをキャプチャします。
 ネチズンからの熱いコメント
デザイナーが StyleDrop を導入すれば、作業効率は 10 倍向上し、すでに成果を上げています。
AI の 1 日は人間の世界では 10 年かかります。AIGC は、人々の目が見えなくなるほどの光の速度で開発されています。
ツールは時代の流れを追うだけで、排除すべきものはすでに排除されている。
このツールは、ロゴを作成する場合、Midjourney よりもはるかに使いやすいです。
参考文献:
https://styledrop.github.io/