GANによるイラスト生成が「工程の一部」レベルで実現【AI×エンタメ】(論文解説)

   
↓はてなブックマークで応援お願いします!
このエントリーをはてなブックマークに追加

将来的には、GitHubのような形で、AIによるイラストの編集工程がクラウド化するかもしれません。

イラスト生成AIがもっと進化する

一から作品を形作るのは初心者にとってはかなり難しいことです。しかし、どこを色塗りするかや、どこに影をつけるかなどの明確な工程があれば容易に制作できるはずです。

絵やモデルを作成する場合、複数の工程に沿って作成すると簡単ですが、既に描いた部分を変更するためには、困難な作業を必要とする場合があります。

機械学習を用いて絵を作成するための既存のアプローチでは、下書きから画像を生成することはできますが、編集作業を柔軟に行えるシステムはありません。

さまざまな工程での画像編集や下書きからの作品生成における課題において、実際にどのような研究が行われているのでしょうか。カリフォルニア大学のHung-Yu Tsengらの発表を紹介します。

研究者らは、GANを用いることによって、工程の推論と作品生成のモデルを構築しました。

ちなみに、このGANというのは、画像生成を行う機械学習モデルです。
GANには2つの対立するモデルがあり、それぞれ生成器(Generator)と識別器(Discriminator)と呼ばれています。生成器は名前どおり画像を生成するモデルです。一方、識別器はその画像が生成器によって作られたものかどうかを判別します。

▼論文情報

著者:Hung-Yu Tseng, Matthew Fisher, Jingwan Lu, Yijun Li, Vladimir Kim, Ming-Hsuan Yang
タイトル:”Modeling Artistic Workflows for Image Generation and Editing”
arxiv
URL:DOI

工程の一部だけでも編集可能に

まずはHung-Yu Tsengらの研究におけるミッション・手法・結果をまとめました。

✔️ミッション
工程の推論と作品生成のモデルを構築する。

✔️解決手法
GANと最適化アルゴリズムを用いてモデル構築を行った。

✔️結果
作品の編集と生成が容易にできるようになった。

ミッションから説明していきます。

人間の制作過程を模倣

一から芸術作品を制作することは、初心者にとっては非常に困難な作業となります。しかし、指導者からの助言や政策の手順が提示されていたとすれば、難しくはないはずです。例えば、水彩画を描く手順は、輪郭をスケッチし、ブラシで塗りつぶすというものです。

人間が作品を形作るような手順で、作品創りを補助してくれるシステムがあれば、容易に芸術を作ることができるでしょう。そこでHung-Yu Tsengらは、制作段階ごとに作品を生成し、編集できるシステムを構築しました。つまり、人間が作品を制作するような手順をモデル化しました。

ユーザはスケッチを入力として与えることによって、システムが塗りつぶしや詳細の描画などの工程を推測します。この各段階で、ユーザは自分の好きなように絵や画像を編集することができます。最終的に、自分好みの作品を得ることができます。

GANとパラメータ最適化を用いてモデル構築

Hung-Yu Tsengらは、GANを用いることによって工程の予測と作品生成のモデルを構築しました。

構築するモデルは以下の2つです。

  • 塗りつぶしや詳細の描画などの、工程の予測
  • その工程での作品を生成するモデル

工程の推論と作品の生成

下図は作品工程の推論と生成のフレームワークです。まずユーザが作品制作の工程数を指定します。この例では、スケッチ・塗りつぶし・詳細の描画の3工程から成り立っています。(a)の青色背景部分は推論部分です。つまり、既に完成されている画像から逆に推論していき、制作工程ごとに絵が生成されます。(b)は特徴エンコーダです。各過程での絵の特徴が計算され、変換パラメータが算出されます。(a)の緑色背景部分では、これらの変換パラメータを基に、最初の工程(例ではスケッチ)から完成後の画像を再構築します。

N: ユーザが指定する工程の数
x_N: 最終工程での画像(例ではN=3)
\{G_i^I\}^N_{i=1}: 工程推論モデル
\{E_i^G, G_i^G\}^N_{i=1}: 各工程での作品生成モデル

工程の推論と作品の生成の流れ

ネットワーク生成は、BicycleGANMUNITを採用することによって構築します。BicycleGANは条件付きGANの一種で、生成モデルの設定に条件を課すことによって、複数の出力を得ることを目的としたモデルです。MUNITは複数の出力を得ることができ、なおかつ学習時に正解として入力画像と出力画像のペアを必要としない手法です。

最適化アルゴリズムの導入

ユーザが編集を実行する前に、変換パラメータから元の画像を構築できることが理想です。しかし、入力画像と再構成された画像を比較したときに、若干異なった画像が生成される場合があります。したがって、変換パラメータに最適化アルゴリズムを導入することによって、もとの画像の生成を目指しました。

最適化アルゴリズムにはAdaINを用いています。AdaINはStyle Transfer(画風変換)の一種として用いられていますが、正規化の一種です。もとの画像の平均と標準偏差をスタイル画像のものに置き換えるように正規化するという役割を担います。つまり、再構成された画像と入力画像との間の平均と標準偏差を最小化することのが目標です。

下図は最適化前後の顔画像の比較です。赤枠と元の画像を比較すると、肌の色が薄いなど、入力画像と多少異なっています。AdaIN最適化後の画像を見てみると、多少の違いはありますがうまく生成できていることが分かります。しかしながら、生成モジュールが入力画像の詳細部分を記憶してしまい、ユーザが編集した結果の品質が低下してしまうことがあります(黄色枠)。

AdaIN最適化前後の顔画像の比較

下図は正規化アルゴリズムの流れです。i番目の訓練段階では、AdaIN最適化を含めることによって、weight decay(重み減衰)のハイパーパラメータを最適化します。下図は2番目の訓練段階を例にとって説明しています。
青色矢印で、AdaIN最適化とweight decayによって増分が更新されます。このとき生成モデルは、ユーザが編集した絵の品質を維持するだけでなく、再構成を行う必要がります(緑色背景部分)。例では金髪を灰色にしています。最後に損失関数を用いてハイパーパラメータを最適化します(赤色矢印)

AdaINを用いた正規化アルゴリズムの流れ

任意の工程で作品を編集し生成することに成功

結果、Hung-Yu Tsengらの手法においては、任意の工程で作品を編集できるようになり、容易に作品を生成できるようになりました。

下表は各データセットの詳細と制作の工程です このシステムを評価するために、顔画像・アニメイラスト・、椅子3Dデザインの、3つのデータセットを手動で処理します。

3つのデータセットの詳細と制作工程の流れ

では、どのような画像が生成され、編集できるかを見ていきましょう。

定性評価

下図はスケッチからの画像生成の結果です。最初の工程を入力としてランダムに使用しています。ある工程で絵の特徴を変更することによって、さまざまな結果を得ることができます。例えば、アニメイラストを生成する場合、2段階目では髪色の変更を行っています。最終工程では、髪の彩度の変更やハイライトの追加など、多様な結果が生成されます。

スケッチから最終工程までの画像の生成

上にも示したように、さまざまな工程で作品を編集することができます。AdaIN最適化を行うことによって、各工程における作品を再構築した後、さまざまな段階の特徴を再サンプリングします。これによって、ユーザが施した編集のみを保持して変化するようになっています。例えば、顔写真を編集する場合、髪型を保持しつつ髪色のみに影響します。

さまざまな作品における編集の結果

Hung-Yu Tsengらは、システムの双方向性を検討するために、プロのアーティストにスケッチを編集するように依頼しました。まず完成された入力画像からシステムが最初の工程を推測します。次に、入力画像とスケッチを比較して、アーティストがスケッチを手動で修正します。編集内容な下図の赤枠で囲まれた部分です。この実験により、システムを用いることによってアーティストが望ましい結果を得られることを示しています。

スケッチ編集による生成画像の結果

定量評価

定量評価では、以下の指標を用いました。

  • 入力画像と再構築された画像との差
  • フレシェ開始距離(FID): GANの品質を測るための評価指標であり、スコアが小さければ小さいほど良い品質である。

両評価指標を用いた結果を示します。1ピクセル単位の距離を評価に用いています。2, 3行目は特徴表現に最適化を施すよりも、変換パラメータに使用した方が良い結果が得られることを示しています。また、学習済みのweight decayは正規化なしのAdaINと比較した場合、同等のパフォーマンスを得られることが分かります。

両評価指標を用いた最適化手法ごとの生成評価

研究紹介は以上です。元の画像からイラストを編集したり、下書きから作品制作を補助してくれるシステムが提案されました。これによって誰でも作品を生成できる時代が到来すると良いと思います。


関連記事


業界/カテゴリー

PAGE TOP