「画風」変換を行う新手法【AI×アート】(論文解説)

   
↓はてなブックマークで応援お願いします!
このエントリーをはてなブックマークに追加

複雑なアートもお手の物、な時代に

近年、ニューラルネットワークの発展によって、芸術作品においても用いられるようになってきています。 Style Transfer(画風変換)もその一つであり、ある画像のスタイルを抽出して、特定の画像にそのスタイルを写すアルゴリズムです。例えば、ゴッホの画像を読み込めば、好きな画像をゴッホ風にできます。

現在、様々なStyle Transferの手法が存在しますが、複雑なスタイル画像を用いると変換に失敗してしまう場合もあります。そのため、色々なスタイル画像が適用できるアルゴリズムを構築することは重要です。

Style Transferにおける複雑なスタイル画像に対応することができないという課題において、実際にどのような研究が行われているのでしょうか。Tianwei Linらの研究を紹介します。

結論として研究者らは、人間が絵を描く方法を模すことによって、Style Transferの品質向上に努めました。

▼論文情報

著者:Tianwei Lin, Zhuoqi Ma, Dongliang He, Xin Li, Errui Ding, Nannan Wang, Jie Li, Xinbo Gao
タイトル:”Drafting and Revision: Laplacian Pyramid Network for Fast High-Quality Artistic Style Transfer”
arxiv
URL:DOI

高速で高品質なStyle Transferアルゴリズム

まずはTianwei Linらの研究におけるミッション・手法・結果をまとめました。

✔️ミッション
色々なスタイル画像が適用できるStyle Transferアルゴリズムを構築する

✔️解決手法
DraftingとRevisionの2つのネットワークを組み合わせた。

✔️結果
複数のStyle Transfer手法と比較して、もとの画像の構成を残しつつ、色彩分布も保持できることが分かった。

ミッションから説明していきます。

Style Transferとはなんぞや

Style Transfer(画風変換)は、ある画像のスタイルを特定の画像に写すアルゴリズムです。下の画像はStyle Transferを適用した例となっています。ゴッホの星月夜をスタイル画像として、画像を変換しています。段階を踏むごとに、画質が向上しているのが分かります。

Style Transferを画像に適用した例

さて、画家は作品を創るときに、どのように複雑なパターンを描いているのでしょうか。一つの方法としては、最初に大域的に下書きを描き、徐々に細部を仕上げていくというものがあります。Tianwei Linらは、この方法に触発され、Laplacian Pyramid Network(LapStyle)という手法を提案しました。

上の画像にもあるように、このネットワークは主に2つの手順によって形成されています。1つはDrafting Networkです。Draftingには下書きという意味があり、まず低解像度で大域的に絵の特徴を捉えます。もう1つはRevision Networkです。Revisionは修正という意味で、低解像度の絵を高解像度に変換することができます。

では、詳しく手法を見てみましょう。

2つのネットワークを複合

Tianwei Linらは、2つのネットワークを組み合わせることによって、Style Transferアルゴリズムを作成しました。

Style TransferのためのアルゴリズムであるLapStyleを詳しく紹介します。名前の通り、ピラミッドのようなイメージで複数の層を積み上げることができます。2層積み上げることを例にしていますが、Revision Networkを重ねることによって、変換後の画像をより高解像度にすることができます。

ネットワークの構造

下図はLapStyleのフレームワークです。まず変換対象の画像を入力し、Drafting Networkを通して低解像度でスタイル画像と変換対象の画像が結合されたものが出力されます。次に、Revision Networkで高画質の画像を出力します。

では、Drafting NetworkやRevision Networkではどのような処理が行われているのでしょうか。次に詳しく説明します。

Drafting Network

Drafting Networkは、絵で表現すれば下書きの段階です。目的は、低解像度で、スタイルに合わせた画像を出力することです。なぜ低解像度で出力するかというと、大域的な画像を出力するには、画質を落とした方が容易だからです。

下図はDrafting Networkの流れです。ネットワークの中にはエンコーダ・AdaIN・デコーダが含まれています。入力は、変換前の画像\bar{x}_cとスタイル画像\bar{x}_sです。出力として、スタイルが適用された画像\bar{x}_{cs}を得ることができます。

  • エンコーダにはVGG-19が用いられている。深さが19層の畳み込みニューラルネットワークで、100万を超える画像で事前学習されている。このモデルを用いて複数の特徴を抽出する。
  • Style Transferのためのアルゴリズムとして、AdaINが用いられている。利点として、スタイル画像ごとに再学習を行わなくて良いというものがある。
  • デコーダでは、スキップ接続によって特徴を抽出している。スキップ接続は、「層を通すごとに消失してしまう特徴を、後半の層に直接移動させて生き残らせる」ものである。離れた層の間で特徴をコピーし、接続する。
Drafting Networkのフレームワーク

Revision Network

Revision Networkは、絵で表現すれば仕上げの段階です。目的は、Drafting Networkで得た出力の解像度を上げることです。Revision Networkによって詳細画像r_{cs}を生成し、Drafting Networkの出力と組み合わせることによって画像を修正します。

下図はRevision Networkの流れです。アップサンプリングとダウンサンプリングがそれぞれ1つのみからなる簡易的なつくりになっていますが、効果的に詳細画像を抽出することができます。また、細かいスタイルを捉えるためにSinGANに基づいたDiscriminatorDを定義します。SinGANはノイズ除去・ぼかし除去などのタスクすべてを行ってくれる汎用的なアルゴリズムです。5つの畳み込み層と32個の隠れ層があり、局所的なパターンを抽出します。

Revision NetworkとSinGANに基づいたDiscriminatorのフレームワーク

以上2つの手法が組み合わされ、モデルを訓練することによってStyle Transferを行うことが可能になります。結果では、他の手法とLapStyleを比較します。

色彩を保持 魅力的なアートを生成

結果、複数のStyle Transfer手法と比較して、LapStyleはもとの画像の構成を残しつつ、色彩分布も保持できることが分かりました。

まず最初に、訓練に用いられたデータセットを紹介し、次にセットアップについて説明します。最後に、他のStyle Transfer手法との比較をします。

データセット

モデルの訓練には、1つのスタイル画像と、複数の変換対象の画像が必要です。Tianwei Linらは、変換対象の画像には、MS-COCOというデータセットを用いました。これはMicrosoft社が提供している画像データセットで、画像分類などの様々なタスクに使用されます。また、スタイル画像にはWikiArtというインターネット上でアート画像を検索できるサイトを用いています。

セットアップ

Drafting NetworkとRevision Networkは順次訓練されます。前者は128×128の解像度で訓練され、後者は256×256の解像度で訓練されています。より高い解像度を用いる場合は、512×512もしくは1024×1024まで上げることも可能です。どちらのネットワークにおいても、学習率は1e-4とし、最適化アルゴリズムにはAdamが用いられています。

既存の手法との比較

下図はLapStyleと既存の手法との比較です。明確なスタイル画像も合成することができますが、スタイル画像の色彩分布やテクスチャが維持されてしまい、うまく結合されない場合があります(2行目・8行目の画像)。Revision Networkでも用いられていたAdaINには、スタイル画像の色彩分布を保持できないという問題点があります(2, 7, 8行目)。これを改善したのがLapStyleです。下図の3列目を参照すると、もとの画像の構想を残しつつ、色彩分布も保持していることが分かります。

複数の画像を用いたLapStyleと既存手法との比較

下図はLapStyleと最適化ベースの手法との比較です。STROTSSは最適化ベースのStyle Transferです。最適化ベースにおいては、計算コストは大きいですが、高品質な画像を生成することができます。Gatysらが提案した手法は、全体的なスタイル画像は写されますが、パターンの分布は不適切な場合があります(左下や右下の画像)。LapStyleはSTROTSSと同じような結果を達成しています。

LapStyleと既存の最適化ベース手法との比較

またTianwei Linらは、LapStyleと既存のStyle Transfer手法を用いて、どの手法が魅力的であるか調査しました。まず、225枚の画像を合成するために、15枚のスタイル画像と15枚の変換対象の画像を選びます。次に、20組の変換対象の画像とスタイル画像のペアをランダムにサンプリングします。各ペアを被験者にランダムな順序で並べ、最も好きな画像を選択しました。

100人から2,000票を集計しました。下図に示すように、LapStyleが41%と既存の手法よりも魅力的であることが分かりました。

各手法を比較した際の投票率

研究紹介は以上です。Style Transferの技術が向上することによって、独創的で芸術的な作品が作られると良いですね。


関連記事

 


業界/カテゴリー

PAGE TOP