目次
芸術的な表現の手段としてのスケッチ
スケッチは自身の思い描く風景などを直観的に表現する手段です。iPadなどのタッチスクリーンデバイスが普及していますが、スケッチアプリの開発も精力的に行われています。
写真からスケッチへ変換するアプリも人気ですが、最新のテクノロジーで可能になりつつあるのは「スケッチから写真に変換」すること。
ただし今の技術では、フリーハンドで描かれたスケッチと写真の輪郭は実際のところかなり異なっています。このギャップを埋めることはできるのでしょうか?

スケッチから写真を生成するタスクにおいては、機械学習技術が用いられています。しかし、機械学習モデル構築が困難であるという課題が存在します。
ユーザーが描くスケッチと、それに対応する写真のラベル付けが難しいためです。
この課題において、実際にどのような研究が行われているのでしょうか。アメリカ合衆国にあるパデュー大学のXiaoyu Xiangらの研究者の発表を紹介します。
研究者らは、GANを用いることによって、モデル構築を試みました。
▼論文情報
著者:Xiaoyu Xiang, Ding Liu, Xiao Yang, Yiheng Zhu, Xiaohui Shen, Jan P. Allebach
タイトル:”Adversarial Open Domain Adaption for Sketch-to-Photo Synthesis”
arxiv
URL:DOI
スケッチから写真を生成するモデルを構築
まずはXiaoyu Xiangらの研究におけるミッション・手法・結果をまとめました。
✔️ミッション ✔️解決手法 ✔️結果 |
ミッションから説明していきます。
(目的)スケッチから写真への変換モデル構築
スケッチから写真への変換タスクは、大量のラベル付けと手間が必要であり、写真とスケッチがペアになっていないという問題もあり、モデルの構築が難しいです。そのため、Xiaoyu Xiangらは、スケッチのデータが欠けていても、スケッチから写真への変換を行えるモデルを構築することを目的としています。
下図はスケッチから写真への変換の例です。訓練段階では、多クラスのスケッチから写真への生成を学習します。しかし、いくつかのカテゴリのスケッチが欠落してしまっています。推論段階では、既知のクラスだけではなく、訓練中に欠損していたクラスから生成されるべき写真を推論し、生成します。

(手法)GANを用いて写真を再構築
Xiaoyu Xiangらは、GANを用いてスケッチから写真への変換モデル構築を行いました。
訓練段階ではドメインクラスのスケッチデータが欠落しています。ドメインとは、データの集まりを表す言葉です。つまり、入力データは欠損しているものを含みます。そこでXiaoyu Xiangらは生成器により合成されたスケッチと実際のスケッチの間のギャップを小さくすることを目標とします。
モデルのフレームワーク
下図はAODA(Adversarial Open Domain Adaption: 敵対的オープンドメイン適応)フレームワークの概要です。AODAは二つの生成器があります。写真からスケッチを生成する\[G_A\]、スケッチ・クラスラベルを入力として写真を生成する\[G_B\]です。また、判別器も二つあり、スケッチが本物か偽物かを判別する\[D_A\]、生成された写真が本物か偽物かを判定する\[D_B\]を持っています。
訓練段階で、\[G_A\]は写真\[p\]からスケッチ\[G_A(p)\]を抽出します。次に、生成されたスケッチ\[G_A(p)\]と実際のスケッチ\[s\]は、生成器\[G_B\]に送られ、再構築された写真\[G_B(G_A(p))\]に代わります。最終的には識別器(Discriminator)\[D_B\]に送られ、本物であるか偽物であるかを判定します。

(結果)もとのスケッチに忠実な形状の写真の生成に成功
結果、三つのモデルと提案手法を比較すると、良い写真を生成できていることが分かりました。
モデルごとの写真生成結果と比較
Xiaoyu Xiangらは、ScibbleとSketchyCOCOというデータセットを使用し、他のモデルとの生成結果を比較しました。Scibbleは白背景写真や、スケッチなどの10種類の絵(パイナップルやクッキーなど)が含まれています。SketchyCOCOには、14種類のクラスがあり、14,081枚の写真があります。
比較に用いたモデルはCycleGANとEdgeGANです。CycleGANは、ペアになっていない写真とスケッチを与え、ドメイン間にある特徴を学習するというGANです。
下図はScribbleデータセットによる写真生成の結果です。(a)はCycleGANによる生成結果、(b)はconditional Cycle GANを用いた生成結果、(c)は損失関数を用いたconditional Cycle GANによる生成結果、(d)はEdgeGANによる生成です。Scribbleデータセットのラベルがほとんど機能していないため、(c)や(d)はかなり異なった結果を生成しています。(d)とAODAを比較すると、入力されたスケッチの形状を保っていることが分かります。

下図はSketchCOCOデータセットによる写真の生成結果です。(a)はCycleGANによる生成結果、(b)はconditional CycleGANによる生成、(c)はEdgeGANによる生成結果となっています。CycleGANによって生成された写真は、色や形がかなり崩れていて、もとのスケッチと比較しても判別するのが難しいです。(c)のEdgeGANは比較的うまく生成されていますが、Xiaoyu Xiangらが提案したAODAの生成結果と比較すると、かなり忠実に再現されていることが分かります。

定量評価
定量評価には三つの評価指標が用いられます。
- フレシェ開始距離(FID): 2つの画像がどれくらい離れているかを表す評価指標。スコアが低いほど生成された画像が実際のものと異なっていないことに分かる。
- 分類正解率(Acc): 精度が高いほど、画像が本物である確率が高い。
- ユーザによる検証(Human): スケッチとラベルが与えられ、生成された結果の中で最も良いものを選ぶ。31種類の画像をランダムサンプリングし、25人のユーザに評価をもらう。
下図は四つのモデルを、三つの評価指標を用いて定量的に評価しています。AODAは他の手法よりも多くのユーザに好まれていることが分かります。すべてのデータセットにおいて、FIDとAccでもAODAは良い結果を得ています。

研究紹介は以上です。スケッチデータの一部が欠けていても忠実な写真が生成できる、汎用性の高いモデルが構築されました。この研究によって芸術的な絵や写真が簡単に生成できると良いですね。
オリジナル記事の新着はSNSから