Facebook、自然な光の当たり具合を実現するアバター生成技術を開発【AI×アート】(論文解説)

   
↓はてなブックマークで応援お願いします!
このエントリーをはてなブックマークに追加

アバター作成における課題とは

画像処理などを活用したアバターの作成においては、学習ベースの手法を用いたモデルが増加しています。従来の方法では、顔や輪郭の正確な形状を必要とし、通常、コストと時間のかかるセットアップ作業が必要です。しかし、学習ベースの方法では、ニューラルネットワークを用いて顔の外観をモデル化することができます。

学習ベースの技術においては、単一の照明条件に制限されてきました。例えば、表情や視点は柔軟に変更することができますが、その顔にあたる影が均一であり、制限されてしまいます。また解決されたとしても、2Dモデルのみであり、3Dモデルの手法はありません。

学習ベース手法を用いたアバター作成における、照明条件が制限されているという課題において、実際にどんな研究が行われているのでしょうか。Facebookら研究者の発表を紹介したいと思います。

研究者らは、エンコーダを用いることによって、アバターの生成を行いました。

▼論文情報

著者:Sai Bi, Stephen Lombardi, Tomas Simon, Shih-en Wei, Kevyn Mcphail, Ravi Ramamoothi, Yaser Sheikh and Jason Saragih
タイトル:”Deep Relightable Appearance Models for Animatable Faces”
Facebook
URL:DOI

表情や照明を考慮したアバター作成

まずはFacebookの研究者らの研究におけるミッション・手法・結果をまとめました。

✔️ミッション
照明条件を画像ごとに変更できるアバターを作成したい。

✔️解決手法
ニューラルネットワークを用いて、表情や照明条件を正確にマッピングした。

✔️結果
照明条件を考慮した高品質なアバター生成に成功した。

ミッションから説明していきます。

(目的)照明条件の変更

アバターの作成において、ニューラルネットワークなどを用いた学習ベースの手法が増加してきています。従来の方法は主に2通りあり、1つは古典的な方法で顔や輪郭の正確な形状を必要とします。もう1つは学習ベースの手法で、ニューラルネットワークアルゴリズムなどを用いて顔や輪郭などを予測します。

学習ベースの技術を使用して作成されたアバターは、単一の照明条件に制限されてきました。例えば、アバター作成時に、その3Dモデルはキャプチャされた均一な照明条件に制限されてしまいます。この課題は解決に向かっていますが、既存手法においては、2Dモデルに限定されています。

つまりFacebookの研究者らの目的は、照明方向を画像ごとに変更することができるアバターを作成するための、学習ベースのモデルを開発することです。また、訓練中の画像とはかけ離れた画像に対しても、忠実な顔アバターを生成することを目指しています。

(手法)ニューラルネットワークを用いて表情を近似

Facebookの研究者らは、エンコーダを用いてモデル構築を行いました。

人間の顔は主に、表情・視点・照明条件(影など)の関数としてモデル化することができます。つまり、この関数を近似するためにニューラルネットワークを用いています。では、データセットから見ていきましょう。

データセット

理想的には、複数の証明を利用し、表情・視点・照明条件の3つの要素すべての組み合わせの画像データをキャプチャすることが求められます。Facebookの研究者らは、140台のカメラと460台のLEDライトを用いて顔の撮影を行いました。

図1(左)のように、被写体を囲むような形で半径1.1mの球形ドーム状にカメラとLEDライトが配置されています。すべてのLEDは調整可能であり、個別に制御することが可能です。人間が対象であり、自然に会話しているFacebookのメンバーを撮影しました。また、効率的に撮影するために、空間的に層化されたランダムサンプリングを用いています。(図1右)

図1: 写真撮影室と撮影の方法

アバターの構築

様々な視点からレンダリングし、環境に合わせた照明でモデルを生成することができる、表現力豊かな顔のアバターを構築することが目標です。そのためには、ニューラルネットワークの表現力を活用して、視点・表情・照明を正確にマッピングします。

提案手法は主に2つに分けられています。第1段階目は後期調整モデル(A Late-conditioned Model)です。ここでは計算コストはかかりますが、高品質で忠実な顔画像を合成することができます。第2段階目は早期調整モデル(A Early-conditioned Model)です。第1段階から生成されたデータセットを使用して、新しいニューラルネットワークの訓練を行います。

図2では後期調整モデルの概略を示しています。これはエンコーダで構成されたC VAEです。これは確率的生成モデルを用いた半教師あり学習手法です。主に画像生成が中心となっています。このモデルへの入力は、すべての画像の平均テクスチャであり、出力は生成画像です。

図2: 後期調整モデルの流れ

図3は早期調整モデルの概略を示しています。多くの光源を使用する場合は計算コストがかかるため、効率的なモデルを作成しています。入力として、後期調整モデルで生成された画像と、環境マップがあります。データセットはGardnerやSunらが作成した、3094枚の写真から使用しています。出力として、予測画像が得られます。

図3: 早期調整モデルの流れ

(結果)高品質なアバター生成に成功

結果、照明条件などを考慮した高品質な画像の生成に成功しました。

後期調整モデルの評価

従来のモデルは提案手法のように、自由視点かつ照明条件の変更が可能なアニメーションをサポートしていません。したがって定量評価は難しく、研究者らは定性評価に焦点を当てています。

レンダリング結果を、異なる視点・表情・照明条件の下で正解画像と比較します。図4に結果があります。左側が正解画像、右側が提案手法です。訓練画像に含まれていない画像で生成を行っていますが、正解画像に忠実であることが分かります。

図4: 正解画像と生成画像との比較

図5は、屋外と屋内の両方でモデルを使用した結果です。同一人物の左右の画像を比較すると、顔の反射や額のきらめきを表現できていることが分かります。

図5: 屋外と屋内での生成結果

早期調整モデルの評価

図6は早期調整モデルによるレンダリング結果です。入力画像として、後期調整モデルで出力された画像を用いているため、後期調整モデルの出力を正解画像としています。結果を見ると、対応する画像に非常によく似た正確な生成結果が得られていることがわかります。

図6: 早期調整モデルによるレンダリング

また、図7では早期調整モデルをSunらの方法と比較しています。Sunらの手法では、顔と目の正確な影を生成できていませんが、提案手法では写実的な画像が生成できていることが分かります。

図7: 早期調整モデル生成結果の既存手法との比較

研究者のSai Bi氏が自身のYoutubeに、アバター生成結果と論文の概要をアップロードしているので、ご覧ください。URL

研究紹介は以上です。様々な表情や照明の当たり具合などを表現できる素晴らしいモデルが開発されました。これによって、色々な種類のアバターが生成され、人間の別の表現手法などで応用されると良いですね。


関連記事


業界/カテゴリー

PAGE TOP