アドビが凄い「アニメの表情」技術をつくりました【AI×アート】(論文解説)

   
↓はてなブックマークで応援お願いします!
このエントリーをはてなブックマークに追加

アニメキャラ、話す表情に違和感は?

人の表情をアニメーション化することは、映画制作、ビデオストリーミング、コンピュータゲームなどの分野で不可欠です。しかし、近年の技術進歩にもかかわらず、リアルな顔のアニメーションを人手を介さずに生成することは、未だに実現できていません。

従来の手法では、音声と顔の動きの間のマッピングを学習することでアニメーションの作成を行っています。しかし顔の動きは非常に複雑なので、このようなマッピングを見つけることは非常に困難で手間のかかる作業でした。

話者のアニメーション制作における課題に対して、実際にどんな研究が行われているのでしょうか。Adobe(アドビ)のYang Zhouら研究者の発表を紹介します。

研究者らは、音声信号と話者の画像などの情報を分離して解析することで、リアルなアニメーションの制作を試みました。

▼論文情報

著者:YANG ZHOU, XINTONG HAN, ELI SHECHTMAN, JOSE ECHEVARRIA, EVANGELOS KALOGERAKIS, DINGZEYU LI
タイトル:”MakeItTalk: Speaker-Aware Talking-Head Animation”
arXiv
URL:DOI

リアルな話者のアニメーション生成

まずはYANG ZHOUらの研究におけるミッション・手法・結果をまとめました。

✔️ミッション
1枚の顔画像から人の表情のアニメーションを生成する。

✔️解決手法
音声と画像を分離して解析する。

✔️結果
既存の手法と比べてよりリアルで本物に近いアニメーションの生成に成功した。

ミッションから説明していきます。

顔の細部や話し方の個性に注意

従来の手法における課題を解決する上で、いくつかの要素に注意する必要があります。

・顔の動きは複雑なので、音声と表情の間のマッピングを見つけることは困難である。
・個性的な話し方をアニメーションで実現するには、複数の話者の話し方を学習する必要がある。
・リアルな話者を作るためには口元の動きや顔の大まかな動きを扱うだけでは不十分であり、すべての顔の要素と頭のポーズの相関関係を考慮した顔の表情全体の情報が必要である。

これらの要素を考慮した上で課題を解決する新しい手法を提案します。
YANG ZHOUらの手法は、単一の顔画像と音声を入力として話者のアニメーションを生成します。
この手法の重要な点は、入力された音声信号の内容と話者の表情を分離し、生成することです。
音声は、口元や顔の近傍領域のロバストな同期に使用されます。話者の顔情報は、表情や頭の動きを捉えるために使用され、表情豊かなアニメーションを生成します。

画像情報、音情報を合成してアニメーション生成

YANG ZHOUらは、顔の特徴的な部分(ランドマーク)を抽出し、音情報と話し手の個性情報を合成させることでアニメーション生成を行いました。

音声クリップと顔画像が与えられると、音声に同期した話者対応のアニメーションを生成します。図1にアーキテクチャの概要を示します。
学習段階では、既製の顔ランドマーク検出器を使って、入力画像からランドマークを抽出します。

図1 アニメーション生成モデルアーキテクチャの概要

音声に忠実な表情の動きを実現するために、入力音声と入力画像(から抽出されたランドマーク)から直接話者のランドマークを予測することを試みます。

具体的には、音声変換ニューラルネットワークを使用して、音声コンテンツから音情報と話者の個性情報を分離します。
音情報からは、話者にかかわらず、口元とその近傍領域の一般的な動きが予測されます(図1 Speech Content Animation)。また、話者の個性情報によって、表情の動きの残りの細部が決まります(図1 Speaker-Aware Animation)。
例えば、「Ha!」と発話する際、誰が話しても口が開いていることが予想できます。一方口を開いた時の正確な形や大きさ、鼻、目、頭の動きについては、話者に依存します。発する言葉と話者の個性情報を条件として、与えられた音声に対して予測されたランドマークを出力します。

ラスタライズされた画像を生成するために、ランドマークと画像の合成のための2つのアルゴリズムがあります。
1つ目は、絵画や漫画のような非写実的な画像に対して用いる手法です。ドロネーの三角測量に基づく単純な画像ワープ法を用います(図1 Face Warp)。
2つ目は、写実的なものに用いる手法です。画像間翻訳ネットワークを考案し、基礎となるランドマーク予測から自然な人間の顔画像をアニメーション化します(図1 Image2Image Translation)。
すべての画像フレームと入力音声を組み合わせることで、最終的な話者アニメーションが得られます。

高品質なアニメーションの生成に成功

結果、YANG ZHOUらの手法では、顔の細かい表情や頭の動きまで表現したアニメーションの生成に成功しました。

図2は、人が話している映像を合成した場合の比較です。
ここでは、最先端の映像生成手法の結果と比較しています。GTとYANG ZHOUらの結果は、口元をよりよく可視化するためにトリミングされています(2行目と5行目を参照)。この結果から、Vougioukasら、Chenらによって生成された動画では、頭部のポーズを考慮せず、主に口元の領域を予測していることがわかります。一方YANG ZHOUらの結果は、口元の予測に加えて頭の動きや顔の表情をよく捉えています。

図2 人物話者のアニメーション生成結果

図3は、写実的でない画像から生成したアニメーションです。YANG ZHOUらの手法の利点は、人間の顔のランドマークでしか学習していないにもかかわらず、多種多様な漫画調の顔にうまく一般化できることです。これは絶対的な位置ではなく相対的な位置、すなわち、ランドマークの変位を学習するためです。YANG ZHOUらの手法は、絵画、ランダムなスケッチ、2次元の漫画調キャラクター、風刺画、カジュアルな写真などをアニメーション化することができることを実証しています。

図3 非写実的な話者のアニメーション生成結果

動画による結果はこちらをご覧ください。

これらの結果からわかるように、最先端の技術と比較して、高品質でより表現力の高いアニメーションの生成が実現されました。
このような技術は、映像の吹き替えや、ビデオ会議におけるアバターに活用されることが期待されます。

研究紹介は以上です。

1枚の画像があれば、そこに映っている人が話している動画を生成できるようになります。
さまざまな場面に活用できそうな反面、フェイク動画の作成にも用いることができそうにも思われます。広く真っ当な場面に活用され、便利な世の中になって欲しいですね。


関連記事


業界/カテゴリー

PAGE TOP