唇は嘘をつかない。【AI×セキュリティ】(論文解説)

   
↓はてなブックマークで応援お願いします!
このエントリーをはてなブックマークに追加

テクノロジーの悪用が問題化

最近の深層生成モデル、特にGAN(Generative Adversarial Networks)の進歩により、人の労力や専門知識をほとんど必要とせずにリアルなフェイク動画を作成可能になりました。
特に顔を操作する手法は、対象となる映像に写っている顔に合わせて、人物の表情、唇の動きなどを変化させることができるため、大きな問題となっています。

このような技術が悪用されると、政治的なプロパガンダが広まったり、個人の名誉が傷つけられたり、ジャーナリズムに対する信頼が損なわれたりする可能性があります。
近年では偽装動画の検出に関する研究が行われていますが、新しいフェイク手法で作成された動画の検出は著しく性能が低下することが知られています。

フェイク動画を検出するという課題において、実際にどのような研究が行われているのでしょうか。フェイスブックのAlexandros Haliassosら研究者の発表を紹介します。

研究者らは、フェイク動画の口元の動き複雑性に注目することで、フェイク動画の検出を試みました。

▼論文情報

著者:Alexandros Haliassos, Konstantinos Vougioukas, Stavros Petridis, Maja Pantic
タイトル:”Lips Don’t Lie: A Generalisable and Robust Approach to Face Forgery Detection”
arXiv
URL:DOI

Facebook、フェイク動画を取り締まる。

まずはAlexandros Haliassosらの研究におけるミッション・手法・結果をまとめました。

✔️ミッション
フェイク動画を検出する。

✔️解決手法
動画の口元の動きに注目し、フェイク動画特有の特徴を検出した。

✔️結果
既存手法に比べ汎化性、堅牢性の高い検出器の構築に成功した。

ミッションから説明していきます。

(目的)検出器の堅牢性向上

新しいタイプのフェイク動画への汎化性を高めるための試みには、単純なデータ補強、異常検出器として機能するオートエンコーダのような構造、局所パターンをモデル化するパッチベースの分類などがあります。
しかし、これらの手法はまだ訓練動画に大幅にオーバーフィットしています。特に効果的な”Face X-ray”と呼ばれる手法は、背景画像と挿入・変更された顔の間の境界を予測することを提案しています。この手法はさまざまなフェイク動画で見事な一般化を達成しましたが、低レベルの後処理操作の影響を受ける、知覚できないパターンに依存しています。
そこで、「フェイク動画作成時には不整合な部分が生じており、その現実との差異が検出に役立つのではないか」と考えるのは自然なことです。

Alexandros Haliassosらは、顔写真のフェイクのほとんどが、他の誰かの特徴や話し方、表情に合わせるために、口元を何らかの方法で変更していることを確認しました。口は複雑な動きをするため、現在の操作方法では、「不気味の谷」に陥らないような動きを生成することは困難です。
例えば特定の音を発音するときに、フェイク動画では口が十分に閉じないことがよくあります。また発話していないときでも、フレームごとに動きの速度が不自然に変動したり、口の形や内部(歯など)が変化したりすることもあります。このような不規則な動きは、検出器にとって貴重な情報となります。

[画像(表も可)は、重要なものを選ぶ。キャプションも日本語化する。]

(手法)口元に注目した分類器の構築

Alexandros Haliassosらは、自然な口の動きと異常な口の動きを区別することで、汎化性が高く頑健なフェイク動画分類器「LipForensics 」を構築しました。

ここでは、口の動きの不自然さは、生成方法に関わらずフェイク動画に存在すると仮定しています。口の動きの不規則性は意味的にハイレベルな手がかりであるため、一般的な摂動によって損なわれることはあまりありません。しかし、単純に口の動きを学習しただけの時空間CNNでは、必ずしも望ましい特徴を学習するとは限らないです。これを考慮して、Alexandros Haliassosらは2段階のアプローチをとりました。

第一段階として、時空間特徴抽出器と時間的畳み込みネットワークで構成されるCNNを、読唇術のタスクで用いられる実写映像の大規模なコーパスで事前学習させます。
このプロセスにより、高レベルの意味空間において、口の異常な動きに敏感な内部表現が誘発されると期待されます。このような事前学習は最近の異常検知に関する文献でも用いられる手法です。適切なタスクのために「正常な」クラス(ここでは本物の動画)で学習することで、「異常な」サンプル(ここでは偽物の動画)を検知するのに有用な特徴の学習が促進されることが示唆されています。

第二段階では、特徴抽出器を固定し,フェイクデータに対して時間的ネットワークのみを微調整します。そうしないと、ネットワークが口の動きではなく注目不要な人口感を学習してしまう可能性があるからです。
このプロセスを図2に示します。

アーキテクチャ
特徴抽出器はResNet-18で、初期の3次元畳み込み層はパディングにより時間次元を保持しています。特徴抽出器は、各入力フレームに対して512次元のベクトルを出力します。時間ネットは、マルチスケール時間畳み込みネットワーク(MS-TCN)であり、それぞれが異なる時間的受容野を持つ複数のブランチの出力を連結することにより、各層で短期および長期の時間情報を結合します。
時間的グローバル平均プーリング層を経て、タスク固有の線形分類器が推定されたクラス確率を出力します。

読唇術タスクでの事前学習
このモデルは、Lipreading in the Wild (LRW) という,様々なポーズをとった数百人の話者からなる50万以上の発話を含むデータセットで事前学習されています。

(結果)最先端の汎化性、堅牢性を達成

結果、ほとんどの場合において、見たことのないフェイクの検出で従来の手法を大幅に上回り、他のモデルの性能を低下させるような破損に対しても顕著な頑健性を示すことがわかりました。

データセット
フェイクの多様性から、学習データセットとしては主にFaceForensics++ (FF++)を使用します。このデータセットには,DeepFakes(DF)とFaceSwap (FS)という2つの顔交換アルゴリズムと、Face2Face(F2F)とNeuralTextures(NT)という2つの顔再現手法を用いて生成された180万の顔フレームと4,000のフェイク動画が含まれています。
各トレーニングビデオの最初の270フレームと、各検証/テストビデオの最初の110フレームのみを使用しています。

表1は、LipForensicsが新規のフェイクに対して優れた一般化を達成し、他のほとんどのアプローチを平均して大差で上回っていることを示しています。また、これまでの最新手法であるFace X-rayをAUCで2.2%上回っています。

表1 複数手法にまたがる比較結果
FaceForensics++ データセットの各フェイクタイプでテストしたときのAUC(%)を示しています。テストは残りの3つのタイプでトレーニングをしした後に行います。

目に見えない摂動に対するロバスト
ソーシャルメディア上では画像処理が頻繁に行われているため、一般的な摂動によってフェイク検出器が容易に破壊されないことが非常に重要です。本研究では、FF++を用いて学習を行い、その後目に見えない様々な妨害を受けたFF++サンプルを用いてテストを行うことで、検出器のロバスト性を調べました。
ここでは、彩度の変化、コントラストの変化、ブロック単位の歪みの追加、ホワイトガウスノイズの追加、ぼかし、ピクセル化、動画圧縮の適用という7つの処理で実験しました。さらに、各操作は5段階の強度で変化させて実験を行いました。図2は、強度3の各操作の例です。

図2 動画へ加えた操作の例
図3 動画への様々な操作に対するロバスト

図3では、各操作の強度を上げたときの効果を示しています。LipForensicsは、他の手法に比べて、ほとんどの摂動に対して有意にロバストであることが明らかになりました。フレームの高周波コンテンツに影響を与える破損(ぼかし、ピクセル化、圧縮)では、他の方法が性能を大きく低下させるのに対し、LipForensicsは最も高い強度を除いて高い性能を維持します。パッチベースは、ほとんどの破損に対して特に脆弱であり、これは限られた受容野に依存しているためと考えられます。
Face X-rayは複数手法にまたがる比較では性能が高かったににもかかわらず、ここではほとんどの操作、特に圧縮の影響を受けています。

このように、本研究で提案された手法は、フェイク動画に対して最先端の一般化を達成しました。また、さまざまな種類のフェイクに対して他の手法よりもはるかにロバストです。この2つの目標を達成することは、実生活で顔のフェイクを検出するために非常に重要であり、Alexandros Haliassosらの研究はフェイク動画との戦いにおける重要な一歩です。

研究紹介は以上です。

新技術が生まれると、悪用されることがしばしばあります。高度なフェイク動画は個人のプライバシーを侵害したり、権威を侵害したりする恐れがあります。重大な事件を防ぐためにも、非常に重要な研究です。


関連記事


業界/カテゴリー

PAGE TOP