テキストから画像を生成 ゼロショットでシンプルに(AI論文解説)

   
↓はてなブックマークで応援お願いします!
このエントリーをはてなブックマークに追加

テキストからの画像生成

テキストから画像を生成するアプローチは、敵対的生成ネットワークなど機械学習技術の発展により、非常に忠実な生成を行うことが示されています。最近では、事前学習したクロスモーダルなマスク付き言語モデルへの入力を最適化する方法が提案されています。

新手法では視覚的な忠実度は大幅に向上しましたが、オブジェクトの歪み、あり得ないオブジェクトの配置、前景と背景の要素の不自然な合成などの問題が残る場合もあります。最先端の手法では何が結果を制限する要因になっているのか、研究が進んでいます。

テキストから画像を生成する技術において、最も新しい研究はどのようなものでしょうか。イギリスのマンチェスター大学のAditya Rameshら研究者の発表を紹介します。

研究者らはテキストと画像のトークンを単一のデータストリームとして自己回帰的にモデル化する変換器による、シンプルなアプローチを提案しました。

▼論文情報

著者:Aditya RameshMikhail PavlovGabriel GohScott GrayChelsea VossAlec RadfordMark ChenIlya Sutskever
タイトル:”Zero-Shot Text-to-Image Generation”
arXiv
URL:DOI

関連記事▶︎【Facebook】クリエイティブなスケッチを生成するAIを開発したと発表(AI×アート論文解説)

ゼロショットでのテキストから画像生成

まずはAdityaらの研究におけるミッション・手法・結果をまとめました。

✔️ミッション
ゼロショット学習で、高い忠実度でテキストから画像を生成する。

✔️解決手法
画像生成のための自己回帰モデルの構築を行った。

✔️結果
テキストに忠実な画像の生成に成功した。

ミッションから説明していきます。

(目的)画像生成におけるデータセット構築の工夫

テキストから画像を合成する現代の機械学習アプローチでは、リカレント変分オートエンコーダーではなく、敵対的生成ネットワークを使用すると、画像の忠実度が向上することが示されました。このシステムでは認識可能な特性を持つオブジェクトを生成できるだけでなく、入力されたカテゴリーをゼロショットで一般化できることが示されました。
その後の数年間、いくつかの手法を組み合わせて進歩が続きました。これらには、マルチスケールジェネレータのような修正による生成モデルアーキテクチャの改善、注意と補助損失の統合、テキストだけではない追加の条件付け情報源の活用などがあります。

これとは別に、現代の手法と比較してサンプル品質の大きな改善を得た、エネルギーベースの条件付き画像生成のフレームワークが提案されています。このアプローチは、事前学習された識別モデルを組み込むことができ、MS-COCOデータセットで事前学習されたキャプションモデルに適用すると、テキストから画像への生成を実行できます。さらに最近では、事前学習したクロスモーダルなマスク付き言語モデルへの入力を最適化する方法が提案されています。

この手法により視覚的な忠実度が大幅に向上しましたが、サンプルには、オブジェクトの歪み、非論理的なオブジェクトの配置、前景と背景の要素の不自然なブレンドなどの深刻なアーティファクトが残ることがあります。

大規模な生成モデルを用いた最近の進歩は、さらなる改善の可能性を示唆しています。具体的には、計算量、モデルサイズ、およびデータを慎重にスケーリングした場合、自己回帰変換は、テキスト、画像、およびオーディオなどのいくつかのドメインで素晴らしい結果を達成しています。
それに比べて、テキストから画像への生成は一般的に、MS-COCOやCUB-200などの比較的小さなデータセットで評価されてきました。データセットのサイズとモデルのサイズが、現在のアプローチの制限要因となっているのでしょうか?

(手法)自己回帰モデルによる画像生成

Adityaらは、テキストトークンと画像トークンを1つのデータストリームとして自己回帰的にモデル化する変換器を訓練することを目標にしました。 しかし、画像トークンとしてピクセルを直接使用すると、高解像度の画像には膨大な量のメモリが必要になります。

Adityaらは、2段階のトレーニング手順を用いることで、これらの問題に対処します。

第1段階
離散変分オートエンコーダー(dVAE)を訓練して、256×256 RGBの各画像を、8192個の可能な値を想定できる各要素を持つ32×32グリッドの画像トークンに圧縮します。これにより、画質を大きく劣化させることなく変換器のコンテキストサイズを192分の1に減らすことができました(図1参照)。

図1 オリジナル画像(上段)とdVAEからの再構成画像(下段)の比較

第2段階
最大256個のBPEエンコードされたテキストトークンを、32×32=1024個の画像トークンと連結し、自己回帰変換器を訓練して両トークンの結合分布をモデル化します。

混成精度トレーニング
GPUのメモリを節約するため、ほとんどのパラメータ、アダム・モーメント、アクティベーションを16ビット精度で保存しました。
また、アクティベーションのチェックポインティングを行い、バックワードパス中のリセットブロック内でアクティベーションを再計算します。10億個のパラメータを超えても発散せずに16ビット精度でモデルを学習させることは、このプロジェクトで最も困難な作業でした。

先行研究と同様に、Adityaらは、Resnet blockからのアクティベーション勾配のノルムは、前半のResnet blockから後半のResnet blockに移るにつれて単調に減少することを発見しました。モデルがより深く、より広くなるにつれて、後半のResnet blockアクティベーション勾配は、16ビットフォーマットの最小指数を下回る可能性があります。アンダーフローをなくすことで、収束まで安定した学習ができることがわかりました。

分散型最適化
120億個のパラメータモデルは、16ビット精度で保存すると約24GBのメモリを消費し、16GBのNVIDIA V100 GPUのメモリを超えてしまいます。これにはパラメータシャーディングを用いて対処します。パラメータシャーディングでは、マシン内通信のレイテンシーを計算集約型の演算に重ねることで、ほぼ完全に隠すことができます。

サンプル生成
先行研究と同様に、事前に学習させた対比モデルを用いて、変換器から抽出したサンプルを再ランク化します。キャプションと候補画像が与えられると、対比モデルは、画像がキャプションとどれだけ一致するかに基づいてスコアを割り当てます。図2は、上位k枚の画像を選択するサンプル数Nを増やした場合の効果を示しています。

図2 MS-COCOのキャプションに対するコントラスト・再ランク化手順の画像数増加の効果

このプロセスは、一種の言語誘導型検索と見なすことができ、先行研究で提案される補助的なテキストと画像のマッチング損失にも似ています。

(結果)テキストの忠実な再現に成功

結果、先行研究と比較してよりテキストに忠実で、リアリティの高い画像を生成することに成功しました。

定量的な結果
先行する3つのアプローチ(AttnGAN、DM-GAN、DF-GAN)と比較することで、モデルをゼロショットで評価します。最高のInception Score(IS)とFréchet Inception Distance(FID) を報告しています。図3は、Adityaらのモデルのサンプルと先行研究のサンプルを定性的に比較したものです。

図3 MS-COCOのキャプションに対するモデルの出力と先行研究からのサンプルの比較

また、DF-GANと比較するために、人の評価による検証を行いました(図4)。キャプションが与えられたとき、Adityaらのモデルのサンプルは、93%の確率でキャプションと一致するという評価を得ました。また、90%の確率で、より現実的であるという評価を得ました。

図4 MS-COCOのキャプションについて、本モデルとDF-GANを人間が評価した結果

図5(a)は,Adityaらのモデルがキャプションに対して一度もトレーニングをしていないにもかかわらず、MS-COCOにおけるFIDスコアが先行研究の最良のアプローチから2ポイント以内に収まっていることを示しています。
トレーニングデータには、YFCC100Mのフィルタリングされたサブセットが含まれており、その中には約21%の画像が含まれていることがわかりました。これは次のセクションで説明する重複排除の手順によるものです。この効果を分離するために、これらの画像を含む検証セット(実線)と含まない検証セット(破線)のFID統計量を計算したところ、結果に大きな変化は見られませんでした。

図5 MS-COCO と CUBの定量的な結果
(a) ブラー半径関数としてのMS-COCOにおけるFIDとIS
(b) ブラー半径関数としてのCUBにおけるFIDとIS
(c) 再ランク化に使用するサンプルサイズの関数としてのMS-COCOにおけるFIDとIS

このように、dVAEエンコーダのトークンを用いて変換器を学習することで、画像を視覚的に認識できるようにする低周波情報に変換器のモデリング能力を割り当てることができます。しかし、高圧縮のために高周波の詳細情報が得られないというデメリットがあります。
このことが定量的な評価にどのように影響するかを調べるために、検証画像とモデルからのサンプルの両方に半径の異なるガウスフィルタを適用して、図5(a)のFIDとISを計算しました。Adityaらのアプローチは、半径1のわずかなぼかしで、約6ポイントのマージンで最良のFIDを達成しています。また、ぼかし半径が2以上のときに最も高いISを得ることができました。

CUBデータセットでは、Adityaらのモデルと先行研究のアプローチとの間で、FIDに40ポイント近くの差がありました(図5(b))。このデータセットでは、12%の画像がオーバーラップしていましたが、これらの画像を除去しても結果に大きな違いは見られませんでした。これは、CUBのような特殊な分布では、Adityaらのゼロショット・アプローチは、比較しにくいのではないかと推測してされています。

最後に、図5(c)は、コントラストモデルを用いた再ランク化に使用するサンプルサイズが大きくなるにつれて、MS-COCOのFIDとISが明らかに改善していることを示しています。

定性的な結果
Adityaらのモデルでは、当初想定していなかった方法で一般化する能力があることがわかりました。「アコーディオンでできたバク」というキャプションが与えられると、モデルは体がアコーディオンになっているバクを描いたり、鍵盤やベースがバクの体幹や脚の形になっているアコーディオンを描いたりします(図6(a))。これは、抽象度の高い珍しい概念を構成する初歩的な能力を身につけていることを意味します。

図6 テキストから画像を生成した結果

また、このモデルは、組み合わせによる一般化も可能なようです。例えば、「クリスマスセーターを着たハリネズミの赤ちゃんが犬を散歩させているイラスト」といった文章を入力する場合(図6(b))などです。ここでは、モデルは変数の結合を行う必要があります。クリスマスセーターを着ているのは犬ではなくハリネズミですが、モデルはこのタスクで一貫性のないパフォーマンスをしており、2匹ともクリスマスセーターを着ていたり、ハリネズミが小さいハリネズミを連れて歩いていたりすることがあります。

限定的な信頼性ではありますが、Adityaらのモデルは、自然言語で制御可能なゼロショットの画像間翻訳が可能であることもわかりました(図6(d))。このモデルは、「上の猫と下のスケッチが全く同じ」というキャプションと、猫の画像を与えられると、下側に同じような見た目の猫のスケッチを描くことができます。

本研究ではテキストから画像への生成のためのシンプルなアプローチを、スケールアップして実行しました。その結果、これまでの特定分野に特化したアプローチと比較して、ゼロショット性能と単一の生成モデルから得られる画像の範囲の両方において、大規模化によって一般化が向上することがわかりました。

研究紹介は以上です。

テキストから画像を生成できるようになれば、ネットサーフィンで時間をかけて欲しい画像を見つける手間が省けるようになる、ということも実現しそうですね。

関連記事▶︎GANによるイラスト生成が「工程の一部」レベルで実現【AI×エンタメ】(論文解説)

業界/カテゴリー

PAGE TOP