【DeepMind】ウィキペディアから生み出される脅威の知識データセット(AI論文解説)

   
↓はてなブックマークで応援お願いします!
このエントリーをはてなブックマークに追加

ナレッジグラフのスーパーパワー

異なるソースからのデータをペアにした並列データセットにより、クロスモダリティ学習に関する研究が可能になりました。画像とキャプションが対になったデータセットは、画像を自然言語で表現するモデルを可能にし、音声と転写データの対になったセットは、音声認識システムや音声合成モデルの学習を可能にしています。

このような複雑なデータを扱うために、ナレッジグラフ(KG)を用いた新しいデータセットが注目されています。これにより、関連するトピックのグラフ構造のからテキストを生成するモデルや、テキストからグラフを抽出・生成するモデルを構築することができます。このような学習するためのデータセットを構築しようとする先行研究は数多くあります。しかし、既存のグラフとテキストのペアデータセットは、ほとんどが小規模なものです。

ナレッジグラフを用いてより複雑なタスクに対応できるデータセットを作成する課題において、実際にどんな研究が行われているのでしょうか。DeepMind社のLuyu Wangら研究者の発表を紹介します。

研究者らは、ウィキペディアの記事と関連するナレッジグラフを組み合わせることで、データセットの構築を試みました。

▼論文情報

著者:Luyu Wang, Yujia Li, Ozlem Aslan, Oriol Vinyals
タイトル:”WikiGraphs: A Wikipedia – Knowledge Graph Paired Dataset”
Proceedings of the Fifteenth Workshop on Graph-Based Methods for Natural Language Processing (TextGraphs-15),67–82
URL:DOI

複雑な自然言語処理データセットの作成

まずはLuyu Wangらの研究におけるミッション・手法・結果をまとめました。

✔️ミッション
文章作成の研究で用いることのできる新しいデータセットの構築。

✔️解決手法
Wikipediaの記事とナレッジグラフを組み合わせる。

✔️結果
既存のデータセットを用いた学習を超える精度を達成した。

ミッションから説明していきます。

従来より大きなグラフとテキストのペア

ナレッジグラフとは、一般に「インターネット上で収集される様々な情報を用いて検索エンジンの検索結果を拡張するために使用されるデータベース」のことを言い、Googleなどが利用しています。

Wangらは、最先端のテキスト生成モデル、グラフ表現学習モデル、さらにはテキスト条件付きグラフ生成モデルを進化させるために、ナレッジグラフを用いた大きなデータセットの構築に取り組みました。

テキストとナレッジグラフを使用

Wangらは、既存の確立されたナレッジベースであるFreebaseを利用し、そこから各Wikipedia記事に関連するサブグラフを抽出する自動プロセスを設計しました。

データの特性
Wangらが提案するWikiGraphsデータセットの基本的な統計を表1に示します。また、グラフとテキストのペアの図解を図1に示します。

表1 WikiGraphの基礎情報

図1 データセットに含まれるWikipediaの記事と、それに対応するナレッジグラフのペア

すべての記事はWikiText-103データセットからのもので、データ収集時にはWikipedia編集者がの「Good」または「Featured」の基準に合致する高品質な記事を用いています。
Wangらは各記事を、エンティティノードを中心としたFreebaseのサブグラフとペアにすることを試みました。
このセットでモデルを学習すると、テストセットで評価したときに、完全なWikiText-103データセットでの学習に非常に近い結果が得られました。したがって、WikiGraphsのテキスト部分は、最先端のテキスト生成モデルを再現し、ベンチマークを行うのに十分であると考えられます。

ノードとエッジ
Wangらのデータセットのグラフには、エンティティと文字列の2種類のノードが含まれています。各エンティティは、ns/m.0f9q9zのような一意のFreebaseIDでラベル付けされ、各文字列は、例えばエンティティの名前、日付、説明などの自然言語テキストを含んでいます。また、グラフの各エッジには、ns/common.topic.descriptionなどのエッジラベルが付けられており、どのタイプのエッジであるかが示されています。データセットには、全部で522種類のエッジが含まれています。
すべてのグラフには必ず1つのエンティティノード(「センターノード」と呼ぶ)があり、特別なエッジキー/wikipedia.enを介して対になるWikipedia記事へのリンクを持ちます。

データセット構築プロセス
データセット構築のプロセスを設計する際には、3つの原則に従います。
1. データのテキスト部分は、最先端のテキスト生成モデルの能力に匹敵する複雑さでなければならない。
2. グラフ部分のデータは、自動化されたスケーラブルな方法で構築する。
3.データのグラフ部分は、ペアとなるテキストデータに関連するものであること。
Wangらのプロセスは汎用的であり、あらゆるWikipedia記事のセットに適用できます。
各ウィキペディア記事を、既存の大規模KG Freebaseの関連するサブグラフにマッピングすることを試みます。大きなKGの中から記事に関連するサブグラフを見つけることは容易ではありません。このプロセスには、マッピング、拡張、フィルタリングの3つの段階があります。

マッピング 
プロセスの第1段階では、各記事を、処理済みのFreebase KGのエンティティにマッピングします。これは、以下のようなFreebaseの3つの文字列によって可能になります。

ns/g.11b6jbqpt4 key/wikipedia.en ”Madunnella”

ns/g.11b6jbqpt4はKG内のエンティティを指します。key/wikipedia.enはエッジのタイプであり、このエンティティがWikipediaの記事にリンクされていることを示します。”Madunnella “はその記事のタイトルです。
ウィキペディアの記事からタイトルを文字列照合によって抽出します。タイトルは「= [タイトル] =」パターンで囲まれています。このステップで、WikiText-103の記事タイトル28,475件のうち24,345件(85.5 %)を、KGのエンティティにマッピングすることができました。

展開 
マッピングされた各エンティティをサブグラフの中心ノードとして扱い、フィルタリングされたFreebaseグラフ全体を展開して、中心エンティティに最も関連性のあるすべての隣接エンティティを含めます。次に、このグラフからさらに拡大して、選択したエンティティを文字列属性に接続するすべての関係と、これらのエンティティ自体の間の関係を含めます。なお、1ホップ隣接エンティティ間のエッジがあるため、各記事に関連するコンパクトなグラフが得られます。

フィルタリング 
データセット構築の最後の段階では、データのフィルタリングとクリーンアップを行います。Freebaseでは、以下のように、1つのエンティティが異なる文字列属性を指す同じタイプの複数のリレーションを持つことが一般的です。

ns/m.07c72 key/wikipedia.en ”The SImpsons”
ns/m.07c72 key/wikipedia.en ”The Simpson”
ns/m.07c72 key/wikipedia.en ”The simsons”
ns/m.07c72 key/wikipedia.en ”Thr Simpsons”
ns/m.07c72 key/wikipedia.en ”The Simpson’s”

このデータが多くの冗長であることは明らかです。このような中で、最も「正統」なものを選ぶことで、1つのエッジに減らしました。これは、文字列のコレクションに含まれる文字にユニグラムモデルを当てはめ、そのモデルを使って最も可能性の高い文字列を選ぶことで選択しました。
また、グラフのサイズに基づいてフィルタリングを行い、グラフの最大サイズを256、512、1024ノードに制限した3種類のデータを作成しました。本論文の残りの部分の統計と結果はすべて、最大サイズが256のグラフに基づいていますが、すべてのバージョンのデータがオンラインで利用可能です。

既存のデータセットを超える精度の達成

結果、既存の最先端のモデルを凌駕する精度を達成するデータセットの構築に成功しました。

Wangらは、テキストとグラフの情報を言語モデルの中でどのように組み合わせることができるかを紹介するために、「グラフ→テキスト生成」、「テキスト→グラフ検索」、「グラフ→テキスト検索」の3つのタスクに関する実験を行いました。

ここでは、グラフ構造を符号化するための3つの異なるアプローチが検討されました。
・Bag-of-words (BoW):グラフノードとエッジの両方から、すべてのトークンの単一のbag-of-words表現を構築します。グラフ内のエンティティIDと数値は、特別なトークンである<entity>と<number>に置き換えられます。
ノードのみ(Nodes):各ノードに対して別々のBoW表現を構築し、それぞれを埋め込みに射影し、エッジを無視します。
グラフニューラルネットワーク(GNN):ノードとエッジの両方についてBoW表現を埋め込み、それらの埋め込みの上にグラフニューラルネットワークを使用して、ノードの埋め込みの新しいセットを計算します。

グラフ→テキスト生成
最初の課題は、グラフを条件としたテキスト生成です。モデルの性能は
(1)出力されたテキストに対するモデルのパープレキシティを計算し、
(2)モデルからサンプルを抽出し、それをグランドトゥルースのテキスト記事と比較することで評価します。BLEUスコアを用いて、生成されたサンプルとグランドトゥルースの類似性を測定します。
スコアを計算する際に基準とサンプルを単純に入れ替えたものをReverse-BLEU(rBLEU)と呼び、この指標を結果の測定に用います。

表2では、無条件モデル、BoWモデル、Nodes-onlyモデル、GNNモデルのパープレキシティとrBLEUスコアを示しています。

表2 グラフ→テキスト生成の結果

参考までに、Wikitext-103トレーニングセットで学習した標準的なモデルは、オリジナルのテスト記事の71.7%を含むテストセットで25.08 perplexityに達しています。このデータセットで学習した無条件モデル(テキストのみのモデル)は、全データセットで学習した場合とほぼ同様の性能を得ることができます。これは、Wangらのデータセットが、最先端のテキスト生成モデルの良いベンチマークになり得ることを示す証拠です。
また、グラフを条件とした場合、モデルのパープレキシティは向上しませんでしたが、BLEUスコアで測定したサンプルの関連性は大幅に向上しました。これは、グラフを条件としたモデルは、確かに言語モデルをより関連性の高いトピックに導くことができる一方、今のところ尤度指標を改善するには至っていないことを示しています。
また、テキストのみのモデルとの評価をより公平にするために、記事のタイトルで生成を促すことで、テキストのみのモデルにも何らかのコンテキストを持たせるようにしました。この設定では、グラフモデルの方がまだ優れており、構造をモデル化することの重要性を示しています。
3つのグラフモデルのバリエーションの中で、ノードモデルからの埋め込みセットを使用することは、BoWモデルからの単一の埋め込みを使用するよりも優れており、GNNモデルによってグラフ構造を完全に利用することは、ノードモデルのようにエッジを無視するよりも一貫して優れていることがわかりました。

グラフ→テキスト検索
このタスクでは、与えられたクエリグラフに対して、関連するテキストを検索する可能性を評価する。テストセットに含まれる全ての記事と全てのグラフをペアにして、43×43=1849のペアを作成します。そして、学習したグラフ条件付き言語モデルを用いて、各ペアのトークンごとの尤度を算出し、この尤度スコアを用いて、各グラフのテキスト記事をランク付けします。学習されたモデルは、正しいペアを間違ったペアよりも上位にランク付けできることが期待されます。結果を測定するために,正しいペアが上位K個の予測に含まれる割合を計算するrecall@Kや,平均平均精度(mAP)などの標準的なランキング指標を使用しました。
表3に示す結果では、グラフ条件付きモデルは、無条件モデルよりも確かにグラフからより多くの関連テキストを検索することができ、その中でもGNNベースのモデルが最も優れた性能を発揮し、無条件モデルはランダムな推測に近い性能を発揮することがわかります。

表3 グラフ→テキスト検索の結果

テキスト→グラフ検索
テキストのクエリを与えたときのグラフ検索の性能を評価します。グラフ→テキスト検索と全く同じ設定とスコアを使用しますが、代わりに、各テキスト記事のグラフを尤度スコアを用いてランク付けします。その結果を表4に示します。グラフがテキスト記事よりもはるかに識別しやすいため非常に高い精度が得られていると考えられます。すべてのグラフ条件付きモデルはほぼ完璧に動作し、GNNモデルは再び他のモデルよりも優れているとわかります。

表4 テキスト→グラフ検索の結果

これまでの類似データセットと比較して、グラフの大きさとテキストの長さが格段に大きい、グラフとテキストのペアデータセット「WikiGraphs」が完成しました。このデータのテキスト部分は、最先端のテキスト生成モデルの良いベンチマークとなります。また、このペアデータセットは、グラフ構造を条件として長くてまとまったテキストを生成することができるモデルのベンチマークにもなります。

研究紹介は以上です。

DeepMind社のWikiGraphにより、自然言語処理の研究がより一層加速しそうですね。


関連記事


業界/カテゴリー

PAGE TOP