【DeepMind】ウィキペディアから生み出される脅威の知識データセット（AI論文解説）

2021/8/14
論文
中村隼太

★AIDB会員限定Discordを開設いたしました！ログインの上、マイページをご覧ください。

★企業と人材のマッチングサービスを準備中です。アンケートのご協力をお願いいたします！↓

ナレッジグラフのスーパーパワー

異なるソースからのデータをペアにした並列データセットにより、クロスモダリティ学習に関する研究が可能になりました。画像とキャプションが対になったデータセットは、画像を自然言語で表現するモデルを可能にし、音声と転写データの対になったセットは、音声認識システムや音声合成モデルの学習を可能にしています。

このような複雑なデータを扱うために、ナレッジグラフ（KG）を用いた新しいデータセットが注目されています。これにより、関連するトピックのグラフ構造のからテキストを生成するモデルや、テキストからグラフを抽出・生成するモデルを構築することができます。このような学習するためのデータセットを構築しようとする先行研究は数多くあります。しかし、既存のグラフとテキストのペアデータセットは、ほとんどが小規模なものです。

AIDBの全記事が読み放題のプレミアム会員登録はこちらから↓

ナレッジグラフを用いてより複雑なタスクに対応できるデータセットを作成する課題において、実際にどんな研究が行われているのでしょうか。DeepMind社のLuyu Wangら研究者の発表を紹介します。

研究者らは、ウィキペディアの記事と関連するナレッジグラフを組み合わせることで、データセットの構築を試みました。

▼論文情報

著者：Luyu Wang, Yujia Li, Ozlem Aslan, Oriol Vinyals
タイトル：”WikiGraphs: A Wikipedia – Knowledge Graph Paired Dataset”
Proceedings of the Fifteenth Workshop on Graph-Based Methods for Natural Language Processing (TextGraphs-15),67–82
URL：DOI

複雑な自然言語処理データセットの作成

まずはLuyu Wangらの研究におけるミッション・手法・結果をまとめました。

本記事を読むにはAIDBのアカウントが必要です。

※ログイン/初回登録後、下記ボタンを押してください。

■サポートのお願い

AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。

中村隼太

投稿者の過去記事

【OpenAI】ロボットハンドとAIでルービックキューブを解く理由（論文解説）

AppleはいかにしてAIで「写真」アプリを進化させているのか（AI論文解説）

AIDB