意味から言葉を理解できるか。Microsoft Concept Graphとは(AI×ウェブ)【論文】

   

(Featured AI) Try to understand the human language from the semantic concept! Construction and use of Microsoft Concept Graph (Publication)

[論文] L. Ji , Y. Wang, B. Shi, D. Zhang, Z. Wang and J. Yan, “Microsoft Concept Graph: Mining Semantic Concepts for Short Text Understanding”. Data Intelligence, 1, 3 (2019).

[DOI: 10.1162/dint_a_00013]

3つの要点

✔️本論文では、意味概念のマイニングを利用して文章を容易に理解できるようにする、Microsoft Concept Graphというナレッジグラフエンジンを紹介している。

✔️Microsoft Concept GraphはProbaseと呼ばれる分類法に基づいて構築され、16億8,000万のWebページから270万の概念を抽出する。

✔️さらに、概念化モデルを使用して、トピック検索や広告の関連性など、テキスト関連のアプリケーションを強化する。

概説

ナレッジはテキスト関連のアプリケーションにとって重要である。
このホワイトペーパーでは、概念タグ付けAPIを提供して人間の言語の理解を容易にするナレッジグラフエンジン、Microsoft Concept Graphを紹介する。
Microsoft Concept Graphは、Webからマイニングされたインスタンスと概念からなる普遍的な確率的分類法であるProbaseに基づいて構築されている。
まず、反復的な意味抽出と分類構築手順による知識グラフの構築を紹介する。
これにより、16億8,000万のWebページから270万の概念が抽出される。
次に、概念化モデルを使用して概念空間内のテキストを表現し、トピック検索、クエリの推奨、Webテーブルの理解、広告の関連性などのテキスト関連のアプリケーションを強化する。
2016年のリリース以来、Microsoft Concept Graphは64か国以上の50,000人の訪問者から10万人以上のページビュー、200万件のAPI呼び出し、3,000件の登録ダウンロードを受けている。
なお、Microsoft Concept Graphは https://concept.research.microsoft.com/ からダウンロードできる。

フレームワークの概要。
ナレッジ構築層、概念化層、アプリケーション層の3層からなる。
型付き用語共起ネットワークの圧縮手順
短文は長文に比べ、文脈や統計から意味を理解することが難しい。しかし正確に理解するには意味的知識が必要であり、そのための新しいサブグラフ(型付き用語共起グラフ)を追加した。元の型付き用語の共起ネットワークを圧縮・置換することで、ネットワーク上の計算の効率を向上させることができる。
短文の理解の例。
テキストのセグメンテーション、タイプの検出、概念のラベリングの3つのステップでテキストを理解していく。
Probaseブラウザのスナップショット。
Microsoft Concept Graphにおける概念の分布
Microsoft Concept Graphのコア分類には、540万を超える概念が含まれている。
先行研究と比較した短文理解の精度。

著者

Lei Ji (Microsoft Research Asia, Haidian District, Beijing 100080, China / Institute of Computing Technology, Chinese Academy of Sciences, Haidian District, Beijing 100049, China)
email: leiji@microsoft.com

Yujing Wang (Microsoft Research Asia, Haidian District, Beijing 100080, China)

Botian Shi (Beijing Institute of Technology, Haidian District, Beijing 100081, China)

Dawei Zhang (MIX Labs, Haidian District, Beijing 100080, China)

Zhongyuan Wang (Meituan NLP Center, Chaoyang District, Beijing 100020, China)

Jun Yan (AI Lab of Yiducloud Inc., Huayuan North Road, Haidian District, Beijing 100089, China)

出版情報

Received: November 20, 2018 / Accepted: February 19, 2019 / Published: May 23, 2019

Open Access Data Intelligence is Open Access. All content is freely available in electronic format (Full text HTML, PDF, and PDF Plus) to readers across the globe. All articles are published under a CC BY 4.0 license. For more information on allowed uses, please view the CC license.

業界ごとに記事を読む

PAGE TOP
0
Would love your thoughts, please comment.x
()
x