新しい単語でも特徴検出!?自然言語処理の新手法【AI論文】

✔️Bag of Wordsの抱える「情報の不十分さ」「次元の高さ」「ベクトルの希薄さ」という問題を解決

✔️特徴重み付けしたTF-IDFとLDAモデルをWord2Vecと組み合わせた

✔️ベクトル空間の表現可能性が増加した

中国にある東北師範大学のWanting Zhouら研究者は、自然言語処理における特徴量エンジニアリングに新手法を導入した。

以下、研究の詳細を見てみよう。

従来の特徴抽出法

テキスト表現は自然言語処理の分野の中で、特に重要なタスクのひとつである。これまで多く採用されてきた特徴抽出と重みづけ手法においては、bag-of-words(BoW)モデルが主流だったが、BoWはテキストの意味情報が少ないこと、そして次元が高すぎるのにも関わらず、それぞれの次元におけるの情報が希薄であるという問題があった。

特徴単語ベクトル(FW)モデルとトピック可能性単語ベクトルモデル(PW)の基本的アイディア

ディープラーニングで重み付け

現在は、これらの問題を解決するためにディープラーニングを用いることが人気である。本論文では、特徴の重み付け(feature weighting)、単語のベクトル表現(word embedding)、そしてトピックモデルを組み合わせたモデルを教師なしテキスト表現手法として提唱し、それを”the feature, probability, and word embedding method”と命名した。この核となる考え方は、単語のベクトル表現を得るための技術として知られるWord2Vecを利用し、それを特徴重み付けしたTF-IDFとトピックとなるLDAモデルに組み合わせることである。

特徴可能性単語ベクトル(FPW)と、特徴単語ベクトル(FW)と、トピック可能性単語ベクトル(PW)接続(FPC)モデル

従来のモデルと比較

従来の特徴量エンジニアリングと比較すると、提唱したモデルはベクトル空間の表現可能性を増加させるだけでなく、文書ベクトルの次元を減らすことに成功した。これに加えて、BoWの抱える情報の不十分さや、次元の高さ、ベクトルの希薄さという問題を解決するためにも利用できる可能性がある。

参照論文

W. Zhou, H. Wang ,H. Sun and T. Sun, “A Method of Short Text Representation Based on the Feature Probability Embedded Vector”, Sensors, 19(17), 3728, (2019).

DOI

Translating

PAGE TOP