「YouTubeのコメントを複数の手法で分析」現場にコミットする機械学習ノート【vol.18】

   

こんにちは。エンジニアライターの小原です。

連載「現場にコミットする機械学習ノート」では、論文を詳しく読み解きながら、現場で使えるAI実装のヒントを記録していきたいと思います。

前回の記事では、「AIで噴火を検出」を扱いました。

今回は、アイルランドの
School of Computing, Dublin Business School,のS. R. Shahらが2020年3月に発表した「YouTubeのコメントを複数の手法で分析」に関する論文を扱っていきます。

もくじ
1章 多言語で構成されるデータの課題
2章 複数のベクトル化手法、アルゴリズムでコメントデータを分析し性能比較する
2.1 研究目的
2.2 研究手法
2.3 研究結果

■前回の記事:【vol.17】 AIで噴火を検出

1章
多言語で構成されるデータの課題

YouTubeは人々に様々なトピックについてのコンテンツを提供し、楽しませてます。YouTubeデータの分析を行うことはYouTubeで成功する上では大切なのではないでしょうか?
そんな中、YouTube Indiaは現在、数百万人のアクティブユーザーを抱えています。インドには数百万人のYouTubeアクティブユーザーがいることから、YouTubeのデータは膨大なものになります。

インドは非常に多様な国であるため、多くの人々が多言語を話します。人々は2つ以上の言語を混ぜ合わせるコードミックス形式で自分の意見を表現するのです。インドのコードミックス言語のデータはあまり研究されていないため、コードミックス言語に対して分析を行うことが求められています。

そこでアイルランドのS. R. Shahらは、3つのベクトル化方法と複数のアルゴリズムでYouTubeのコメントデータを分析することを試みました。

2章
複数のベクトル化手法、アルゴリズムでコメントデータを分析し性能比較する

まずはS. R. Shahらの研究におけるミッション・手法・結果をまとめます。

続きを読むには無料会員登録が必要です。


※ログイン/初回登録後、下記ボタンを押してください。

業界ごとに記事を読む

さらに学ぼう!

PAGE TOP