「論文を実装する」AI教師データの作り方講座

   

論文を読んで終わりにするのはもったいない

機械学習系の論文を読む動機としては、主に以下の3つが挙げられると思います。

  • 研究トレンドが知りたい。
  • 課題に対してのアプローチや、結果の期待値が知りたい。
  • 関連する研究を知っておきたい。

このような動機は、原著の論文をそのまま読み込んだり、アイブンで要点や関連研究をまとめて読むことで達成されます。

実装コード付き論文の紹介はこちら

実装に向けて

しかし、「論文の内容を実装したい」と身を乗り出したときには、教師データの準備につまずいてしまう場面もあることでしょう。

そこで今回は、教師データ作成サービスを手掛けるLionbridgeとのスペシャルコラボ企画として、「論文実装における、教師データの作り方講座」を開きます!

↓はてなブックマークで応援お願いします!
このエントリーをはてなブックマークに追加

アイブンで過去に紹介した論文を3つ例にとって、Lionbridgeにプロフェッショナルな教師データ作成ノウハウを特別に公開していただきました!

今回は、身近で公開データも多い「SNSの感情分析」について。

※下記は、Lionbridgeの寄稿記事となっております!

例1:サービス満足度をSNSから分析

参照する論文記事: 国民の隠れた本音をミエル化できるか。医療満足度をSNSから分析(AI×医療)【論文】

SNSデータを分析する目的とは?

医療サービスへの国民の満足度を知ることを目的とした研究報告がされて話題となっています(上記参照記事)。
しかし他にも、下記を例としてSNS分析は使われています。

  • 株価予測
  • 政治家の支持率
  • 企業の新商品
  • デザイン、スポーツ試合への反応

投機目的の市場予測や、マーケティングの一環として有用な手段と言えるでしょう。

ビジネスでの事例

Lionbridgeでは、ソフトウェア開発に取り組むお客様のために、アラビア語の政治に関するツイートの感情アノテーションの実績があります。

また、株価予測モデルを開発するお客様のために、1万件のニュース記事の見出しに感情及び固有表現アノテーションを提供しました。

データセットをどう作成するか

以下の4つの手段が存在します。

1- APIにアクセス

利用規約などに注意しましょう!条件として、研究のためであればデータ利用の承認をもらえるところもあるので、利用契約は必ず読むようにしてください。

例として、Twitter APIの利用規約を一部紹介します。

…お客様は非営利の内部目的(たとえば、サービスの機能を改善するため)にのみ以下の情報を使用できます。Twitterアプリケーションの応答性。Twitter APIのパフォーマンスの分析、使用、またはパフォーマンスに関する結果、使用統計、データ、またはその他の情報(全体またはその他)。… Developer Agreementより

2- 公開データセットを使用

Twitter日本語評判分析データセットYouTube 8Mなど、ウェブで公開されているSNSのデータセットもあります。Kaggleだけでなく、Stanford Large Dataset Network CollectionNetwork Repository など、SNSのデータに特化したデータセットサイトも存在します。

公開データセットは勉強目当てで機械学習を触って見るには便利ですが、実際にビジネス用で導入されるモデルを構築される場合はご注意ください。公開データセットは恐らく、貴社のニーズに完全一致ではありませんので、他の方法もご検討ください。データを整理されましたら、公開データセットでも一部利用できる場合もあります。

3- 社内で眠っているデータを活用

企業システムでもSNSのようなデータが存在することもあります。お客様からのお問い合わせ履歴、企業ブログ、Slackなどの社内コミュニケーションなどがございましたら、それを活用し、業務効率化にも繋がるかもしれません。

例えば、株式会社メルカリでは社員同士のメッセージを分析し、問題点を自動的に識別し、サポートを強化する機能を構築されました。

4- データ収集代行サービスを使用

プロフェッショナルに依頼するなら、Lionbridge AIへどうぞ!お客様のモデルの目標や課題に最適化された教師データを提供し、研究開発を支援しています。世界の各タイムゾーンを渡る、100万人のコントリビューターが登録されており、大規模なAIプロジェクトも素早く仕上げることができます。AIプロジェクトでお悩みでしたら、ぜひご相談ください。

Tips!

  • SNSサイトのデータマイニングを行う場合、非公開アカウントの投稿は含まれないので、データの偏りに注意しましょう。
  • 日本で多く使われているSNSのはTwitter、Facebook、Instagramなどです。海外では Quora、reddit(掲示板)も人気です。
  • 感情分析をするテーマについて投稿されているSNSコミュニティを探し出すのがポイントです。

例えば、野球試合の観戦者の反応を分析するプロジェクトに取り組む場合、まずは「阪神タイガーズ」「試合」などのキーワードをtwitter の検索バーに入力しようと思いつくかもしれません。しかし、特定のキーワードを使わずに、野球試合について投稿されていた人たちを見落としてしまい、データが偏りやすくなってしまいます。

twitterやfacebookで野球好きのコミュニティを見つけたほうが、バイヤスのないデータセットを作成しやすいくなります。ファンアカウントとそれのフォロワー、facebookグループ、などから探し、メンバーの投稿を感情分析します。

SNSデータのアノテーションについて

アノテーションとは、あるデータに対して、関連する情報を付与することです。

SNS投稿に対してのアノテーションでは、

  • ポジティブ
  • ネガティブ
  • ニュートラル(どちらでもない)

の3段階でアノテーションをつけるのが一般的です。
さらに、より細かく、

  • 喜び
  • 悲しみ
  • 怒り

など具体的な喜怒哀楽を示すラベル付けを行うことも有効です。

アノテーションの注意点

  • ニュアンスや皮肉などに注意しましょう。
  • 感情アノテーションは主に主観的なタスクなので、多数のアノテーターに仕事を振り分ける場合は、いくつかの注意点があります。
  1. ガイドラインを明確にし、わかりやすい例も出してください。
  2. 特に外注する場合は、最初に一部のアノテーションを確認してから、残りのプロジェクトを依頼したほうが、最後に大きな誤解が発見された、などという状況を避けられます。
  3. プロジェクトに求めている精度によっては、アノテーター同士で二重確認を行ってもらいましょう。
  4. ターゲットを想定し、アノテーター層もそれに合わせ、年齢/性別/学歴などの分布を検討してみてください。

SNSデータ解析の会社紹介

先述したように、SNSデータを分析することで、マーケティングのための顧客インサイト抽出が可能なケースが多いです。そんなミッションを掲げている企業が、国内のAIQという企業です。海外では、Linkfluenceというグローバル企業の評価をSNSデータ解析を通して行っている企業があります。

例2:対訳データで機械翻訳の精度を向上

参照する論文記事: 英語以外のマイナー言語が正確に機械翻訳される未来は来るか

公開データセットの紹介

対訳データセットで公開されているものは、日本語対訳データ国連翻訳テキスト、などがあります。また、翻訳サービスのパートナー会社Gengoは機械翻訳向け対訳コーパスを提供しています。

機械翻訳の精度を向上させるには

機械翻訳は、基本的に対訳コーパスが教師データとなりますので、他の自然言語処理を使ったシステム開発に必要となるPOSタグや固有表現抽出アノテーションなどは使われなくなりました。

その変わり、モデルの検証が重要となります。言語は常に変化しており、人間の話し方は変わり続けています。方言や新しい若者言葉なども含め、定期的なドリフト検証が必要となります。

AI機械翻訳の会社紹介

・「みらい翻訳」は多言語機械翻訳及び音声翻訳サービスを提供しています。ビジネス文書や文化観光業界など、専門分野に特化した翻訳サービスもあります。

・「株式会社ロゼッタ」は専門分野に特化した機械翻訳の開発に取り組んでいます。日常会話などに使われる一般の言語モデルから専門分野への転移学習によって、より高精度な機械翻訳モデルを構築されています。専門分野とは医療など技術的なものに限らず、転移学習は映画レビューやニュース記事の翻訳精度を上げるためにも効果的です。

・海外では、「DeepL翻訳」という、最先端のニューラルネットワーク技術を駆使して開発された、超高性能な翻訳システムも目立っています。日本語を含む11言語に対応可能です。

例3: 機械学習で収穫量を予測

参照する論文記事:  1ヶ月前から収穫量を知ることはAIに可能か(AI×農業)

https://aiboom.net/archives/18556

公開データセットの紹介

農業データセットで公開されているものは、Pesticide use in agriclutlure(農業の使用量)Plant seedlings dataset(苗木データセット)などがあります。

画像データのアノテーションについて

画像アノテーションには様々な種類がありますが、農業データに対してはバウンディングボックスとセマンティックセグメンテーションが使いやすいと考えられます。

ご自身でアノテーションを付与する場合は、 Incubit、LabelImg、Labelbox、などのツールが存在します。

また、アノテーション作業の外注を検討されている場合は、Lionbridge AI にお気軽にご相談ください。Lionbridgeに登録されている100万人のコントリビューターが、自社開発ツールでアノテーションを付与いたします。

Lionbridge自社開発の画像アノテーションプラットフォーム

機械学習による収穫予測をサポートする会社紹介

産業用リモートセンシングサービスの「Skymatix」は、AIによるドローン計測や葉色解析に取り組んでいます。

更に、画像認識技術を強みとしている「Incubit」は、トマトの収穫作業を自動化する技術を開発されています。教師データとなる作物の画像を収集し、実、枝、蔕などの部分をアノテーションし、モデルを学習させました。正確に実を認識できるようになった上で、実から何cm上の部分を切り取って収穫する、などといった作業がディープラーニングによって可能となりました。

著者プロフィール

AI事業部長
Cedric Wagrez(セドリック・ヴァグレ)

フランス出身。開発ツールの会社(インフラジスティックス)、オンラインプラットフォーム(Gree)、受託開発の会社を含めて、日本のIT企業で15年以上の経歴を持つ元エンジニア・プロジェクトマネージャー。2016年よりオペレーション部長として株式会社Gengoへ参画し、2018年にはGengoがLionbridgeの子会社化。現在はLionbridgeの日本AI事業部長に就任。海外顧客との取引経験が豊富で、日本にもベストプラクティスの知識や、革新的なAI導入の支援をすることに関心を持っている。

Lionbridge AI について

AI教師データの作成やアノテーションサービスを提供し、研究開発を支援しております。300言語のネイティブ話者である、100万人のコントリビューターが登録されているので、大規模な機械学習プロジェクトも素早く仕上げることができます。詳細は https://lionbridge.ai/ja/ をご覧ください。

応用のために文献とデータ両輪を

目の前の課題は、既にどこかの機関で試された場合も多いです。それらは論文の形で発表されていれば、ケーススタディとして十分参考にすることができます。また論文は「想像していなかった素晴らしいアイデア」を見つけるヒントにもなります。しかし、実際応用を行おうと思った時には、現場に則したデータの調達が不可欠になります。そんなとき、この記事で紹介したようなノウハウの活用を検討してみてください。

ビジネス上の課題解決のご相談や、これからデータサイエンス・AIの世界で技術を行っていきたい人材の悩み相談は随時受け付けております。お気軽にご連絡ください。

業界ごとに記事を読む

PAGE TOP