「Wikipedia上にある3700万の画像とテキスト」データセットがAI訓練用に公開!【論文】

   

データの良さはAIの良さにつながる。

深層学習(DL)の飛躍的な成長によって、自然言語処理分野に大きな進歩をもたらしました。現在、画像キャプション生成やマルチモーダル学習(様々な種類の入力情報を利用するAI)の分野でもDLは用いられています。これらDLのモデルにおいて、重要なのは大規模なデータセットを活用して学習を行うことです。

モデルの有効性はデータのサイズや品質と関連しています。データセットのサイズに対してパフォーマンスが対数的に増大することが分かっているため、データのサイズはとても重要です。また、対象となる言語の数もとても重要です。多言語のデータセットを使うことで、公正な研究を行うことが可能になります。

データセットの規模や対象となる言語の数が少ないという問題点に対して、実際にはどのようなデータセットが作られたのでしょうか。Googleに所属しているKrishna Srinivasanら研究者の発表を紹介します。

結論として研究者らは、Wikipediaのデータを使うことで、データセットの作成を行いました。

Wikipediaを用いたデータセットの作成

まずはKrishna Srinivasanらの研究におけるミッション・手法・結果をまとめました。

続きを読むには無料会員登録が必要です。


※ログイン/初回登録後、下記ボタンを押してください。

↓はてなブックマークで応援お願いします!
このエントリーをはてなブックマークに追加

業界/カテゴリー

PAGE TOP
0
Would love your thoughts, please comment.x
()
x