「Wikipedia上にある3700万の画像とテキスト」データセットがAI訓練用に公開！【論文】

★AIDB会員限定Discordを開設いたしました！ログインの上、マイページをご覧ください。

★企業と人材のマッチングサービスを準備中です。アンケートのご協力をお願いいたします！↓

データの良さはAIの良さにつながる。

深層学習(DL)の飛躍的な成長によって、自然言語処理分野に大きな進歩をもたらしました。現在、画像キャプション生成やマルチモーダル学習（様々な種類の入力情報を利用するAI）の分野でもDLは用いられています。これらDLのモデルにおいて、重要なのは大規模なデータセットを活用して学習を行うことです。

モデルの有効性はデータのサイズや品質と関連しています。データセットのサイズに対してパフォーマンスが対数的に増大することが分かっているため、データのサイズはとても重要です。また、対象となる言語の数もとても重要です。多言語のデータセットを使うことで、公正な研究を行うことが可能になります。

AIDBの全記事が読み放題のプレミアム会員登録はこちらから↓

データセットの規模や対象となる言語の数が少ないという問題点に対して、実際にはどのようなデータセットが作られたのでしょうか。Googleに所属しているKrishna Srinivasanら研究者の発表を紹介します。

結論として研究者らは、Wikipediaのデータを使うことで、データセットの作成を行いました。

まずはKrishna Srinivasanらの研究におけるミッション・手法・結果をまとめました。

本記事を読むにはAIDBのアカウントが必要です。

※ログイン/初回登録後、下記ボタンを押してください。

■サポートのお願い

AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。