【Google】AIで「Q&A」技術またレベルアップ

★AIDB会員限定Discordを開設いたしました！ログインの上、マイページをご覧ください。

★企業と人材のマッチングサービスを準備中です。アンケートのご協力をお願いいたします！↓

Googleの研究者は、”Colossal Clean Crawled Corpus（直訳：「巨大でキレイな腹這いコーパス*」）”という名前の新しいデータセットと、”Text-to-Text Transformer”と呼ばれる統合フレームワークとモデルを開発しました。

コーパス：自然言語処理に用いる、自然言語の文章を構造化し大規模に集積したもの。

研究者によると、これは今までで最大のモデルの１つで、「質疑応答（Q&A）」、「テキスト分類」で最高の結果を達成しました。

AIDBの全記事が読み放題のプレミアム会員登録はこちらから↓

毎月20テラバイトの英語をWebから

一般に、「NLP（自然言語処理）タスクを実行する」ようにモデルをトレーニングするには、モデルがテキストを「理解」できるようにする知識、つまり低レベルから高レベルまでの知識を入力する必要があります。
研究者チームは、テキストを入力として、新しいテキストを出力し、

目的
トレーニング手順
デコードプロセス

をすべてのタスクに適用するアプローチを検討しました。

このプロジェクトでは、毎月約20テラバイトの英語テキストをWebから抽出しました。「無意味なメニュー」「エラーメッセージ」「重複があるページ」を削除する際には、ターミナルの句読点で終わるテキスト行のみを保持したりしました。
結果として、「従来のデータセット」よりも桁違いに大きい750 GB程度のデータセットが出来あがりました。

Googleの研究チームは、「テキストからテキストへのアプローチ」の有効性を評価しました。
特に、”Text-to-Text Transformer”は、GoogleのAI研究部門であるGoogle Brainの科学者が共同執筆した2017年の論文で紹介された新しいタイプのニューラルアーキテクチャです。
アーキテクチャはすべてディープニューラルネットワークです。すべての出力要素がすべての入力要素に接続されますが、それらの間の重みが効果的に計算されるように、独自の工夫が施されています。

110億個のパラメーター

本記事を読むにはAIDBのアカウントが必要です。

※ログイン/初回登録後、下記ボタンを押してください。

■サポートのお願い

AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。

【Amazon】4000万ドルを投じてロボット研究所を開設

【解説】AIプロジェクトに必須「ビッグデータ」評価軸10個

AIDB