DeepMindの新しいAI『MuZero』は、ルールをゼロから学んで極める。/研究者公認の解説記事【AI×エンタメ】（論文）

★AIDB会員限定Discordを開設いたしました！ログインの上、マイページをご覧ください。

★企業と人材のマッチングサービスを準備中です。アンケートのご協力をお願いいたします！↓

この記事は、DeepMindの研究者でありこの記事で解説する論文の著者であるJulian Schrittwieserに事前に論文使用の許可をとりました。なんと内容のチェックまでしてもらえた上に「素晴らしいし、読みやすいね」とコメントをいただきました！ありがとうございます！

DeepMind発の強化学習アルゴリズム

2016年、AlphaGoが囲碁でプロ棋士を倒しました。その2年後に登場したAlphaZeroはルールのみから自己学習し、難解な3つのゲーム（囲碁、チェス、将棋）で人間を超えました。ただし、目覚ましい成功を収めたのは古典的なゲームだけではありません。これらの先読み探索に基づく計画アルゴリズムは、物流や化学などの実世界にも大きな影響を与えてきました。

しかし、実世界を構成する環境は複雑で未知であることばかりです。先読み探索ではゲームのルールや正確なシミュレータなどの環境のダイナミクスの知識に依存しているため、実世界の領域に直接適応できません。そこで環境に関する知識を必要とせず、複雑な領域においても活用できる手法が必要となっていました。

AIDBの全記事が読み放題のプレミアム会員登録はこちらから↓

ダイナミクスに関する知識を必要としない強化学習アルゴリズムの開発という課題において、実際にどんな研究が行われているのでしょうか。Googleの子会社であるDeepMindのJulian Schrittwieser、Thomas Hubertら研究者の発表を紹介しましょう。

研究者らは、AlphaZeroのPolicy networkおよびValue networkを継承した新しいモデルベース強化学習の「MuZero」を構築し、囲碁・チェス・将棋に加えて難易度の高いAtariのゲームにおいて最先端の性能を実現しました。

エージェントの意思決定に重要なことだけを学習させる

まずはJulian、Thomasらの研究におけるミッション・手法・結果をまとめました。

本記事を読むにはAIDBのアカウントが必要です。

※ログイン/初回登録後、下記ボタンを押してください。

■サポートのお願い

AIDBを便利だと思っていただけた方に、任意の金額でサポートしていただけますと幸いです。

MonaCat

投稿者の過去記事

修士2年 (M2)．機械学習と自然言語処理の研究をしています．

2020年の1年間に公開されたシャープ株式会社のAI関連特許が色々オモシロイのでまとめてみた。

「重みの初期値は０にしないこと。なぜ？」AIクイズ応用編【第15問】

AIDB