【Facebook AI】2人競技における選手の動きをAIでシミュレーション(AI×スポーツ論文解説)

   
↓はてなブックマークで応援お願いします!
このエントリーをはてなブックマークに追加

バーチャル・アスリートを作れ

多くの競技スポーツでは、長時間の試合中で時折「決定的な瞬間」が現れます。そのプレーが競技の結果を左右することが多く、観客はそのような瞬間を待ち望み、応援しています。
選手の動作を自動的に生成し、それらを組み合わせて試合の戦略を練ることができるバーチャルアスリートを作ることができれば、コンピュータゲームやコマーシャルフィルム、スポーツ中継など、さまざまな用途に応用することができます。

しかし、日常的なプレーも得点の瞬間も、競技者間の相互作用が複雑であるため、アニメーションキャラクターで再現することは困難です。複数の人が登場するアニメーションシーンを作るには、各人が自然に振る舞うだけでなく、相互作用が時間的にも空間的にも同期して自然に見えることが求められます。

スポーツにおけるアニメーション生成の課題において、実際にどのような研究が行われているのでしょうか。Facebook AI ReserchのJUNGDAM WONら研究者の発表を紹介します。

研究者らは、深層強化学習を用いて、アスリートの物理シミュレーションソフトを開発することを試みました。

▼論文情報

著者:JUNGDAM WON, DEEPAK GOPINATH, JESSICA HODGINS
タイトル:”Control Strategies for Physically Simulated Characters Performing Two-player Competitive Sports”

URL:DOI

2選手競技の物理シミュレーション生成

まずはJUNGDAM WONらの研究におけるミッション・手法・結果をまとめました。

✔️ミッション
アスリートの物理シミュレーションを生成する。

✔️解決手法
深層学習手法により選手の動きを制御するフレームワークを開発する。

✔️結果
ボクシングとフェンシングの2つの競技において、戦術的な行動と自然な行動の両方をシミュレーションで生成することに成功した。

ミッションから説明していきます。

関連記事▶︎ボクシング・パンチを機械学習 AIによるトレーニングコーチの仕事【AI×スポーツ】(論文解説)

(目的)複数人の相互作用を考慮したシミュレーション生成

スポーツのシミュレーションは、選手間の相互作用の密度が高ければ高いほど、動作の間に「リセット」する時間がないため、難しくなります。物理的にシミュレートされたキャラクターを使用すると、衝突などの低レベルの物理的相互作用が自動的に生成されるため、問題の一部が単純化されます。しかし、ジャブやパンチ、などのさまざまなスキルの調整や、カウンターやプレッシャーファイトなどの試合レベルの戦略については、競技全体を構成する一連のスキルを学習することが計算上複雑であるため、あまり深く研究されていません。
シミュレーションされたキャラクターを競技スポーツに利用する際の重要な課題は、基本的なスキルと試合レベルの戦略の両方を、適切に機能するように学習する必要があることです。
近年、深層強化学習技術は、物理的にシミュレートされたヒューマノイドに対して、移動や操作などの一般的な行動だけでなく、自転車の乗り方や体操などの難解な行動に対するコントローラや制御ポリシーを作成する上で有望な結果を示しています。しかし、これらの行動の多くは1つのキャラクタを対象としたものであり、人物間の相互採用を必要とする行動については現在深く研究されていません。

(手法)深層学習手法を用いた2段階の学習によるシミュレーション生成

WONらは、深層学習によりまず人の動きを模倣するように学習を行い、次にそれを競技環境に適応した動きへに変換するという2段階のアプローチによってシミュレーションの生成を行いました。

フレームワークでは、2人で対戦するスポーツの一連のモーションデータを入力とし、物理的にシミュレートされたプレイヤー制御方針を生成します。この制御方針により、選手は試合に勝つために必要な一連の基本スキルを適切な動きとタイミングで実行することができます。図1にこのフレームワークの概要を示しています。

図1 システムの概要

まず、対戦相手がいない状態で行われるモーションクリップを収集します。次に、シングルエージェントの深層強化学習を用いて、モーションに対する単一の模倣方針を学習します。最後に、マルチエージェント深層強化学習によって各プレイヤーが自分の方針を強化し、競争的な報酬を得ることで、模倣方針をプレイヤーのための競争方針に変換します。模倣政策から競争政策への移行を効果的に行うために、タスクエンコーダーとモーターデコーダーから構成される新しい方針モデルを用いています。

実行環境

ボクシングとフェンシングの2つの競技環境を例に、2人のプレイヤーが試合に勝つことを目指して対戦する環境を作成しました(図2)。

図2 学習した制御方針を使用したボクシングやフェンシングようなスポーツを行う2人のキャラクター

ボクシングは闘技場の大きさは5m×5mで、プレイヤーはグローブで相手の上半身を殴ることしかできません。1ラウンドの時間は60秒で、相手に最も多くのダメージを与えたプレイヤーが勝利します。
フェンシング環境では、右手の先に溶接ジョイント付きの刃を取り付けました。闘技場の大きさは12m×2mで、プレイヤーは刃で相手の胴体にしか触れることができません。先に相手に触れたプレイヤーが試合に勝利しますが、最初のタッチが発生してから1秒以内に反撃に成功すると、試合は引き分けになります。両環境におけるプレイヤーの制御は、目標姿勢(すなわち目標関節角度のセット)を用いて行い、安定したPDコントローラが根元の関節を除くすべての関節の関節トルクを計算します。

手法

1. 転送可能な方針構造

WONの環境では、デフォルトのアクションは、51次元のベクトルとして表現される目標姿勢です。このような高次元空間において、予備知識のないランダム探索で制御ポリシーをゼロから学習すると、物理的にはリアルであるにもかかわらず、不自然な動作になりがちです。このような結果は、報酬関数が過小評価されている場合に特に起こりやすいです。モーションキャプチャデータを導入して、シミュレーションされたキャラクターの動作とデータを比較することで、学習するのに十分な報酬を利用することができます。しかし、マルチエージェント環境にモーションキャプチャデータを導入するにあたり、未解決の課題があります。まず、複数のアクターで高品質なモーションキャプチャデータを収集することは、単一のアクターからデータを収集するよりもはるかに困難です。特に、複数のアクター間で情報量の多い相互作用が必要な場合、物理的な動作の重なりや動きの微妙な違いにより、正確なキャプチャーが困難になります。また、2人のアクターを含めると、キャプチャしなければならないものの規模が大きくなります。
このフレームワークでは、まず個別にキャプチャされたモーションを用いて単一の模倣ポリシーを構築し、次にそのポリシーをプレイヤーのための2つの競合ポリシーに移行するという2段階のアプローチを採用しています。

図3は効率的な伝達学習のために用いるポリシー構造を示したもので、時刻𝑡におけるプレイヤーo𝑡 = (b𝑡, g𝑡)の観測状態は、身体状態b𝑡とタスク固有の状態g𝑡で構成されています。

図3 伝達可能なポリシーモデル

この構造は、モーターデコーダとタスクエンコーダで構成されています。モーターデコーダには、各エキスパートが身体状態のみを入力とする𝑁エキスパートのプールが含まれます。モータデコーダの出力は、エキスパートe𝑡 = (e1𝑡, e2𝑡, – – , e𝑁𝑡)からの出力のセットです。タスクエンコーダは観測された状態全体を入力として受け取り、エキスパートの重み 𝝎𝑡 = (𝜔1𝑡, 𝜔2𝑡, – – , 𝜔𝑁𝑡) を生成します。平均行動𝝁𝑡は加重和𝝁𝑡 = Σ𝑁𝑖=1 𝜔ˆ𝑖𝑡e𝑖𝑡によって計算されます。平均と共分散がそれぞれ𝝁𝑡とΣであるガウス分布から行動a𝑡を確率的にサンプリングします。模倣方針を競争方針に移行する際には、模倣方針のモータデコーダのみが再利用されます。このモーターデコーダと、入力次元が入力された競技スポーツ環境に一致する新しいタスクエンコーダによって、図1に示すような各プレイヤーの新しいポリシーが構成されます。

2. 事前学習の様子 : 模倣方針

基本的なボクシングの技を模倣できる方針を学習するために、まずCMU Motion Capture Databaseからボクシングのモーションクリップ群を使用しました。使用したデータは約90秒で、10-30秒の間にそれぞれ4つのモーションクリップを用意しました。WONらはこのデータを、個々のスキルに切り分けたり、フェーズなどの手動ラベルを使用するなどの余計な後処理をせずに使用しました。代わりに、模倣報酬を用いた深層強化学習(RL)を用いて、単一の模倣方針を学習します。身体状態はb𝑡 = (p, q, v, w)であり、p,q,v,wはそれぞれ全ての関節の位置、向き、直線速度、角速度であり、シミュレートされたプレイヤーの現在の向き変換を基準にして表現されます。
タスク固有の状態 g𝑡 = (b𝑟𝑒 𝑓𝑡+1, b𝑟𝑒 𝑓𝑡+2, – – – ) は、現在の参照モーションから抽出された未来の身体状態のシーケンスを含んでいます。

3. 転送 : 競争政策

競争力のある方針を作成するために、タスクエンコーダを入力次元がボクシング環境と一致する新しいタスクエンコーダに置き換え、モーターデコーダをそのまま再利用します。結果として、モータデコーダを再利用することは、行動空間が模倣タスクから構築されたエキスパートの重み付けされた組み合わせであることを意味し、全姿勢空間と比較して、入力モーションに存在する姿勢を含む大幅に縮小された空間となります。
新しい方針のコピーが最初に各プレイヤーに割り当てられ、その後、マルチエージェントの深層強化学習によってそれらのポリシーが洗練されていきます。ボクシングにおける2人のプレイヤーのゴールは同じなので、同じ定式化を用いてモデル化することができます。
また、下記いずれかの条件が成立した場合には、現在のエピソードを終了させます。今回のボクシングの例では、「fall」と「stuck」という2つの条件を使用しています。fallでは、足以外の体の一部が地面に触れたかどうかをチェックします。このペナルティは、学習の初期段階(戦術が出てくる前)でバランスを保つための学習や、相手の打撃から回復するために役立ちます。stuckは、実際のボクシングの試合で、2人の選手がお互いに腕を掴んでいたり、片方の選手がロープに捕まって自分の身を守ることしかできなかったりすると、ジャッジが試合を中断して再スタートさせるところからヒントを得ています。プレイヤー間の距離が0.4m以下の状態が5秒以上続いた場合に第一の状況を、一方のプレイヤーがロープの近くに位置している状態が5秒以上続いた場合に第二の状況を検出します。

4. 学習

エンコーダとデコーダを持つ事前学習済みの方針を新しいタスクに移植する場合、2つの一般的なアプローチがあります。
1つは、エンコーダのみを学習し、デコーダは固定する方法(Enc-only)、もう1つは、エンド・ツー・エンドで構造全体を更新する方法(Enc-Dec-e2e)である。どちらのアプローチにも長所と短所があります。どちらのアプローチも、新しいタスクが以前のタスクと同じか類似している場合には同じような結果を示しますが、新しいタスクが元のタスクとは全く異なる場合には、Enc-Dec-e2eの方がより速く、より良い適応と収束を示します。
例えばボクシングの環境では、シングルエージェントの設定で、対戦相手との相互作用がないモーションクリップを真似することで、モーターデコーダを事前にトレーニングします。しかし、競争政策では、攻撃に耐えたり、相手を殴ったりするような能力を学習する必要があります。そのためには、ほぼすべてのシナリオを網羅したモーションキャプチャデータを用いて事前学習を行わなければならないので、Enc-onlyだけでは競争環境における高度な戦術を学習するには不十分です。
Enc-onlyは、モーターデコーダが全く変化しないため、忘却問題(事前に学習した方針が元のタスクに対する能力を簡単に忘れてしまい、新しいタスクにのみ適応すること)に対してより頑健です。忘却問題は、新しいタスクでのパフォーマンスだけを考慮する場合には問題になりませんが、プレイヤーの人間らしいモーションを生成する場合には、モーションキャプチャーデータで学習した元のモーターデコーダからの大きな乖離により、モーターデコーダが自然なモーションを生成できなくなるという状況に陥りやすいため、問題となります。この課題を解決するために、伝達学習の初期段階ではEnc-onlyを行い、その後はEnc-Dec-e2eとEnc-onlyを交互に行うようにします。

関連記事▶︎機械学習でサッカー賭博。試合結果を高精度予測!(AI×スポーツ)【論文】

(結果)自然なシミュレーションの生成に成功

結果、戦術的な行動と自然な行動の両方のシミュレーション生成に成功しました。

1. 競争方針

ボクシングとフェンシングの環境で競争方針を学習します。図4は、2人のボクサーが戦っている様子を表しています。

図4 2人のボクサーの戦いの例

ボクサーは、相手が遠くにいるときは軽いステップで移動し、少し遠い距離では軽いジャブを使って相手を牽制します。相手が完全にリーチ内にいる場合、ボクサーは相手の攻撃をブロックしたり避けたりしながら、繰り返しパンチを繰り出します。また、コーナーに追い込まれた場合は、ロープを使って逆転を狙うこともあります。これらの例は、オリジナルのモーションのスタイルを維持しながら、ボクシング環境に適した戦術を学習することに成功したことを示しています。
図12は、フェンシングのモーションの例を示しており、各行は異なる試合結果を示しています。

図5 フェンシング3試合の例

実際の人間の試合と同様に、試合は通常5秒以内に終了します。我々の実験では、一方のフェンサーは通常、攻撃的な戦術を学び、他方のフェンサーはその場に留まり防御的にプレイすることを学びます。アクションにはガウスノイズが含まれているため、試合の結果は試合ごとに変わります。

2. 学習曲線

競争型マルチエージェントRL環境では、シングルエージェントRLや協調型マルチエージェントRL環境のように、学習が単調に進行することはありません。同様の現象は敵対的生成ネットワークGAN)の学習でも観察されます。学習プロセス全体を動かしているのは、マッチ報酬であり、これはゼロサムゲームの性質を持っています。

図6 平均リターンの学習曲線

図6aは、ボクシング環境における平均的なリターンの学習曲線を示しています。学習プロセスは、その場に立つことの学習(ステージ1)、意図しない衝突が起こる間の徘徊(ステージ2)、パンチの開発(ステージ3)、ブロックと回避の開発(ステージ4)、ステージ3とステージ4の間の繰り返しの変動(ステージ5)という5つのステージで説明することができます。フェンシング環境でも、第5段階の揺らぎが少ないことを除けば、同様に学習中の5つの段階を示しています(図6b)。二人のゼロサムゲームの場合、双方のプレイヤーが後悔最小化の行動をとることを収束といいます(相手が自分の利益を最大化するとき、プレイヤーは損失を最小化しようとする)。今回の実験では、ステージ5で報酬がゼロ付近になったときに、方針が収束すると判断しています。

3. 評価

3.1. 学習手順

手法の4節で述べたように、人間らしい動作を生成する方針を構築するためには、タスクエンコーダとモータデコーダの学習手順が重要です。タスクエンコーダを先に更新し、構造全体を後から更新するという学習手順を、2つの代替方法と比較しました。Enc-onlyとEnc-Dec-e2eという2つの方法を、ボクシング環境を用いて比較しました(図7)。

図7 他の学習手順

Enc-onlyでは、プレイヤーの動きは入力の動きと似ていますが、プレイヤーは相手に正確にヒットすることができず、相手からのわずかな摂動で倒れてしまっています。Enc-Dec-e2eでは、プレイヤーは試合中に報酬をうまく集めることができますが、生成されたモーションは不自然です。例えば、相手に強打されたときにバランスを崩さないように極端な姿勢をとったり、強打される確率を低くするために体を傾けすぎたりしています。また、生成された動作と入力された動作とのミスマッチは、タスクエンコーダの出力によって定量的に確認することができます。WONらの手法は、入力モーションのスタイルを維持しつつ、もっともらしい戦術的な行動を実現します。

3.2 報酬

補助的な報酬項が結果にどのような影響を与えるかを理解するために、ボクシング環境のclose、facing、energyの3つの補助的な項についてアブレーション研究を行いました(図8)。

図8 報酬のアブレーション検証

close項を無視した場合、ボクサーは身体的相互作用に関するまばらな信号しか得られず、競争方針が最適ではない行動に収束してしまうことがわかりました。ボクサーはお互いに離れた後、近い位置に戻ることが困難でした。
faceingの項を排除したところ、実際のボクシングの試合では起こらない、相手の背後からのパンチを試みることがありました。
最後に、energy項を使わずに学習した場合、コントロールポリシーはより攻撃的な行動を示した。これは、相手との距離に関係なく、無差別にパンチを繰り出すためです。
WONらのフレームワークでは、入力モーションのスタイルが模倣方針のモーターデコーダに組み込まれており、これが最終的に競合方針によって生成される出力モーションのスタイルを決定します。新しいモーションスタイルへの適応をテストするために、ボクシング環境とは無関係のモーションで新しいモーターデコーダを学習し、そのモーターデコーダに基づいて新しい競争方針を学習しました。ここでは、アクターがゴリラの行動を真似るような、数歩歩いたり腕を振ったりするモーションを用いました。図9は、この新しいモーションスタイルが、競争方針にうまく組み込まれたことを示しています。

図9 新しいモーションのスタイル

興味深いのは、ボクシングのモーションで学習したポリシーと比較すると、新しい競争方針は効率が悪いように見えることです。これは、入力された動作が競技環境との関連性が低い(つまり、ボクシング環境はもともとボクシング動作用に設計されている)ことが、ポリシーの最終的な性能に影響を与えているのではないかと考えられます。

本論文では、物理的にシミュレートされたヒューマノイドが2人対戦ゲームを行う際の制御ポリシーを作成する技術を探求しています。本研究では、まず模倣ポリシーを学習し、次にそれを競技ポリシーに変換するという2段階のアプローチを提案しました。
WONらの手法では、競争政策のための創発的な行動を生成することができますが、生成されたモーションの自然さは、入力された参照モーションの質に依存します。例えばボクシングでは、プロの選手は試合中に非常に機敏な動きを見せますが、シミュレーションした選手は比較的ゆっくりとした動きになります。これは、今回の実験で使用した入力モーションが、プロのボクサーではない、限られたトレーニングしか受けていないボクサーから取得したものであることが主な原因であると考えられています。

本研究では限定的な結果しか得られませんでしたが、将来の研究の有望な道筋を示す結果ではあると考えられています。

研究紹介は以上です。

2人の人間がスポーツを行うシミュレーションを生成する最初の研究が、今後性能を向上させ、さまざまな領域で新技術として脚光を浴びることを期待したいですね。

関連記事▶︎選手の「動き」ディープラーニングで自動追跡(AI×スポーツ)【論文】

業界/カテゴリー

PAGE TOP