【DeepMind】強化学習を産業ロボットに応用するための秘策(AI×製造)

   
↓はてなブックマークで応援お願いします!
このエントリーをはてなブックマークに追加

不十分な産業ロボットの自動化性能

深層学習が登場して以来、学習ベースの手法を用いて産業における各種のタスクを解決することへの関心が高まっています。現在、深層学習を用いた産業界の課題としては、知覚の問題が大きい「掴む動作」と、接触による制御とマルチモーダルなフィードバックを重視した「挿入する動作」の2つが主流となっています。

しかし、強化学習(RL)システムは、複雑で学習時間が長いという欠点があるため、産業用ロボットへの採用は難しいとされています。その結果、少量生産の分野では、ロボットによる自動化のメリットを享受することができません。

強化学習を産業ロボットに適用させるという課題に対して、実際にどんな研究が行われているのでしょうか。DeepMind社のOleg Sushkovら研究者の発表を紹介します。

研究者らは、産業ロボット用の強化学習アルゴリズムを新たに開発することで、高性能な産業ロボットの開発を試みました。

▼論文情報

著者:Jianlan Luo, Wenzhao Lian, Ning Ye, Oleg Sushkov , Chang Su, Stefan Schaal, Rugile Pevceviciute, Mel Vecerik, Jon Scholz
タイトル:”Robust Multi-Modal Policies for Industrial Assembly via Reinforcement Learning and Demonstrations: A Large-Scale Study”

URL:DOI

産業ロボットの自動化

まずはOlegらの研究におけるミッション・手法・結果をまとめました。

✔️ミッション
頑強な産業用ロボットを開発する。

✔️解決手法
新たな深層強化学習のシステムを構築する。

✔️結果
人間に匹敵する精度でロボットにタスクをこなさせることに成功した。

ミッションから説明していきます。

(目的)従来の産業界ベンチマークを超えるシステムの開発

深層強化学習(DRL)は、ほとんど、あるいは全く追加のエンジニアリングを必要とせずに、自律的にトレーニングできる可能性を秘めています。しかし、DRLの手法は業界で受け入れられる基準にまで高まっていません。また、業界で受け入れられるベンチマークに対して体系的な評価もされていません。
これまでの試みは、タスクの定義、アクションスペース、コネクタの種類、センサーの観測などで大きく異なっていました。幸いなことに、最近導入されたNISTアセンブリベンチマークは、外部で定義された代表的な産業用アセンブリタスクのセットを提供し、明確に定義された測定基準を提供します。

Olegらは、既存の産業用ロボットのベンチマークやそれ以上の指標で、DRL手法を体系的に評価することを目指しています。この目的のために、図1に示すように、NISTのアセンブリボードにおける3つの代表的なコネクタへの挿入タスクを考えます。

図1 NISTのロボティック・チャレンジ・ボードのセットアップ
(a)コネクタを挿入するロボット (b)代表的な3つのコネクタ

これらのタスクでは、産業用コネクタ(USBなど)を対応するソケットに挿入することが目標となっています。
学習された行動方針の一般化能力をテストするために、以前に学習された方針を使って、微調整なしで新しい位置と方向でコネクタの挿入を実行させました。これらのタスクでは、以下の3つの異なる入力モダリティを用いてエージェントを学習させました。
・ロボットからの自己感知情報
・自己感知情報と手首の力/トルク測定
・自己感知情報、手首の力/トルク測定、手首のカメラ画像

また、図2と図3に示すように、さらに難易度の高い2つのタスクに取り組みました。

図2 移動するHDMIコネクタへの挿入タスク
図3 鍵挿入タスク

1つ目のタスクでは、ランダムな軌道に沿って移動する別のロボットが持つソケットに、HDMIコネクタを挿入するための方針をロボットに学習させます。このタスクでは、エージェントは、ターゲットの移動に確実に合わせることだけでなく、人間と同じくらい速度も求められました。
2つ目のタスクでは、視覚情報が得られない状況でのキーロックの挿入を考えます。このタスクは、同じ入力モダリティを使用するNISTのボード上のタスクとは異なり、より困難です。
1) 錠前と鍵はより繊細なハードウェアであり、タスクを完了するためにはより繊細な力による動作が必要です。2) 鍵の開始位置はランダムです。この場合、エージェントは、センサーの測定値を最大限に利用して、表面上の鍵穴の位置を探索することを学習しなければなりません。

(手法)人間による調整を含む新手法の考案

Olegらは、ロボットの行動方針を学習させる新たな手法を提案しました。

Olegらが提案するフレームワークは、図4に示すように、以下のように説明されます。

図4 手法の概要
(1)テレポーテーションによる人間のデモデータ収集する(2)ロボットは最新のスナップショットから現在の方針を実行する(3)人間は必要に応じて方針の修正を行う(4)改良されたDDPGfDエージェント:SHIELDを非同期でトレーニングする

– 最初の人間のデモンストレーションを収集し、再生バッファに保存する。
– (オプション)デモのデータセットで視覚的特徴を訓練する。
– より多くのデータを収集するために,現在の方針を実行する。
– 必要に応じて,人間のオペレータが方針の修正を行う。
– (オプション) 学習カリキュラムの追加。
– アクターネットワークとクリティックネットワークは、データ収集とは非同期に学習されます。

A. デモによる強化学習
RLの手法は、報酬信号が鍵となります。本論文で紹介するような、接触を伴う高精度な操作のタスクでは、成功のために、細かい動作を連続して行う必要があります。報酬関数を整形してRLエージェントを誘導するには、必要な状態情報を抽出するために多くの工学的努力が必要となります。この問題を軽減するには、人間のデモンストレーションを取り入れるのが自然な方法です。デモンストレータは、図4のようにリモートガイドデバイスを用いて意図を表現することができます。これは、エージェントに課題に対する可能な解決策を示す直感的な方法であり、合理的な初期方針を起動させることができます。

B. 相対座標とゴールの無作為化
特定の絶対座標位置にフィットしすぎないように、エージェントが新しい場所に一般化できるメカニズムを導入します。代わりに、ロボットのリセットポーズをタスクの「原点」として扱い、関連するすべての自己受容情報をその原点に対して表現します。
エージェントの視点から見ると、これはゴールを物理的に動かすことと同じですが、ロボット以外の機械的な装置は必要ありません。このパラメータ化の便利な点は、ポーズの分布を細かく制御できることです。

C. 学習済みの視覚的特徴
先に述べたように、Olegらの目標は産業界のユースケースで実現可能な時間幅でで行動を制御する方針を訓練することです。先行研究では、ピクセルから直接USB挿入の方針を学習できることを実証しましたが、80%の性能に達するまでに8時間も要していました。Olegらは報酬から画像の特徴を学習する代わりに、教師なしの学習目的を用いて視覚的特徴を事前に学習する手法で取り組んでいます。
データセットを収集するために、リモートティーチングデバイスを使用して、ロボットを作業空間内で走行させ、デモンストレーションデータセットを補完するためのカメラ画像を収集しました。これらの画像が必要なのは、デモデータは通常、最適に近い方針で見られる状態空間の一部しかカバーしていないため、この分布の外で実行すると貧弱な特徴になってしまうからです。これは、人間がラベル付けした報酬信号をVAEの特徴に回帰させる場合に特に問題となります。

D. マルチモーダル・ポリシー
図5に示すように、RLエージェントは4つの異なる入力モダリティの下で訓練とテストを行います。

図5 各方針への異なるモダリティの入力

図5(a)では、エージェントはロボットアームの自己受容センサのみを使用しています。図5(b)では、自己感知情報に加えて、手首の力/トルクセンサを追加しています。図5(c)、(d)では、事前に学習した視覚的特徴を利用しています。

(結果)人間と遜色のない精度を達成

結果、これまでのベンチマークを超え、人間の精度と変わらない精度で学習を行うことができました。

3つのタスクの実験結果を記します。
1つ目はNISTの基板挿入タスクで、図4のように最初の3つの入力モダリティを用いて評価します。
2つ目は移動するターゲットのHDMI挿入で、最後の入力モダリティを用いて評価します。
3つ目に、視覚情報を使わず、長距離の探索を行うキーロック挿入の結果です。

A. NISTの基板挿入結果
1) 実験のセットアップ
実験のセットアップを図1に示します。各コネクタに対して、3つの異なる観測モダリティを用いて方針を学習します。
・自己受容情報のみ
・自己受容情報+手首の力/トルク
・自己受容情報+手首の力/トルク+視覚情報
学習した各方針について、初期姿勢に摂動ノイズを加えた状態で、学習した場所での成功率を評価します。次に、メスコネクターを、Z軸に沿って元の向きから45度離れた新しい場所に移動させ、成功率を評価します。視覚情報に基づく方針の一般化の度合いを評価するために、図6のように、人が手動でNISTボードを動かしているときに、エージェントが挿入を行いました。

図6 動的な挿入タスクの説明図

2)ベースライン
公平で説得力のある比較を行うために、2つの独立したロボットソリューションベンダーに依頼し、同じNISTボード課題に取り組んでもらいました。彼らの結果をベースラインとしています。

3)結果
ベンダーは、解決方法を設計し、各コネクタータイプのパラメータを微調整するために、かなりの時間と労力が費やされます。Olegらの手法ははるかに汎用性が高く、成功率をほぼ100%に保ちながら、摂動範囲はベンダーの解決方法を大きく上回っています。表1は、異なる試験条件での各コネクターの結果を示しています。

表1 3つの異なるコネクタに対する異なる入力モダリティの結果

合計で13096回の試行を行い、99.8%の成功率を達成しました。これは、Olegらの手法がロバストで信頼性の高いものであることを示しています。

4) 動的挿入
視覚情報ベースの方針をより厳しい条件でテストします。エージェントは、図6のように、人が手動でNISTボードを動かしている間に挿入を行う必要があります。結果として、50回の試行のうち95%以上の成功率で、このような非常に困難な課題を解決することができました。

B. 移動するHDMIへの挿入
ここまでは、手法のロバスト性を評価してきましたが、産業用ロボットにおいては、もう一つの重要な指標としてサイクルタイムがあります。この実験では、エージェントに動的なソケット挿入を可能な限り高速に行わせることで、サイクルタイムを評価します。
1) 実験のセットアップ
この実験では、動的に動くソケットにHDMIプラグを挿入します。ソケットは、ロボットアームに取り付けることで動かします。
HDMIソケットは7自由度のアームに固定され、プラグは7自由度のロボットのフランジに固定されています。各試行の開始時に、ソケットの開始位置はランダムに設定されます。試行の間、ソケットは挿入方向に垂直な平面内をランダムな円運動で移動します。

2)エージェントの結果
RLエージェントは12時間かけてタスクのトレーニングを行い、再生バッファは25の成功したデモの軌跡で初期化されました。トレーニングの最後に、タスクのランダム化とエージェントの行動空間を最大に設定して評価試行を行いました。結果、1637の試行における挿入成功率は100%であり、平均挿入時間は1093msでした。

3)人間の結果
RLエージェントの性能を人間と比較しました。各試行の開始時に、参加者は目を閉じて、ソケットの平均的な開始位置から約15cm離れたところに手を置くように指示されます。ソケットを持つロボットはランダムな位置にリセットされます。試行の開始を示すビープ音の後、被験者は目を開けて、動いているソケットにプラグを挿入します。
2人の被験者が合計33回の挿入を試みた結果、挿入成功率は100%で、平均挿入時間は1041msでした。
これらの実験結果は、RLエージェントの信頼性と挿入時間が、人間と同等であることを示しています。

C. キーロック挿入
この実験では、プラグとソケットとして、一般的な家庭用の金属製鍵を使用しています。この実験の目的は、RLエージェントが、表面積やクリアランスの小さい物体の挿入を学習できること、長距離の探索方針を学習できることを実証することです。
1) 実験のセットアップ
この実験は、RL制御されたロボットで鍵を錠に挿入するというものです。鍵は7自由度のロボットのエンドエフェクタに取り付けられ、鍵はセルに固定されています。
各エピソードの開始時には、ロボットの初期位置がランダム化されます。鍵は常に錠前から5cm離れていますが、x, y軸の位置はランダムにサンプリングされます(z軸は鍵と一致します)。
2)結果
結果は表IIにまとめられており,異なる最大開始ポーズオフセットを与えられたRLエージェントの成功率を測定しています。

表2 鍵の挿入結果

ランダム化の列は、エピソードの開始時にサンプリングできるX/Y軸の最大オフセットを示します。
これらの結果から、SHIELDエージェントは、表面積が小さい物体に対する挿入ポリシーや、長距離の探索ポリシーを学習できることがわかりました。


産業環境におけるロバストなロボット操作方針を学習するためのフレームワークが提案されました。Olegらは、産業用ロボット操作ベンチマークであるNIST boardにおいて、我々のアプローチの性能を体系的に評価しました。
今回の結果から得られた重要なポイントは2つあります。

– NISTの基板組み立て課題は、現在市販されているロボットシステムインテグレーターで解決できる課題の1つです。しかし、これらの解決策では、半制約のある環境が必要であり、似たようなタスクであっても、個々のタスクごとに追加のエンジニアリング作業が必要になります。本アプローチは、デモンストレーションとトレーニング時間のランダム化を利用することで、これらの問題を軽減します。
– Olegらの手法は、産業用ロボットの新しい用途を開拓できることも示しています。これにより、ロボットは、制約のない製造環境や、自動化レベルが低い産業に参入することができます。

研究紹介は以上です。

この研究を皮切りに、学習ベースのロボット操作が産業用ロボットに適用されるようになるといいですね。


関連記事


業界/カテゴリー

PAGE TOP