ロボットと人間のコミュニケーションを通じた「シンボルグラウンディング」に成功【AI×ロボット】(論文解説)

   
↓はてなブックマークで応援お願いします!
このエントリーをはてなブックマークに追加

自然言語理解の壁

人間が自然言語でロボットとコミュニケーションできるようにするには、言葉と概念のつながりが必要です。これらの繋がりを作成するプロセスはシンボルグラウンディングと呼ばれ、30年近く研究されてきました。

グラウンディングに関する研究が多く行われていますが、類義語などの言葉の曖昧さを考慮したものは少ないです。さらに、多くのアルゴリズムがオフラインでのみ、もしくは教師ありの手法でしか機能しません。

今回はそんな課題に取り組む、ブリュッセル自由大学 Oliver Roeslerの研究を紹介したいと思います。

Oliver Roeslerは、人間とロボットのインタラクションで得られるデータをオンラインで扱えるようにするため、交差状況学習(CSL)によるオンライングラウンディングフレームワークを検討しました。

▼論文情報

著者:Oliver Roesler
タイトル:”Unsupervised Online Grounding of Natural Language during Human-Robot Interactions”
URL:DOI

自然言語の教師なしオンライングラウンティング

まずはOliver Roeslerの研究におけるミッション・手法・結果をまとめました。

✔️ミッション
人間とロボットのコミュニケーションで得られた単語と概念をオンラインでグラウンディングする。

✔️解決手法
交差状況学習(CSL)によって単語と概念をグラウンディングした。

✔️結果
オンラインでのグラウンディングが可能になり、既存フレームワークよりも性能が優れていた。

ミッションから説明していく。

“単語と概念のつながり”

近年、人間と対話するサービスロボットの数が増加しています。人間との円滑なコミュニケーションを可能にするためには、「水を一杯持って来て」「箱を持ち上げて」といった自然言語による指示を理解し、適切に行動できることが重要です。Stevan Harnadによって1990年に提唱された「シンボルグラウンディング問題」によると、これを実現するためには、単語と概念のつながりが重要です。

グラウンディングのアプローチは、教師ありのアプローチと教師なしのアプローチがあります。教師なしのアプローチでは、共起情報を使用して単語と概念の繋がりを特定します。これまでの教師なしグラウンディングの研究では、オフラインでのみ機能するアルゴリズムが採用されてきました。すなわち、それらのアルゴリズムでは事前に用意されたデータで学習する必要があります。実世界においてあらゆる事柄について事前にデータを用意しておくことは事実上不可能であり、実環境で動作するリアルタイム性が重要です。そのため、オンラインで単語と概念をグラウンディングする能力が求められています。

CSLによってマッピングを作成

Oliver Roeslerは、以下の4つの要素で構成されたフレームワークを提案しました。

(1)3Dオブジェクトセグメンテーション
  物体を点群に分割し、その幾何学的特徴と色を決定する
  入力 : 点群データ
  出力 : 物体の幾何学的特徴、色

(2)アクション記録
  ロボットがアクションを実行する際、複数の関節の状態を記録してアクション 
  特徴ベクトルを生成する。
  入力 : アクション実行時の関節の状態 
  出力 : 実行されたアクションを表す特徴ベクトル

(3)概念クラスタリング
  密度ベースのクラスタリングアルゴリズムであるDBSCANを用いて、概念の
  抽象的表現を得る。
  入力 : 物体の幾何学的特徴、色、アクション特徴ベクトル
  出力 : 概念のクラスター番号

(4)CSL
  助詞を識別して、概念と単語のマッピングを作成する。
  入力 : 自然言語の指示、概念のクラスタ番号
  出力 : 概念と単語のマッピング

実験は以下の手順で行われました。

  1. 人間のチューターがテーブル上に物体を置き、HSRロボットが物体の幾何学的特徴と色を決定。
  2. チューターがロボットに物体の操作方法を示す指示を与える。
    指示は、「(action) the (color) (shape)」もしくは「Please (action) the (color) (shape)」といった構造で、(action) (color) (shape)はそれぞれが対応する単語で置換される。用いた単語は以下の表の通りである。
  3. チューターがロボットを遠隔操作し、指示内容の動作を実行させる。ロボットは運動を記録し、特徴ベクトルを作成する。

グラウンディング性能が向上した

Oliver Roeslerが提案したモデルでは、補助的な単語の検出、グラウンディングの精度において、既存のモデルよりも優れていることが示されました。提案モデルと既存モデルにおける、グラウンティングの平均精度と標準偏差の比較を下図に示します。

○学習とテストそれぞれに全てのシチュエーションを用いた場合、提案モデルでは完全に正しいマッピングが得られた。
○学習に60%のシチュエーション、テストに残りの40%を用いた場合、どちらのモデルも精度は低下した。ただし、提案モデルにおいては、形・色・アクションにおいて95%以上の精度を保つことに成功した。

以上より、新しいシチュエーションをオンラインで処理し、正しくグラウンディングすることが可能になりました。

研究紹介は以上です。

今後さらに研究が進められることで、人間とコンピュータのコミュニケーションはより円滑に行われることになるでしょう。


関連記事


業界/カテゴリー

PAGE TOP