https://www.researchgate.net/publication/333653482_Lazy_Evaluation_of_Goal_Specifications_Guided_by_Motion_Planning/link/5cfa6e63299bf13a38443b1a/download

Juan David Hernandez, Mark Moll, and Lydia E. Kavraki

Abstract

今日、ロボットシステムはワークスペースを共有し、人間と共同作業することが期待されています。このような共同作業環境では、重要な課題は人間の要求の正しい意味解釈を確立するか確立することです。そのような解釈が利用可能になると、要求は所望のタスクを完了するためにロボット動作コマンドに変換されなければならない。人間の要求が独自の解釈に基づくものではないため、あいまいな要求につながることは珍しいことではありません。簡単な例は、利用可能なカップが複数あるときに、ロボットに「テーブルの上にカップを置く」ように依頼することです。このようなあいまいな要求に対処するために、遅延または遅延可変接地を提案します。本論文の焦点は運動計画アルゴリズムであり、それは異なる有効接地を表す目標領域を与えられて、任意の1有効接地への実行可能な経路を遅延的に見つける。このアルゴリズムは報酬を与える戦略を含み、それは解決策を提供するためにより有望と思われる目標領域を優先させることを試みる。シミュレーションと実際の実験の両方で、複数の有効な選択肢を使用して要求を解決することによって、私たちのアプローチを検証します。

1. Introduction

産業用ロボットは通常、制御され構造化された環境で動作しますが、現代のロボットシステムは複雑で雑然とした環境で自律型または半自律型の作業を行うことが期待されています。後者の困難なシナリオでは、ロボットシステムは複雑な環境を理解して安全に動作するためにその認識機能を使用するだけでなく、人間から要求を受けて協力する必要があります。このコラボレーションを効果的にするためには、現代のロボットシステムは異なる機能を備えている必要があります。ヒューマンロボットインタラクション（ＨＲＩ）において、主な課題の１つは、人間の要求の正しい意味解釈を確立することである。この問題は一般にシンボル接地または可変接地と呼ばれます[1]。そのような解釈が利用可能になると、人間の要求はロボットエージェントが参加することができ、ロボットエージェントはそれをモーションコマンドに変換して所望のタスクを完了させる。しかしながら、独自の根拠を確立することが不可能な場合があり、その結果、複数通訳の依頼が必要になります。そのような複数通訳の依頼の最初の例として、自動係員付き駐車サービス（AVP）システムを検討することができます。

一般に、AVPシステムは集中管理インフラストラクチャを持つ駐車場で構成されています。このインフラストラクチャは、知覚センサ（例えば、光学カメラ）、および自動（ロボット）自動車と通信し調整するための無線ネットワークを備える。インフラストラクチャは、知覚データを使用して、駐車場の状態（利用可能、占有、または予約）に関する情報を含むセマンティックマップを作成できます[2]。 AVPインフラストラクチャでは、人間のユーザは自動駐車を「駐車」するように要求できます。AVPシステムにおける一般的なアプローチは、セマンティックマップを使用して1つの特定の駐車スポットの場所を特定して提供することです。そして指定された場所に駐車しようと試みる[3]。車までの距離など、特定の場所を決定するためにさまざまなヒューリスティックを使用することができます。それにもかかわらず、インフラストラクチャは、指定された場所に特定の車を駐車することの難しささえ実現可能性さえ決定することができません。 AVPシステムは複数の利用可能な駐車場を提供することができます。この場合、リクエスト「park」を特定の1つの場所に根拠付けることはできません。多重解釈要求の他の例は共同作業環境における操作問題を含む。ロボットのチームメイトにオブジェクトの取得を依頼できるシナリオを考えてみましょう（図1を参照）。これらのシナリオでは、ロボットは知覚情報を使って意味マップを作成することができます。意味マップは利用可能なオブジェクトをセグメント化し、分類し、報告します[4]。さらに、知覚データを利用して、利用可能なオブジェクトを把握するためのさまざまな有効な方法を決定することもできます[5]。これらの共同作業のシナリオでは、「そのボトルを取る」や「その本をくれ」などの人間の要求には意味的なあいまいさが含まれているため、要求を特定のロボット動作コマンドに変換できません。このようなあいまいな要求を明確にするために、マルチモーダルインタフェースを使用して音声とジェスチャを融合させることで、特定のオブジェクトを接地することができます[6]。ジェスチャが暗黙の意味論を明確に根拠づけるのに十分ではない、より複雑な場合、例えば、他の意味的に等価なオブジェクトの近くにあるオブジェクトを指すことがある。このような場合、人間とロボットの間で対話を確立することで、望ましい行動を明確にすることができます[7]、[8]、[9]。この作品では、複数のカップがある場合に「テーブルの上にカップを置く」など、あいまいな要求を解決することに関心があります。両方の例において、すなわち自動化された自動車に「駐車する」ことを要求するとき、またはロボットチームメイトに「テーブルの上にカップを置く」ことを要求するとき、曖昧さは複数の解釈を含む要求から生じる。そのような解釈は意味的に有効であり得るが、それらすべてがロボットエージェントにとって実行可能であるとは限らない。これらのシナリオに対処するための1つの選択肢は、実行可能なものが見つかるまで、各代替解釈を徹底的に根拠を定めてテストすることです。他の選択肢は、それらのいずれかを解決するまで、利用可能なすべての解釈を独立して同時に接地してテストすることであり得る。第１の選択肢は人間とロボットの協調を非効率的にするが、第２の選択肢はロボットエージェントにとっては計算コストが高くなり、それは他の同時の計算プロセス（例えば、知覚、ナビゲーションなど）も処理しなければならない。この種の多重解釈要求に対処することを目的として、本稿では運動計画によって支援される遅延または遅延可変接地を紹介する。本稿では、解釈は構成空間内の目標領域にマッピングできると仮定する。これは一般に難しい問題ですが、このホワイトペーパーで検討している特定のアプリケーションでは、このようなマッピングを定義できます。次に、セクションIIでは、多重解釈要求が目標達成領域の運動計画問題としてどのように扱われるのかについて説明します。目標領域は、構成空間（C-SPACE）で暗黙的に定義され、ランダムサンプルによって近似されます。さらに、高次元のC-SPACESを含むことができる広範囲のアプリケーションをカバーするために、我々はセクションIIIで提示される新しいサンプリングベースのモーションプランナーでこのスタート - ゴール - 領域問題を解決します。この新しいプランナーは、指定された開始構成から任意のゴール領域へのソリューションパスを見つけようとします。このプランナーの目新しさは、報酬を与えるための戦略を採用することです。この戦略はまた、目標領域の近似を改善するためにより多くの目標サンプルがいつ必要とされるかを決定することを可能にする。最後に、我々の提案したアプローチを評価するために、セクションIVはシミュレーションから実際の結果をナビゲーションから操作問題まで及ぶ異なるシナリオで提示する。多重解釈要求の問題の特定の例はまた、可能な把握のためのエンドエフェクタ制約の形で操作中に現れる：目標は特定の目標構成ではなく、むしろエンドエフェクタ姿勢に関するいくつかの作業空間制約を満たす任意の構成である。。この問題に対処するために、さまざまな計画方法が採用されています[10]、[11]、[12]。私たちの仕事はその精神において[10]に最も近い。その作業とは異なり、プランナーが目標に向かって拡大を進めることができるのであれば、考慮される目標状態の数（またはこの文書の文脈では接地数）を制限します。これは、探査をあまり重視しないという代償で、搾取をより重視することと見なすことができます。また、[10]とは異なり、目標領域がエンドエフェクタの制約だけでなく計算効率の理由からも制限されているとは限らないため、このアルゴリズムはエンドエフェクタ距離にわたって勾配降下を実行することはありません。

2. Problem setup

A. Definitions & Assumptions

Definition 1
- T.B.D
Definition 2
- T.B.D

Assumptions: この論文で提示されたアプリケーションのために、意味論的実体は与えられた要求の有効な解釈のセットI = {I 1、I 2、...、I k}を提供すると仮定されます。さらに、同じ意味論的実体が、異なる意味論的解釈を表すｍ個の目標領域の集合ＧＲ＝｛ＧＲ１、…、ＧＲｍ｝を提供するとも仮定される。各意味解釈Ｉｉが２つ以上の目標領域ＧＲｊを生成することができることに注目することは重要である。そのような目標領域は暗黙のうちに定義されるが、それらから、我々は、サンプリングされる確率がゼロでない目標構成ｑｇをサンプリングすることができる。

本稿では、次のセクションで定式化される問題に焦点を合わせたいので、これらの仮定をします。さらに、そのような意味論的実体は一般に利用可能である。例えば、セマンティックマップはAVPシステム[2]で使用されています。これは利用可能な駐車スポットについての情報を提供します。別の例は、利用可能なオブジェクトを操作するための異なる有効な方法を決定することができる把持姿勢検出器と共に、操作シナリオにおいて利用可能なオブジェクトをセグメント化し、無効化し、そして報告する意味マップ［４］を含む。

B. The Start-to-goal-region Motion Planning Problem

基本的な目標達成モーションプランニング問題では、開始構成qsを固有の目標構成qgに接続する必要があります。この問題に対する解決策は、連続パスｐ：［０，１］→Ｃｆｒｅｅであり、その結果、ｐ（０）＝ｑｓおよびｐ（１）＝ｑｇである。本稿での目的は、この問題を拡張して同じ開始構成qsを接続することですが、ここでは提供された目標領域のいずれかに含まれる目標構成qg = qgj∈GRjに結び付けます（図2参照）。この拡張された問題に関連したさまざまな課題があります。意味論的層が目標領域の記述を提供すると仮定することはできますが、有効かつ到達可能でなければならない正確な目標構成qgを見つける必要があります。これに関連して、衝突がない場合、構成ｑを有効と見なすことができる。しかし、構成の到達可能性を計算することは、PSPACE完全であることが知られているモーションプランニング問題を解決するのと同じくらい難しい[14]、[15]。したがって、qgの妥当性と到達可能性の両方を検証することは、特に複雑で高次元のC-SPACEを扱う場合には、ささいな問題ではありません。複数の目標領域を考慮する必要がある場合、問題はさらに困難になります。次のセクションでは、この拡張された問題に対処するためにモーションプランナーの主な概念がどのように使用されるのかを説明します。

C. Tree-based Motion Planner

高次元のC-SPACESを含むことができる広範囲のアプリケーションをカバーしたいと考えるならば、我々はサンプリングベースのモーションプランナーを用いてこのスタート・ツー・ゴール領域問題を解決することを提案します。さらに、主な目的は、すべての目標領域ではなく、目標領域のいずれかへの解決策を見つけることであるため、特にツリーベースのモーションプランナーを使用します。このようなプランナーは特定の開始構成に基づいていますが、ブランチはさまざまな目標地域への接続を試行するために使用できます。

3. Solving multi-interpretation requests

前のセクションでは、拡張された目標達成領域問題を紹介しました。以下では、完全性を維持しながら計画を達成しやすい目標に偏らせる方法で、この問題を解決するためのサンプリングベースのアプローチについて説明します。

A. Initial Goal Region Sampling

最初に、ｋ＝ｎ個の有効目標サンプルの集合Ｇを生成することによってｋ個の目標領域を近似するので、Ｇ＝｛ｑ ∈ＧＲ∧ｑｑｇｉ∈Ｃｆｒｅｅ｝であり、ｉ＝｛１，２、…ｎ｝である。目標サンプル生成のこのプロセスは、図3で観察できます。

B. Reward-penalty Strategy for Tree-based Planners

前のセクションでは、k個の目標領域GRjがあることを確認しました。これは、n個の有効目標サンプルの集合G（qgi）で近似されます。計画問題は任意の目標領域への実行可能な経路を見つけることにあるので、そのための1つの可能なアプローチは、有効な目標に接続しようとするたびに異なるサンプルqgiを試すことです。目標サンプルqgiの中から選択する2つの単純な戦略は、1）連続した順序に従うこと、または2）ランダムにqgiを選ぶことです。しかし、どちらのアプローチでも、困難または到達不可能な目標サンプルに接続しようとしている可能性があります。たとえば、図3では、GR2などの一部の目標領域に到達するのが困難になる可能性があることがわかります。領域に有効なサンプルが含まれていても、qsから到達できないGR3のような他の目標領域があります。 GR1のように、よりアクセスしやすい別のタイプの目標領域があります。この抽象度では、モーションプランナーはこれらの固有のゴール領域の特性を評価または推定できる唯一のエンティティです。目標地域の説明には目標サンプルの到達可能性に関する情報が含まれていないことに留意することが重要です。したがって、解決策を提供することがより有望であると思われるこれらの目標地域に優先順位を付けるために、我々は報酬ペナルティ戦略を使用することを提案する。この報酬ペナルティ戦略は、目標サンプルに向かって拡大しようとする試みが成功したかどうかを識別することからなります。この情報は、対応する目標サンプルに報酬を与えるかペナルティを科す必要があるかどうかを決定します。そうすることで、最もペナルティの少ない目標サンプルを優先して再利用できます。本稿では、高速探索ランダムツリー（RRT）アルゴリズム[16]に基づくツリーベースのプランナを用いてこの報酬ペナルティ戦略を検証する。しかし、報酬ペナルティ戦略は、拡張空間ツリー（EST）[17]や確率的ロードマップ（PRM）[18]などの他のサンプリングベースの方法、あるいはそれらのバリアント（遅延および漸近最適バリアントを含む）に拡張できます。ツリーベースのプランナーでは、入力として開始コンフィギュレーションqsと一連のゴール領域GRを使用します（アルゴリズム1を参照）。 Gheapを最大ヒープとして定義しましょう。ここでは、GRからのすべてのゴールサンプルqgiが初期最大ウェイト1.0で格納されます。他のツリーベースのプランナーでも起こるように、私たちの方法では最大のヒープGheapで最大の重みを持つゴールサンプルに対応する（ライン6））すべてのツリー展開において、すなわちランダム構成または目標サンプルに向かって、プランナは、生成されたツリー内の最も近い構成ｑｎｅａｒから最大距離εの間拡張し、したがって新しい構成ｑｎｅｗを生成する（行１２）。ただし、このアプローチでは、目標サンプルへの展開が成功するか失敗するかについても追跡します。前者の場合、ゴールサンプルは、その重みwを次のように更新することで得られます（17行目）:

w(qgi) = w(qgi)/(1.0−w(qgi)), if w(qgi) < 1.0,

後者の場合、目標サンプルの重みはペナルティを課されます。 as（行17）：

w(qgi) = w(qgi)/(w(qgi) +1.0).

両方の状況のいくつかの例は図4で観察することができます。

C. Goal Region Resampling

正しい目標サンプル数を決定するのは困難です。場合によっては（例えば、数値逆運動学ソルバーを使用するとき）、多数のサンプルを生成することは、計算上費用がかかる可能性がある。他の場合では、少数の目標サンプルは、目標領域の実現可能性および到達可能性を正しく記述するのに失敗する可能性がある。目標サンプルの数を固定しないようにするために、少数のサンプルから始めることをお勧めします。そうするために、我々は、何らかの報酬サンプルが最小の重み値に達するかどうかをチェックするために報酬ペナルティ戦略を使います。この最小しきい値は、追加の目標サンプルの生成をトリガーするために使用されます。そのような新しいサンプルは最大ウェイト1.0で初期化されるため、前のサンプルの前に確実に試行されます。さらに、リサンプリング戦略では、既存のサンプルの重みも0.5に設定されているため、すべてのサンプルがより多くのサンプルを生成する前に試行されることが保証されます。このリサンプリングおよび初期化戦略は、確率論的完全性を保証することも目指しています。より多くのサンプルを生成することが、目標領域の近似をどのように改善するだけでなく、より簡単な解決策にもつながるかの例を図５に示す。

4. Experiments & results

この論文は、私たちが複数の有効な解釈を持つ要求を解決することを可能にするlazyな接地戦略を導入しました。このセクションでは、2つの異なるテストケースを紹介します。1つは自動車用、もう1つは共同作業における半自律型ロボットチームメイト用です。

A. AVP System with Multiple Available Parking Spots

「はじめに」で説明したように、駐車場をAVPシステムに要求する自動車を考えてみましょう。駐車するための固有の位置を生成する代わりに、ＡＶＰシステムは、それぞれが駐車エリアによって定義され、したがって複数の目標領域を定義する複数の利用可能な駐車スポットを提供する。どの駐車場を使用する必要があるかの最終的な決定は、その報酬ペナルティ戦略とともに、提案された遅延接地アプローチを使用する自動化された車で行うことができます。図６は、２つの異なる駐車シナリオを提示している。どちらの場合も、周囲の障害物（赤）との衝突を避けながら、利用可能な場所（緑）のいずれかに駐車する必要があります（白）。解の経路（水色）を計算するために、アルゴリズム1で与えられたツリーベースのプランナーを使用しました。セクションIII-Bで提示された私たちの報酬ペナルティ戦略を、複数のゴール領域を扱うための他の2つの可能な選択肢と比較しました。両方の選択肢は、木が目的に向かって拡大しているときに固定数の目的サンプルを使用することからなる（行５）が、一方の選択肢は連続した順序、すなわち最初のサンプルから最後のサンプルまでをたどる。毎回サンプル。 3つの選択肢、すなわち、連続順序、ランダム、および報酬ペナルティが、図6に示されている両方のシナリオに対して評価されています。このベンチマークの結果は、表1に示されています。計算時間の平均だけでなく、標準偏差も小さくなります。

f:id:mikumikuta:20190802190607p:plain — Fig6

B. Towards Autonomous Teammates in Collaborative Tasks

ここで、私たちが共有された共同作業の環境にいるとしましょう。そこでは、複数の有効な対象がある環境で、ロボットに「対象を選ぶ」ように依頼します。この一連の実験では、単一の7自由度アーム、平行ジョーグリッパー、および知覚用のベースマウント3Dカメラを備えたFetch [19]のマニピュレーターを使用しました（図1参照）。。 Gazeboを使用して、異なる作業環境でFetchのマニピュレータをシミュレートしました[20]。一方、提案されたアプローチはMoveIt！で実装されました。 [21]オープンモーションプランニングライブラリ（OMPL）を拡張することにより[22]。私たちのアプローチを評価するために、8つのDOF、7つの腕、そしてFetchの胴体の垂直方向の動きを含む計画問題を解決する3つの異なるシナリオを定義します。最初のテストシナリオには、1つのテーブルと2つの棚があり、そこには箱と缶などの異なるオブジェクトがあります（図7を参照）。この環境では、Fetchのマニピュレータが「缶を拾う」という要求に応答します。このクエリは、使用可能な各缶が目標領域に対応するという提案されたアプローチを使用して解決できます。さらに、缶は上からしか掴むことができないが、向きは問わないと考えてみましょう。この最後の制約により、各缶に1つずつ、n個のゴール領域を定義できます。これは、グリッパーの3次元（3D）ポーズで構成されます。位置は缶に対して一定ですが、缶は任意の値をとることができます。この最初のシナリオでは、テーブルの上に缶が1つありますが、これが最も簡単に拾うことができるようです（図7aを参照）。同じ要求を解決することからなる2番目のテストシナリオを定義しましたが、今回はテーブルに缶を含めません（図7bを参照）。後者の場合、最も簡単な、または最も到達可能な缶を決定するのは簡単ではないことに注意してください。箱、缶、金属製の棒、ゴミ箱などの異なるオブジェクトがある3つの棚を含む、異なるセットアップを持つ3番目のテストシナリオを定義しました（図8を参照）。この環境では、フェッチのマニピュレータに「箱を拾う」ように指示しました。各箱は、その4つの辺のいずれかに沿って任意の垂直位置でつかむことができます。これらの制約は、各ボックスにつき４つずつ４×ｎのゴール領域を設定し、それらはグリッパーに対する３Ｄポーズからなる。各ゴール領域において、向きはボックスに対して一定であるが、ボックスの垂直軸に沿った位置は特定の範囲内の値を取り得る。図８ｂはこの課題に対する１つの可能な解決策を示す。繰り返しますが、どのボックスが到達可能であるかを判断するのは簡単ではないことに注意してください。これら３つのシナリオ（図７、８）において、我々は、前のセクションで説明したように、すなわち最初の目標サンプルから最後の目標サンプルまでのように、連続する順序に従う１つの選択肢と我々の報酬ペナルティ戦略を比較した。これらの実験では、最初に目標バイアスを5％に設定しました。このベンチマークの結果を表2に示します。表では、提案された報酬ペナルティアプローチは、テーブルで缶を握るなど、簡単でアクセスしやすいオプションがある場合にも同様に機能することがわかります（図7aを参照）。しかし、最も到達可能な目標地域を設定することが不可能な、より困難なシナリオに対処する必要がある場合、私たちの報酬ペナルティ戦略はかなりの改善を示します。計画者が高次元のC-SPACE（8自由度、7本の腕、さらにFetchの胴体の垂直方向の動き）に対処する必要があるこの一連の実験では、目標バイアスの割合を増やすと計算時間が改善される。これは、より多くのツリー展開が任意の目標領域に接続しようとしていることを意味します。ただし、このような目標バイアスの割合の増加は、正しい目標サンプルが使用されている場合、たとえば、当社の報酬ペナルティ戦略を使用している場合にのみ有効です。そのような改善を示す結果も表IIに示されている。

C. Real-Worlds Tests

また、提案したアプローチを実際のFetchのマニピュレータに統合しました。テーブルとキャビネットを含むシナリオを定義し、その上にさまざまなオブジェクトがあります（図9を参照）。ここで、いくつかの要求をテストしました。これらの要求の一例は、「箱をテーブルの上に置く」というフェッチのマニピュレータを必要とするタスクに対応する。このシナリオでは、箱を長方形の角柱状の物体と考える（図９ａ参照）。利用可能な箱のそれぞれは、上から、それぞれの側に1つずつ、4つの異なる向きでつかむことができます。これらの制約は、各ボックスにつき４つずつ４×ｎのゴール領域を設定し、それらはグリッパーに対する３Ｄポーズからなる。各ゴール領域において、向きはボックスに対して一定であるが、ボックスの長手方向軸に沿った位置は特定の範囲内の値を取り得る。図９ａは、この課題に対する１つの可能な解決策を示す。箱が握られたら、私達のアプローチはまたテーブルの有効でそして実行可能な配置位置を見つけるのに使用されていた。この後者の場合、テーブル表面全体が目標領域として定義され、プランナはテーブルの上に空きスペースを見つけました（図9bを参照）。

5. Discussion and future work

本稿では、複数の有効な解釈または根拠を持つ要求を解決することを可能にする遅延接地戦略を紹介しました。我々はこれらの多重解釈要求を運動計画問題として定式化することを提案した。そこでは代替接地は目標領域で表される。そのような定式化は、徹底的かつ個別にそれらのそれぞれを評価する必要なしに、単一の計画問題が複数の解釈を考慮し評価することを可能にする。提案されたアプローチの一部として、プランナーをリードしようとする報酬ペナルティ戦略も提示しました。最終的な解決策を提供することがより有望であるそれらの目標地域を優先すること。私たちは2つの異なるシナリオで私たちの怠惰な接地アプローチを評価しました。最初のシナリオでは、AVPシステムのアプリケーションを紹介しました。このシステムでは、複数の利用可能なスポットが提供されている場合、自動車で駐車する場所を決定する必要があります。 2番目のシナリオは、複数のオプションが使用可能な場合にロボットエージェントが特定の種類のオブジェクト（缶または箱）を拾うように要求される操作タスクを対象としていました。両方の場合において、我々のアプローチは要求を解決するだけでなく、それが代替のメカニズムと比較されたときその報酬ペナルティ戦略も優れていました。さらに、マニピュレーションタスクのシナリオでは、ロボットを指揮するためのマルチモーダルインターフェースを高度なレベルで開発するために、私たちのアプローチを使用する可能性があると考えています。

次に調査すること

symbol grounding problem, variable grounding problem
- The symbol grounding problem, 1990
Semantic map
- Integrating metric and semantic maps for vision-only automated parking, ICRA2015
- Semantic 3D Object Maps for Everyday Manipulation in Human Living Environments, 2010

Creating Future Human Being Lab.

Lazy Evaluation of Goal Specifications Guided by Motion Planning