1 - 山口大学 生体情報システム工学研究室

Download Report

Transcript 1 - 山口大学 生体情報システム工学研究室

先端研究論文紹介ゼミ
Emulation and Behavior
Understanding through Shared Values
-共有価値を通した手本と行動理解
H21年 9月 14日
生体情報システム工学教育研究分野
M2 岡本隆志
1
もくじ
•
•
•
•
•
•
概要
イントロダクション
実験の準備
メカニズムの概要
実験の結果
結論
2
概要
•神経生理学は生物の模倣行動に深く関連のあるミラーニュー
ロンの存在を明らかにした。
•ミラーニューロンは自己の目的志向性動作の実行時と、他者
の同じ行動を観察する時、類似した活動を示す。
•ミラーニューロンシステムの概念は、行動獲得と他者の意図推
論が相互に関連があることを示唆している。
•つまり行動学習モジュールは、行動実行だけでなく他者の行動
理解にも利用されているかもしれない。
3
概要
•実験では、観測者が既に観測可能な全ての情報(強化学習
における状態価値)を獲得している前提で、他者の行動を理
解するために新しい方法を提案する。
•その方法は、視点の違いによる視界の差に対処するための
モデルや調整システムを必要としない。
•本論文では、観測者が座標空間における正確なオブジェクト
軌道でなく、行動観測中の価値推定によって他者行動を理解、
認識できることを示す。
4
1 イントロダクション
現実の世界の近年のロボットは、マルチタスクを実行し、マル
チエージェント環境での動作に適応し、他者とのインタラクショ
ンを通して新たな協調・競合行動を学習することが要求される。
強化学習は、シングル・マルチエージェント環境におけるモー
タ動作学習とロボット行動獲得を学習してきた。
しかしながら、それは巨大な探索空間と学習時間のために実
環境における動作では、実用的に非現実的である。
従って、エージェントは他者からの行動を理解するために、目
的を持った行動を学習するそれらの意図を理解する必要が
あった。
5
1 イントロダクション
近年では、マルチエージェントの分野で、模倣学習、協調・競合
行動の獲得などの、他エージェントの行動の認識、模倣システム
の方法に関する多くの研究が行われている。
エージェントはセンサや装置からのノイズやパラメータのあらゆ
る変化に対応しながら、センサ入力を基に、特定のタスクに対し
て目的を達成する。
問題点:状態空間の広さ 運動軌道を完全にはカバーできない
解決方法として、エージェントに目的志向性動作を模倣させること
計算モデル:モータマッピング
観測系列と自己のモータプログラムの対応付け問題
エージェントは目的につながる行動のみを実行
模倣には、当事者間で価値を共有し、報酬につながる行動を解
釈することが要求される
6
1 イントロダクション
強化学習では、特定のタスク達成のための適切な行動だけで
なく、エージェントが最適方策を取る間、将来受け取る報酬を
割り引いた価値も生成する。
その報酬の割引された報酬は”状態価値”と呼ばれる。
状態価値は、大雑把には特定タスクの目的状態への近さを示す。
→
観測エージェントが目的を達成しそうになるというとことを
理解するかもしれないことを示唆している。
エージェントは観測オブジェクトとの距離や向きといった視覚情報
を用いて、価値の差を推定し、単純な模倣だけでなく、意図認識に
基づく協調・競合行動を実現できる
7
2 実験の準備
プレイヤー
駆動型ロボットVolksBots 2体
全方向カメラ搭載
オブジェクト
オレンジボール
青いバケツ
黄色い箱
基礎行動・・・オブジェクト接近、回転
ロボットは各オブジェクトを移動させることで環境やエージェント
同士のインタラクションを行う。観察や手本行動など
8
3 メカニズムの概要
強化学習による行動学習
マルコフ過程下でモデル化。
各時間ステップでエージェントは、
①状態観測 ②行動 ③報酬取得
を行う。
エージェントは方策πに従って行動
決定する。
状態価値
エージェントは状態価値を後方伝播
しながら、方策を更新する。
9
3 メカニズムの概要
モジュラ学習システム
•
•
•
•
•
複数のエキスパートモジュールを組み合わせたモジュラ学習システム
行動モジュールは一つの目的志向性の行動を担当する
行動モジュールは行動の達成時や報酬の受取に、正の報酬を受け取る
行動モジュールは次の価値を予測し、価値最大となる行動を選択する
ゲートモジュールは行動モジュールの中から一つを選んで出力する
10
3 メカニズムの概要
推定価値に基づく行動分類
観測者は教師行動を観測し、視点の変換を行って位置情報をマップ化する
教師と観測者の視点の変換例
行動モジュールは、教師の状態価値を推定し、モジュラシステムは価値が増
加しているモジュールを選択する
11
3 メカニズムの概要
推定価値に基づく行動分類
離散環境における走行タスク例
• エージェントはゴール到達時に
報酬を受け取る。
• 最適方策は複数存在する
• ある方策がエージェントの行動
意図を推定するのに適切である
なら、価値最大でなくとも行動推
定に利用されるべきである
状態価値の変化による意図推定
• 観測者は教師の意図推論に対
するロバストな意図認識機構を備
える必要がある。
• その状態価値による意図認識
は、視点変換の校正誤差に対す
るロバスト性を持つ可能性がある
12
3 メカニズムの概要
推定価値に基づく行動分類
行動モジュールによる行動の分類
各行動モジュールは、観測された教師の推定価値に基づいた状態価値を推定
し、行動セレクタに送る。
セレクタは状態価値の系列を観察し、教師がその時にとっている行動として状
態価値が増加している行動モジュールを選択する。
観察された行動は、モジュールの価値が増加している行動に分類される。
モジュールが行動を説明するのに妥当であることを意味している
13
3 メカニズムの概要
推定価値に基づく行動分類
信頼度g
行動が分類されるのに合理性を示す指標
β=0.1は更新パラメータ
推定値が上昇すると信頼度gが高くなり、下降すると低くなることを示している。
0<g<1
14
4 実験の結果
自己の動作、価値、行動
行動
状態変数
ボールへ接近
ボールへの距離
黄色い箱へ接近
箱の位置への距離
他プレイヤーへ接近
ボールと他プレイヤーの角度差
黄色い箱へボールを押す
ボールと箱の角度差
他プレイヤーへボールを押す
ボールと他プレイヤーの角度差
環境中には、2体のロボットと黄色い箱と赤いボール
ロボットは予め表の行動を学習する
実験1 赤プレイヤーが黄色い箱に赤い
ボールを押し込む
ロボットのとる方策が最適であるなら、状態価値は
増加し続ける
15
4 実験の結果
自己の動作、価値、行動
ボールに接近
箱に接近
箱にボールを押す 行動価値
他プレイヤーに接近
他プレイヤーにボールを押す
箱にボールを入れる間の状態価値の推移
赤い線が初期段階で上がり、黄色の線が後期段階で上がるように、行動は
ボール接近と黄色い箱接近から成る。
16
4 実験の結果
観察行動の分類
実験2
教師(青プレイヤー)が観察者(赤プレイヤー)へ
とボールを押す
プレイヤーは観察時、自分の行動レパートリー
に基づいて行動を分類する
他プレイヤー接近は全体を通して増加傾向にある
信頼度は初期値0.5から、予測価値が増加す
る限り、増加する
予測価値
信頼度
17
4 実験の結果
観察行動の手本
新たなオブジェクト青いバケツを加える
エージェントには青いバケツに関する知識はない
行動観察の手順は以下の通りである
1.観察者が教師の行動を観察する
2.センサからの位置情報を変換する
3.教師の報酬を読み取る
4.観測の間に予測した状態の価値として報酬を後方伝播する
5.観測行動を手本とし、試行錯誤を通した探索によって価値を更新する
18
4 実験の結果
観察行動の手本
①読み取った報酬
縦軸:状態価値
横軸:バケツへの距離
②後方伝播価値
③修正価値
①教師から報酬を受け取る
②報酬の価値を後方伝播することで、状態価値を予測できる
③後方伝播された価値に基づいて、予測価値を更新する
• 予測価値は、物理的制約やセンサ情報の誤りに対して、良い関連付けを与える
• 観測行動の価値を推定した後、観察者はそれ単独で学習を行うことができる。
19
4 実験の結果
観察行動の手本
実験3
青プレイヤーはバケツを箱の中に押し
込む行動を示し、赤プレイヤーはそれ
を観察する。
青いバケツに関する新しい行動を認
識し、分類できるかどうかを確認する
観察者(赤) 教師(青)
20
4 実験の結果
観察行動の手本
予測価値
ボールに接近
箱に接近
箱にボールを押す 行動価値
他プレイヤーに接近
他プレイヤーにボールを押す
バケツを箱に押す
バケツに接近
信頼度
予測価値は初期段階でバケツに接近し、後半でバケツを箱の方に押す
行動の信頼度が増加している。
青いバケツに関する情報は未知であるにも関わらず、観察者はその行
動を正確に分類できていることを示している。
21
5 結論
• 達成すべき目標によって決定される行動の分類として価値は定義されている。
• 観察者は、他プレイヤーが取る行動の理解のために自身の報酬関数を使用
する。 →価値の共有
• 未知の行動もまた、自己報酬関数の項に分類され理解される。
• エージェントは各時間ステップで次の行動を選び、その行動は強化学習アル
ゴリズムによる状態を通して後方伝播された報酬の経験によって選ばれる。
• したがって、行動の認識は常に、最も報酬を供給しそうな行動(必ずしも最適
方策でない)の選択へとつながる。
• 選択は、過去の経験によって決定されるプロセスとしての行動の選択を示す。
• 新しい観測行動の場合もまた、行動を実行するロボットは自身の行動レパー
トリーを使用する。
• これは、模倣と行動理解の単純なモデルとして提案される。
22