システムへの入力

Download Report

Transcript システムへの入力

先端研究論文紹介ゼミ
M1 石川智昭
論文紹介

「Development of hierarchical structures for actions and
motor imagery: a constructivist view from synthetic
neuro-robotics study」
(2009)Ryunosuke Nishimoto ・ Jun Tani

動作と行動イメージのための階層構造の開発
:合成神経ロボット研究からの構成主義観点
2
目次
I.
II.
III.
IV.
V.
VI.
VII.
3
Abstruct
Introduction
Model
Setup of humanoid robot experiments
Results
Discussion
Summary
Ⅰ.Abstract
目標指向行動の発達学習に神経ロボット実験を示す。
反復教師訓練プロセスによって、一連の目標指向行動
を達成する視感覚(visuo-proprioceptive:VP)の流れを予
測するように訓練された。
実験の結果、機能的な階層構造は行動プリミティブが初
期段階に発生し、目標を達成するシーケンスが後の段
階を通して現れることを示した。
操作可能な内部表現が感覚運動の相互作用を通して現
れるという主張はPiagetの構成主義観点と一致。




4
Ⅱ.Introduction
複数の目標指向行動を一つのニューラルネットワークモ
デルに埋め込む分散表現を利用する、いわゆる感覚順
モデルというニューラルネットワークモデルを提案。
感覚順モデルは連続時間リカレントニューラルネットワー
クモデル(CTRNN)の順方向ダイナミクスによって指定さ
れた目標に基づく視感覚(VP)状態の次の感覚を予測す
る。
感覚順モデルの原型の学習能力を調整するために、複
数の時間スケールの活性化ダイナミクスでニューロング
ループからなる動的ニューラルネットワークモデルを提
案。



5
Introduction
意味のある機能的な階層がグループの間で時間スケー
ルの違いを利用することで現れると示された。
このモデルで示される分散表現潜在的な階層型の自己
組織の特徴は、明確な局所モジュールと明白な操作を
装う従来の局所表現観点と対をなす。


6
Ⅲ.Model
Multiple Timescales RNN(MTRNN)と呼ばれる感覚順モ
デルの考えを実装する方法について

General
モデルは単純な視覚システムによるヒューマノイドロボッ
トが教示者の監督下にある物を操作する、複数の目標
指向タスクを学習することを前提とする。
各タスクの目標軌道は使用されるネットワークモデルに
いくつかのニューロンの初期状態を設定することで、実
験者によってロボットに提供される。


7
General
システムへの入力
腕の関節のエンコーダ値 pˆ t
(正規化された8次元ベクトル)
カメラヘッドの角度 vˆt
(2次元ベクトル)
出力
現在の pˆ t と vˆt に基づいて、
次の時間ステップにおける
固有感覚の予測 pt 1
視覚の予測 vt 1
8
General
MTRNNでモデル化されるシステムの主なコンポーネント
はVP状態の現在の入力を受け、次のステップ状態にお
ける予測を出力する。
各ニューロンユニットの活性化は時定数τを使った、以下
の微分方程式で定められる。


ui ,t
a j ,t
wij
は、時間ステップtにおけるi番目のニューロンユニットごとの膜電位
は、j番目ユニットの活性化
は、j番目ユニットからi番目ユニットまでのシナプス荷重
時定数τはほとんどのユニット活性化ダイナミクスのタイムス
ケールを決定し、値が大きくなるとダイナミクスは低速になる。
9
General


ネットワークは、入出力及び非入出力ユニットで構成さ
れ、後者をコンテクストユニットと呼ぶ。
コンテクストユニットは時定数の値に基づいて、
時定数の値が小さい高速コンテクストユニット
時定数の値が大きい低速コンテクストユニット
という、2つのグループに分けられた。
10
Training




教師信号を得るために、実験者は目標行動の軌道に
沿ってロボットの両腕を導く。
ロボットハンドが軌道に沿って導かれているときに感じた
VPシーケンスが記録され、教師シーケンスとして用いら
れる。
学習の目的は教師シーケンスとモデルの出力の間の誤
差を最小にする結合荷重の最適値を見つけること。
すべてのシーケンスに共通する結合荷重と各シーケンス
の低速コンテクストユニットの初期状態の適応のために
通時的誤差逆伝播(BPTT)法を使用する。
11
Action generation in physical environment
and motor image




訓練課程で、ネットワークは次時間ステップにおけるVP
入力を予測するために学習する。
感覚状態の予測はロボットコントローラーに目標関節角
度を提供する。
次ステップへの入力としてVP予測のフィードバックを用い
ることで、実際の行動を生じることなく、自律的にVP軌道
を生成できる。
閉ループ生成のプロセスは行動の思考シミュレーション
の観点から、運動イメージに対応することができる。
12
Ⅳ.Setup of humanoid robot experiments



小型ヒューマノイドロボットは実環境と身体の相互作用
の役割で使用された。
作業台はロボットの正面に設置、そこに置かれた立方体
を操作の目標対象として用いた。
ロボットタスクは3つの異なるタスク行動を生成するため
に学習すること。
13
Setup of humanoid robot experiments

すべてのタスク行動はホームポジションから始まり、同じ
位置に戻ることで終了。
14
Setup of humanoid robot experiments

3つの指導セッションでロボットにタスク行動を教える。

第1セッションでは、ネットワークがまだ効果的でないの
で、ロボットガイダンスはモータ制御ゲインを0にセットす
ることで、ロボットの動きを抑制することで実行される。
第2、3セッションでは、指導は制御ゲインを通常の動作
値の20%に設定し、ロボットの活発な動きを可能にする
ことで対話的に実行される。
ネットワークは各セッションで得られた教示シーケンス
データを用いてオフラインで訓練される。


15
学習関連パラメータ


閉ループ比率CLr
1.0のとき完全な閉ループ(先読み予測)
0.0のとき完全な開ループ(1ステップ予測)を意味する。
 I と  F はTPM(topology preserving map)の自己組織化
のために変更される別のパラメータ。
16
Setup of humanoid robot experiments


3つのセッションの指導の後、タスク3は空中で物を回転
させる新しい行動プリミティブを導入するように修正され
る。
セッション4では、訓練パラメータは以前の学習内容と新
しいものの間の干渉を最小にするために緩和されている。
17
Ⅴ.Result
18
19
20
21
Ⅵ.Discussion
Summary of the robot experiments


発達過程はいくつかの段階に分類可能。
初期段階では、実際の生成における行動プリミティ
ブの大部分が早くてタスクは完了していない。
2段階目では、シーケンスはまだ完了していないが、
大部分の行動プリミティブは実際に発生する。
3段階目では、すべてのタスクがプリミティブの正し
い順序で正しく生成される。
下位レベルであるプリミティブレベルが早くに組織化され
るのは当然であり、高位レベルのシーケンスレベルは下
位レベルの生成に基づいて後で行われる。
22
Correspondences to psychology of
development and learning


Piagetの理論を構成する2つの中心的な概念
同化:対象の既存スキームが物との構造的な結合を確
立するために利用されるプロセス
適応:物との別の構造的な結合を確立するためのス
キームを調整する適応可能なプロセス
実験を見ると、Piagetの理論の方式は高速コンテクスト
ネットワークに埋め込まれる一組の行動プリミティブに対
応できるかもしれないと理解される。
23
Correspondences to psychology of
development and learning


セッション4で、新しい行動を導入した場合はあらかじめ
獲得したプリミティブが新しい行動プリミティブがさらに自
己組織されている間、新しいタスクで利用されるために、
同化と適応が発生すると解釈できる。
6つの行動プリミティブが発達指導の最後において実際
の行動と運動イメージを生成するために組織的に操作さ
れたという事実は、特定の動作表現が長期的な自己組
織化プロセスを介して現れると解釈できる。
24
Correspondences to psychology of
development and learning



階層的にゲート制御されたCTRNNを使って同様の実験
を行っているが、現在の方式に比べてパラメータの調整
が困難。
MTRNNはニューロンダイナミクスが推測的な分節メカニ
ズムを導入することなく、連続空間と時間領域で感覚運
動フローの並びと相互作用できるように設計された。
従来の感覚順モデルと異なり、有限の目標指向経路の
み学ぶので、組み合わせ爆発の問題は起きない。
25
Robotics synthetic approach


計算論的神経科学のアプローチは、詳細なニューロンメ
カニズムが行動データに多くの注意を払うことなく、神経
接続性と細胞発火特性の神経科学データに基づく解剖
学的に関連した神経回路モデルを作ることで検討され逆
方向へ行く。
人間の発達と学習が全体的な視点で見られるならば、ロ
ボット実験はそのような視点を実行するために素晴らし
いプラットフォームを提供することができる。
26
Ⅶ.Summary




ロボットは、予測行動を生成する際に、低速コンテクスト
ダイナミクスと高速コンテクストダイナミクスの共存によっ
て特徴付けられたMTRNNモデルで実行された。
複数の目標指向行動のためのロボットの反復指導を通
して、特定の構造的発達過程が発生した。
行動プリミティブは初期に高速コンテクストパートで自己
組織化され、それらのシーケンスは後で低速コンテクスト
パートに現れた。
ロボット統合実験の結果は構成主義のPiagetの考えとか
なり類似していると述べている。
27