発表資料(PPT)

Transcript 発表資料(PPT)

自律ロボットソフトウェア
の経路学習
H207004
伊藤
謙
研究背景
多くの環境で対応できるエージェントの作成。
適応するため知的能力を持たせる。
知的能力として学習能力に着目。
環境に適応するため、環境と実行者の相互作
用の学習として機械学習の強化学習を導入
する。
研究概要
環境に適したエージェントにするため、仮想空
間を形成するK4を対象にする。
K4エージェントにたいして強化学習を導入す
る。
実験として単純な命令に対する学習結果を評
価する。
参考として既存のK4エージェントの比較も行う。
Ｋ４
ＣＧ処理と言語処理から構成されたソフトウェ
ア。
仮想空間とエージェントの相互作用から言語の
理解を目的に開発。
操作としてはエージェントの空間操作による
ユーザの目標達成を行う。
K4画面
K4エージェント
目標：ユーザの命令実行。
BehaviorManager
動作：
命令を分析
DiscourceManager
↓
Planner
プランニング
↓
ActionManager
実行
改変Ｋ４
目標とするＫ４の知的エージェント
・ユーザの命令を効率良く達成できる学習能力
を持つ知的エージェント。
・学習として強化学習のＱ学習を実装。
・行動生成にε‐greedy方策を行う。
強化学習：方策
ε-greedy方策：
確率εでランダムに行動選択を行い、確率1-ε
でgreedy方策を行う。
greedy方策:
最も良い行動（最も高い評価値）を選択。
実装時の確率：0.1
学習が行なわれた後、頻繁にランダムな選択
を行わせないため。
強化学習-手法
1stepQ学習：
Q( st , at )  Q( st , at )   [rt   max Q( st 1 , at 1 )  Q( st , at )]
Q : 行動評価関数s : 状態
r : 利益  : ステップサイズ・パラ
at
a : 行動 t : time
メータ  : 割引率
α：0.6 γ：0.9（学習促進）
ｒ：目標達成 10 オブジェクト -1 その他 0
ターム
・目標達成。
・一定の行動生成
以上の条件を満たした時、エピソードを終了。
次エピソードに移行。
改変K4の状態・行動表現
状態表現： s  S
仮想空間のx座標とz座標の2次元座標。
行動表現： a  A
K4エージェントに実装されている動作。
Walk , Hold , Put , LookAt , Turn
z
y
x
改変Ｋ４学習フローチャート
起動
仮想世界
の初期化
エージェント
動作
エージェントの
行動選択選択
評価値更新
NO
目標の
達成
YES
全体の流れ
メインクラスMain内で処理。
常に目標条件を達成しているかの監視。
達成時には、の初期化を行う。
環境の初期化
初期化内容
・オブジェクトの位置：
エージェントを含む全てのオブジェクトを起動
時の位置へと再配置する。
・エージェントの初期化：
エージェントの受け取っている命令の情報、ス
ケジューラの予定を消去する。
実験
対象:K4、改変K4
（改変K4は2種類の状態表現。）
内容：命令の実行の観察。
命令：「青いボールを取って」
試行回数：70回（K4_1の問題のため）
実験結果改変K4_1 改変K4_2
・K4_1 状態表現：座標を0.1単位で分割
141*141*5の状態表現
ターム：行動回数を1000回
成功回数：11回
・K4_2 状態表現：座標を1.0単位で分割
15*15*5の状態表現
ターム：行動回数を500回
成功回数：35回
改変 K4_1 K4_2 達成数
7
6
5
4
K4_1
3
K4_2
2
1
0
～10
～20
～30
～40
～50
～60
～70
改変K4_1 評価値
2.5
2
2-2.5
1.5
1.5-2
1
1-1.5
z13
0.5
z9
z5
z1
x15
x1
x2
x3
x4
x5
x6
x7
x8
x9
x10
x11
x12
x13
x14
0
0.5-1
0-0.5
改変K4_2 評価値
10
8
8-10
6
6-8
4
4-6
z13
2
z9
z5
z1
x15
x14
x1
x2
x3
x4
x5
x6
x7
x8
x9
x10
x11
x12
x13
0
2-4
0-2
実験結果Ｋ４
実行回数：10回
経路決定によるポテンシャルの確認。
結果：
動作時間 20秒
ポテンシャルの変動はなし。
考察
状態表現が大きすぎて学習が進まない。
空間の座標のずれが大きい。
やはり、既存のK4の性能にはかなわない。
対象の位置や初期地等の少しの変更に対して
も再学習の必要性がある。
まとめ
静的環境のみに対応。
状態と仮想空間の座標の差がある。
メモリの問題上、状態が大きいと対応できな
い。
展望
改変K4_1の状態で可能にする。
より複雑な状況に対応するため、状態表現を改
良。
↓
他のオブジェクトの座標、命令等の情報も使
用。
状態削減方法：自己増殖型ニューラルネット
ありがとうございました。
自己増殖型ニューラルネット
入力パターン
整合度 < r
ニューロン作成
Stem neuron
整合度 => r
内部ポテンシャル > g
ニューロン分割

発表資料(PPT)

Transcript 発表資料(PPT)

Directory