先端論文紹介ゼミ 2009/10/07 B4 大富康弘 紹介論文 ・H

Download Report

Transcript 先端論文紹介ゼミ 2009/10/07 B4 大富康弘 紹介論文 ・H

先端論文紹介ゼミ
2009/10/07
B4 大富康弘
紹介論文
・H∞ Reinforcement learning control of robot
manipulators using fuzzy wavelet networks
・Chuan-Kai Lin
Abstract
• コントローラの学習部は、Associative search
network(ASN)とAdaptive critic network(ACN)から
成り立っている。
• ASNは、制御対象の未知の非線形関数を近似す
る。
• ACNは、ASNを調整するために2ループ目以降の
強化信号を構成する。
• ASNとCANは、Fuzzy wavelet network(FWN)を用
いている。
• 提案手法は、制御対象のダイナミクスの詳しい
知識を必要とせずに、オンラインで学習を行う。
• H∞制御を用いて、FWNで、近似誤差や外乱の
影響を受けない様に、制御を行う。
1.Introduction
• 提案手法
Fuzzy wavelet networks(FWN)を使ったロボッ
トマニュピレータの強化学習型H∞制御。
• 強化学習の長所
制御対象のダイナミクスの詳しい知識を必
要としない。
• H∞制御の長所
FSやNNを用いたときの近似誤差、未知パラ
メータや外乱の影響を最小限に抑える。
2.1. wavelet networks
ウェーブレットネットワークは、もとの信号fの拡大によるウェーブレット分解で実装
される。
多次元ウェーブレット関数(1)は、1次元ウェーブレット関数の積であらわされる。
並行移動、拡大縮小したマザーウェブレット関数と連続ウェーブレット関数の関係は、
(2)と表される。
安定性条件
関数fは、(4)と、近似できる。
2.2 Fuzzy wavelet networks
N入力M出力ファジーシステム
FWNの出力は(5)となる。(シングルトンを用いる。)
FWBFのJ番目のルールは、(6)で表わされる。
(6)を簡潔に表わすと、(7)となる。
多次元ウェーブレット関数は、1次元ウェーブレット関数の積で表わせられるので、
となる。
FWNの出力は、(9)であらわされる。
FWNは、NNと比較すると、特に多次元関数に関して、小さいネットワークでNNと同等
の近似能力がある。
未知関数f(x(t))を、近似すると、(10)となる。
理想的な重みは、
FWNの結果は、(11)で表わされる。
となる。
3.1.Robot dynamics and the primary
reinforcement
制御システム(m-DOF rigid manipulator)
追従誤差
強化信号
未知関数f(x) ((19)(20)(21)より)
3.2.H∞ reinforcement learning
controller
制御則
H∞ auxiliary control signal (ASN近似誤差や外乱を小さくするため)
強化信号
連続時間の強化信号は、(26)で表わされる。
ただし、
(27)を(26)に代入して、(28)が得られる。
初期の強化信号rk(t)=0は、制御の終了を示し、強化信号も0となる。割引率をγ=1とす
ると、2番目の強化信号は、
となる。
CANは、関数近似として更新される。
よって、理想的な強化信号は、(29)で表現できる。
また、実際の強化信号は、(30)で表現される。
3.3.H∞ stabilization
(32)より、ACNの出力は、(33)となる。
ただし、
理想のASNとの出力の誤差は、(34)となる。
よって、誤差のダイナミクス(24)は、(35)と書き換えることができる。
学習の規則は、(38)(39)で表わされる。
ただし、
I s , I c , I , I は、以下に示す。
k
k
l
4.1.Robot manipulator model
制御システム
M ( ) V m ( ,)  g( ) 
f
F
()  d  
パラメータ
 M 11 M 12 M 13 1 0 0


M ( ,)  M 21 M 22 M 23 1 1 0
M

 31 M 32 M 33 1 1 0
M 11  2 d1  d 4 c2  d 5 c23, M 12  2 d 2  d 4 c2  d 6 c3 , M 13  2 d 3  d 5 c23  d 6 c3
M
M
21
31
 d 4 c2  d 5 c23, M 22  2 d 2  d 6 c3 , M 23  2 d 3  d 6 c3
 d 5 c23, M 32  d 6 c3 , M 33  2 d 3
V V  
V V  
V V  
V   d s   d s (  )  d s  ,V   d s (  )  d s (   )  d s 
V  (d s  d s )  d s  ,V   d s  ,V   d s (   )
V  d s   d s (  ),V  d s (  ),V  0
V 11

V m ( ,)  V 21
V
 31
11
4
21
31
4
5
2
23
5
1
1 a c
 2 1 1
g ( )   0

 0
f
b
13
1
22
23
2
32
33
3
5
23
23
1
2
2
12
6
3
2
6
1
6
3
3
12
3
22
3
32
2
3
6
6
3
3
1
4
6
a c  12 a c a c  a c  12 a c
1
a c  12 a c
2a c
1
0
2a c
1
1
2
2
12
12
1
1
2
2
12
12
3
3
3
3
123
123
 g 
  m1 
 m2 g 
 g 
 m3 
123
5
2
33
2
 6, b21  2, b22  0.5, b31  0.6, b32  0.2( Nm / rad / s)
0.2 sin(2t ) 
 d  0.1cos(2t)
 0.1sin(t ) 
1
23
3
 b   b sgn(  ) 
1 
 11 1 12

( )  b212  b22sgn(2)
F


 b311  b32sgn(3) 
11
2
1
23
2
1
3
2
3
6
3
3
4.3.Results of H∞ reinforcement
learning controller
θ1,θ2,θ3に対する規範曲線

des1
 0.3 cos(1.5t  ( 3)), des2  0.1cos(1.5t ), des3  0.2 cos(1.5t )
FWNの入力は、x1  1, x2 1, x3  2 , x4 2 , x5  3 , x6 3 とする。
初期パラメータは、0またはランダムとする。また、ファジールールベースは、20個
のファジールールを含んでいる。
・強化学習信号
 (t ) 
 1s1t 
 2s2t   3s3t 
T
 s t   e s    e s   e s    e s   , s t   e t    e t , 
k
k
k
t
k
k
t
k
k
t
k
k
t
k
k
k
k
k
k
 0.25,  k  20, k  1,2,3
Q  2 Kr  diag20,20,20
・行列Q 修正ゲインKr
・H∞制御信号のパラメータ
k
d
 2
2
・更新則のパラメータ
ks  ks  ks  30, kc  kc  kc  30, k  20, k
1
2
・割引率
3
1
2
3
  0.02,0.04,0.06,0.08
j
lj
 20, b  b  b  30, b  b  b  30, b  200, bl  10
s1
s2
s3
c1
c2
c3
追従誤差
強化学習信号
提案手法とthe output feedback controller との比較
Simulation results
• The adaptive output feedback fuzzy controllerは、
関節の位置の寸法や速度情報だけでなくロボッ
トの慣性マトリクスも利用する。
• 提案手法は、関節の位置の寸法や速度情報は
利用するが、ロボットの慣性マトリクスは必要と
しない。
• 提案手法は、収束するスピードが、The adaptive
output feedback fuzzy controllerより速い。
• FWBFのすべてのパラメータをオンラインで調整
するので、FWBFの出力の重みの近似誤差は小
さく維持できる。
5.Conclusion
• FWNを使ったASNは、ロボットの非線形ダイナ
ミクスの近似に用いた。ACNは、the temporal
differenceの近似に使用した。
• H∞制御、FWBNのパラメータ、ASNやACNを用
いたことで制御のパフォーマンス保証し、オン
ラインで調整を行えた。
• FWNを用いH∞stabilization criterionは、近似
誤差や外乱の影響を小さくすることができた。
• コントロール対象のposition-trackingや
disturbanceは成功した。