スライド タイトルなし - 医療情報システム研究室

Download Report

Transcript スライド タイトルなし - 医療情報システム研究室

知的ネットワークシステムへの
強化学習の適用
- Q-Learningによる知的照明システムの構築 -
○冨田浩司(同志社大院)
廣安知之(同志社大工)
三木光範(同志社大工)
知的システムデザイン研究室・同志社大学
研究背景
近年,多くの機器やシステムは「知的」に,かつ
「ネットワーク化」の流れにある.
ホームネットワーク: 家庭内機器のネットワーク化
ITS(高度道路交通システム): 人・道路・車のネットワーク化
「知的ネットワークシステム」の提案
知的照明システムを用いた基礎的な検討
自律制御に強化学習を適用
知的システムデザイン研究室・同志社大学
知的ネットワークシステム
システム概要
知的人工物をネットワーク化したシステム
システムの特徴
1 ネットワークに接続する機器は知的人工物である.
2 ユーザは要求する目的をネットワークに与えることで,
個々の知的人工物が自律的に動作する.
知的システムデザイン研究室・同志社大学
知的人工物
知的人工物は達成すべき目的があり,知的性質を
使って自律的な動作する.
知的性質
Sense,Judge,Act の3要素を持つ構造
例 自動ドア
Judge
目的: スムーズな通行の促進
Sense 人間
Sense
Act
Judge 人間の有無
Act
ドアの開閉制御
知的システムデザイン研究室・同志社大学
知的ネットワークシステムの構成
知的人工物が必ず持つ知的性質を利用して,その目的
をネットワークから新しく与えて変えることにより,各知的
人工物を自律的に動作させる.
Network
目的
目的
Judge
光Sense
人Sense
Act
照明
汚れSense
目的
Judge
Act
自動ドア
エアコン
温度Sense
Act
洗濯機
Judge
目的
目的
Act
Judge
知的システムデザイン研究室・同志社大学
本システムの特徴①
1 ネットワークに目的を与えておくことで,各機器が
自律的に動作し,目的を達成する.
Network
目的
目的
知的システムデザイン研究室・同志社大学
本システムの特徴②
2 機器のネットワークへの参入・離脱が容易である.
目的を自律的に取り込む
ネットワークへの参入・離脱の設定が不要
目的
目的
Sense
目的
目的 Judge
Judge
Act
Sense
Judge
Act
Sense
Act
知的システムデザイン研究室・同志社大学
本システムの特徴③
3 1つの機器では不可能な作業を行うことができる.
ネットワーク全体で目的を満たす
5台→5台で,10台→10台で作業を行う
目的
Sense
目的 Judge
目的 Judge
Judge
Act
動作
Sense
Act
動作
Sense
Act
動作
知的システムデザイン研究室・同志社大学
本システムの特徴④
4 機器の故障時による機能低下を他機器で対処できる.
目的を満たした状態の維持
5台→4台で,10台→9台で作業を行う
目的
Sense
×
Judge
Judge
Act
動作
Sense
Act
目的 Judge
Sense
Act
動作
知的システムデザイン研究室・同志社大学
本システムの特徴⑤
5 ネットワークの機能を有していれば,
システムに接続する知的人工物の種類は問わない.
目的の満たし方は一通りでない
知的人工物の種類・台数によって異なる
目的
目的
Judge
温度Sense
Act
エアコン
目的
Judge
光Sense
Act
照明
Judge
湿度Sense
Act
冷蔵庫
知的システムデザイン研究室・同志社大学
具体的な知的ネットワークシステム
本システムの基礎的な検討
照明システム
(1) 身近なシステムを取り上げることにより,本システムの
有効性が容易にわかること.
(2) 現在の照明機器における知的化が自動車や飛行機ほど
複雑でないこと.
(3) シミュレーションを行う際,その実現が容易であること.
知的システムデザイン研究室・同志社大学
知的照明システム
目的 人のいる場所を X[lx] の明るさにせよ
Lighting
Lighting
Person
Lighting
Lighting
X [lx]
知的システムデザイン研究室・同志社大学
知的な照明機器
人感知・光感知タイプ
設計時の目的: 真下に人が来た場合,設定された明かりをつける
Judge
人Sensor
光Sensor
光束Act
Sense 明るさ + 人
Judge 設定照度との比較
Act
光束の制御
知的システムデザイン研究室・同志社大学
各知的照明の自律制御方法
ネットワーク全体での目的の達成度
Ex. 目的照度:100[lx]
現在の照度:50[lx]
各知的照明はランダムに光束を制御する.
現在の照度:70[lx]
同じ動作を繰り返す
現在の照度:30[lx]
再度ランダムに制御
問題点: ランダム性が強く,柔軟性がない
より広い環境に適用するためには
判断基準の自律獲得が必要
強化学習
の適用
知的システムデザイン研究室・同志社大学
強化学習
移動などの行為を行うAgentが,行為に対する環境からの報酬
のみから,適切な行為の学習を行う典型的な自律的学習である.
Q-Learning
状態認識器: 状態と行動の対のルールベースがあり,各ルールは
Q値と呼ばれる重みを持つ.
行動選択器: Q値に基づく戦略で次の行動を決定する.

学習器: 次式に従ってQ値を更新する.

Qst , at  : Qst , at    rt   maxQst 1, at   Qst , at 
aA
0 1
γは割引率( )
0 α 1
αは学習率( )
知的システムデザイン研究室・同志社大学
各知的照明が持つ状態と行動
状態 人がいる場所の合計照度
行動 光束の制御
状態:60
行動:2
状態 1 0~5 [lx]
行動 1 +20 [cd]
状態 2 5~10 [lx]
…
行動 2 -20 [cd]
状態 60 295~300 [lx]
知的システムデザイン研究室・同志社大学
Q-learningを用いた知的照明システム
人を感知した知的照明
他の知的照明
明るさセンサにより,
ネットワークに流れた
人がいる場所の照度を取得.
人がいる場所の照度を取得.
ネットワークに流す.
その状態に応じて,ある行動選択手法に従い
次の行動を決定し,光束を制御する.
行動に対する報酬を受け取る
Q値を更新する
目的照度になったとき
正の報酬を与える.
知的システムデザイン研究室・同志社大学
シミュレーション
各知的照明が学習を重ねることにより最適な制御が行
えることをシミュレーションにより検証する.
要求照度[lx]: 100
知的照明の数: 4台
知的照明の最大光度[cd]:1000
知的システムデザイン研究室・同志社大学
パラメータ設定
Q値の初期値
報酬
学習率
割引率
行動選択方法
0.1
100
0.5
0.9
Boltzmann選択
e Q ( x , ai ) / T
p(ai | x) 
kactionse Q( x ,ai ) / T
温度定数
0.2
知的システムデザイン研究室・同志社大学
シミュレーション
知的システムデザイン研究室・同志社大学
実験
目的を達成するまでにかかった時間の比較
・学習なしの知的照明システム
・Q-learningを用いた知的照明システム
知的システムデザイン研究室・同志社大学
Illuminance [lx]
学習なしの知的照明システムの結果
150
150
145.6
146.6
146.0
100
1st
10th
30th
50
0
0
50
100
Steps
知的システムデザイン研究室・同志社大学
Illuminance [lx]
Q-learningを用いた知的照明システムの結果
147.5
150
150
150.3
147.0
1st
10th
30th
100
50
0
0
100
200
300
400
500
Steps
知的システムデザイン研究室・同志社大学
考察
Q-learningを用いることにより,試行回数を重ねることで
判断基準が獲得され,常に最適な制御が行えた.
判断基準を予め組み込む必要がなく,これは知的照明
システムだけでなく,知的ネットワークシステム全体に対
して極めて大きな成果であるといえる.
知的システムデザイン研究室・同志社大学
知的照明システムの問題点
問題点
(1) 判断基準が確立するまでに時間がかかる.
(2) 目的や環境が変わると,最適な判断基準も変わる
ため,その都度学習させる必要がある.
知的照明システムの高水準化
一度獲得した判断基準および他の知的照明が獲得した
判断基準を再利用させる.
知的システムデザイン研究室・同志社大学
知的照明システムの高水準化
① 各知的照明はそれぞれ異なった判断基準を獲得して
いるため,その判断基準をデータベースに蓄積する.
② 各知的照明がデータベースから選択し制御する.
どの判断基準を選択すればよいかを決定する
上位の判断基準が必要
知的システムデザイン研究室・同志社大学
知的照明の階層構造
上位のJudge
Sense 目的照度
最適な判断基
Judge
準の決定
目的照度
判断基準の
取得
Q-learningにより学習させる
Judge
Act
判断基準の取得
人Sensor
光束Act
光Sensor
知的システムデザイン研究室・同志社大学
各知的照明が持つ状態と行動
状態 目的の照度
行動 取り込む判断基準の決定
状態:30
状態 1
行動:10
0~10 [lx]
行動 1 判断基準Aを選択
状態 2 10~20 [lx]
…
行動 2 判断基準Bを選択
…
状態 30 290~300 [lx]
行動 10 判断基準Jを選択
知的システムデザイン研究室・同志社大学
知的照明の判断基準の選択
ネットワークに与えられた目的を取得
その目的に応じて,ある行動選択手法に従い
どの判断基準を取り込んでくるかを決定する.
選択した判断基準を用いて,制御する.
行動に対する報酬を受け取る
目的を満たすまでの時間により,
正の報酬,負の報酬を与える.
Q値を更新する
知的システムデザイン研究室・同志社大学
判断基準の蓄積方法
70[lx]の判断基準群
判断基準の取得
類似する判断基準のパターン化
判断基準のパターン化
A
B
C
新しいパターンのみを蓄積
70[lx]
目的ごとに蓄積
B
Database
A C
知的システムデザイン研究室・同志社大学
判断基準のパターン化
すべての状態における行動のQ値を比較し,ファジィ関数を
用いて,Q値を3段階(Large>Medium>Small)に変更する.
Ex.
状態 1
状態 2
行動 1 Q値: 0.3
行動 1 Q値:10.3
行動 2 Q値: 0.1
行動 2 Q値: 0.1
行動 1 Q値:Medium
行動 1 Q値:Large
行動 2 Q値:Medium
行動 2 Q値:Small
知的システムデザイン研究室・同志社大学
シミュレーション
目的に合った適切な判断基準をQ-learningによって
獲得できるかどうかを検証する.
Lighting
Lighting ①
Person
Lighting ②
Lighting
70 [lx]
知的システムデザイン研究室・同志社大学
目的照度:70[lx]に蓄積された判断基準
Criterion A
◎ 最適な判断基準
Criterion B
× 不適切な判断基準
Criterion C
Criterion D
○ 良好な判断基準
Criterion E
Criterion H
Criterion F
Criterion I
Criterion G
Criterion J
10 種類
△ 良好ではない判断基準
知的システムデザイン研究室・同志社大学
Q-learningにおけるパラメータ設定
Q値の初期値
0.1
報酬
rwd  10 
学習率
0.5
割引率
行動選択方法
0.9
Steps
10
Boltzmann選択
e Q ( x , ai ) / T
p(ai | x) 
kactionse Q( x ,ai ) / T
温度定数
0.2
知的システムデザイン研究室・同志社大学
蓄積に必要なパラメータ設定
パターン化する際
に用いる定数
Large = 1.0
Medium = 0.1
Small = 0.01
ファジィ関数
1


10
 ( x)  1 
2
(
x

1
)


0
( x  1)
( x  1)
( x)  0.9
知的システムデザイン研究室・同志社大学
Lighting①: 人の真上に設置した知的照明
3
Criterion A
2
× Criterion B
◎ 最適な判断基準
1
Q-value
◎Criterion A
○Criterion C
0
○Criterion D
-1
△Criterion E
-2
△Criterion F
-3
△Criterion G
-4
△Criterion H
0
5
10
15
20
25
30
△Criterion I
Steps
△Criterion J
知的システムデザイン研究室・同志社大学
Lighting②: 人から遠くに設置した知的照明
3
Criterion I
2
× Criterion B
△良好ではない判断基準
1
Q-value
◎Criterion A
○Criterion C
0
○Criterion D
-1
△Criterion E
-2
△Criterion F
-3
△Criterion G
-4
0
5
10
15
Steps
20
25
30
△Criterion H
△Criterion I
△Criterion J
知的システムデザイン研究室・同志社大学
考察
人の近くに設置した知的照明では,どの判断基準が最
適なのかを学習することにより,適切な判断基準を自動
選択することができた.
人から離れた場所に設置した知的照明では,自身の動
作があまりQ値に反映されないため,任意の判断基準
が選ばれた.
知的システムデザイン研究室・同志社大学
結論
知的ネットワークシステムへの強化学習の適用を行った.
・知的照明システムにQ-learningを適用することで,判断
基準の自動生成を行うことができた.
・目的の達成時間が短縮でき,効率化が行えた.
・知的照明システムの高水準化により,目的に適した判
断基準の自律的選択ができた.
知的システムデザイン研究室・同志社大学
今後の課題
・多目的問題
・目的,動作情報,位置情報などのプロトコル問題
・誤り情報・目的を満たせない場合の対処策
・大規模なシステムへの適応
知的システムデザイン研究室・同志社大学
知的システムデザイン研究室・同志社大学
知的システムデザイン研究室・同志社大学
知的システムデザイン研究室・同志社大学
知的システムデザイン研究室・同志社大学
工学的人工物
人工物:人為的に作られた「もの」の総称.
(1) 工学的人工物: 建物,自動車,家電製品
(2) 社会的人工物: 言語,規則,法律
(3) 芸術的人工物: 小説,絵画,彫刻
(4) その他の人工物: 品種改良した農作物など
工学的人工物
電子デバイス技術と情報処理技術により実現でき,
明確な目的を持ち,その機能や性能が評価できる.
知的システムデザイン研究室・同志社大学
知的照明システムの流れ
(1) 複数の知的照明をネットワークに接続する.
(2) 目的をネットワークに与える.
(3) 知的照明は目的を取り込み,目的に合った判断基準を生成する.
(4) 人が入室するまで待機する.
(5) 人が入室したと判断した場合に,各種センサを用い,現在の人
の位置を把握し,要求された明るさになるよう制御する.
(6) 各知的照明は常に目的とのズレをチェックし,トラブルなどが
起きた場合は再度(5)の動作を行う.
(7) 人が退室したと判断した場合に,消灯し,待機状態(4)に戻る.
知的システムデザイン研究室・同志社大学
Q-learning
により
獲得された
判断基準
light[0]
Qs0a0 0.040483524273186314
Qs0a1 0.037660901356588526
Qs1a0 0.03950417214185656
Qs1a1 0.03725929226595419
Qs2a0 0.035580834840756206
Qs2a1 0.03669315110325496
Qs3a0 0.0354742524734063
Qs3a1 0.0359553191622399
<省略>
Qs18a0 0.07166241904296874
Qs18a1 0.074361209375
Qs19a0 0.077277205859375
Qs19a1 23.117123952774925
Qs20a0 0.07517042968750001
Qs20a1 20.854208476880117
Qs21a0 36.38617007597773
Qs21a1 16.929141955545834
Qs22a0 0.08781250000000002
Qs22a1 32.402678501851184
Qs23a0 2.1350209062500003
Qs23a1 20.80589655001355
q240 69.0257197897766
q241 4.641713125000001
q250 0.0925
q251 0.095
q260 0.095
q261 0.095
q270 89.28728647460937
q271 0.1
light[1]
Qs0a0 0.03860610814042892
Qs0a1 0.039001772004345014
Qs1a0 0.03711685091512492
Qs1a1 0.03749645187478179
Qs2a0 0.03510919476950096
Qs2a1 0.036448424827456
<省略>
Qs19a0 0.0770185703125
Qs19a1 0.075950978515625
Qs20a0 35.75954132021168
Qs20a1 0.07957578125
Qs21a0 36.60497003442803
Qs21a1 0.079548359375
Qs22a0 42.7814168768607
Qs22a1 0.08787500000000001
Qs23a0 25.05062027122199
Qs23a1 0.09025
Qs24a0 35.568578326828
Qs24a1 0.09078125000000001
Qs25a0 0.0925
Qs25a1 0.095
q260 0.095
q261 0.095
q270 87.71920507812501
q271 0.1
q280 87.59125
q281 0.1
q290 0.046180987881345496
知的システムデザイン研究室・同志社大学
q291 0.1