اتوماتاهاي يادگير ارائه دهنده : علي برادران هاشمي 1 فهرست مطالب  مقدمه  اتوماتاهاي يادگير  محيط  اتوماتاهاي يادگير ساختار ثابت  اتوماتاهاي يادگير ساختار متغير  الگوريتمهاي.

Transcript اتوماتاهاي يادگير ارائه دهنده : علي برادران هاشمي 1 فهرست مطالب  مقدمه  اتوماتاهاي يادگير  محيط  اتوماتاهاي يادگير ساختار ثابت  اتوماتاهاي يادگير ساختار متغير  الگوريتمهاي.

‫اتوماتاهاي يادگير‬
‫ارائه دهنده‪:‬‬
‫علي برادران هاشمي‬
‫‪1‬‬
‫فهرست مطالب‬
‫‪ ‬مقدمه‬
‫‪ ‬اتوماتاهاي يادگير‬
‫‪ ‬محيط‬
‫‪ ‬اتوماتاهاي يادگير ساختار ثابت‬
‫‪ ‬اتوماتاهاي يادگير ساختار متغير‬
‫‪ ‬الگوريتمهاي يادگيري‬
‫‪2‬‬
‫تعريف‬
‫‪ ‬يادگيري‪ :‬فرايندي كه براي تغيير در رفتار موجودات براي سازگاري با‬
‫محيط ضروري است‪.‬‬
‫‪ ‬اتوماتاهاي يادگير‪ :‬يك تصميمگيرنده كه در يك محيط [تصادفي] عمل‬
‫ميكند و بر اساس پاسخي كه دريافت ميكند‪ ،‬استراتژي خود براي‬
‫انتخاب اقدام(عمل) را بهنگام ميكند‪.‬‬
‫‪ ‬مثال‪:‬‬
‫‪ ‬محيط‪ :‬شبکه کامپيوتری مورد بررسی‬
‫‪ ‬پاسخ محيط‪ :‬دريافت ‪Ack‬‬
‫‪ ‬اقدام اتوماتا‪ :‬انتخاب يک مسير برای ارسال داده در يک مسيرياب‬
‫‪3‬‬
‫اتوماتاهاي يادگير‬
‫‪ ‬هدف از طراحي يك اتوماتاي يادگير تشخيص چگونگي انتخاب‬
‫اقدام بر اساس تجارب گذشته (اقدامها و پاسخها) است‪.‬‬
‫‪ ‬دانش بسيار كمي درباره محيط وجود دارد‪.‬‬
‫‪ ‬محيط ممكن است با گذشت زمان متغير باشد‪.‬‬
‫‪4‬‬
‫محيط‬
‫(‪)1‬‬
‫‪ ‬يادگيري در رويكرد مبتني بر اتوماتاهاي يادگير‪ ،‬بصورت تشخيص يك‬
‫اقدام‪/‬عمل بهينه از ميان مجموعه اقدامهاي مجاز ميباشد‪.‬‬
‫‪ ‬اين اقدام در يك محيط تصادفي اِعمال ميشود‪.‬‬
‫‪ ‬محيط با توليد يك خروجي به اقدام اعمال شده پاسخ ميدهد‪.‬‬
‫‪5‬‬
‫محيط‬
‫(‪)2‬‬
‫‪ ‬يك سه تايي‬
‫}‪E  { ,  , c‬‬
‫يادگير‪  {1 , 2 ,...,)r‬‬
‫}‬
‫‪ α ‬مجموعه وروديهاي محيط (اقدامهاي اتوماتاهاي‬
‫‪ β ‬مجموعه پاسخهاي محيط‬
‫‪ c ‬مجموعه احتمالهاي جريمه‬
‫} ‪  {1, 2 ,...,n‬‬
‫} ‪c  {c1 , c2 ,...,cr‬‬
‫‪ ci ‬احتمال دريافت پاسخ نامطلوب از محيط هنگاميکه اقدام ‪ i‬در محيط اعمال میشود‪.‬‬
‫‪Pr( (n) is unfavorable  (n)  i )  ci‬‬
‫‪6‬‬
‫محيط‪ :‬مجموعه پاسخها‬
‫‪ βi ‬ها ‪-‬پاسخ محيط‪ -‬اگر‪:‬‬
‫‪ ‬دودويي باشد ( ‪ 0‬و ‪ :)1‬محيط مدل ‪P‬‬
‫‪β={0,1} ‬‬
‫‪ ‬تعداد محدود‪ ،‬در بازه [‪ ]0 ،1‬باشد‪ :‬محيط مدل ‪Q‬‬
‫‪ ‬مانند }‪β={0,1/4,1/2,3/4,1‬‬
‫‪ ‬يك مقدار تصادفي در بازه [‪ ]0 ،1‬باشد‪ :‬محيط مدل ‪S‬‬
‫‪β=[0,1] ‬‬
‫‪7‬‬
‫محيط‪ :‬مجموعه جريمهها‬
‫‪ ‬اگر ‪ci‬ها ثابت و مشخص باشد؟ ) ‪ci  Pr( (n) is unfavorable (n)  i‬‬
‫‪ ‬نيازي به يادگيري نيست!‬
‫‪ ‬اقدام بهينه=اقدامي با كمترين جريمه‬
‫‪ ‬مسائلی که ‪ci‬ها ناشناخته هستند مورد نظر میباشند‪.‬‬
‫‪8‬‬
‫اتوماتاهای‬
‫‪ ‬مجموعه وضعيتهاي داخلی اتوماتاها }‪Φ = {Φ1, Φ2,..., Φr‬‬
‫‪ ‬مجموعه اقدامها‬
‫‪ ‬مجموعه وروديهاي محيط‬
‫‪ ‬تابع انتقال وضعيت‬
‫‪ ‬تابع خروجي‬
‫‪9‬‬
‫} ‪α = {α1, α2,..., αr‬‬
‫} ‪β = {β1, β2,..., βr‬‬
‫‪F(.,.) : Φ* β →Φ‬‬
‫‪G(.) : Φ→ α‬‬
‫دستهبندی اتوماتاها‪:‬‬
‫قطعی و تصادفی‬
‫‪ ‬اتوماتاي قطعي (‪:)deterministic‬‬
‫‪‬‬
‫اگر ‪ F‬و ‪ G‬هر دو نگاشتهايي قطعي باشند‪.‬‬
‫‪ ‬با اطالع از وضعيت فعلی اتوماتا و ورودی اتوماتا (پاسخ محيط)‪ ،‬وضعيت بعدی‬
‫اتوماتا و اقدام آن مشخص میباشد‪.‬‬
‫‪ ‬اتوماتاي تصادفي (‪:)Stochastic‬‬
‫‪‬‬
‫اگر ‪ F‬يا ‪ G‬تصادفي باشند‪.‬‬
‫‪ ‬با اطالع از وضعيت فعلی اتوماتا و ورودی اتوماتا (پاسخ محيط)‪ ،‬فقط احتمال‬
‫وضعيت بعدی اتوماتا و اقدام آن مشخص میباشد‪.‬‬
‫‪10‬‬
‫دستهبندی اتوماتاها‪:‬‬
‫ساختار ثابت و متغير‬
‫‪‬‬
‫‪ :fijβ‬احتمال اينکه اتوماتا با دريافت پاسخ ‪ β‬از وضعيت ‪ φi‬به وضعيت ‪ φj‬برود‪.‬‬
‫‪‬‬
‫‪ :gij‬احتمال اينکه وضعيت ‪ φi‬مطابق با اقدام ‪ αj‬باشد‪.‬‬
‫‪ ‬اتوماتاي ساختار ثابت‪:‬‬
‫‪ ‬اگر احتمال تغيير حالت ‪ fijβ‬و احتمال انتخاب اقدام ‪ gij‬ثابت باشد‪.‬‬
‫‪ ‬اتوماتاي ساختار متغير‪:‬‬
‫‪ ‬اگر احتمال تغيير حالت ‪ fijβ‬و احتمال انتخاب اقدام ‪ gij‬متغير باشد‪.‬‬
‫‪11‬‬
‫اتوماتاهاي ساختار ثابت‬
L2N2 
G2N2 
Krinsky 
Krylov 
12
‫اتوماتاي ‪L2N,2‬‬
‫‪ ‬داراي ‪ 2N‬وضعيت و ‪ 2‬اقدام مي‌باشد‪.‬‬
‫‪ ‬زماني كه تعداد جريمهها بيشتر از پاداشها ميگردد‪ ،‬اقدام ديگر را انتخاب‬
‫ميكند‪.‬‬
‫اقدام ‪2‬‬
‫‪2N‬‬
‫اقدام ‪1‬‬
‫‪N+1‬‬
‫‪1‬‬
‫‪N‬‬
‫پاداش‬
‫‪β =0‬‬
‫‪13‬‬
‫جريمه‬
‫‪β =1‬‬
‫‪G2N,2‬‬
‫‪ ‬بعد از يك تغيير اقدام‪ ،‬براي تغيير مجدد نياز به ‪ n‬پاسخ‬
‫نامطلوب است‪.‬‬
‫اقدام ‪2‬‬
‫اقدام ‪1‬‬
‫‪N+1‬‬
‫‪2N‬‬
‫‪N‬‬
‫‪1‬‬
‫پاداش‬
‫‪β =0‬‬
‫جریمه‬
‫‪N+2 N+1‬‬
‫‪14‬‬
‫‪N+3‬‬
‫‪2N 2N-1‬‬
‫‪N-1 N‬‬
‫‪3‬‬
‫‪2‬‬
‫‪1‬‬
‫‪β =1‬‬
‫‪Krinsky‬‬
‫‪ ‬براي تغيير وضعيت نياز به ‪ n‬پاسخ نامطلوب است‪.‬‬
‫‪N+1‬‬
‫‪N+3 N+2‬‬
‫‪2N 2N-1‬‬
‫‪N-1 N‬‬
‫اقدام ‪2‬‬
‫‪2N‬‬
‫‪3‬‬
‫‪2‬‬
‫‪1‬‬
‫پاداش‬
‫‪β =0‬‬
‫اقدام ‪1‬‬
‫‪N+1‬‬
‫‪1‬‬
‫‪N‬‬
‫جريمه‬
‫‪β =1‬‬
‫‪15‬‬
‫مانند‬
‫‪L2,N2‬‬
‫‪Krylov‬‬
‫‪ ‬هنگاميكه اتوماتا در وضعيت ‪ i‬با يك پاسخ نامطلوب مواجه با احتمال‬
‫‪ 0.5‬به ‪ i+1‬و با احتمال ‪ 0.5‬به وضعيت ‪ i-1‬منتقل ميشود‪.‬‬
‫پاداش‬
‫‪N+2‬‬
‫‪N+1‬‬
‫‪2N‬‬
‫‪2N-1‬‬
‫‪N-1‬‬
‫‪N‬‬
‫‪2‬‬
‫‪=0‬‬
‫‪1‬‬
‫‪β‬‬
‫مانند ‪L2,N2‬‬
‫‪0.5‬‬
‫‪0.5‬‬
‫‪0.5‬‬
‫‪0.5‬‬
‫‪0.5‬‬
‫‪0.5‬‬
‫‪0.5‬‬
‫جريمه‬
‫‪N+1‬‬
‫‪16‬‬
‫‪N+2‬‬
‫‪2N-1‬‬
‫‪2N‬‬
‫‪N‬‬
‫‪N-1‬‬
‫‪2‬‬
‫‪1‬‬
‫‪=1‬‬
‫‪β‬‬
‫اتوماتاي يادگير ساختار متغير‬
‫}‪SLA  { ,  , p, T , c‬‬
‫} ‪p  { p1 , p2 ,..., pr‬‬
‫])‪T  p(n  1)  T [ (n),  (n), p(n‬‬
‫‪‬‬
‫تابع ‪ G‬با بردار احتمال و تابع ‪ F‬نيز با الگوريتم يادگيري جايگزين شدهاند‪.‬‬
‫‪‬‬
‫اگر ‪ LA‬عمل ‪i‬ام را در مرحله ‪ n‬ام انتخاب كند وپاسخ مطلوب از محيط دريافت نمايد‪ ،‬احتمال‬
‫)‪ pi(n‬افزايش و ساير احتمالها كاهش مييابد‪.‬‬
‫‪‬‬
‫براي پاسخ نامطلوب )‪ pi (n‬كاهش و ساير احتمالها افزايش مييابد‪.‬‬
‫‪‬‬
‫در هر حال‪،‬تغييرات بگونهاي صورت ميپذيرد كه حاصل جمع تمام )‪ pi (n‬ها همواره برابر با‬
‫‪ 1‬است‪.‬‬
‫‪18‬‬
‫الگوريتم يادگيری‬
β(n)=0 ‫ پاسخ مطلوب از محيط‬-‫ الف‬
pi (n  1)  pi (n) 
r
 f j [ p j (n)]
j 1
j i
p j (n  1)  p j (n)  f j [ p j (n)]
j, j  i
β(n)=1 ‫ پاسخ نامطلوب از محيط‬-‫ ب‬
r
pi (n  1)  pi (n)   g j [ p j (n)]
j 1
j i
p j (n  1)  p j (n)  g j [ p j (n)]
j , j  i
19
‫الگوريتم يادگيري خطي (محيط مدل‪)P‬‬
‫‪ ‬الف‪ -‬پاسخ مطلوب از محيط ‪β(n)=0‬‬
‫])‪pi (n  1)  pi (n)  a[1  pi (n‬‬
‫)‪p j (n  1)  (1  a) p j (n‬‬
‫‪j, j  i‬‬
‫‪ ‬ب‪ -‬پاسخ نامطلوب از محيط ‪β(n)=1‬‬
‫‪j , j  i‬‬
‫)‪pi (n  1)  (1  b) pi (n‬‬
‫‪b‬‬
‫‪p j (n  1) ‬‬
‫)‪ (1  b) p j (n‬‬
‫‪r 1‬‬
‫‪‬‬
‫امتر جريمه‬
‫امتر پاداش و ‪ b‬پار ‌‬
‫‪ a‬پار ‌‬
‫‪‬‬
‫ابر باشند‪ ،‬الگوريتم را ‪ LRP‬مي ناميم‪.‬‬
‫اگر ‪ a‬و ‪ b‬با هم بر ‌‬
‫‪‬‬
‫کوچکتر باشد‪ ،‬الگوريتم را ‪ LRεP‬مي ناميم‪.‬‬
‫‌‬
‫اگر ‪ b‬از ‪ a‬خيلي‬
‫‪‬‬
‫صفر باشد‪ .‬الگوريتم را ‪ LRI‬مي نامند‪.‬‬
‫اگر ‪ b‬مساوي‌ ‌‬
‫‪20‬‬
)S‫الگوريتم يادگيري خطي (محيط مدل‬
  [0,1] S‫ محيط مدل‬
pi (n  1)  pi (n)  a.(1   i (n)).(1  pi (n))  a. i (n). pi (n)
 1

p j (n  1)  p j (n)  a.(1   i (n)). p j (n)  a. i (n).
 p j (n) a.(1   i (n)). p j (n)
r 1

j
21
ji
LA
22
Select Action
23
Update
24
‫معيارهای رفتار اتوماتاهای يادگير‬
‫(‪)1‬‬
‫‪ ‬ميانگين جريمه دريافت شده توسط اتوماتا‬
‫‪ ci ‬احتمال جريمه متناظر با اقدام ‪αi‬‬
‫‪r‬‬
‫)‪ ci pi (n‬‬
‫‪M (n) E[  (n) | p(n)] ‬‬
‫‪i 1‬‬
‫‪ ‬در يک اتوماتای شانسی محض‬
‫‪1 r‬‬
‫‪M 0   ci‬‬
‫‪r i 1‬‬
‫‪25‬‬
‫معيارهای رفتار اتوماتاهای يادگير‬
)2(
M (n) E[  (n) | p(n)] 
r
 ci pi (n)
i 1
:expedient ‫ اتوماتای يادگير مصلحت انديش‬
lim E[ M (n)]  M 0
n 
‫ اگر‬
:Absolutely expedient ‫ اتوماتای يادگير مصلحت انديش مطلق‬
E[M (n  1) | p(n)]  M (n)
n, pi (n)  (0,1), for all possiblesets{ci } (i  1,2,...,r)
26
‫معيارهای رفتار اتوماتاهای يادگير‬
‫(‪)3‬‬
‫‪r‬‬
‫)‪ ci pi (n‬‬
‫‪ ‬اتوماتای يادگير بهينه ‪:Optimal‬‬
‫‪ ‬اگر } ‪cl  min{ci‬‬
‫‪M (n) E[  (n) | p(n)] ‬‬
‫‪i 1‬‬
‫‪lim E[M(n)] c l‬‬
‫‪ ‬مناسب در يک محيط ايستا ‪stationary‬‬
‫‪ ‬اتوماتای يادگير ‪:ε-Optimal‬‬
‫‪ ‬اگر‬
‫‪,   0‬‬
‫‪lim E[ M (n)] c l ‬‬
‫‪ ‬مناسب در يک محيط غيرايستا ‪non-stationary‬‬
‫‪27‬‬
‫‪n ‬‬
‫‪n ‬‬
f ij
‫ به‬φi ‫ از وضعيت‬β ‫ احتمال اينکه اتوماتا با دريافت پاسخ‬:fijβ 
.‫ برود‬φj ‫وضعيت‬
 Pr (n  1)    (n)   ,  (n)   
j
i
s

f
 ij for each    and i
j 1
.‫ باشد‬αj ‫ مطابق با اقدام‬φi ‫ احتمال اينکه وضعيت‬:gij

gij  Pr (n)   j  (n)  i 
r
g
j 1
ij
for each i
28
:‫ احتمال اينکه اتوماتا در يک حالت مشخص باشد‬
 (n)   1 (n), 2 (n),,  s (n)T
 j (0)  Pr (0)   j 
 j (n)  Pr (n)   j  (0),  (1),,  (n  1)
 j (1)  P r (1)   j  (0) 

 P r (1)  
s
i 1

s
f
i 1
ij
( 0)
j
 (0)  i ,  (0)P r (0)  i 
 i (0)
 (1)  F T ( (0)) (0)
29
n ‫در زمان‬i ‫ احتمال انتخاب اقدام‬
pi (n)  Pr (n)   i  (0),  (1),,  (n  1)

i  1,2,, r

pi (n)   Pr  (n)   i  (n)   j Pr (n)   j  (0),  (1),,  (n  1)
s
j 1
s
  g ji j (n)
j 1
p(n)  G T  (n)
30
L2,2 ‫اتوماتای‬
1
2
 0
1 0
F (0)  

0
1


 1
1
2
M0 
0 1
F (1)  

1
0


1
(c1  c 2 )
2
31
~
f ij  Pij  ci f ij1  d i f ij0
d1
P
c 2
c1 
d 2 
d i  1  ci
PT   
d1 1  c2 2   1 , c1 1  d 2 2   2 ,  1   2  1
1 
c2
c1
, 2 
c1  c2
c1  c2
2
lim M (n)   ci  i 
n
if c1  c2
i 1
2c1c2
c1  c2
2c1c2
1
 (c1  c2 )
c1  c2 2
M ( L2, 2 )  M 0
32
Extensions of L2,2
1 
1   1
F (0)  
1   1 
 1
1  2 
 2
F (1)  
 2 
1   2
0  i 1
i  1,2
 d1 (1   1 )  c1 2
P
c2 (1   2 )  d 2 1
c1 (1   2 )  d1 1 
d 2 (1   1 )  c2 2 
c2 (1   2 )  d 2 1
c1 (1   2 )  d1 1
1 
, 2 
(c1  c2 )(1   2 )  (d1  d 2 ) 1
(c1  c2 )(1   2 )  (d1  d 2 ) 1
2
lim M (n)  M   ci  i 
n
i 1
2c1c2 (1   2 )  (c1d 2  c2 d1 ) 1
(c1  c2 )(1   2 )  (d1  d 2 ) 1
33
1   2  0
deterministic L2,2
2c1c 2
 1  0,  2  [0,1)
M
c1  c 2
 1  [0,1),  2  0
2c1c2  (c1d 2  c2 d1 ) 1
M
(c1  c2 )  (d1  d 2 ) 1
[
2c1c2 c1  c2
,
]
(c1  c2 )
2
 1   2   for 0    1 is Expedient
2
34
‫اتوماتاي يادگير با اقدامهاي متغير‬
‫‪‬‬
‫در لحظه اقدام خود را فقط از يك زير مجموعه غير تهي )‪ v(n‬از اقدامها كه اقدامهاي فعال ناميده ميشوند انتخاب ميكند‪.‬‬
‫‪‬‬
‫‪.1‬‬
‫انتخاب زير مجموعه )‪ v(n‬توسط يك عامل خارجي و بصورت تصادفي انجام ميشود‪.‬‬
‫براي انتخاب يك اقدام در زمان ‪ ،‬ابتدا مجموع احتمال اقدامهاي فعال خود )‪ K(n‬را محاسبه ميكند و سپس بردار)‪ p^(n‬را مطابق رابطه‬
‫زير محاسبه ميكند‪.‬‬
‫‪K (n) ‬‬
‫) ‪p (‬‬
‫‪i‬‬
‫‪.2‬‬
‫‪i‬‬
‫‪‬‬
‫) ‪i V ( n‬‬
‫)‪p (n‬‬
‫‪pˆ i (n)  prob[ (n)  i | V (n) is set of activeactions,i V (n)]  i‬‬
‫)‪K (n‬‬
‫اتوماتای يادگير يك اقدام از مجموعه اقدامهاي فعال خود را بصورت تصادفي و مطابق بردار احتمال انتخاب كرده و بر محيط اعمال ميكند‪.‬‬
‫پس از دريافت پاسخ محيط‪ ،‬اتوماتا بردار )‪ p^(n‬را بهنگام میکند‪.‬‬
‫‪‬‬
‫الف‪ -‬پاسخ مطلوب از محيط‬
‫‪‬‬
‫ب‪ -‬پاسخ نامطلوب از محيط‬
‫‪pˆ i (n  1)  pˆ i (n)  a.(1  pˆ i (n))  (n)   i‬‬
‫)‪pˆ i (n  1)  pˆ j (n)  a. pˆ i (n‬‬
‫‪ (n)   i , j j  i‬‬
‫‪ ( n)  ‬‬
‫‪ (n)   i , j j  i‬‬
‫‪‬‬
‫‪35‬‬
‫سپس بردار )‪ p(n‬بهنگام میشود‪.‬‬
‫)‪pˆ i (n  1)  (1  b). pˆ i (n‬‬
‫‪b‬‬
‫‪pˆ i (n  1) ‬‬
‫)‪ (1  b) pˆ j (n‬‬
‫‪rˆ  1‬‬
‫)‪for all j ,  j V (n‬‬
‫)‪for all j ,  j V (n‬‬
‫)‪p j (n  1)  pˆ j (n  1).K(n‬‬
‫)‪p j (n  1)  p j (n‬‬
‫الگوريتم يادگيری ‪Pursuit‬‬
‫(‪)1‬‬
‫‪ ‬مشابه با الگوريتم ‪ LRI‬با اين تفاوت که‪:‬‬
‫‪ ‬در ‪ LRI‬بردار احتمال در جهت اقدامی که در آخرين گام پاداش دريافت کرده‬
‫حرکت داده میشود‪.‬‬
‫‪ ‬در ‪ Persuit‬بردار احتمال در جهت اقدامی که بيشترين تخمين برای دريافت‬
‫پاداش دارد‪ ،‬حرکت داده میشود‪.‬‬
‫‪36‬‬
‫الگوريتم يادگيری ‪Pursuit‬‬
‫‪‬‬
‫(‪)2‬‬
‫‪ a(n) = ai‬و )‪β(n) = [0, 1‬‬
‫‪p j i (n  1)  (1  a(1   (n))) p j (n) 0  a  1‬‬
‫)‪pk (n  1)  1   p j (n  1‬‬
‫‪‬‬
‫‪‬‬
‫‪37‬‬
‫‪ a(n) = ai‬و ‪β(n) = 1‬‬
‫‪‬‬
‫)‪ Wi(n‬تعداد دفعاتی است که اقدام ‪ i‬پاداش گرفته است‪.‬‬
‫‪‬‬
‫)‪ Zi(n‬تعداد دفعاتی است که اقدام ‪ i‬انتخاب شده است‪.‬‬
‫که )‪ pk(n‬بيشترين تخمين دريافت پاداش ‪ dk‬را دارد‪.‬‬
‫‪j i‬‬
‫‪p j (n 1)  p j (n) j‬‬
‫))‪Wi (n  1)  Wi (n)  (1   (n‬‬
‫‪Z i (n  1)  Z i (n)  1‬‬
‫)‪Wi (n  1‬‬
‫)‪Z i (n  1‬‬
‫‪d i (n  1) ‬‬
‫اتوماتاي يادگير توزيع شده‬
‫‪ ‬شبكهاي از اتوماتاهاي يادگير كه براي حل يك‬
‫مساله خاص با يكديگر همكاري ميكنند‪.‬‬
‫‪ ‬هر لحظه‪ ،‬يك اتوماتاي فعال‬
‫‪LA1‬‬
‫‪LA2‬‬
‫‪2‬‬
‫متصل‬
‫‪ ‬تعداد اقدامهاي هر اتوماتا=تعداد اتوماتاي‬
‫‪ ‬انتخاب اقدام ‪i‬ام ‪ :‬فعال شدن ‪i‬امين اتوماتاي‬
‫متصل‪.‬‬
‫‪1‬‬
‫‪LA3‬‬
‫‪39‬‬
‫پيدا كردن كوتاهترين مسير در يك گراف‬
‫تصادفي‬
‫‪ ‬گراف تصادفي‬
‫‪ ‬تغيير وزن يالها با گذشت زمان‬
‫‪ ‬توالي اقدامهاي ‪ = DLA‬كوتاهترين مسير‬
‫‪ ‬استفاده از اندازه مسير بدست آمده توسط ‪ DLA‬براي محاسبه پاسخ محيط (مطلوب‬
‫يا نامطلوب)‬
‫‪ ‬پاداش‪/‬جريمه براي مسير طي شده‬
‫‪41‬‬
‫پيدا كردن كوتاهترين مسير در يك گراف‬
‫تصادفي(ادامه)‬
‫‪ ‬ايجاد يك ‪ DLA‬همريخت )‪ (isomorphic‬با گراف مورد نظر‬
‫‪ ‬در مرحله ‪k‬ام‪:‬‬
‫‪ - 1‬اتوماتاي مب دا ‪ As‬ي ك اق دام خود مانن د ‪  m‬را انتخاب م يكن د‪.‬‬
‫‪ - 2‬اتوماتاي ‪( Am‬واق ع در انتهاي ديگر يال )‪ )(s,m‬فعال م يش و د‪.‬‬
‫‪ - 3‬تكرار م راحل ‪1‬و ‪ 2‬تازمانيك ه‪:‬‬
‫رسي دن ب ه اتوماتا‪/‬گ ره م قص د‬
‫يا‬
‫م شاه ده كلي ه گ رهه ا‬
‫‪42‬‬
‫پيدا كردن كوتاهترين مسير در يك گراف‬
‫تصادفي(ادامه)‬
‫‪ - 4‬با رسي دن ب ه اتوماتاي م قص د ‪ Ad‬ه زين ه م سير طي ش ده ‪ Li‬و‬
‫ميانگي ن ه زين ه م سيرهاي انتخاب ش ده ‪ C k‬محاسب ه م يش و د‪.‬‬
‫‪ - 5‬م قايس ه با م ق دار ح د آ ستان ه پويا و بروزرساني ح د آ ستان ه پويا و وضعي ت اتوماتاي فعال‬
‫‪‬‬
‫در م رحل ه‬
‫‪‬‬
‫‪k‬ا م‪ :‬ح داق ل ‪( C 0 , C1 ,, C k 1‬با م ق دار اولي ه بسيار بزرگ)‬
‫اگ ر ‪ C k  Tk‬آنگاه‬
‫‪Tk  C k‬‬
‫پاداش ب ه‬
‫‪( DLA‬م سير طي ش د ه)‬
‫در غي ر اينصورت‬
‫بررس ي شرط تكرار الگ وريت م‬
‫‪43‬‬
‫پيدا كردن كوتاهترين مسير در يك گراف‬
‫تصادفي(ادامه)‬
‫‪ ‬شرط خاتمه الگوريتم‬
‫‪ ‬رسيدن احتمال مسير (حاصلضرب احتمال انتخاب يالهاي يك مسير)‬
‫به يك حد آستانه ‪.‬‬
‫‪ ‬بررسي تعداد مسيرهاي مشخص‪.‬‬
‫‪44‬‬
‫پيدا كردن كوتاهترين مسير در يك گراف‬
‫تصادفي(ادامه)‬
‫‪ ‬الگوريتم ‪LRI‬‬
‫‪ ‬جلوگيري از ايجاد دور‬
‫‪ ‬اتوماتاي يادگير با تعداد اقدامهاي متغير‬
‫‪ ‬غيرفعال كردن اقدام ‪ i‬در كليه اتوماتاها‪ ،‬هنگاميكه يك اتوماتا اقدام‬
‫‪ i‬خود را انتخاب ميكند‪.‬‬
‫‪45‬‬
‫مساله فروشنده دورهگرد پويا‬
‫‪ ‬تغيير وزن يالها‬
‫‪ ‬نرخ تغييرات‬
‫‪ DLA ‬همريخت با گراف مساله‬
‫‪ ‬تغيير شرط پايان الگوريتم‬
‫‪46‬‬
‫مراجع‬
[1] K. S. Narendra and M. A. L. Thathachar, "Learning
automata a survey," IEEE Transactions on Systems, Man
and Cybernetics, vol. 4, no. 2, pp. 323-334, 1974.
[2] P. Mars, J. R. Chen, and R. Nambiar, learning algorithms,
theory and applications in signal processing, control, and
communications, CRC Press, 1996.
[3] M. Thathachar and P. Sastry, "Varieties of Learning
automata: An Overview," IEEE Transactions on Systems,
Man and Cybernetics, vol. 32, no. 6, pp. 711-722, 2002.
47

Directory