اتوماتاهاي يادگير ارائه دهنده : علي برادران هاشمي 1 فهرست مطالب مقدمه اتوماتاهاي يادگير محيط اتوماتاهاي يادگير ساختار ثابت اتوماتاهاي يادگير ساختار متغير الگوريتمهاي.
Download
Report
Transcript اتوماتاهاي يادگير ارائه دهنده : علي برادران هاشمي 1 فهرست مطالب مقدمه اتوماتاهاي يادگير محيط اتوماتاهاي يادگير ساختار ثابت اتوماتاهاي يادگير ساختار متغير الگوريتمهاي.
اتوماتاهاي يادگير
ارائه دهنده:
علي برادران هاشمي
1
فهرست مطالب
مقدمه
اتوماتاهاي يادگير
محيط
اتوماتاهاي يادگير ساختار ثابت
اتوماتاهاي يادگير ساختار متغير
الگوريتمهاي يادگيري
2
تعريف
يادگيري :فرايندي كه براي تغيير در رفتار موجودات براي سازگاري با
محيط ضروري است.
اتوماتاهاي يادگير :يك تصميمگيرنده كه در يك محيط [تصادفي] عمل
ميكند و بر اساس پاسخي كه دريافت ميكند ،استراتژي خود براي
انتخاب اقدام(عمل) را بهنگام ميكند.
مثال:
محيط :شبکه کامپيوتری مورد بررسی
پاسخ محيط :دريافت Ack
اقدام اتوماتا :انتخاب يک مسير برای ارسال داده در يک مسيرياب
3
اتوماتاهاي يادگير
هدف از طراحي يك اتوماتاي يادگير تشخيص چگونگي انتخاب
اقدام بر اساس تجارب گذشته (اقدامها و پاسخها) است.
دانش بسيار كمي درباره محيط وجود دارد.
محيط ممكن است با گذشت زمان متغير باشد.
4
محيط
()1
يادگيري در رويكرد مبتني بر اتوماتاهاي يادگير ،بصورت تشخيص يك
اقدام/عمل بهينه از ميان مجموعه اقدامهاي مجاز ميباشد.
اين اقدام در يك محيط تصادفي اِعمال ميشود.
محيط با توليد يك خروجي به اقدام اعمال شده پاسخ ميدهد.
5
محيط
()2
يك سه تايي
}E { , , c
يادگير {1 , 2 ,...,)r
}
α مجموعه وروديهاي محيط (اقدامهاي اتوماتاهاي
β مجموعه پاسخهاي محيط
c مجموعه احتمالهاي جريمه
} {1, 2 ,...,n
} c {c1 , c2 ,...,cr
ci احتمال دريافت پاسخ نامطلوب از محيط هنگاميکه اقدام iدر محيط اعمال میشود.
Pr( (n) is unfavorable (n) i ) ci
6
محيط :مجموعه پاسخها
βi ها -پاسخ محيط -اگر:
دودويي باشد ( 0و :)1محيط مدل P
β={0,1}
تعداد محدود ،در بازه [ ]0 ،1باشد :محيط مدل Q
مانند }β={0,1/4,1/2,3/4,1
يك مقدار تصادفي در بازه [ ]0 ،1باشد :محيط مدل S
β=[0,1]
7
محيط :مجموعه جريمهها
اگر ciها ثابت و مشخص باشد؟ ) ci Pr( (n) is unfavorable (n) i
نيازي به يادگيري نيست!
اقدام بهينه=اقدامي با كمترين جريمه
مسائلی که ciها ناشناخته هستند مورد نظر میباشند.
8
اتوماتاهای
مجموعه وضعيتهاي داخلی اتوماتاها }Φ = {Φ1, Φ2,..., Φr
مجموعه اقدامها
مجموعه وروديهاي محيط
تابع انتقال وضعيت
تابع خروجي
9
} α = {α1, α2,..., αr
} β = {β1, β2,..., βr
F(.,.) : Φ* β →Φ
G(.) : Φ→ α
دستهبندی اتوماتاها:
قطعی و تصادفی
اتوماتاي قطعي (:)deterministic
اگر Fو Gهر دو نگاشتهايي قطعي باشند.
با اطالع از وضعيت فعلی اتوماتا و ورودی اتوماتا (پاسخ محيط) ،وضعيت بعدی
اتوماتا و اقدام آن مشخص میباشد.
اتوماتاي تصادفي (:)Stochastic
اگر Fيا Gتصادفي باشند.
با اطالع از وضعيت فعلی اتوماتا و ورودی اتوماتا (پاسخ محيط) ،فقط احتمال
وضعيت بعدی اتوماتا و اقدام آن مشخص میباشد.
10
دستهبندی اتوماتاها:
ساختار ثابت و متغير
:fijβاحتمال اينکه اتوماتا با دريافت پاسخ βاز وضعيت φiبه وضعيت φjبرود.
:gijاحتمال اينکه وضعيت φiمطابق با اقدام αjباشد.
اتوماتاي ساختار ثابت:
اگر احتمال تغيير حالت fijβو احتمال انتخاب اقدام gijثابت باشد.
اتوماتاي ساختار متغير:
اگر احتمال تغيير حالت fijβو احتمال انتخاب اقدام gijمتغير باشد.
11
اتوماتاهاي ساختار ثابت
L2N2
G2N2
Krinsky
Krylov
12
اتوماتاي L2N,2
داراي 2Nوضعيت و 2اقدام ميباشد.
زماني كه تعداد جريمهها بيشتر از پاداشها ميگردد ،اقدام ديگر را انتخاب
ميكند.
اقدام 2
2N
اقدام 1
N+1
1
N
پاداش
β =0
13
جريمه
β =1
G2N,2
بعد از يك تغيير اقدام ،براي تغيير مجدد نياز به nپاسخ
نامطلوب است.
اقدام 2
اقدام 1
N+1
2N
N
1
پاداش
β =0
جریمه
N+2 N+1
14
N+3
2N 2N-1
N-1 N
3
2
1
β =1
Krinsky
براي تغيير وضعيت نياز به nپاسخ نامطلوب است.
N+1
N+3 N+2
2N 2N-1
N-1 N
اقدام 2
2N
3
2
1
پاداش
β =0
اقدام 1
N+1
1
N
جريمه
β =1
15
مانند
L2,N2
Krylov
هنگاميكه اتوماتا در وضعيت iبا يك پاسخ نامطلوب مواجه با احتمال
0.5به i+1و با احتمال 0.5به وضعيت i-1منتقل ميشود.
پاداش
N+2
N+1
2N
2N-1
N-1
N
2
=0
1
β
مانند L2,N2
0.5
0.5
0.5
0.5
0.5
0.5
0.5
جريمه
N+1
16
N+2
2N-1
2N
N
N-1
2
1
=1
β
اتوماتاي يادگير ساختار متغير
}SLA { , , p, T , c
} p { p1 , p2 ,..., pr
])T p(n 1) T [ (n), (n), p(n
تابع Gبا بردار احتمال و تابع Fنيز با الگوريتم يادگيري جايگزين شدهاند.
اگر LAعمل iام را در مرحله nام انتخاب كند وپاسخ مطلوب از محيط دريافت نمايد ،احتمال
) pi(nافزايش و ساير احتمالها كاهش مييابد.
براي پاسخ نامطلوب ) pi (nكاهش و ساير احتمالها افزايش مييابد.
در هر حال،تغييرات بگونهاي صورت ميپذيرد كه حاصل جمع تمام ) pi (nها همواره برابر با
1است.
18
الگوريتم يادگيری
β(n)=0 پاسخ مطلوب از محيط- الف
pi (n 1) pi (n)
r
f j [ p j (n)]
j 1
j i
p j (n 1) p j (n) f j [ p j (n)]
j, j i
β(n)=1 پاسخ نامطلوب از محيط- ب
r
pi (n 1) pi (n) g j [ p j (n)]
j 1
j i
p j (n 1) p j (n) g j [ p j (n)]
j , j i
19
الگوريتم يادگيري خطي (محيط مدل)P
الف -پاسخ مطلوب از محيط β(n)=0
])pi (n 1) pi (n) a[1 pi (n
)p j (n 1) (1 a) p j (n
j, j i
ب -پاسخ نامطلوب از محيط β(n)=1
j , j i
)pi (n 1) (1 b) pi (n
b
p j (n 1)
) (1 b) p j (n
r 1
امتر جريمه
امتر پاداش و bپار
aپار
ابر باشند ،الگوريتم را LRPمي ناميم.
اگر aو bبا هم بر
کوچکتر باشد ،الگوريتم را LRεPمي ناميم.
اگر bاز aخيلي
صفر باشد .الگوريتم را LRIمي نامند.
اگر bمساوي
20
)Sالگوريتم يادگيري خطي (محيط مدل
[0,1] S محيط مدل
pi (n 1) pi (n) a.(1 i (n)).(1 pi (n)) a. i (n). pi (n)
1
p j (n 1) p j (n) a.(1 i (n)). p j (n) a. i (n).
p j (n) a.(1 i (n)). p j (n)
r 1
j
21
ji
LA
22
Select Action
23
Update
24
معيارهای رفتار اتوماتاهای يادگير
()1
ميانگين جريمه دريافت شده توسط اتوماتا
ci احتمال جريمه متناظر با اقدام αi
r
) ci pi (n
M (n) E[ (n) | p(n)]
i 1
در يک اتوماتای شانسی محض
1 r
M 0 ci
r i 1
25
معيارهای رفتار اتوماتاهای يادگير
)2(
M (n) E[ (n) | p(n)]
r
ci pi (n)
i 1
:expedient اتوماتای يادگير مصلحت انديش
lim E[ M (n)] M 0
n
اگر
:Absolutely expedient اتوماتای يادگير مصلحت انديش مطلق
E[M (n 1) | p(n)] M (n)
n, pi (n) (0,1), for all possiblesets{ci } (i 1,2,...,r)
26
معيارهای رفتار اتوماتاهای يادگير
()3
r
) ci pi (n
اتوماتای يادگير بهينه :Optimal
اگر } cl min{ci
M (n) E[ (n) | p(n)]
i 1
lim E[M(n)] c l
مناسب در يک محيط ايستا stationary
اتوماتای يادگير :ε-Optimal
اگر
, 0
lim E[ M (n)] c l
مناسب در يک محيط غيرايستا non-stationary
27
n
n
f ij
بهφi از وضعيتβ احتمال اينکه اتوماتا با دريافت پاسخ:fijβ
. برودφj وضعيت
Pr (n 1) (n) , (n)
j
i
s
f
ij for each and i
j 1
. باشدαj مطابق با اقدامφi احتمال اينکه وضعيت:gij
gij Pr (n) j (n) i
r
g
j 1
ij
for each i
28
: احتمال اينکه اتوماتا در يک حالت مشخص باشد
(n) 1 (n), 2 (n),, s (n)T
j (0) Pr (0) j
j (n) Pr (n) j (0), (1),, (n 1)
j (1) P r (1) j (0)
P r (1)
s
i 1
s
f
i 1
ij
( 0)
j
(0) i , (0)P r (0) i
i (0)
(1) F T ( (0)) (0)
29
n در زمانi احتمال انتخاب اقدام
pi (n) Pr (n) i (0), (1),, (n 1)
i 1,2,, r
pi (n) Pr (n) i (n) j Pr (n) j (0), (1),, (n 1)
s
j 1
s
g ji j (n)
j 1
p(n) G T (n)
30
L2,2 اتوماتای
1
2
0
1 0
F (0)
0
1
1
1
2
M0
0 1
F (1)
1
0
1
(c1 c 2 )
2
31
~
f ij Pij ci f ij1 d i f ij0
d1
P
c 2
c1
d 2
d i 1 ci
PT
d1 1 c2 2 1 , c1 1 d 2 2 2 , 1 2 1
1
c2
c1
, 2
c1 c2
c1 c2
2
lim M (n) ci i
n
if c1 c2
i 1
2c1c2
c1 c2
2c1c2
1
(c1 c2 )
c1 c2 2
M ( L2, 2 ) M 0
32
Extensions of L2,2
1
1 1
F (0)
1 1
1
1 2
2
F (1)
2
1 2
0 i 1
i 1,2
d1 (1 1 ) c1 2
P
c2 (1 2 ) d 2 1
c1 (1 2 ) d1 1
d 2 (1 1 ) c2 2
c2 (1 2 ) d 2 1
c1 (1 2 ) d1 1
1
, 2
(c1 c2 )(1 2 ) (d1 d 2 ) 1
(c1 c2 )(1 2 ) (d1 d 2 ) 1
2
lim M (n) M ci i
n
i 1
2c1c2 (1 2 ) (c1d 2 c2 d1 ) 1
(c1 c2 )(1 2 ) (d1 d 2 ) 1
33
1 2 0
deterministic L2,2
2c1c 2
1 0, 2 [0,1)
M
c1 c 2
1 [0,1), 2 0
2c1c2 (c1d 2 c2 d1 ) 1
M
(c1 c2 ) (d1 d 2 ) 1
[
2c1c2 c1 c2
,
]
(c1 c2 )
2
1 2 for 0 1 is Expedient
2
34
اتوماتاي يادگير با اقدامهاي متغير
در لحظه اقدام خود را فقط از يك زير مجموعه غير تهي ) v(nاز اقدامها كه اقدامهاي فعال ناميده ميشوند انتخاب ميكند.
.1
انتخاب زير مجموعه ) v(nتوسط يك عامل خارجي و بصورت تصادفي انجام ميشود.
براي انتخاب يك اقدام در زمان ،ابتدا مجموع احتمال اقدامهاي فعال خود ) K(nرا محاسبه ميكند و سپس بردار) p^(nرا مطابق رابطه
زير محاسبه ميكند.
K (n)
) p (
i
.2
i
) i V ( n
)p (n
pˆ i (n) prob[ (n) i | V (n) is set of activeactions,i V (n)] i
)K (n
اتوماتای يادگير يك اقدام از مجموعه اقدامهاي فعال خود را بصورت تصادفي و مطابق بردار احتمال انتخاب كرده و بر محيط اعمال ميكند.
پس از دريافت پاسخ محيط ،اتوماتا بردار ) p^(nرا بهنگام میکند.
الف -پاسخ مطلوب از محيط
ب -پاسخ نامطلوب از محيط
pˆ i (n 1) pˆ i (n) a.(1 pˆ i (n)) (n) i
)pˆ i (n 1) pˆ j (n) a. pˆ i (n
(n) i , j j i
( n)
(n) i , j j i
35
سپس بردار ) p(nبهنگام میشود.
)pˆ i (n 1) (1 b). pˆ i (n
b
pˆ i (n 1)
) (1 b) pˆ j (n
rˆ 1
)for all j , j V (n
)for all j , j V (n
)p j (n 1) pˆ j (n 1).K(n
)p j (n 1) p j (n
الگوريتم يادگيری Pursuit
()1
مشابه با الگوريتم LRIبا اين تفاوت که:
در LRIبردار احتمال در جهت اقدامی که در آخرين گام پاداش دريافت کرده
حرکت داده میشود.
در Persuitبردار احتمال در جهت اقدامی که بيشترين تخمين برای دريافت
پاداش دارد ،حرکت داده میشود.
36
الگوريتم يادگيری Pursuit
()2
a(n) = aiو )β(n) = [0, 1
p j i (n 1) (1 a(1 (n))) p j (n) 0 a 1
)pk (n 1) 1 p j (n 1
37
a(n) = aiو β(n) = 1
) Wi(nتعداد دفعاتی است که اقدام iپاداش گرفته است.
) Zi(nتعداد دفعاتی است که اقدام iانتخاب شده است.
که ) pk(nبيشترين تخمين دريافت پاداش dkرا دارد.
j i
p j (n 1) p j (n) j
))Wi (n 1) Wi (n) (1 (n
Z i (n 1) Z i (n) 1
)Wi (n 1
)Z i (n 1
d i (n 1)
اتوماتاي يادگير توزيع شده
شبكهاي از اتوماتاهاي يادگير كه براي حل يك
مساله خاص با يكديگر همكاري ميكنند.
هر لحظه ،يك اتوماتاي فعال
LA1
LA2
2
متصل
تعداد اقدامهاي هر اتوماتا=تعداد اتوماتاي
انتخاب اقدام iام :فعال شدن iامين اتوماتاي
متصل.
1
LA3
39
پيدا كردن كوتاهترين مسير در يك گراف
تصادفي
گراف تصادفي
تغيير وزن يالها با گذشت زمان
توالي اقدامهاي = DLAكوتاهترين مسير
استفاده از اندازه مسير بدست آمده توسط DLAبراي محاسبه پاسخ محيط (مطلوب
يا نامطلوب)
پاداش/جريمه براي مسير طي شده
41
پيدا كردن كوتاهترين مسير در يك گراف
تصادفي(ادامه)
ايجاد يك DLAهمريخت ) (isomorphicبا گراف مورد نظر
در مرحله kام:
- 1اتوماتاي مب دا Asي ك اق دام خود مانن د mرا انتخاب م يكن د.
- 2اتوماتاي ( Amواق ع در انتهاي ديگر يال ) )(s,mفعال م يش و د.
- 3تكرار م راحل 1و 2تازمانيك ه:
رسي دن ب ه اتوماتا/گ ره م قص د
يا
م شاه ده كلي ه گ رهه ا
42
پيدا كردن كوتاهترين مسير در يك گراف
تصادفي(ادامه)
- 4با رسي دن ب ه اتوماتاي م قص د Adه زين ه م سير طي ش ده Liو
ميانگي ن ه زين ه م سيرهاي انتخاب ش ده C kمحاسب ه م يش و د.
- 5م قايس ه با م ق دار ح د آ ستان ه پويا و بروزرساني ح د آ ستان ه پويا و وضعي ت اتوماتاي فعال
در م رحل ه
kا م :ح داق ل ( C 0 , C1 ,, C k 1با م ق دار اولي ه بسيار بزرگ)
اگ ر C k Tkآنگاه
Tk C k
پاداش ب ه
( DLAم سير طي ش د ه)
در غي ر اينصورت
بررس ي شرط تكرار الگ وريت م
43
پيدا كردن كوتاهترين مسير در يك گراف
تصادفي(ادامه)
شرط خاتمه الگوريتم
رسيدن احتمال مسير (حاصلضرب احتمال انتخاب يالهاي يك مسير)
به يك حد آستانه .
بررسي تعداد مسيرهاي مشخص.
44
پيدا كردن كوتاهترين مسير در يك گراف
تصادفي(ادامه)
الگوريتم LRI
جلوگيري از ايجاد دور
اتوماتاي يادگير با تعداد اقدامهاي متغير
غيرفعال كردن اقدام iدر كليه اتوماتاها ،هنگاميكه يك اتوماتا اقدام
iخود را انتخاب ميكند.
45
مساله فروشنده دورهگرد پويا
تغيير وزن يالها
نرخ تغييرات
DLA همريخت با گراف مساله
تغيير شرط پايان الگوريتم
46
مراجع
[1] K. S. Narendra and M. A. L. Thathachar, "Learning
automata a survey," IEEE Transactions on Systems, Man
and Cybernetics, vol. 4, no. 2, pp. 323-334, 1974.
[2] P. Mars, J. R. Chen, and R. Nambiar, learning algorithms,
theory and applications in signal processing, control, and
communications, CRC Press, 1996.
[3] M. Thathachar and P. Sastry, "Varieties of Learning
automata: An Overview," IEEE Transactions on Systems,
Man and Cybernetics, vol. 32, no. 6, pp. 711-722, 2002.
47