شبکه های بیزین

Download Report

Transcript شبکه های بیزین

‫موضوع سمینار‪ :‬شبکه های بیزین‬
‫ارائه دهنده ‪ :‬مونا فرخ زادی‬
‫استاد‪ :‬دکتر توحیدخواه‬
‫دی ماه ‪1389‬‬
‫فهرست مطالب‪:‬‬
‫بخش اول‪:‬‬
‫‪ ‬تئوری بیز‬
‫‪MAP ‬‬
‫بخش دوم‪:‬‬
‫‪ ‬مدل های گرافیکی‬
‫‪ ‬شبکه های بیزین‪ ،‬نمایش و کاربردهای آن‬
‫‪ ‬مدلسازی شبکه های تنظیم کننده ژنی با شبکه های بیزین‬
‫بخش اول‬
:‫تئوری بیز‬
P ( D | h) P ( h )
P(h | D) 
P ( D)
‫)‪MAXIMUM A POSTERIORI (MAP‬‬
‫‪HYPOTHESIS‬‬
‫‪ ‬در مسایلی که مجموعه ای از فرضیه های ‪ H‬وجود داشته‬
‫و بخواهیم محتملترین فرضیه را از میان آنان انتخاب کنیم‪،‬‬
‫فرضیه با حداکثر احتمال (‪ )MAP‬نامیده می شود‪.‬‬
‫)‪arg max P(h | D‬‬
‫‪hH‬‬
‫‪‬‬
‫)‪P ( D | h) P ( h‬‬
‫‪ arg max‬‬
‫)‪P( D‬‬
‫‪hH‬‬
‫)‪ arg max P( D | h) P(h‬‬
‫‪hH‬‬
‫در این رابطه مقدار )‪ P(D‬مستقل‬
‫از ‪ h‬بوده و حذف می شود‬
‫‪hMAP‬‬
‫مثال‪:‬تشخیص بیماری‬
‫‪ ‬در یک مسئله تشخیص بیماری دو فرضیه زیروجود دارد‪:‬‬
‫‪ -1‬فرد دارای سرطان است‬
‫‪ -2‬فرد سالم است‬
‫‪ ‬داده های آزمایشگاهی نشان می دهد که ‪ 0.008‬جمعیت دارای این‬
‫بیماری هستند‪.‬‬
‫‪ ‬بعلت نادقیق بودن تست های آزمایشگاهی نتایج آن بصورت زیر‬
‫است‪:‬‬
‫‪ ‬در ‪ 98%‬مواقعی که شخص بیمار است نتیجه تست مثبت است‪.‬‬
‫‪ ‬در ‪ 97%‬مواقعی که شخص سالم است نتیجه تست منفی است‪.‬‬
‫‪P(cancer)=0.008, P(+|cancer)=0.98, P(+|~cancer)=0.03,‬‬
‫‪P(~cancer)=0.992, P(-|cancer)=0.02, P(-|~cancer)=0.97‬‬
‫‪ ‬حال اگر در شخصی‪ ،‬جواب آزمایشگاه مثبت باشد‪ ،‬آیا باید فرد را مبتال به‬
‫سرطان بدانیم؟‬
‫‪ ‬احتمال ابتال به سرطان‪:‬‬
‫)‪P(cancer|+) = P(+|cancer) P(cancer) / P(+) = (0.98)(0.008‬‬
‫)‪/ P(+) = 0.0078 / P(+‬‬
‫‪ ‬احتمال نداشتن سرطان‪:‬‬
‫= )‪P(~cancer|+) = P(+|~cancer) P(~cancer) / P(+‬‬
‫)‪(0.03)(0.992) / P(+) = 0.0298 / P(+‬‬
‫‪ ‬فرضیه ‪: MAP‬‬
‫‪hmap=~cancer‬‬
‫بخش دوم‬
‫مدل گرافیکی‬
‫یک مدل گرافیکی به صورت )‪ G=(X,E‬تعریف می شود‪.‬‬
‫‪(1‬‬
‫گره های ‪ X‬برای نمایش متغیرهای تصادفی به کار می‬
‫روند که از تابع توزیع احتمال )‪ p(X‬استفاده می کنند‪.‬‬
‫‪(2‬‬
‫یالهای ‪ E‬برای تعیین توزیع احتمال وابستگی بین گره ها به‬
‫کار می رود‪.‬‬
‫تعریف شبکه های بیزین‬
‫شبكه بیزین‪ ،‬یك مدل گرافیكي احتماالتي است كه نمایانگر ارتباطات بین‬
‫متغیرهای تصادفی می باشد و از ‪ 2‬جز تشکیل شده است‪:‬‬
‫‪(1‬‬
‫‪(2‬‬
‫یـك گـراف بـدونحـلقه جهتدار‬
‫یك مجموعه از توزیعهاي احتمال شرطي براي هر یك از‬
‫متغیرهاي شبكه‬
‫نمایش شبکه بیزین‬
‫یک گره در ‪BN‬‬
‫یک متغیر‬
‫‪ .1‬کمانهای شبکه‬
‫‪ .2‬جدول توزیع احتمال هرگره‬
‫)‪P(S‬‬
‫‪Smoking‬‬
‫)‪P(C|S‬‬
‫)‪P(B|S‬‬
‫‪Bronchitis‬‬
‫‪lung Cancer‬‬
‫)‪P(X|C,S‬‬
‫)‪P(D|C,B‬‬
‫‪Dyspnoea‬‬
‫‪X-ray‬‬
‫ویژگی بسیار مهم شبكههاي بیزین‬
‫‪ ‬خاصیت مهم شبكههاي بیزین شرط ماركوف است‪ ،‬یعنی هر‬
‫متغیر ‪ Xi‬با داشتن والدین آن (‪ ،)Pai‬از دیگر متغیرها مستقل‬
‫است‪.‬‬
‫‪n‬‬
‫)) ‪P( X 1 , X 2 ,..., X n )   P( X i | Parents( X i‬‬
‫‪i 1‬‬
CPD:
A
B
C
A: p(A) = 0.1
B: p(B) = 0.4
A
0
0
1
1
B C=0 C=1
0 0.5 0.5
1 0.5 0.5
0 0.6 04
1 0.8 0.2
:1 ‫مثال‬
A , B ‫با دانستن احتمال‬
‫ را‬C ‫میتوان احتمال درستی‬
.‫محاسبه نمود‬
p(~A) = 0.9
p(~B) = 0.6
p(C) =p(CAB) + p(C~AB) + p(CA~B) + p(C~A~B)
=p(C | AB) * p(AB) + p(C | ~AB) * p(~AB) +p(C | A~B) * p(A~B)
+ p(C | ~A~B) * p(~A~B)
=p(C | AB) * p(A) * p(B) + p(C | ~AB) * p(~A) * p(B) +
p(C | A~B) * p(A) * p(~B) +p(C | ~A~B) * p(~A) * p(~B) =0.518
‫مثال ‪:2‬‬
‫در صورتیکه بدانیم ‪ C‬درست‬
‫است می توان با استفاده از‬
‫تئوری بیز و)‪ ، p(c‬احتمال‬
‫اینکه کدامیک از ‪ A‬یا ‪B‬علت‬
‫وقوع آن بوده است را محاسبه‬
‫نمود‪:‬‬
‫‪CPD:‬‬
‫‪B C=0 C=1‬‬
‫‪0 0.5 0.5‬‬
‫‪1 0.5 0.5‬‬
‫‪0 0.6 04‬‬
‫‪1 0.8 0.2‬‬
‫‪A‬‬
‫‪0‬‬
‫‪0‬‬
‫‪1‬‬
‫‪1‬‬
‫‪A‬‬
‫‪B‬‬
‫‪C‬‬
‫‪A: p(A) = 0.1 p(~A) = 0.9‬‬
‫‪B: p(B) = 0.4 p(~B) = 0.6‬‬
‫‪C: p(c)= 0.518‬‬
‫* )‪p(B | C) =( p( C | B) * p(B) ) / p(C)=( ( p(C | AB) * p(A) + p(C | ~AB‬‬
‫‪p(~A) ) * p(B) ) / p(C) =( (0.8 * 0.1 + 0.5 * 0.9) * 0.4 ) / 0.518=0.409‬‬
‫* )‪p(A | C) =( p( C | A) * p(A) ) / p(C)=( ( p(C | AB) * p(B) + p(C | A~B‬‬
‫‪p(~B) ) * p(A) ) / p(C)= ( (0.8 * 0.4 + 0.6 * 0.6) * 0.1 ) / 0.518=0.131‬‬
‫لذا در صورت صحیح بودن ‪ c‬میتوان چنین گفت که احتمال اینکه ‪ B‬عامل آن بوده باشد بیشتر است‪.‬‬
BN ‫کاربرد‬
cause
C1
C2
symptom
P(cause|symptom)=? ‫ تشخیص‬
P(symptom|cause)=?‫ پیش بینی‬
‫ دسته بندی‬
‫ سلول‬‫ کروموزوم‬‫ ‪DNA‬‬‫‪ -‬ژن‬
‫‪GENE EXPRESSION‬‬
‫مراحل‪:‬‬
‫‪)1‬رونویسی‬
‫‪)2‬ترجمه‬
‫مدلسازی فرآیند تنظیم ژن‬
‫هر گـره مـتـنـاظر با یك ژن و مقدار آن كه یك متغیر تصادفي‬
‫است‪ ،‬متناظر با سطح بیان آن ژن است‪.‬‬
‫مزایای شبکه های بیزین‬
‫‪ ‬تـصــادفــيبــودن مــدل‪ ،‬مزیت بـسـیـار مـهـمـي اسـت‪ ،‬زیرا بـیـان‬
‫ژن یـك پـدیـده تـصـادفـي اسـت‪.‬‬
‫‪ ‬قـابـلـیـت كـار با مقادیر گمشده موجود در مجموعه داده و متغیرهاي‬
‫پـنـهان‬
‫ضعف های شبکه های بیزین‬
‫تاخیر زمانی ویژگی بسیار مهم شبکه های تنظیم کننده ژنتیکی‬
‫است‪.‬‬
‫‪ ‬ضعف اصلی شبکه های بیزین‪ :‬عدم توانایی در مدل کردن‬
‫دینامیک فرآیند تنظیم ژن و محدود بودن به روابط غیر حلقوی‬
‫استفاده از شبکه های بیزین دینامیک‬
‫‪ ‬شبكههاي بیزین دینامیك‪ ،‬تعمیم شبكههاي بیزین هستند‪ .‬آنها‬
‫قادر به مدل کردن دینامیک فرآیندها می باشند‪.‬‬
‫شبکه بیزین مرتبه ‪ 1‬مارکوف‬
‫شبکه بیزین مرتبه ‪ R‬مارکوف‬
‫جمع بندی و خالصه‪:‬‬
‫‪ ‬شبکه های بیزین ابزار نسبتا جدیدی جهت مدلسازی فرآیندهای‬
‫تصادفی هستند‪ .‬این شبکه ها مدل های گرافیکی احتماالتی‬
‫هستند که روابط بین متغیرهای تصادفی را مدل می کنند‪.‬‬
‫‪ ‬ضعف اصلی آن ها ‪ :‬عدم توانایی در مدل کردن دینامیک‬
‫فرآیندها می باشد‬
‫‪ ‬شبکه های بیزین دینامیک قادرند این ضعف را جبران کنند‪.‬‬
30