שיטות סטטיסטיות

Download Report

Transcript שיטות סטטיסטיות

‫שיטות סטטיסטיות‬
‫‪Statistical Methods‬‬
‫ד"ר אבי רוזנפלד‬
‫שיעור חזרה על סטטיסטיקה‬
‫• יש קופסה של כדורים– ‪ 3‬מהם הם כחול ו‪ 2‬ירוק‬
‫• מה ההסתברות שמישהו יבחר בא' כחול ()‪)P(A‬‬
‫– ‪3/5‬‬
‫• מה ההסתברות שמישהו ייקח שני ירוקים ברצוף‬
‫)‪P(AB) = P(A)* P(B‬‬
‫– ‪2/5*1/4‬‬
‫• אבל מה יקרה אם הירוקים קצת יותר גדולים‬
‫ואנשים יכולים להרגיש את ההבדל???‬
‫– הסתברות עם תלויות ‪Conditional Probability -‬‬
‫עוד דוגמא‬
‫• אתה זורק קוביה‪ ...‬מה ההסתברות שהמספר = ‪?1‬‬
‫– ‪1/6‬‬
‫• אבל מה ההסתברות אם אני אומר לך המספר הוא‬
‫אי‪-‬זוגי?‬
‫– ‪1/3‬‬
‫• פורמאלית‪ ,‬אני קורא לאירוע שאני רוצה לנחש‬
‫בשם ‪ ,E‬ההסתברות שלו הוא )‪ ,P(A‬ויש לי ידיעה‬
‫על אירוע (או אירועים) נוסף ‪.B‬‬
‫• פה‪: P(A|B) = 1/3 :‬‬
Conditional Probability
P( A  B)
P( A B) 
P( B)
A
S
B
‫חוק בייס ‪Bayes‬‬
‫• ההסתברות ששני דברים יקראו ביחד‪:‬‬
‫במילים פשוטות‪...‬‬
‫=‬
‫דוגמא‬
‫• מישהו אמר לך שהוא דיבר ‪“with someone with‬‬
‫”‪long hair‬‬
‫– מה ההסתברות שזאת אישה?‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫)‪ =P(W‬ההסתברות לאישה‪ = P(M) ,‬לאיש‬
‫)‪ =P(L|M‬לכמה אנשים יש שיעור ארוך‬
‫)‪ =P(L|W‬לכמה נשים יש שיעור ארוך‬
‫)‪ = P(L‬לכמה בני אדם באופן כללי יש שיעור ארוך‬
‫)‪ = P(W|L‬ההסתברות לאישה בהינתן שיעור ארוך‬
‫מספרים‬
‫• מישהו אמר לך שהוא דיבר ‪“with someone with‬‬
‫”‪long hair‬‬
‫– מה ההסתברות שזאת אישה?‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫)‪ =P(W‬ההסתברות לאישה‪ = P(M) ,‬לאיש = ‪0.5‬‬
‫)‪ =P(L|M‬לכמה אנשים יש שיעור ארוך = ‪0.15‬‬
‫)‪ =P(L|W‬לכמה נשים יש שיעור ארוך = ‪0.75‬‬
‫)‪0.5*0.15+0.5*0.75 = P(L‬‬
‫)‪ = P(W|L‬ההסתברות לאישה בהינתן שיעור ארוך‬
‫אז‪...‬‬
‫‪Bayes Factor‬‬
‫)‪P(L|W‬‬
‫‪---------‬‬‫)‪P(L|M‬‬
‫אז אם ההסתברות שיהיה לאיש שיעור ארוך = ‪ ,0.15‬ולאישה ‪ 0.75,‬היחס‬
‫היינו ‪5/1 = 0.75/ 0.15‬‬
Lift ‫הסתברותי‬
Lift long_hair(Woman) = 0.83/0.5 = 1.66
‫דוגמא מהספר‪ -‬כמה אתה חכם?‬
‫באופן מעשי זה קשה לעשות‪...‬‬
‫• אם יש כמה מאפיינים ‪ ,X1, X2, Xn‬אז אני צריך‬
‫‪:‬‬
‫הנוסחה‬
‫את‬
‫ביחד‬
‫לחשב‬
‫) ‪P( X , X ,, X | Y‬‬
‫‪n‬‬
‫‪2‬‬
‫‪1‬‬
‫• לדוגמא‪ :‬אני רוצה לזהות מה ההסתברות שיש‬
‫למישהו סרטן‪ .‬המאפיינים של אנשים בריאים‬
‫קשורים א' לשני‪ ,‬וגם הפוך‪.‬‬
‫הפתרון‪Naïve Bayes :‬‬
‫‪.1‬‬
‫= ה‪ = Posterior‬מה שאתה רוצה‬
‫ללמוד (סיוג)‬
‫= ‪ Prior‬של הקטגוריה‪ .‬בד"כ כמה הוא‬
‫‪.2‬‬
‫נמצא‬
‫= ההסתברות בהינתן המאפיינים‬
‫‪.3‬‬
‫שזה שייך ל‪.c‬‬
The Naïve Bayes Algorithm
• For each value yk
– Estimate P(Y = yk) from the data.
– For each value xij of each attribute Xi
• Estimate P(Xi=xij | Y = yk)
• Classify a new point via:
Ynew 
 arg max P(Y  yk ) P( X i | Y  yk )
yk
i
• In practice, the independence assumption
doesn’t often hold true, but Naïve Bayes
performs very well despite it.
15
‫השיטה ‪Naïve Bayes‬‬
‫(כמה המאפיינים אלו‬
‫• שימו לב שדלגתי על‬
‫מופיעים) כי הוא קיים בכל המצבים‬
‫• מניח באופן נאיבי (ולכן השם) שאין תלות‪ .‬ולכן‬
‫הנוסחה‪:‬‬
‫) ‪P( X 1, X 2 ,, X n | Y‬‬
‫הופך להיות‪:‬‬
‫) ‪P ( X 1 , , X n | Y )   P ( X i | Y‬‬
‫‪i‬‬