Transcript משפט
גילוי מידע וזיהוי תבניות תרגול מס3 . • • • • • • 1 התפלגות נורמלית רב-מימדית Dkl Kullback-Leibler Divergenceמשפט קמירות -נגזרת שנייה משפטLog sum inequality משפט אי-שוויון האינפורמציה נורמה +( L1משפט ) התפלגות נורמלית x 2 p x exp 2 2 2 2 :במימד אחד 1 E X xp x dx x px dx 2 var X E X 2 2 2 ב - dמימדים: 1 t 1 exp x μ Σ x μ 2 1 2 1 Σ 2 2 d px xהוא וקטור d -מימדי μהוא הוקטור הממוצע ,המקייםi EX i , i 1,2,...,d : Σהיא מטריצת הקו-וואריאנס במימד d d שהאיבר ה ij-שלה מוגדר ע”י: ij E X i i X j j וניתן גם לסמן: 3 Σ E X μX μ t 4 מספר הערות לגבי ההתפלגות הנורמלית הרב- מימדית • ההתפלגות השולית של כל רכיב היא נורמליתXi ~ N i , . ii • Σמטריצה סימטרית ij :ji • Σהיאpositive semi-definite • האלכסון של Σ • אם מכיל את השונויות של 2 הרכיבים ii E X i i. אז i j : ij X i , X jבלתי-תלויים0 , מטריצה • אם כל הרכיבים בת”לΣ , i j : ij 0: אלכסונית ,וההתפלגות המשותפת היא מכפלת ההתפלגויות px pxi 5השוליות: i Kullback-Leibler Divergence הגדרה: p x p x Dkl p || q px log E p log q x q x x Dklאינו מרחק אמיתי -הוא אינו סימטרי: ואינו מקיים את אי-שוויון המשולש. Dkl p || q Dkl q || p Dkl p || q היא מידה של חוסר היעילות בהנחה כי X ~ q x כאשר התפלגות האמיתית היא X ~ px למשל -בדחיסת נתונים :אם ידוע p x ניתן לתאר את Xע”י H p ביטים. אם נניח X ~ q x נוכל לתאר את Xרק ע”י H p Dkl p || q ביטים. 6 0 p משיקולי רציפות ,נשתמש בהנחה0 log 0 , p log for p 0 : q 0 בחישוב Dkl p1 r , q1 s: שתי פונקציות מסהp,q ויהיו 0,1 יהי:דוגמה p0 p1 Dkl p || q p0 log p1 log q0 q1 1 r r 1 r log r log 1 s s 1 s s Dkl q || p 1 s log s log 1 r r 1 r r Dkl p || q 1 r log r log 0 :אז 1 r r Dkl q || p 0 :אזי rs אם .0 ה”מרחק” בין התפלגויות זהות הוא- כלומר 7 : נקבלr 1 1 2 , s 1 4 (המשך הדוגמה) אם 1 1 1 2 Dkl p || q log log 2 0.2075 bits 3 1 2 2 4 4 3 1 3 1 Dkl q || p log 4 log 4 0.1887 bits 1 1 4 4 2 2 p X 1 1 כאשר למעשהp X 1 1 עולה לנו” יותר להניח 2 4 “ .מאשר להיפך 1 1 : נקבלr 1 2 , s 1 עבור 1 1 2 Dkl p || q log log 2 bits 2 0 2 1 0 1 Dkl q || p 0 log 1log 1 bits 1 1 2 2 8 (המשך הדוגמה) משמעות התוצאות :מבחינה סטטיסטית ,להניח ודאות כאשר אין ודאות- זה הרבה יותר גרוע מלהניח חוסר ודאות כאשר יש ודאות. 9 שימוש ב Dkl -להערכת סבירות של תוצאות מבצעים nניסויי ברנולי( עם פרמטר p).מה הסיכוי ל -mהצלחות? n m !n nm nm m Pn m p 1 p p 1 p !m!n m m חישוב כזה קשה לביצוע עבור nגדול. נראה דרך אלטרנטיבית ,עם שימוש בDkl - לפי נוסחת סטרלינג: 1 2n logn! n log n n log e log2n 2 10 n n n! e n log logn! logm! logn m ! m 1 n log n n log e log2n 2 1 m log m m log e log2m 2 1 n m logn m n m log e log2 n m 2 m nm 1 n n log n log m logn m log n n 2n 2mn m . ונשמיט אותו מכאן והלאה, האיבר האחרון זניח, גדולn עבור 11 n m nm log n log n log m logn m n n m m n m m nm n logn m log n log m n n n n m m n m n m n log log n n n n 12 n m nm logPn m log p 1 p m n log m log p n m log1 p m m m n m n m n log log n n n n m log p n m log1 p m n m m n n m n m n log log n Dkl B || B p n p p n n 13 m logPn m n Dkl B || B p n Pn m 2 m n Dkl B || B p n :דוגמה לחישוב בעיה ? הטלות של מטבע הוגנת100- פעמים “עץ” ב70 מה הסיכוי לקבל P100 70 2100 Dkl B 0.7 || B 0.5 21000.12 0.000244 0.7 0.3 Dkl B0.7 || B0.5 0.7 log 0.3 log 0.12 14 0.5 0.5 משפט :אם לפונקציה fיש נגזרת שנייה אי-שלילית (חיובית) בכל נקודה, אז fקמורה (קמורה ממש). תזכורת -הגדרת פונקציה קמורה: x1 , x2 ,0 1 : f x1 1 x2 f x1 1 f x2 הוכחה :פיתוח טיילור של f x סביבx0 : f x 2 x x0 f x f x0 f x0 x x0 2 x x0 , x נתון f x 0ולכן הביטוי האחרון אי-שלילי ונקבל את אי-השוויון: f x f x0 f x0 x x0 15 :ונקבל x0 λ x1 1-λx2 , x x1 (המשך ההוכחה) נציב (1) f x1 f x0 f x0 1 x1 x2 :ונקבל (2) f x2 f x0 f x0 x2 x1 x x2 (3) f x1 f x0 f x0 1 x1 x2 נציב,באופן דומה - :) ב1( נכפיל את - 1 :) ב2( נכפיל את (4) 1 f x2 1 f x0 f x0 1 x2 x1 :) ונקבל4(-) ו3( נחבר את f x1 1 f x2 1 f x0 f x1 1 x2 f . ולקבל“ קמירות ממש” של - ב .וזוהי בדיוק הגדרת הקמירות אז ניתן להחליף כלf 0 אם 16 (LOG SUM INEQUALITY):משפט Let a1 ,...,an , b1 ,...,bn non - negativenumbers. n ai T hen: ai log ai log bi i 1 i 1 n n a i 1 n i b i 1 i ai wit h equality iff const bi ai 0 , bi 0 נניח בה”כ כי:הוכחה 1 f t log e כי, היא קמורה ממשf t t logt t הפונקציה . חיוביt חיובית לכל 17 By Jensen's inequality: f t f t i i Subst it uting i i i for ai 0 , bi ai , ti bi n b j 1 i i 1 )(המשך ההוכחה we get : j n n n ai log ai ai log ai n n n b i 1 i i 1 b j b j i 1 b j j 1 j 1 j 1 n Multiplying both sides in b j 1 j we get : n n n ai ai a log a i i log n bi i 1 i 1 i 1 b j j 1 18 And thisprovesthe theorem,because )(המשך ההוכחה n n i 1 ai n b j 1 j a1 ... n b j 1 j an n b j 1 j a i 1 n b j 1 i j 19 .מספר שימושים- Log sum inequality למשפט ה :שוויון האינפורמציה- הוא מאפשר להוכיח את משפט אי,למשל ):שוויון האינפורמציה-משפט (אי Let p x , q x two mass functions. T hen Dkl p || q 0 with equality iff x : p x q x :הוכחה Dkl p x p x 1 p || q px p x log 1log 0 q x 1 q x x x x p x C ושוויון מתקיים אםםLog sum inequality, השוויון נובע ממשפט-אי q x px qx כלומרC=1, קל לראות כי בהכרח x 20 הגדרה :נורמה L1בין שתי התפלגויות מוגדרת באופן הבא: P1 P2 1 P1 a P2 a a נורמה Lkמוגדרת ע”י: למה: 2 1 1 k k P1 a P2 a a k 1 Dkl P1 || P2 P1 P2 2 ln 2 הוכחה :ראשית נוכיח את הלמה במקרה ה”בינארי”. נניח 2התפלגויות בינאריות עם פרמטרים p, qכאשר p q נראה כי: p 1 p 4 2 p q נשים לב כי: 21 2 2 ln 2 1 q 4 p q P1 P2 2 1 1 p log q p log P1 P2 :השוויון הוא- בין שני צדדי איg p, q ההפרש g p, q p log p 1 p 4 p q 2 1 p log q 1 q 2 ln 2 q : לפיg כקבוע ונגזור אתp נסתכל על dg p, q p 1 p 4 2q p dq q ln 2 1 q ln 2 2 ln 2 q p 4 q p 1 q p 4 0 q1 q ln 2 ln 2 ln 2 q1 q 1 q p , q1 q 4 . היא פונקציה מונוטונית יורדתg q קבועp שכבור,מכאן . והוכחנו את המקרה הבינאריg 0 ולכןg 0 נקבלq p כאשר,כן-כמו 22 במקרה הכללי ,עבור P1 , P2כלשהן נגדירA x : P1 x P2 x : נגדיר משתנה מקרי חדש , Y X האינדיקטור של הקבוצה A 1 if x A x 0 if x A יהיו Pˆ1 , Pˆ2ההתפלגויות המקבילות עבורY. x : Pˆi x Pi x i 1,2 Pˆ X 1 P X A i i Y X ולכן Dkl Pˆ1 || Pˆ2 Dkl P1 || P2 זה נובע מאי-שוויון עיבוד המידע (data processing inequality),שלא יוכח כאן ,שמשמעותו שכל מניפולציה שנעשה בנתונים לא תשפר את פוטנציאל ההסקה שלנו (במקרה זה -לא תגדיל את המרחק בין ההתפלגויות). 23 לסיכום ההוכחה נראה כי 2 1 4 1 2 P1 A P2 A P1 P2 2 ln 2 2 ln 2 Dkl P1 || P2 Dkl Pˆ1 || Pˆ2 אי-השוויון הראשון נובע מאי-שוויון עיבוד המידע, אי-השוויון השני הוכח כבר עבור המקרה הבינארי, השוויון האחרון נובע מהשוויון: 1 P1 P2 2 24 P1 x P2 x x: P1 x P2 x P1 A P2 A