Transcript משפט
גילוי מידע וזיהוי תבניות
תרגול מס3 .
•
•
•
•
•
•
1
התפלגות נורמלית רב-מימדית
Dkl Kullback-Leibler Divergenceמשפט קמירות -נגזרת שנייה
משפטLog sum inequality
משפט אי-שוויון האינפורמציה
נורמה +( L1משפט )
התפלגות נורמלית
x 2
p x
exp
2
2
2
2
:במימד אחד
1
E X xp x dx
x px dx
2 var X E X 2
2
2
ב - dמימדים:
1
t
1
exp x μ Σ x μ
2
1
2
1
Σ
2
2
d
px
xהוא וקטור d -מימדי
μהוא הוקטור הממוצע ,המקייםi EX i , i 1,2,...,d :
Σהיא מטריצת הקו-וואריאנס במימד d d
שהאיבר ה ij-שלה מוגדר ע”י:
ij E X i i X j j
וניתן גם לסמן:
3
Σ E X μX μ
t
4
מספר הערות לגבי ההתפלגות הנורמלית הרב-
מימדית
• ההתפלגות השולית של כל רכיב היא
נורמליתXi ~ N i , .
ii
• Σמטריצה סימטרית ij :ji
• Σהיאpositive semi-definite
• האלכסון של Σ
• אם
מכיל את השונויות של
2
הרכיבים ii E X i i.
אז i j : ij
X i , X jבלתי-תלויים0 ,
מטריצה
• אם כל הרכיבים בת”לΣ , i j : ij 0:
אלכסונית ,וההתפלגות המשותפת היא מכפלת ההתפלגויות
px
pxi
5השוליות:
i
Kullback-Leibler Divergence
הגדרה:
p x
p x
Dkl p || q px log
E p log
q x
q x
x
Dklאינו מרחק אמיתי -הוא אינו סימטרי:
ואינו מקיים את אי-שוויון המשולש.
Dkl p || q Dkl q || p
Dkl p || q היא מידה של חוסר היעילות בהנחה כי X ~ q x
כאשר התפלגות האמיתית היא X ~ px
למשל -בדחיסת נתונים :אם ידוע p x ניתן לתאר את Xע”י H p ביטים.
אם נניח X ~ q x נוכל לתאר את Xרק ע”י H p Dkl p || q ביטים.
6
0
p
משיקולי רציפות ,נשתמש בהנחה0 log 0 , p log for p 0 :
q
0
בחישוב Dkl
p1 r , q1 s: שתי פונקציות מסהp,q ויהיו 0,1
יהי:דוגמה
p0
p1
Dkl p || q p0 log
p1 log
q0
q1
1 r
r
1 r log
r log
1 s
s
1 s
s
Dkl q || p 1 s log
s log
1 r
r
1 r
r
Dkl p || q 1 r log
r log 0 :אז
1 r
r
Dkl q || p 0
:אזי
rs
אם
.0 ה”מרחק” בין התפלגויות זהות הוא- כלומר
7
: נקבלr 1
1
2
, s 1
4
(המשך הדוגמה) אם
1
1
1
2
Dkl p || q log
log 2 0.2075 bits
3
1
2
2
4
4
3
1
3
1
Dkl q || p log 4 log 4 0.1887 bits
1
1
4
4
2
2
p X 1 1 כאשר למעשהp X 1 1 עולה לנו” יותר להניח
2
4
“
.מאשר להיפך
1
1
: נקבלr 1 2 , s 1 עבור
1
1
2
Dkl p || q log
log 2 bits
2
0 2
1
0
1
Dkl q || p 0 log
1log
1 bits
1
1
2
2
8
(המשך הדוגמה)
משמעות התוצאות :מבחינה סטטיסטית ,להניח ודאות כאשר אין ודאות-
זה הרבה יותר גרוע מלהניח חוסר ודאות כאשר יש ודאות.
9
שימוש ב Dkl -להערכת סבירות של תוצאות
מבצעים nניסויי ברנולי( עם פרמטר p).מה הסיכוי ל -mהצלחות?
n m
!n
nm
nm
m
Pn m p 1 p
p 1 p
!m!n m
m
חישוב כזה קשה לביצוע עבור nגדול.
נראה דרך אלטרנטיבית ,עם שימוש בDkl -
לפי נוסחת סטרלינג:
1
2n logn! n log n n log e log2n
2
10
n
n
n!
e
n
log logn! logm! logn m !
m
1
n log n n log e log2n
2
1
m log m m log e log2m
2
1
n m logn m n m log e log2 n m
2
m
nm
1
n
n log n log m
logn m log
n
n
2n 2mn m
. ונשמיט אותו מכאן והלאה, האיבר האחרון זניח, גדולn עבור
11
n
m
nm
log n log n log m
logn m
n
n
m
m n m
m
nm
n
logn m
log n log m
n
n
n
n
m m n m n m
n log
log
n
n
n
n
12
n m
nm
logPn m log p 1 p
m
n
log m log p n m log1 p
m
m m n m n m
n log
log
n
n
n
n
m log p n m log1 p
m
n m
m n n m n
m
n log
log
n Dkl B || B p
n
p
p
n
n
13
m
logPn m n Dkl B || B p
n
Pn m 2
m
n Dkl B || B p
n
:דוגמה לחישוב בעיה
? הטלות של מטבע הוגנת100- פעמים “עץ” ב70 מה הסיכוי לקבל
P100 70 2100 Dkl B 0.7 || B 0.5 21000.12 0.000244
0.7
0.3
Dkl B0.7 || B0.5 0.7 log
0.3 log
0.12 14
0.5
0.5
משפט :אם לפונקציה fיש נגזרת שנייה אי-שלילית (חיובית) בכל נקודה,
אז fקמורה (קמורה ממש).
תזכורת -הגדרת פונקציה קמורה:
x1 , x2 ,0 1 : f x1 1 x2 f x1 1 f x2
הוכחה :פיתוח טיילור של
f x סביבx0 :
f x
2
x x0
f x f x0 f x0 x x0
2
x x0 , x
נתון f x 0ולכן הביטוי האחרון אי-שלילי ונקבל את אי-השוויון:
f x f x0 f x0 x x0
15
:ונקבל
x0 λ x1 1-λx2 , x x1
(המשך ההוכחה) נציב
(1) f x1 f x0 f x0 1 x1 x2
:ונקבל
(2) f x2 f x0 f x0 x2 x1
x x2
(3) f x1 f x0 f x0 1 x1 x2
נציב,באופן דומה
- :) ב1( נכפיל את
- 1 :) ב2( נכפיל את
(4) 1 f x2 1 f x0 f x0 1 x2 x1
:) ונקבל4(-) ו3( נחבר את
f x1 1 f x2 1 f x0 f x1 1 x2
f . ולקבל“ קמירות ממש” של - ב
.וזוהי בדיוק הגדרת הקמירות
אז ניתן להחליף כלf 0 אם
16
(LOG SUM INEQUALITY):משפט
Let a1 ,...,an , b1 ,...,bn non - negativenumbers.
n
ai
T hen: ai log ai log
bi i 1
i 1
n
n
a
i 1
n
i
b
i 1
i
ai
wit h equality iff
const
bi
ai 0 , bi 0 נניח בה”כ כי:הוכחה
1
f t log e כי, היא קמורה ממשf t t logt
t
הפונקציה
. חיוביt חיובית לכל
17
By Jensen's inequality:
f t f t
i
i
Subst it uting i
i i
for ai 0 ,
bi
ai
, ti
bi
n
b
j 1
i
i
1
)(המשך ההוכחה
we get :
j
n
n
n
ai log ai ai log ai
n
n
n
b
i 1
i
i 1 b j
b j
i 1 b j
j
1
j 1
j 1
n
Multiplying both sides in
b
j 1
j
we get :
n
n
n
ai
ai
a
log
a
i
i log n
bi i 1
i 1
i 1
b j
j
1
18
And thisprovesthe theorem,because
)(המשך ההוכחה
n
n
i 1
ai
n
b
j 1
j
a1
...
n
b
j 1
j
an
n
b
j 1
j
a
i 1
n
b
j 1
i
j
19
.מספר שימושים- Log sum inequality למשפט ה
:שוויון האינפורמציה- הוא מאפשר להוכיח את משפט אי,למשל
):שוויון האינפורמציה-משפט (אי
Let p x , q x two mass functions.
T hen Dkl p || q 0
with equality iff x : p x q x
:הוכחה
Dkl
p x
p x
1
p || q px
p x log
1log 0
q x
1
q x
x
x
x
p x
C ושוויון מתקיים אםםLog sum inequality, השוויון נובע ממשפט-אי
q x
px qx כלומרC=1, קל לראות כי בהכרח
x
20
הגדרה :נורמה L1בין שתי התפלגויות מוגדרת באופן הבא:
P1 P2 1 P1 a P2 a
a
נורמה Lkמוגדרת ע”י:
למה:
2
1
1
k
k
P1 a P2 a
a
k
1
Dkl P1 || P2
P1 P2
2 ln 2
הוכחה :ראשית נוכיח את הלמה במקרה ה”בינארי”.
נניח 2התפלגויות בינאריות עם פרמטרים p, qכאשר p q
נראה כי:
p
1 p
4
2
p q
נשים לב כי:
21
2
2 ln 2
1 q
4 p q P1 P2
2
1
1 p log
q
p log
P1 P2
:השוויון הוא- בין שני צדדי איg p, q ההפרש
g p, q p log
p
1 p
4
p q 2
1 p log
q
1 q 2 ln 2
q : לפיg כקבוע ונגזור אתp נסתכל על
dg p, q
p
1 p
4
2q p
dq
q ln 2 1 q ln 2 2 ln 2
q p
4
q p 1
q p
4 0
q1 q ln 2 ln 2
ln 2 q1 q
1
q p , q1 q
4
. היא פונקציה מונוטונית יורדתg q קבועp שכבור,מכאן
. והוכחנו את המקרה הבינאריg 0 ולכןg 0 נקבלq p כאשר,כן-כמו
22
במקרה הכללי ,עבור P1 , P2כלשהן נגדירA x : P1 x P2 x :
נגדיר משתנה מקרי חדש , Y X האינדיקטור של הקבוצה A
1 if x A
x
0 if x A
יהיו Pˆ1 , Pˆ2ההתפלגויות המקבילות עבורY.
x : Pˆi x Pi x i 1,2
Pˆ X 1 P X A
i
i
Y X ולכן Dkl Pˆ1 || Pˆ2 Dkl P1 || P2
זה נובע מאי-שוויון עיבוד המידע (data processing inequality),שלא יוכח כאן ,שמשמעותו שכל
מניפולציה שנעשה בנתונים לא תשפר את פוטנציאל ההסקה שלנו (במקרה זה -לא
תגדיל את המרחק בין ההתפלגויות).
23
לסיכום ההוכחה נראה כי
2
1
4
1
2
P1 A P2 A
P1 P2
2 ln 2
2 ln 2
Dkl P1 || P2 Dkl Pˆ1 || Pˆ2
אי-השוויון הראשון נובע מאי-שוויון עיבוד המידע,
אי-השוויון השני הוכח כבר עבור המקרה הבינארי,
השוויון האחרון נובע מהשוויון:
1
P1 P2
2
24
P1 x P2 x
x: P1 x P2 x
P1 A P2 A