Transcript משפט

‫גילוי מידע וזיהוי תבניות‬
‫תרגול מס‪3 .‬‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫‪1‬‬
‫התפלגות נורמלית רב‪-‬מימדית‬
‫ ‪Dkl Kullback-Leibler Divergence‬‬‫משפט קמירות ‪ -‬נגזרת שנייה‬
‫משפט‪Log sum inequality‬‬
‫משפט אי‪-‬שוויון האינפורמציה‬
‫נורמה ‪ +( L1‬משפט )‬
‫התפלגות נורמלית‬
  x   2 
p x  
exp

2
2
2 
2

:‫במימד אחד‬
1

  E  X    xp x dx


  x    px dx
 2  var X   E  X   2 

2

2
‫ב ‪- d‬מימדים‪:‬‬
‫‪ 1‬‬
‫‪‬‬
‫‪t‬‬
‫‪1‬‬
‫‪exp x  μ  Σ x  μ ‬‬
‫‪ 2‬‬
‫‪‬‬
‫‪1‬‬
‫‪2‬‬
‫‪1‬‬
‫‪Σ‬‬
‫‪2‬‬
‫‪2 ‬‬
‫‪d‬‬
‫‪px  ‬‬
‫‪ x‬הוא וקטור‪ d -‬מימדי‬
‫‪ μ‬הוא הוקטור הממוצע‪ ,‬המקיים‪i  EX i  , i  1,2,...,d :‬‬
‫‪ Σ‬היא מטריצת הקו‪-‬וואריאנס במימד ‪d  d ‬‬
‫שהאיבר ה‪ ij-‬שלה מוגדר ע”י‪:‬‬
‫‪ ij  E  X i  i X j   j ‬‬
‫וניתן גם לסמן‪:‬‬
‫‪3‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪Σ  E X  μX  μ‬‬
‫‪t‬‬
‫‪‬‬
4
‫מספר הערות לגבי ההתפלגות הנורמלית הרב‪-‬‬
‫מימדית‬
‫• ההתפלגות השולית של כל רכיב היא‬
‫נורמלית‪Xi ~ N i , .‬‬
‫‪ii ‬‬
‫• ‪ Σ‬מטריצה סימטרית‪ ij   :ji‬‬
‫• ‪ Σ‬היא‪positive semi-definite‬‬
‫• האלכסון של ‪Σ‬‬
‫• אם‬
‫‪‬‬
‫‪‬‬
‫מכיל את השונויות של‬
‫‪2‬‬
‫הרכיבים‪ ii  E  X i  i.‬‬
‫אז ‪i  j :  ij ‬‬
‫‪ X i , X j‬בלתי‪-‬תלויים‪0 ,‬‬
‫מטריצה‬
‫• אם כל הרכיבים בת”ל‪Σ , i  j :  ij  0:‬‬
‫אלכסונית‪ ,‬וההתפלגות המשותפת היא מכפלת ההתפלגויות‬
‫‪px ‬‬
‫‪pxi ‬‬
‫‪ 5‬השוליות‪:‬‬
‫‪‬‬
‫‪i‬‬
‫‪Kullback-Leibler Divergence‬‬
‫הגדרה‪:‬‬
‫‪‬‬
‫‪p x ‬‬
‫‪p x  ‬‬
‫‪Dkl  p || q    px  log‬‬
‫‪ E p log‬‬
‫‪‬‬
‫‪q x ‬‬
‫‪q x  ‬‬
‫‪x‬‬
‫‪‬‬
‫‪ Dkl‬אינו מרחק אמיתי ‪ -‬הוא אינו סימטרי‪:‬‬
‫ואינו מקיים את אי‪-‬שוויון המשולש‪.‬‬
‫‪Dkl  p || q  Dkl q || p‬‬
‫‪ Dkl  p || q ‬היא מידה של חוסר היעילות בהנחה כי ‪X ~ q x ‬‬
‫כאשר התפלגות האמיתית היא ‪X ~ px ‬‬
‫למשל ‪ -‬בדחיסת נתונים‪ :‬אם ידוע ‪ p x ‬ניתן לתאר את ‪ X‬ע”י ‪ H  p ‬ביטים‪.‬‬
‫אם נניח ‪ X ~ q x ‬נוכל לתאר את ‪ X‬רק ע”י ‪ H  p   Dkl  p || q ‬ביטים‪.‬‬
‫‪6‬‬
‫‪0‬‬
‫‪p‬‬
‫משיקולי רציפות‪ ,‬נשתמש בהנחה‪0 log  0 , p log   for p  0 :‬‬
‫‪q‬‬
‫‪0‬‬
‫בחישוב ‪Dkl‬‬
p1  r , q1  s: ‫ שתי פונקציות מסה‬p,q ‫ ויהיו‬  0,1
‫ יהי‬:‫דוגמה‬
p0 
p1
Dkl  p || q   p0  log
 p1 log

q0 
q1
1 r
r
 1  r  log
 r log
1 s
s
1 s
s
Dkl q || p   1  s  log
 s log
1 r
r
1 r
r
Dkl  p || q   1  r  log
 r log  0 :‫אז‬
1 r
r
Dkl q || p   0
:‫אזי‬
rs
‫אם‬
.0 ‫ ה”מרחק” בין התפלגויות זהות הוא‬- ‫כלומר‬
7
:‫ נקבל‬r  1
1
2
, s 1
4
‫(המשך הדוגמה) אם‬
1
1
1
2
Dkl  p || q   log
 log 2  0.2075 bits
3
1
2
2
4
4
3
1
3
1
Dkl q || p   log 4  log 4  0.1887 bits
1
1
4
4
2
2
p X  1  1 ‫ כאשר למעשה‬p X  1  1 ‫עולה לנו” יותר להניח‬
2
4
“
.‫מאשר להיפך‬
1
1
:‫ נקבל‬r  1 2 , s  1 ‫עבור‬
1
1
2
Dkl  p || q   log
 log 2   bits
2
0 2
1
0
1
Dkl q || p   0 log
 1log
 1 bits
1
1
2
2
8
‫(המשך הדוגמה)‬
‫משמעות התוצאות‪ :‬מבחינה סטטיסטית‪ ,‬להניח ודאות כאשר אין ודאות‪-‬‬
‫זה הרבה יותר גרוע מלהניח חוסר ודאות כאשר יש ודאות‪.‬‬
‫‪9‬‬
‫שימוש ב‪ Dkl -‬להערכת סבירות של תוצאות‬
‫מבצעים ‪ n‬ניסויי ברנולי( עם פרמטר ‪ p).‬מה הסיכוי ל ‪-m‬הצלחות?‬
‫‪n  m‬‬
‫!‪n‬‬
‫‪nm‬‬
‫‪nm‬‬
‫‪m‬‬
‫‪Pn m    p 1  p  ‬‬
‫‪p 1  p ‬‬
‫!‪m!n  m‬‬
‫‪ m‬‬
‫חישוב כזה קשה לביצוע עבור ‪ n‬גדול‪.‬‬
‫נראה דרך אלטרנטיבית‪ ,‬עם שימוש ב‪Dkl -‬‬
‫לפי נוסחת סטרלינג‪:‬‬
‫‪1‬‬
‫‪2n  logn!  n log n  n log e  log2n‬‬
‫‪2‬‬
‫‪10‬‬
‫‪n‬‬
‫‪ n‬‬
‫‪n!  ‬‬
‫‪e‬‬
n 
log   logn!  logm!  logn  m ! 
 m
1
 n log n  n log e  log2n 
2
1
 m log m  m log e  log2m 
2
1
 n  m  logn  m   n  m  log e  log2 n  m  
2



m
nm
1
n

 n  log n  log m 
logn  m   log
n
n
2n  2mn  m  

.‫ ונשמיט אותו מכאן והלאה‬,‫ האיבר האחרון זניח‬,‫ גדול‬n ‫עבור‬
11
n 
m
nm


log   n  log n  log m 
logn  m  
n
n


 m
 m n  m 

m
nm
 n   
logn  m  
 log n  log m 
n 
n
n
 n

 m  m  n  m  n  m 
 n   log  
log

n
n
 n 
 n
12
 n  m
nm 
 logPn m   log   p 1  p   
 m

n 
 log   m log p   n  m  log1  p  
 m
 m  m  n  m  n  m 
 n   log  
log
 
n
n
 n 
n
 m log p   n  m  log1  p  

m
 n  m 
 m  n  n  m  n 
 m





 n   log

log
  n  Dkl  B  || B p 
n
 p
 p 
n


n
 



 


13
 m

logPn m   n  Dkl  B  || B p 
 n


Pn m   2
 m

 n Dkl  B  || B  p  
 n

:‫דוגמה לחישוב בעיה‬
?‫ הטלות של מטבע הוגנת‬100-‫ פעמים “עץ” ב‬70 ‫מה הסיכוי לקבל‬
P100 70  2100 Dkl  B 0.7 || B 0.5   21000.12  0.000244
0.7
0.3
Dkl B0.7  || B0.5  0.7  log
 0.3  log
 0.12 14
0.5
0.5
‫משפט‪ :‬אם לפונקציה ‪ f‬יש נגזרת שנייה אי‪-‬שלילית (חיובית) בכל נקודה‪,‬‬
‫אז ‪ f‬קמורה (קמורה ממש‪).‬‬
‫תזכורת ‪ -‬הגדרת פונקציה קמורה‪:‬‬
‫‪x1 , x2 ,0    1 : f x1  1   x2   f x1   1    f x2 ‬‬
‫הוכחה‪ :‬פיתוח טיילור של‬
‫‪ f x ‬סביב‪x0 :‬‬
‫‪f  x ‬‬
‫‪2‬‬
‫‪‬‬
‫‪x  x0 ‬‬
‫‪f  x   f  x0   f  x0  x  x0  ‬‬
‫‪2‬‬
‫‪x  x0 , x‬‬
‫נתון ‪ f x   0‬ולכן הביטוי האחרון אי‪-‬שלילי ונקבל את אי‪-‬השוויון‪:‬‬
‫‪f x  f x0   f x0 x  x0 ‬‬
‫‪15‬‬
:‫ונקבל‬
x0  λ x1  1-λx2 , x  x1
‫(המשך ההוכחה) נציב‬
(1) f x1   f x0   f x0 1   x1  x2 
:‫ונקבל‬
(2) f x2   f x0   f x0  x2  x1 
x  x2
(3) f x1   f x0   f x0  1   x1  x2 
‫ נציב‬,‫באופן דומה‬
-  :‫) ב‬1( ‫נכפיל את‬
- 1   :‫) ב‬2( ‫נכפיל את‬
(4) 1    f x2   1    f x0   f x0  1   x2  x1 
:‫) ונקבל‬4(-‫) ו‬3( ‫נחבר את‬
f x1   1    f x2     1    f x0   f x1  1   x2 
f .‫ ולקבל“ קמירות ממש” של‬ -‫ ב‬
.‫וזוהי בדיוק הגדרת הקמירות‬
‫ אז ניתן להחליף כל‬f   0 ‫אם‬
16
(LOG SUM INEQUALITY):‫משפט‬
Let a1 ,...,an , b1 ,...,bn non - negativenumbers.
n
ai 

T hen:  ai log    ai  log
bi  i 1 
i 1
n
n
a
i 1
n
i
b
i 1
i
ai
wit h equality iff
 const
bi
ai  0 , bi  0 ‫ נניח בה”כ כי‬:‫הוכחה‬
1
f t   log e  ‫ כי‬,‫ היא קמורה ממש‬f t   t logt 
t
‫הפונקציה‬
.‫ חיובי‬t ‫חיובית לכל‬
17
By Jensen's inequality:
 f t   f  t 
i
i
Subst it uting  i 
i i
for ai  0 ,
bi
ai
, ti 
bi
n
b
j 1

i
i
1
)‫(המשך ההוכחה‬
we get :
j
 





 

 n 


n
n
 ai log ai    ai   log  ai  



n
n
n








b
i 1
i
 i 1   b j  
  b j
 i 1   b j 


j

1
 j 1

 j 1 




n
Multiplying both sides in
b
j 1
j
we get :
 

 

n
n
n
ai 
   ai  
a
log

a



i
i  log   n

bi  i 1 
i 1
i 1
   b j  


j

1

 
18
And thisprovesthe theorem,because
)‫(המשך ההוכחה‬
n
n

i 1
ai

n
b
j 1
j
a1
 ... 
n
b
j 1
j
an

n
b
j 1
j
a
i 1
n
b
j 1
i
j
19
.‫מספר שימושים‬- Log sum inequality ‫למשפט ה‬
:‫שוויון האינפורמציה‬-‫ הוא מאפשר להוכיח את משפט אי‬,‫למשל‬
):‫שוויון האינפורמציה‬-‫משפט (אי‬
Let p x  , q x  two mass functions.
T hen Dkl  p || q   0
with equality iff x : p x   q x 
:‫הוכחה‬
Dkl
p x 

p x  
1

 p || q    px 
   p x  log
 1log  0
q x  
1

 q x 
x
x
x
p x 
 C ‫ ושוויון מתקיים אםם‬Log sum inequality, ‫השוויון נובע ממשפט‬-‫אי‬
q x 
px   qx ‫ כלומר‬C=1, ‫קל לראות כי בהכרח‬
x
20
‫הגדרה‪ :‬נורמה ‪ L1‬בין שתי התפלגויות מוגדרת באופן הבא‪:‬‬
‫‪P1  P2 1   P1 a   P2 a ‬‬
‫‪a‬‬
‫נורמה ‪ Lk‬מוגדרת ע”י‪:‬‬
‫למה‪:‬‬
‫‪2‬‬
‫‪1‬‬
‫‪1‬‬
‫‪k‬‬
‫‪‬‬
‫‪k‬‬
‫‪   P1 a   P2 a  ‬‬
‫‪ a‬‬
‫‪‬‬
‫‪k‬‬
‫‪1‬‬
‫‪Dkl P1 || P2  ‬‬
‫‪P1  P2‬‬
‫‪2 ln 2‬‬
‫הוכחה‪ :‬ראשית נוכיח את הלמה במקרה ה”בינארי‪”.‬‬
‫נניח ‪ 2‬התפלגויות בינאריות עם פרמטרים ‪ p, q‬כאשר ‪p  q‬‬
‫נראה כי‪:‬‬
‫‪p‬‬
‫‪1 p‬‬
‫‪4‬‬
‫‪2‬‬
‫‪ p  q‬‬
‫נשים לב כי‪:‬‬
‫‪21‬‬
‫‪2‬‬
‫‪2 ln 2‬‬
‫‪1 q‬‬
‫‪4 p  q   P1  P2‬‬
‫‪2‬‬
‫‪1‬‬
‫‪‬‬
‫‪ 1  p  log‬‬
‫‪q‬‬
‫‪p log‬‬
‫‪P1  P2‬‬
:‫השוויון הוא‬-‫ בין שני צדדי אי‬g  p, q  ‫ההפרש‬
g  p, q   p log
p
1 p
4
 p  q 2
 1  p  log

q
1  q 2 ln 2
q :‫ לפי‬g ‫ כקבוע ונגזור את‬p ‫נסתכל על‬
dg p, q 
p
1 p
4



2q  p  
dq
q ln 2 1  q  ln 2 2 ln 2

q p
4
q p 1

q  p  


 4   0
q1  q  ln 2 ln 2
ln 2  q1  q  
1
q  p , q1  q  
4
.‫ היא פונקציה מונוטונית יורדת‬g q  ‫ קבוע‬p ‫ שכבור‬,‫מכאן‬
.‫ והוכחנו את המקרה הבינארי‬g  0 ‫ ולכן‬g  0 ‫ נקבל‬q  p ‫ כאשר‬,‫כן‬-‫כמו‬
22
‫במקרה הכללי‪ ,‬עבור ‪ P1 , P2‬כלשהן נגדיר‪A  x : P1 x   P2 x  :‬‬
‫נגדיר משתנה מקרי חדש ‪ , Y    X ‬האינדיקטור של הקבוצה ‪A‬‬
‫‪1 if x  A‬‬
‫‪ x   ‬‬
‫‪0 if x  A‬‬
‫יהיו ‪ Pˆ1 , Pˆ2‬ההתפלגויות המקבילות עבור‪Y.‬‬
‫‪x   : Pˆi   x   Pi  x  i  1,2‬‬
‫‪Pˆ   X   1  P  X  A‬‬
‫‪i‬‬
‫‪‬‬
‫‪i‬‬
‫‪‬‬
‫‪ Y    X ‬ולכן ‪Dkl Pˆ1 || Pˆ2  Dkl P1 || P2 ‬‬
‫זה נובע מאי‪-‬שוויון עיבוד המידע ‪ (data processing inequality),‬שלא יוכח כאן‪ ,‬שמשמעותו שכל‬
‫מניפולציה שנעשה בנתונים לא תשפר את פוטנציאל ההסקה שלנו (במקרה זה ‪ -‬לא‬
‫תגדיל את המרחק בין ההתפלגויות‪).‬‬
‫‪23‬‬
‫לסיכום ההוכחה נראה כי‬
‫‪2‬‬
‫‪1‬‬
‫‪4‬‬
‫‪1‬‬
‫‪2‬‬
‫‪P1  A  P2  A ‬‬
‫‪P1  P2‬‬
‫‪2 ln 2‬‬
‫‪2 ln 2‬‬
‫‪‬‬
‫‪‬‬
‫‪Dkl P1 || P2   Dkl Pˆ1 || Pˆ2 ‬‬
‫אי‪-‬השוויון הראשון נובע מאי‪-‬שוויון עיבוד המידע‪,‬‬
‫אי‪-‬השוויון השני הוכח כבר עבור המקרה הבינארי‪,‬‬
‫השוויון האחרון נובע מהשוויון‪:‬‬
‫‪1‬‬
‫‪P1  P2‬‬
‫‪2‬‬
‫‪24‬‬
‫‪ P1 x  P2 x ‬‬
‫‪x: P1  x  P2  x ‬‬
‫‪P1  A  P2  A ‬‬