Transcript 5-7
AN INTRODUCTION TO THE BOOTSTRAP
פרקים :5-7מצגת לסמינר בסטטיסטיקה
06/10/2011
מירון אבידן
תקציר פרקים 1-4
עקרון ה Bootstrap
עקרון ה plug-in
פרק 5
Standard errors and estimated standard errors
המטרה :הערכת הדיוק של האומדן
משפט הגבול המרכזי הוא כלי מוגבל.
דוגמא:
הנחת הנורמליות עלולה להיות לא מדויקת עבור גודל המדגם הנתון
דוגמא נוספת:
הנחת הנורמליות עלולה
להיות לא מדויקת עבור
פרמטרים קיצוניים
פרק 5
Standard errors and estimated standard errors
כעת ,נניח שסטיית התקן של האוכלוסיה איננה ידועה.
נשתמש בעקרון ה Plug-inכדי לחשב אומדן לסטיית התקן
עקרון ה Bootstrapהינו למעשה שימוש בעקרון ה plug-inכדי
לחשב את סטיית התקן של סטטיסטי כלשהוא
קיבלנו (כמעט) את האומד הרגיל של ס"ת.
בדוגמא לעיל
היתרון של Bootstrapהוא שניתן ליישמו לכל סטטיסטי.
פרק 6
The bootstrap estimate of standard error
אומד זה והקירוב שלו נקראים אומדי bootstrapלא-פרמטריים משום שהם
מבוססים על 𝐹 .בהמשך נראה bootstrapפרמטרי המבוסס על אומד אחר של .F
פרק 6
The bootstrap estimate of standard error
נשים לב שמספר מדגמי ה Bootstrapהשונים זה מזה שווה ל
ולכן אם נגדיר 𝑗𝜔 בתור ההסתברות לקבל את המדגם ה – ,j
j=1,…,mנוכל לחשב ישירות בעזרת ההתפלגות המולטינומית את
אומד ה bootstrapהאידאלי של סטית התקן
הקושי הוא כמובן שעבור n>=5נקבל mגדול מאוד שלא ניתן
פרקטית לחשב.
פרק 6
The bootstrap estimate of standard error
דוגמא :חישוב אומד bootstrapלס"ת של מקדם מתאם
אוכלוסיה 82 :סטודנטים אמריקאים למשפטים
מדגם 15 :סטודנטים
עד כמה האומדן מדויק???
6 פרק
The bootstrap estimate of standard error
פרק 6
The bootstrap estimate of standard error
בחירת מספר הרפליקציות ()B
בעת כתיבת הספר ( – )1993מושפע משיקולי סיבוכיות החישוב
בימינו – גדול כרצוננו
בכל זאת נציג את הדיון שבספר
השונות של 𝐵𝑒𝑠 בהכרח גדולה יותר מהשונות של ∞𝑒𝑠 .השאלה בכמה?
ניתן לבטא את המחיר של עצירה ב ∞< Bבאופן הבא:
כאשר ∆ מודד עד כמה ההתפלגות היא ארוכת זנב ∆=0 .עבור התפלגות נורמלית,
ונע מ -2עד ערכים גדולים כרצוננו.
הביטוי
מודד את השונות שנובעת מ – 𝐹
מספר כללי אצבע:
בפועל גם B=25הוא אינפורמטיבי ,ו B=50מספיק לאומדן טוב של סטית התקן
לעתים מאוד נדירות נחוץ B>200לאמידת סטית התקן (לרוו"ס נחוץ Bגדול בהרבה)
פרק 6
The bootstrap estimate of standard error
Bootstrap פרמטרי
אומד Bootstrapפרמטרי מוגדר כ
הינו אומד של Fהמבוסס על מודל פרמטרי.
כאשר
דוגמת מקדם המתאם (סטודנטים למשפטים):
נניח שהאוכלוסיה באה מהתפלגות דו-נורמלית
,
עם פרמטרים:
כעת ניצור את מדגמי ה Bootstrapמ
ונמשיך כרגיל את חישוב אומד ה Bootstrapשל ס"ת.
פרק 6
The bootstrap estimate of standard error
התוצאות:
ניתן לראות שבשיטה הפרמטרית קיבלנו גרף די דומה לגרף הקודם ,וגם
סטית התקן דומה.
ניתן גם להשוות לנוסחה האנליטית של ס"ת של מקדם מתאם:
נציב את 𝜃 = .776שהתקבל במדגם ונקבל = .115
פרק 6
The bootstrap estimate of standard error
דרך נוספת לבחון את הטיב של התוצאה שהתקבלה ב Bootstrap
פרמטרי :טרנספורמצית פישר למקדם מתאם באוכלוסיה .θ
𝜃1+
), 1/ 𝑛 − 3
𝜃1−
נבצע את הטרנספורמציה
הפרמטרית ונקבל:
(𝜍 ∼ Ν .5log
לכל לכל תוצאה שדגמנו בשיטה
קיבלנו תוצאה שנראית טובה (התפלגות "די" נורמלית)
פרק 6
The bootstrap estimate of standard error
סיכום :ל Bootstrapיש שני יתרונות שונים על פני שיטות
המבוססות על נוסחה
כאשר משתמשים ב bootstrapלא פרמטרי (בדרך ה"רגילה") ,הוא
פוטר אותנו מהצורך לקבוע הנחות פרמטריות על ההתפלגות .דוגמת מקדם
המתאם:
כאשר משתמשים ב bootstrapפרמטרי ,הוא מספק תשובות מדויקות
יותר מנוסחאות (?) ,ואף יכול לספק תשובות לבעיות שעבורן לא קיימת
נוסחה ידועה.
מאחר שכל גישת ה bootstrapמניחה שאין צורך בנוסחאות ,נרצה
בדרך כלל להימנע מהנחות פרמטריות.
יחד עם זאת נוסחאות מאפשרות לנו להבין את המידע בדרך נוספת
פרק 7
Bootstrap standard errors: some examples
דוגמה Score data :1
הנתונים 88 :סטודנטים ,לכ"א
חמישה ציונים במבחנים
מדעיים 2 ,סגורים 3פתוחים
פרק 7
Bootstrap standard errors: some examples
ניתוח ערכים עצמיים ווקטורים עצמיים של (𝐺𝑣 = 𝜆𝑣( Gיכול
לסייע להבנת מקור השונות במצב של בעיה רב-מימדית דרך
Principal component analysis
בבעיה שלנו ניתן לראות מהמידע הגולמי שקיים מתאם גבוה בין
הציונים של כל סטודנט (עם עצמו)
ניתן אם כן לבנות מודל משוער לבעיה מהצורה
במודל זה ואילו iהנו היכולת המדעית של סטודנט 𝑖𝑄
) v=(v1,v2,v3,v4,v5קבוע לכל הסטודנטים.
פרק 7
Bootstrap standard errors: some examples
אם המודל היה נכון ,היינו מצפים שרק 𝜆1יהיה חיובי והשאר = ,0
ושהווקטור העצמי הראשון 𝑣1יהא שווה .Vבנוסף ,אם נגדיר 𝜃
בתור היחס
אזי המודל נכון אמ"מ ( 𝜃=1כל הנקודות נמצאות על קו ה )PCA
בדוגמה שלנו,
נשאלת השאלה ,מה הדיוק של 𝜃 ? וכאן נכנסת לתמונה גישת
ה .Bootstrap
פרק 7
Bootstrap standard errors: some examples
נפעיל את גישת ה Bootstrapעל הבעיה:
מדגם ה Bootstrapהוא מטריצה ∗ 𝑋 בגודל 88*5
את השורות נדגום מתוך המטריצה Xהמקורית (חלק יופיעו מספר פעמים,
חלק לא יופיעו כלל)
לכל ∗ 𝑋 נחשב את מטריצת ה – COV
כעת נחשב לכל מטריצה את הערכים העצמיים ולבסוף את
פרק 7
Bootstrap standard errors: some examples
תוצאות:
- 𝜃 = .625,𝑆𝑒200 = .047המודל של משתנה יחיד ככה"נ איננו נכון
כעת נניח שרוצים לבנות רווח-סמך 200 -רפליקציות כאמור אינן
מספיקות ,לכן– לעת עתה נשתמש בכל זאת במשפט הגבול המרכזי:
פרק 7
Bootstrap standard errors: some examples
ניתוח Bootstrapלוקטורים העצמיים
לו היינו צריכים להשתמש במספר אחד כדי לייצג את כל הציונים של
סטודנט מסוים ,כיצד היינו עושים זאת?
ואם היינו רוצים להשתמש במספר נוסף כדי לייצג את כל הציונים
בווקטור הראשון המשקלות פחות או יותר שווים ולכן Yiמודד בערך
סכום/ממוצע
בווקטור השני ישנם משקלות שליליים על המבחנים הסגורים וחיוביים על
הפתוחים ולכן Ziמודד את הקונטרסט בין הביצועים בשני הסוגים
פרק 7
Bootstrap standard errors: some examples
מתוך 200הרפליקציות של Gנבנה 200רפליקציות 𝑣2 ,𝑣1
ניתן לראות שס"ת של מרכיבי הווקטור הראשון הן פחות מחצי מאלו של
השני
כמו כן ניתן לראות שעבור ווקטור הראשון 𝑆𝑒200,α ,דומה ל 𝑆𝑒200
,לעומת זאת בווקטור השני יש הבדלים בעיקר ברכיבים .1,5
7 פרק
Bootstrap standard errors: some examples
פרק 7
Bootstrap standard errors: some examples
דוגמא :2התאמת עקומה
הנתונים 164 :גברים קיבלו הוראה
לקחת תרופה להורדת כולסטרול
מספר פעמים ביום – Z .מידת הציות
להוראות ו – Yמידת השיפור במצבם.
פרק 7
Bootstrap standard errors: some examples
אנחנו רוצים להתאים קו רגרסיה לנתונים כדי לוודא שחל שיפור,
כלומר קו שמתאים לכל ( Zברוחב )1%את התוחלת .Y|Z
אם נשתמש בגישת " plug-inנאיבית" נקבל קו לא חלק:
אם נגדיל את הרוחב של Zניתקל בבעיות של כמות נתונים לא מספקת.
פרק 7
Bootstrap standard errors: some examples
פתרון אפשרי אחד :שיטת הריבועים הפחותים
בשל הצורה של הנתונים נבחן מודל עם פונקציה ריבועית
ונחשב את βלפי הנוסחה הרגילה
ככל שנגדיל את הדרגה של המודל ,נאבד את ה"חלקות" של הקו והוא יילך
ויתקרב למודל ה .Plug-in
בכל זאת הקו שיצא נראה קצת
חלק מדי .אנחנו רוצים קו חלק,
אבל הנחה של ריבועיות על כל
טווח הנתונים נראית חזקה מדי.
פרק 7
Bootstrap standard errors: some examples
הפתרון :פונקצית Loess
קלט לפונקציה – 𝛼 :אחוז הנקודות בהן נעשה שימוש בכל צעד.3=( .
בתרשים).
התאמת סביבה ) N(zלכל נקודה ( 49 – Zמתוך )164הנקודות הקרובות
ביותר (ערך מוחלט).
חישוב מקדמים של רגרסיה לינארית משוקללת (השקלול תלוי בקרבה של
הנקודה ל )Zבסביבה שנבחרה
התאמת ערך ל Zלפי משוואת הרגרסיה שהתקבלה
פרק 7
Bootstrap standard errors: some examples
להלן השוואה באמצעות Bootstrapבין סטיות התקן של שתי השיטות,
עבור שני ערכים של .Z
כיצד הופעל ה ?Bootstrapדגמנו עם החזרה מתוך הנתונים( n=164 ,כל
נבדק יכול להופיע אפס פעמים או מספר פעמים בכל רפליקציה).B=50 ,
לכל רפליקציה חישבנו את שתי הרגרסיות ,ולבסוף בודדנו את הערכים
המתאימים ל .Z=60%, Z=100%
ניתן לראות ששיטת Loessנתנה אומדן פחות מדויק (משום שהיא משתמשת
רק ב *nαנתונים).
היתרון שלה הוא שהאומדן שלה הוא גם פחות מוטה כפי שנראה כעת( ,שתי
התכונות נובעות מלוקאליות):
פרק 7
Bootstrap standard errors: some examples
ניתן להשתמש ב Bootstrapכדי ללמוד על מאפיינים ספציפיים של
קו הרגרסיה
למשל העליה החדה ב Z=80
נגדיר סטטיסטי מתאים:
נפעיל Bootstrapכדי לדגום את B=50 , θונקבל שכל הדגימות >0
ורובן >𝑆𝑒50 =.61,𝜃 = 1.59 ;1
לעומת זאת ברגרסיה הריבועית 𝜃 = 0.17בלבד !!!
כנ"ל לגבי האומדנים שהרגרסיה הריבועית נתנה עבור שתי הנקודות שבחנו
פרק 7
Bootstrap standard errors: some examples
מקרה שבו Bootstrapאיננו מתאים:
יש לנו מדגם בגודל nמתוך התפלגות ) .(0,θנניח ש ,θ=1ובמדגם
.𝜃=.988
כעת אם נדגום בשיטת bootstrapלא פרמטרי (רגיל) נקבל גרף שלא
מתאר "יפה" את ההתפלגות Fשל . θ
לעומת זאת אם נדגום בשיטת bootstrapפרמטרי נקבל את הגרף
ה"נכון".
הבעיה 𝐹 :איננה אומד טוב ל Fבזנב הקיצוני .נדרש ידע פרמטרי או
החלקה כלשהיא.
סוף !!!