Transcript 5-7

‫‪AN INTRODUCTION TO THE BOOTSTRAP‬‬
‫פרקים ‪ :5-7‬מצגת לסמינר בסטטיסטיקה‬
‫‪06/10/2011‬‬
‫מירון אבידן‬
‫תקציר פרקים ‪1-4‬‬
‫‪ ‬עקרון ה ‪Bootstrap‬‬
‫‪ ‬עקרון ה ‪plug-in‬‬
‫פרק ‪5‬‬
‫‪Standard errors and estimated standard errors‬‬
‫‪ ‬המטרה‪ :‬הערכת הדיוק של האומדן‬
‫‪ ‬משפט הגבול המרכזי הוא כלי מוגבל‪.‬‬
‫‪ ‬דוגמא‪:‬‬
‫‪ ‬הנחת הנורמליות עלולה להיות לא מדויקת עבור גודל המדגם הנתון‬
‫‪ ‬דוגמא נוספת‪:‬‬
‫‪ ‬הנחת הנורמליות עלולה‬
‫להיות לא מדויקת עבור‬
‫פרמטרים קיצוניים‬
‫פרק ‪5‬‬
‫‪Standard errors and estimated standard errors‬‬
‫‪ ‬כעת‪ ,‬נניח שסטיית התקן של האוכלוסיה איננה ידועה‪.‬‬
‫‪ ‬נשתמש בעקרון ה ‪ Plug-in‬כדי לחשב אומדן לסטיית התקן‬
‫‪ ‬עקרון ה ‪ Bootstrap‬הינו למעשה שימוש בעקרון ה‪ plug-in‬כדי‬
‫לחשב את סטיית התקן של סטטיסטי כלשהוא‬
‫קיבלנו (כמעט) את האומד הרגיל של ס"ת‪.‬‬
‫‪ ‬בדוגמא לעיל‬
‫היתרון של ‪ Bootstrap‬הוא שניתן ליישמו לכל סטטיסטי‪.‬‬
‫פרק ‪6‬‬
‫‪The bootstrap estimate of standard error‬‬
‫‪‬‬
‫אומד זה והקירוב שלו נקראים אומדי ‪ bootstrap‬לא‪-‬פרמטריים משום שהם‬
‫מבוססים על 𝐹 ‪ .‬בהמשך נראה ‪ bootstrap‬פרמטרי המבוסס על אומד אחר של ‪.F‬‬
‫פרק ‪6‬‬
‫‪The bootstrap estimate of standard error‬‬
‫‪ ‬נשים לב שמספר מדגמי ה ‪ Bootstrap‬השונים זה מזה שווה ל‬
‫‪ ‬ולכן אם נגדיר 𝑗𝜔 בתור ההסתברות לקבל את המדגם ה – ‪,j‬‬
‫‪ j=1,…,m‬נוכל לחשב ישירות בעזרת ההתפלגות המולטינומית את‬
‫אומד ה‪ bootstrap‬האידאלי של סטית התקן‬
‫‪ ‬הקושי הוא כמובן שעבור ‪ n>=5‬נקבל ‪ m‬גדול מאוד שלא ניתן‬
‫פרקטית לחשב‪.‬‬
‫פרק ‪6‬‬
‫‪The bootstrap estimate of standard error‬‬
‫‪ ‬דוגמא‪ :‬חישוב אומד ‪ bootstrap‬לס"ת של מקדם מתאם‬
‫אוכלוסיה‪ 82 :‬סטודנטים אמריקאים למשפטים‬
‫מדגם‪ 15 :‬סטודנטים‬
‫עד כמה האומדן מדויק???‬
6 ‫פרק‬
The bootstrap estimate of standard error
‫פרק ‪6‬‬
‫‪The bootstrap estimate of standard error‬‬
‫‪‬‬
‫בחירת מספר הרפליקציות (‪)B‬‬
‫‪ ‬בעת כתיבת הספר (‪ – )1993‬מושפע משיקולי סיבוכיות החישוב‬
‫‪ ‬בימינו – גדול כרצוננו‬
‫‪‬‬
‫בכל זאת נציג את הדיון שבספר‬
‫‪ ‬השונות של 𝐵𝑒𝑠 בהכרח גדולה יותר מהשונות של ∞𝑒𝑠‪ .‬השאלה בכמה?‬
‫‪ ‬ניתן לבטא את המחיר של עצירה ב ∞<‪ B‬באופן הבא‪:‬‬
‫‪ ‬כאשר ∆ מודד עד כמה ההתפלגות היא ארוכת זנב‪ ∆=0 .‬עבור התפלגות נורמלית‪,‬‬
‫ונע מ ‪ -2‬עד ערכים גדולים כרצוננו‪.‬‬
‫‪ ‬הביטוי‬
‫מודד את השונות שנובעת מ – 𝐹‬
‫‪ ‬מספר כללי אצבע‪:‬‬
‫‪‬‬
‫‪‬‬
‫בפועל גם ‪ B=25‬הוא אינפורמטיבי‪ ,‬ו ‪ B=50‬מספיק לאומדן טוב של סטית התקן‬
‫לעתים מאוד נדירות נחוץ ‪ B>200‬לאמידת סטית התקן (לרוו"ס נחוץ ‪ B‬גדול בהרבה)‬
‫פרק ‪6‬‬
‫‪The bootstrap estimate of standard error‬‬
‫‪ Bootstrap ‬פרמטרי‬
‫‪ ‬אומד ‪ Bootstrap‬פרמטרי מוגדר כ‬
‫הינו אומד של ‪ F‬המבוסס על מודל פרמטרי‪.‬‬
‫‪ ‬כאשר‬
‫‪ ‬דוגמת מקדם המתאם (סטודנטים למשפטים)‪:‬‬
‫‪ ‬נניח שהאוכלוסיה באה מהתפלגות דו‪-‬נורמלית‬
‫‪,‬‬
‫‪‬‬
‫עם פרמטרים‪:‬‬
‫‪ ‬כעת ניצור את מדגמי ה ‪ Bootstrap‬מ‬
‫‪ ‬ונמשיך כרגיל את חישוב אומד ה ‪ Bootstrap‬של ס"ת‪.‬‬
‫פרק ‪6‬‬
‫‪The bootstrap estimate of standard error‬‬
‫‪ ‬התוצאות‪:‬‬
‫‪ ‬ניתן לראות שבשיטה הפרמטרית קיבלנו גרף די דומה לגרף הקודם‪ ,‬וגם‬
‫סטית התקן דומה‪.‬‬
‫‪ ‬ניתן גם להשוות לנוסחה האנליטית של ס"ת של מקדם מתאם‪:‬‬
‫‪ ‬נציב את ‪ 𝜃 = .776‬שהתקבל במדגם ונקבל ‪= .115‬‬
‫פרק ‪6‬‬
‫‪The bootstrap estimate of standard error‬‬
‫‪‬‬
‫דרך נוספת לבחון את הטיב של התוצאה שהתקבלה ב ‪Bootstrap‬‬
‫פרמטרי‪ :‬טרנספורמצית פישר למקדם מתאם באוכלוסיה ‪.θ‬‬
‫𝜃‪1+‬‬
‫‪), 1/ 𝑛 − 3‬‬
‫𝜃‪1−‬‬
‫‪ ‬נבצע את הטרנספורמציה‬
‫הפרמטרית ונקבל‪:‬‬
‫(‪𝜍 ∼ Ν .5log‬‬
‫לכל לכל תוצאה שדגמנו בשיטה‬
‫‪ ‬קיבלנו תוצאה שנראית טובה (התפלגות "די" נורמלית)‬
‫פרק ‪6‬‬
‫‪The bootstrap estimate of standard error‬‬
‫‪ ‬סיכום‪ :‬ל‪ Bootstrap‬יש שני יתרונות שונים על פני שיטות‬
‫המבוססות על נוסחה‬
‫‪ ‬כאשר משתמשים ב ‪ bootstrap‬לא פרמטרי (בדרך ה"רגילה")‪ ,‬הוא‬
‫פוטר אותנו מהצורך לקבוע הנחות פרמטריות על ההתפלגות‪ .‬דוגמת מקדם‬
‫המתאם‪:‬‬
‫‪ ‬כאשר משתמשים ב ‪ bootstrap‬פרמטרי‪ ,‬הוא מספק תשובות מדויקות‬
‫יותר מנוסחאות (?)‪ ,‬ואף יכול לספק תשובות לבעיות שעבורן לא קיימת‬
‫נוסחה ידועה‪.‬‬
‫‪ ‬מאחר שכל גישת ה ‪ bootstrap‬מניחה שאין צורך בנוסחאות‪ ,‬נרצה‬
‫בדרך כלל להימנע מהנחות פרמטריות‪.‬‬
‫‪ ‬יחד עם זאת נוסחאות מאפשרות לנו להבין את המידע בדרך נוספת‬
‫פרק ‪7‬‬
‫‪Bootstrap standard errors: some examples‬‬
‫‪ ‬דוגמה ‪Score data :1‬‬
‫‪ ‬הנתונים‪ 88 :‬סטודנטים‪ ,‬לכ"א‬
‫חמישה ציונים במבחנים‬
‫מדעיים‪ 2 ,‬סגורים ‪ 3‬פתוחים‬
‫פרק ‪7‬‬
‫‪Bootstrap standard errors: some examples‬‬
‫‪ ‬ניתוח ערכים עצמיים ווקטורים עצמיים של ‪ (𝐺𝑣 = 𝜆𝑣( G‬יכול‬
‫לסייע להבנת מקור השונות במצב של בעיה רב‪-‬מימדית דרך‬
‫‪Principal component analysis‬‬
‫‪ ‬בבעיה שלנו ניתן לראות מהמידע הגולמי שקיים מתאם גבוה בין‬
‫הציונים של כל סטודנט (עם עצמו)‬
‫‪ ‬ניתן אם כן לבנות מודל משוער לבעיה מהצורה‬
‫‪ ‬במודל זה ואילו ‪ i‬הנו היכולת המדעית של סטודנט 𝑖𝑄‬
‫)‪ v=(v1,v2,v3,v4,v5‬קבוע לכל הסטודנטים‪.‬‬
‫פרק ‪7‬‬
‫‪Bootstrap standard errors: some examples‬‬
‫‪ ‬אם המודל היה נכון‪ ,‬היינו מצפים שרק ‪ 𝜆1‬יהיה חיובי והשאר = ‪,0‬‬
‫ושהווקטור העצמי הראשון ‪ 𝑣1‬יהא שווה ‪ .V‬בנוסף‪ ,‬אם נגדיר 𝜃‬
‫בתור היחס‬
‫אזי המודל נכון אמ"מ ‪( 𝜃=1‬כל הנקודות נמצאות על קו ה ‪)PCA‬‬
‫‪ ‬בדוגמה שלנו‪,‬‬
‫‪ ‬נשאלת השאלה‪ ,‬מה הדיוק של 𝜃 ? וכאן נכנסת לתמונה גישת‬
‫ה ‪.Bootstrap‬‬
‫פרק ‪7‬‬
‫‪Bootstrap standard errors: some examples‬‬
‫‪ ‬נפעיל את גישת ה ‪ Bootstrap‬על הבעיה‪:‬‬
‫‪ ‬מדגם ה ‪ Bootstrap‬הוא מטריצה ∗ 𝑋 בגודל ‪88*5‬‬
‫‪ ‬את השורות נדגום מתוך המטריצה ‪ X‬המקורית (חלק יופיעו מספר פעמים‪,‬‬
‫חלק לא יופיעו כלל)‬
‫‪ ‬לכל ∗ 𝑋 נחשב את מטריצת ה – ‪COV‬‬
‫‪ ‬כעת נחשב לכל מטריצה את הערכים העצמיים ולבסוף את‬
‫פרק ‪7‬‬
‫‪Bootstrap standard errors: some examples‬‬
‫‪ ‬תוצאות‪:‬‬
‫‪ - 𝜃 = .625,𝑆𝑒200 = .047‬המודל של משתנה יחיד ככה"נ איננו נכון‬
‫‪ ‬כעת נניח שרוצים לבנות רווח‪-‬סמך ‪ 200 -‬רפליקציות כאמור אינן‬
‫מספיקות‪ ,‬לכן– לעת עתה נשתמש בכל זאת במשפט הגבול המרכזי‪:‬‬
‫פרק ‪7‬‬
‫‪Bootstrap standard errors: some examples‬‬
‫‪ ‬ניתוח ‪ Bootstrap‬לוקטורים העצמיים‬
‫‪ ‬לו היינו צריכים להשתמש במספר אחד כדי לייצג את כל הציונים של‬
‫סטודנט מסוים‪ ,‬כיצד היינו עושים זאת?‬
‫‪ ‬ואם היינו רוצים להשתמש במספר נוסף כדי לייצג את כל הציונים‬
‫‪ ‬בווקטור הראשון המשקלות פחות או יותר שווים ולכן ‪ Yi‬מודד בערך‬
‫סכום‪/‬ממוצע‬
‫‪ ‬בווקטור השני ישנם משקלות שליליים על המבחנים הסגורים וחיוביים על‬
‫הפתוחים ולכן ‪ Zi‬מודד את הקונטרסט בין הביצועים בשני הסוגים‬
‫פרק ‪7‬‬
‫‪Bootstrap standard errors: some examples‬‬
‫‪ ‬מתוך ‪ 200‬הרפליקציות של ‪ G‬נבנה ‪ 200‬רפליקציות ‪𝑣2 ,𝑣1‬‬
‫‪ ‬ניתן לראות שס"ת של מרכיבי הווקטור הראשון הן פחות מחצי מאלו של‬
‫השני‬
‫‪ ‬כמו כן ניתן לראות שעבור ווקטור הראשון‪ 𝑆𝑒200,α ,‬דומה ל ‪𝑆𝑒200‬‬
‫‪,‬לעומת זאת בווקטור השני יש הבדלים בעיקר ברכיבים ‪.1,5‬‬
7 ‫פרק‬
Bootstrap standard errors: some examples
‫פרק ‪7‬‬
‫‪Bootstrap standard errors: some examples‬‬
‫‪ ‬דוגמא ‪ :2‬התאמת עקומה‬
‫‪ ‬הנתונים‪ 164 :‬גברים קיבלו הוראה‬
‫לקחת תרופה להורדת כולסטרול‬
‫מספר פעמים ביום‪ – Z .‬מידת הציות‬
‫להוראות ו ‪ – Y‬מידת השיפור במצבם‪.‬‬
‫פרק ‪7‬‬
‫‪Bootstrap standard errors: some examples‬‬
‫‪ ‬אנחנו רוצים להתאים קו רגרסיה לנתונים כדי לוודא שחל שיפור‪,‬‬
‫כלומר קו שמתאים לכל ‪( Z‬ברוחב ‪ )1%‬את התוחלת ‪.Y|Z‬‬
‫‪ ‬אם נשתמש בגישת ‪" plug-in‬נאיבית" נקבל קו לא חלק‪:‬‬
‫‪ ‬אם נגדיל את הרוחב של ‪ Z‬ניתקל בבעיות של כמות נתונים לא מספקת‪.‬‬
‫פרק ‪7‬‬
‫‪Bootstrap standard errors: some examples‬‬
‫‪ ‬פתרון אפשרי אחד‪ :‬שיטת הריבועים הפחותים‬
‫‪ ‬בשל הצורה של הנתונים נבחן מודל עם פונקציה ריבועית‬
‫‪ ‬ונחשב את ‪ β‬לפי הנוסחה הרגילה‬
‫‪ ‬ככל שנגדיל את הדרגה של המודל‪ ,‬נאבד את ה"חלקות" של הקו והוא יילך‬
‫ויתקרב למודל ה ‪.Plug-in‬‬
‫‪ ‬בכל זאת הקו שיצא נראה קצת‬
‫חלק מדי‪ .‬אנחנו רוצים קו חלק‪,‬‬
‫אבל הנחה של ריבועיות על כל‬
‫טווח הנתונים נראית חזקה מדי‪.‬‬
‫פרק ‪7‬‬
‫‪Bootstrap standard errors: some examples‬‬
‫‪ ‬הפתרון‪ :‬פונקצית ‪Loess‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫‪‬‬
‫קלט לפונקציה‪ – 𝛼 :‬אחוז הנקודות בהן נעשה שימוש בכל צעד‪.3=( .‬‬
‫בתרשים)‪.‬‬
‫התאמת סביבה )‪ N(z‬לכל נקודה ‪( 49 – Z‬מתוך ‪ )164‬הנקודות הקרובות‬
‫ביותר (ערך מוחלט)‪.‬‬
‫חישוב מקדמים של רגרסיה לינארית משוקללת (השקלול תלוי בקרבה של‬
‫הנקודה ל ‪ )Z‬בסביבה שנבחרה‬
‫התאמת ערך ל ‪ Z‬לפי משוואת הרגרסיה שהתקבלה‬
‫פרק ‪7‬‬
‫‪Bootstrap standard errors: some examples‬‬
‫‪ ‬להלן השוואה באמצעות ‪ Bootstrap‬בין סטיות התקן של שתי השיטות‪,‬‬
‫עבור שני ערכים של ‪.Z‬‬
‫‪ ‬כיצד הופעל ה ‪ ?Bootstrap‬דגמנו עם החזרה מתוך הנתונים‪( n=164 ,‬כל‬
‫נבדק יכול להופיע אפס פעמים או מספר פעמים בכל רפליקציה)‪.B=50 ,‬‬
‫‪ ‬לכל רפליקציה חישבנו את שתי הרגרסיות‪ ,‬ולבסוף בודדנו את הערכים‬
‫המתאימים ל ‪.Z=60%, Z=100%‬‬
‫‪ ‬ניתן לראות ששיטת ‪ Loess‬נתנה אומדן פחות מדויק (משום שהיא משתמשת‬
‫רק ב ‪ *nα‬נתונים)‪.‬‬
‫‪ ‬היתרון שלה הוא שהאומדן שלה הוא גם פחות מוטה כפי שנראה כעת‪( ,‬שתי‬
‫התכונות נובעות מלוקאליות)‪:‬‬
‫פרק ‪7‬‬
‫‪Bootstrap standard errors: some examples‬‬
‫‪ ‬ניתן להשתמש ב ‪ Bootstrap‬כדי ללמוד על מאפיינים ספציפיים של‬
‫קו הרגרסיה‬
‫‪ ‬למשל העליה החדה ב ‪Z=80‬‬
‫‪ ‬נגדיר סטטיסטי מתאים‪:‬‬
‫‪ ‬נפעיל ‪ Bootstrap‬כדי לדגום את ‪ B=50 , θ‬ונקבל שכל הדגימות >‪0‬‬
‫ורובן >‪𝑆𝑒50 =.61,𝜃 = 1.59 ;1‬‬
‫‪ ‬לעומת זאת ברגרסיה הריבועית ‪ 𝜃 = 0.17‬בלבד !!!‬
‫‪ ‬כנ"ל לגבי האומדנים שהרגרסיה הריבועית נתנה עבור שתי הנקודות שבחנו‬
‫פרק ‪7‬‬
‫‪Bootstrap standard errors: some examples‬‬
‫‪ ‬מקרה שבו ‪ Bootstrap‬איננו מתאים‪:‬‬
‫‪ ‬יש לנו מדגם בגודל ‪ n‬מתוך התפלגות )‪ .(0,θ‬נניח ש ‪ ,θ=1‬ובמדגם‬
‫‪.𝜃=.988‬‬
‫‪ ‬כעת אם נדגום בשיטת ‪ bootstrap‬לא פרמטרי (רגיל) נקבל גרף שלא‬
‫מתאר "יפה" את ההתפלגות ‪ F‬של ‪. θ‬‬
‫‪ ‬לעומת זאת אם נדגום בשיטת ‪ bootstrap‬פרמטרי נקבל את הגרף‬
‫ה"נכון"‪.‬‬
‫‪ ‬הבעיה‪ 𝐹 :‬איננה אומד טוב ל ‪ F‬בזנב הקיצוני‪ .‬נדרש ידע פרמטרי או‬
‫החלקה כלשהיא‪.‬‬
‫‪ ‬סוף !!!‬