Transcript 5-7
AN INTRODUCTION TO THE BOOTSTRAP פרקים :5-7מצגת לסמינר בסטטיסטיקה 06/10/2011 מירון אבידן תקציר פרקים 1-4 עקרון ה Bootstrap עקרון ה plug-in פרק 5 Standard errors and estimated standard errors המטרה :הערכת הדיוק של האומדן משפט הגבול המרכזי הוא כלי מוגבל. דוגמא: הנחת הנורמליות עלולה להיות לא מדויקת עבור גודל המדגם הנתון דוגמא נוספת: הנחת הנורמליות עלולה להיות לא מדויקת עבור פרמטרים קיצוניים פרק 5 Standard errors and estimated standard errors כעת ,נניח שסטיית התקן של האוכלוסיה איננה ידועה. נשתמש בעקרון ה Plug-inכדי לחשב אומדן לסטיית התקן עקרון ה Bootstrapהינו למעשה שימוש בעקרון ה plug-inכדי לחשב את סטיית התקן של סטטיסטי כלשהוא קיבלנו (כמעט) את האומד הרגיל של ס"ת. בדוגמא לעיל היתרון של Bootstrapהוא שניתן ליישמו לכל סטטיסטי. פרק 6 The bootstrap estimate of standard error אומד זה והקירוב שלו נקראים אומדי bootstrapלא-פרמטריים משום שהם מבוססים על 𝐹 .בהמשך נראה bootstrapפרמטרי המבוסס על אומד אחר של .F פרק 6 The bootstrap estimate of standard error נשים לב שמספר מדגמי ה Bootstrapהשונים זה מזה שווה ל ולכן אם נגדיר 𝑗𝜔 בתור ההסתברות לקבל את המדגם ה – ,j j=1,…,mנוכל לחשב ישירות בעזרת ההתפלגות המולטינומית את אומד ה bootstrapהאידאלי של סטית התקן הקושי הוא כמובן שעבור n>=5נקבל mגדול מאוד שלא ניתן פרקטית לחשב. פרק 6 The bootstrap estimate of standard error דוגמא :חישוב אומד bootstrapלס"ת של מקדם מתאם אוכלוסיה 82 :סטודנטים אמריקאים למשפטים מדגם 15 :סטודנטים עד כמה האומדן מדויק??? 6 פרק The bootstrap estimate of standard error פרק 6 The bootstrap estimate of standard error בחירת מספר הרפליקציות ()B בעת כתיבת הספר ( – )1993מושפע משיקולי סיבוכיות החישוב בימינו – גדול כרצוננו בכל זאת נציג את הדיון שבספר השונות של 𝐵𝑒𝑠 בהכרח גדולה יותר מהשונות של ∞𝑒𝑠 .השאלה בכמה? ניתן לבטא את המחיר של עצירה ב ∞< Bבאופן הבא: כאשר ∆ מודד עד כמה ההתפלגות היא ארוכת זנב ∆=0 .עבור התפלגות נורמלית, ונע מ -2עד ערכים גדולים כרצוננו. הביטוי מודד את השונות שנובעת מ – 𝐹 מספר כללי אצבע: בפועל גם B=25הוא אינפורמטיבי ,ו B=50מספיק לאומדן טוב של סטית התקן לעתים מאוד נדירות נחוץ B>200לאמידת סטית התקן (לרוו"ס נחוץ Bגדול בהרבה) פרק 6 The bootstrap estimate of standard error Bootstrap פרמטרי אומד Bootstrapפרמטרי מוגדר כ הינו אומד של Fהמבוסס על מודל פרמטרי. כאשר דוגמת מקדם המתאם (סטודנטים למשפטים): נניח שהאוכלוסיה באה מהתפלגות דו-נורמלית , עם פרמטרים: כעת ניצור את מדגמי ה Bootstrapמ ונמשיך כרגיל את חישוב אומד ה Bootstrapשל ס"ת. פרק 6 The bootstrap estimate of standard error התוצאות: ניתן לראות שבשיטה הפרמטרית קיבלנו גרף די דומה לגרף הקודם ,וגם סטית התקן דומה. ניתן גם להשוות לנוסחה האנליטית של ס"ת של מקדם מתאם: נציב את 𝜃 = .776שהתקבל במדגם ונקבל = .115 פרק 6 The bootstrap estimate of standard error דרך נוספת לבחון את הטיב של התוצאה שהתקבלה ב Bootstrap פרמטרי :טרנספורמצית פישר למקדם מתאם באוכלוסיה .θ 𝜃1+ ), 1/ 𝑛 − 3 𝜃1− נבצע את הטרנספורמציה הפרמטרית ונקבל: (𝜍 ∼ Ν .5log לכל לכל תוצאה שדגמנו בשיטה קיבלנו תוצאה שנראית טובה (התפלגות "די" נורמלית) פרק 6 The bootstrap estimate of standard error סיכום :ל Bootstrapיש שני יתרונות שונים על פני שיטות המבוססות על נוסחה כאשר משתמשים ב bootstrapלא פרמטרי (בדרך ה"רגילה") ,הוא פוטר אותנו מהצורך לקבוע הנחות פרמטריות על ההתפלגות .דוגמת מקדם המתאם: כאשר משתמשים ב bootstrapפרמטרי ,הוא מספק תשובות מדויקות יותר מנוסחאות (?) ,ואף יכול לספק תשובות לבעיות שעבורן לא קיימת נוסחה ידועה. מאחר שכל גישת ה bootstrapמניחה שאין צורך בנוסחאות ,נרצה בדרך כלל להימנע מהנחות פרמטריות. יחד עם זאת נוסחאות מאפשרות לנו להבין את המידע בדרך נוספת פרק 7 Bootstrap standard errors: some examples דוגמה Score data :1 הנתונים 88 :סטודנטים ,לכ"א חמישה ציונים במבחנים מדעיים 2 ,סגורים 3פתוחים פרק 7 Bootstrap standard errors: some examples ניתוח ערכים עצמיים ווקטורים עצמיים של (𝐺𝑣 = 𝜆𝑣( Gיכול לסייע להבנת מקור השונות במצב של בעיה רב-מימדית דרך Principal component analysis בבעיה שלנו ניתן לראות מהמידע הגולמי שקיים מתאם גבוה בין הציונים של כל סטודנט (עם עצמו) ניתן אם כן לבנות מודל משוער לבעיה מהצורה במודל זה ואילו iהנו היכולת המדעית של סטודנט 𝑖𝑄 ) v=(v1,v2,v3,v4,v5קבוע לכל הסטודנטים. פרק 7 Bootstrap standard errors: some examples אם המודל היה נכון ,היינו מצפים שרק 𝜆1יהיה חיובי והשאר = ,0 ושהווקטור העצמי הראשון 𝑣1יהא שווה .Vבנוסף ,אם נגדיר 𝜃 בתור היחס אזי המודל נכון אמ"מ ( 𝜃=1כל הנקודות נמצאות על קו ה )PCA בדוגמה שלנו, נשאלת השאלה ,מה הדיוק של 𝜃 ? וכאן נכנסת לתמונה גישת ה .Bootstrap פרק 7 Bootstrap standard errors: some examples נפעיל את גישת ה Bootstrapעל הבעיה: מדגם ה Bootstrapהוא מטריצה ∗ 𝑋 בגודל 88*5 את השורות נדגום מתוך המטריצה Xהמקורית (חלק יופיעו מספר פעמים, חלק לא יופיעו כלל) לכל ∗ 𝑋 נחשב את מטריצת ה – COV כעת נחשב לכל מטריצה את הערכים העצמיים ולבסוף את פרק 7 Bootstrap standard errors: some examples תוצאות: - 𝜃 = .625,𝑆𝑒200 = .047המודל של משתנה יחיד ככה"נ איננו נכון כעת נניח שרוצים לבנות רווח-סמך 200 -רפליקציות כאמור אינן מספיקות ,לכן– לעת עתה נשתמש בכל זאת במשפט הגבול המרכזי: פרק 7 Bootstrap standard errors: some examples ניתוח Bootstrapלוקטורים העצמיים לו היינו צריכים להשתמש במספר אחד כדי לייצג את כל הציונים של סטודנט מסוים ,כיצד היינו עושים זאת? ואם היינו רוצים להשתמש במספר נוסף כדי לייצג את כל הציונים בווקטור הראשון המשקלות פחות או יותר שווים ולכן Yiמודד בערך סכום/ממוצע בווקטור השני ישנם משקלות שליליים על המבחנים הסגורים וחיוביים על הפתוחים ולכן Ziמודד את הקונטרסט בין הביצועים בשני הסוגים פרק 7 Bootstrap standard errors: some examples מתוך 200הרפליקציות של Gנבנה 200רפליקציות 𝑣2 ,𝑣1 ניתן לראות שס"ת של מרכיבי הווקטור הראשון הן פחות מחצי מאלו של השני כמו כן ניתן לראות שעבור ווקטור הראשון 𝑆𝑒200,α ,דומה ל 𝑆𝑒200 ,לעומת זאת בווקטור השני יש הבדלים בעיקר ברכיבים .1,5 7 פרק Bootstrap standard errors: some examples פרק 7 Bootstrap standard errors: some examples דוגמא :2התאמת עקומה הנתונים 164 :גברים קיבלו הוראה לקחת תרופה להורדת כולסטרול מספר פעמים ביום – Z .מידת הציות להוראות ו – Yמידת השיפור במצבם. פרק 7 Bootstrap standard errors: some examples אנחנו רוצים להתאים קו רגרסיה לנתונים כדי לוודא שחל שיפור, כלומר קו שמתאים לכל ( Zברוחב )1%את התוחלת .Y|Z אם נשתמש בגישת " plug-inנאיבית" נקבל קו לא חלק: אם נגדיל את הרוחב של Zניתקל בבעיות של כמות נתונים לא מספקת. פרק 7 Bootstrap standard errors: some examples פתרון אפשרי אחד :שיטת הריבועים הפחותים בשל הצורה של הנתונים נבחן מודל עם פונקציה ריבועית ונחשב את βלפי הנוסחה הרגילה ככל שנגדיל את הדרגה של המודל ,נאבד את ה"חלקות" של הקו והוא יילך ויתקרב למודל ה .Plug-in בכל זאת הקו שיצא נראה קצת חלק מדי .אנחנו רוצים קו חלק, אבל הנחה של ריבועיות על כל טווח הנתונים נראית חזקה מדי. פרק 7 Bootstrap standard errors: some examples הפתרון :פונקצית Loess קלט לפונקציה – 𝛼 :אחוז הנקודות בהן נעשה שימוש בכל צעד.3=( . בתרשים). התאמת סביבה ) N(zלכל נקודה ( 49 – Zמתוך )164הנקודות הקרובות ביותר (ערך מוחלט). חישוב מקדמים של רגרסיה לינארית משוקללת (השקלול תלוי בקרבה של הנקודה ל )Zבסביבה שנבחרה התאמת ערך ל Zלפי משוואת הרגרסיה שהתקבלה פרק 7 Bootstrap standard errors: some examples להלן השוואה באמצעות Bootstrapבין סטיות התקן של שתי השיטות, עבור שני ערכים של .Z כיצד הופעל ה ?Bootstrapדגמנו עם החזרה מתוך הנתונים( n=164 ,כל נבדק יכול להופיע אפס פעמים או מספר פעמים בכל רפליקציה).B=50 , לכל רפליקציה חישבנו את שתי הרגרסיות ,ולבסוף בודדנו את הערכים המתאימים ל .Z=60%, Z=100% ניתן לראות ששיטת Loessנתנה אומדן פחות מדויק (משום שהיא משתמשת רק ב *nαנתונים). היתרון שלה הוא שהאומדן שלה הוא גם פחות מוטה כפי שנראה כעת( ,שתי התכונות נובעות מלוקאליות): פרק 7 Bootstrap standard errors: some examples ניתן להשתמש ב Bootstrapכדי ללמוד על מאפיינים ספציפיים של קו הרגרסיה למשל העליה החדה ב Z=80 נגדיר סטטיסטי מתאים: נפעיל Bootstrapכדי לדגום את B=50 , θונקבל שכל הדגימות >0 ורובן >𝑆𝑒50 =.61,𝜃 = 1.59 ;1 לעומת זאת ברגרסיה הריבועית 𝜃 = 0.17בלבד !!! כנ"ל לגבי האומדנים שהרגרסיה הריבועית נתנה עבור שתי הנקודות שבחנו פרק 7 Bootstrap standard errors: some examples מקרה שבו Bootstrapאיננו מתאים: יש לנו מדגם בגודל nמתוך התפלגות ) .(0,θנניח ש ,θ=1ובמדגם .𝜃=.988 כעת אם נדגום בשיטת bootstrapלא פרמטרי (רגיל) נקבל גרף שלא מתאר "יפה" את ההתפלגות Fשל . θ לעומת זאת אם נדגום בשיטת bootstrapפרמטרי נקבל את הגרף ה"נכון". הבעיה 𝐹 :איננה אומד טוב ל Fבזנב הקיצוני .נדרש ידע פרמטרי או החלקה כלשהיא. סוף !!!