Transcript 10-11

An introduction to the bootstrap
10-11 ‫פרקים‬
13.11
‫עמית אוסי‬
‫‪ ‬פרק ‪ :10‬אמידת ההטיה‪.‬‬
‫הקדמה‪:‬‬
‫עסקנו עד כה בסטיית התקן כמדד דיוק לאומד‬
‫לבין‬
‫פרק זה יתרכז בהטיה ‪ ,‬ההפרש בין תוחלת של האומד‬
‫שאמדנו אותו‪.‬‬
‫אלגוריתם ה‪ Bootstrap‬מסוגל בקלות לתת לנו אומד להטיה בנוסף‬
‫לסטיית התקן‪.‬‬
‫נציג כאן בנוסף את שיטת ה‪ jackknife‬להטיה‪,‬למרות שנלמד עליו‬
‫בהרחבה בפרק הבא‪.‬‬
‫אומד ‪ bootstrap‬להטיה‪:‬‬
‫נניח שאנו מדברים על מדגם יחיד א‪-‬פרמטרי‪( .‬הרגיל שאנחנו מכירים‪ ,‬אין הנחות‬
‫פרמטריות על ההתפלגות )‪.‬‬
‫התפלגות ‪ F‬נותנת לנו ‪ X‬ע"י דגימה מקרית‪,‬‬
‫אנחנו רוצים להעריך את הערך האמיתי של הפרמטר‪,‬‬
‫לעת עתה ניקח את האומד להיות הסטטיסטי‬
‫מאוחר יותר נתעניין באומד ה‪plug-in‬‬
‫כאומד ל מוגדרת להיות ההפרש בין התוחלת של‬
‫ההטיה של‬
‫והערך של הפרמטר ‪:‬‬
‫הטיה גדולה לרוב לא רצויה להעדפת האומד‪.‬‬
‫משחק תפקיד חשוב בתיאוריה סטטיסטית‪.‬‬
‫אומד חסר הטיה‬
‫הוא נותן תחושה טובה‪.‬‬
‫= לא בהכרח חסרי הטיה‪ ,‬אבל הם‬
‫לעומת זאת‪ ,‬אומדי ה‪plug-in‬‬
‫נוטים לתת הטיה נמוכה יחסית לסטיית תקן שלהם‪.‬‬
‫‪.‬‬
‫ניתן להשתמש בבוטסראפ על מנת להעריך את ההטיה של‬
‫אומד ההטיה לבוטסראפ מוגדר באופן הבא‪:‬‬
‫אם )‪ s(X‬הוא המוצע‪ ,‬ו)‪ t(F‬הוא אוכלוסית הממוצעים‪ ,‬קל לראות שההטיה‬
‫במקרה זה‬
‫הגיוני‪ ,‬כי הממוצע הוא אומד בלתי מוטה של אוכלוסית ממוצעים‪ ,‬ולכן‬
‫בד"כ לסטטיסטים יש הטיה ולכן נאמוד אותה‪.‬‬
‫האלגוריתם לאמידת ההטיה הוא כדלהלן‪:‬‬
‫בלתי תלויים‬
‫יוצרים מדגמי בוטסטראפ‬
‫‪ ,‬קירוב ל‬
‫מציבים‬
‫י‬
‫יהיה ע"י הממוצע‬
‫ולבסוף‪ ,‬ההטיה‪:‬‬
‫‪ Example: the patch data‬‬
‫קצת היסטוריה‪ :‬סטטיסטיקאים היו מודגאים רבות מהטיה אפשרית באומדי‬
‫יחס‪.‬‬
‫דוגמה‪:‬‬
‫הדביקו על שמונה נבדקים מדבקה רפואית‪ ,‬שמטרתה להכניס הורמון טבעי מסויים לדם‪.‬‬
‫לכל נבדק‪ ,‬בדקו את רמת ההורמון בדם אחרי שלבשו את כל אחד מ‪ 3‬המדבקות‪ :‬מדבקת דמה‪,‬‬
‫מדבקה "קיימת"‪ ,‬והמדבקה החדשה‪ ,‬שאותה רוצים לבדוק‪ .‬שלושת הטורים הראשונים בטבלא‬
‫מראים את רמת הדם לכל נבדק‪ .‬מטרת הניסוי הוא להראות שוויון ביולוגי‪.‬‬
‫הסבר הטבלא‪ :‬עמודה ראשונה‪,‬מדבקת הדמה‪ .‬עמודה שנייה‪ ,‬המדבקה הישנה‪,‬‬
‫עמודה שלישית‪ ,‬המדבקה החדשה‪.‬‬
‫‪Z=oldpatch-placebo‬‬
‫‪Y=newpatch-oldpatch‬‬
‫‪ ‬המדבקות הישנות אושרו למכירה ע"י ה‪ . FDA‬המדבקות החדשות לא הוצרכו לעבור את כל‬
‫התנאים ב‪ .FDA‬הם היו מאושרים למכירה‪ ,‬אם היה אפשר להוכיח שהם היו שוויונים מבחינה‬
‫ביולוגית למדבקות הישנות‪ .‬הקריטריון של ה‪ FDA‬לשוויון ביולוגי ש‪-‬‬
‫במילים אחרות ‪ ,‬ה‪ FDA‬דורש‪ ,‬שהמדבקות החדשות יתואמו ב‪ 20%‬מרמת ההורמון שהמדבקה‬
‫הישנה מוסיפה למדבקת דמה ברמת הדם‪.‬‬
‫הפרמטר‬
‫יהי‬
‫בפרקים הבאים נעסוק ברווח סמך ל ‪ .‬בפרק זה נעסוק בהטיה וסטיית התקן לאומד הפלאג‪-‬אין‬
‫אנו מעוניינים ב‪ 2‬סטטיסטים‪ zi yi ,‬שמחושבים עבור כל אחד מ‪ 8‬הנבדקים‬
‫מטרת הניסוי הייתה להציג פאטצ'ים ששווים לאלה של ה‪old-plant.‬‬
‫מתקבל ע"י דגימה מקרית מהתפלגות הדו‪-‬משתנית‬
‫נניח שהזוג‬
‫לכן‬
‫‪.‬‬
‫יהיה הפרמטר‬
‫אומד הפלאג‪-‬אין של תטא יהיה‬
‫שניקח אותו להיות האומד שלנו‬
‫ערך האומד יהיה‬
‫וערכו המוחלט קטן מ‪ ,0.20‬לכן יש תקווה שזה יספיק לתנאי השוויון הביולוגי‬
‫של ‪.FDA‬‬
‫כעת נחשב את ההטיה‪.‬‬
‫ניצור ‪ 400‬מדגמים מקריים עם ‪ 8‬תצפיות‪ .‬בסופו של דבר‬
‫נמצע‬
‫הסבר‪ :‬מכל מדגם נמצע את ‪ y‬ואת ‪ , z‬ונחלק‪ .‬לאחר מכן‬
‫ערכים אלו‪.‬‬
‫יהיה לנו סטיית תקן‬
‫וממוצע המדגם‬
‫אומד הבוטסראפ להטיה יהיה‬
‫האיור מראה היסטוגרמה עבור ‪ B=400‬מדגמי בוטסראפ עבור‬
‫הערה‪ :‬היחס בין ההטיה לסטיית התקן הוא קטן‪ ,‬ושווה ל‪ .041.‬כלל אצבע‪:‬‬
‫אם יחס זה פחות ‪, 0.25‬ניתן להתעלם מההטיה [ אלא אם כן אנו נרצה לבנות‬
‫רווח סמך לפרמטר בדיוק גבוה]‪.‬‬
‫נדון כעת על ה‪.MSE‬‬
‫עבור יהיה‪:‬‬
‫שורש ה‪ MSE‬לאומד‬
‫השלב האחרון נובע מפיתוח טיילור‪ .‬מסתמכים על זה שהיחס קטן מ‪.1‬‬
‫אם ההטיה = ‪ ,0‬השורש מקבל ערך מינימלי ושווה‬
‫אז אז השורש של ה‪ MSE‬לא גדול יותר ב‪ 3.1%‬מסטיית‬
‫אם‬
‫התקן‪.‬‬
‫ידוע ש‪ 400=B‬מדגמי בוטסטראפ יותר ממספיק לקבלת אומד טוב לסטיית‬
‫התקן‪ .‬האם זה מספיק להטיה? התשובה המפתיעה היא לא‪.‬‬
‫רווח סמך יהיה‬
‫הסבר‪ :‬השורה הראשונה היא רווח סמך סטנדרטי מהתפלגות נורמלית‪.‬‬
‫(אנו רוצים לאמוד את ההטיה)‪,‬‬
‫מחליף את‬
‫האומד להטיה‪-‬‬
‫(הערך האמיתי של ההטיה)‪.‬‬
‫מחליף את‬
‫ו‬
‫נסתכל על הנתונים שלנו אשר להם ‪400=B‬‬
‫ונקבל רווח סמך‬
‫טווח שגיאה גדול יחסית לערך‬
‫(‪ 0.0105‬כמעט פי ‪ 2‬מ‪)!0.0043‬‬
‫ו‬
‫לכן‬
‫נקבל לפי אי"ש המשולש‬
‫‪<0.14‬‬
‫ולפי כלל האצבע‪ ,‬זה זניח‪ .‬אולם‪ ,‬נרצה עדיין לחשב במדויק את‬
‫או קירוב טוב מספיק‪ ,‬וראינו כבר שאי אפשר לסמוך על ‪=0.0043‬‬
‫אפשר להגדיל את ‪ .B‬אבל ניראה שאין צורך‪.‬‬
‫‪An improved estimate of bias ‬‬
‫מסתבר שיש דרכים טובות יותר לקרב את‬
‫מבוטסראפ‪ .‬הדרך החדשה עובדת כש הוא האומד פלאג‪-‬אין‬
‫עבור‬
‫כאן נתאר את השיטה אבל בפרקים הבאים נסביר מדוע היא עובדת‪.‬‬
‫‪,‬‬
‫‪.‬‬
‫מצביע על הפרופורציה של תצפית הבוטסראפ מהמדגם ‪,‬‬
‫יהי‬
‫כלומר‬
‫ה ‪Resampling vector‬‬
‫מורכב מאיברים אי שליליים שסכומם אחד‪ .‬תפקידו הוא לציין את הפרופורציה‬
‫של כל תצפית במדגמי בוטסראפ‪.‬‬
‫למשל אם‬
‫אז‬
‫כפונקציה של הוקטור‬
‫אפשר לחשוב על‬
‫למשל עבור הדוגמה ש‬
‫השימוש יהיה‬
‫ע"מ‬
‫אומד הפלאג‪-‬אין של ‪ ,‬נרשום‬
‫עבור‬
‫כפונקציה של *‪.P‬‬
‫להצביע על‬
‫הוקטור שנותן סיכוי אחיד לכל התצפיות‬
‫יהיה‬
‫לכל ‪ ,j‬ז"א כשכל אחד‬
‫כש‬
‫הוא הערך עבור‬
‫הערך‬
‫‪,‬מלבד‬
‫‪,‬מה שאומר ש‬
‫מהנתונים הופיע בדיוק פעם אחת במדגם‬
‫לא ישתנה‪,‬‬
‫אולי ערבוב בסדר התצפיות לכן‬
‫במילים אחרות‪:‬‬
‫‪ B‬מדגמי הבוטסראפ נותנים מדגמים‬
‫וקטורים‪.‬‬
‫וגוררים‬
‫כעת נגדיר את הממוצע הוקטורי שלהם‬
‫נוכל לרשום את אומד הבוטסראפ להטיה כ‪-‬‬
‫"אומד טוב יותר לבוטסראפ" אשר יסומן ב‬
‫יהיה‪:‬‬
‫בדוגמה עם המדבקות‪ ,‬עבור ‪ 400‬מדגמים‪ ,‬יוצא ש‬
‫אשר נותן‬
‫ולבסוף‬
‫בהשוואה ל‬
‫האיור הבא מראה סקאלה לוגריתמית עבור ‪ .B‬הקווים המקווקווים הם‬
‫הבוסטראפ הרגיל והקו הרציף הוא השיטה החדשה‪ .‬אומד יותר טוב אומר‬
‫שההתכנסות יותר מהירה ואנו רואים בציור את התכנסותו המהירה של השיטה‬
‫החדשה עבור האומדים להטייה‪.‬‬
‫‪The jackknife estimate of bias ‬‬
‫הגדרה‪ :‬יהיה מדגם‬
‫להיות כל המדגם מלבד התצפית ה‪ i‬כלומר‬
‫נגדיר את‬
‫עבור כל ‪.i=1…n‬‬
‫עבור כל ‪i‬‬
‫ננגדיר‬
‫עבור סטטיסטי‬
‫הוא‬
‫כש‬
‫שווה ל‬
‫‪,‬‬
‫עבור סטטיסטי פלאג אין ‪,‬‬
‫‪.‬‬
‫ההתפלגות האמפירית עם ‪ n-1‬תצפיות במדגם‬
‫האומד להטייה מוגדר כ‬
‫הוא סטטיסטי שאינו חלק‪ ,‬כמו החציון‪ .‬היא‬
‫נוסחה זו לא תעבוד אם‬
‫תעבור טוב במקרה שהסטטיסטי חלק (פונקציה דיפרנציאבילית של התצפיות)‪.‬‬
‫נשאלת השאלה מאין הגיע הגורם ‪ ?n-1‬הסיבה היא הקשר החזק בין המדגמים‪.‬‬
‫מכיוון שלכל ‪ 2‬מדגמים יש ‪ n-2‬תצפיות דומות‪ ,‬יהיה קשר חזק ביניהם ועל כך‬
‫נכפיל בגורם המתקנן ‪.n-1‬‬
‫למשל בדוגמאת המדבקה‪:‬הסטטיסטי שלנו הוא‬
‫והוא חלק (חלוקה של פונקציות חלקות)‪,‬‬
‫אופן החישוב הוא כדלהלן‪ :‬לכל ‪ , i‬מוציאים את השורה ה‪ i‬מהטבלא‪ ,‬ועושים‬
‫חלוקת הממוצעים של ‪ y‬ב‪.z‬‬
‫עבור הבוטסראפ‬
‫ניזכר שיצא לנו‬
‫אם נמצע את השורה נקבל ‪-0.072‬‬
‫לכן‬
‫ניזכר בכך שהבוטסראפ האידיאלי יצא לנו אותה התשובה‪ .‬זה לא במקרה‪.‬‬
‫ובעתיד נראה ששיטת האולר מהווה קירוב טיילור ריבועי עבור הבוטסראפ‬
‫האידיאלי‪.‬‬
‫תיקון הטיה‪:‬‬
‫למה אנו מחפשים את ההטיה? כדי לתקן את האומד‪ ,‬ע"מ לקבל אח"ה‬
‫ואם נציב‬
‫התיקון הסביר הוא‬
‫זה ייתן‬
‫(הטיה זאת יוצאת גם בשיטת האולר וגם‬
‫בדוגמאת היחס‬
‫בשיטת השיפור לבוטסראפ)‪ ,‬לכן‬
‫צריך להזהר עם זה כי לעיתים זה נותן סטיית תקן גדולה יותר‪.‬‬
‫לסיכום‪ ,‬אמידת ההטיה לעיתים מעניינת וכדאית אך יותר קשה מאמידת סטיית‬
‫התקן‪ .‬תיקון ההטיה עלול להיות מסוכן ועלול להגדיל את סטיית התקן‪ ,‬עד כדי‬
‫קטנה יחסית לסטיית התקן‬
‫שתתן אפילו ‪ MSE‬גדול יותר‪ .‬אם‬
‫אז בטוח להשתמש באומד ללא תיקון ההטיה‪.‬‬
‫אינו אומד הולם לפרמטר‬
‫אם המצב הפוך‪ ,‬אז כנראה שהסטטיסטי‬
‫‪The jackknife ‬‬
‫הקדמה‪ :‬בפרק הקודם הוזכר האולר‪ ,‬טכניקה לאמידת ההטיה והסטיית תקן של‬
‫אומדן‪.‬‬
‫האולר דומה לשיטת הבוטסראפ‪ .‬בפרק זה נחקור את שיטת האולר‪.‬‬
‫הגדרה‪ :‬יהיה מדגם‬
‫להיות כל המדגם מלבד התצפית ה‪ i‬כלומר‬
‫נגדיר את‬
‫עבור כל ‪.i=1…n‬‬
‫עבור כל ‪. i‬‬
‫נגדיר‬
‫עבור סטטיסטי‬
‫האומד להטייה מוגדר כ‬
‫ולסטיית התקן‬
‫ניתן להראות ש‬
‫דוגמה‪ :‬עבור‬
‫לעומת אומד הפלאג‪-‬אין‬
‫והם מאוד דומים מלבד הכפלה בפונקציה של ‪.n‬‬
‫‪ Example: test score data‬‬
‫ניישם את השיטה ‪ .‬על תוצאות מבחן שנבחנו בו ‪ 88‬סטודנטים‪ .‬ניזכר‬
‫שהסטטיסטי שאנו מעוניינים בו הוא יחס ערך עצמי של המטריצת קוואריאנס‬
‫בסכום הע"ע האחרים‪.‬‬
‫עבור כל‬
‫ליישם את השיטה‪ ,‬אנו מוחקים כל שורה בכל פעם‪ .‬ומחשבים את‬
‫סדרת נתונים בגודל ‪ .87‬בשורה העליונה של באיור ‪ 11.1‬מראה היסטוגרמה עבור‬
‫‪ 88‬אומדי ג'קנייף של תטא‪.‬‬
‫חישבנו גם את האומד עבור ‪ 88‬מדגמי בוטסראפ‪.‬‬
‫יניב ‪ 049.‬לעומת ‪ 047.‬בבוטסראפ שזה טיפה יותר גדול‪.‬‬
‫חישוב‬
‫האיור הבא משווה בין שיטת האולר לבין שיטת הבוטסראפ‪ .‬כדי להשוות בין‬
‫הגרפים נצטרך שהם יהיו על אותה הסקאלה‪ ,‬ועל כך הטרנספורמציה‬
‫‪ Pseudo-values‬‬
‫דרך נוספת לחשוב שיטת האולר הוא תחת תנאים של ערכי פסאדו‬
‫המוגדרים‪:‬‬
‫במקרה המיוחד‬
‫נוסף על כן‪ ,‬עבור כל‬
‫יוצא כמובן ש‬
‫הנוסחה ל‬
‫‪ ,‬הנתון ה‪ i‬בנתונים‪.‬‬
‫יכולה להיות מובעת כ‬
‫ומה בדבר רווח סמך? דבר טבעי אחד לעשות הוא‪,‬‬
‫מסתבר שזה לא עובד כ"כ טוב; למעשה‪ ,‬זה לא יותר טוב מרווח‬
‫מהתפלגות נורמלית‪ .‬נדון בהרחבות על נושא זה בפרקים ‪.12-14‬‬
‫למרות שערכי‪-‬פסאדו מסקרנים‪ ,‬לא ברור אם ומתי הם עובדים טוב‪.‬‬
‫(נדון על כך בפרקים הבאים)‬
‫‪ Relationship between the jackknife and bootsrap‬‬
‫מה יותר טוב? מאחר וחישוב האומד עבור שיטת האולר דורש רק ‪n‬‬
‫פעמים‪ ,‬שיטה זו תהיה טובה יותר מבוטסראפ‪ ,‬עבור ‪ B‬למשל ‪ 100‬או‬
‫‪ ,200‬עבור סטיית התקן‪.‬‬
‫אולם‪ ,‬מהסתכלות על המדגמים של שיטת האולר אנו לא משתמשים‬
‫בכל המידע ועלולים לחשוב שיש פה איבוד מידע ‪,‬ולכן נוכל לנחש שפחות‬
‫אפקטיבי‪ .‬למעשה‪ ,‬מסתבר ששיטת האולר הוא קירוב לבוטסראפ‪.‬‬
‫(מרחיבים על כך בפרק ‪.) 20‬‬
‫מהות הרעיון‪:‬‬
‫נדבר קודם על סטיית התקן‪.‬‬
‫סטטיסטי ייקרא לינארי אם הוא יוכל להכתב בצורה‪:‬‬
‫קבוע ואלפא הם פונקציות‪ .‬למשל‪ ,‬הממוצע הוא סטטיסטי‬
‫כאשר‬
‫לינארי‪ .‬השונות היא לא‪.‬‬
‫‪. ‬‬
‫בשביל סטטיסטים כאלה‪ ,‬מסתבר שאומדי האולר והבוטסראפ עבור סטיות‬
‫עבור‬
‫התקן הם כמעט דומים ; חוץ מגורמים מינוריים‪,‬‬
‫‪ ,‬אומד האולר עבור סטיית‬
‫הג'קנייף‪ .‬זה בדיוק מה שמצאנו עבור‬
‫התקן נותן‬
‫בעוד שהבוטסראפ נותן אותו דבר ‪ ,‬רק צריך להכפיל בגורם‬
‫עבור סטטיסטים לינארים ‪ ,‬שיטת האולר תעבוד יפה (מכיוון שהיא דומה מאוד‬
‫לבוטסראפ)‪.‬‬
‫עבור סטטיסטים שאינם לינארים‪ ,‬אומד האולר יקרב את בוטסראפ (מלבד‬
‫) ולכן יהיה איבוד מידע‪ ,‬ולא יעבוד טוב‬
‫הכפלה בגורם קבוע‬
‫כמו הבוטסראפ‪ .‬האיור הבא יביא זאת לידי ביטוי‪:‬‬
‫אנו דוגמים ‪ 200‬מדגמים של ‪ 10‬תצפיות מכל אחד‪ ,‬מהתפלגות נורמלית דו‬
‫משתנית עם תוחלת ‪ 0‬ושונות אחידה‪ ,‬עם קורלציה‪.‬‬
‫הקו הישר מסמל את הסטייה האמיתית‬
‫הסבר‪ :‬השמאלי עבור החציון שהוא סטטיסטי לינארי לכן האומד לסטיית התקן של ‪2‬‬
‫השיטות קרובים‪ .‬ההשתנות של שיטת האולר גדולה קצת יותר משיטת הבוטסראפ‪.‬‬
‫אבל עבור הקורלציה (סטטיסטי שאינו לינארי)‪ ,‬ההשתנות של שיטת האולר גדולה‬
‫בהרבה משיטת הבוטסראפ‪ ,‬עבור סטיית התקן‪ .‬לכן במקרה זה שיטת בוטסראפ‬
‫עדיפה‪.‬‬
‫בדומה לאומד סטיית התקן‪ ,‬נדבר כעת על ההשוואה בין השיטות בנוגע להטיה‪.‬‬
‫הפעם‪ ,‬שיטת האולר תעבוד עבור קירובים ריבועיים (יותר טוב מלינארים)‬
‫מהצורה‪:‬‬
‫כעת גם השונות נכללת‪ .‬במקרה זה‪ ,‬שיטת האולר והבוטסראפ יעבדו באופן דומה‪.‬‬
‫מתי תיכשל שיטת האולר?‬
‫‪ Failure of the jackknife‬‬
‫נסכם עד כה‪ :‬שיטת האולר מספקת קירוב לבוטסראפ עבור אמידת סטיית התקן‬
‫אינו "חלק"‪.‬‬
‫וההטיה‪ .‬אולם שיטת האולר יכולה להכשל כשהסטטיסטי‬
‫סטטיסטי הוא "חלק"‪ ,‬אם תזוזות קטנות בנתונים ייגרמו אך ורק לתזוזות‬
‫קטנות בסטטיסטי‪ .‬למשל ממוצע הוא חלק‪ ,‬כל שינוי בתצפית ייגרום שינוי עוד‬
‫יותר קטן בסטטיסטי‪ ,‬אבל חציון לא כי יהי מדגם‬
‫החציון הוא ‪ .46‬כעת נגדיל את התצפית הרביעית הכי גדולה‪ .‬החציון לא ישתנה‬
‫בכלל עד שנעלה מעל ‪ ,46‬ואז הוא יקפוץ בבת אחת לאותו הערך‪.‬‬
‫דוגמה‪:‬‬
‫תהיה ‪ , 6.68‬ועבור ‪100=B‬‬
‫ונסתכל על החציון‪ .‬סטיית התקן עבור האולר‬
‫מדגמי בוטסראפ זה ‪ , 9.58‬הרבה יותר גדול מ‪ .6.68‬אם ‪ n‬ישאף לאינסוף ניתן‬
‫לא עקיב ולכן לא יתכנס לסטיית תקן האמיתית‪ .‬לעומת‬
‫יהיה להראות של‬
‫זאת הבוטסראפ מתחשב יותר בנתונים אשר פחות דומים למקוריים מאשר‬
‫האולר ועל כן יותר מדוייק ממנו עבור החציון‪.‬‬
‫‪The delete-d jackknife‬‬
‫יש דרך לתקן את אי העקיבות עבור סטטיסטים שאינם חלקים‪ .‬במקום להוציא‬
‫כל פעם תצפית אחת אנו נוציא ‪ d‬תצפיות כך ש ‪ n=r*d‬עבור איזהשהו שלם ‪.r‬‬
‫אז שיטה זו עקיבה עבור‬
‫ניתן להוכיח שאם‬
‫החציון‪ .‬לכן נבחר‬
‫את האומד עבור ההוצאה של קבוצה ‪ s‬של תצפיות‪ .‬הנוסחה לאמידת‬
‫נסמן ב‬
‫סטיית התקן תהיה‬
‫כש‬
‫למשל‪ ,‬עבור ‪ n=9‬נוכל לבחור ‪ d=4>3‬ולכן יהיה לנו ‪ 9‬מעל ‪ 4‬מדגמים כלומר‬
‫‪ 126‬מדגמים‪.‬‬