שכיח - אוניברסיטת בר אילן

Download Report

Transcript שכיח - אוניברסיטת בר אילן

‫סטטיסטיקה‬
‫‪2‬‬
‫ארגון וקיבוץ נתונים‬
‫מדדי מרכז‬
‫מדדי פיזור‬
‫ענבל שפירא לוץ‪ ,‬אריאל גלעד‪ ,‬אסנת בר שירה‪ ,‬המחלקה למדעי המוח אוניברסיטת בר אילן ©‬
‫ארגון נתונים‬
‫על זה תעברו לבד‬
‫מהחוברת‬
‫טבלת שכיחויות‬
‫תמיד ילך‬
‫ויגדל!‬
‫שימו לב‬
‫לסימונים‪:‬‬
‫‪ f‬לשכיחות‬
‫ואח"כ נראה‬
‫אותו כצפיפות‬
‫‪ F‬לשכיחות‬
‫מצטברת‬
‫טבלת קטגוריות‬
‫• כשמחלקים משתנה רציף לקטגוריות‪ -‬חשוב שכל ערך‬
‫יופיע רק בקטגוריה‪/‬מחלקה אחת (החלוקה נקבעת‬
‫שרירותית)‪.‬‬
‫תחתון גבול ‪ ‬עליון גבול‬
‫• נקודת האמצע של כל מחלקה הינה‬
‫‪2‬‬
‫טבלת קטגוריות‬
‫בתצוגה גרפית ‪ -‬לתשומת ליבכם‬
‫• בציר ‪ X‬יופיעו הערכים ובציר ‪ Y‬השכיחויות או ה‬
‫‪.count‬‬
‫• במידה שהמחלקות אינן שוות יש לחשב מדד יחסי‬
‫של שכיחות (נקרא צפיפות) הלוקח בחשבון את‬
‫רוחב המחלקות‪.‬‬
‫צפיפות ‪‬‬
‫רוחב הקטגוריה‬
‫שכיחות‬
‫השטח של ההיסטוגרמה מקבל‬
‫משמעות יחסית‬
‫שאלה לדוגמא‬
‫ תזכורת קצרה‬Σ

‫סיום‬

m



i  ‫התחלה‬
ik
m
ik
m
ik
m
ik
‫הביטוי שבו נציב‬
x i  x k  x k 1    x m
a   m  k  1 a
ax i  a 
 xi
m
ik
 yi   
xi
m
ik
xi 

m
ik
yi
‫שעורי בית שמומלץ להכין אך לא להגשה!‬
‫• כל השאלות בנושא קיבוץ נתונים‪.‬‬
‫• כל השאלות בנושא סכימה‪.‬‬
‫מדדי מרכז‬
‫מדדי מרכז‬
‫• אלו הם ערכים המאפיינים את ערכי ה ‪ X‬הנתונים‬
‫– שכיח (‪ : (mode, M0‬הערך הנפוץ‪ ,‬השכיח ביותר‬
‫בהתפלגות‪.‬‬
‫– אמצע הטווח )‪ : (midrange, MR‬ממוצע שני הערכים‬
‫הקיצוניים (הגדול ביותר והקטן ביותר)‪.‬‬
‫– חציון )‪ : (median, Md‬ערך המחלק את ההתפלגות‬
‫לשניים‪ -‬לפחות מחצית מהתצפיות מקבלות ערך זה או‬
‫גבוה ממנו‪ ,‬ולםחות מחצית מהתצפיות מקבלות ערך‬
‫זה או נמוך ממנו‪.‬‬
‫‪ : (mean,‬סכום הערכים מחולק במספרם‪.‬‬
‫– ממוצע )‬
‫שכיח‬
‫• שכיח (‪ : (mode, M0‬הערך (‪ )X‬הנפוץ‪ ,‬השכיח ביותר‬
‫בהתפלגות‪.‬‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫כששכיחות כל הערכים שווה – אין שכיח‬
‫כשיש מספר ערכים "הכי שכיחים" יהיו מספר שכיחים‪.‬‬
‫כששני ערכים עוקבים "הכי שכיחים" השכיח יהיה הממוצע של‬
‫שניהם‪.‬‬
‫במחלקות שוות רוחב‪ -‬השכיח יהיה 'נקודת האמצע' של‬
‫המחלקה השכיחה‪.‬‬
‫במחלקות השונות ברוחבן‪ -‬השכיח יהיה נקודת האמצע של‬
‫המחלקה הצפופה ביותר‪.‬‬
‫דוגמא‬
‫נבדקו גילאי המשתתפים בצעדת ירושליים האחרונה‬
‫מיהו השכיח?‬
‫אמצע הטווח‬
‫• אמצע הטווח )‪ : (midrange, MR‬ממוצע שני הערכים‬
‫הקיצוניים (הגדול ביותר והקטן ביותר)‪.‬‬
‫חציון‬
‫• חציון )‪ : (median, Md‬ערך המחלק את ההתפלגות לשניים‪-‬‬
‫לפחות מחצית מהתצפיות מקבלות ערך זה או גבוה ממנו‪,‬‬
‫ולםחות מחצית מהתצפיות מקבלות ערך זה או נמוך ממנו‪.‬‬
‫• נסדר את הנתונים בסדר עולה ונקח את הערך שבאמצע‪,‬‬
‫כלומר מחצית מהמקרים מעליו ומחצית מתחתיו‪.‬‬
‫• שימו לב לא לקחת את מיקומו של הערך כחציון אלא את‬
‫הערך עצמו!!‬
‫‪n 1‬‬
‫• אם ‪ N‬אי זוגי יש נתון שנמצא בדיוק באמצע‪2 .‬‬
‫• אם ‪ N‬זוגי נקח את ממוצע שני הערכים האמצעיים‪.‬‬
‫דוגמא‬
‫• להלן גילאי המשתתפים בטיול במערות בית ג'וברין‬
‫בשבת האחרונה‪.‬‬
‫מהו החציון?‬
‫(התשובה צריכה להיות בגיל!!)‬
30  21  1  10
27  12  15
‫ממוצע‬
‫• ממוצע )‬
‫‪ : (mean,‬סכום הערכים מחולק במספרם‪.‬‬
‫• במידה ובידינו טבלת שכיחויות )‪ f(x‬נחשב ‪x i  f  x i ‬‬
‫‪n‬‬
‫‪‬‬
‫(ממוצע משוקלל)‪.‬‬
‫‪n‬‬
‫‪i 1‬‬
‫• במידה ובידינו מחלקות‪ -‬נחשב ע"י נקודות האמצע של‬
‫המחלקות‪.‬‬
‫‪x i  MP‬‬
‫‪n‬‬
‫‪x ‬‬
‫‪n‬‬
‫‪‬‬
‫‪x ‬‬
‫‪i 1‬‬
‫• סכום הסטיות של כל הערכים מהממוצע שווה לאפס‪.‬‬
‫‪ x 0‬‬
‫‪ x‬‬
‫‪n‬‬
‫‪i‬‬
‫‪i 1‬‬
‫מדדי המרכז בהתפלגויות אופייניות‬
‫מדדי המרכז בהתפלגויות אופייניות‬
‫סיכום קצר‪...‬‬
‫תכונה‪/‬מדד‬
‫שכיח‬
‫אמצע טווח‬
‫חציון‬
‫ממוצע‬
‫פונקציית ההפסד‬
‫המופחתת למינימום‬
‫ע"י מדד זה‬
‫רגישות המדד‬
‫לערכים קיצוניים‬
‫מעטה‬
‫רבה‬
‫מעטה‬
‫רבה‬
‫נוחיות מתמטית‬
‫בפיתוח תאוריה‬
‫סטטיסטית‬
‫פחותה‬
‫פחותה‬
‫פחותה‬
‫רבה‬
‫סולם מדידה בו מותר‬
‫להשתמש במדד‬
‫שמי ומעלה‬
‫רווח ומעלה‬
‫סדר ומעלה‬
‫רווח ומעלה‬
‫מהירות החישוב‬
‫מהיר‬
‫מהיר‬
‫בינוני‬
‫איטי‬
‫האם המדד ישים‬
‫במחלקות פתוחות?‬
‫כן‬
‫לא‬
‫כן‬
‫לא‬
‫נפתור תרגילי כתה‪...‬‬
‫• לוודא שאין בתרגילי הכתה שאלות על פונקציות‬
‫הפסד‪...‬‬
~
max  x i  x


n
i 1
~
xi  x

n
i 1
~
 xi  x 
2
‫השוואה בין מדדי המרכז‬
‫תכונה‪/‬מדד‬
‫שכיח‬
‫אמצע טווח‬
‫חציון‬
‫ממוצע‬
‫פונקציית ההפסד‬
‫המופחתת למינימום‬
‫ע"י מדד זה‬
‫מספר‬
‫השגיאות‬
‫גודל הסטייה‬
‫המקסימלית‬
‫סכום הסטיות‬
‫המוחלטות‬
‫סכום ריבועי‬
‫הסטיות‬
‫‪‬‬
‫~‪‬‬
‫‪x‬‬
‫‪i‬‬
‫‪x‬‬
‫‪max‬‬
‫~ ‪xi ‬‬
‫‪x‬‬
‫‪n‬‬
‫‪i 1‬‬
‫‪‬‬
‫‪2‬‬
‫‪ x i  ~x ‬‬
‫‪n‬‬
‫‪i 1‬‬
‫רגישות המדד‬
‫לערכים קיצוניים‬
‫מעטה‬
‫רבה‬
‫מעטה‬
‫רבה‬
‫נוחיות מתמטית‬
‫בפיתוח תאוריה‬
‫סטטיסטית‬
‫פחותה‬
‫פחותה‬
‫פחותה‬
‫רבה‬
‫סולם מדידה בו מותר‬
‫להשתמש במדד‬
‫שמי ומעלה‬
‫רווח ומעלה‬
‫סדר ומעלה‬
‫רווח ומעלה‬
‫מהירות החישוב‬
‫מהיר‬
‫מהיר‬
‫בינוני‬
‫איטי‬
‫האם המדד ישים‬
‫במחלקות פתוחות?‬
‫כן‬
‫לא‬
‫כן‬
‫לא‬
‫‪‬‬
‫נפתור תרגילים מתוקשבים‬
‫מדדי פיזור‬
‫מדדי פיזור‬
‫• מדדים ל'מידת השוני' או ה'גיוון' של הנתונים בקבוצה‪.‬‬
‫– מדדי הפיזור בנויים בחלקם על פונקציות ההפסד שראינו‪,‬‬
‫כך ניתן לאמוד את הפיזור של הערכים‪.‬‬
‫• מדדי הפיזור צריכים לקיים‪:‬‬
‫– מקבלים רק ערכים אי שליליים (שכן מבוססים על מרחק‬
‫ואין "מרחק שלילי")‬
‫– אם כל המדידות זהות הפיזור יהיה אפס‬
‫– הוספת קבוע לכל הנתונים לא תשנה את ערכו של מדד‬
‫הפיזור‪.‬‬
‫טווח‪/‬תחום ‪Rang‬‬
‫• ההפרש (המרחק) בין הערך הגבוה לנמוך ביותר‬
‫‪R  x max  x min‬‬
‫– מושפע רק מקצוות ההתפלגות לכן רגיש לערכים‬
‫קיצוניים‬
‫– לא משקף את מידת הפיזור במרכז ההתפלגות‬
‫– מתאים למשתנים מסולם רווח ומעלה‬
‫דוגמאות‬
‫הטווח‪/‬התחום הבין רבעוני‬
‫• הטווח של ‪ 50%‬מערכי ההתפלגות הנמצאים‬
‫במרכז ההתפלגות‬
‫– ‪ 25%‬הגבוהים ביותר או הנמוכים ביותר הינם בגדר‬
‫"חריגים"‪.‬‬
‫– מחושב כהפרש בין הרבעון העליון לתחתון‬
‫– אינו רגיש לערכים קיצוניים‬
‫– מתאים למשתנים מסולם רווח ומעלה‬
‫• שימו לב כי נקח‬
‫את הערך של‬
‫המשתנה לשם‬
‫חישובינו‬
‫‪IQR  Q 3  Q1‬‬
‫דוגמאות‬
‫• נתונה סדרת ערכים‪ ,‬מהו התחום הבין רבעוני‬
‫שלה?‬
‫‪3 , 4 , 6 , 7 , 8 , 10 , 11 , 12 , 31‬‬
‫דוגמא ‪2‬‬
‫• חשבו את הטווח הבין רבעוני‬
‫דוגמא ‪3‬‬
‫שונות וסטיית תקן‬
‫• הפיזור הממוצע של התצפיות סביב הממוצע‬
‫– נמדד ע"י ממוצע סכום הסטיות הריבועיות מהממוצע‬
‫‪2‬‬
‫‪ x‬‬
‫‪ x‬‬
‫‪n‬‬
‫‪i‬‬
‫‪i 1‬‬
‫‪S ‬‬
‫‪2‬‬
‫‪n‬‬
‫– בגלל העלאה בריבוע‪ ,‬יחידות השונות הינן ריבוע‬
‫יחידות הערכים המקוריים‪ ,‬על כן נוציא שורש לקבלת‬
‫היחידות המקוריות (זוהי סטיית התקן)‪2 .‬‬
‫‪n‬‬
‫‪ i 1  x i  x ‬‬
‫ומעלה‬
‫רווח‬
‫מסולם‬
‫משמשים‬
‫–‬
‫‪n‬‬
‫– רגישים לערכים קיצוניים (כי אלו נכנסים לחישוב)‬
‫‪S ‬‬
‫דוגמאות‬
‫• חשב את הממוצע‪ ,‬השונות וסטיית התקן של‪:‬‬
‫‪1,3,5‬‬
‫דוגמא ‪2‬‬
‫• נשים לב כי‬
‫• חשב את הממוצע והשונות בטבלה שלהלן‬
‫טרנספורמציות‬
‫• נתונה סדרת המספרים ‪ 5 4 3 2 1‬חשבו את מדדי‬
‫הפיזור שלמדנו‪.‬‬
‫הכפלה בקבוע ‪b‬‬
‫נניח שכפלנו את אברי הסדרה פי ‪25 20 15 10 5 :5‬‬
‫מה יקרה לטווח‪ ,‬לתחום הבין רבעוני‪,‬לשונות‪ ,‬לסטיית‬
‫התקן?‬
‫הוספת קבוע‬
‫• נניח כי הוספנו ‪ 5‬לסדרה המקורית‪10 9 8 7 6 :‬‬
‫מה יקרה לטווח‪ ,‬לתחום הבין רבעוני‪ ,‬לשונות‪,‬‬
‫לסטיית התקן?‬
‫נסכם‪...‬‬
‫מדדים לתאור התפלגות‬
‫מדדים לתאור התפלגות‬
‫נפתור קצת תרגילים‪...‬‬
‫• תרגילי כתה‬
‫• תרגילים מתוקשבים‬