שכיח - אוניברסיטת בר אילן
Download
Report
Transcript שכיח - אוניברסיטת בר אילן
סטטיסטיקה
2
ארגון וקיבוץ נתונים
מדדי מרכז
מדדי פיזור
ענבל שפירא לוץ ,אריאל גלעד ,אסנת בר שירה ,המחלקה למדעי המוח אוניברסיטת בר אילן ©
ארגון נתונים
על זה תעברו לבד
מהחוברת
טבלת שכיחויות
תמיד ילך
ויגדל!
שימו לב
לסימונים:
fלשכיחות
ואח"כ נראה
אותו כצפיפות
Fלשכיחות
מצטברת
טבלת קטגוריות
• כשמחלקים משתנה רציף לקטגוריות -חשוב שכל ערך
יופיע רק בקטגוריה/מחלקה אחת (החלוקה נקבעת
שרירותית).
תחתון גבול עליון גבול
• נקודת האמצע של כל מחלקה הינה
2
טבלת קטגוריות
בתצוגה גרפית -לתשומת ליבכם
• בציר Xיופיעו הערכים ובציר Yהשכיחויות או ה
.count
• במידה שהמחלקות אינן שוות יש לחשב מדד יחסי
של שכיחות (נקרא צפיפות) הלוקח בחשבון את
רוחב המחלקות.
צפיפות
רוחב הקטגוריה
שכיחות
השטח של ההיסטוגרמה מקבל
משמעות יחסית
שאלה לדוגמא
תזכורת קצרהΣ
סיום
m
i התחלה
ik
m
ik
m
ik
m
ik
הביטוי שבו נציב
x i x k x k 1 x m
a m k 1 a
ax i a
xi
m
ik
yi
xi
m
ik
xi
m
ik
yi
שעורי בית שמומלץ להכין אך לא להגשה!
• כל השאלות בנושא קיבוץ נתונים.
• כל השאלות בנושא סכימה.
מדדי מרכז
מדדי מרכז
• אלו הם ערכים המאפיינים את ערכי ה Xהנתונים
– שכיח ( : (mode, M0הערך הנפוץ ,השכיח ביותר
בהתפלגות.
– אמצע הטווח ) : (midrange, MRממוצע שני הערכים
הקיצוניים (הגדול ביותר והקטן ביותר).
– חציון ) : (median, Mdערך המחלק את ההתפלגות
לשניים -לפחות מחצית מהתצפיות מקבלות ערך זה או
גבוה ממנו ,ולםחות מחצית מהתצפיות מקבלות ערך
זה או נמוך ממנו.
: (mean,סכום הערכים מחולק במספרם.
– ממוצע )
שכיח
• שכיח ( : (mode, M0הערך ( )Xהנפוץ ,השכיח ביותר
בהתפלגות.
•
•
•
•
•
כששכיחות כל הערכים שווה – אין שכיח
כשיש מספר ערכים "הכי שכיחים" יהיו מספר שכיחים.
כששני ערכים עוקבים "הכי שכיחים" השכיח יהיה הממוצע של
שניהם.
במחלקות שוות רוחב -השכיח יהיה 'נקודת האמצע' של
המחלקה השכיחה.
במחלקות השונות ברוחבן -השכיח יהיה נקודת האמצע של
המחלקה הצפופה ביותר.
דוגמא
נבדקו גילאי המשתתפים בצעדת ירושליים האחרונה
מיהו השכיח?
אמצע הטווח
• אמצע הטווח ) : (midrange, MRממוצע שני הערכים
הקיצוניים (הגדול ביותר והקטן ביותר).
חציון
• חציון ) : (median, Mdערך המחלק את ההתפלגות לשניים-
לפחות מחצית מהתצפיות מקבלות ערך זה או גבוה ממנו,
ולםחות מחצית מהתצפיות מקבלות ערך זה או נמוך ממנו.
• נסדר את הנתונים בסדר עולה ונקח את הערך שבאמצע,
כלומר מחצית מהמקרים מעליו ומחצית מתחתיו.
• שימו לב לא לקחת את מיקומו של הערך כחציון אלא את
הערך עצמו!!
n 1
• אם Nאי זוגי יש נתון שנמצא בדיוק באמצע2 .
• אם Nזוגי נקח את ממוצע שני הערכים האמצעיים.
דוגמא
• להלן גילאי המשתתפים בטיול במערות בית ג'וברין
בשבת האחרונה.
מהו החציון?
(התשובה צריכה להיות בגיל!!)
30 21 1 10
27 12 15
ממוצע
• ממוצע )
: (mean,סכום הערכים מחולק במספרם.
• במידה ובידינו טבלת שכיחויות ) f(xנחשב x i f x i
n
(ממוצע משוקלל).
n
i 1
• במידה ובידינו מחלקות -נחשב ע"י נקודות האמצע של
המחלקות.
x i MP
n
x
n
x
i 1
• סכום הסטיות של כל הערכים מהממוצע שווה לאפס.
x 0
x
n
i
i 1
מדדי המרכז בהתפלגויות אופייניות
מדדי המרכז בהתפלגויות אופייניות
סיכום קצר...
תכונה/מדד
שכיח
אמצע טווח
חציון
ממוצע
פונקציית ההפסד
המופחתת למינימום
ע"י מדד זה
רגישות המדד
לערכים קיצוניים
מעטה
רבה
מעטה
רבה
נוחיות מתמטית
בפיתוח תאוריה
סטטיסטית
פחותה
פחותה
פחותה
רבה
סולם מדידה בו מותר
להשתמש במדד
שמי ומעלה
רווח ומעלה
סדר ומעלה
רווח ומעלה
מהירות החישוב
מהיר
מהיר
בינוני
איטי
האם המדד ישים
במחלקות פתוחות?
כן
לא
כן
לא
נפתור תרגילי כתה...
• לוודא שאין בתרגילי הכתה שאלות על פונקציות
הפסד...
~
max x i x
n
i 1
~
xi x
n
i 1
~
xi x
2
השוואה בין מדדי המרכז
תכונה/מדד
שכיח
אמצע טווח
חציון
ממוצע
פונקציית ההפסד
המופחתת למינימום
ע"י מדד זה
מספר
השגיאות
גודל הסטייה
המקסימלית
סכום הסטיות
המוחלטות
סכום ריבועי
הסטיות
~
x
i
x
max
~ xi
x
n
i 1
2
x i ~x
n
i 1
רגישות המדד
לערכים קיצוניים
מעטה
רבה
מעטה
רבה
נוחיות מתמטית
בפיתוח תאוריה
סטטיסטית
פחותה
פחותה
פחותה
רבה
סולם מדידה בו מותר
להשתמש במדד
שמי ומעלה
רווח ומעלה
סדר ומעלה
רווח ומעלה
מהירות החישוב
מהיר
מהיר
בינוני
איטי
האם המדד ישים
במחלקות פתוחות?
כן
לא
כן
לא
נפתור תרגילים מתוקשבים
מדדי פיזור
מדדי פיזור
• מדדים ל'מידת השוני' או ה'גיוון' של הנתונים בקבוצה.
– מדדי הפיזור בנויים בחלקם על פונקציות ההפסד שראינו,
כך ניתן לאמוד את הפיזור של הערכים.
• מדדי הפיזור צריכים לקיים:
– מקבלים רק ערכים אי שליליים (שכן מבוססים על מרחק
ואין "מרחק שלילי")
– אם כל המדידות זהות הפיזור יהיה אפס
– הוספת קבוע לכל הנתונים לא תשנה את ערכו של מדד
הפיזור.
טווח/תחום Rang
• ההפרש (המרחק) בין הערך הגבוה לנמוך ביותר
R x max x min
– מושפע רק מקצוות ההתפלגות לכן רגיש לערכים
קיצוניים
– לא משקף את מידת הפיזור במרכז ההתפלגות
– מתאים למשתנים מסולם רווח ומעלה
דוגמאות
הטווח/התחום הבין רבעוני
• הטווח של 50%מערכי ההתפלגות הנמצאים
במרכז ההתפלגות
– 25%הגבוהים ביותר או הנמוכים ביותר הינם בגדר
"חריגים".
– מחושב כהפרש בין הרבעון העליון לתחתון
– אינו רגיש לערכים קיצוניים
– מתאים למשתנים מסולם רווח ומעלה
• שימו לב כי נקח
את הערך של
המשתנה לשם
חישובינו
IQR Q 3 Q1
דוגמאות
• נתונה סדרת ערכים ,מהו התחום הבין רבעוני
שלה?
3 , 4 , 6 , 7 , 8 , 10 , 11 , 12 , 31
דוגמא 2
• חשבו את הטווח הבין רבעוני
דוגמא 3
שונות וסטיית תקן
• הפיזור הממוצע של התצפיות סביב הממוצע
– נמדד ע"י ממוצע סכום הסטיות הריבועיות מהממוצע
2
x
x
n
i
i 1
S
2
n
– בגלל העלאה בריבוע ,יחידות השונות הינן ריבוע
יחידות הערכים המקוריים ,על כן נוציא שורש לקבלת
היחידות המקוריות (זוהי סטיית התקן)2 .
n
i 1 x i x
ומעלה
רווח
מסולם
משמשים
–
n
– רגישים לערכים קיצוניים (כי אלו נכנסים לחישוב)
S
דוגמאות
• חשב את הממוצע ,השונות וסטיית התקן של:
1,3,5
דוגמא 2
• נשים לב כי
• חשב את הממוצע והשונות בטבלה שלהלן
טרנספורמציות
• נתונה סדרת המספרים 5 4 3 2 1חשבו את מדדי
הפיזור שלמדנו.
הכפלה בקבוע b
נניח שכפלנו את אברי הסדרה פי 25 20 15 10 5 :5
מה יקרה לטווח ,לתחום הבין רבעוני,לשונות ,לסטיית
התקן?
הוספת קבוע
• נניח כי הוספנו 5לסדרה המקורית10 9 8 7 6 :
מה יקרה לטווח ,לתחום הבין רבעוני ,לשונות,
לסטיית התקן?
נסכם...
מדדים לתאור התפלגות
מדדים לתאור התפלגות
נפתור קצת תרגילים...
• תרגילי כתה
• תרגילים מתוקשבים