מבוא לסטטיסטיקה א

Download Report

Transcript מבוא לסטטיסטיקה א

‫מגל לס‬
‫‪[email protected]‬‬
‫‪054-5793060‬‬
‫מבוא לסטטיסטיקה א'‬
‫אז למה לי סטטיסטיקה עכשיו?‬
‫• כל מחקר שמבוסס על נתונים אמפיריים דורש ידע‬
‫בסטטיסטיקה‪ ,‬על מנת שנוכל לארגן את הנתונים‪,‬‬
‫לנתח ולהסיק מהם מסקנות‪.‬‬
‫• בסמסטר א'‪ ,‬אנו מתמקדים בסטטיסטיקה תיאורית‪.‬‬
‫סטטיסטיקה תיאורית‬
‫• סטטיסטיקה תיאורית עוסקת בשיטות לארגון‪,‬‬
‫ותמצות הנתונים‬
‫• שנאספו במחקר הסטטיסטי‪.‬‬
‫• הנושאים בהם נתמקד‪:‬‬
‫‪ .1‬מיון משתנים לפי מהות‪.‬‬
‫‪ .2‬מיון משתנים לפי רמת המדידה‪.‬‬
‫‪ .3‬הצגת נתונים ע"י טבלת שכיחויות וגרפים‪.‬‬
‫מיון משתנים על פי מהות‬
‫משתנה‬
‫כמותי‬
‫נומינאלי‬
‫בדיד‬
‫רציף‬
‫מיון משתנים על פי מהות‬
‫• משתנה איכותי‪ -‬ערכי המשתנה נבחנים לפי סוג‬
‫איכותי ללא ביטוי במספרים‪ .‬משמע‪ -‬מילים!‬
‫לדוגמא‪ :‬מין‪ ,‬מצב משפחתי‪.‬‬
‫• משתנה כמותי‪ -‬ערכי המשתנה מציינים כמות‪.‬‬
‫הקטגוריות הן מספרים‪.‬‬
‫לדוגמא‪ :‬גיל‪ ,‬שכר‪ ,‬ותק‪ ,‬מספר ילדים‪.‬‬
‫מיון משתנים על פי מהות‬
‫• כמותי בדיד‪ -‬ערכי משתנים בדידים‪.‬‬
‫בין כל שני ערכים של המשתנה‪ ,‬קיים מספרסופי של‬
‫ערכים ובין שני ערכים קבועים מתקיימת קפיצה‪.‬‬
‫למשל‪ :‬מס' ילדים‪ ,‬מספר איחורים‪ ,‬מס' חדרים‪.‬‬
‫אין חצי ילד‪ ,‬אין חצי איחור אמנם יש כיום חצי חדר‬
‫אבל גם קפיצה זו היא מדידה‪.‬‬
‫הבדל בין כמותי בדיד לבין רציף‬
‫• כמותי בדיד‬
‫• כמותי רציף‬
‫מיון משתנים לפי רמת מדידה‬
‫• משתנה נומינאלי (שמי)‪ -‬ערכי המשתנה נבחנים לפי‬
‫שמות‪/‬סוגים‪ ,‬כאשר אין משמעות לסדר שבין‬
‫הערכים‪( .‬לדוג'‪ :‬מין‪ ,‬מצב משפחתי‪ ,‬מס' טלפון)‬
‫ניתן רק להבחין בין שני המשתנים‪ .‬מי שזכר הוא לא‬
‫נקבה‪a=b .‬‬
‫• משתנה אורדינאלי (סדר)‪ -‬יש חשיבות לסדר‪ ,‬ניתן‬
‫לסדר את הערכים מהנמוך לגבוה‪( .‬דרגות בצבא)‪.‬‬
‫משתנה זה יכול להופיע גם כאיכותי וגם ככמותי‪:‬‬
‫‪a>b, a=b‬‬
‫כמותי‪ :‬טוראי‪ ,1 -‬רב"ט‪ ,2-‬סמל‪3-‬‬
‫איכותי‪ :‬כלל לא מרוצה‪ ,‬מרוצה‪ ,‬מרוצה מאוד‪.‬‬
‫מיון משתנים לפי רמת המדידה‬
‫• משתנה אנטרוואלי (רווח) ‪ -‬ערכי המשתנה במספרים‪ ,‬יש משמעות‬
‫למרווחים שבין הערכים‪ ,‬ניתן לחשב את ההפרשים ביניהם‪ .‬לא קיים‬
‫אפס מוחלט! אפס מוחלט לא מעיד על העדר התופעה! (בד"כ מדובר‬
‫על משתנים שהומצאו ע"י בני האדם ‪-‬כמו‪ :‬טמפ'‪ ,‬ציון פסיכומטרי)‪.‬‬
‫• משתנה יחס (מנה)‪ -‬ערכי המשתנה במספרים‪ ,‬קיים ערך אפס‬
‫מוחלט‪ ,‬ניתן לחלק ערך אחד בשני ולציין מה היחס ביניהם‪( .‬כמו ‪-‬‬
‫משקל‪ ,‬גובה וגיל)‪.‬‬
‫• משתנה נומינאלי הוא ברמת המדידה הנמוכה ביותר‪.‬‬
‫• משתנה יחס הוא בעל רמת המדידה הגבוהה ביותר וכולל את כל‬
‫התכונות של קודמיו!‬
‫שאלה ‪1‬‬
‫• רשמו לגבי כל אחד מהמשתנים את סוגו‪:‬‬
‫א‪ .‬איכותי‪ ,‬כמותי‪-‬בדיד‪ ,‬כמותי‪ -‬רציף‪.‬‬
‫ב‪ .‬נומינאלי‪ ,‬אורדינלי‪ ,‬אינטרוולי‪ ,‬יחס‪.‬‬
‫‪.1‬‬
‫‪.2‬‬
‫‪.3‬‬
‫‪.4‬‬
‫‪.5‬‬
‫‪.6‬‬
‫‪.7‬‬
‫משקל המרצים בחוג לסטטיסטיקה‪.‬‬
‫צבע החולצות של הבנים בכתה‪.‬‬
‫מספרי הטלפון של המרצים במכללה‪.‬‬
‫ארץ מוצאם של פועלים במפעל‪.‬‬
‫הזמן שלוקח לכל אחד מהסטודנטים לפתור תרגיל זה‪.‬‬
‫גובהו של מועמד לקורס קצונה‪.‬‬
‫קווי האוטובוסים הנוסעים ברחוב הרצל‪.‬‬
‫שאלה ‪( 2‬ממבחן)‬
‫• בסקר שנערך ע"י "מכון לשאלות לא חשובות" התבקשו‬
‫הנשאלים לענות על שמונה שאלות‪ .‬להלן אחת השאלות מתוך‬
‫סקר זה‪:‬‬
‫המשכורת הממוצעת בישראל הינה ‪ ₪ 5000‬לחודש‪.‬‬
‫המשכרות שלך הינה (בשקלים חדשים)‪:‬‬
‫• ‪. 2499 - 1 )1‬‬
‫• ‪. 4999 - 2500 )2‬‬
‫• ‪. 7500 -5000 )3‬‬
‫• ‪ )4‬מעל ‪. 7000‬‬
‫• ברור שהמשתנה הנבחן (לגביו המכון שואל את השאלה) הינו‬
‫משתנה איכותי – יחס‪ .‬נכון ‪ /‬לא נכון‪.‬‬
‫הצגת נתונים בטבלת שכיחויות‬
‫•‬
‫•‬
‫•‬
‫•‬
‫חישוב שכיחות יחסית‪ :‬חישוב ערך ‪ X‬חלקי הסה"כ‪.‬‬
‫)‪F(X‬‬
‫‪N‬‬
‫חישוב שכיחות יחסית מצטברת באחוזים‪ :‬הנ"ל כפול ‪.100‬‬
‫‪F(X) *100‬‬
‫‪N‬‬
‫חישוב שכיחות יחסית מצטברת באחוזים ‪ :%‬מדובר על שכיחות יחסית‬
‫הכוללת שהתקבלה‪ ,‬הקטנה או שווה לערך הנתון‪.‬‬
‫מחברים את התוצאות עד לאותו ערך כולל‪.‬‬
‫הצגה גרפית‬
‫• דרך נוחה וברורה להבלטת התופעה הנחקרת‪.‬‬
‫• בסטטיסטיקה תיאורית קיימות שלוש הצגות גראפיות בהתאם‬
‫לסוג המשתנה‪:‬‬
‫מס' העולים‬
‫מצב משפחתי‬
‫מתאימה‬
‫‪:‬‬
‫מעגל‬
‫דיאגרמת‬
‫‪.1‬‬
‫‪3,638‬‬
‫רווק‪/‬ה‬
‫למשתנה איכותי נומינאלי‪.‬‬
‫‪5,539‬‬
‫נשוי‪/‬אה‬
‫כיצד בונים דיאגרמת מעגל?‬
‫‪992‬‬
‫גרוש‪/‬ה‬
‫א‪ .‬מחשבים שכיחות יחסית לכל‬
‫‪741‬‬
‫אלמן‪/‬ה‬
‫‪2‬‬
‫לא ידוע‬
‫משתנה‪.‬‬
‫‪10,912‬‬
‫סה"כ‬
‫ב‪ .‬משרטטים מעגל ומחלקים את‬
‫השטח שלו לגזרות‪.‬‬
‫ג‪ .‬יש להקפיד ששטחה של כל גזרה תהיה פרופורציונאלית לשכיחות‬
‫המקרים‪.‬‬
‫הצגה גרפית‬
‫‪ .2‬דיאגרמת מקלות‪ :‬מתאימה לתיאור משתנה כמותי בדיד‬
‫ומשתנה איכותי אורדניאלי‪.‬‬
‫מספר סטודנטים‬
‫שביעות הרצון‬
‫‪1‬‬
‫לא רוצים‬
‫כיצד בונים דיאגרמת מקלות?‬
‫‪3‬‬
‫נמוכה‬
‫א‪ .‬בונים מערכת צירים של ‪X‬‬
‫‪2‬‬
‫בינונית‬
‫ו‪.Y-‬‬
‫‪4‬‬
‫טובה‬
‫‪2‬‬
‫טובה מאוד‬
‫ב‪ .‬על ציר ה‪ X-‬נציג את הערכים‬
‫‪12‬‬
‫סה"כ‬
‫של המשתנה הנחקר (‪)X‬‬
‫ועל ציר ה‪ Y-‬נציג את השכיחות (‪.)F‬‬
‫ג‪ .‬מעל כל ערך של משתנה ‪ X‬נציב מקל באורך פרופורציונאלי‬
‫לשכיחות המקרים‪.‬‬
‫הצגה גרפית‬
‫‪ .3‬היסטוגרמה (דיאגראמת מלבנים)‪:‬הצגה גרפית זו מתאימה למשתנה‬
‫כמותי רציף‪ ,‬אינטרוואלי או יחס‪.‬‬
‫כיצד בונים דיאגראמת מלבנים?‬
‫א‪ .‬מצרפים לטבלה את העמודות‪ :‬רוחב הקבוצה (‪ )1‬וצפיפות (‪.)d‬‬
‫ב‪ .‬מחשבים‪ .‬חישוב צפיפות‪:‬‬
‫ג‪ .‬בונים מערכת צירים של ‪X‬ו ‪.Y‬‬
‫ד‪ .‬על ציר ה‪X -‬נציג את הערכים של המשתנה הנחקר ) ( ‪X‬ע"י קטעים לפי‬
‫רוחב‬
‫הקבוצה‪ .‬ועל ציר ה ‪Y‬נציג את הצפיפות‪.‬‬
‫ה‪ .‬קנה המידה לשרטוט המלבן נקבע לפי רוחב הקבוצה וגובהו יהיה עד‬
‫לצפיפות הקבוצה‪.‬‬
‫מצולע שכיחויות‬
‫• מצולע השכיחויות מתאר את המהלך הכללי של‬
‫התפלגות המשתנה הנחקר‪ .‬לאחר שציירנו את‬
‫ההיסטוגרמה אנו מסמנים נקודה באמצע של כל‬
‫בסיס ומחברים באמצעות קווים ישרים‪.‬‬
‫מצב משפחתי‬
‫מס' העולים‬
‫‪0-14‬‬
‫‪2,787‬‬
‫‪15-24‬‬
‫‪2,870‬‬
‫‪25-44‬‬
‫‪3,999‬‬
‫‪45-74‬‬
‫‪3,453‬‬
‫‪75-80‬‬
‫‪590‬‬
‫סה"כ‬
‫‪13,699‬‬
‫סוגי התפלגויות‬
‫• יכולות לצאת שלוש סוגי התפלגויות‪:‬‬
‫‪.1‬התפלגות סימטרית חד שיאית‪:‬‬
‫*קיים ריכוז של המקרים על ערכים בינוניים של‬
‫המשתנה‪.‬‬
‫*הצפיפות פוחתת בשני הכיוונים בצורה סימטרית ככל‬
‫שמתקרבים לקצוות‪.‬‬
‫התפלגות סימטרית‬
‫סוגי התפלגויות‬
‫‪ .2‬התפלגות א‪-‬סיטמטרית חיובית‪:‬‬
‫• קיים ריכוז של המקרים על ערכים נמוכים של‬
‫המשתנה‪.‬‬
‫• זנב ההתפלגות לכיוון הערכים הגבוהים‪.‬‬
‫התפלגות א‪-‬סימטרית חיובית‬
‫זנב ימינה‪.‬‬
‫סוגי התפלגויות‬
‫• התפלגות א‪-‬סימטרית שלילית (זנב שמאל)‪:‬‬
‫• קיים ריכוז של המקרים על ערכים גבוהים של‬
‫המשתנה‪.‬‬
‫• זנב ההתפלגות לכיוון הערכים הנמוכים‪.‬‬
‫התפלגות א‪ -‬סימטרית‬
‫שלילית‪ ,‬זנב שמאלי‬
‫ערכים מרכזיים‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫ערך מרכזי הוא ערך יחיד המסכם ומבליט תכונות‬
‫מיוחדות של ההתפלגות‪.‬‬
‫ערכים מרכזיים מתייחיסים למיקום התופעה‪.‬‬
‫אנו נדון בשלושה ערכים מרכזיים מקובלים‪:‬‬
‫שכיח‬
‫חציון‬
‫ממוצע‬
‫שכיח‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫שכיח ‪ -MO‬הוא ערך של משתנה הנחקר בעל‬
‫התדירות הגבוהה ביותר‪ .‬ערך המשתנה הנפוץ ביותר!‬
‫את השכיח ניתן לחשב למשתנה מרמת המדידה‬
‫הנמוכה ביותר‪ -‬ממשתנה נומניאלי ולכן ניתן גם‬
‫לחשב אותו לכל משתנה ברמת מדידה גבוהה יותר‪.‬‬
‫משתנה זה קל לחישוב ומשמעותו ברורה‪( .‬יתרון)‪.‬‬
‫לא תמיד קיים שכיח ולעיתים יש יותר משכיח אחד‪.‬‬
‫שכיח אינו מושפע מערכים קיצוניים‬
‫חישוב השכיח‬
‫• שימו !‬
‫חשוב להבחין מה סוג המשתנה שלפנינו‪ -‬לכל משתנה‬
‫יש שיטת חישוב שונה!‬
‫‪ .1‬סדרת ערכים בודדים‪:‬‬
‫• השכיח הוא המספר המופיע הכי הרבה פעמים‪:‬‬
‫‪29,17,12,15,12,13,12‬‬
‫חישוב השכיח‬
‫‪ .2‬משתנה בדיד או רציף עם קבוצות בעלות אותו רוחב‪:‬‬
‫• יש להסתכל על עמודת השכיחות‪.‬‬
‫• השכיח (‪ )X‬הוא בעל השכיחות הגבוהה ביותר‪.‬‬
‫מספר נפשות במשק‬
‫הבית‬
‫משקי בית באלפים‬
‫‪1‬‬
‫‪50.0‬‬
‫‪2‬‬
‫‪96.9‬‬
‫נשוי‪/‬אה‬
‫‪3‬‬
‫‪78.1‬‬
‫גרוש‪/‬ה‬
‫‪992‬‬
‫‪4‬‬
‫‪56.9‬‬
‫אלמן‪/‬ה‬
‫‪741‬‬
‫‪+5‬‬
‫‪33.0‬‬
‫לא ידוע‬
‫‪2‬‬
‫סה"כ‬
‫‪314.9‬‬
‫סה"כ‬
‫‪10,912‬‬
‫מצב משפחתי‬
‫מספר העולים‬
‫רווק‪/‬ה‬
‫‪3,638‬‬
‫‪5,539‬‬
‫חישוב השכיח‬
‫‪ .3‬למשתנה רציף בקבוצות בעלות רוחב קבוצה שונה‪:‬‬
‫• בונים עמודה של רוחב קבוצה (*** לשים לב לסגירת הקבוצה!!! )‬
‫• מחשבים צפיפות (‪:)d‬‬
‫• הקבוצה השכיחה היא בעלת הצפיפות הגבוהה ביותר‪.‬‬
‫הגיל‬
‫סטודנטים‬
‫‪18-19‬‬
‫‪3,839‬‬
‫‪20-21‬‬
‫‪11,441‬‬
‫‪22-24‬‬
‫‪33,272‬‬
‫‪25-29‬‬
‫‪23,729‬‬
‫‪30-34‬‬
‫‪3,147‬‬
‫‪35-40‬‬
‫‪2,819‬‬
‫סה"כ‬
‫‪78,247‬‬
‫רוחב קבוצה‬
‫צפיפות )‪(d‬‬
‫חציון ‪Me‬‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫החציון הוא ערך של המשתנה הנחקר שמחצית המקרים קטנים‬
‫ממנו או שווים לו‪ ,‬מחצית המקרים גדולים ממנו או שווים לו‪.‬‬
‫החציון הוא ערך אמצעי בהתפלגות‪.‬‬
‫את החציון ניתן לחשב למשתנה ברמה אורדינאלית‪,‬‬
‫אינטרוולית ויחס‪.‬‬
‫כדי לחשב חציון חייבים לסדר את הערכים מהנמוך לגבוה‪.‬‬
‫החציון מושפע מסדר הערכים ולא מהערכים עצמם‪ ,‬פרט‬
‫לערך האמצעי שקובע את החציון‪ .‬כל עוד מתקיים‪ ,‬שהערכים‬
‫הקטנים מהחציון‪ ,‬אף אם הם ישתנו‪ ,‬ישארו קטנים ממנו‪,‬‬
‫ואילו הערכים שגדולים מהחציון‪ ,‬אף אם הם ישתנו‪ ,‬יהיו‬
‫גדולים ממנו‪ -‬החציון לא ישתנה‪.‬‬
‫החציון לא מושפע מערכים קיצוניים‪.‬‬
‫חישוב חציון‬
‫• חישוב חציון בסדרת ערכים בודדים כאשר מס' ערכים אי‬
‫זוגי‪:‬‬
‫‪ .1‬יש לסדר תחילה את הערכים מהערך הנמוך ביותר לערך‬
‫הגבוה‪.‬‬
‫‪ .2‬כאשר מס' הערכים הוא אי זוגי החציון ימוקם ב‪:‬‬
‫מס הערכים (‪1+(n‬‬
‫‪2‬‬
‫דוגמא א'‪ :‬להלן נתונים על גובה של ‪ 9‬גברים‪:‬‬
‫מס'‬
‫סידורי‬
‫‪1‬‬
‫‪2‬‬
‫‪3‬‬
‫‪4‬‬
‫‪5‬‬
‫‪6‬‬
‫‪7‬‬
‫‪8‬‬
‫‪9‬‬
‫גובה‬
‫‪166‬‬
‫‪172‬‬
‫‪172‬‬
‫‪175‬‬
‫‪178‬‬
‫‪179‬‬
‫‪180‬‬
‫‪184‬‬
‫‪187‬‬
‫חישוב החציון‬
‫• חישוב חציון בסדרת ערכים בודדים כאשר מס' ערכים זוגי‪:‬‬
‫‪ .1‬יש לסדר תחילה את הערכים מהערך הנמוך ביותר לערך‬
‫הגבוה‪.‬‬
‫‪ .2‬כאשר מס' הערכים הוא זוגי החציון ימוקם בין‪:‬‬
‫לבין‪ :‬מס' הערכים‪2+‬‬
‫מס' הערכים‬
‫‪2‬‬
‫‪2‬‬
‫דוגמא ב'‪ :‬להלן נתונים על גובה ‪ 9‬גברים‪:‬‬
‫מס'‬
‫סידורי‬
‫‪1‬‬
‫‪2‬‬
‫‪3‬‬
‫‪4‬‬
‫‪5‬‬
‫‪6‬‬
‫‪7‬‬
‫‪8‬‬
‫גובה‬
‫‪166‬‬
‫‪172‬‬
‫‪172‬‬
‫‪175‬‬
‫‪178‬‬
‫‪179‬‬
‫‪180‬‬
‫‪184‬‬
‫חישוב חציון‬
‫• חישוב חציון למשתנה בדיד‪:‬‬
‫‪ .1‬יש לבנות לוח שכיחות מצטברת באחוזים‪.‬‬
‫‪ .2‬הערך החציוני הוא זה שעד אליו מתפלגים ‪ 50%‬מהמקרים‪.‬‬
‫מספר‬
‫נפשות‬
‫במשק הבית‬
‫משקי בית‬
‫באלפים‬
‫‪1‬‬
‫‪50.0‬‬
‫‪2‬‬
‫‪96.9‬‬
‫‪3‬‬
‫‪78.1‬‬
‫‪4‬‬
‫‪56.9‬‬
‫‪+5‬‬
‫‪33.0‬‬
‫סה"כ‬
‫‪314.9‬‬
‫‪F‬‬
‫שכיחות‬
‫מצטברת‬
‫שכיחות‬
‫מצטברת‬
‫באחוזים‬
‫חישוב החציון‬
‫• חישוב חציון למשתנה רציף‪:‬‬
‫‪.1‬יש לבנות לוח שכיחות יחסית מצטברת ב‪.%‬‬
‫‪ .2‬הקבוצה החציונית היא זו שעד איליה מתפלגים ‪ 50%‬מהמקרים‪.‬‬
‫‪ .3‬לאותה קבוצה נמצא את רוחב הקבוצה‪.‬‬
‫(‪(F‬‬
‫)‪(l‬‬
‫מספר‬
‫הגיל‬
‫‪ .4‬יש להציב את הערכים בנוסחא‪:‬‬
‫העולים‬
‫‪0-14‬‬
‫‪2,787‬‬
‫‪15-24‬‬
‫‪2,870‬‬
‫‪25-44‬‬
‫‪3,999‬‬
‫‪45-74‬‬
‫‪3,453‬‬
‫‪75-80‬‬
‫‪590‬‬
‫סה"כ‬
‫‪13,699‬‬
‫רוחב‬
‫קבוצה‬
‫שכיחות‬
‫מצטברת‬
‫ממוצע ‪Mean‬‬
‫• הממוצע הינו הסכום של כל ערכי המשתנה חלקי מספר‬
‫הנחקרים‪.‬‬
‫• ניתן לחשב ממוצע מרמה אינטרוולית ומעלה‪.‬‬
‫• הממוצע מתאר רמה כללית של התופעה והוא לא בהכרח‬
‫ערך קיים בסדרה הסטטיסטית‪.‬‬
‫• הממוצע מושפע מערכים קיצוניים (חיסרון)‬
‫• סכום ההפרשים של ערכי הסדרה הסטטיסטית‪,‬‬
‫ממוצעם תמיד יהיה שווה ל‪.0-‬‬
‫זאת מאחר‪ ,‬שסך ההפרשים החיוביים מתקזזים עם‬
‫השליליים‪.‬‬
‫תכונות הממוצע‬
‫חישוב הממוצע‬
‫• חישוב ממוצע בסדרת ערכים בודדים‪:‬‬
‫סוכמים את כל הערכים חלקי מס' הערכים‪.‬‬
‫• חישוב ממוצע למשתנה בדיד‪:‬‬
‫• חישוב ממוצע למשתנה רציף‪ :‬יש לחשב אמצע קטע לכל‬
‫קבוצה והם נהפכים להיות ‪.‬‬
‫משתמשים באותה נוסחא כמו של משתנה בדיד‪.‬‬
‫חישוב אמצע קטע‪ :‬גבול עליון‪+‬גבול תחתון‬
‫‪2‬‬
‫יש לשים לב לרווח הקבוצה‪.‬‬
‫שאלות ממבחנים‬
‫• בטבלה מתוארים מס' כוסות הקפה שמרצים‬
‫במכללה שותים במהלך החודש‪:‬‬
‫מס' כוסות‬
‫הקפה‬
‫מס'‬
‫המרצים‬
‫‪0-10‬‬
‫‪25‬‬
‫‪11-20‬‬
‫‪70‬‬
‫‪21-40‬‬
‫‪65‬‬
‫‪41-80‬‬
‫‪40‬‬
‫‪81-100‬‬
‫‪50‬‬
‫סה"כ‬
‫‪250‬‬
‫שאלות ממבחנים‬
‫א‪ .‬החציון של מס' כוסות הקפה הוא?‬
‫ב‪ .‬מס' כוסות הקפה הממוצע הוא?‬
‫ג‪ .‬קבוצת השכיח היא?‬
‫ד‪ .‬לאחר בדיקה חוזרת של הנתונים‪ ,‬התברר כי חלה טעות‬
‫ברישום והקבוצה האחרונה צריכה להיות ‪ 81-120‬במקום‬
‫‪ .81-100‬אין שינויים בנתונים אחרים‪.‬‬
‫יש להסביר בלי לחשב כיצד ישפיע השינוי על המדדים הבאים‪:‬‬
‫‪ .1‬חציון‪ :‬יגדל‪/‬יקטן‪/‬לא ישתנה‬
‫‪ .2‬ממוצע‪ :‬יגדל‪/‬יקטן‪/‬לא ישתנה‬
‫‪ .3‬שכיח‪ :‬יגדל‪/‬יקטן‪/‬לא ישתנה‬
‫שאלות ממבחנים‬
‫‪ 61‬סטודנטים נבחנו בקורס מבוא לכלכלה והתקבלו‬
‫התוצאות הבאות‪ :‬ממוצע ‪ , 70‬חציון ‪. 74‬‬
‫לקבוצה זו נוספו עוד ‪ 3‬סטודנטים אשר ציוניהם‪:‬‬
‫‪. 73 , 70 , 65‬‬
‫לכל ‪ 64‬הציונים‪:‬‬
‫א‪ .‬הממוצע יגדל נכון ‪ /‬לא נכון‬
‫ב‪ .‬החציון יגדל נכון‪ /‬לא נכון‬
‫שאלות ממבחנים‬
‫• במדגם של ‪ 100‬יילודים נמצא כי התפלגות הילודים‬
‫לפי משקל היא סימטרית‪ .‬המשקל החציוני הוא‬
‫‪ 3200‬גרם‪ .‬נוספו למדגם עוד שני ילודים‪ :‬במשקל‬
‫‪ 3900‬גרם ובמשקל ‪ 300‬גרם‪.‬‬
‫• עבור כל ‪ 102‬הילודים‪ -‬המשקל הממוצע יגדל‬
‫והמשקל החציוני לא ישתנה‪.‬‬
‫נכון ‪ /‬לא נכון‬
‫שאלה נוספת‬
‫הקשר בין סדר הערכים המרכזיים לצורת‬
‫ההתפלגות‬
‫•כל הערכים נמצאים על אותה נקודה במרכז ההתפלגות‪.‬‬
‫•כלומר‪ ,‬ריכוז המקרים הוא באמצע ההתפלגות ושאר‬
‫הערכים מפוזרים באופן שווה בקצוות ההתפלגות‪.‬‬
‫הקשר בין סדר הערכים המרכזיים לצורת‬
‫ההתפלגות‬
‫•קיים ריכוז של מקרים בערכים הנמוכים של‬
‫המשתנה וזנב ההתפלגות מתמשך לצד ימין לכיוון‬
‫הערכים הגבוהים‪.‬‬
‫הקשר בין סדר הערכים המרכזיים לצורת‬
‫ההתפלגות‬
‫•קיים ריכוז של מקרים בערכים הגבוהים של‬
‫המשתנה וזנב ההתפלגות מתמשך לצד שמאל לכיוון‬
‫הערכים הגבוהים‪.‬‬
‫שאלות ממבחנים‬
‫במפעל מסוים ידוע כי התפלגות העובדים לפי שנות‬
‫הוותק שלהם היא אסימטרית חיובית‪ ,‬לכן ברור כי‬
‫אחוז העובדים בעלי הוותק הנמוך מהוותק השכיח‬
‫במפעל הינו גדול יותר מאחוז העובדים בעלי הוותק‬
‫הגבוה מהוותק השכיח במפעל‪.‬‬
‫נכון‪/‬לא נכון‪.‬‬
‫שאלה‬
‫מדדי פיזור‬
‫• תיאור סדרה סטטיסטית ע"י ערכים מרכזיים הוא‬
‫לא תיאור שלם‪.‬‬
‫• על מנת ללמוד יותר על התפלגות ערכי המשתנה יש‬
‫לתאר גם את הפיזור שלהם ע"י מדדי הפיזור‪.‬‬
‫• מדדי הפיזור בהם נתון‪:‬‬
‫‪ .1‬תחום‪/‬טווח‪.‬‬
‫‪ .2‬תחום בין רביעוני‪.‬‬
‫‪ .3‬שונות‪.‬‬
‫‪ .4‬סטיית תקן‪.‬‬
‫התחום ‪R‬‬
‫• התחום הינו ההפרש בין התצפית הגדולה ביותר‬
‫בסדרה הסטטיסטית לבין התצפית הקטנה ביותר‪.‬‬
‫• התחום מתאים למשתנה אינטרוואלי ויחס‪.‬‬
‫חישוב במשתנים‬
‫• סדרת ערכים בודדים‪9,8,7,6,5 :‬‬
‫• כאשר ‪ 0=R‬זה מעיד על כך שאין פיזור ולא קיימים‬
‫הבדלים בין הערכים‪7,7,7,7,7 :‬‬
‫משתנה רציף‪:‬‬
‫משתנה בדיד‪:‬‬
‫הגיל‬
‫מספר העולים‬
‫מספר נפשות‬
‫במשק הבית‬
‫משקי בית‬
‫באלפים‬
‫‪0-14‬‬
‫‪2,787‬‬
‫‪15-24‬‬
‫‪2,870‬‬
‫‪1‬‬
‫‪50.0‬‬
‫‪2‬‬
‫‪96.9‬‬
‫‪25-44‬‬
‫‪3,999‬‬
‫‪3‬‬
‫‪78.1‬‬
‫‪45-74‬‬
‫‪3,453‬‬
‫‪4‬‬
‫‪56.9‬‬
‫‪590‬‬
‫‪+5‬‬
‫‪33.0‬‬
‫‪75-80‬‬
‫‪13,699‬‬
‫סה"כ‬
‫‪314.9‬‬
‫סה"כ‬
‫דוגמא‪:‬‬
‫כיתה של ‪ 40‬סטודנטים נבחנו בסטטיסטיקה‪.‬‬
‫סטודנט אחד קיבל ‪ ,0‬סטודנט אחר קיבל ‪.100‬‬
‫כל ה‪ 38-‬האחרים קיבלו ‪.80‬‬
‫מהו התחום? (‪?)R‬‬
‫תכונות התחום ‪R‬‬
‫• התחום קל לחישוב ובעל משמעות ברורה‪.‬‬
‫• התחום מושפע מערכים קיצוניים‪.‬‬
‫• התחום מתבסס רק על קצוות ההתפלגות ולא מבטא‬
‫את הערכים בפיזור של הסדר הסטטיסטית‪.‬‬
‫• החיסרון שלו בולט כאשר מתקיימים מקרים‬
‫קיצוניים מאחר והם קובעים את אמת הפיזור‪.‬‬
‫(התמונה הכללית עלולה להיות מושפעת מכך)‪.‬‬
‫התחום הבין רביעוני ‪IQR‬‬
‫• התחום הבין רביעוני הוא ההפרש בין הרביעון העליון‬
‫(השלישי) לבין הרביעון התחתון (הראשון)‪.‬‬
‫• התחום הבין רביעוני מתאים למשתנה אורדינאלי ולכן‬
‫גם יחס ואינטרוולי‪.‬‬
‫• על התחום הבין רביעוני מרוכזים מחתית המקרים‬
‫שבמרכז ההתפלגות והוא לא מושפע מהמקרים‬
‫שבקצוות ההתפלגות‪.‬‬
‫• הוא מושפע מסדר הערכים ונקבע רק לפי הערכים‬
‫הנמצאים במקומות הסדורים ‪4/N3 ,4/N‬‬
‫מהם הם הרבעונים?‬
‫חישוב רביעונים למשתנה בדיד‪:‬‬
‫• יש לבנות לוח שכיחות יחסית מצטברת באחוזים‪.‬‬
‫‪ -Q1‬הוא הערך שעד אליו‪ -‬כולל‪ ,‬מתפלגים ‪ 25%‬מהמקרים‪.‬‬
‫‪ -Q3‬הוא הערך שעד אליו‪ -‬כולל‪ ,‬מתפלגים ‪ 75%‬מהמקרים‪.‬‬
‫מס' שביתות‬
‫מפעלים‬
‫‪0‬‬
‫‪218‬‬
‫‪1‬‬
‫‪90‬‬
‫‪2‬‬
‫‪70‬‬
‫‪3‬‬
‫‪49‬‬
‫‪4‬‬
‫‪36‬‬
‫‪5‬‬
‫‪23‬‬
‫‪6‬‬
‫‪14‬‬
‫סה"כ‬
‫‪500‬‬
‫• מציאת התחום הבין רביעוני‬
‫חישוב רביעוני למשתנה רציף‪:‬‬
‫שאלות ממבחנים‬
‫הקשר בין רביעונים וצורת ההתפלגות‬
‫הקשר בין רביעונים וצורת ההתפלגות‬
‫שאלות ממבחנים‬
‫ערכי חלוקה‬
‫ערכי חלוקה‬
‫• לדוגמא‪ :‬העשירון השלישי‪3N :‬‬
‫‪10‬‬
‫שונות וסטיית תקן‬
‫חישוב שונות וסטיית תקן‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫•‬
‫חישוב ס‪.‬תקן בסדרת ערכים בודדים‪:‬‬
‫נוסחא רגילה‪:‬‬
‫נוסחא חישובית‪:‬‬
‫חישוב ס‪.‬תקן למשתנה בדיד‪:‬‬
‫נוסחא רגילה‪:‬‬
‫נוסחא חישובית‪:‬‬
‫אצל משתנה רציף צריך לחשב אמצע קטע ולהציב‬
‫אותו במקום ה ‪Xi‬‬
‫השפעות טרנספורמציה על שונות‬
‫והממוצע‬
‫ממוצע‪:‬‬
‫• חיבור וחיסור משפיעים על הממוצע‪ .‬הממוצע יגדל‪ /‬יקטן‬
‫באותו קבוע‪.‬‬
‫• כפל וחילוק משפיעים על הממוצע‪ .‬הממוצע יגדל ‪/‬יקטן פי אותו‬
‫קבוע‪.‬‬
‫שונות‪:‬‬
‫• לפעולות של חיבור וחיסור אין השפעה על השונות וס‪ .‬התקן‪.‬‬
‫• הפיזור לא משתנה יש רק הזזה!‬
‫• בכפל וחילוק קיימת השפעה‪ .‬השונות תגדל‪ /‬תקטן פי הקבוע‬
‫שהכפלנו בריבוע‪ ,‬וס‪.‬התקן תגדל‪ /‬תקטן פי הקבוע‪.‬‬
‫שאלות ממבחנים‬
‫•‬
‫•‬
‫•‬
‫•‬
‫במפעל מועסקים ‪ 1000‬עובדים‪.‬‬
‫הרביעון הראשון של השכר הוא ‪₪. 4,400‬‬
‫העשירות התשיעי של השכר הוא ‪₪. 9,800‬‬
‫בעל המפעל החליט להפחית ‪ ₪ 500‬מכל אחד מהעובדים‬
‫המשתכרים מעל ‪ ₪ 9,800‬ולהוסיף ‪ ₪ 500‬לכל אחד‬
‫מהעובדים המשתכרים ל‪.₪4,400 -‬‬
‫• לאחר השינויים בשכר‪ -‬השכר הממוצע יקטן וגם ס‪.‬התקן‬
‫של המשכורת תקטן‪.‬‬
‫נכון‪ /‬לא נכון‪.‬‬
‫שאלות ממבחנים‬
‫• השכר הממוצע של עובד מפעל מסוים הוא ‪ ,₪ 6000‬עם‬
‫ס‪.‬תקן של ‪ .₪2000‬בגלל בעיות כלכליות החליט בעל‬
‫המפעל לצמצם ב‪ 10% -‬את שכרו שלכל עובד‪ .‬בשלב‬
‫מאוחר יותר החליט בעל המפעל להפחית ‪₪ 200‬‬
‫משכרו של כל עובד‪.‬‬
‫• אחרי שני השינויים בשכר ‪ -‬השכר הממוצע יהיה‬
‫‪ ₪5,200‬וסטיית התקן של השכר ‪₪. 1,600‬‬
‫נכון‪ /‬לא נכון‪.‬‬
‫מקדם השתנות ‪V.C‬‬
‫זהו מדד לפיזור יחסי של כלל התצפיות‪ ,‬יחסית לממוצע‪.‬‬
‫• ככל שהפיזור קטן יותר ‪ -‬מדובר על מקדם הומוגני ולכן‬
‫הוא גם אמין יותר‪.‬‬
‫• אם לצורך העניין יש ‪ 2‬קבוצות והחוקרים שואלים על‬
‫איזה קבוצה כדאי להם לעשות את המחקר ‪-‬על הקבוצה‬
‫ההומוגנית יותר‪.‬‬
‫• למה משתמשים ב ‪ ?%‬בעזרתם ניתן להשוות בין קבוצות‬
‫שונות או יחידות שונות כמו‪ :‬משקל‪ ,‬גובה וכו'‪.‬‬
‫• כאשר מדובר על אותו משתנה בעל ממוצעים שונים לא‬
‫כדאי להסתמך על ס‪.‬התקן‪ .‬מומלץ להשתמש ב ’‪.CV‬‬
‫דוגמא‬
‫ציון תקן‬
‫• ציון תקן מתאר מיקום יחסי של תצפית מסוימת בסדרה‬
‫הסטטיסטית אליה היא שייכת ביחידות של ס‪.‬תקן‪.‬‬
‫• נשתמש בו כאשר נהיה מעוניינים לדעת את מיקומה‬
‫היחסי של תצפית בודדת בהשוואה לכלל התצפיות‪.‬‬
‫• במקרה ובו שואלים על מיקום יחסי בד"כ מי שיש לו ‪Z‬‬
‫גדול יותר נמצא במיקום טוב יותר‪.‬‬
‫• במקרה ובו שואלים על חריגות יש להסתכל על ‪ Z‬בערך‬
‫מוחלט‪.‬‬
‫כלומר במקרה זה אנחנו מסתכלים על המרחק של הציון‬
‫הבודד מהממוצע‪.‬‬
‫דוגמא‬
‫תכונות ציון התקן‬
‫שאלות ממבחנים‬
‫• לפניך טבלת הגילאים של ‪ 41‬עובדים במפעל אלומיניום‪:‬‬
‫קבוצת גיל‬
‫מס' עובדים‬
‫‪20-24‬‬
‫‪3‬‬
‫‪25-29‬‬
‫‪7‬‬
‫‪30-34‬‬
‫‪13‬‬
‫‪35-39‬‬
‫‪8‬‬
‫‪40-49‬‬
‫‪10‬‬
‫א‪ .‬מהו הגיל הממוצע וס‪ .‬התקן‬
‫של העובדים במפעל?‬
‫ב‪ .‬מה הוא הרביעון התחתון‬
‫של גיל העובדים?‬
‫חשבו את מקדם המתאם והסבירו בקצרה את משמעותו‪.‬‬
‫שאלות ממבחנים‬
‫ממוצע הציונים בבגרות בביולוגיה הוא ‪ . 82‬חביבה‬
‫קיבלה בבגרות בביולוגיה ציון ‪ . 86‬מכאן ניתן להסיק‬
‫כי חביבה הצליחה מאוד במבחן הבגרות בביולוגיה‬
‫יחסית לחבריה‪.‬‬
‫נכון ‪ /‬לא נכון‪.‬‬
‫שאלות ממבחנים‬
‫• בחברת ההשקעות "חברה בטוחה" ידוע כי מס' העובדים‬
‫בחברה הוא ‪ 200‬כמו כן ידוע כי השכר הממוצע הוא‬
‫‪ 12,000‬וס‪.‬התקן היא ‪. 3000‬‬
‫עקב המשבר האחרון בשוק ההון הוחלט להוריד שכר לכל‬
‫המועסקים בשיעור של ‪. 15%‬‬
‫ידוע כי ציון התקן של אתי לפני הורדת השכר היה ‪.1.2‬‬
‫מכאן נובע כי‪:‬‬
‫ציון התקן החדש של אתי יקטן ב‪.15% -‬‬
‫נכון ‪ /‬לא נכון‬
‫קשר סטטיסטי בין משתנים‬
‫עד עכשיו עסקנו בתיאור נתונים לפי משתנה אחד‪.‬‬
‫• רוב החוקרים מעוניינים לחקור מספר משתנים על אותה‬
‫אוכ'‪ ,‬כאשר אחת השאלות שמעניינות אותם הם האם‬
‫קיים קשר בין המשתנים האלה‪.‬‬
‫• מהי משמעות המושג קשר סטטיסטי? הכוונה היא ששינו‬
‫בערך אחד של המשתנה גורר אחריו שינוי של במשתנה‬
‫השני‪( .‬ככל שההשכלה עולה כך השכר עולה)‪.‬‬
‫• המסקנה‪ :‬אם נמצא קשר בין המשתנים ניתן "לנבא" את‬
‫הערך של משתנה אחד (‪ )X‬על סמך ידיעת הערך של‬
‫המשתנה השני (‪.)Y‬‬
‫קשר ליניארי בין משתנים‬
‫• קשר לינארי נמדד במשתנים כמותיים‪.‬‬
‫• נהוג לתאר אותו בדיאגרמת פיזור‪.‬‬
‫מקדם המתאם‬
‫• מסומן כ‪:r-‬‬
‫מקדם המתאם‬
‫משמעות )‪COV (X,Y‬‬
‫•‬
‫•‬
‫•‬
‫•‬
‫מהווה את השונות המשותפת של ‪ X‬ו ‪.Y‬‬
‫כלומר אם בין ‪ 2‬המשתנים קיים יחס ישר משמע –‬
‫שני המשתנים מתפתחים באותו כיוון ו )‪cov (x,y‬‬
‫יהיה בעל סימן חיובי‪.‬‬
‫כאשר קיים יחס הפוך בין המשתנים תקבל השונות‬
‫המשותפת סימן של שלילי‪.‬‬
‫הערה‪ :‬הסימון של ‪ r‬נקבע עפ"י השונות המשותפת‪.‬‬
‫תכונות מקדם המתאם‬
‫תכונות מקדם המתאם‬
‫•כאשר ‪ r=0‬לא קיים קשר לינארי‬
‫קו הרגרסיה לניבוי ‪ Y‬באמצעות ‪:X‬‬
‫• קיום קשר לינארי בין ‪ 2‬משתנים מאפשר מציאת קו ישר‬
‫לעריכת תחזית ממשתנה אחד לשני‪.‬‬
‫• החוקר מעוניין במחקר למצוא חוקיות בהתפתחות‬
‫התופעה לפיה יהיה ניתן לערוך את התחזית‪.‬‬
‫נגדיר ‪ -Y‬משתנה התלוי‬
‫נגדיר ‪ -X‬המשתנה הבלתי תלוי‬
‫• קווי התחזית נקראים קווי רגרסיה‪.‬‬
‫משוואת קו ישר‬
‫קריטריון הריבועים הפוחתים‬
‫נוסחאות קו הרגרסיה‬
‫תכונות קו הרגרסיה‬
‫•ככל שערכו של ‪ b‬גדול יותר הקו הישר יהיה תלול יותר‪.‬‬
‫קו רגרסיה לניבוי ‪ X‬לפי ‪Y‬‬
‫נוסחאות קו הרגרסיה‬
‫הקשר בין מקדמי המתאם לקווי‬
‫הרגרסיה‬
‫שאלות ממבחנים‬
‫שאלות ממבחנים‬
‫שאלות ממבחנים‬
‫• מרצה בדק קשר לנארי בין שני משתנים‪ .‬לאחר‬
‫החישובים חלק מהחומר אבד ונשארו בידיו‬
‫התוצאות הבאות‪:‬‬
‫ס‪ .‬תקן של ‪4=X‬‬
‫‪9‬‬
‫• ‪6.2 Cov(x,y)=3‬‬
‫• לפי נתונים אלו ניתן לחשב את קו הרגרסיה לניבוי ‪Y‬‬
‫לפי ‪.X‬‬
‫נכון ‪ /‬לא נכון‪.‬‬