האוניברסיטה הפתוחה תוקף ויישומיו מבחנים פסיכולוגים : תיאוריה ומעשה נושאי הלימוד 2 סוגי תוקף תוקף תוכן תוקף תלוי קריטריון תוקף מבנה תוקף נראה ניבוי ציונו של היחיד משוואת הרגרסיה טעות התקן של.
Download
Report
Transcript האוניברסיטה הפתוחה תוקף ויישומיו מבחנים פסיכולוגים : תיאוריה ומעשה נושאי הלימוד 2 סוגי תוקף תוקף תוכן תוקף תלוי קריטריון תוקף מבנה תוקף נראה ניבוי ציונו של היחיד משוואת הרגרסיה טעות התקן של.
האוניברסיטה הפתוחה
תוקף ויישומיו
מבחנים פסיכולוגים :תיאוריה ומעשה
נושאי הלימוד
2
סוגי תוקף
תוקף תוכן
תוקף תלוי קריטריון
תוקף מבנה
תוקף נראה
ניבוי ציונו של היחיד
משוואת הרגרסיה
טעות התקן של האומדן
נושאי הלימוד
(המשך)
3
שילוב מידע ממספר מקורות
חיזוי קליני וחיזוי סטטיסטי
שיטות סטטיסטיות לשילוב מידע
ציוני מעבר
רגרסיה מרובה
תיקוף צולב
קבלת החלטות*
מושגי יסוד (קבלה/דחיה תקפה/שגויה ,שעור בסיסי ,יחס ברירה ,תוקף
מוסף)
טבלאות טיילור ראסל
גישת התועלת הצפויה
*נושא זה מיועד ללימוד עצמי ,על בסיס ספר הלימוד ,מדריך הלמידה ,והרצאתו של פרופ' גרשון בן שחר.
חומר הלימוד
4
5
.1סוגי תוקף
הגדרת תחום הדיון
6
תוקף :באיזה מידה המבחן מדד את התכונה שאותה
נועד למדוד.
מהימנות היא תנאי הכרחי ,אך לא מספיק ,לתוקף.
תוקף תוכן
7
הגדרה :תוקף תוכן ( )Content-Related Validityעוסק
בשאלה באיזה מידה המבחן מייצג נאמנה את עולם
התוכן המבוקש.
המבחן הוא מדגם פריטים.
תוקף המבחן תלוי בשאלה האם המבחן דוגם את עולם
התוכן באופן מספק.
מתי מבחן הוא מדגם מייצג טוב של עולם התוכן?
דוגם את כל ההיבטים של עולם התוכן הרלוונטי.
אך ורק אותם (לא כולל היבטים לא רלוונטיים לתכונה).
כל היבט של עולם התוכן נדגם בפרופורציה המתאימה.
שלבים בתיקוף תלוי תוכן
8
הגדרה (תיאורטית) של עולם התוכן הנחקר.
בניית מפרט מבחן (:)Test specifications
מסמך המפרט את הנושאים והמיומנויות שיש לכלול
במבחן ,לרבות הייצוג היחסי של כל מרכיב.
מוגדר לרוב על ידי מומחים בתחום (אקדמאי ,תעסוקתי
וכו') ,ומבוסס על מקורות רלוונטיים (למשל ,תיאוריטת
בתחום הדעת הרלוונטי ,תוכנית לימודים ,ספרי לימוד,
ראיונות עם מועסקים בתחום וכו').
המלצה
תרגיל ,2מ"ל יחידה 4
מפרט מבחן
(דוגמא)
9
דרישות המפרט למבחן ביניים בקורס מבחנים פסיכולוגיים
ידיעת העובדות
הבנת העקרונות
יישום העקרונות
תולדות המבחנים
5
-
-
5
סטטיסטיקה
5
4
2
11
נורמות
6
5
3
14
מהימנות
6
4
3
13
תוקף
7
4
3
14
פירוש התוקף
7
4
3
14
ניתוח פריטים
7
4
3
14
בניית מבחן
7
5
3
15
סך הכל
50
30
20
100
הבהרה :הנתונים בטבלה מתייחסים לאחוז השאלות מתוך כלל המבחן
תוקף תוכן
10
תיקוף תלוי תוכן מבוסס בעיקרו על הליך איכותי (ולא על ניתוחים
סטטיסטיים מורכבים) .על בונה המבחן לבחון באופן שיטתי,
ולהפעיל שיקול דעת ביחס למידת ההתאמה של המבחן ליעדי
המדידה (כפי שנוסחו במפרט המבחן).
יישומים :מתי מתאים לערוך תיקוף תלוי תוכן?
גבולות עולם התוכן ניתנים להגדרה ברורה.
תחום תוכן שניתן למדוד ישירות (ולא מדידה עקיפה ,כמו
גירוי השלכתי).
בתנאים אלו סקירה של פריטי המבחן נותנת מושג ברור לגבי
גבולות עולם התוכן הנמדד בו.
תוקף תלוי קריטריון
11
הגדרה :עוסק בשאלה באיזה מידה כלי המדידה הוא מדד יעיל
לאבחון או לניבוי של תחום ההתנהגות הנחקר.
לשם כך ,נבדוק את הביצוע במבחן כנגד ביצוע בקריטריון
בקרב מדגם נבדקים מתאים.
מהו קריטריון?
מדד אחר (שונה מהמבחן) לתחום ההתנהגות הנחקר,
שמתקבל באופן בלתי תלוי במבחן.
סוגים של תוקף תלוי קריטריון:
תוקף מקביל ( )Concurrent validityתוקף ציוני המבחן
כלפי ביצוע בקריטריון שנתוניו זמינים בהווה.
תוקף ניבוי ( )Predictive validityתוקף ציוני המבחן כלפי
ביצוע עתידי בקריטריון מסוים.
תהליך בדיקת תוקף תלוי קריטריון
12
תחום ההתנהגות הנחקר:
נבדקים:
1
2
3
.
.
.
.
.
n
יכולת אקדמית
מבחן:
קריטריון:
פסיכומטרי
ציוני BA
y1
y2
y3
.
.
.
.
.
yn
x1
x2
x3
.
.
.
.
.
xn
rxy
מקדם תוקף תלוי קריטריון
"זיהום" קריטריון או נתוני המבחן
13
מצב בו מתקיימת תלות
בין נתוני המבחן לנתוני
הקריטריון.
כיצד ישפיע על חישוב
התוקף?
מוביל לניפוח מלאכותי
של מקדם התוקף
תחום ההתנהגות
הנחקר:
יכולת אקדמית
קריטריון:
מבחן:
פסיכומטרי
נבדקים:
1
2
3
.
.
.
.
.
n
y1
y2
y3
.
.
.
.
.
yn
x1
x2
x3
.
.
.
.
.
xn
rxy
מדדי קריטריון
14
כל מדד לתחום ההתנהגות
הנחקר יכול לשמש קריטריון.
מספר מדדים מקובלים:
מתאם עם מבחנים מקובלים
אחרים.
מדדים ממשיים של ביצוע
בתפקיד.
דרוגים של ממונים ,מומחים
(הערכות פסיכיאטריות) ,או
עמיתים
שיטת הקבוצות המנוגדות
תחום ההתנהגות
הנחקר:
נבדקים:
1
2
3
.
.
.
.
.
n
חברותיות
מבחן:
קריטריון:
שאלון
חברותיות
?
x1
x2
x3
.
.
.
.
.
xn
y1
y2
y3
.
.
.
.
.
yn
rxy
מדדי קריטריון
15
לכל קריטריון יתרונות וחסרונות
אובייקטיבי/סובייקטיבי
נמדד בתנאים אחידים יותר
או פחות
מועד לקיצוץ תחום או נשירה
מצוי בהלימה רבה או חלקית
עם התכונה הנחקרת
רצוי לבחון את תוקף המבחן כנגד
מספר קריטריונים ,ולא להסתפק
בקריטריון יחיד.
תחום ההתנהגות
הנחקר:
חברותיות
קריטריון:
מבחן:
שאלון
חברותיות
נבדקים:
1
2
3
.
.
.
.
.
n
y1
y2
y3
.
.
.
.
.
yn
x1
x2
x3
.
.
.
.
.
xn
rxy
מדדי קריטריון
16
לכל קריטריון יתרונות וחסרונות
אובייקטיבי/סובייקטיבי
נמדד בתנאים אחידים יותר
או פחות
מועד לקיצוץ תחום או נשירה
מצוי בהלימה רבה או חלקית
עם התכונה הנחקרת
רצוי לבחון את תוקף המבחן כנגד
מספר קריטריונים ,ולא להסתפק
בקריטריון יחיד.
תחום ההתנהגות
הנחקר:
חברותיות
קריטריון:
מבחן:
שאלון
חברותיות
נבדקים:
1
2
3
.
.
.
.
.
n
y1
y2
y3
.
.
.
.
.
yn
x1
x2
x3
.
.
.
.
.
xn
rxy
מדדי קריטריון :קבוצות מונגדות
()Contrasted groups
17
קריטריון מקובל בתיקוף מבחני
אישיות.
מבוסס על היכללות בקבוצה
מסוימת (לעומת אי היכללות בה).
קבוצות מונגדות יכולות לשקף
השפעות המצטברות ולא
מבוקרות של חיי היום יום
(קריטריון גס יחסית).
קבוצות מונגדות יכולות לשקף
משתנה יותר אובייקטיבי
(לפני/אחרי קורס בתיקוף מבחן
שליטה).
תחום ההתנהגות
הנחקר:
חברותיות
אנשי
מכירות
שאלון
חברותיות:
x
ספרנים
x
בדיקת הבדלים בין הקבוצות
כיוון ומובהקות ()p>0.05
קיצוץ תחום
תוקף תלוי קריטריון מחושב כמתאם בין
המבחן לקריטריון.
מתאם הוא מדד רגיש לפיזור.
גורמים אפשריים לקיצוץ תחום:
מדגם מוסדי (למשל ,תיכון יוקרתי)
נשירה שיטתית (למשל ,סטודנטים חלשים)
ברירה על ידי המבחן שמצוי בהליך תיקוף
קיצוץ התחום יוביל להערכת חסר של
מקדם התוקף.
קיימות שיטות סטטיסטיות לערוך תיקון
לקיצוץ תחום.
המלצה
תרגיל ,10מ"ל יחידה 4
קשר בין מהימנות לבין תוקף
19
קיים קשר ישיר בין מהימנותם של המבחן ושל הקריטריון לבין תוקף המבחן.
' xx' yy
המתאם בין הציונים האמיתיים קטן או שווה ל1 -
מקרא:
’xx
’yy
מהימנות מדד ( Yקריטריון)
’xy
תוקף המבחן
txty
מתאם בין ציוני המבחן והקריטריון "האמיתיים"
x y
' xy xx' yy
מהימנות מדד ( Xמבחן)
xy t t
מקדם התוקף המרבי לא יהיה גדול ממכפלת שורשי המהימנות של
המבחן ושל הקריטריון.
ככל שמהימנות המבחן או הקריטריון נמוכה יותר ,התוקף נמוך יותר.
קשר בין מהימנות לבין תוקף
(דוגמא)
20
נתון:
xx’=0.85מהימנות מדד ( Xמבחן)
yy’=0.81מהימנות מדד ( Yקריטריון)
מהו מקדם התוקף המרבי האפשרי למבחן?
' xy xx' yy
תיקון מדד התוקף לחוסר מהימנות הקריטריון
21
' xx' yy
תיקון מדד התוקף לפי מהימנות המבחן
והקריטריון (מהו התוקף "האמיתי" לו
יכולנו למדוד את המבחן ואת הקריטריון
ללא כל טעות מדידה)
תיקון חלקי של מדד התוקף לחוסר
מהימנות הקריטריון בלבד:
המתאם בין הציונים הנצפים במבחן לבין
הציונים "האמיתיים" בקריטריון (תיקון
עבור חוסר מהימנות שלו)
xy t t
x y
xy
' xx' yy
t t
x y
xy
' yy
y
xt
תיקון התוקף לחוסר מהימנות הקריטריון
(דוגמא)
22
נתון:
xx’=0.85מהימנות מדד ( Xמבחן)
yy’=0.81מהימנות מדד ( Yקריטריון)
xy=0.83מקדם התוקף
מהו מקדם התוקף "האמיתי" של המבחן?
xy
' yy
y
xt
תוקף מבנה
23
הגדרה :תוקף מבנה ( )Construct Validityעוסק בשאלה באיזה מידה
המבחן בודק את המבנה התיאורטי (היפותטי) שאותו נועד למדוד.
מושאי המדידה בפסיכולוגיה לא ניתנים למדידה ישירה.
מבנה פסיכולוגי הוא המשגה תיאורטית שמתארת ומארגנת
אוסף התנהגויות קונקרטיות ,ומאפשרת ניסוח ניבויים רלוונטיים.
בדיקת תוקף המבנה של כלי מדידה בנוי כתהליך בדיקת השערות:
גוזרים השערות לגבי המבנה הנמדד בכלי המדידה ,ובודקים
אותן בכלים אמפיריים (או איכותיים).
תוצאות התואמות להשערות תומכות בתוקף המבנה.
תמיכה בתוקף המבנה מחייבת צבירה הדרגתית של מידע
ממקורות שונים.
שיטות לבדיקת תוקף מבנה
24
כל בדיקה של השערה רלוונטית למבנה הנחקר בכלי המדידה היא
שיטה אפשרית לבדיקת תוקף המבנה שלו.
מחבר הספר מציג שלוש קבוצות של שיטות אפשריות (מבין בדיקות
רבות אפשריות).
מתאמים עם מבחנים אחרים ( +מטריצת )MMM
ניתוח גורמים
התערבות ניסויית
בדיקת תוקף מבנה :התערבות ניסויית
25
בשיטה זאת מנסחים השערה לגבי המבנה הנחקר בכלי המדידה,
ובודקים אותה באמצעות מניפולציה ניסויית.
אם התוצאות מתקבלות בכיוון ההשערות ,הן יספקו תמיכה לתוקף
המבנה של כלי המדידה.
דוגמא :בדיקת תוקף מבנה של שאלון חרדה.
השערה :חרדה תתגבר כתוצאה מאיום על האגו.
נפעיל מניפולציה ניסויית שמטרתה להעלות חרדה.
נבדוק האם התקבלו הבדלים בין קבוצות עם/ללא המניפולציה,
מבחינת הביצוע בשאלון החרדה.
בדיקת תוקף מבנה :מתאמים עם מבחנים אחרים
26
בשיטה זאת מנסחים השערה לגבי קשרים בין המבנה הנחקר בכלי
המדידה לבין מבנים (מבחנים) אחרים.
השערות:
בין מבנים דומים נצפה למתאמים גבוהים (אך לא גבוהים מדי)
בין מבנים שונים נצפה למתאמים נמוכים
חסרון :מתאמים גבוהים יכולים לבטא שיטות מדידה דומות (ולא מבנים
דומים).
מבחן
שונות
טעויות
שונות
אמיתית
הבדלים בתכונה הנמדדת
הבדלים באופן התגובה לשיטת המדידה
(מערך תגובה)
בדיקת תוקף מבנה :מטריצת MMM
27
קמבל ופיסק פיתחו מערך שיטתי – מטריצת מרובת תכונות ושיטות –
שמטרתו לבחון מתאמים בין מבחנים לצורך בדיקת תוקף מבנה ,באופן
שמבקר את השפעתה של שונות השיטה.
נגדיר:
תוקף מתכנס:
מתאמים בין מבנים דומים שנמדדו בשיטות שונות
תוקף מבחין:
מתאמים בין מבנים שונים שנמדדו באותה שיטה (ת' מבחין חד
שיטתי)
מתאמים בין מבנים שונים שנמדדו בשיטות שונות (ת' מבחין רב
שיטתי)
מטריצת MMM
(המשך)
מאפשרת להשיב על 3שאלות:
האם המדידה עקבית?
(מהימנות)
האם הכלים מודדים את מה שהם אמורים למדוד?
(תוקף מתכנס)
האם הכלים אינם מודדים את מה שאינם אמורים למדוד?
(תוקף מבחין)
מטריצת MMM
(המשך)
השערות:
מהימנות )0.8(
תוקף מתכנס )0.4-0.6(
תוקף מבחין חד שיטתי
תוקף מבחין רב שיטתי
מטריצת MMM
(תרגול)
לפניכם מטריצה מרובת תכונות ושיטות .מלאו את הנתונים הבאים בטבלה:
.1
.2
.3
.4
.5
.6
.7
.8
.9
.10
מתאם בין הערכות 2שופטים בלתי-תלויים ,בראיון יצירתיות ()0.8
מתאם הערכות 2שופטים בלתי-תלויים ,בראיון כושר ניהול ()0.82
מתאם בין 2שאלונים זהים בנושא יצירתיות ,שהועברו בפער של חודש ()0.83
מתאם בין 2שאלונים זהים בנושא כושר ניהול ,שהועברו בפער של חודש ()0.81
מתאם בין 2ראיונות ,האחד בנושא יצירתיות ,והשני בנושא כושר ניהול ()0.58
מתאם בין 2שאלונים ,העוסקים ביצירתיות ובכושר ניהול ()0.41
מתאם בין שאלון וראיון בנושא יצירתיות ()0.6
מתאם בין שאלון וראיון כושר ניהול ()0.52
מתאם בין שאלון הבוחן יצירתיות לבין ראיון הבוחן כושר ניהול ()0.31
מתאם בין שאלון הבוחן כושר ניהול לבין ראיון הבוחן יצירתיות ()0.3
מטריצת MMM
(תרגול)
ראיון
יצירתיות
יצירתיות
ראיון
כושר
ניהול
יצירתיות
שאלון
כושר
ניהול
שאלון
כושר
ניהול
יצירתיות
כושר
ניהול
מטריצת MMM
(המשך)
השערות:
מהימנות )0.8(
תוקף מתכנס )0.4-0.6(
תוקף מבחין חד שיטתי
תוקף מבחין רב שיטתי
נתונים (שאלון יצירתיות):
מטריצת MMM
(המשך)
השערות:
מהימנות )0.8(
תוקף מתכנס )0.4-0.6(
תוקף מבחין חד שיטתי
תוקף מבחין רב שיטתי
נתונים (כושר ניהול):
בדיקת תוקף מבנה :ניתוח גורמים
34
שיטה סטטיסטית המבוססת על ניתוח הקשרים (המתאמים) בין
משתנים התנהגותיים במטרה לזהות "גורמים" (משתנים בסיסיים)
המתארים באופן תמציתי את הנתונים המופקים מכלי מדידה אחד או
יותר.
ניתוח הגורמים מאפשר לבחון האם מבחן ,או מערכת מבחנים
מסוימת ,אכן מורכב מן המבנים המשוערים
שלבים בניתוח גורמים
35
מטריצת מתאמים (בדיקת קשרים בין כל המרכיבים במערכת)
חלוקה לגורמים
גישה תיאורטית
הגדרת הגורמים מראש בהתאם למבנה תיאורטי.
גישה אקספלורטיבית
על-סמך הנתונים האמפיריים חלוקה אופטימלית לגורמים אורתוגונליים
(במתאם נמוך ככל הניתן זה עם זה).
טבלת גורמים
מציגה את המתאם בין כל פריט/תת-מבחן/מבחן עם כל אחד מן
הגורמים.
מתאם זה מכונה תוקף הגורם :מידת 'טעינותו' של הפריט בגורם.
המשגה תיאורטית
ניתוח גורמים
(תרגול)
36
מערכת של 6מבחנים שימשה לצורך שיבוץ תלמידים למגמות בבית הספר התיכון.
חושבו הנתונים הבאים .מהי סוג הטבלה שלפניכם?
טבלה _________:1
אנלוגיות
מילוליות
תפיסת
צורות
סדרות הסקה
מספרים כמותית
אוצר
מילים
אנלוגיות מילוליות
1.0
תפיסת צורות
0.23
1.0
סדרות מספרים
0.17
0.42
1.0
הסקה כמותית
0.34
0.36
0.86
1.0
אוצר מילים
0.89
0.15
0.39
0.31
1.0
השלמת תמונות
0.32
0.79
0.28
0.21
0.25
השלמת
תמונות
1.0
ניתוח גורמים
(תרגול)
37
מערכת של 6מבחנים שימשה לצורך שיבוץ תלמידים למגמות בבית הספר התיכון.
חושבו הנתונים הבאים .מהי סוג הטבלה שלפניכם?
טבלה _________ :2
גורם 1
גורם 2
גורם 3
אנלוגיות מילוליות
0.80
0.33
0.32
תפיסת צורות
0.32
0.19
0.86
סדרות מספרים
0.14
0.82
0.42
הסקה כמותית
0.24
0.91
0.37
אוצר מילים
0.89
0.21
0.17
השלמת תמונות
0.19
0.29
0.79
מהו התוקף הגורמי של מבחן אוצר מילים כמדד ליכולת מילולית?
מדוע ניתוח גורמים רלוונטי לתוקף מבנה?
ניתוח גורמים מסייע לאפיין את המבנים התיאורטיים
בהם עוסק המבחן ,ולכן רלוונטי לתוקף המבנה (הבחון
את השאלה באיזה מידה מבחן בוחן מבנה תיאורטי נתון).
ניתוח הגורמים מאפשר לבחון האם מבחן ,או מערכת
מבחנים מסוימת אכן מרוכבת מן המבנים המשוערים.
תוקף מבנה :בדיקות נוספות
39
כל ניסוח השערה הרלוונטי למבנה הנחקר ובדיקתה ,יכולה
לשמש דרך לבדיקת תוקף מבנה (איסוף ראיות)
דוגמאות
השערות לגבי שינויים התפתחותיים
השערות לגבי מידת הלכידות של המבנה הנחקר בכלי
המדידה (מדדי הומוגניות ,כמו אלפא קרונבך)
השערות לגבי תהליכים קוגניטיביים שמעורבים בפתרון
פריטים במבחן (בדיקה איכותית )
הכוללנות של תוקף מבנה
40
מגמה לראות בתוקף המבנה מושג רחב ,הכולל את סוגי התוקף האחרים
(תוכן וקריטריון) ,שגם הם מסייעים להבין מהי המהות שנמדדת במבחן.
תוקף תלוי תוכן ניתוח איכותי המאפשר לזהות את היקפו וגבולותיו של תחום
התוכן הנכלל במבחן .הגדרת תחום התוכן נובעת מתוך הבנתנו את המבנה
הנחקר .מתוך ההגדרה התיאורטית של המבנה ,נוכל לגזור השערות לגבי התכנים
שכלולים או לא בגבולות המבנה (רלוונטיות המבנה)
תוקף תלוי קריטריון בוחן את המתאם בין המבחן לבין נתוני קריטריון (מדידה
ישירה ובלתי-תלויה של תחום ההתנהגות הנחקר) .הגדרת הקריטריון היא פועל
יוצא של השערות שנגזרות מן המבנה הנחקר (למשל ,יכולת אקדמית תהיה קשורה
בהישגי לימודים בתואר הראשון) .מבקשים לבחון באיזה מידה המבנה הנחקר
במבחן מתואם (נמצא בקורלציה) עם מבנים דומים (או זהים) שנאמדו בשיטות
הערכה אחרות (נתוני הקריטריון) .כלומר ,תוקף תלוי-קריטריון למעשה מספק מידע
ביחס לתוקפו המבני של כלי המדידה.
תוקף נראה
41
הגדרה :תוקף נראה ( )Face Validityעוסק בשאלה עד
כמה המבחן נראה תקף לנבחנים או אנשים לא מקצועיים
(מושג סובייקטיבי ,התרשמותי).
תוקף נראה הוא תכונה רצויה למבחן ,אך לא מבטיחה
תוקף אובייקטיבי.
העדר תוקף נראה עלולה לפגום בשיתוף הפעולה של
הנבחן ,ולכן ,בעקיפין לפגוע בתוקף האובייקטיבי.
לרוב ניתן לשפר את התוקף הנראה על ידי ניסוח פריטים
בהתאם למטרת המבחן ולמאפיינים של האוכלוסייה לה
מיועד המבחן (גיל ,גורמים תרבותיים וכו').
42
.2ניבוי ציונו של היחיד
ניבוי ציונו של היחיד
43
מקדם התוקף מוסר מידע כללי על הקשר בין התפלגויות ציוני
המבחן והקריטריון .כיצד נוכל להשתמש במידע זה לצורך חיזוי
ציונו של הנבדק בקריטריון?
משוואת רגרסיה )’(Xi Y
הנוסחה הכללית של משוואת הרגרסיהy’=bxi+a :
b
מבחינה סטטיסטית
SDy
SDx
מבחינה גרפית
a
rxy
y bx
תכונות הרגרסיה
44
תכונה מרכזית :קו הרגרסיה מאפשר מינימום של טעות בניבוי
משתנה Yמתוך משתנה X
מוגדר כקו אשר סכום הסטיות הריבועיות ממנו מינימאלי.
כלומר ,משוואת קו הרגרסיה עונה על הדרישה להקטין למינימום
את סך כל טעויות הניבוי המבוססות עליה.
המחשה
(קו רגרסיה ומתאם)
45
תכונת הרגרסיה
(המחשה)
טעות התקן של האומדן
מדד המציין את מרווח הטעות הצפוי בציון הקריטריון החזוי של
הנבחן כתוצאה ממגבלה של תוקף המבחן
מסומן ( SEestסימון חלופי (Sest
מתקבל מנוסחה:
SEest SDy 1 rxy2
מהי SEestכאשר תוקף המבחן מושלם (?)rxy=1
מהי SEestכשהמבחן חסר תוקף (?)rxy=0
1 rxy2
מתייחס לפרופורציה של הטעות בניבוי
הביטוי תחת השורש
יחסית למצב של ניחוש (מבחן חסר תוקף).
טעות התקן של האומדן
איך ,מתי ולמה נשתמש ב?SEest -
SEest מבטאת גודלו של מרווח
הנבנה סביב ציון הקריטריון
המנובא של הנבדק (` ,)yשנוכל
לטעון כי ציונו האמיתי של הנבדק
בקריטריון מצוי בתחומי מרווח זה
ברמת בטחון של .68%
במידה ונרצה להגדיל את רמת
הביטחון ,נכפיל את SEestבציון
התקן המתאים (באופן דומה
לשימוש ב.)SEM -
rxy 1
y' y
y' SEest* Z
טעות התקן של האומדן
(תרגול)
חוקר פיתח סולם אסרטיביות לצורך ברירת אנשי שיווק .הסולם
התפלג עם ממוצע ,25סטיית תקן ,6ותוקפו ( 0.43מול היקף
מכירות חודשי) .היקף המכירות החודשי של אנשי שיווק בתפקיד
הנתון הוא 60וסטיית התקן 10
מועמד קיבל ציון 30במבחן .מה צפוי להיות היקף המכירות שלו
ברמת בטחון ?90
y' SEest* Z
שלב :1חישוב משוואת הרגרסיה
a y bx
SDy
SDx
b rxy
טעות התקן של האומדן
(תרגול)
שלב :2חישוב SEest
SEest SDy 1 rxy2
שלב :3יש לאתר את ציון התקן המתאים לרמת הביטחון הנדרשת (מאון )95
90%
)P(95
y' SEest* Z
טעות התקן של האומדן
(תרגול)
לו תוקף המבחן היה נמוך יותר ,מה הייתה ההשפעה על טווח
הציונים החזוי בקריטריון?
לו רמת הביטחון הנדרשת הייתה נמוכ היותר? מה הייתה ההשפעה
על טווח הציונים החזוי בקריטריון?
y' SEest* Z
טעות התקן של האומדן
(תרגול)
מנהל משאבי אנוש מבקש להבטיח שהמתקבלים לעבודה יגיעו להיקף
מכירות של 58לפחות .מה ההסתברות שהמועמד יעמוד בדרישה זאת?
שלב :1הציון המנובא בקריטריון הוא ,64כלומר מצוי 6נקודות מעל לסף הנדרש ,או
0.67סטיות תקן ( )6:9של התפלגות הטעות בניבוי הקריטריון ()SEest
שלב :2פער זה (בין הציון המנובא לבין ציון הסף) מתייחס להסתברות של ,75%
בעוד שקיים סיכוי של 25%שהמועמד יימצא תחת הסף (היקף מכירות )58
75%
58 64
53
.3שילוב מידע ממספר מקורות
חיזוי קליני לעומת חיזוי סטטיסטי
חיזוי קליני
שילוב מידע בדרך אינטואיטיבית וסובייקטיבית (ידע תיאורטי,
"אינטואיציה קלינית")
חיזוי סטטיסטי
הליך סטנדרטי לשילוב מידע ,שמבוסס (בד"כ) על קשר אמפירי
מוכח בין מנבאים למנובאים
שיטות לחיזוי סטטיסטי:
רגרסיה מרובה
נקודות חתך ()cutoff
אסטרטגיה משולבת (סדרתית)
רגרסיה מרובה
שיטה סטטיסטית לצירוף נתונים ממבחנים שונים לניבוי קריטריון
יחיד.
צורה כללית:
y’=b1xi1+ b2xi2 +…+bnxin+a
בעזרת משוואת הרגרסיה המרובה נחשב ציון קריטריון מנובא לכל
נבדק (’ )yעל סמך הישגיו במערכת המבחנים כולה.
ניתן לדרג את הנבחנים זה ביחס לזה.
בניית משוואת רגרסיה
העיקרון :שיקלול כל מבחן (מנבא) ביחס לתוקפו ולתרומתו הייחודית
לניבוי הקריטריון .
כיצד נקבעים משקלות המבחנים ( )bבמשוואת הרגרסיה?
ביחס ישר למתאם עם הקריטריון (תוקף).
ביחס הפוך למתאם עם המבחנים האחרים במערכת.
קריטריון
קריטריון
מבחן 1
מבחן 2
מבחן 3
מבחן 1
משתנה
מדכא
מבחן 1
נקודות חתך
קביעת ציון חתך (מעבר) מינימאלי בכל מבחן במערכת.
מתי יש לקבוע ציון מעבר?
כאשר התכונות הנבחנות חיוניות להצלחה בקריטריון (מניעת
השפעת כישורים מפצים).
כאשר הקשר בין המשתנים לא ליניארי (בטווח השלם).
כאשר הנבחנים דומים מאוד בתכונה הנחקרת (למשל,
מצליחים בה) עלול להתקבל תוקף נמוך (קיצוץ תחום),
ומשקל המנבא ברגרסיה יהיה נמוך .אם התכונה חיונית
לקריטריון ,רצוי לקבוע ציון חתך (להבטיח ביצוע ברמה
מוגדרת)
נקודות חתך
כושר
מכני
הבנת הנקרא
שיווק
אסרטיביות
שיטות לחיזוי סטטיסטי
(השוואה)
59
נקודות חתך
רגרסיה מרובה
קריטריון רציף (מאפשר דירוג
יחסי)
כישורים במדד אחד יכולים
לפצות על ביצוע נמוך במדד
שני (ולהצלחה בקריטריון)
קשר בין משתנים ליניארי
ואחיד לאורך כל טווח ערכי
המשתנה הנחקר
קריטריון דיכוטומי
(עבר/נכשל)
מאפשר להבטיח ביצוע ברמה
מוגדרת (ולא פחות ממנה)
במדד מסוים
מתאים לשימוש גם כשהקשר
בין המשתנים לא ליניארי
אסטרטגית החלטה משולבת )סדרתית)
שלב א
הערכת כשרים חיוניים בלבד
שילוב נתונים על בסיס ציוני חתך
התקבל
נדחה
שלב ב
המשך הערכת
כישורים רלוונטיים
שילוב נתונים בעזרת
רגרסיה מרובה
דירוג מועמדים
בקריטריון המנובא
משוואת רגרסיה מרובה
(תרגול)
תוכנית להכשרת מועמדים למנהיגות חינוכית נעזרת בשלושה
מבחנים לברירת מועמדים :מבחן משכל ,שליטה באנגלית ומבחן
מנהיגות .לצורך הניבוי ,חושבת משוואה רגרסיה מרובה.
y` =( 0.5 * L) + (0.2 * E) + (0.4 * W) + 10
למי מהמועמדים שציוניהם מפורטים בהמשך עדיפות לקבלה?
וקסלר ))W
אנגלית ))E
מנהיגות ))L
1
100
80
80
2
120
50
100
’Y
משוואת רגרסיה מרובה
(תרגול)
תוכנית להכשרת מועמדים למנהיגות חינוכית נעזרת בשלושה
מבחנים לברירת מועמדים :מבחן משכל ,שליטה באנגלית ומבחן
מנהיגות .לצורך הניבוי ,חושבת משוואה רגרסיה מרובה.
y` =( 0.5 * L) + (0.2 * E) + (0.4 * W) + 10
למי מהמועמדים שציוניהם מפורטים בהמשך עדיפות לקבלה?
וקסלר ))W
אנגלית ))E
מנהיגות ))L
1
100
80
80
2
120
50
100
’Y
משוואת רגרסיה מרובה
(תרגול)
תוכנית להכשרת מועמדים למנהיגות חינוכית נעזרת בשלושה
מבחנים לברירת מועמדים :מבחן משכל ,שליטה באנגלית ומבחן
מנהיגות .לצורך הניבוי ,חושבת משוואה רגרסיה מרובה.
נקבע כי שליטה בינונית באנגלית (ציון )70חיונית להצלחה
בקריטריון .איזה מועמד עומד בתנאי הקבלה לתוכנית?
וקסלר ))W
אנגלית ))E
מנהיגות ))L
1
100
80
80
2
120
50
100
’Y
תיקוף צולב
תיקוף צולב מונח העוסק בהכרח לערוך בדיקה של יעילות משוואת
הניבוי עבור מדגם אחר ,שונה מזה ששימש לחישובה במקור.
נדון בקורס בהקשר של רגרסיה מרובה (יחידה )4ובהקשר של
בניית מבחנים (יחידה )6
תיקוף צולב
(המחשה)
...
מבחן n
קריטריון
בפועל
קריטריון
מנובא
y1
y'1
y'2
נבדקים
מבחן 1
מבחן 2
1
X11
X12
X1n
2
X12
X22
X2n
y2
…
…
…
…
…
…
n
X1n
Xn2
Xnn
yn
y'n
y’=b1xi1+ b2xi2 +…+bnxin+a
...
מבחן n
קריטריון
בפועל
קריטריון
מנובא
y1
y'1
y'2
נבדקים
מבחן 1
מבחן 2
1
X11
X12
X1n
2
X12
X22
X2n
y2
…
…
…
…
…
…
n
X1n
Xn2
Xnn
yn
y'n
התכווצות התוקף בעקבות תיקוף צולב
גורמים המשפיעים על התכווצות מקדם התוקף
גודל מדגם הפריטים וטיב הייצוג של התכונה הנחקרת
גודל מדגם הנבחנים (יחסית למספר המנבאים במשוואה)
שיטת הבנייה של המבחן :גישה תיאורטית (רציונאלית) או
גישה אמפירית (נושא שיידון ביחידה )6
חיזוי קליני לעומת חיזוי סטטיסטי
(השוואה)
מחקר חלוצי (מיל )1954 ,יתרון לשיפוט הסטטיסטי על פני השיפוט
הקליני במגוון משתנים (הצלחה בלימודים אדקמיים ,הכשרה
מקצועית ,ניבוי הצלחה בטיפול בחולים פסיכוטיים ,ניבוי לגבי
הסתגלות אסירים למוסדות ענישה וכו').
מחקר של דוז' ( ,)1971הדגמת של תופעה סטטיסטית שמכונה
( bootstrappingקראו הרחבה במדריך הלמידה)
מושג שלקוח מתוך סיפורי הברון מניכהאוזן ,אצלי גרמני שחי
בסוף המאה ה ,18-ונודע בסיפורי הרפתקאות בדיוניות ,בין
היתר ,חילוץ עצמו מביצה בעזרת משיכת רצועות נעליו שלו.
שיפור החיזוי הקליני בעזרת מודל סטטיסטי שמנצל את
הנתונים שנתן הקלינאי (השופט) עצמו (המודל המבוסס על
הקלינאי "מושך" למעלה ,יעיל יותר ,מן הקלינאי עצמו).
ניבוי קליני לעומת אקטוארי
()Dawes, 1979
N
מספר
מנבאים
.1ניבוי
שופטים
.2מודל
שיפוטי
.3מודל
רנדומלי
.4מודל
משקולות
שווים
.5מודל
ליניארי
אופטימאלי
.6תיקוף
צולב
נוירוזה
לעומת
פסיכוזה
861
11
0.28
0.31
0.30
0.34
0.46
0.46
GPA
)אוני'
אלינוי)
90
10
0.33
0.50
0.51
0.60
0.69
0.57
GPA
)אוני'
אורגון)
90
10
0.37
0.43
0.51
0.60
0.69
0.57
דירוג
סגל
)אוני'
אורגון)
111
3
0.19
0.25
0.39
0.48
0.54
0.38
מסקנות העלות מן המחקר
()Dawes, 1979
מודל השופט טוב יותר מהשופט .
מודל רנדומאלי טוב לפחות כמו מודל השופט.
מודל של משקולות שווים טוב יותר ממודל רנדומאלי.
במדגמים קטנים מודל של משקולות שווים טוב יותר
ממודל אופטימאלי.
70
.4קבלת החלטות
קבלת החלטות
מושגי יסוד:
קבלה/דחיה תקפה/שגויה
שעור בסיסי
יחס ברירה
תוקף מוסף
טבלאות טיילור ראסל
גישת התועלת הצפויה
*נושא זה מיועד ללימוד עצמי ,על בסיס ספר הלימוד ,מדריך הלמידה ,והרצאתו של פרופ' גרשון בן שחר.
קבלת החלטות
(תרגול)
מהו התוקף המוסף של המבחן?
1חישוב שיעור בסיס ק.ת + .ד.ש.
סך כל התצפיות
דוגמא :מבחן קבלה לעבודה
n=24
קבלה תקפה
))True Positive
n=16
דחייה שגויה
)(False Negative
n=32
n=8
))+
"עבר"
72
))-
"נדחה"
נקודת חתך
במבחן
) )
"הצלחה"
נקודת חתך
בקריטריון
))X
"כשלון"
קבלת החלטות
(תרגול)
מהו התוקף המוסף של המבחן?
1חישוב שיעור בסיס ק.ת + .ד.ש.
סך כל התצפיות
.2חישוב יחס ברירה ק.ת + .ק.ש.
סך כל התצפיות
דוגמא :מבחן קבלה לעבודה
n=16
n=24
) )
"הצלחה"
קבלה תקפה
))True Positive
נקודת חתך
בקריטריון
קבלה שגויה
)(False Positive
n=32
n=8
))+
"עבר"
73
))-
"נדחה"
נקודת חתך
במבחן
))X
"כשלון"
קבלת החלטות
(תרגול)
מהו התוקף המוסף של המבחן?
1חישוב שיעור בסיס ק.ת + .ד.ש.
סך כל התצפיות
דוגמא :מבחן קבלה לעבודה
n=16
n=24
) )
"הצלחה"
נקודת חתך
בקריטריון
.2חישוב יחס ברירה ק.ת + .ק.ש.
סך כל התצפיות
.3חישוב התוקף המוסף
טבלאות טיילור ראסל
n=32
n=8
))+
"עבר"
74
))-
"נדחה"
נקודת חתך
במבחן
))X
"כשלון"
קבלת החלטות
(תרגול)
75
טבלת טיילור-ראסל המציגה את הפרופורציה הצפויה של הצלחות לשיעור בסיס 0.50
יחס ברירה
תוקף
0.05
0.10
0.20
0.30
0.40
0.50
0.60
0.70
0.80
0.90
0.00
0.50
0.50
0.50
0.50
0.50
0.50
0.50
0.50
0.50
0.50
0.10
0.54
0.54
0.53
0.52
0.52
0.51
0.51
0.51
0.51
0.50
0.20
0.67
0.64
0.61
0.59
0.58
0.56
0.55
0.53
0.53
0.52
0.30
0.74
0.71
0.67
0.64
0.62
0.60
0.58
0.56
0.54
0.52
0.40
0.82
0.78
0.73
0.69
0.66
0.63
0.61
0.58
0.56
0.53
0.50
0.88
0.84
0.78
0.74
0.70
0.67
0.63
0.60
0.57
0.54
0.60
0.94
0.90
0.84
0.79
0.75
0.70
0.66
0.62
0.59
0.54
0.70
0.98
0.95
0.90
0.85
0.80
0.75
0.70
0.65
0.60
0.55
0.80
1.00
0.99
0.95
0.90
0.85
0.80
0.73
0.67
0.61
0.55
0.90
1.00
1.00
0.99
0.97
0.92
0.86
0.78
0.70
0.62
0.56
1.00
1.00
1.00
1.00
1.00
1.00
1.00
0.83
0.71
0.63
0.56
נתון :תוקף מבחן הקבלה לעבודה 0.3
התוקף המוסף של מבחן הקבלה לעבודה הוא ,0.12או .12%
קבלת החלטות
כיצד ניתן לצמצם את הסיכוי
לקבלה שגויה?
(תרגול)
דוגמא :מבחן קבלה לעבודה
n=24
n=16
n=8
n=32
) )
"הצלחה"
נקודת חתך
בקריטריון
))+
"עבר"
76
))-
"נדחה"
נקודת חתך
במבחן
))X
"כשלון"
קבלת החלטות
(תרגול)
כיצד ניתן לצמצם את הסיכוי לקבלה
שגויה?
דוגמא :מבחן קבלה לעבודה
n=21
n=24
n=19
n=16
n=4
n=8
n=36
n=32
) )
"הצלחה"
נקודת חתך
בקריטריון
))-
"נדחה"
))+
"עבר"
נקודת חתך
במבחן
))X
"כשלון"
קבלת החלטות
מה ההשלכות של שינוי זה?
(תרגול)
דוגמא :מבחן קבלה לעבודה
n=21
n=19
n=4
n=36
) )
"הצלחה"
נקודת חתך
בקריטריון
))-
"נדחה"
))+
"עבר"
נקודת חתך
במבחן
))X
"כשלון"
קבלת החלטות
(תרגול)
79
דוגמא :פוליגרף ))N=80
הסתברות
אומדן
תועלת
True Positive
0.275
+0.3
0.0825
False Positive
0.325
-1
-0.325
True Negative
0.375
+0.3
0.1125
False Negative
0.025
-0.2
-0.005
עלות המבחן
-0.01
EU
-0.145
n=2
n=22
T.P.
F.N.
"אשם"
נקודת חתך
בקריטריון
T.N.
F.P.
n=30
n=26
"נמצא דובר אמת"
"נמצא דובר שקר"
נקודת חתך
במבחן
"חף מפשע"
קבלת החלטות
(תרגול)
80
דוגמא :פוליגרף ))N=80
הסתברות
אומדן
תועלת
True Positive
0
+0.3
0
False Positive
0
-1
0
True Negative
0.7
+0.3
0.21
False Negative
0.3
-0.2
-0.06
עלות המבחן
-0.01
EU
0.14
n=2+22+24
F.N.
"אשם"
נקודת חתך
בקריטריון
T.N.
n=30+26=56
"נמצא דובר אמת"
"חף מפשע"