Transcript Slide 13-2

Κεφάλαιο 13
Ανάλυση
Πολλαπλής
Παλινδρόμησης
© 2002 Thomson / South-Western
Slide 13-1
Στόχοι Μαθήματος
• Ανάπτυξη ενός πολλαπλού μοντέλου
παλινδρόμησης.
• Κατανόηση και εφαρμογή τεχνικών οι οποίες
μπορούν να χησιμοποιηθούν για να
καθορισθεί πόσο καλά ταιριάζει ένα μοντέλο
παλινδρόμησης στα δεδομένα.
• Ανάλυση και ερμηνεία μη γραμμικών
μεταβλητών και πώς χρησιμοποιούνται αυτές
στη πολλαπλή ανάλυση παλινδρόμησης.
• Κατανόηση του ρόλου ποιοτικών μεταβλητών
και πώς χρησιμοποιούνται αυτές στη
πολλαπλή ανάλυση παλινδρόμησης.
• Κατασκευή και εκτίμηση των μοντέλων
πολλαπλής
παλινδρόμησης.
© 2002 Thomson / South-Western
Slide 13-2
Το Πολλαπλό Μοντέλο
Παλινδρόμησης
• Πολλαπλή Παλινδρόμηση είναι η
ανάλυση παλινδρόμησης με μια
εξαρτημένη μεταβλητή και δυο ή
περισσότερες ανεξάρτητες μεταβλητές,
ή τουλάχιστον μια μη γραμμική
ανεξάρτητη μεταβλητή.
• Η Εξαρτημένη Μεταβλητή είναι η
μεταβλητή την οποία ο αναλυτής της
επιχείρησης επιχειρεί να προβλέψει.
© 2002 Thomson / South-Western
Slide 13-3
Μοντέλα Παλινδρόμησης
 Πιθανοθεωρητικό Μοντέλο Πολλαπλής Παλινδρόμησης
Y = b0 + b1X1 + b2X2 + b3X3 + . . . + bkXk+ 
Y = η τιμή της εξαρτημένης μεταβλητής
b0 = η σταθερά της παλινδρόμησης
b1 = ο συντελεστής ευαισθησίας της πρώτης ανεξάρτητης
μεταβλητής
b2 = ο συντελεστής ευαισθησίας της δεύτερης ανεξάρτητης
μεταβλητής
bk = ο συντελεστής ευαισθησίας της κ-ανεξάρτητης μεταβλητής
k = ο αριθμός των ανεξάρτητων μεταβλητών
 = το σφάλμα της πρόβλεψης
© 2002 Thomson / South-Western
Slide 13-4
Εκτιμημένο Μοντέλο
Παλινδρόμησης
Y  b0  b1 X 1  b2 X 2  b3 X 3  .....  bk X k
ό : Yˆ   ί  ή   Y
b0   ί     ά    ό 
b1   ί      ή 1   ό 
b2   ί      ή 2    ό 
b3   ί      ή 3    ό 
bk   ί      ή k    ό 
k   ό   ά     ώ
© 2002 Thomson / South-Western
Slide 13-5
Πολλαπλό Μοντέλο Παλινδρόμησης με δυο
Ανεξάρτητες Μεταβλητές (Πρώτης-τάξης)
Μοντέλο
Πληθυσμού
   X   X 
ό :  =   ά    ό 
     ή  ί   ά     ή 1
     ή  ί   ά     ή 2
Y 
0
1
1
2
2
0
1
2
 =   ά  ό 
Yˆ 
b b X b X
0
1
1
2
2
ό : Yˆ    ό   ή   Y
Εκτιμημένο
Μοντέλο
b    ί     ά   ό 
b    ί     ή  ί 1  ό 
b    ί     ή  ί 2    ό 
0
1
2
© 2002 Thomson / South-Western
Slide 13-6
Επίπεδο αντίδρασης για ένα μοντέλο
πολλαπλής παλινδρόμησης πρώτης
τάξης, δυο ανεξάρτητων μεταβλητών
Y
Σταθερά
Y1

Επίπεδο
αντίδρασης
X2
© 2002 Thomson / South-Western
X1
Slide 13-7
Εξισώσεις Ελαχίστων Τετραγώνων
για k = 2
Η ανάλυση ελαχίστων τετραγώνων αποτελεί μια
διαδικασία κατά την οποία αναπτύσσεται ένα
μοντέλο παλινδρόμησης το οποίο βασίζεται σε
υπολογιστικές τεχνικές και με απώτερο σκοπό την
δημιουργία ενός ελαχίστου αθροίσματος των
τετραγώνων των καταλοίπων.
b n  b  X  b  X  Y
b  X b  X b  X X   X Y
b  X b  X X b  X   X Y
0
1
1
2
2
2
0
1
1
1
2
1
2
1
2
0
2
© 2002 Thomson / South-Western
1
1
2
2
2
2
Slide 13-8
Δεδομένα Αγοράς Ακινήτων
Παρατήρηση
1
2
3
4
5
6
7
8
9
10
11
12
Αγοραία
Τιμή
($1,000)
Y
63.0
65.1
69.9
7
76.8
73.9
77.9
74.9
78.0
79.0
63.4
79.5
83.9
Εμβαδό
X1
1,605
2,489
1,553
2,404
1,884
1,558
1,748
3,105
1,682
2,470
1,820
2,143
© 2002 Thomson / South-Western
Ηλικία
(Έτη)
X2
35
45
20
32
25
14
8
10
28
30
2
6
Αγοραία
Τιμή
($1,000)
Παρατήρηση
Y
13
79.7
14
84.5
15
96.0
16
109.5
17
102.5
18
121.0
19
104.9
20
128.0
21
129.0
22
117.9
23
140.0
Εμβαδό
Ηλικία
(Έτη)
X1
2,121
2,485
2,300
2,714
2,463
3,076
3,048
3,267
3,069
4,765
4,540
Slide 13-9
X2
14
9
19
4
5
7
3
6
10
11
8
Πρόβλεψη της τιμής ενός ακινήτου
Yˆ  57.351  0.0177 X 1  0.663 X 2
For
and X 2  12,
Για X 1  2500 και
Yˆ  57.351  0.0177  2500   0.663 12 
Χιλιάδες dollars
δολλάρια
 93.605 thousand
© 2002 Thomson / South-Western
Slide 13-10
Αξιολόγηση του μοντέλου
πολλαπλής παλινδρόμησης
H0 :
  
1
2

3

k
0
Ha : ά  έ ό    έ   ό ί  0

H :
H 0:
a

H :
H 0:
a
1
0
0
1

H :
H 0:
a

 0 H 0:
2
2
0

H :
a
© 2002 Thomson / South-Western
3
0
0
3
k
k
Συνολικός
έλεγχος
του
μοντέλου
0
Έλεγχος
σημαντικότητας
μεμονωμένων
συντελεστών
της παλινδρόμησης
0
Slide 13-11
Έλεγχος του μοντέλου συνολικά για
το παράδειγμα της αγοράς των
ακινήτων
H0 :
 
1
2
0
Ha : ά  έ ό    έ ό ί  0
SSR
MSR 
k
SSE
MSR
MSE 
F
n  k 1
MSE
F
F
.01, 2, 20
Cal
 5.85
 28.63  5.85,  ί   H0.
ANOVA
Regression
Residual (Error)
Total
df
SS
MS
2 8189.723 4094.862
20 2861.017
143.051
22 11050.740
© 2002 Thomson / South-Western
F
28.63
p
.0000014
Slide 13-12
H 0:  1  0
Ha:  1  0
H 0:  2  0
Ha:  2  0
t.025,20 = 2.086
tCal = 5.63 > 2.086, απορρίπτουμε την
H0.
Coefficients Std Dev
x1 (Sq.Feet)
x2 (Age)
Έλεγχος
σημαντικότητας των
συντελεστών
παλινδρόμησης για
το παράδειγμα της
αγοράς ακινήτων
0.0177
-0.666
© 2002 Thomson / South-Western
0.003146
0.2280
t Stat
5.63
-2.92
p
.000016
.008418
Slide 13-13
Κατάλοιπα
• Το κατάλοιπο είναι η διαφορά μεταξύ
της πραγματικής τιμής Υ της
εξαρτημένης μεταβλητής και της τιμής
της Y που προκύπτει από το μοντέλο
(προβλεφθείσα τιμή).
• Είναι το σφάλμα που διαπράττουμε
στην πρόβλεψη της εξαρτημένης
μεταβλητής μέσω του μοντέλου
παλινδρόμησης.
© 2002 Thomson / South-Western
Slide 13-14
SSE και τυπικό σφάλμα εκτίμησης
της παλινδρόμησης
ANOVA
Regression
Residual (Error)
Total
df
SS
2 8189.7
20 2861.0
22 11050.7
MS
4094.9
143.1
F
28.63
P
.000
SSE
S
e

SSE
n  k 1
2861
23  2  1
 11.96
ό : n =  ό     ή
k =  ό   ά     ώ

© 2002 Thomson / South-Western
Slide 13-15
Συντελεστής προσδιορισμού πολλαπλής
παλινδρόμησης (R2)
SSYY
ANOVA
Regression
Residual (Error)
Total
SSR
SSE
df
SS
2 8189.7
20 2861.0
22 11050.7
MS
4094.89
143.1
F
28.63
p
.000
SSR 8189.723
R  SSY  11050.74 .741
SSE
2861.017
2
R  1  SSY  1  11050.74 .741
2
© 2002 Thomson / South-Western
Slide 13-16
Προσαρμοσμένος συντελεστής R2
n-1
n-k-1
ANOVA
Regression
Residual (Error)
Total
SSE
df
SS
MS
2 8189.723 4094.862
20 2861.017 143.051
22 11050.740
F
28.63
SSYY
p
.0000014
SSE
2861017
.
2
adj. R  1  n  k  1  1  23  2  1  1.285 .715
SSY
11050.74
n 1
23  1
© 2002 Thomson / South-Western
Slide 13-17
Ψευδομεταβλητές (Δηκτικές
μεταβλητές)
• Ποιοτικές (Δηκτικές ή ψευδομεταβλητές)
• Ο αριθμός των ψευδομεταβλητών που
απαιτούνται για την ενσωμάτωση μιας
ποιοτικής μεταβλητής στην ανάλυση είναι ο
αριθμός των κατηγοριών μειωμένος κατά μια.
• Για δυαδικές μεταβλητές όπως για παράδειγμα
το φύλο χρειαζόμαστε μια ψευδομεταβλητή.
Υπάρχουν δυο κατηγορίες (θήλυ, άρρεν): c =
1; c - 1 = 0.
• Σε ποια περιοχή της χώρας βρίσκεται το
γραφείο σας?
___Βορειοανατολικά___
Mεσοδυτικά___Νότια___Δυτικά
Αριθμός
© 2002 Thomson / South-Western
Slide 13-18
ψευδομεταβλητών = c - 1 = 4 - 1 = 3
Δεδομένα για το παράδειγμα μηνιαίου
μισθού
Παρατήρηση
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
© 2002 Thomson / South-Western
Μηνιαίος
Μισθός
($1000)
1.548
1.629
1.011
1.229
1.746
1.528
1.018
1.190
1.551
0.985
1.610
1.432
1.215
0.990
1.585
Ηλικία
(10 Έτη)
3.2
3.8
2.7
3.4
3.6
4.1
3.8
3.4
3.3
3.2
3.5
2.9
3.3
2.8
3.5
Φύλο (1=Άρρεν,
0=Θήλυ)
1
1
0
0
1
1
0
0
1
0
1
1
0
0
1
Slide 13-19
Αποτέλεσμα εκτίμησης γραμμής
παλινδρόμησης: Παράδειγμα
Μηνιαίου Μισθού
Η εξίσωση παλινδρόμησης είναι:
Μισθός = 0.732 + 0.111 Ηλικία+ 0.459 Φύλο
Μεταβλητή Coef
Σταθερά
0.7321
Ηλικία
0.11122
Φύλο
0.45868
S = 0.09679
StDev
0.2356
0.07208
0.05346
R-Sq = 89.0%
T
P
3.11 0.009
1.54 0.149
8.58 0.000
R-Sq(adj) = 87.2%
Analysis of Variance
Source
Regression
Error
Total
© 2002 Thomson / South-Western
DF
2
12
14
SS
0.90949
0.11242
1.02191
MS
F
P
0.45474 48.54 0.000
0.00937
Slide 13-20
Γραφική απεικόνιση μοντέλου
παλινδρόμησης
Ξεχωριστή απεικόνιση ανδρών & γυναικών
1.800
1.600
Άντρες
1.400
1.200
Γυναίκες
1.000
0.800
0
2
© 2002 Thomson / South-Western
3
4
Slide 13-21
Σύνθετα
Μοντέλα Παλινδρόμησης
Y   0  1 X 1   2 X 2  
Πρώτης τάξης με δυο ανεξάρτητες μεταβλητές
Y   0  1 X 1   2 X 1  
Δεύτερης τάξης με μια ανεξάρτητη μεταβλητή
2
Y   0  1 X 1   2 X 2   3 X 1 X 2  
Δεύτερης τάξης με όρο
αλληλεπίδρασης
Y   0  1 X 1   2 X 2   3 X 1   4 X 2   5 X 1 X 2  
2
© 2002 Thomson / South-Western
2
Δεύτερης τάξης με
δυο ανεξάρτητες
μεταβλητές
Slide 13-22
Παράδειγμα: Δεδομένα πωλήσεων
και διάγραμμα διασποράς για 13
βιομηχανικές εταιρείες
Αριθμός
Πωλήσεις
Κατασκευαστής ($1,000,000) Αντιπροσώπων
1
2.1
2
2
3.6
1
3
6.2
2
4
10.4
3
5
22.8
4
6
35.6
4
7
57.1
5
8
83.5
5
9
109.4
6
10
128.6
7
11
196.8
8
12
280.0
10
13
462.3
11
© 2002 Thomson / South-Western
500
450
400
350
300
250
Πωλήσεις
200
150
100
50
0
0
2
4
6
8
10
Αριθμός αντιπροσώπων
Slide 13-23
12
Αποτέλεσμα απλής
παλινδρόμησης στο
Excel για το
παράδειγμα με τις
βιομηχανικές
εταιρείες
Coefficients Standard Error
Σταθερά
-107.03
28.737
Αριθμ. Αντιπρ.41.026
4.779
Regression Statistics
Multiple R
0.933
R Square
0.870
Adjusted R Square
0.858
Standard Error
51.10
Observations
t Stat
-3.72
8.58
13
P-value
0.003
0.000
ANOVA
df
Regression
Residual
Total
1
11
12
© 2002 Thomson / South-Western
SS
192395
28721
221117
MS
192395
2611
F
73.69
Significance F
0.000
Slide 13-24
Δεδομένα παραδείγματος
βιομηχανικών εταιρειών με μια νέα
μεταβλητή
Πωλήσεις
Κατασκευαστής ($1,000,000)
1
2.1
2
3.6
3
6.2
4
10.4
5
22.8
6
35.6
7
57.1
8
83.5
9
109.4
10
128.6
11
196.8
12
280.0
13
462.3
© 2002 Thomson / South-Western
Number of
Mgfr Reps
X1
2
1
2
3
4
4
5
5
6
7
8
10
11
(No. Mgfr Reps)2
X2 = (X1)2
4
1
4
9
16
16
25
25
36
49
64
100
121
Slide 13-25
Διάγραμμα διασποράς των αρχικών
και των μετασχηματισμένων
δεδομένων
Πωλήσεις
500
450
400
350
300
Πωλήσεις
250
200
150
100
50
0
0
2
4
6
8
Άριθμός αντιπροσώπων
© 2002 Thomson / South-Western
10
12
500
450
400
350
300
250
200
150
100
50
0
0
50
100
150
Αριθμός αντιπροσώπων ^2
Slide 13-26
Χρήση του
δευτεροβάθμιου μοντέλου
μέσω του Excel για την
πρόβλεψη των
πωλήσεων
Intercept
MfgrRp
MfgrRpSq
Regression Statistics
Multiple R
0.986
R Square
0.973
Adjusted R Square 0.967
Standard Error
24.593
Observations
13
Coefficients Standard Error
18.067
24.673
-15.723
9.5450
4.750
0.776
t Stat
0.73
- 1.65
6.12
P-value
0.481
0.131
0.000
ANOVA
df
Regression
Residual
Total
2
10
12
© 2002 Thomson / South-Western
SS
215069
6048
221117
MS
107534
605
F
177.79
Significance F
0.000
Slide 13-27
Παράδειγμα
Μοντέλου
παλινδρόμησης
με όρο
αλληλεπίδρασης:
Τιμές τριών
μετοχών για μια
περίοδο 15
μηνών
© 2002 Thomson / South-Western
Μετοχή 1 Μετοχή 2 Μετοχή 3
41
36
35
39
36
35
38
38
32
45
51
41
41
52
39
43
55
55
47
57
52
49
58
54
41
62
65
35
70
77
36
72
75
39
74
74
33
83
81
28
101
92
31
107
91
Slide 13-28
Μοντέλα παλινδρόμησης για τις τρεις
μετοχές
Y
  X  X
0
1
1
2
2

Πρώτης τάξης με δυο
ανεξάρτητες μεταβλητές
ό : Y =  ή    ή 1
X   ή    ή 2
X   ή    ή 3
1
2
  X  X  X X
Y     X   X   X 
Y
0
1
1
2
2
3
1
0
1
1
2
2
3
3
2

Δεύτερης τάξης με
όρο αλληλεπίδρασης
ό : Y =  ή    ή 1
X   ή    ή 2
X   ή    ή 3
X X X
1
2
3
1
2
© 2002 Thomson / South-Western
Slide 13-29
Παλινδρόμηση για τις τρεις μετοχές:
Δυο ανεξάρτητες μεταβλητές , απουσία
αλληλεπίδρασης
Η εξίσωση της παλινδρόμησης είναι
Μετοχή 1 = 50.9 - 0.119 Μετοχή 2 - 0.071 Μετοχή 3
Μεταβλητή
Coef
Σταθερά
50.855
Μετοχή 2
-0.1190
Μετοχή 3
-0.0708
S = 4.570
StDev
T
P
3.791 13.41 0.000
0.1931
-0.62 0.549
0.1990
-0.36 0.728
R-Sq = 47.2%
R-Sq(adj) = 38.4%
Analysis of Variance
Source
Regression
Error
Total
DF
2
12
14
© 2002 Thomson / South-Western
SS
224.29
250.64
474.93
MS
112.15
20.89
F Sig. F
5.37 0.022
Slide 13-30
Παλινδρόμηση για τις τρεις μετοχές
με αλληλεπίδραση
Η εξίσωση της παλινδρόμησης είναι
Μετοχή 1 = 12.0 - 0.879 Μετοχή 2 - 0.220 Μετοχή 3 –
0.00998 Αλληλ.
Μεταβλητή
Coef
StDev
T
P
Σταθερά
12.046
9.312
1.29 0.222
Μετοχή 2
0.8788
0.2619
3.36 0.006
Μετοχή 3
0.2205 0.1435
1.54 0.153
Αλληλ.
-0.009985 0.002314 -4.31 0.001
S = 2.909
R-Sq = 80.4%
R-Sq(adj) = 25.1%
Analysis of Variance
Source
DF
SS
Regression
3
381.85
Error
11
93.09
© 2002 Thomson / South-Western
Total
14
474.93
MS
127.28
8.46
F Sig. F
15.04 0.000
Slide 13-31
Μη γραμμικά μοντέλα
παλινδρόμησης :
Μετασχημτισμός μοντέλου
Y   
Yˆ  b b lo gb
Yˆ  b  b X
ό : ˆ  lo gYˆ
Y
b  lo gb
b  lo gb
X
0
1
X
0
'
1
1
'
'
0
1
'
'
© 2002 Thomson / South-Western
0
'
0
1
1
Slide 13-32
Δεδομένα για παράδειγμα
μετασχηματισμού μοντέλου
ΑΡΧΙΚΑ ΔΕΔΟΜΕΝΑ
Εταιρεία
1
2
3
4
5
6
7
Y
2580
11942
9845
27800
18926
4800
14550
X
1.2
2.6
2.2
3.2
2.9
1.5
2.7
ΜΕΤΑΣΧΗΜΑΤΙΣΜΕΝΑ ΔΕΔΟΜΕΝΑ
Εταιρεία
1
2
3
4
5
6
7
LOG Y
3.41162
4.077077
3.993216
4.444045
4.277059
3.681241
4.162863
X
1.2
2.6
2.2
3.2
2.9
1.5
2.7
Y = Πωλήσεις ($ million/έτος)X = Διαφήμιση ($ million/έτος)
© 2002 Thomson / South-Western
Slide 13-33
Regression Statistics
Multiple R
0.990
R Square
0.980
Adjusted R Square
0.977
Standard Error
0.054
Observations
7
Αποτέλεσμα
Εκτίμησης Γραμμής
Παλινδρόμησης για το
παράδειγμα
μετασχηματισμού
μοντέλου
Coefficients Standard Error
2.9003
0.0729
0.4751
0.0300
Intercept
X
t Stat
39.80
15.82
P-value
0.000
0.000
ANOVA
df
Regression
Residual
Total
1
5
6
SS
0.7392
0.0148
0.7540
© 2002 Thomson / South-Western
MS
0.7392
0.0030
F
250.36
Significance F
0.000
Slide 13-34
Προβλέψεις με την χρήση του
μετασχηματισμένου μοντέλου
X
Yˆ  b 0b1
log Yˆ  log b 0  X log b1
 2.900364  X  0.475127 
For X=2,
log Yˆ  2.900364   2  0.475127 
 3.850618
Yˆ  antilog(log Yˆ )
 antilog(3.850618)
 7087.61
© 2002 Thomson / South-Western
Slide 13-35
Προβλέψεις με την χρήση του
μετασχηματισμένου μοντέλου
X
Yˆ  b 0b1
log Yˆ  log b 0  X log b1
 2.900364  X  0.475127 
log b 0  2.900364
0
 antilog(2.900364)  794.99427
1
 0.475127
1
 antilog(0.475127)  2.986256
b
log b
b
For X =2,
Yˆ   794.99427   2.986256 
2
 7089.5
© 2002 Thomson / South-Western
Slide 13-36
Κατασκευή μοντέλου: Διαδικασία
αναζήτησης
• Όλα τα είδη παλινδρόμησης
• Από το συγκεκριμένο στο γενικότερο
(Forward Selection).Διαδοχικές
προσθήκες μεταβλητών που
προσθέτουν ερμηνευτική ικανότητα.
• Από το γενικότερο μοντέλο στο πιο
συγκεκριμένο (Backward elimination).
Διαδοχική αφαίρεση μεταβλητών που
δεν προσθέτουν ερμηνευτική
ικανότητα.
• Παλινδρόμηση σε στάδια (StepwiseSlide 13-37
Regression)
© 2002 Thomson / South-Western
Δεδομένα πολλαπλής
παλινδρόμησης για την
πρόβλεψη της παγκόσμιας
παραγωγής αργού
πετρελαίου
Παγκόσμια
παραγωγή
αργού
πετερελαίου
X1
Κατανάλωση
ενέργειας ΗΠΑ
X2
Παραγωγή
πυρηνικής
ενέργειας ΗΠΑ
X3
Παραγωγή
άνθρακα ΗΠΑ
X4
Ποσοστό
καυσίμων για
© 2002 Thomson / South-Western
αυτοκίνητα
ΗΠΑ
Y
Y
55.7
55.7
52.8
57.3
59.7
60.2
62.7
59.6
56.1
53.5
53.3
54.5
54.0
56.2
56.7
58.7
59.9
60.6
60.2
60.2
60.6
60.9
X1
74.3
72.5
70.5
74.4
76.3
78.1
78.9
76.0
74.0
70.8
70.5
74.1
74.0
74.3
76.9
80.2
81.3
81.3
81.1
82.1
83.9
85.6
X2
X3
83.5 598.6
114.0 610.0
172.5 654.6
191.1 684.9
250.9 697.2
276.4 670.2
255.2 781.1
251.1 829.7
272.7 823.8
282.8 838.1
293.7 782.1
327.6 895.9
383.7 883.6
414.0 890.3
455.3 918.8
527.0 950.3
529.4 980.7
576.9 1029.1
612.6 996.0
618.8 997.5
610.3 945.4
640.4 1033.5
X4
13.30
13.42
13.52
13.53
13.80
14.04
14.41
15.46
15.94
16.65
17.14
17.83
18.20
18.27
19.20
19.87
20.31
21.02
21.69
21.68
21.04
21.48
Slide 13-38
Παράδειγμα: Όλα τα είδη
παλινδρόμησης με 4 ανεξάρτητες
μεταβλητές
Single
Predictor
X1
X2
X3
X4
Two
Predictors
X 1, X 2
X 1, X 3
X 1, X 4
X 2, X 3
X 2, X 4
X 3, X 4
© 2002 Thomson / South-Western
Three
Predictors
X 1, X 2, X 3
X 1, X 2, X 4
X 1, X 3, X 4
X 2, X 3, X 4
Four
Predictors
X 1, X 2, X 3, X 4
Slide 13-39
Forward Selection
Η μέθοδος μοιάζει με αυτή της
παλινδρόμησης σε στάδια με
την διαφορά ότι οι μεταβλητές
δεν επαναξιολογούνται αφού
συμπεριληφθούν στο μοντέλο.
© 2002 Thomson / South-Western
Slide 13-40
Backward Elimination
• Ξεκινάμε με το ‘πλήρες’ μοντέλο (και οι
k ανεξάρτητες μεταβλητές)
• Εάν όλες οι ανεξάρτητες μεταβλητές
είναι σημαντικές, τότε σταματάμε εκεί.
• Σε διαφορετική περίπτωση αφαιρούμε
τις μη σημαντικές μεταβλητές και
επιστρέφουμε στο προηγούμενο βήμα.
© 2002 Thomson / South-Western
Slide 13-41
Παλινδρόμηση σε στάδια
(Stepwise Regression)
• Εκτελούμε k τον αριθμό απλές
παλινδρομήσεις και επιλέγουμε το
καλύτερο μοντέλο ως το αρχικό μας
μοντέλο.
• Αξιολογούμε κάθε μεταβλητή που
δεν περιλαμβάνεται στο μοντέλο
– Εάν καμμία από τις μεταβλητές δεν
ικανοποιεί το κριτήριο, σταματάμε.
– Προσθέτουμε την καλύτερη μεταβλητή
στο μοντέλο,αξιολογούμε τις
υπάρχουσες μεταβλητές και αφαιρούμε
οποιαδήποτε
είναι ασήμαντη.
© 2002 Thomson
/ South-Western
Slide 13-42
Επιστροφή στο προηγούμενο βήμα
Πολυσυγγραμμικότητα
Παρατηρείται όταν δυο ή περισσότερες
ανεξάρτητες μεταβλητές συσχετίζονται
μεταξύ τους.
– Δυσκολία στην ερμηνεία των εκτιμήσεων
των συντελεστών της παλινδρόμησης.
– Μπορεί να οδηγήσει σε υπερβολικά μικρές
τιμές του στατιστικού t για τους συντελεστές
της παλινδρόμησης.
– Μπορεί να οδηγήσει σε υπερκτίμηση των
τυπικών σφαλμάτων εκτίμησης των
συντελεστών.
– Το πρόσημο των εκτιμηθέντων
συντελεστών μπορεί να είναι αντίθετο από
© 2002 Thomson / South-Western
Slide 13-43
το αναμενόμενο.