To τυπικό σφάλμα της παλινδρόμησης

Download Report

Transcript To τυπικό σφάλμα της παλινδρόμησης

Άλλες Στατιστικές Παλινδρόμησης
Εύλογο ερώτημα αποτελεί το πόσο καλά η (εκτιμημένη) γραμμή
παλινδρόμησης εξηγεί (εφαρμόζει) τα στοιχεία του δείγματος.
Υπάρχουν δύο στατιστικές παλινδρόμησης, που παρέχουν
συμπληρωματικά μέτρα της ποιότητας εφαρμογής της γραμμής
παλινδρόμησης.
• Ο Συντελεστής Προσδιορισμού, R2 (regression R2), μετρά το
ποσοστό της διακύμανσης του Υ που εξηγείται από το Χ. Δεν έχει
μονάδα μέτρησης και το εύρος τιμών του είναι μεταξύ 0 (καθόλου
εφαρμογή) και 1 (τέλεια εφαρμογή).
• Το Τυπικό Σφάλμα της Παλινδρόμησης ( Standard Error of
Regression) μετρά και αυτό την ποιότητα της εφαρμογής, αλλά σε
μονάδες μέτρησης του Υ.
1
Ο Συντελεστής Προσδιορισμού, R2 :
Οι παρατηρούμενες τιμές του Υ, Yi , μπορούν να γραφούν ως το
άθροισμα των προβλεπόμενων τιμών από την εκτίμηση OLS και
των καταλοίπων από την εκτίμηση ΟLS:
To R2 είναι το ποσοστό της δειγματικής διακύμανσης του Yi που
εξηγείται από την παλινδρόμηση, δηλαδή από το
όπου
και
2
όπου
και
Ο συντελεστής R2 :
• R2 = 0 σημαίνει ΕSS = 0, επομένως η ερμηνευτική μεταβλητή Χ
εξηγεί μηδενικό ποσοστό της διακύμανσης του Υ.
• R2 = 1 σημαίνει ESS =TSS, επομένως
και η Χ εξηγεί όλη
τη διακύμανση της Υ.
•
• Στην περίπτωση της παλινδρόμησης με μία ερμηνευτική
μεταβλητή (η περίπτωση εδώ), το R2 ισούται με το τετράγωνο του
συντελεστή συσχέτισης μεταξύ Χ και Υ.
3
Το Τυπικό Σφάλμα της Παλινδρόμησης
The Standard Error of the Regression (SER)
H δεύτερη ισότητα ισχύει, λόγω του ότι:
4
To τυπικό σφάλμα της παλινδρόμησης (SER) :
• μετράται σε μονάδες του u που είναι ίδιες με τις μονάδες
μέτρησης του Y
• μετρά το εύρος/διασπορά της κατανομής του u
• μετρά το μέσο «μέγεθος» των καταλοίπων από OLS (το μέσο
«λάθος» της εκτιμημένης με OLS γραμμής παλινδρόμησης)
• Η Ρίζα του Μέσου Τετραγώνου του Σφάλματος (Root Mean
Squared Error – RMSE) συνδέεται άμεσα με το τυπικό σφάλμα
της παλινδρόμησης:
Mετρά το ίδιο πράγμα με το “SER” . Η μόνη διαφορά των δύο
είναι η διαίρεση με n αντί για (n-2).
5
Σημείωση τεχνικής φύσεως: Γιατί διαιρούμε με n-2 αντί για n-1;
• H διαίρεση με n-2 αποτελεί μια διόρθωση, ώστε να συμπεριληφθούν
και οι «βαθμοί ελευθερίας», έχουν εκτιμηθεί δύο παράμετροι
(
και
) , από τα ( και )
Όταν το n είναι μεγάλο, η διαφορά μεταξύ n και n-2 είναι αμελητέα.
Πάντως, ο συνήθης τύπος χρησιμοποιεί το n-2, όταν υπάρχει
μία ερμηνευτική μεταβλητή στο υπόδειγμα.
6
Παράδειγμα του R2 και του “SER”
Βαθμός Εξετάσεων = 698.9 - 2.28 ΛΜΔ,
(10.4) (0.52)
O συντελεστής της κλίσης είναι στατιστικά σημαντικός και μεγάλος,
από οικονομική σκοπιά, παρ’όλο που ο ΛΜΔ εξηγεί ένα μικρό
7
ποσοστό της μεταβλητικότητας των βαθμών στις εξετάσεις
Σημείωση Πρακτικής Φύσεως: Ετεροσκεδαστικότητα,
Ομοσκεδαστικότητα και ο Τύπος για το Τυπικό Σφάλμα των
και
• Τί σημαίνουν οι δύο νέοι όροι;
• Συνέπειες της ομοσκεδαστικότητας
• Επίπτωση στον υπολογισμό των τυπικών σφαλμάτων
Τί σημαίνουν οι δύο νέοι όροι;
Aν Var(u|X=x) σταθερά (αν η διακύμανση της υπό συνθήκη στο Χ
κατανομής του u δεν εξαρτάται από το x), τότε το u θεωρείται
ομοσκεδαστικό. Αλλιώς, το u θεωρείται ετεροσκεδαστικό.
8
Γραφική Απεικόνιση της Ομοσκεδαστικότητας :
• Ε(u|X=x)=0, δηλ. τo u ικανοποιεί την 1η Υπόθεση Ελαχίστων
Τετραγώ-νων).
9 x.
• Η διακύμανση του u δεν εξαρτάται από/δε μεταβάλλεται με το
Γραφική Απεικόνιση της Ετεροσκεδαστικότητας :
• Ε(u|X=x)=0 (To u ικανοποιεί την 1η Υπόθεση Ελαχίστων Τετραγώνων)
• Η διακύμανση του u εξαρτάται από/μεταβάλλεται με το x,
10
επομένως το u είναι ετεροσκεδαστικό.
Ένα παράδειγμα με πραγματικά στοιχεία των Οικονομικών της
Εργασίας: μέσος όρος ωρομισθίων και έτη εκπαίδευσης (πηγή
στοιχείων: 1999 Current Population Survey)
11
Υπάρχει ετεροσκεδαστικότητα στα στοιχεία
βαθμών εξετάσεων-μεγέθους τάξης;
Eίναι δύσκολο να εξαχθεί ένα ασφαλές συμπέρασμα. Στο
διάγραμμα διασποράς φαίνεται να υπάρχει ομοσκεδαστικότητα.
Παρ’ολ’αυτά, το εύρος των αποκλίσεων μπορεί να μειώνεται 12
όσο αυξάνονται οι τιμές του ΛΜΔ
Mέχρι στιγμής, δεν έχουμε υποθέσει ότι το σφάλμα u είναι
ομοσκεδαστικό:
Θυμηθείτε τις Τρεις Υποθέσεις Ελαχίστων Τετραγώνων:
1. H υπο συνθήκη στο X κατανομή του u, έχει μέσο μηδέν,
δηλαδή Ε(u|X=x)=0.
2. To ζεύγος
ανεξάρτητα και ιδανικά).
είναι i.i.d. (κατανέμεται
3. Τα Χ και u έχουν πεπερασμένες τέταρτες ροπές
Η παρουσία ή μη ετεροσκεδαστικότητας, αναφέρεται στην
διακύμανση: var(u|X=x). Επειδή δεν έγινε, στην ανάλυση,
ξεκάθαρη υπόθεση ομοσκεδαστικότητας, ουσιαστικά,
επιτρέψαμε ετεροσκεδαστικά σφάλματα.
13
Τί συμβαίνει αν τα σφάλματα είναι στην πραγματικότητα
ομοσκεδαστικά;
• Μπορούμε να αποδείξουμε κάποια θεωρήματα που
αναφέρονται στους εκτιμητές OLS (συγκεκριμένα, το θεώρημα
Gauss-Markov, όπου διατυπώνεται ότι ο εκτιμητής OLS έχει την
μικρότερη διακύμανση από κάθε άλλον εκτιμητή που είναι
γραμμική συνάρτηση του δείγματος,
)
• Ο τύπος για τη διακύμανση του
, όπως επίσης ο τύπος για
το τυπικό σφάλμα της OLS απλοποιούνται:
Aν
,
Σημ.: H διακύμανση
είναι αντιστρόφως ανάλογη της
διακύμανσης του X, var(X). Περισσότερη μεταβλητικότητα
στην Χ σημαίνει περισσότερη πληροφόρηση για τον εκτιμητή
14
Ο γενικός τύπος για το τυπικό σφάλμα του
τετραγωνική ρίζα της έκφρασης:
δίνεται από την
Eιδικά, υπό ομοσκεδαστικότητα:
Ο δεύτερος τύπος θεωρείται πιο απλός
15
Ο τύπος που δίνει το συνεπές τυπικό σφάλμα του
υπό
ομοσκεδαστικότητα διαφέρει από αυτόν υπό ετεροσκεδαστικότητα.
Γενικά, η χρήση των δύο διαφορετικών τύπων οδηγεί σε διαφορετικά
τυπικά σφάλματα.
Σχεδόν όλα τα λογισμικά πακέτα παλινδρομήσεων
έχουν ως προκαθορισμένη ρυθμιση (ή ως μόνη,
π.χ. Εxcel) την ομοσκεδαστικότητα. Για να λάβει
κανείς συνεπή στην ετεροσκεδαστικότητα τυπικά
σφάλματα (“heteroskedasticity-robust” ), θα
πρέπει να αλλάξει αυτή την προκαθορισμένη
ρύθμιση (default).
Αν αυτό δε ληφθεί υπ’όψη και υπάρχει ετεροσκεδαστικότητα,
τότε λαμβάνουμε εσφαλμένα τυπικά σφάλματα (και κατά
συνέπεια, εσφαλμένες στατιστικές t καθώς και διαστήματα
εμπιστοσύνης).
16
Τα κρίσιμα σημεία:
• Όταν τα σφάλματα είναι ομοσκεδαστικά, αλλά εμείς
χρησιμοποιήσουμε τον τύπο για τα τυπικά σφάλματα υπό
ετεροσκεδαστικότητα, δεν υπάρχει κανένα πρόβλημα
λάθους.
• Όταν τα σφάλματα είναι ετεροσκεδαστικά, αλλά εμείς
χρησιμοποιήσουμε τον τύπο για τα τυπικά σφάλματα υπό
ομοσκεδαστικότητα, τα αποτελέσματα (τυπικά σφάλματα)
είναι εσφαλμένα.
• Οι δύο τύποι συμπίπτουν (για n μεγάλο) στην ειδική
περίπτωση της ομοσκεδαστικότητας
• Τελικά: θα πρέπει πάντα να χρησιμοποιούμε για τις
εκτιμήσεις τύπους που λαμβάνουν υπόψη τους την ύπαρξη
ετεροσκεδαστικότητας (heteroskedasticity-based).
Αναφορικά με τα τυπικά σφάλματα οι τύποι αυτοί εξάγουν
–όπως συνηθίζεται να αποκαλούνται– “heteroskedasticityrobust standard errors”.
17
Τυπικά Σφάλματα “Heteroscedasticity Robust” στο STATA
Ενεργοποιήστε την επιλογή “, robust”!!!
18