Εισαγωγικές Έννοιες

Download Report

Transcript Εισαγωγικές Έννοιες

Κεφάλαιο 1
Εισαγωγικές Έννοιες
1.0. Εισαγωγή
Στατιστική είναι ένα σύνολο µεθόδων συλλογής και αναλύσεως
στατιστικών δεδοµένων µε σκοπό την εξαγωγή συµπερασµάτων που
αφορούν τα χαρακτηριστικά ενός πληθυσµού. Οι ρίζες της έχουν
ηλικία 6000 ετών περίπου. ∆ραστηριότητες όπως η συλλογή
δηµογραφικών στοιχείων και τα τυχερά παγχνίδια, όπου υπάρχει
αβεβαιότητα και συνεπώς ενδιαφέρον για τον υπολογισµό
πιθανοτήτων, άρχισαν να εµφανίζονται γύρω στο 3500 π.Χ. Ωστόσο,
η Στατιστική άρχισε να παίρνει τη γνωστή της µορφή στις αρχές του
17ου µ.Χ. αιώνα, προς το τέλος του οποίου άρχισε να εφαρµόζεται
και στα Οικονοµικά, όταν ο W. Petty δηµοσίευσε το έργο του µε τίτλο
Political Arithmetic.
1.1. Στατιστική µονάδα, πληθυσµός, δεδοµένα
Θεωρείστε το ακόλουθο παράδειγµα. Σε µία τάξη Στατιστικής 120
φοιτητών και φοιτητριών, την οποία παρακολουθούν όλοι, ο
διδάσκων ενδιαφέρεται να µάθει ποιό είναι το ποσοστό των φοιτητών
που έχουν στοιχειώδεις γνώσεις του προγράµµατος Excel. Ζητά,
λοιπόν, να σηκώσουν το χέρι τους όλοι όσοι έχουν στοιχειώδεις
γνώσεις Excel. Έστω ότι 40 από τους 120 σηκώνουν χέρι.
Στο παράδειγµα αυτό, ένας φοιτητής ή µία φοιτήτρια αποτελεί µία
στατιστική µονάδα (statistical unit)· το σύνολο των 120 φοιτητών
αποτελούν το στατιστικό πληθυσµό (statistical population)· ενώ οι 40
απαντήσεις «έχω γνώσεις Excel» και οι 80 «δεν έχω γνώσεις Excel»
αποτελούν τα στατιστικά δεδοµένα (statistical data).
Πιο γενικά, στατιστική µονάδα είναι η οντότητα, όπως µία
επιχείρηση, ένα πρόσωπο ή ένα πράγµα, απ’ όπου αντλούµε τα
στατιστικά δεδοµένα, δηλαδή τις πληροφορίες που χρειαζόµαστε για
να µελετήσουµε ένα ή περισσότερα χαρακτηριστικά του πληθυσµού,
ο οποίος αποτελείται από το σύνολο των στατιστικών µονάδων.
1
1.2. Χαρακτηριστικά των στατιστικών µονάδων
Στο παραπάνω παράδειγµα, οι στατιστικές µονάδες του πληθυσµού
έχουν όλες ένα κοινό χαρακτηριστικό, το οποίο τις επιτρέπει να
αποτελούν µέλη του πληθυσµού: είναι φοιτητές και φοιτήτριες της
τάξεως για την οποία γίνεται λόγος. Ως προς τα άλλα χαρακτηριστικά
τους, µπορεί φυσικά να διαφέρουν. Εδώ, το χαρακτηριστικό που
ενδιαφέρει τον ερευνητή είναι αν ένας φοιτητής ή φοιτήτρια έχει ή όχι
βασικές γνώσεις Excel. Επειδή αυτούς που δηλώνουν ότι έχουν
γνώσεις, δεν τους ρωτάει και πόσες, η µεταβλητή που µετράει το υπό
µελέτη χαρακτηριστικό είναι δίτιµη (binary variable), δηλαδή παίρνει
δύο µόνο τιµές, ας πούµε την τιµή 0 όταν ο φοιτητής δηλώνει ότι δεν
έχει βασικές γνώσεις Excel και την τιµή 1 όταν έχει.
Το παράδειγµα αυτό είναι παρόµοιο µ’ εκείνα όπου το ερευνώµενο
χαρακτηριστικό είναι το φύλο (άνδρας ή γυναίκα;), η ιδιότητα να
είναι κάποιος γονιός (έχει ή όχι τουλάχιστο ένα παιδί;), η γνώση µίας
συγκεκριµένης γλώσσας (ξέρει ή όχι Αγγλικά;) κ.λπ. Αυτού του
είδους τα χαρακτηριστικά ονοµάζονται ποιοτικά (qualitative
characteristics), γιατί είναι δύσκολο ή αδύνατο να µετρηθούν. Στις
περιπτώσεις αυτές, απλά ρωτάµε αν µία στατιστική µονάδα έχει ή όχι
µία συγκεκριµένη ιδιότητα, η οποία µας ενδιαφέρει. Αντίθετα, τα
χαρακτηριστικά που µπορούν εύκολα να µετρηθούν, όπως η ηλικία,
το ύψος, το εισόδηµα και ο αριθµός παιδιών, ονοµάζονται ποσοτικά
χαρακτηριστικά (quantitative characteristics).
1.3. Περιγραφική και Επαγωγική Στατιστική
Το παραπάνω παράδειγµα εµπίπτει στη σφαίρα της Περιγραφικής
Στατιστικής (Descriptive Statistics). Ο λόγος είναι ότι, για να
καταλήξει ο διδάσκων σ’ ένα συµπέρασµα για το ποσοστό του
πληθυσµού, πήρε πληροφορίες από όλες τις στατιστικές µονάδες του
πληθυσµού. Έτσι, είναι σε θέση να γνωρίζει την αληθινή τιµή του
ποσοστού αυτού, το οποίο στο παράδειγµα αυτό είναι (40/120)×100
=33,33%. Ωστόσο, ο όρος «περιγραφική στατιστική» αναφέρεται και
στη συνοπτική παρουσίαση των κυριωτέρων χαρακτηριστικών ενός
δείγµατος, όπως του µέσου όρου, της διακυµάνσεως κ.λπ.
Συχνά, όµως, δεν έχουµε την πολυτέλεια να µπορούµε να
συλλέξουµε τα στατιστικά δεδοµένα από όλες τις στατιστικές µονάδες
2
του πληθυσµού, είτε επειδή το κόστος (σε χρήµα ή χρόνο) είναι
απαγορευτικό είτε επειδή δεν είναι καν δυνατό να γίνει κάτι τέτοιο.
Για παράδειγµα, έστω ότι είσθε παραγωγός ηλεκτρικών λαµπτήρων
και ότι ενδιαφέρεσθε να εκτιµήσετε τη µέση διάρκεια ζωής των
λαµπτήρων που παράγετε. Αν δοκιµάζετε όλους τους λαµπτήρες, κάτι
που είναι εξαιρετικά δύσκολο να γίνει, τότε θα µπορέσετε µεν να
έχετε µία ακριβή εικόνα για τη µέση διάρκεια της ζωής τους, αλλά δεν
θα έχετε λαµπτήρες για την αγορά!
Στην πράξη, ένα ικανοποιητικό επίπεδο ακρίβειας των εκτιµήσεων
επιτυγχάνεται συνήθως και µε τη δειγµατοληψία. Συνεπώς, η
επιπλέον ακρίβεια, η οποία θα προέκυπτε αν είχαµε στη διάθεσή µας
όλες τις στατιστικές µονάδες του πληθυσµού, δεν θα αντιστάθµιζε το
επιπλέον κόστος που απαιτείται για την απόκτησή τους. Κατά κανόνα,
λοιπόν, παίρνουµε ένα δείγµα· αναλύουµε τις πληροφορίες που
περιέχει για το χαρακτηριστικό που µας ενδιαφέρει· και ανάγουµε τα
συµπεράσµατα που προκύπτουν από την ανάλυση του δείγµατος στον
πληθυσµό. Η µεθοδολογία αυτή ονοµάζεται Επαγωγική Στατιστική
(Inferential Statistics).
1.4. Ασυνεχής και συνεχής µεταβλητή
Οι µετρήσεις ενός χαρακτηριστικού παριστάνονται από µία
µεταβλητή, η οποία συµβολίζεται µ’ ένα κεφαλαίο γράµµα, όπως το
Χ. Αν η µεταβλητή αυτή παίρνει µόνο µεµονωµένες τιµές, µεταξύ των
οποίων µεσολαβούν τιµές που η Χ είναι αδύνατο να πάρει, τότε η Χ
ονοµάζεται ασυνεχής ή διακριτή µεταβλητή (discrete variable). Για
παράδειγµα, αν Χ=αριθµός παιδιών µίας οικογένειας, τότε η Χ µπορεί
να πάρει τις τιµές 0, 1, 2, . . ., αλλά δεν µπορεί να πάρει δεκαδικές
τιµές. Αντίθετα, αν µία µεταβλητή µπορεί να πάρει οποιαδήποτε τιµή
σ’ ένα ωρισµένο διάστηµα, τότε ονοµάζεται συνεχής µεταβλητή
(continuous variable). Παραδείγµατα συνεχών µεταβλητών είναι η
ηλικία, το ύψος, το βάρος, το εισόδηµα, η τιµή ενός αγαθού κ.ά.
1.5. Μέθοδοι συγκεντρώσεως στατιστικών δεδοµένων
Υπάρχουν δύο ειδών µέθοδοι συγκεντρώσεως στατιστικών
δεδοµένων, οι εξαντλητικές και οι δειγµατοληπτικές. Εξαντλητική
(exaustive) είναι η µέθοδος που χρησιµοποιείται για τη συγκέντρωση
στατιστικών δεδοµένων από ολόκληρο τον πληθυσµό, όπως είναι η
3
γνωστή σε όλους µας απογραφή (census). Μία δεύτερη εξαντλητική
µέθοδος είναι η συνεχής καταγραφή, η οποία χρησιµοποιείται από
διάφορες υπηρεσίες για την καταχώρηση γεγονότων που εµπίπτουν
στην αρµοδιότητά τους. Ένα παράδειγµα είναι η καταγραφή από τις
τοπικές αρχές των γεννήσεων, θανάτων, γάµων και άλλων γεγονότων
που επηρεάζουν τη φυσική κίνηση του πληθυσµού.
Όπως έχουµε ήδη τονίσει, όµως, στην πράξη συχνά καταφεύγουµε
σε δειγµατοληπτικές µεθόδους (sampling methods), είτε επειδή αυτές
κοστίζουν λιγώτερο από τις εξαντλητικές είτε επειδή είναι οι µόνες
δυνατές. Ένα εύλογο ερώτηµα που προκύπτει σ’ αυτή την περίπτωση,
όµως, είναι το κατά πόσο αντιπροσωπευτικό θα είναι το δείγµα και
συνεπώς πόσο αξιόπιστα θα είναι τα συµπεράσµατά µας για τον
πληθυσµό. Είναι ευνόητο ότι όσο µεγαλύτερο είναι το µέγεθος του
δείγµατος τόσο πιο αξιόπιστα θα είναι τα αποτελέσµατα.
Οι δειγµατοληπτικές µέθοδοι διακρίνονται σε τυχαίες (random),
όπου η επιλογή του δείγµατος γίνεται κατά τρόπο µηχανικό και όπου
η πιθανότητα µίας στατιστικής µονάδας να επιλεγεί είναι γνωστή και
µεγαλύτερη από το µηδέν· και σε µη πιθανοθεωρητικές
(nonprobabilistic) ή κατευθυνόµενες, όπου η επιλογή γίνεται µε
υποκειµενικά κριτήρια, οπότε κάποιες στατιστικές µονάδες µπορεί και
να αποκλεισθούν και να µην έχουν πιθανότητα να επιλεγούν. Επειδή
οι µέθοδοι της Στατιστικής Επαγωγής που θα εξετάσουµε αργότερα
δεν ισχύουν όταν το δείγµα προέρχεται από κατευθυνόµενη
δειγµατολειψία, δεν θ’ ασχοληθούµε περισσότερο µ’ αυτήν. Εδώ θα
εξετάσουµε µε συντοµία µόνο τέσσερις µεθόδους τυχαίας
δειγµατοληψίας: την απλή, τη συστηµατική, την κατά στρώµατα και
την κατά οµάδες τυχαία δειγµατοληψία.
Πρώτον, στην απλή τυχαία δειγµατοληψία (simple random
sampling), όλες οι στατιστικές µονάδες και όλα τα δείγµατα µεγέθους
n έχουν την ίδια πιθανότητα να επιλεγούν. Η µέθοδος αυτή µπορεί να
εφαρµοσθεί κάνοντας χρήση των πινάκων τυχαίων αριθµών, οι οποίοι
κατασκευάζονται µε τη βοήθεια ηλεκτρονικών υπολογιστών, κατά
τρόπο ώστε κάθε ένας από τους αριθµούς 0, 1, 2, . . ., 9 να έχει
πιθανότητα 1/10 ν’ αποτελέσει ψηφίο του πίνακα.
Παράδειγµα 1.1. Οι παρακάτω αριθµοί αποτελούν τµήµα ενός πίνακα
τυχαίων αριθµών. Η επιλογή του τµήµατος αυτού έγινε κατά τρόπο
4
αυθαίρετο. Οι αριθµοί παρουσιάζονται σε στήλες για οπτικούς µόνο
λόγους, δηλαδή τα διαστήµατα πού φαίνονται ουσιαστικά δεν
υπάρχουν. Έτσι, διαβάζοντας τους αριθµούς οριζόντια, παίρνουµε 1 7
6 2 3 4 7 4 4 1 2 7 κ.λπ.
17623
45054
73700
47441
58410
58730
27821
92081
06111
91845
97624
64486
01654
73750
64163
50375
68343
22132
23941
40727
22896
44848
81203
14305
Έστω ότι ο πληθυσµός που µας ενδιαφέρει αποτελείται από Ν=500
καταστήµατα και ότι θέλουµε να πάρουµε ένα δείγµα µεγέθους n=10
καταστηµάτων. Χρησιµοποιώντας τους παραπάνω τυχαίους αριθµούς,
ποιά καταστήµατα θα συµπεριληφθούν στο δείγµα;
Λύση. Κατ’ αρχή, αριθµούµε τα καταστήµατα του πληθυσµού µε τους
αριθµούς 000, 001, 002, . . ., 499. Επειδή οι αριθµοί αυτοί είναι
τριψήφιοι, θ’ αρχίσουµε να επιλέγουµε από τον παραπάνω πίνακα
τριάδες διαδοχικών ψηφίων, απορρίπτοντας τις τριάδες που
σχηµατίζουν αριθµούς µεγαλύτερους του 499, µέχρι να
συµπληρώσουµε τους 10 αριθµούς του δείγµατος. ∆ιαβάζοντας τους
παραπάνω αριθµούς κάθετα, παίρνουµε τους εξής 10 αποδεκτούς
αριθµούς: 176, 450, 234, 005, 127, 092, 006, 081, 111, 247. Το τυχαίο
δείγµα (random sample) θ’ αποτελείται από τα 10 καταστήµατα που
έχουν αυτούς σαν αύξοντες αριθµούς. Ας σηµειωθεί ότι οι αριθµοί
737, 545, 744, 841, 873, 821, 918, 976 και 644 απορρίφθηκαν επειδή
είναι µεγαλύτεροι του 499, ενώ ο αριθµός 450 απορρίφθηκε τη
δεύτερη φορά που σχηµατίσθηκε.
∆εύτερον, θα εξετάσουµε τη µέθοδο της συστηµατικής τυχαίας
δειγµατοληψίας (systematic random sampling) στα πλαίσια του
παραδείγµατος της επιλογής του δείγµατος των 10 καταστηµάτων. Σε
πρώτο στάδιο, αριθµούµε τα καταστήµατα µε τους αριθµούς 1, 2, . . .,
500.1 (Ας σηµειωθεί ότι, γενικά, η αρίθµηση των στατιστικών
µονάδων πρέπει να είναι τυχαία και άσχετη µε το χαρακτηριστικό που
µας ενδιαφέρει.) Στη συνέχεια, υπολογίζουµε την ποσότητα
λ=Ν/n=500/10=50 και επιλέγουµε κατά τρόπο τυχαίο ένα αριθµό
µεταξύ 1 και 50, π.χ., τον αριθµό 48. Τα 10 καταστήµατα του
1
Θα µπορούσαµε και εδώ να χρησιµοποιήσουµε τήν παραπάνω αρίθµηση, δηλαδή
000, 001, 002, . . ., 499.
5
δείγµατος θα έχουν αύξοντες αριθµούς αυτούς που σχηµατίζουν
αριθµητική πρόοδο µε πρώτο όρο το 48 και κοινή διαφορά το 50,
δηλαδή: 48, 98, 148, 198, 248, 298, 348, 398, 448 και 498.
Τρίτον, η µέθοδος της κατά στρώµατα τυχαίας δειγµατοληψίας
(stratified random sampling) είναι συχνά πιο κατάλληλη από τις δύο
προηγούµενες όταν ο πληθυσµός είναι ανοµοιογενής ως προς το
χαρακτηριστικό που µας ενδιαφέρει και σχετικά λίγες µόνο
στατιστικές µονάδες διαφέρουν κατά πολύ από τις άλλες.
Παράδειγµα 1.2. Στο Παρ. 1.1, έστω ότι µόνο 5 από τα 500
καταστήµατα είναι «πολύ µεγάλα», 100 είναι «µεσαίου µεγέθους» και
395 είναι «µικρά». Αν το χαρακτηριστικό που µας ενδιαφέρει είναι οι
ηµερήσιες πωλήσεις των καταστηµάτων και χρησιµοποιήσουµε την
απλή ή τη συστηµατική τυχαία δειγµατοληψία, είναι πιθανό τα «πολύ
µεγάλα» καταστήµατα να µην εκπροσωπηθούν στο δείγµα, οπότε τα
αποτελέσµατα θα είναι αναξιόπιστα.
Σύµφωνα µε την κατά στρώµατα τυχαία δειγµατοληψία, κατ’ αρχή
πρέπει να χωρίσουµε τον (αρχικά ανοµοιογενή) πληθυσµό σε
στρώµατα (strata), κάθε ένα από τα οποία θα περιλαµβάνει
οµοιογενείς στατιστικές µονάδες. (Φυσικά, πρέπει να φροντίσουµε
ώστε µία συγκεκριµένη στατιστική µονάδα να ανήκει σε ένα και µόνο
ένα στρώµα.) Στη συνέχεια, θα πάρουµε ένα τυχαίο δείγµα από κάθε
στρώµα, χρησιµοποιώντας την απλή ή τη συστηµατική τυχαία
δειγµατοληψία. Έτσι, αν χωρίσουµε τον πληθυσµό των Ν στατιστικών
µονάδων σε L στρώµατα, τα οποία περιλαµβάνουν Ν1, Ν2, . . ., ΝL
στοιχεία, αντίστοιχα, όπου Ν1 + Ν2 + . . . + ΝL=Ν· και από το στρώµα
j πάρουµε ένα δείγµα µεγέθους nj, όπου j=1, 2, . . ., L, τότε το µέγεθος
του συνολικού δείγµατος θα είναι n1 + n2 + . . . + nL = n.
Ένας απλός και συχνά χρήσιµος τρόπος2 προσδιορισµού του
µεγέθους δείγµατος nj είναι ο αναλογικός (proportional), σύµφωνα µε
τον οποίο η αναλογία των στοιχείων του δείγµατος που προέρχονται
από το στρώµα j, nj/n, είναι ίση µε την αναλογία των στοιχείων του
πληθυσµού που ανήκουν στο στρώµα j, Νj/Ν. ∆ηλαδή, nj/n = Νj/Ν.
Συνεπώς, έχοντας αποφασίσει για το µέγεθος του συνολικού
2
Για εναλλακτικούς τρόπους, βλ. P. Newbold, Statistics for Business and
Economics, 4-th Ed., Prentice-Hall, Englewood Cliffs, NJ, 1995, σελ. 758-774.
6
δείγµατος (n) και γνωρίζοντας τα µεγέθη Νj και Ν, η τιµή του nj
δίνεται από τον ακόλουθο τύπο:
nj =
Nj
N
n.
(1.1)
Τέταρτον, η µέθοδος της κατά οµάδες τυχαίας δειγµατοληψίας
(cluster random sampling) χρησιµοποιείται στις εξής περιπτώσεις: (α)
όταν οι στατιστικές µονάδες του πληθυσµού είναι γεωγραφικά µακριά
η µία από την άλλη, οπότε η χρήση µίας από τις τρεις προηγούµενες
µεθόδους θα είναι δαπανηρή, αν αποφασισθεί οι συνεντεύξεις να
παίρνονται εκ του σύνεγγυς· και (β) όταν δεν υπάρχει ένας πλήρης
κατάλογος των στατιστικών µονάδων του πληθυσµού και η κατάρτισή
του θα κόστιζε πολύ. Σ’ αυτές τις περιπτώσεις, ο ερευνητής µπορεί
να κατατάξει τις στατιστικές µονάδες του πληθυσµού σε µικρές
οµάδες (clusters)· να πάρει ένα τυχαίο δείγµα οµάδων (π.χ. µε τη
µέθοδο της απλής τυχαίας δειγµατοληψίας)· και κατόπιν να κάνει
απογραφή σε κάθε µία από τις επιλεγείσες οµάδες του δείγµατος.
Για παράδειγµα, έστω ότι ο στατιστικός πληθυσµός που ενδιαφέρει
τον ερευνητή αποτελείται από όλα τα θερµοκήπια της Ελλάδος. Ο
ερευνητής µπορεί να χωρίσει την Ελλάδα σε γεωγραφικά
διαµερίσµατα (Θράκη, Ανατολική Μακεδονία κ.λπ.)· να πάρει ένα
τυχαίο δείγµα διαµερισµάτων µε τη µέθοδο της απλής τυχαίας
δειγµατοληψίας· και κατόπιν να επισκεφθεί όλα τα θερµοκήπια που
υπάρχουν στα γεωγραφικά διαµερίσµατα που επελέγησαν.
1.6. Το ερωτηµατολόγιο και άλλα συναφή θέµατα
Το ερωτηµατολόγιο (questionnaire) αποτελεί ένα από τα
κυριώτερα µέσα συγκεντρώσεως στατιστικών δεδοµένων. Πρέπει να
καταρτίζεται µε µεγάλη προσοχή, ώστε οι ερωτήσεις να είναι όσο το
δυνατό πιο λίγες, ουσιώδεις, σαφείς, φυσικές και αµερόληπτες, έτσι
ώστε να προδιαθέτουν τον ερωτώµενο να δίνει µε ειλικρίνεια και
χωρίς δυσφορία απαντήσεις. Ακόµη, πρέπει να διατυπώνονται έτσι,
ώστε να ελαχιστοποιείται ο αριθµός των λαθών. Για παράδειγµα, αντί
της ερωτήσεως «τί ηλικία έχετε;», στην οποία η απάντηση είναι
συνήθως ένας ακέραιος αριθµός (π.χ. 31 ετών), είναι προτιµότερο να
ρωτήσουµε: «ποιά είναι η ηµεροµηνία γεννήσεώς σας;». Τέλος, θα
7
πρέπει να λαµβάνεται η απαραίτητη µέριµνα, έτσι ώστε το
ερωτηµατολόγιο να περιλαµβάνει όλες τις ουσιώδεις ερωτήσεις.
Συναφή µε την κατάρτιση του ερωτηµατολογίου θέµατα είναι και
τα εξής. Πρώτον, πρέπει να ορισθεί επακριβώς ο πληθυσµός από τον
οποίο πρόκειται να ληφθεί το δείγµα, έτσι ώστε να είναι φανερό σε
ποιόν πληθυσµό θ’ αναφέρονται τα συµπεράσµατα της έρευνας.
∆εύτερον, πρέπει να καθορισθεί ο τρόπος µε τον οποίο θα ζητηθεί
από τις στατιστικές µονάδες να συµπληρώσουν τα ερωτηµατολόγια,
όπως π.χ. µε επίσκεψη στο σπίτι, µε προσωπική ή τηλεφωνική
συνέντευξη, µε το ταχυδροµείο κ.λπ. Στο σηµείο αυτό θα ληφούν υπ’
όψη παράγοντες όπως το κόστος (σε χρόνο και χρήµα) και η
απροθυµία που συνήθως χαρακτηρίζει τα άτοµα ν’ απαντήσουν. Έτσι,
αν τα ερωτηµατολόγια αποστέλλονται ταχυδροµικά, τότε αυτά πρέπει
να συνοδεύονται από φακέλους µε επικολληµένα τα απαραίτητα
γραµµατόσηµα και γραµµένη τη διεύθυνση στην οποία θα
επιστραφούν.
Τρίτον, πρέπει να διασφαλισθεί η αξιοπιστία των δεδοµένων. Αν
π.χ. η έρευνα διεξάγεται από µία εταιρεία, είναι σωστό να προσλάβει
προσωρινά οποιαδήποτε άτοµα για να κάνουν επισκέψεις σε σπίτια
και να πάρουν συνεντεύξεις, ή µήπως θα πρέπει ν’ απασχολήσει
εργαζοµένους της εταιρείας για το σκοπό αυτό;3 Επειδή η αξιοπιστία
των αποτελεσµάτων της έρευνας εξαρτάται από την ποιότητα των
δεδοµένων, θα πρέπει αυτά να συλλέγονται από άτοµα τα οποία έχουν
κάποια ειδίκευση σ’ αυτή την εργασία (π.χ. έχουν παρακολουθήσει
ένα σεµινάριο) και από τα οποία είναι εύκολο να ζητηθούν ευθύνες.
1.7. Έλεγχος των ερωτηµατολογίων και ταξινόµηση των
στατιστικών δεδοµένων
Μετά τη συµπλήρωση των ερωτηµατολογίων, πρέπει αυτά να
ελεγχθούν για τη συνέπεια και την ειλικρίνεια των απαντήσεων, για
3
Κάποτε, ο γράφων και αρκετοί άλλοι προσελήφθησαν προσωρινά από µία ιδιωτική
εταιρεία για τη συλλογή δεδοµένων µε ερωτηµατολόγια, κάθε ένα από τα οποία είχε
20 σελίδες και χρειαζόταν τουλάχιστο µισής ώρας συνέντευξη για τη συµπλήρωσή
του. Απ’ ό,τι διαπιστώθηκε, οι περισσότερες από τις «απαντήσεις» που
σηµειώθηκαν στα ερωτηµατολόγια ήταν καρπός της φαντασίας των «ερευνητών»!
8
να ελαχιστοποιηθεί ο κίνδυνος χρήσεως ανακριβών στοιχείων. Για
παράδειγµα, αν τα ερωτηµατολόγια αποστέλλονται µε το
ταχυδροµείο, στην ερώτηση για την οικογενειακή κατάσταση, κάτω
από την οποία µπορεί να υπάρχει µία λίστα µε όλες τις πιθανές
καταστάσεις (άγαµος, έγγαµος, διαζευγµένος κ.λπ.), ο ερωτώµενος
ίσως να σηµειώσει, κατά λάθος, όχι µόνο µία, αλλά δύο καταστάσεις.
Η σωστή απάντηση ίσως βρεθεί από τη διασταύρωση της απαντήσεως
σ’ αυτή την ερώτηση µε τις απαντήσεις στις άλλες ερωτήσεις.
1.8. Παρουσίαση των στατιστικών δεδοµένων µε πίνακες και
διαγράµµατα
Η παρουσίαση των στατιστικών δεδοµένων γίνεται µε πίνακες και
διαγράµµατα. Ένας στατιστικός πίνακας πρέπει να έχει επικεφαλίδα,
η οποία θα περιλαµβάνει τον αύξοντα αριθµό και τον τίτλο του
πίνακα· κυρίως σώµα, όπου θα παρουσιάζονται κατά τρόπο
συστηµατικό τα στατιστικά δεδοµένα· και βάση, όπου θα
αναφέρονται οι πηγές και τυχόν διευκρινίσεις σε υποσηµειώσεις.
Παράδειγµα 1.3. Ο Πίνακας 1.1 και το ∆ιάγραµµα 1.1 που
ακολουθούν δίνουν το µέγεθος του κυβερνητικού τοµέα (size of
government), το οποίο εδώ ορίζεται ως το ποσοστό των δαπανών της
γενικής κυβερνήσεως (υπουργεία, τοπικές αρχές και ταµεία
κοινωνικής ασφαλίσεως) στο ΑΕΠ για έξη χώρες του ΟΟΣΑ, στις
οποίες το ποσοστό αυτό κατά το έτος 1992 ξεπερνούσε το 50%.
Πίνακας 1.1. Ποσοστό των δαπανών της γενικής
κυβερνήσεως στο ΑΕΠ για έξη χώρες του ΟΟΣΑ
για το έτος 1992
Χώρα
Ποσοστό
(%)
Βέλγιο
54,6
∆ανία
58,2
Φινλανδία
56,1
Ιταλία
51,5
Ολλανδία
55,3
Σουηδία
64,6
Πηγή: ΟΟΣΑ, Economic surveys 1994-1995: Greece.
9
Αν ο Πίνακας 1.1 περιείχε δεδοµένα όχι από έξη, αλλά από 50
χώρες, τότε η σύγκριση του µεγέθους του κυβερνητικού τοµέα των
διαφόρων χωρών θα ήταν δυσχερής και χρονοβόρα. Η σύγκριση
µπορεί, ωστόσο, να γίνει εύκολα και µε µία µόνο µατιά, αν
κατασκευάσουµε ένα διάγραµµα, όπως το ∆ιάγραµµα 1.1.
70
60
50
40
30
20
10
0
Βέλγιο
∆ανία
Φινλανδία
Ιταλία
Ολλανδία Σουηδία
∆ιάγραµµα 1.1. Τo µέγεθος της γενικής κυβερνήσεως σε έξη
χώρες του ΟΟΣΑ κατά το έτος 1992
1.9. ∆ιάφοροι τύποι πινάκων και διαγραµµάτων
O Πίνακας 1.1 αναφέρεται σε ένα µόνο χαρακτηριστικό, οπότε
επιτρέπει απλές µόνο συγκρίσεις. Γι αυτό, ανήκει στην κατηγορία των
απλών πινάκων. Μία άλλη κατηγορία πινάκων είναι οι σύνθετοι
πίνακες, όπου η κατανοµή των παρατηρήσεων γίνεται σύµφωνα µε
δύο χαρακτηριστικά, όπως π.χ. εισόδηµα και ηλικία. Τέτοιους πίνακες
θα συναντήσουµε σε επόµενα κεφάλαια (βλ. π.χ. Κεφ. 4, 10 και 16).
Όσο για στατιστικά διαγράµµατα, υπάρχουν πολλών ειδών. Το
∆ιάγραµµα 1.1 που είδαµε πιο πάνω είναι ένα ραβδοειδές διάγραµµα
(bar chart). Ένα άλλο είδος στατιστικού διαγράµµατος που
συναντούµε συχνά είναι το χρονολογικό διάγραµµα (time plot), το
οποίο µας δείχνει την εξέλιξη µίας µεταβλητής κατά τη διάρκεια µίας
δεδοµένης χρονικής περιόδου. Στον οριζόντιο άξονα ενός
χρονολογικού διαγράµµατος µετρούµε το χρόνο, ενώ στον κάθετο
άξονα µετρούµε τη µεταβλητή ή τις µεταβλητές που µας ενδιαφέρουν.
Παράδειγµα 1.4. Το ∆ιάγραµµα 1.2 παρακάτω δείχνει την εξέλιξη
ενός δείκτη του κατά κεφαλή Ακαθαρίστου Εγχωρίου Προϊόντος
10
(ΑΕΠ) στην Ελλάδα σε σχέση µ’ αυτό της Ευρωπαϊκής Ενώσεως
(ΕΕ), όπου ο δείκτης αυτός είναι κατασκευασµένος κατά τρόπο ώστε
για όλες τις 15 χώρες της ΕΕ να είναι ίσος µε 100 κάθε έτος.
70
69
68
67
66
65
64
63
1992
1993
1994
1995
1996
1997
1998
1999
2000
∆ιάγραµµα 1.2. Κατά κεφαλή ΑΕΠ στην Ελλάδα σε σχέση µε την ΕΕ
(ΕΕ-15=100)
Πηγή: Κρατικός Προϋπολογισµός 2000. Εισηγητική Έκθεση
Υπουργού Εθν. Οικονοµίας και Οικονοµικών, Αθήνα 1999, σελ. 29.
Το ∆ιάγραµµα 1.2 φανερώνει ότι, ενώ ο δείκτης είναι πολύ
χαµηλότερος του 100, εν τούτοις ακολουθεί ανοδική πορεία τα
τελευταία χρόνια. Συνεπώς, αν η τάση αυτή συνεχιστεί, τότε το
επίπεδο «ευηµερίας» του µέσου Έλληνα θα συγκλίνει τελικά σ’ αυτό
του µέσου Ευρωπαίου πολίτη.
1.10. Πίνακες και διαγράµµατα συχνοτήτων
Ένα είδος απλού πίνακα που συναντούµε συχνά στη Στατιστική
είναι ο πίνακας συχνοτήτων (frequency table), ο οποίος δίνει τις τιµές
µίας µεταβλητής (ή τα ταξικά της διαστήµατα, αν η µεταβλητή είναι
συνεχής) και για κάθε τιµή (ή ταξικό διάστηµα) την αντίστοιχη
συχνότητα.
Παράδειγµα 1.5. Ο Πίνακας 1.2 παρακάτω είναι ένας πίνακας
κατανοµής συχνοτήτων των αγάµων µητέρων ηλικίας 10-19 ετών
σύµφωνα µε τον αριθµό των παιδιών τους (σύνολο Ελλάδος,
απογραφή της 17-3-1991):
11
Πίνακας 1.2. Άγαµες µητέρες ηλικίας 10-19 ετών
στην Ελλάδα κατά την απογραφή της 17-3-1991
Αριθµός παιδιών
Αριθµός µητέρων
1
93
2
39
3
8
4
10
Σύνολο
Ν=150
Πηγή: Αποτελέσµατα της απογραφής πληθυσµού κατοίκων της 17ης Μαρτίου 1991, Τόµ. ΙΙ, Ε.Σ.Υ.Ε.
Αθήνα 1998, σελ. 271.
Αριθµός µητέρων
Το ∆ιάγραµµα 1.3, το οποίο ακολουθεί, απεικονίζει τα στοιχεία του
Πίνακα 1.2:
100
80
60
40
20
0
1
2
3
4
Αριθµός παιδιών
∆ιάγραµµα 1.3. Άγαµες µητέρες ηλικίας 10-19 ετών κατά τον αριθµό
των παιδιών τους
Στον Πίνακα 1.2 και το ∆ιάγραµµα 1.3 έχουµε ένα παράδειγµα
κατανοµής συχνοτήτων (frequency distribution), όπου οι συχνότητες
είναι απόλυτες (absolute frequencies), δηλαδή µας λένε πόσες φορές
παρατηρήθηκε η κάθε τιµή της µεταβλητής Χ=αριθµός παιδιών µίας
άγαµης µητέρας ηλικίας 10-19 ετών την 17-3-91 στην Ελλάδα. Ας
παραστήσουµε την απόλυτη συχνότητα της τιµής X=xi µε fi.
Προσθέτουµε τώρα στον Πίνακα 1.2 και µία ακόµη στήλη, η οποία
δίνει τις σχετικές συχνότητες (relative frequencies), pi. Οι τελευταίες
υπολογίζονται µε τη διαίρεση κάθε µίας από τις απόλυτες συχνότητες
12
µε το σύνολο των παρατηρήσεων, Ν. (Στο παράδειγµά µας, Ν=150.)
∆ηλαδή, pi = fi/Ν. Συνεπώς, το άθροισµα των σχετικών συχνοτήτων
για όλες τις τιµές της Χ είναι ίσο µε 1, εφόσον το άθροισµα των
απολύτων συχνοτήτων είναι ίσο µε Ν. Γενικά, αν η µεταβλητή Χ
παίρνει k τιµές και το σύνολο των παρατηρήσεων που έχουµε είναι n,
τότε p1 + p2 + . . . + pk = (f1 + f2 + . . . + fk)/n = n/n =1.
Προσθέτουµε ακόµη δύο στήλες για τις αθροιστικές συχνότητες
(cumulative frequencies), απόλυτες (Fi) και σχετικές (Φi), οι οποίες
υπολογίζονται συσσωρευτικά. Για παράδειγµα, η αθροιστική απόλυτη
συχνότητα που αντιστοιχεί στην τιµή Χ=1 είναι F1=93, αυτή που
αντιστοιχεί στην τιµή Χ=2 είναι F2=132 (=93+39) κ.λπ. Έτσι,
προκύπτουν ο Πίνακας 1.3 και το ∆ιάγραµµα 1.4:
Πίνακας 1.3. Πίνακας συχνοτήτων για το Παρ. 1.5
Χ=xi
fi
pi
Fi
1
2
3
4
Σύνολο
93
39
8
10
Ν=150
0,620
0,260
0,053
0,067
1
93
132
140
150
Φi
0,620
0,880
0,933
1
Fi
150
100
50
0
0
1
2
3
4
5
Χi
∆ιάγραµµα 1.4. ∆ιάγραµµα αθροιστικών συχνοτήτων για το Παρ. 1.5
13
Στο Παρ. 1.5, η µεταβλητή Χ είναι ασυνεχής, γι αυτό και το
∆ιάγραµµα 1.3 είναι ένα ακιδωτό διάγραµµα συχνοτήτων. Για τον ίδιο
λόγο, στο ∆ιάγραµµα 1.4 οι οριζόντιες γραµµές δεν είναι ενωµένες
µεταξύ τους. Ας δούµε τώρα µία συνεχή κατανοµή συχνοτήτων,
οπότε, αντί µεµονωµένων τιµών της Χ, θα έχουµε ταξικά διαστήµατα
ή απλά τάξεις (classes)· και, αντί ακιδωτού διαγράµµατος, θα έχουµε
ένα ιστόγραµµα συχνοτήτων (frequency histogram).
Για την κατάρτιση του πίνακα και του ιστογράµµατος συχνοτήτων,
το πρώτο ερώτηµα που πρέπει ν’ απαντηθεί είναι: ποιός θα είναι ο
αριθµός των τάξεων, k, στις οποίες θα κατατάξουµε ένα σύνολο n
παρατηρήσεων; Ένας εµπειρικός τύπος που απαντά σ’ αυτό το
ερώτηµα είναι ο τύπος του Sturges:
k = 1 + 3,322×λογ(n),
(1.2)
όπου ο λογάριθµος έχει βάση το 10.4 Συνήθως, στην παράµετρο k
δίνεται µία (ακέραια) τιµή από 5 µέχρι 20. Το δεύτερο ερώτηµα που
πρέπει ν’ απαντηθεί είναι: ποιό θα είναι το εύρος των τάξεων (class
width), δ; Η απάντηση είναι:
δ = d/k,
(1.3)
όπου d είναι το εύρος της µεταβλητής (range), δηλαδή η διαφορά της
µικρότερης από τη µεγαλύτερη παρατήρηση.
Παράδειγµα 1.6. Έστω ότι έχουµε τις παρακάτω παρατηρήσεις για τη
µεταβλητή Χ=ποσότητα καπνού (γραµµάρια κατά µήνα) που
κάπνιζαν n=50 καπνιστές πριν διαγνωσθούν ότι πάσχουν από καρκίνο
του πνεύµονα:
1578
709
972
773
91
720 1381 587 524 550 1289
317 843 930 487 646 811
771 487 258 315 717 833
990 527 556 541 1615 1490
822 425 1439 1142 1396 700
4
536
374
1034
682
374
680
346
1164
516
1388
658
1459
564
388
740
Βλ. H.A. Sturges, The Choice of a Class Interval, Journal of the American
Statistical Association 21, 1926, σελ. 65-66.
14
Χρησιµοποιώντας τον τύπο (1.2), βρίσκουµε k = 1 + 3,322×λογ(50) =
6,64 ≈ 7. Και επειδή d = 1615 - 91 = 1524, από τον τύπο (1.3)
προκύπτει ότι δ = 1524/7 ≈ 218. Εποµένως, κάθε µία από τις επτά
τάξεις θα έχει εύρος 218. Επειδή, όµως, 7×218 = 1526 = 1524 + 2, ας
πάρουµε τους αριθµούς 90 και 1616 σαν το κατώτατο όριο της
πρώτης και το ανώτατο όριο της τελευταίας τάξεως, αντί των
πραγµατικών, που είναι 91 και 1615, αντίστοιχα.
Επίσης, επειδή κάθε παρατήρηση πρέπει να ανήκει σε µία και µόνο
µία τάξη, ας υιοθετήσουµε τον παρακάτω κανόνα: αν µία τιµή της
µεταβλητής ανήκει στο όριο µεταξύ δύο τάξεων, δηλαδή µπορεί να
θεωρηθεί ότι είναι το ανώτατο όριο της πρώτης και ταυτόχρονα το
κατώτατο όριο της δευτέρας τάξεως, τότε θα θεωρείται ότι είναι το
ανώτατο όριο της πρώτης. Τέλος, πρέπει να φροντίσουµε ώστε
καµµία παρατήρηση να µην παραλειφθεί. Ο πίνακας συχνοτήτων
είναι ο εξής:
Πίνακας 1.4. Κατανοµή 50 καρκινοπαθών σύµφωνα
µε την ποσότητα καπνού (γραµµάρια κατά µήνα) που
κάπνιζαν πριν τη διάγνωση της αρρώστιας τους
Τάξεις
fi
pi
Fi
Φi
90 – 308
2
0,04
2
0,04
308 – 526
11
0,22
13
0,26
526 – 744
16
0,32
29
0,58
744 – 962
7
0,14
36
0,72
962 – 1180
5
0,10
41
0,82
1180 – 1398
4
0,08
45
0,90
1398 – 1616
5
0,10
50
1,00
Σύνολο
50
1,00
Ακολουθούν το ιστόγραµµα συχνοτήτων, το πολύγωνο
συχνοτήτων (frequency polygon) και η αθροιστική πολυγωνική
γραµµή συχνοτήτων (ogive). Το πολύγωνο συχνοτήτων προκύπτει αν
ενώσουµε τα µέσα των επάνω πλευρών του ιστογράµµατος µε ευθείες
γραµµές. Όπως δείχνουν τα ∆ιαγράµµατα 1.5 και 1.6,
συµπεριλαµβάνουµε και δύο επιπλέον άδεια ταξικά διαστήµατα (που
έχουν το ίδιο εύρος µε τα άλλα), ένα πριν από την τάξη 90 - 308 και
ένα µετά από την τάξη 1398 - 1616. Έτσι, το πολύγωνο αρχίζει από το
µέσο του πρώτου άδειου διαστήµατος και τελειώνει στο µέσο του
15
δευτέρου. Η κατασκευή αυτή επιτρέπει το εµβαδόν του πολυγώνου να
είναι ίσο µε τό εµβαδόν του ιστογράµµατος, όπως πρέπει να είναι.
Την αρχή αυτή θα πρέπει να την έχουµε υπ’ όψη µας και για την
περίπτωση που µία ή περισσότερες από τις ενδιάµεσες τάξεις είναι
άδειες, δηλαδή χωρίς παρατηρήσεις.
fi
16
12
8
4
90
308
526
744
962
1180 1398 1616
X
∆ιάγραµµα 1.5. Το ιστόγραµµα και το πολύγωνο συχνοτήτων για τα
δεδοµένα του Πίνακα 1.4
Fi
50
40
30
20
10
90
308
526
744
962
1180 1398 1616
X
∆ιάγραµµα 1.6. Η αθροιστική πολυγωνική γραµµή για τα δεδοµένα
του Πίνακα 1.4
16
Σε ωρισµένες περιπτώσεις, ίσως να θέλουµε µερικές τάξεις να
έχουν µεγαλύτερο εύρος από τις άλλες. Για παράδειγµα, αν µία από
τις ενδιάµεσες τάξεις είναι άδεια, τότε ίσως να θέλουµε να τη
βάλουµε µαζί µε µία από τις γειτονικές, οπότε θα προκύψει µία τάξη
µε εύρος διπλάσιο από αυτό των άλλων τάξεων. Σ’ αυτή την
περίπτωση, θα πρέπει να κατασκευάσουµε το ιστόγραµµα, έτσι ώστε
το εµβαδόν του ιστού που αντιστοιχεί στην τάξη i να είναι ίσο µε pi.
Αυτό µπορεί να γίνει ως εξής. Έστω ότι hi=ύψος του ιστού i και
δi=εύρος της τάξεως i. Ο ιστός i του ιστογράµµατος θα πρέπει να έχει
ύψος
hi = pi/δi.
(1.4)
Ο αριθµός hi ονοµάζεται σχετική συχνότητα ανά µονάδα εύρους της
τάξεως i. Συνεπώς,
Eµβαδόν του ιστού i = δi×hi = δi×(pi/δi) = pi.
(1.5)
Το ιστόγραµµα που κατασκευάζεται κατ’ αυτόν τον τρόπο ονοµάζεται
ιστόγραµµα σχετικών συχνοτήτων (relative frequency histogram).
Ασκήσεις
1.1. Αναφέρατε δύο ασυνεχή και δύο συνεχή ποσοτικά
χαρακτηριστικά των εργαζοµένων µίας επιχειρήσεως. Επίσης, δύο
ποιοτικά.
1.2. Έστω ότι σας ενδιαφέρει να εκτιµήσετε το µέσο εισόδηµα των
νοικοκυριών του νοµού Ιωαννίνων, χρησιµοποιώντας ένα δείγµα 20
νοικοκυριών. Υποθέστε ότι το σύνολο των νοικοκυριών είναι 50000.
(α) Αν το επέτρεπε ο χρόνος και τα χρήµατα που έχετε στη διάθεσή
σας για την αποπεράτωση της έρευνας αυτής, θα χρησιµοποιούσατε
ένα δείγµα µεγαλύτερο από 20 παρατηρήσεις; Εξηγείστε.
(β) Αν σας προτείνουν να χρησιµοποιήσετε τον τηλεφωνικό κατάλογο
της περιοχής για την επιλογή των 20 νοικοκυριών που θα
συµπεριληφθούν στο δείγµα, θα το δεχόσαστε ή όχι και γιατί;
17
(γ) Υποθέστε τώρα ότι έχετε στη διάθεσή σας τα µητρώα της
περιοχής, όπου είναι καταχωρηµένα κατ’ αλφαβητική σειρά όλα τα
νοικοκυριά µε αύξοντα αριθµό από 00000 µέχρι 49999. Εξηγείστε
πώς θα επιλέξετε τα 20 νοικοκυριά του δείγµατος µε τη µέθοδο της
συστηµατικής τυχαίας δειγµατοληψίας.
(δ) Στην προηγούµενη ερώτηση, υποθέστε ότι θέλετε να επιλέξετε τα
20 νοικοκυριά µε τη µέθοδο της απλής τυχαίας δειγµατοληψίας και
ότι για το σκοπό αυτό αποφασίζετε να χρησιµοποιήσετε το παρακάτω
υποσύνολο 60 τυχαίων αριθµών. Τί αύξοντες αριθµούς θα έχουν τα 20
νοικοκυριά του δείγµατος;
0004
4643
7926
2764
7506
5896
8289
2236
6923
6739
8286
3563
7805
3587
2197
6649
9031
5092
1368
1883
2195
4722
3733
8062
1250
4259
1071
9531
2150
4199
3564
5587
8777
6017
6316
8835
9542
3087
5071
8041
4023
8008
6144
3262
7838
2059
1716
3315
7510
1782
1154
8030
5048
1076
0476
8862
1967
3029
9099
9367
1.3. ∆είτε τους αριθµούς που δίνονται στην ερώτηση 1.2(δ) όπως
ακριβώς φαίνονται, δηλαδή ως τετραψήφιους αριθµούς· και
θεωρείστε ότι αποτελούν ένα τυχαίο δείγµα παρατηρήσεων από 60
άτοµα για τη µεταβλητή Χ=αριθµός ωρών εργασίας ενός ατόµου στη
διετία 1997-1998 σε µία χώρα.
(α) Χρησιµοποιώντας πέντε ίσα ταξικά διαστήµατα, 0-1999, 20003999 κ.λπ., να κατασκευάσετε ένα πίνακα συχνοτήτων, απολύτων και
σχετικών, συµπεριλαµβανοµένων των αθροιστικών συχνοτήτων.
(β) Να κατασκευάσετε το ιστόγραµµα και το πολύγωνο συχνοτήτων,
καθώς επίσης και την αθροιστική πολυγωνική γραµµή συχνοτήτων.
Σας εκπλήσσει η µορφή του ιστογράµµατος; Αν τα παραπάνω
στοιχεία δεν προέρχονταν από τους πίνακες τυχαίων αριθµών, αλλά
από µία πραγµατική οικονοµία, τότε θα σας εξέπλησσε η µορφή του
ιστογράµµατος συχνοτήτων; Εξηγείστε.
18