SPSS lecture 3

Download Report

Transcript SPSS lecture 3

Περιγραφική Ανάλυση ποσοτικών
μεταβλητών
Στο data file Worldsales.sav (αρχείο υποθετικών πωλήσεων ανά
ήπειρο και προϊόν)
Analyze
Descriptive Statistics
Frequencies
Επιλογή μεταβλητής Revenue
Πατάμε στο κουμπί Charts … και επιλέγουμε Histograms
Continue
Στην κάρτα Frequencies πατάμε στο κουμπί Statistics
Στην κάρτα που προκύπτει εμφανίζονται δείκτες κεντρικής τάσης
(«Central Tendency»), διασποράς («Dispersion») και κατανομής
(«Distribution») οι οποίοι περιγράφουν αριθμητικά δεδομένα
Επιλέγουμε τους δείκτες
Continue
ΟΚ (στην κάρτα «Frequencies»)
Στο παράθυρο («Output») εμφανίζονται τα αποτελέσματα
Το γράμμα Ν συμβολίζει τον αριθμό των παρατηρήσεων του δείγματος (Ν=1000)
Το Sum αποτελεί το άθροισμα των τιμών αυτής της μεταβλητής. Στο παράδειγμά μας
το άθροισμα των πωλήσεων ανά ήπειρο και προϊόν, είναι 741.720,88
Δείκτες Κεντρικής Τάσης
Mean (Μέσος Ορος) : Είναι το αποτέλεσμα της διαίρεσης του αθροίσματος μιας
ομάδας δεδομένων προς το πλήθος των τιμών αυτής της ομάδας.
Mean = Σx / N
Median (Διάμεσος) : Η μεσαία τιμή μιας σειράς τιμών που έχουν διευθετηθεί κατά
σειρά μεγέθους
π.χ. Δείξε Πίνακα frequencies με median στο Revenue ----- median στο 715,78 (στο
50% των τιμών)
Mode (Δεσπόζουσα) : Το σημείο (η τιμή) με τη μεγαλύτερη συχνότητα στα δεδομένα
Δείκτες διασποράς
Range (Εύρος) : Η απόσταση μεταξύ της μικρότερης και της
μεγαλύτερης τιμής (από πίνακα συχνοτήτων (1489,23-153,62 =
1335,61). Δε θεωρείται αξιόπιστο γιατί δε δίνει τον τρόπο κατανομής
και το βαθμό ανομοιογένειας των τιμών.
Standard Deviation (Τυπική Απόκλιση) : Είδος μέσου όρου των
αποστάσεων των τιμών μιας μεταβλητής από το μέσο όρο
s=
𝛴 𝛸 − 𝑀𝑒𝑎𝑛 2
𝑁−1
Variance (Διακύμανση) : Ο μ.ο. των τετραγωνισμένων αποκλίσεων
των τιμών μιας μεταβλητής από το μέσο όρο.
(s2)
ΕΙΣΑΓΩΓΗ ΣΤΗ ΔΙΑΔΙΚΑΣΙΑ ΣΤΑΤΙΣΤΙΚΩΝ
ΕΠΑΓΩΓΩΝ
Η διαδικασία γενίκευσης συμπερασμάτων από ένα δείγμα σε ένα πληθυσμό λέγεται επαγωγή,
και ο συγκεκριμένος κλάδος της στατιστικής που προτείνει διάφορους τρόπους γενικεύσεων
από ένα δείγμα σε ένα πληθυσμό λέγεται επαγωγική στατιστική.
Σε γενικές γραμμές πληθυσμός είναι η ομάδα που περιλαμβάνει όλες τις ομοειδείς περιπτώσεις,
ή όλα τα υποκείμενα για τα οποία θέλουμε να εξάγουμε συμπεράσματα από την έρευνά μας.
Δείγμα είναι ένα υποσύνολο του πληθυσμού το οποίο επιλέγουμε με μια μέθοδο
δειγματοληψίας.
Θεώρημα κεντρικού ορίου : Οταν μετρήσουμε τους μέσους όρους άπειρων τυχαίων ισοπληθών
δειγμάτων από ένα πληθυσμό, αυτοί τείνουν να έχουν κανονική κατανομή.
Οι θεωρητικές κατανομές πιθανοτήτων αποτελούν σημαντικό εργαλείο της επαγωγικής
στατιστικής καθώς είναι η βάση για να επάγουμε τα συμπεράσματά μας από το δείγμα στον
πληθυσμό, και να ερμηνεύσουμε σωστά τα δεδομένα μας.
Πολλές θεωρητικές κατανομές πιθανοτήτων προσεγγίζουν πολλά από τα κοινωνικά, ή άλλα
φαινόμενα που μελετάμε εμπειρικά. Ετσι, αν οι μετρήσεις μας ακολουθούν μια συγκεκριμένη
θεωρητική κατανομή, τότε μπορούμε να υπολογίσουμε την πιθανότητα να συμβεί ένα
συγκεκριμένο αποτέλεσμα που μας ενδιαφέρει.
ΚΑΝΟΝΙΚΗ ΚΑΤΑΝΟΜΗ (normal distribution)
Σε μια κανονική κατανομή, ο μέσος όρος (mean), η δεσπόζουσα (mode) και η διάμεσος (median)
συμπίπτουν. Δηλαδή ο μέσος όρος των τιμών της κατανομής είναι η τιμή που εμφανίζεται
συχνότερα, με τις μισές τιμές να κατανέμονται κάτω από το μέσο όρο και τις μισές επάνω από το
μέσο όρο.
Η ακριβής μορφή μιας κανονικής κατανομής εξαρτάται από το μέσο όρο και την τυπική
απόκλιση. Οταν έχουμε μεγάλη τυπική απόκλιση γύρω από το μ.ο., τότε έχουμε πλατιά και
χαμηλή καμπύλη, ενώ όταν η τυπική απόκλιση γύρω από το μ.ο. είναι μικρή, τότε έχουμε στενή
και ψηλή καμπύλη.
Κατά την παρατήρηση φαινομένων συχνά η πλειοψηφία των παρατηρήσεών μας βρίσκεται
κοντά στον μέσο όρο και όσο απομακρυνόμαστε από αυτόν, τόσο μειώνεται ο αριθμός των
παρατηρήσεων. Αυτό συμβαίνει και με φαινόμενα σχετικά με την ανθρώπινη συμπεριφορά.
Στην κανονική κατανομή περίπου το 68% των τιμών βρίσκεται μεταξύ μιας τυπικής απόκλισης
πάνω και κάτω από το μέσο όρο. Περίπου το 95% των τιμών βρίσκεται μεταξύ δύο (1,96)
τυπικών αποκλίσεων πάνω και κάτω από το μέσο όρο. Περίπου το 99% των τιμών βρίσκεται
μεταξύ τριών τυπικών αποκλίσεων πάνω και κάτω από το μέσο όρο.
Βαθμοί Ελευθερίας (degrees of freedom)
Περιγράφονται ως ο αριθμός των τιμών μιας κατανομής που μπορούν
να μεταβληθούν ελεύθερα. π.χ. Ο Ορφέας ρίχνει το ζάρι 4 φορές και
φέρνει σύνολο 14. Αν μας αναφέρει ότι στην πρώτη έφερε 2, στη
δεύτερη 5 και στην τρίτη 3, τότε στην τέταρτη πρέπει να έφερε 4. Στη
συγκεκριμένη περίπτωση οι τιμές από τις τρείς ζαριές είναι ελεύθερες
να μεταβάλλονται, και η τέταρτη δεν είναι, συνεπώς έχουμε 3
βαθμούς ελευθερίας.
Σε μια δειγματοληπτική κατανομή με μεγαλύτερους βαθμούς
ελευθερίας (μεγαλύτερο δείγμα), οι συχνότητες εμφάνισης ακραίων
τιμών είναι μικρότερη από μια δειγματοληπτική κατανομή με
μικρότερους βαθμούς ελευθερίας (μικρότερο δείγμα).
Ελεγχος στατιστικών υποθέσεων
H γενίκευση από τα αποτελέσματα του δείγματος στον πληθυσμό, γίνεται με στατιστικό έλεγχο
μίας, ή περισσοτέρων στατιστικών υποθέσεων. Ο ερευνητής καλείται να διατυπώσει δύο
υποθέσεις – η πρώτη ονομάζεται μηδενική, και η δεύτερη εναλλακτική.
Μηδενική : περιλαμβάνει οπωσδήποτε το ενδεχόμενο ότι δεν υπάρχει διαφορά μεταξύ των δύο
παραμέτρων δύο πληθυσμών, ή ότι οι παράμετροι είναι ίσες με ορισμένες σταθερές τιμές Η0 :
μα = μβ = μγ κλπ. Παράδειγμα : «Το μέγεθος των πωλήσεων των προϊόντων Α,Β,Γ, είναι
ανεξάρτητο από την προσωπικότητα του πωλητή».
Εναλλακτική : η λογική εναλλακτική της σχέσης που περιγράφεται στη μηδενική. Η1 : μα ≠ μβ ≠ μγ
κλπ. Παράδειγμα : «Το μέγεθος των πωλήσεων των προϊόντων Α,Β,Γ, εξαρτάται από την
προσωπικότητα του πωλητή»
Μορφές στατιστικών υποθέσεων
Κατευθύνουσες στατιστικές υποθέσεις – μονόπλευρος έλεγχος.
π.χ. Η0 : μ>25 Η1 : μ<25
Μη κατευθύνουσες στατιστικές υποθέσεις – δίπλευρος έλεγχος.
Η μηδενική υπόθεση είναι πάντα σχέση ισότητος Η0 : μ=25
Σφάλματα (2 ειδών)
Τύπου I : Απορρίπτουμε τη μηδενική υπόθεση ενώ είναι αληθινή
Τύπου IΙ : Δεχόμαστε τη μηδενική υπόθεση ενώ είναι λανθασμένη
Βήματα σε μια διαδικασία ελέγχου
στατιστικής υπόθεσης
1.
2.
3.
4.
5.
6.
7.
8.
Περιγραφή του πληθυσμού
Προσδιορισμός της παραμέτρου (π.χ. μέση τιμή, ποσοστιαίες
αναλογίες, διαφορά ανάμεσα σε μέσους όρους, κλπ)
Διατύπωση στατιστικών υποθέσεων (μηδενικής και εναλλακτικής) και
χαρακτηρισμός του ελέγχου ως δίπλευρου, ή μονόπλευρου
Επιλογή επιπέδου στατιστικής σημαντικότητας (π.χ. p<0,05) κάτω από
το οποίο θα απορρίψουμε τη μηδενική υπόθεση
Επιλογή στατιστικού κριτηρίου ανάλογα με την περίπτωση (x2 τεστ για
ποσοστιαίες αναλογίες, t-test διαφορές μέσων όρων, κλπ)
Υπολογισμός τιμής του στατιστικού κριτηρίου
Στατιστική απόφαση στο επιλεγμένο επίπεδο στατιστικής
σημαντικότητος
Σύνδεση στατιστικής απόφασης με ερευνητική υπόθεση και
συμπεράσματα
Στατιστικό κριτήριο x2 (chi-square) και δείκτες
συνάφειας στο SPSS
ΑΣΚΗΣΗ : Τρεις πωλητές (Πωλ1, Πωλ2, Πωλ3), πωλούν 3 διαφορετικά προϊόντα (Α,Β,Γ). Ζητείται
να ελεγχθεί η υπόθεση : Η0 : Το μέγεθος των πωλήσεων των προϊόντων Α, Β, Γ είναι ανεξάρτητο
από την προσωπικότητα του πωλητή Η1 : υπάρχει εξάρτηση μεταξύ μεγέθους πωλήσεων των
προϊόντων Α, Β, Γ και προσωπικότητας πωλητή. Δεδομένα :
ΠΩΛΗΤΕΣ
Πωλ 1
Πωλ 2
Πωλ 3
Α
30
50
70
ΠΡΟΙΟΝΤΑ
Β
18
16
15
Γ
16
12
8
ΠΡΟΥΠΟΘΕΣΕΙΣ
1.
Οι δύο μεταβλητές να είναι ανεξάρτητες μεταξύ τους
2.
Οι υποκατηγορίες στις δύο μεταβλητές να είναι αμοιβαία αποκλειόμενες μεταξύ τους
3.
Οι προσδοκώμενες συχνότητες υποτιθέμενης ορθής της Η0 να είναι >5 (να έχουμε
επαρκώς μεγάλο δείγμα)
ΕΙΣΑΓΩΓΗ ΔΕΔΟΜΕΝΩΝ
Στατιστικό κριτήριο x2 (chi-square) και δείκτες
συνάφειας στο SPSS
Data
Weight Cases
Weight Cases by
πωλήσεων προϊόντος Y από πωλητή X
Count (νούμερο
Analyze
Descriptive Statistics
Crosstabs
ΠΩΛΗΤΕΣ στα Rows, ΠΡΟΙΟΝΤΑ στα columns
Επιλογή “Display Clustered Bar Charts” για δημιουργία σύνθετου ακιδωτού
διαγράμματος
Statistics Chi-Square Phi and Cramer’s V
Continue
Crosstabs
Cells
Counts (Observed,Expected)
Continue
OK
Ερμηνεία : x2 =14,067
p=0,007<0,05
Απορρίπτεται η Η0, δηλαδή
υπάρχει συνάφεια μεταξύ προσωπικότητας πωλητή και μεγέθους πωλήσεων
προϊόντων