Transcript Document

Κεφάλαιο 7
Δειγματοληψία και
Δειγματοληπτικές
Κατανομές
© 2002 Thomson / South-Western
Slide 7-1
Στόχοι Μαθήματος
• Χρήση της μεθόδου της δειγματοληψίας έναντι
της μεθόδου της απογραφής.
• Διάκριση μεταξύ της τυχαίας και μη τυχαίας
δειγματοληψίας.
• Πότε και πώς χρησιμοποιούνται οι διάφορες
τεχνικές δειγματοληψίας.
• Επίγνωση των διαφόρων τύπων λαθών που
μπορούμε να συναντήσουμε σε μια μελέτη.
• Κατανόηση της σημαντικότητας του Κεντρικού
Οριακού Θεωρήματος στη στατιστική ανάλυση.
• Χρήση των δειγματικών κατανομών του x και
του p
© 2002 Thomson / South-Western
Slide 7-2
Λόγοι που δικαιολογούν την χρήση
της Δειγματοληψίας
• Με τη δειγματοληψία μπορούμε να
κερδίσουμε χρήματα και χρόνο.
• Σύμφωνα με κάποιες πηγές, με τη
δειγματοληψία μπορεί να διευρυνθεί το
πεδίο του συνόλου των διαθέσιμων
δεδομένων.
• Επειδή η διαδικασία της έρευνας είναι
μερικές φορές καταστροφική για το
΄προϊόν της μελέτης, το δείγμα μπορεί να
‘σώσει την παρτίδα’.
• Αν η πρόσβαση στον πληθυσμό είναι
Slide 7-3
αδύνατη, η δειγματοληψία είναι η μόνη
© 2002 Thomson / South-Western
Λόγοι που δικαιολογούν την χρήση
της μεθόδου της Απογραφής
• Μειώνει τη πιθανότητα ένα τυχαίο
δείγμα να μην είναι αντιπροσωπευτικό
του πληθυσμού.
• Το πρόσωπο που εκτελεί τη μελέτη δεν
είναι εξοικειωμένο με τις πληροφορίες
που περιέχει το δείγμα.
© 2002 Thomson / South-Western
Slide 7-4
Πλαίσιο του Πληθυσμού
• Μια λίστα, ένας χάρτης, ένας κατάλογος ή άλλη
πηγή που χρησιμοποιείται για να
αντιπροσωπεύσει έναν πληθυσμό
• Υπερεγγραφή (Overregistration) –το πλαίσιο
περιλαμβάνει όλα τα μέλη του πληθυσμού
στόχος και μερικά πρόσθετα στοιχεία.
Παράδειγμα: Χρήση του καταλόγου του
συνόλου των μελών του εμπορικού
επιμελητηρίου ως το πλαίσιο του πληθυσμού
των γυναικών , επιχειρηματιών μελών του
επιμελητηρίου.
• Υποεγγραφή (Underregistration) -- το πλαίσιο δεν
περιλαμβάνει όλα τα μέλη του πληθυσμού
στόχος.
Παράδειγμα: Χρήση του καταλόγου του
συνόλου των μελών του εμπορικού
© 2002 Thomson
/ South-Western
Slide 7-5
επιμελητηρίου
ως το πλαίσιο για τον
πληθυσμό του συνόλου των επιχειρηματιών
Τυχαία έναντι Μη τυχαίας
Δειγματοληψίας
• Τυχαία Δειγματοληψία
• Κάθε μονάδα του πληθυσμού έχει την ίδια πιθανότητα να
περιληφθεί στο δείγμα.
• Ένας τυχαίος μηχανισμός χρησιμοποιείται στην διαδικασία
επιλογής.
• Εξαλείφει την μεροληψία στην διαδικασία επιλογής.
• Επίσης γνωστή ως δειγματοληψία με την χρήση
πιθανοτήτων
• Μη τυχαία Δειγματοληψία
• Κάθε μονάδα του πληθυσμού δεν έχει την ίδια πιθανότητα να
περιληφθεί στο δείγμα.
• Ευάλωτη στην μεροληψία επιλογής
• Ακατάλληλες μέθοδοι συλλογής δεδομένων για τις
περισσότερες στατιτικές μεθόδους.
• Επίσης γνωστή ως δειγματοληψία χωρίς την χρήση
πιθανοτήτων
(deterministic)
© 2002 Thomson / South-Western
Slide 7-6
Τεχνικές Τυχαίας Δειγματοληψίας
• Απλό Τυχαίο Δείγμα
• Στρωματοποιημένο Τυχαίο Δείγμα
– Ανάλογο του πληθυσμού
– Δυσανάλογο του πληθυσμού
• Συστηματικό Τυχαίο Δείγμα
• Δειγματοληψία κατά Συστάδες (κατά
περιοχές)
© 2002 Thomson / South-Western
Slide 7-7
Απλό Τυχαίο Δείγμα
• Αρίθμηση κάθε μονάδας του πλαισίου
από 1 έως N.
• Χρήση ενός πίνακα τυχαίων αριθμών ή
ενός μηχανισμού τυχαίας παραγωγής
αριθμών προκειμένου να επιλέξουμε n
διακριτούς αριθμούς μεταξύ του 1 και
του N, συμπεριλαμβανομένων των 1 και
Ν.
• Ευκολότερο να χρησιμοποιηθεί για
μικρούς πληθυσμούς.
• Δύσκαμπτο στη χρήση μεγάλων
πληθυσμών.
Slide 7-8
© 2002 Thomson / South-Western
Απλό Τυχαίο Δείγμα:
Αριθμημένο Πλαίσιο Πληθυσμού
01 Alaska Airlines
02 Alcoa
03 Amoco
04 Atlantic Richfield
05 Bank of America
06 Bell of Pennsylvania
07 Chevron
08 Chrysler
09 Citicorp
10 Disney
© 2002 Thomson / South-Western
11 DuPont
12 Exxon
13 Farah
14 GTE
15 General Electric
16 General Mills
17 General Dynamics
18 Grumman
19 IBM
20 Kmart
21 LTV
22 Litton
23 Mead
24 Mobil
25 Occidental Petroleum
26 JCPenney
27 Philadelphia Electric
28 Ryder
29 Sears
30 Time
Slide 7-9
Απλή Τυχαία Δειγματοληψία:
Πίνακας Τυχαίων Αριθμών
9
5
8
8
6
5
8
9
0
0
6
0
2
9
4
6
8
4
0
5
1
3
5
8
2
9
8
5
7
6
0
0
7
7
5
8
0
6
4
8
7
9
7
0
3
0
6
1
0
9
1
1
8
4
9
5
6
2
7
5
3
6
5
1
7
1
3
6
5
3
4
6
4
5
0
8
9
5
8
2
3
1
5
0
7
3
8
7
8
4
6
3
6
7
9
6
5
8
7
7
7
8
9
3
9
3
6
6
8
4
4
4
7
6
6
9
7
6
8
5
8
8
4
7
8
6
5
8
3
5
5
3
3
2
2
5
4
8
4
7
9
0
6
6
8
0
0
7
8
0
8
9
0
7
9
1
5
1
5
9
9
6
5
1
3
3
9
5
9
6
5
0
5
1
5
3
8
7
9
9
9
4
9
0
0
1
9
9
7
0
0
2
2
4
7
0
9
1
9
5
0
2
6
4
6
6
3
0
9
2
3
7
5
8
4
7
7
4
8
0
8
8
6
1
4
2
0
1
2
9
1
7
2
2
0
6
4
8
5
4
6
4
8
8
2
3
5
4
7
3
1
6
1
8
5
4
0
5
4
6
3
5
3
6
9
4
• N = 30
• n=6
© 2002 Thomson / South-Western
Slide 7-10
1
2
8
1
0
4
9
8
6
7
9
6
1
3
Απλό Τυχαίο Δείγμα:
Στοιχεία Δείγματος
01 Alaska Airlines
02 Alcoa
03 Amoco
04 Atlantic Richfield
05 Bank of America
06 Bell Pennsylvania
07 Chevron
08 Chrysler
09 Citicorp
10 Disney
11 DuPont
12 Exxon
13 Farah
14 GTE
15 General Electric
16 General Mills
17 General Dynamics
18 Grumman
19 IBM
20 KMart
21 LTV
22 Litton
23 Mead
24 Mobil
25 Occidental Petroleum
26 Penney
27 Philadelphia Electric
28 Ryder
29 Sears
30 Time
• N = 30
• n=6
© 2002 Thomson / South-Western
Slide 7-11
Στρωματοποιημένο Τυχαίο Δείγμα
• Ο πληθυσμός διακρίνεται σε μη
επικαλυπτόμενους υποπληθυσμούς που
ονομάζονται στρώματα.
• Ένα τυχαίο δείγμα επιλέγεται από κάθε στρώμα
• Υπάρχει η δυνατότητα να μειωθεί το δειγματικό
σφάλμα.
• Ανάλογο – το ποσοστό τριών δειγμάτων που
επιλέγονται από κάθε στρώμα είναι ανάλογο
του ποσοστού κάθε στρώμα να ανήκει στον
πληθυσμό.
• Δυσανάλογο – αναλογίες των στρωμάτων εντός
του δείγματος διαφέρουν από τις αναλογίες των
στρωμάτων εντός του πληθυσμού.
© 2002 Thomson / South-Western
Slide 7-12
Στρωματοποιημένο Τυχαίο Δείγμα:
Πληθυσμός των ακροατών του FM
Radio
Διάκριση κατά ηλικία
20 - 30 ετών
(ομοογένεια εντός)
(όμοιοι)
30 - 40 ετών
(ομοιογένεια εντός)
(όμοιοι)
40 - 50 ετών
(ομοιογένεια εντός)
(όμοιοι)
© 2002 Thomson / South-Western
Ετερογενείς
(διαφορετικοί)
μεταξύ
Ετερογενείς
(διαφορετικοί)
μεταξύ
Slide 7-13
Συστηματική Δειγματοληψία
• Βολική και σχετικά εύκολη
στη διαχείριση.
• Τα στοιχεία του πληθυσμού
αποτελούν μια διατεταγμένη
ακολουθία (τουλάχιστον,
εννοιολογικά).
• Το πρώτο στοιχείο του
δείγματος επιλέγεται τυχαία
από τα πρώτα k στοιχεία
του πληθυσμού.
• Συνεπώς, τα στοιχεία του
δείγματος επιλέγονται σε
ένα συνεχές διάστημα,
μεγέθους k, από το πλαίσιο
της
διατεταγμένης
© 2002 Thomson / South-Western
ακολουθίας.
k =
N
,
n
όπου :
n =μέγεθος δείγματος
N =Μέγεθος πληθυσμού
k = μέγεθος του διαστήματος
επιλογής
Slide 7-14
Συστηματική Δειγματοληψία:
Παράδειγμα
• Οι εντολές αγοράς για το προηγούμενο
οικονομικό έτος παίρνουν τιμές από 1 έως
10,000 (N = 10,000).
• Ένα δείγμα από πενήντα (n = 50) εντολές
αγορών είναι απαραίτητο για τον έλεγχο.
• k = 10,000/50 = 200
• Το πρώτο στοιχείο του δείγματος επιλέγεται
τυχαία από τις πρώτες 200 αγορές εντολών.
Υποθέτουμε ότι η 45η εντολή αγοράς επιλέχθηκε.
• Επακόλουθα στοιχεία δείγματος: 245, 445,
645...,
© 2002 Thomson / South-Western
Slide 7-15
Δειγματοληψία κατά Συστάδες
• Ο πληθυσμός διακρίνεται σε μη
επικαλυπτόμενες συστάδες ή περιοχές.
• Κάθε συστάδα είναι μια μικρογραφία, ή ένας
μικρόκοσμός, του πληθυσμού.
• Ένα υποσύνολο των συστάδων επιλέγεται
τυχαία για το δείγμα.
• Αν ο αριθμός των στοιχείων σε ένα
υποσύνολο συστάδων είναι μεγαλύτερο από
την επιθυμητή τιμή του n, τότε οι συστάδες
αυτές μπορούν να υποδιαιρεθούν για να
διαμορφώσουν ένα νεό σύνολο συστάδων και
αυτό να υποβληθεί σε μια διαδικασία τυχαίας
επιλογής.
Slide 7-16
© 2002 Thomson / South-Western
Δειγματοληψία κατά Συστάδες
Πλεονεκτήματα
• Πιο βολική για γεωγραφικά διασκορπισμένους
πληθυσμούς.
• Μειωμένα έξοδα μετακίνησης για την συλλογή
πληροφοριών σχετικά με το δείγμα.
• Απλοποιημένη διαχείριση της έρευνας
• Μη διαθεσιμότητα του πλαισίου δειγματοληψίας
απαγορεύει τη χρήση άλλων μεθόδων τυχαίας
δειγματοληψίας.
u Μειονεκτήματα
• Στατιστικά λιγότερο αποτελεσματική όταν τα
στοιχεία των συστάδων είναι παρόμοια.
• Τα διάφορα κόστη και προβλήματα της
στατιστικής ανάλυσης είναι μεγαλύτερα απ΄ό,τι
© 2002 Thomson / South-Western
Slide 7-17
στην απλή τυχαία δειγματοληψία.
u
Δειγματοληψία κατά Συστάδες:
Πόλεις Ελέγχου της Αγοράς των
ΗΠΑ
• Grand Forks
• Fargo
•Boise
•San Jose
• Denver
•San •Phoenix
Diego •Tucson
© 2002 Thomson / South-Western
• Portland
•Buffalo• Pittsfield
• Milwaukee
• Cedar
Rapids
•Cincinnati
• Kansas
•Louisville
City
•Sherman•Odessa- Dension
Midland
•Atlanta
Slide 7-18
Μη Τυχαία Δειγματοληψία
• Δειγματοληψία ευκολίας: τα στοιχεία του
δείγματος επιλέγονται για την ευκολία του
ερευνητή.
• Δειγματοληψία κρίσης: τα στοιχεία του
δείγματος επιλέγονται κατά τη κρίση του
ερευνητή.
• Δειγματοληψία με την χρήση
ποσοστώσεων: τα στοιχεία του δείγματος
επιλέγονται μέχρις ότου ικανοποιηθούν οι
έλεγχοι των ποσοστώσεων.
• Δειγματοληψία χιονστιβάδα: τα θέματα
της έρευνας επιλέγονται με βάση τις
παραπομπές από άλλους συμμετέχοντες
Slide 7-19
στην έρευνα.
© 2002 Thomson / South-Western
Σφάλματα
u
u
u
Δεδομένα που προέρχονται από μη τυχαία δείγματα
δεν είναι κατάλληλα για την ανάλυση επαγωγικών
στατιστικών μεθόδων.
Δειγματικό Σφάλμα προκύπτει όταν το δείγμα δεν
είναι αντιπροσωπευτικό του πληθυσμού.
Μη Δειγματικά Σφάλματα
• Έλλειπή δεδομένα, Καταγραφή, Επεξεργασία
Δεδομένων και Σφάλματα Ανάλυσης.
• Παρανόηση εννοιών, ασαφείς ορισμοί και
ελαττωματικά ερωτηματολόγια.
• Σφάλματα στις απαντήσεις συμβαίνουν όταν οι
άνθρωποι δηλώνουν ότι δεν γνωρίζουν ή δεν λένε
ή υπερεκτιμούν τις απαντήσεις τους.
© 2002 Thomson / South-Western
Slide 7-20
Δειγματική Κατανομή του δειγματικού
μέσου
Σωστή ανάλυση και ερμηνεία ενός στατιστικού
δείγματος απαιτεί γνώση της κατανομής του.
ό x
  ί  
 ό

(ά )
Διαδικασία της
Επαγωγικής
Στατιστικής
ί 
x
(   ό)
ή  ό
ί ί
© 2002 Thomson / South-Western
Slide 7-21
Κατανομή ενός Μικρού
Πεπερασμένου Πληθυσμού
Ιστόγραμμα Πληθυσμού
N=8
3
Συχνότητα
54, 55, 59, 63, 68, 69, 70
2
1
0
52.5
© 2002 Thomson / South-Western
57.5
62.5
67.5
72.5
Slide 7-22
Δειγματικός Χώρος για n = 2
με Επανάθεση
Δείγμα
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
(54,54)
(54,55)
(54,59)
(54,63)
(54,64)
(54,68)
(54,69)
(54,70)
(55,54)
(55,55)
(55,59)
(55,63)
(55,64)
(55,68)
(55,69)
(55,70)
Μέσος
54.0
54.5
56.5
58.5
59.0
61.0
61.5
62.0
54.5
55.0
57.0
59.0
59.5
61.5
62.0
62.5
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
© 2002 Thomson / South-Western
΄Δείγμα
Μέσος
(59,54)
(59,55)
(59,59)
(59,63)
(59,64)
(59,68)
(59,69)
(59,70)
(63,54)
(63,55)
(63,59)
(63,63)
(63,64)
(63,68)
(63,69)
(63,70)
56.5
57.0
59.0
61.0
61.5
63.5
64.0
64.5
58.5
59.0
61.0
63.0
63.5
65.5
66.0
66.5
Δείγμα
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
(64,54)
(64,55)
(64,59)
(64,63)
(64,64)
(64,68)
(64,69)
(64,70)
(68,54)
(68,55)
(68,59)
(68,63)
(68,64)
(68,68)
(68,69)
(68,70)
Μέσος
59.0
59.5
61.5
63.5
64.0
66.0
66.5
67.0
61.0
61.5
63.5
65.5
66.0
68.0
68.5
69.0
Δείγμα
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
(69,54)
(69,55)
(69,59)
(69,63)
(69,64)
(69,68)
(69,69)
(69,70)
(70,54)
(70,55)
(70,59)
(70,63)
(70,64)
(70,68)
(70,69)
(70,70)
Μέσος
61.5
62.0
64.0
66.0
66.5
68.5
69.0
69.5
62.0
62.5
64.5
66.5
67.0
69.0
69.5
70.0
Slide 7-23
Κατανομή Δειγματικών Μέσων
Ιστόγραμμα Δειγματικής Κατανομής
20
Συχνότητα
15
10
5
0
53.75
56.25
© 2002 Thomson / South-Western
58.75
61.25
63.75
66.25
68.75
71.25
Slide 7-24
Κεντρικό Οριακό Θεώρημα
 x ί  έ  ό  ί ί 
έ n ό έ  ό  έ   
 ή ό   , ό   ώ   n ά 
   ή   x  ί    ή
 
  ή ό   
  ή  έ
x
x
© 2002 Thomson / South-Western

.
n
Slide 7-25
Δειγματοληψία από έναν Πληθυσμό
που ακολουθεί την Κανονική
Κατανομή
• Η κατανομή του δειγματικού μέσου είναι
η κανονική για οποιοδήποτε μέγεθος
του δείγματος.
   x ί  έ  ό  ί  ί 
έ n ό έ  ό  ό
 έ    ή ό   ,    ή   x
ί   ή  έ
© 2002 Thomson / South-Western

x
    ή ό 

x

Slide 7-26

n
.
Κατανομή Δειγματικών Μέσων
για διάφορα μεγέθη Δείγματος
Εκθετική
Κατανομή
Ομοιόμορφη
Κατανομή
n=2
n=2
© 2002 Thomson / South-Western
n=5
n=5
n = 30
n = 30
Slide 7-27
Κατανομή Δειγματικών Μέσων
για διάφορα μεγέθη Δείγματος
Κατανομή
U-Σχήματος
Κανονική
Κατανομή
n=2
n=2
© 2002 Thomson / South-Western
n=5
n=5
n = 30
n = 30
Slide 7-28
Τύπος της Z-Κατανομής για τον
Δειγματικό Μέσο
Z 


X
X
X

X 

n
© 2002 Thomson / South-Western
Slide 7-29
Λύση στο Παράδειγμα με το
Κατάστημα με Λάστιχα
ά  ύ :   85,   9
έ ί : n  40

87   X

P( X  87)  P Z 

X





87   
 P Z 

 


n



© 2002 Thomson / South-Western







87  85

 P Z 
9 



40 
 P Z  1.41
.5  ( 0  Z  1.41)
.5.4201
.0793
Slide 7-30
Γραφική Λύση στο Παράδειγμα με το
Κατάστημα με Λάστιχα

X
9
40
 1. 42
 1

.5000
.5000
.4207
.4207
85
87
X
X -  87  85 2
Z=


 1. 41

9
1. 42
n
40
© 2002 Thomson / South-Western
0
1.41 Z
Ίσες περιοχές
μεγέθους .0793
Slide 7-31
Γραφική Λύση για το
Πρόβλημα 7.1

X
 1
3
.4901
.4901
.2486
.2415
441
446 448
.2415
X
X -  441 448
Z=

 2. 33

21
n
49
© 2002 Thomson / South-Western
.2486
-2.33
-.67 0
Z
X -  446 448
Z=

 0. 67

21
n
49
Slide 7-32
Δειγματοληψία από πεπερασμένο
πληθυσμό χωρίς επανάθεση
• Σε αυτή την περίπτωση, η τυπική απόκλιση
της κατανομής του δειγματικού μέσου είναι
μικρότερη από την αντίστοιχη κατανομή όταν
ο πληθυσμός είναι άπειρος (ή όταν πρόκειται
για έναν πεπερασμένο πληθυσμό με
επανάθεση).
• Η σωστή τιμή της τυπικής απόκλισης
υπολογίζεται εφαρμόζοντας έναν
πεπερασμένο παράγοντα διόρθωσης στην
τυπική απόκλιση της δειγματοληψίας από
έναν άπειρο πληθυσμό.
• Εάν το μέγεθος του δείγματος είναι μικρότερο
του 5% του πληθυσμού η συγκεκριμένη
προσαρμογή
© 2002
Thomson / South-Western δεν είναι απαραίτητη.
Slide 7-33
Δειγματοληψία από έναν
Πεπερασμένο Πληθυσμό
• Πεπαρασμένος
παράγοντας
διόρθωσης
• Τροποποημένος
τύπος της Z
© 2002 Thomson / South-Western
N n
N 1
X 
Z

N n
n N 1
Slide 7-34
Πεπερασμένος παράγοντας
διόρθωσης
για Επιλεγμένα Μεγέθη Δείγματος
Μέγεθος
Πληθυσμού
(N)
6,000
6,000
6,000
2,000
2,000
2,000
500
500
500
200
200
200
Μέγεθος Δείγμα %
Τιμή του
Δείγματος του Πληθυσμού Παράγοντα
(n)
30
0.50%
0.998
100
1.67%
0.992
500
8.33%
0.958
30
1.50%
0.993
100
5.00%
0.975
500
25.00%
0.866
30
6.00%
0.971
50
10.00%
0.950
100
20.00%
0.895
30
15.00%
0.924
50
25.00%
0.868
75
37.50%
0.793
© 2002 Thomson / South-Western
Slide 7-35
Δειγματική Κατανομή του p
• Δειγματική αναλογία
X
n
ό :
pˆ 
X   ό  ί   ί  έ       
 ό
n =  ό  ί   ί
• Κατανομή Δειγματοληψίας
• Κατά προσέγγιση κανονική αν nP > 5 and nQ > 5
(P είναι η πληθυσμιακή αναλογία και Q = 1 - P.)
• Ο μέσος της κατανομής είναι P.
• Η τυπική απόκλιση της κατανομής είναι
P Q
n
© 2002 Thomson / South-Western
Slide 7-36
Λύση Προβλήματος 7.3
Παράμετροι Πληθυσμού
P = 0 . 10
Q = 1 - P  1 . 10  . 90
Δείγμα
n = 80
X  12
X 12
p 

 0 . 15
n 80
P ( p  . 15 )  P Z 
. 15   p
 p
 P Z 
 P
. 15  P
PQ
n

. 15  . 10
(. 10 )(. 90 )
80
0 . 05
0 . 0335
 P ( Z  1. 49 )
 P Z 
 . 5  P ( 0  Z  1. 49 )
 . 5  . 4319
 . 0681
© 2002 Thomson / South-Western
Slide 7-37
Γραφική Λύση
προβλήματος 7.3

p
 1
 0. 0335
.5000
.5000
.4319
.4319
0.10
^
0.15 p
0
1.49 Z
p  P 0.15  0.10
0. 05
Z=


 1. 49
PQ
(. 10 )(. 90 ) 0. 0335
n
80
© 2002 Thomson / South-Western
Slide 7-38