05_stichprobentheorie

Download Report

Transcript 05_stichprobentheorie

Stichprobentheorie
Gliederung
• Stichprobentheorie
• z-Werte
• Prozentränge
• Stichprobenkennwerteverteilungen
• Standardfehler
• Konfidenzintervalle
• Stichprobenauswahlverfahren
05_stichprobentheorie
1
Stichprobentheorie
• Für eine statistische Erhebung werden in aller Regel nicht alle
Mitglieder einer Grundgesamtheit bzw. Population untersucht
(Vollerhebung).
• Statt dessen werden eine bestimmte Anzahl N (eine Stichprobe)
der Mitglieder der Population für eine Untersuchung ausgewählt
(Teilerhebung).
• Auf Basis der Stichprobe sollen Aussagen über die
Grundgesamtheit getroffen werden.
• Da nicht alle Informationen vorliegen, ist ein solcher Schluss
naturgemäß mit Unsicherheit belastet.
• Aufgabe der Stichprobentheorie (auch: Inferenzstatistik) ist es,
den Grad der Unsicherheit durch Angabe von Wahrscheinlichkeiten zu quantifizieren.
05_stichprobentheorie
2
Stichprobentheorie
• Aus der Stichprobe kann die Verteilung des Merkmals in der
Population geschätzt werden.
• Häufig wird eine Normalverteilung des Merkmals in der
Population angenommen.
• Die Normalverteilung wird genauer gekennzeichnet durch den
Mittelwert und die Standardabweichung, die aus der Stichprobe
bekannt sind.
05_stichprobentheorie
3
Stichprobentheorie
0,08
μ=40; σ=5
0,06
0,04
μ=50; σ=10
μ=20; σ=15
μ=60; σ=20
0,02
0
0
10
20
30
40
50
60
70
80
90
100
• Alle vier Verteilungen sind normalverteilt!
• Es gibt unendlich viele Normalverteilungen
05_stichprobentheorie
4
Interpretation eines Messwertes
• Wenn ein Merkmal normalverteilt ist, reicht es aus, den
Mittelwert und die Standardabweichung zu kennen, um die
Verteilung in der Population beschreiben zu können.
• Information über die Populationsverteilung braucht man, um
einen konkreten Wert für eine Merkmalsausprägung sinnvoll
interpretieren zu können.
• Beispiele
– Was bedeutet ein Wert von 28 im Optimismusfragebogen (LOT)?
– Was bedeutet ein Wert von 108 in einem Intelligenztest?
• Solche Fragen kann man beantworten, wenn man den Mittelwert
und Standardabweichung berücksichtigt.
05_stichprobentheorie
5
Interpretation eines Messwertes
ˆ  23.10 ˆ  3.60
Beispiel Optimismus (LOT)
0,12
0,10
• xi liegt über dem arithm.
0,08
Mittel
0,06
• Genauer: xi liegt mehr als 0,04
eine Standardabweichung 0,02
über dem arithm. Mittel
0,00
5
10
15
20
25
30
35
• Genauer: Wie viel Prozent
xi = 28
der Bevölkerung geben
Optimismuswerte unter /
über 28 an?
• Um diese Frage zu beantworten, hilft die z-Standardisierung
05_stichprobentheorie
40
6
z-Standardisierung
• Mit der z-Standardisierung wird eine Normalverteilung in eine
Standardnormalverteilung umgewandelt.
• Die Standardnormalverteilung ist die Normalverteilung, für die
gilt:
– μ=0
– σ=1
• Die z-Standardisierung erfolgt in zwei Schritten:
(1) Zunächst wird von jedem Messwert der Mittelwert subtrahiert.
(2) Dann wird das Ergebnis durch die Standardabweichung geteilt.
xi  x
zi 
ˆ
05_stichprobentheorie
7
z-Standardisierung
ˆ  23.10 ˆ  3.60
0,12
0,10
0,08
0,06
0,04
0,02
0,00
5
10
15
20
25
30
xi = 28
35
40
ˆ  0 ˆ  1
0,50
0,40
0,30
0,20
Fläche =
% der
Verteilung
0,10
0,00
-4
05_stichprobentheorie
-3
-2
-1
0
1
2
zi = 1.36
3
4
8
z-Standardisierung
• z Werte können mit Hilfe einer z-Tabelle einfach interpretiert
werden.
• In Tabellen zur Standardnormalverteilung ist immer angegeben,
wie groß die Fläche unter der Kurve links von einem z-Wert ist.
• Die Fläche gibt den Anteil der Verteilung an, deren Werte kleiner
oder gleich des „kritischen“ z-Werts ist.
• Beispiel:
–
–
–
–
–
–
–
xi = 28
zi = 1.36
Fläche(zi) = 0.91
Anteil der z-Werte ≤ 1.36  0.91
91% der Population haben z-Werte kleiner oder gleich 1.36
91% der Population haben Optimismuswerte von 28 oder darunter
Nur 9% der Population sind optimistischer als Person i.
05_stichprobentheorie
9
z-Standardisierung
Die z-Tabelle (Standardnormalverteilung)
z
-3.00
-2.90
-2.80
-2.70
-2.60
-2.50
-2.40
-2.30
-2.20
-2.10
-2.00
-1.90
-1.80
-1.70
-1.60
05_stichprobentheorie
Fläche
0.00
0.00
0.00
0.00
0.00
0.01
0.01
0.01
0.01
0.02
0.02
0.03
0.04
0.04
0.05
z
-1.50
-1.40
-1.30
-1.20
-1.10
-1.00
-0.90
-0.80
-0.70
-0.60
-0.50
-0.40
-0.30
-0.20
-0.10
Fläche
0.07
0.08
0.10
0.12
0.14
0.16
0.18
0.21
0.24
0.27
0.31
0.34
0.38
0.42
0.46
z
0.00
0.10
0.20
0.30
0.40
0.50
0.60
0.70
0.80
0.90
1.00
1.10
1.20
1.30
1.40
Fläche
0.50
0.54
0.58
0.62
0.66
0.69
0.73
0.76
0.79
0.82
0.84
0.86
0.88
0.90
0.92
z
1.50
1.60
1.70
1.80
1.90
2.00
2.10
2.20
2.30
2.40
2.50
2.60
2.70
2.80
2.90
Fläche
0.93
0.95
0.96
0.96
0.97
0.98
0.98
0.99
0.99
0.99
0.99
1.00
1.00
1.00
1.00
10
z-Standardisierung
Interpretation der Ausprägung eines normalverteilten Merkmals
• Erhebung einer Stichprobe
– Berechnung von Mittelwert und Standardabweichung
• Erhebung des Merkmals bei der Person i
• Berechnung des z-Werts
• Nachschlagen der Größe der Fläche unterhalb der z-Verteilung,
die links von zi liegt
• Die Fläche f(zi) gibt an, wie viel Prozent der Population Werte
kleiner oder gleich zi bzw. xi haben.
• 1 - f(zi) gibt an, wie viel Prozent der Population Werte größerzi
bzw. xi haben.
05_stichprobentheorie
11
Prozentränge
• Ein Prozentrang (PR) gibt an, wie viel Prozent der Population
Werte kleiner oder gleich einem kritischen Wert haben.
• Damit entspricht der Prozentrang der Wahrscheinlichkeit des zWerts
• Beispiel: Welchem Prozentrang entspricht ein IQ-Wert von
(a) 130; (b) 92.5; (c) 85; (d) 100; (e) 115?
– Hinweis: μ=100; σ=15
IQ
z(IQ)
PR
130
2.0
98
92.5
-0.5
31
85
-1.0
16
100
0.0
50
115
1.0
84
05_stichprobentheorie
12
Wahrscheinlichkeiten
• Die z-Tabelle ermöglicht es auch, Wahrscheinlichkeitsaussagen
für bestimmte Intervalle zu machen.
• Wie groß ist die Wahrscheinlichkeit für einen IQ-Wert
(a) von 85 bis 115; (b) von 70 bis 130; (c) von 0 bis 70;
(d) von über 100
IQ
z(IQ1)
z(IQ2)
p(z1)
p(z2)
Δp
85 bis 115
-1.0
1.0
.16
.84
.68
70 bis 130
-2.0
2.0
.02
.98
.96
0 bis 70
-6.7
-2.0
.00
.02
.02
> 100
0
∞
.50
1.00
.50
05_stichprobentheorie
13
Wahrscheinlichkeiten
Generell gilt für normalverteilte Merkmale:
• 68.26% der Werte liegen im Bereich:
 1.0   xi    1.0 
bzw.
 1.0  zi  1.0
• 95.44% der Werte liegen im Bereich:
  2.0   xi    2.0 
bzw.
05_stichprobentheorie
 2.0  zi  2.0
14
Stichprobenkennwerteverteilungen
• Wir haben verschiedene Stichprobenkennwerte kennengelernt:
z.B. Mittelwert, Median, Varianz
• Meist interessieren nicht die Werte für die konkrete Stichprobe,
sondern für die zugrundeliegenden Population.
• Die Kennwerte aus einer Stichprobe werden daher als Schätzer
für die entsprechenden Populationskennwerte verwendet
• Je größer eine (repräsentative) Stichprobe, desto genauer ist die
Schätzung.
05_stichprobentheorie
15
Stichprobenkennwerteverteilungen
• Wenn man aus der gleichen Population immer wieder
Stichproben zieht, ergibt sich für jede Stichprobe ein neuer
Mittelwert.
• Wenn man sehr viele Stichproben erhebt, erhält man auch viele
Mittelwerte.
• Nun kann man die Verteilung der resultierenden Mittelwerte
betrachten.
• Diese Verteilung heißt Stichprobenkennwerteverteilung des
Mittelwerts
05_stichprobentheorie
16
Standardfehler
• Diese „Verteilung der der Mittelwerte“ ist selbst wieder
normalverteilt (wenn das Merkmal normalverteilt ist).
• Der Mittelwert der Stichprobenkennwerteverteilung entspricht
dem Mittelwert in der Population.
• Die Streuung der Stichprobenkennwerteverteilung wird als
Standardfehler (des Mittelwerts) bezeichnet.
– Der Standardfehler gibt an, wie nah ein empirischer
Stichprobenmittelwert am wahren Populationsmittelwert liegt.
– Dieser Standardfehler des Mittelwertes kann auch aus einer einzigen
Stichprobe geschätzt werden:
2
ˆ
x
ˆ x
ˆ x 

N
N
05_stichprobentheorie
17
Standardfehler
Beispiel: Unter den Mitarbeiter einer großen Firma soll die
Leistungsmotivation bestimmt werden. Es werden 10 Mitarbeiter
zufällig ausgewählt und getestet.
• Es ergibt sich Mittelwert von 60 bei einer geschätzten
Populationsvarianz von 90.
90
• Wie groß ist der Standardfehler
ˆ
x 
 9 3
dieses Mittelwerts?
10
• Wie groß wäre der Standardfehler
bei σ²=90 und N=10?
250
ˆ x 
 25  5
10
• Wie groß wäre der Standardfehler
bei σ²=90 und N=90?
90
ˆ x 
 1 1
90
05_stichprobentheorie
18
Konfidenzintervalle
• Der Standardfehler ist die Standardabweichung der
Stichprobenkennwerteverteilung.
• Da die Stichprobenkennwerteverteilung normalverteilt ist, kann
die Wahrscheinlichkeit dafür berechnet werden, dass der
Mittelwert in einem bestimmten Intervall liegt.
• Mit p=.68 ist der Populationsmittelwert höchstens einen
Standardfehler vom Stichprobenmittelwert entfernt
• Beispiel: Wenn x  60 und ˆ x  3, dann gilt mit p=.68 für den
Populationsmittelwert :
57    63
05_stichprobentheorie
19
Konfidenzintervalle
• Ein Konfidenzintervall ist ein symmetrischer Bereich um den
Stichprobenmittelwert, in welchem der Populationsmittelwert
mit einer bestimmten Wahrscheinlichkeit liegt.
p( x 1.00ˆ x    x  1.00ˆ x )  .682
p( x  2.00ˆ x    x  2.00ˆ x )  .954
p( x 1.96ˆ x    x  1.96ˆ x )  .95
p( x  2.57ˆ x    x  2.57ˆ x )  .99
05_stichprobentheorie
20
Standardfehler für weitere Kennwerte
Kennwert
Relative Häufigkeit (p)
Median
Arithmetisches Mittel
Standardabweichung
05_stichprobentheorie
Standardfehler
ˆ p 
p  1  p 
N
1.253 ˆ x
ˆ Md 
N
ˆ x
ˆ x 
N
ˆ s 
ˆ
2 N
21
Standardfehler der relativen Häufigkeit
• Wie groß ist der Standardfehler der relativen Häufigkeit von
Frauen unter Psychologiestudierenden (p=.76)?
ˆ p 
p  1  p 
N
.76 1  .76
.76 .24
ˆ p 

 .002  .04
96
96
• Wie groß das 95% Konfidenzintervall?
.76  1.96  .04    .76  1.96  .04
.68    .84
05_stichprobentheorie
22
Standardfehler des Medians
• Wie groß ist der Standardfehler des Medians der Statistikvorkenntnisse?
ˆ Md
1.253 ˆ x

N
ˆ Md 
1.253 20 25.06

 2.53
9.90
98
• Wie groß das 95% Konfidenzintervall?
20  1.96  2.53  Md  20  1.96  2.53
15.04  Md  24.96
05_stichprobentheorie
23
Standardfehler der Standardabweichung
• Wie groß ist der Standardfehler der Standardabweichung der
Statistikvorkenntnisse?
ˆ s 
ˆ s 
ˆ
2 N
19.90 19.90

 1.42
14
2  98
• Wie groß das 95% Konfidenzintervall?
19.90  1.96 1.42    19.90  1.96 1.42
17.12    22.68
05_stichprobentheorie
24
Auswahlverfahren
• Wichtigste Voraussetzung für inferenzstatistische Verfahren ist
die Repräsentatitivität der Stichprobe.
• Daher müssen Stichproben sorgfältig erhoben werden.
• Es gibt unterschiedliche Verfahren, wie Personen für eine
Stichprobe ausgewählt werden.
• Grundsätzlich unterscheidet man zufallsgesteuerte und nichtzufallsgesteuerte Auswahlverfahren.
• In aller Regel sind zufallsgesteuerte Verfahren vorzuziehen, da sie
repräsentative Stichprobenzusammensetzungen gewährleisten.
05_stichprobentheorie
25
Auswahlverfahren
• Zufallsgesteuerte Auswahlverfahren:
–
–
–
–
Uneingeschränkte Zufallsauswahl
Geschichtete Zufallsauswahl
Mehrstufige Zufallsauswahl
Klumpenauswahl.
• Nicht-Zufallsgesteuerte Auswahlverfahren:
– Quotenauswahl
– Ad Hoc Auswahl
– Theoriegeleitete Auswahl
05_stichprobentheorie
26
Uneingeschränkte Zufallsauswahl
• Bei der Uneingeschränkte Zufallsauswahl hat jedes Mitglied
einer Population die gleiche Chance, in die Stichprobe
aufgenommen zu werden.
• Voraussetzung: Man braucht hierfür ein Register, das alle
Personen der Population umfasst (Einwohnermelderegister).
• Meist wird ein Computerverfahren verwendet, dass eine
bestimmte Anzahl von Probanden aus dem Register auswählt.
05_stichprobentheorie
27
Geschichtete Zufallsauswahl
• Bei der Geschichteten Zufallsauswahl wird eine Zufallsauswahl
innerhalb bestimmter Teilpopulationen gebildet.
• Beispiel:
– Um Eigenschaften der Freiburger Psychologiestudierenden zu erfassen,
erfolgt eine Zufallsstichprobe innerhalb jedes Semesters.
– Da in die höheren Semestern kleiner sind, würden dort auch kleinere
Teilpopulationen erhoben (z.B. N = Nsem / 10).
• Vorteil:
– Geringere Varianz innerhalb der Teilpopulationen.
– Dies wirkt sich günstig auf statistische Tests aus.
05_stichprobentheorie
28
Mehrstufige Zufallsauswahl
• Bei der Mehrstufigen Zufallsauswahl wird in mehreren
hierarchischen Schritten wird jeweils eine Teilpopulation zufällig
ausgewählt.
• Beispiel: Untersuchung zum das Coping eines Herzinfarktes
– Zufällige Auswahl einer Stadt
– Zufällige Auswahl einer Klinik (in dieser Stadt)
– Zufällige Auswahl einer Patientenstichprobe (in dieser Klinik).
• Nachteil: Die Repräsentativität der Stichprobe (und damit die
Generalisierbarkeit der Ergebnisse) ist problematisch.
• Empfehlung: Verfahren für mehreren Teilstichproben
wiederholen.
05_stichprobentheorie
29
Klumpenauswahl
• Die Klumpenauswahl ein Spezialfall der mehrstufigen
Zufallsauswahl.
• Als „Klumpen“ wird eine Teilpopulation bezeichnet, die vollständig erhoben wird.
• Beispiel:
– Für eine Untersuchung über die Berufsziele von Psychologiestudierenden
wird zufällig das erste Semester der Uni Freiburg gewählt.
– Dann werden alle 98 Studierenden befragt.
• Nachteil: Die Repräsentativität der Stichprobe (und damit die
Generalisierbarkeit der Ergebnisse) ist problematisch.
• Empfehlung: Mehrere „Klumpen“ verwenden.
05_stichprobentheorie
30
Nicht-zufallsgesteuerte Auswahlverfahren
• Bei Nicht-Zufallsgesteuerten Auswahlverfahren ist die
Repräsentativität immer fraglich.
• Daher kann es zu Fehlern z.B. bei der Schätzung des
Standardfehlers kommen.
• Beispiel:
– Wenn für eine Umfrage eine Gruppe von Freunden befragt wird (z.B. weil
der Interviewer diese gleichzeitig antrifft), dann haben diese in aller Regel
ähnliche Einstellungen, Ansichten und Eigenschaften
– Daher werden sie auch die Fragen in ähnlicher Weise beantworten
– Es ergibt sich eine geringer Varianz
– Dadurch wird der Standardfehler unterschätzt
05_stichprobentheorie
31
Quotenauswahl
• Bei der Quotenauswahl werden Personen so ausgewählt, dass
bestimmte Quoten erfüllt sind (Geschlecht, Alter, Sozialer Status,
etc.).
• Dies ist dann problematisch, wenn
(a) die Quoten nicht den Anteilen an der Population entsprechen, oder
(b) innerhalb der Quoten keine Zufallsauswahl erfolgt
05_stichprobentheorie
32
Ad hoc Auswahl (Gelegenheitsstichprobe)
• Bei der ad hoc Auswahl werden die Personen ausgewählt, die
zum Untersuchungszeitpunkt einfach zu erreichen sind.
• Beispiel:
– Ein Dozent will ein kurzes Experiment machen
– Er beauftragt die Hilfskräfte der Abteilung, daran teilzunehmen, da diese
direkt im Nebenraum sitzen.
05_stichprobentheorie
33
Theoriegeleitete Auswahl
• Bei der Theoriegeleiteten Auswahl erfolgt die Auswahl der
Stichprobe erfolgt nach theoretischen Gesichtspunkten.
• Beispiel:
– Zur Evaluation einer neuen Therapieform werden Patienten mit einer
besonders schweren Zwangserkrankung ausgewählt.
05_stichprobentheorie
34
Zusammenfassung - Stichprobentheorie
• Die Standardnormalverteilung ist eine Normalverteilung mit dem
Mittelwert 0 und der Standardabweichung 1.
• Die Wertetabelle für die Standardnormalverteilung gibt jeweils
an, wie wahrscheinlich es ist, einen Wert, der kleiner oder gleich
z ist, zu erhalten.
• Dieser Wahrscheinlichkeitswert entspricht dem Prozentrang.
• Aus der z-Tabelle können auch Wahrscheinlichkeiten für
bestimmte Intervalle abgelesen werden.
• Besonders wichtig ist das Intervall von -1≤ z ≤ +1. In diesen
„Standardbereich der Verteilung“ fallen 68% der Werte.
05_stichprobentheorie
35
Zusammenfassung - Stichprobentheorie
• Für statistische Kennwerte kann ein Standardfehler berechnet
werden. Dieser entspricht der Streuung der
Stichprobenkennwerteverteilung.
• Die Stichprobenkennwerteverteilung ist normalverteilt.
• Daher kann mit Hilfe des Standardfehlers ein Konfidenzintervall
bestimmt werden.
• Meist werden 95%-Konfidenzintervalle (Mittelwert plus/minus
1.96 Std.-fehler) oder 99%-Konfidenzintervalle (Mittelwert
plus/minus 2.57 Std.-fehler) angegeben.
• Standardfehler können u.a. für das arithmetische Mittel, den
Median, relative Häufigkeiten und die Standardabweichung
berechnet werden.
05_stichprobentheorie
36
Zusammenfassung - Stichprobentheorie
• Voraussetzungen für die Schätzung des Standardfehlers ist eine
die Repräsentativität der Stichprobe (Zufallsauswahl).
• Bei Zufallsauswahlen unterscheidet man die uneingeschränkte
Zufallsauswahl, die geschichtet Zufallsauswahl, die mehrstufige
Zufallsauswahl und die Klumpenauswahl.
• Nichtzufallsgesteuerte Auswahlverfahren beinhalten die
Quotenauswahl, die Ad Hoc Auswahl und die Theoriegeleitete
Auswahl.
05_stichprobentheorie
37