Diagnostik_133_bis

Download Report

Transcript Diagnostik_133_bis

Wie lässt sich die Stärke eines Zusammenhanges
bei kategorialen Werten (nominalskalierten
Werten) auf Basis einer Kreuztabelle, Kontingenztafel bewerten?
Mit Hilfe der
Differenz zwischen
beobachteten und erwarteten Anzahlen
1
Brunnen A
Brunnen B
2
Erkrankt
Nicht-erkrankt
Vier Felder Matrix
Mädchen
und
gut
Mädchen
und
schlecht
Junge
und
gut
Junge
und
schlecht
3
Mädchen
347
Jungen
374
N = 721
Mädchen
und
gut
345
Junge
und
gut
8
gut = 353
Mädchen
und
schlecht
2
Junge
und
schlecht
366
schlecht = 368
4
Eine Dreisatzaufgabe:
Wenn von 721 Schülerinnen und Schülern
353 gut sind,
wie viele müssten dann von 374 (Jungen)
gut sein?
721 = 353
374 = ?
353 mal 374
= 183
721
5
Mädchen
und
Mädchen
gut
347
345
Junge
und
Jungen
gut
374
8 [erwartet 183]
N = 721
gut = 353
Mädchen
und
schlecht
2
Junge
und
schlecht
366
schlecht = 368
6
Gibt es einen Zusammenhang zwischen den Leistungen in den Fächern
Geographie und Grammatik?
Geo * Gram Kreuztabelle
Geo
gut
schlecht
Gesamt
Gerechnet wird:
Anzahl
Erwartete Anzahl
Anzahl
Erwartete Anzahl
Anzahl
Erwartete Anzahl
Gram
gut
schlecht
16
24
16,0
24,0
16
24
16,0
24,0
32
48
32,0
48,0
Gesamt
40
40,0
40
40,0
80
80,0
32 mal 40 = 1280 geteilt durch 80 = 16
Sie können diese Berechnung selbstverständlich auch als Dreisatz formulieren:
von 80 (Gesamt)
sind in Gram gut
von 40 (Gesamt in Geo gut) sind in Geo gut
32
X
7
Die Stärke des Zusammenhangs
ergibt sich logisch aus der Größe
der Differenz zwischen erwartet
und beobachtet.
Berechnet werden kann diese
Stärke bspw. durch das sog.
Chi-Quadrat.
8
Konvention über den Aufbau: abhängige Variable in die Spalte, unabhängige in Zeile
class * survival Kreuztabelle
class
First Class
Second Class
Third Class
Crew
Gesamt
Anzahl
Erwartete Anzahl
Anzahl
Erwartete Anzahl
Anzahl
Erwartete Anzahl
Anzahl
Erwartete Anzahl
Anzahl
Erwartete Anzahl
survival
Survival
Missing
203
122
105,0
220,0
118
167
92,1
192,9
178
528
228,1
477,9
212
673
285,9
599,1
711
1490
711,0
1490,0
Gesamt
325
325,0
285
285,0
706
706,0
885
885,0
2201
2201,0
9
Summary Table: Expected Frequencies (Titanic) Marked cells have counts > 10
Pearson Chi-square: 190,401, df=3, p=0,00000
class
survival Survival
survival Missing
Row - Totals
First Class
104,9864
220,014
325,000
Second Class
92,0650
192,935
285,000
Third Class
228,0627
477,937
706,000
Crew
285,8860
599,114
885,000
All Grps
711,0000
1490,000
2201,000
10
class * survival Kreuztabelle
class
First Class
Second Class
Third Class
Crew
Gesamt
Anzahl
Erwartete Anzahl
Anzahl
Erwartete Anzahl
Anzahl
Erwartete Anzahl
Anzahl
Erwartete Anzahl
Anzahl
Erwartete Anzahl
survival
Survival
Missing
203
122
105,0
220,0
118
167
92,1
192,9
178
528
228,1
477,9
212
673
285,9
599,1
711
1490
711,0
1490,0
Gesamt
325
325,0
285
285,0
706
706,0
885
885,0
2201
2201,0
Berechnet werden die Zahlen „Erwartet“ wie folgt:
In der ersten Zeile wurden 203 Gerettete beobachtet. Die Gesamtzahl der Passagiere
in der ersten Klasse betrug 325. Ingesamt wurden 711 Personen gerettet, an Bord
waren insgesamt 2201 Personen. Die Rechnung lautet jetzt:
711 mal 325 = 231075, geteilt durch 2201 macht 104,98 (~ 105)
Sie können diese Berechnung selbstverständlich auch als Dreisatz formulieren:
von 2201 (Gesamt)
überlebten 711
von 325 (erste Klasse) überlebten X
11
Der „Chi-Quadrat-Test“ zur Überprüfung der Unabhängigkeit von zwei Variablen
Mit diesem Test kann die Unabhängigkeit von zwei Variablen, und damit indirekt auch
die Größe des Zusammenhangs zwischen zwei Variablen geprüft werden.
Von Bedeutung ist dieser Test bspw. wenn der Frage nachgegangen werden soll,
ob – um bei dem Beispiel der Titanic zu bleiben – das Alter oder das Geschlecht
eine größere Rolle bei der Frage des Überlebens gespielt hat.
Dazu rufen wir wieder die Dialogbox „Kreuztabelle“ auf und setzen wieder, wie auf der
nächsten Folie ersichtlich, „class“ in die Zeile und „survival“ in die Spalte.
Jetzt klicken wir das Fenster „Statistik“ an und erhalten die folgende Dialogbox.
Chi-Quadrat =
∑
(„Wert beobachtet“ – „Wert erwartet“)2
„Wert erwartet“
12
13
14
Chi-Quadrat
15
Betrachten wie nun die Tabellen und Werte des Chi-Quadrats:
age * surv ival Kreuztabelle
age
Adult
Children
Gesamt
survival
Survival
Missing
654
1438
675,8
1416,2
57
52
35,2
73,8
711
1490
711,0
1490,0
Anzahl
Erwartete Anzahl
Anzahl
Erwartete Anzahl
Anzahl
Erwartete Anzahl
Gesamt
2092
2092,0
109
109,0
2201
2201,0
Chi-Quadrat-Tests
Wert
Chi-Quadrat nach
Pearson
Kontinuitätskorrektur a
Likelihood-Quotient
Exakter Test nach Fisher
Zusammenhang
linear-mit-linear
Anzahl der gültigen Fälle
Asymptotisch
e Signifikanz
(2-seitig)
df
b
20,956
1
,000
20,005
19,561
1
1
,000
,000
Exakte
Sig nifikanz
(2-seitig)
Exakte
Sig nifikanz
(1-seitig)
,000
20,946
1
,000
,000
2201
a. Wird nur für eine 2x2-Tabelle berechnet
b.
Zellen (,0%) haben eine erwartete Häufigkeit kleiner 5. Die minimale erwartete Häufigkeit
Damit haben wir für die0istVariablen
„Überleben/Klasse“
35,21.
einen Chi-Quadrat-Test Wert von
190,401
und für die Variablen „Überleben/Alter“ einen Wert von
20,956
Was sagen diese Werte aus?
16
class * survival Kreuztabelle
class
First Class
Second Class
Third Class
Crew
Gesamt
Anzahl
Erwartete Anzahl
Anzahl
Erwartete Anzahl
Anzahl
Erwartete Anzahl
Anzahl
Erwartete Anzahl
Anzahl
Erwartete Anzahl
Anschließend wird
dieser Wert quadriert,
(um nur positive Werte
zu erhalten) und durch
die „erwarteten Werte“
dividiert.
Diese Werte werden
schließlich aufaddiert
und wir erhalten den
Wert des
Chi-Quadrat-Tests!
survival
Survival
Missing
203
122
105,0
220,0
118
167
92,1
192,9
178
528
228,1
477,9
212
673
285,9
599,1
711
1490
711,0
1490,0
Gesamt
325
325,0
285
285,0
706
706,0
885
885,0
2201
2201,0
Um diese Frage zu beantworten soll
erläutert werden, wie die Werte
errechnet werden. Aus der Kreuztabelle
werden die Werte für „Beobachtet“
und „Erwartet“ jeder Zeile wie in der
unteren Tabelle zu sehen voneinander
abgezogen.
Beobachtet
B
Erwartet
E
B-E
(B-E) ²
(B-E)² /E
203
105
98
9604
91,46
122
220
-98
9604
43,65
118
92
26
676
7,34
167
193
-26
676
3,50
178
228
-50
2500
10,01
528
478
50
2500
5,23
212
286
-74
5476
19,15
673
599
74
5476
9,14
17
∑ 189,48
Einige Lehrbücher berechnen den Wert so:
Um diese Frage zu beantworten soll
erläutert werden, wie die Werte
errechnet werden. Aus der Kreuztabelle
werden die Werte für „Beobachtet“
und „Erwartet“ jeder Zeile wie in der
unteren Tabelle zu sehen voneinander
abgezogen.
class * survival Kreuztabelle
class
First Class
Second Class
Third Class
Crew
Gesamt
Anzahl
Erwartete Anzahl
Anzahl
Erwartete Anzahl
Anzahl
Erwartete Anzahl
Anzahl
Erwartete Anzahl
Anzahl
Erwartete Anzahl
survival
Survival
Missing
203
122
105,0
220,0
118
167
92,1
192,9
178
528
228,1
477,9
212
673
285,9
599,1
711
1490
711,0
1490,0
Anschließend wird
die Wurzel aus
dem Wert E gezogen,
denn B-E durch
die Wurzel E
geteilt und
schließlich wird
das Ganze
quadriert (um nur
positive Werte
zu erhalten). Diese
Werte werden
schließlich aufaddiert
und wir erhalten den
Wert des
Chi-Quadrat-Tests!
Gesamt
325
325,0
285
285,0
706
706,0
885
885,0
2201
2201,0
Beobachtet
B
Erwartet
E
203
105
122
B-E
SQRT(E)
B-E/SQRT(E)
(B-E/SQRT (E))²
98
10,24
9,57
91,58
220
-98
14,83
-6,60
43,56
118
92
26
9,59
2,71
7,34
167
193
-26
13,89
-1,87
3,49
178
228
-50
15,09
-3,31
10,95
528
478
50
21,86
2,28
5,19
212
286
-74
16,91
-4,37
19,09
673
599
74
24,47
3,02
9,12
18
∑ 190,32
Um einen Aspekt zu verstehen, der diesem Wert entnommen werden kann,
verdeutlichen wir uns einmal den Fall, bei dem der beobachtetet Wert nahezu dem
erwarteten Wert entspricht:
Beobachtet B
Erwartet E
B-E
SQRT(E)
B-E/SQRT(E)
(B-E/SQRT (E))²
243
242
1
15,58
0,064
0,00411
Anschließend den Wert, der einer maximal möglichen Abweichung entspricht:
Beobachtet B
Erwartet E
B-E
SQRT(E)
B-E/SQRT(E)
(B-E/SQRT (E))²
1
243
-242
15,58
-15,53
241,18
Dieser Vergleich zeigt (hoffentlich) deutlich (einen der) hier zugrunde liegenden
Aspekte: Je höher der Chi-Quadrat-Test Wert, desto größer der Zusammenhang
zwischen den betrachteten Variablen.
Zurück zu der gestellten Frage ergibt sich folglich, dass die Variablen „Klasse“
mit dem Chi-Quadrat-Test Wert von 190,401 einen höheren Zusammenhang
zwischen dieser Variablen und dem Überleben aufweist, als die Variable „Alter“
mit einem Wert von nur 20,956.
Kurz: Mit Hilfe des Chi-Quadrat-Test Wertes kann die Stärke des Zusammen19
hang zwischen verschiedenen Variablen vergleichend beurteilt werden.
Chi-Quadrat-Tests
gender
Male
age
Adult
Children
Female
Adult
Children
Wert
Chi-Quadrat nach
Pearson
Likelihood-Quotient
Zusammenhang
linear-mit-linear
Anzahl der gültigen Fälle
Chi-Quadrat nach
Pearson
Likelihood-Quotient
Zusammenhang
linear-mit-linear
Anzahl der gültigen Fälle
Chi-Quadrat nach
Pearson
Likelihood-Quotient
Zusammenhang
linear-mit-linear
Anzahl der gültigen Fälle
Chi-Quadrat nach
Pearson
Likelihood-Quotient
Zusammenhang
linear-mit-linear
Anzahl der gültigen Fälle
a
37,988
39,610
,123
1667
b
25,747
32,087
21,731
64
c
117,311
126,601
73,012
425
d
Es ist Asymptotisch
auch möglich, um
e Signifikanz
eine
weitere
df
(2-seitig) Variante zu
zeigen,
sich,000die Chi3
3
,000
Quadrat-Werte
geschichtet
1
,726lassen – eine
anzeigen
zu
ggf. übersichtlichere
2
,000
Darstellungsform.
,000 dass von
Es 2zeigt sich,
,000
den1 hier vorliegenden
Variablen die
3
,000
Kombination
„Female/Adult“
,000
den3 größten
Einfluss auf
,000
die1Frage „Überleben“
oder
„Nicht-Überleben“ hatte.
12,339
2
,002
16,983
2
,000
11,131
1
,001
20
45
Wie lässt sich die Stärke eines Zusammenhanges
bei numerischen Werten (intervallskalierten
Werten) auf Basis einer Korrelationsanalyse
bewerten?
Mit Hilfe des sog.
Korrelationskoeffizienten
21
Ausgangspunkt: Ein Streudiagramm oder Scatterplot
Körperlänge
Für jede Person, jedes Objekt
wird ein Wert erhoben oder
gemessen und am Schnittpunkt
der beiden Werte wird eine
Markierung eingetragen
Gewicht
22
Körperlänge
Ausgangspunkt: Ein Streudiagramm oder Scatterplot
Gewicht
23
Körperlänge
Ausgangspunkt: Ein Streudiagramm oder Scatterplot
Gewicht
24
Körperlänge
Ausgangspunkt: Ein Streudiagramm oder Scatterplot
Sog.
Regressionsgrade
Gewicht
25
Körperlänge
Ausgangspunkt: Ein Streudiagramm oder Scatterplot
Summe der
kleinsten
Quadrate
Gewicht
26
Ausgangspunkt: Ein Streudiagramm oder Scatterplot
Körperlänge
Korrelation: Je kleiner die Summe der kleinsten
Quadrate, desto stärker der Zusammenhang
Summe der
kleinsten
Quadrate
Gewicht
27
Einzelwerte für Variable B
Korrelationskoeffizient 0
Einzelwerte für Variable A
28
Einzelwerte für Variable B
Korrelationskoeffizient hoch, positiv
Einzelwerte für Variable A
29
Einzelwerte für Variable B
Korrelationskoeffizient hoch, negativ
Einzelwerte für Variable A
30
Positiver korrelativer Zusammenhang: „Je mehr, desto mehr“
Korrelationskoeffizient +1.0
Negativer korrelativer Zusammenhang: „Je mehr, desto weniger“
Korrelationskoeffizient -1.0
31
Leistungen in Klasse A und in Klasse B
A
A
A
A
A
A
A
A
B
A
B
B
B
A
B
B
A
B
B
B
A
B
B
B
B
B
32
Verlauf über die Zeit
Leistungen in Klasse A und in Klasse B
A
A
A
A
A
A
A
A
B
A
B
B
B
A
B
B
A
B
B
B
A
B
B
B
B
B
33
Verlauf über die Zeit
Leistungen in Klasse A und in Klasse B
A
A
A
B
A
A
Ausreißer
A
A
B
A
B
B
A
B
B
A
B
B
B
B
A
B
B
B
A
B
Verlauf über die Zeit
34
A
A
Leistungen in Klasse B
A
A
A
Böse Falle Null:
Missing Value:
Für eine Person
liegen keine Angaben zu
der Leistung in Klasse B vor
A
A
A
A
A
A
0
A
Leistungen in Klasse35A
Scores of 12th graders on standardized tests (index for average: 100 pts)
GEOMETRY
READING
GRAMMAR
DRAWING
CALCULUS
HISTORY
WRITING
SPELLING
1
98,655
98,483
98,094
99,163
97,853
99,987
96,858
98,583
2
98,701
100,394
98,870
97,872
100,313
103,135
100,480
98,112
3
98,399
97,799
98,822
96,949
96,796
101,657
96,900
98,823
4
98,032
100,207
101,876
98,151
99,570
102,063
101,035
99,924
5
97,962
99,147
98,886
99,318
100,372
101,457
98,850
98,691
6
98,981
102,662
103,544
98,116
98,054
102,774
102,450
104,772
7
94,024
98,124
97,377
92,904
92,288
101,826
98,890
96,106
8
99,410
106,941
108,109
98,651
99,025
107,434
104,996
106,469
9
100,327
98,228
97,282
101,636
102,193
100,004
97,964
98,979
10
99,014
99,284
99,634
98,339
98,468
101,214
100,687
101,721
11
102,358
99,548
99,599
103,473
103,778
102,091
99,776
97,062
12
98,470
99,212
98,047
97,710
99,047
99,465
97,632
95,526
13
97,689
103,773
104,649
96,524
95,386
105,934
103,168
103,302
14
102,657
96,935
98,332
102,945
103,428
97,203
98,076
99,835
15
101,586
94,367
94,817
100,865
102,702
95,990
96,305
93,534
16
102,202
97,450
99,258
101,766
102,481
100,471
96,756
99,404
17
101,536
100,455
99,534
100,060
99,558
103,421
100,778
100,099
18
98,469
100,804
99,322
97,412
97,612
103,925
99,504
101,752
19
102,980
99,128
97,710
102,023
103,068
102,579
98,051
98,455
20
99,450
103,106
103,938
100,844
99,197
106,890
102,378
103,188
21
100,607
103,657
103,662
101,333
100,136
105,343
103,572
104,477
36
106
104
GEOMETRY
102
100
98
96
94
92
92
94
DRAWING:GEOMETRY :
96
98
100
2
DRAWING
r = 0,9032; p = 0.0000;
=
r 0,8159
102
104
106
37
Beachten Sie den Korrelationsquotienten!
120
100
GEOMETRY
80
60
40
"Übeltäter": der Ausreiß er
20
0
-20
92
94
DRAWING:GEOMETRY :
96
98
100
2
DRAWING
r = -0,0787; p = 0,4879;
=
r 0,0062
102
104
106
38
Beachten Sie den Korrelationsquotienten!
Welche Möglichkeiten des Umgangs mit fehlenden Werten gibt es?
Y
Y
X
Bei kategorialen Merkmalen
häufigste Ausprägung der
k nächsten Nachbarn
X
Bei metrischen Merkmalen
durchschnittlicher Wert der
k nächsten Nachbarn
Aber auch: Missing Values rauswerfen!
39
106
104
DRAWING
102
100
98
96
94
92
90
SPELLING:DRAWING:
92
94
96
98
100
102
2
r = 0,0164; p = 0,8850;
= r0,0003
104
106
108
110
112
SPELLING
40
Wie kann der Befund von Snow transformiert
werden und wozu?
• Um Vergleiche zwischen den Stärken des
Effekts möglich zu machen
• Um die wirkungsvollsten Interventionsansatz
zu bestimmen
• Um die Wirkungen von Interventionen
abschätzen zu können
•…
• ..
41
42
„Snow“ enthält kategoriale Daten:
• Brunnen
• An Cholera Verstorbene
Wie ließen sich diese kategorialen
Daten in numerische übertragen?
43
Beispiel:
44
Distanz
Anzahl der Erkrankten
45
Distanz
Anzahl der Erkrankten
46
Distanz
Anzahl der Erkrankten
47
Distanz
„Schwelle“
Anzahl der Erkrankten
48
Distanz
Anzahl der Erkrankten
49
1,04
1,02
1,00
Mean±0,95 Conf. Interval
0,98
0,96
0,92
0,90
Mean
Pitch
0,94
0,88
0,86
0,84
0,82
Pitch
Pitch
profession: Novize
profession: Experte
50
202,5
202,0
Mean±0,95 Conf. Interval
201,5
200,5
200,0
Mean
Heading_deg
201,0
199,5
199,0
198,5
Heading_deg
Heading_deg
profession: Novize
profession: Experte
51
10,4
10,2
Mean±0,95 Conf. Interval
10,0
9,6
9,4
Mean
Speed_kn
9,8
9,2
9,0
8,8
Speed_kn
Speed_kn
profession: Novize
profession: Experte
52
53
60
50
„schlecht“
Fehler
40
30
„gut“
20
10
0
1
3
5
7
9
11
13
15
17
19
54
Unterschiede messen
Median ist der Punkt, bei dem die eine Hälfte der Werte oberhalb
und die andere unterhalb dieses Punktes liegt
Median Mean
0
1
2
3
4
5
6
7
8
9
10
Der Mittelwert wird berechnet durch die Summe aller Werte geteilt durch die
Anzahl der Werte
55
Mathematisch wird die Berechnung des
Mittelwertes so dargestellt:
X=
X
∑
∑ xi
n
ausgesprochen: X Strich oder x quer ist das Symbol für den Mittelwert
dies ist der griechische Großbuchstabe für Sigma und das sog.
Summenzeichen, d.h. alle Messwerte müssen addiert werden
xi
dieses Zeichen steht für sämtliche Einzelmesswerte
n
und n steht schließlich für die Anzahl der durchgeführten Messungen
56
Unterschiede messen
Zwei weit verbreite, einfache Methoden:
• Zwischen zwei Klassen unterscheiden: Gut ↔ Schlecht
• Zwischen vier (oder einer anderen Anzahl von)
Perzentilen unterscheiden
57
Unterschiede messen
Keine Variation vorhanden
58
Unterschiede messen
In welchem Maß ist
Variation vorhanden?
Erste Ebene: Spannbreite (R für range)
R = Xmax – Xmin
59
Unterschiede messen
In welchem Maß ist
Variation vorhanden?
Zweite Ebene: Summe der quadrierten Fehler (Abweichungen)
σ² =
∑ ( xi
-
2
X)
n-1
Mean
60
Unterschiede messen
In welchem Maß ist
Variation vorhanden?
Dritte Ebene: Standardabweichung
√
σ=
∑ ( xi
-
2
X)
n-1
Mean
61
Unterschiede messen
In welchem Maß ist
Variation vorhanden?
Vierte Ebene: z-Transformation
Abstand jeder Messung zum Mittelwert,
geteilt durch die Standardabweichung
z=
Mean
0
xi
-
σx
X
Mean
0
Alle Mittelwerte werden Null,
die Abstände werden standardisiert;
die relative Lage jeder Messung kann verglichen werden
62
63
(leicht hinkender Vergleich)
Sie wollen verschieden formatige, verschieden große Bilder
auf eine Seite bringen
64
(leicht hinkender Vergleich)
Sie wollen verschieden formatige, verschieden große Bilder
auf eine Seite bringen
65
Mittelwerte:
64,55
49,26
Std.-Abw.:
11,623
29,831
66
Wirkung der Z-Transformation:
67
Mit Hilfe dieser Grafik wird erkennbar, was die Prozentränge
im Unterschied zu den Z-standardisierten Werten angeben:
-20
0
20
40
60
80
100
120
Am linken Rand sind die
Rohwerte abgetragen,
am oberen Rand die
Prozentränge und am
unteren Rand die
z-standardisierten Werte.
108,323
105,041
103,749
102,704
101,433
100,339
Wie ersichtlich, hat der
höchste Rohwert den
Prozentrang 100 und den
Z-Wert +3. Der niedrigste
Rohwert hingegen den
Prozentrang 1,25 und den
Z-Wert -2.
99,835
99,412
98,823
98,112
97,404
96,106
95,147
ZSPELLING(L)
PSPELLIN(R)
92,547
-3
-2
-1
0
1
2
3
4
Prozentränge
cum f % = 100
(N = 300)
Rohwert
Fälle
f
cum f
5
25
25
98
4
18
18
3
19
2
cum f
N
cum f %
PR
73
24,3
24
19
55
18,3
18
15
15
36
12,0
12
1
12
12
21
7,0
7
0
9
9
9
3,0
3
80
..
..
300 = 100 %
9= x %
69
sog. ‚Absoluter Rangwert‘:
1. Rang + 2. Rang/2 = 1,5
Werte mal 100/Max-Wert:
2*100 = 200/30 = 6,66666
Relative Rangfolge in %:
20 = 100 %
1,5 =
x%
Z-Transformation
70
Line Plot of VAR00001
Beispiel_Z_Proz_Werte 4v *20c
35
120
30
100
25
80
20
60
15
40
10
20
5
0
0
1
2
3
4
5
6
7
8
0
9 10 11 12 13 14 15 16 17 18 19 20 21
VAR00001(L)
PVAR0000(R)
71
Line Plot of VAR00001
Beispiel_Z_Proz_Werte 4v *20c
35
1,2
1,0
30
0,8
0,6
25
0,4
0,2
20
0,0
-0,2
15
-0,4
-0,6
10
-0,8
-1,0
5
-1,2
0
0
1
2
3
4
5
6
7
8
-1,4
9 10 11 12 13 14 15 16 17 18 19 20 21
VAR00001(L)
ZVAR00001(R)
72
Line Plot of VAR00001
Beispiel_Z_Proz_Werte 4v *20c
35
120
30
100
25
80
20
60
15
40
10
20
5
0
0
1
2
3
4
5
6
7
8
0
9 10 11 12 13 14 15 16 17 18 19 20 21
VAR00001(L)
Real_Proz(R)
73
4
Häufigkeiten
3
2
1
0
2
3
4
5
26
N_A_1
27
28
29
30
74
35
30
25
20
15
10
5
N_A_1
0
0
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20 21
75
0
30,00
30,00
29,00
29,00
29,00
28,00
28,00
28,00
27,00
27,00
26,00
5,00
4,00
4,00
4,00
3,00
3,00
3,00
2,00
2,00
120
1,2
1,0
100
0,8
0,6
80
0,4
0,2
0,0
60
-0,2
-0,4
40
-0,6
-0,8
20
-1,0
-1,2
-1,4
PN_A_1(L)
ZN_A_1(R)
76
4
Häufigkeiten
3
2
1
0
2
3
4
12
13
14
15
N_A_2
16
17
27
28
29
30
77
35
30
25
20
15
10
5
0
0
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20 21
N_A_2
78
0
30,00
30,00
29,00
28,00
28,00
27,00
17,00
16,00
15,00
14,00
13,00
13,00
12,00
4,00
4,00
3,00
3,00
3,00
2,00
2,00
120
1,6
1,4
1,2
100
1,0
0,8
80
0,6
0,4
60
0,2
0,0
-0,2
40
-0,4
-0,6
-0,8
20
-1,0
-1,2
-1,4
PN_A_2(L)
ZN_A_2(R)
79
3
Häufigkeiten
2
1
0
2
3
4
7
9
11
12 13
14
16 17
N_A_3
19 21
24
25 26
28 29
30
80
35
30
25
20
15
10
5
N_A_3
0
0
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20 21
81
0
30,00
29,00
28,00
26,00
25,00
24,00
21,00
19,00
17,00
16,00
14,00
13,00
12,00
12,00
11,00
9,00
7,00
4,00
3,00
2,00
120
2,0
1,5
100
1,0
80
0,5
60
0,0
-0,5
40
-1,0
20
-1,5
-2,0
PN_A_3(L)
ZN_A_3(R)
82
1
Rangreihe:
2
3
4
5
• Einfache Aussage über Reihenfolge
• Hohe Reliabilität, etwa durch Paarvergleich
• Keine Informationen über Abstände
• Vergleichbarkeit nur bei identischen N‘s
6
7
8
83
Quartile:
1
I. Quartil
2
3
II. Quartil
4
5
III. Quartil
6
• Grobe Aussage über die
Stellung in einer Reihe
• Hohe Reliabilität, weil recht ‚simpel‘
• Sehr grobe Informationen
über Abstände
• Einfache Vergleichbarkeit über
verschiedene Bereiche hinweg
7
VI. Quartil
8
84
Werte Quartil Prozentrang
30
4
100,00
28
4
90,00
21
3
80,00
16
3
70,00
12
3
60,00
11
2
50,00
6
2
40,00
5
2
30,00
1
1
20,00
0
1
10,00
Prozentrang:
• Aussage über
die Stellung in einer
Reihe
• Reliabilität von
der Messung abhängig
• Keine Informationen
über Abstände
• Einfache Vergleichbarkeit über verschiedene
Bereiche hinweg
85
Werte Relativer Prozentrang
30
100,00
28
93,33
21
70,00
16
53,33
12
40,00
11
36,67
6
20,00
5
16,67
1
3,33
0
,00
Relativer Prozentrang:
(100*Wert)/MaxWert
• Genaue Aussage über
die Stellung in einer
Reihe
• Reliabilität von
der Messung abhängig
• Informationen
über Abstände
• Einfache Vergleichbarkeit über verschiedene
Bereiche hinweg
86
87
Werte
30
28
21
16
12
11
6
5
1
0
Rel. % Z-Werte
100,00 1,59844
93,33 1,41039
70,00
,75221
53,33
,28208
40,00
-,09403
36,67
-,18805
20,00
-,65818
16,67
-,75221
3,33
-1,12831
,00
-1,22234
Note
2
2
3
3
4
4
4
4
5
5
88
Umwandlung eines numerischen Wertes in einen kategorialen Wert
12
10
Häufigkeiten
8
6
4
2
0
93
WRITING:
94
95
96
97
98
99 100 101 102 103 104 105 106 107 108 109
WRITING
N = 80; Mw. = 99,82; Stdabw. = 3,3777;
Max. = 109,1118; Min. = 93,5138
89
Mittelw.
Median
Minimum
Maximum
Stdabw.
80
99,82004
99,56863
93,51375
109,1118
3,377652
Deskriptive Statistik (School perfomance)
12
10
"Schlechte
Schreiber"
"Gute Schreiber"
8
Häufigkeiten
WRITING
Gült. N
6
4
2
0
93
WRITING:
94
95
96
97
98
99 100 101 102 103 104 105 106 107 108 109
90
WRITING
N = 80; Mw. = 99,82; Stdabw. = 3,3777;
Max. = 109,1118; Min. = 93,5138
Mittelwert:
Arithmetisches Mittel =
Summe aller beobachteten
Merkmalswerte dividiert durch die
Anzahl der Beobachtungen
Median (auch Zentral- oder 50% Wert):
Der Median ist der Wert für den gilt,
dass 50% aller Werte größer oder
gleich sind. Der Median halbiert
die Stichprobenverteilung
91
Gült. N
Mittelw.
Median
Minimum
Maximum
Stdabw.
Deskriptive Statistik (School perfomance)
90
121,5067
100,1944
93,51375
410,0000
66,48269
50
Mw. = Mittelwert
45
40
35
Häufigkeiten
WRITING
Median
30
25
20
15
10
5
0
50
WRITING:
100
150
200
250
300
350
400
N = 90; Mw. = 121,5067; Stdabw. =WRITING
66,4827; Max. = 410; Min. = 93,5138
450
92
Gült. N Mittelw.
WRITING 80
Minimum Maximum Stdabw.
99,82004 99,56863 93,51375
Gült. N Mittelw.
WRITING 90
Median
Median
109,1118
3,377652
Minimum Maximum Stdabw.
121,5067 100,1944 93,51375
410,0000
66,48269
93
94
60
Gruppenzugehörigkeit:
A
50
40
Fehler
Gruppenzugehörigkeit:
B
30
Gruppenzugehörigkeit:
C
20
10
0
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16 17 18 19 20 95
60
50
Gibt es „Muster“ in der Verteilung?
Fehler
40
30
20
10
0
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16 17 18 19 20 96
8
7
6
5
4
3
2
1
0
0,0
0,2
0,4
0,6
0,8
1,0
1,2
1,4
1,6
1,8
2,0
2,2
2,4
97
2,6
8
7
6
5
4
3
2
1
0
0,0
0,2
0,4
0,6
0,8
1,0
1,2
1,4
1,6
1,8
2,0
2,2
2,4
2,6
98
8
7
6
5
4
3
2
1
0
0,0
0,2
0,4
0,6
0,8
1,0
1,2
1,4
1,6
1,8
2,0
2,2
2,4
99
2,6
Kelchlänge
Kelchbreite
Blattlänge
Blattbreite
Iristyp
1
5
3,3
1,4
0,2
Setosa
2
6,4
2,8
5,6
2,2
Virginic
3
6,5
2,8
4,6
1,5
Versicol
4
6,7
3,1
5,6
2,4
Virginic
5
6,3
2,8
5,1
1,5
Virginic
6
4,6
3,4
1,4
0,3
Setosa
7
6,9
3,1
5,1
2,3
Virginic
8
6,2
2,2
4,5
1,5
Versicol
9
5,9
3,2
4,8
1,8
Versicol
10
4,6
3,6
1
0,2
Setosa
11
6,1
3
4,6
1,4
12
6
2,7
5,1
1,6
13
6,5
3
5,2
2
14
5,6
2,5
3,9
1,1
15
6,5
3
5,5
1,8
Virginic
16
5,8
2,7
5,1
1,9
Virginic
17
6,8
3,2
5,9
2,3
Virginic
18
5,1
3,3
1,7
0,5
Setosa
19
5,7
2,8
4,5
1,3
Versicol
20
6,2
3,4
5,4
2,3
Virginic
21
7,7
3,8
6,7
2,2
Virginic
22
6,3
3,3
4,7
1,6
Versicol
23
6,7
3,3
5,7
2,5
Virginic
24
7,6
3
6,6
2,1
Virginic
25
4,9
2,5
4,5
1,7
Virginic
Fisher (1936) Irisdaten:
Länge und Breite von Blättern und Kelchen
für 3 Iristypen
Durch was unterscheiden
sich die drei Iristypen?
Versicol
Versicol
Virginic
Versicol
100
• Kategoriale Werte (gut/schlecht)
• Metrische Werte (1, 2, 3, 4, ..)
[Nominale, Ordinale Werte]
Split:
Welche Variable trennt am
besten bei welchem Wert?
CART
(classification
and regression
trees)
101
Scatterplot für Blattlänge vs. Blattbreite
Irisdat 5v*150c
8
7
6
Blattlänge
5
4
3
2
1
0
0,0
0,2
0,4
0,6
0,8
1,0
1,2
1,4
Blattbreite
1,6
1,8
2,0
2,2
2,4
102
2,6
4,6
S
4,4
S
4,2
S
S
4,0
3,8
Kelchbreite
3,6
3,4
3,2
3,0
2,8
2,6
2,4
2,2
S
S
S
V
SS
SS
V
SSS
S
S S SSS S
VER V V
SS
VER
V
V
S SS
S
VER
VER
VV
V VVER V
S SS
V VER
V VER
V
SS
SSS
VERVER
VERVER
V VVER
V
VVER
VER
VV
VV
S
VER
VER VER
VER
VERVVERVER
V
VVERV VERV V VVER VER
V
VER
VERVER
V VER V V
VERVER
VER V
V VER
VER
VERV
VER
V
V
VER
VER
S
VER
VER
VER
VER
V VER
V
S
VV
V
V
VER
2,0
1,8
4,0
S
4,5
5,0
5,5
6,0
6,5
7,0
7,5
8,0
8,5
Kelchlänge
103
2,6
V VV
V
V
VVVV V V V
V
VV
V
VVVV V
V
VVVV
V V
VV V
V
VER
VV V VV V V V
V VER
VER
VER VER
V
VERVER
VER
VER
VER
VV
VER VERVER
VER
VER
VER
V
VER VER
VER
VER
VER
VER
VER
VER
VER
VER
VER
VERVER
VER
VER
VER
VER
VER
VERVER
VER
2,4
2,2
2,0
1,8
Blattbreite
1,6
1,4
1,2
1,0
0,8
S
S
S SSS S
SSS S
S SSS
SS
SSS S
S SS
0,6
0,4
0,2
0,0
0
1
2
3
4
5
6
7
8
Blattlänge
104
2,6
V
2,4
2,2
2,0
1,8
Blattbreite
1,6
1,4
1,2
1,0
V
V
V
V
V V V
V
V
V V
V
V
V
V
V
V
V
V
V
V V
V
V V V V V VER
V
V
VER
VER
V
VER
VER
VER
V
VER
VER
V VER
VER
VER
VER
V VER
VER
VER
VER
VER
VER
VER VER VER
VER
VER
VER
VER
VER
VER VER
VER
VER
VER VER
VER
VER VER
VER
V
V
0,8
S
0,6
S
0,4
S
S S S
S
S S
S
S S S S S S S S S S
S
S
S S
S
S
S
0,2
0,0
1,8
2,0
2,2
2,4
2,6
2,8
3,0
3,2
3,4
3,6
3,8
4,0
4,2
S
4,4
4,6
Kelchbreite
105
8
V
VV
7
V
VV
V
V
V
V V
V
V
V VV
V
V
V
V
V V
V
V
V
V VVER V
V VER V
V
V V VERV
V VVER
V
VER
VVER
VER
VER
VER
VER
VER
VER
VER
V
VER
VER
VER VER
VER
VER
VER
VER
VER
VER
VER
VER
VER VERVER
VER
VER
VER
VER
VER VER
VERVER
VERVER
VER
VER
VER
VER
VER
VER
VER
VER
6
Blattlänge
5
4
3
2
1
0
4,0
S
S
S
S
SSSS
S
S
S
S
S
SSS
S
S
S
S
S
S
S
SS S
S
SS
S
S
S
4,5
5,0
5,5
V
V
V
V
S
S
S
6,0
6,5
7,0
7,5
8,0
8,5
Kelchlänge
106
Scatterplot of Kelchbreite against Kelchlänge
Irisdat.sta 5v *150c
4,6
4,4
4,2
4,0
3,8
Kelchbreite
3,6
3,4
3,2
3,0
2,8
2,6
2,4
2,2
2,0
1,8
4,0
4,5
5,0
5,5
6,0
6,5
Kelchlänge
7,0
7,5
8,0
8,5
107
Scatterplot of Blattlänge against Kelchlänge
Irisdat.sta 5v *150c
8
7
6
Blattlänge
5
4
3
2
1
0
4,0
4,5
5,0
5,5
6,0
6,5
Kelchlänge
7,0
7,5
8,0
8,5
108
Scatterplot of Blattbreite against Kelchlänge
Irisdat.sta 5v *150c
2,6
2,4
2,2
2,0
1,8
Blattbreite
1,6
1,4
1,2
1,0
0,8
0,6
0,4
0,2
0,0
4,0
4,5
5,0
5,5
6,0
6,5
Kelchlänge
7,0
7,5
8,0
8,5
109
Scatterplot of Blattlänge against Kelchbreite
Irisdat.sta 5v *150c
8
7
6
Blattlänge
5
4
3
2
1
0
1,8
2,0
2,2
2,4
2,6
2,8
3,0
3,2
3,4
Kelchbreite
3,6
3,8
4,0
4,2
4,4
4,6
110
Scatterplot of Blattbreite against Kelchbreite
Irisdat.sta 5v *150c
2,6
2,4
2,2
2,0
1,8
Blattbreite
1,6
1,4
1,2
1,0
0,8
0,6
0,4
0,2
0,0
1,8
2,0
2,2
2,4
2,6
2,8
3,0
3,2
3,4
Kelchbreite
3,6
3,8
4,0
4,2
4,4
4,6
111
Scatterplot of Blattbreite against Blattlänge
Irisdat.sta 5v *150c
2,6
2,4
2,2
2,0
1,8
Blattbreite
1,6
1,4
1,2
1,0
0,8
0,6
0,4
0,2
0,0
0
1
2
3
4
Blattlänge
5
6
7
8
112
Matrixplot
Irisdat 6v*150c
Kelchlänge
Kelchbreite
Blattlänge
Blattbreite
Ty p
113
Matrixplot mit Brushing-Funktion
Virginic
Virginic
Kelchlänge
Virginic
Virginic
Virginic
Virginic
Virginic
Virginic
Virginic
Virginic
Kelchbreite
Virginic
Virginic
Virginic
Virginic
Virginic
Virginic
Virginic
Virginic
Virginic
Virginic
Virginic
Virginic
Blattlänge
Virginic
Virginic
Blattbreite
114
Matrix Plot
Irisdat.sta 5v *150c
Kelc hlänge
Kelc hbreite
Blattlänge
Blattbreite
Iris ty p
115
Setosa
Versicol
Virginic
Klassifikationsbaum für Iristyp
Anzahl Splits = 2; Anzahl Endknoten
1
=3
Setosa
50
100
Blattlänge<=2,0958
2
Setosa
3
Versicol
52
48
Blattbreite<=1,6442
4
Versicol
5
Virginic
116
Rangfolge für Bedeutung Prädiktoren
Abhängige Variable: Iristyp
Rangfolge auf Skala von 0=niedrige Bed. bis 100=hohe Bedeutung
100
Ränge
80
60
40
20
0
Kelchlänge
Kelchbreite
Blattlänge
Blattbreite
Prädiktor-Variable
117
Fehlklassifikationsmatrix Lernstichprobe (Irisdat)
Matrix progn. (Zeile) x beob. (Spalte) Lernstichprobe N = 150
Klasse - Setosa
Setosa
Versicol
0
Virginic
0
Klasse - Versicol
Klasse - Virginic
0
0
4
2
Prognost. Klasse x Beob. Klasse n's (Irisdat)
Matrix progn. (Zeile) x beob. (Spalte) Lernstichprobe N = 150
Klasse - Setosa
Klasse - Versicol
Klasse - Virginic
Setosa
50
0
0
Versicol
0
48
4
Virginic
0
2
46
118
Split-Bedingung (Irisdat) Split-Bedingung je Knoten
1
Split - Konst.
Split - Variable
-2,09578
Blattlänge
-1,64421
Blattbreite
2
3
119
Funktion = 2,09578
8
7
6
V
Blattlänge
4
3
2
S
S
S
0
0,0
V
V
V
VER
V
V
VER V V
V
VER
VER
VER
V
VER VER VER
VER
VER VER
VER
VER
VER
VER V
VER VER
VER
VER
VER VER
VER
VER
VER
VER VER VER
VER
VER
VER
VER VER
VER
VER
VER
VER
5
1
V
V
V
V
V
V
V
V
S
S
S
S
S
S
S
S
0,2
S
S
S
S
S
S
S
S
S
0,4
S
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
S
0,6
0,8
1,0
1,2
1,4
Blattbreite
1,6
1,8
2,0
2,2
2,4
2,6
120
Scatterplot für Blattlänge vs. Blattbreite
Irisdat 5v*150c
8
7
6
Blattlänge
5
4
3
2
1
0
0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 1,6 1,8 2,0 2,2 2,4 2,6
Blattbreite
Einschluss v5='Setosa'
Einschluss V5='Vericol'
Einschluss v5='Virginic'
Andere
121
Scatterplot für Blattlänge vs. Blattbreite
Irisdat 5v*150c
Funktion = 2,09578
8
7
6
Blattlänge
5
4
3
2
1
0
0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 1,6 1,8 2,0 2,2 2,4 2,6
Blattbreite
Einschluss v5='Setosa'
Einschluss v5='Virinic'
Einschluss v5='Versicol'
Andere
122
Zwei, von vielen Problemen:
• Feature Choise
• Overfitting, Underfitting
123
Zwei, von vielen Problemen:
• Feature Choise
• Overfitting, Underfitting
124
Kategoriale Splits
a
b
Bivariate Splits
< 0,5
> 0,5
Multivariate Splits
< 0,5
> 0,5, < 1,8
> 1,8
125
Wie kann man dieses Problem lösen?
Etwa mit Hilfe einer sog. „Kreuzvalidierung“:
Alle Daten
Teilmenge
Analyse und Modellbildung
Anwendung
auf andere
Teilmenge
126
Daten
Trainingsdaten
Daten
teilen
Validierungsdaten
Modellbewertung
127
Vierter Schritt: Wovon ist „gut“ oder „schlecht“ abhängig?
Güte der erreichten Aufklärung überprüfen
Predicted Class by Observ ed Class n's f or gut_schlecht
128
129
Practical Significance
Statistical Significance
130
Practical Significance
50% Datensatz
Datensatz
Modell/Zusammenhang
50% Datensatz
Statistical Significance
Zufall
Was, wenn kein
Zusammenhang?
Modell/Zusammenhang = Zufall?
Modell/Zusammenhang >/< Zufall?
131
Zusammenfassung der behandelten methodischen Ansätze:
Eine bislang unbehandelte Frage lautet:
132
Wie aussagekräftig sind die jeweils gewonnenen Befunde?
Folgende Hypothese soll geprüft werden:
H0 Person A besitzt keine hellseherischen Fähigkeiten
H1 Person A verfügt über hellseherische Fähigkeiten
Unter welchen Bedingungen kann H0 bestätigt/verworfen werden?
Unter welchen Bedingungen kann H1 bestätigt/verworfen werden?
Es gibt Konventionen, die als Grundlage der Entscheidung
genutzt werden können/sollten: Das Signifikanzniveau.
Irrtumswahrscheinlichkeit Bedeutung
Symbolisierung
p > 0,05
nicht signifikant
ns
p <= 0,05
signifikant
*
p <= 0,01
sehr signifikant
**
p <= 0,001
höchst signifikant
***
133
Wie groß ist die Wahrscheinlichkeit dreimal „Kopf“ zu erhalten,
wenn drei mal eine Münze geworfen wird?
Dazu müssen wir uns die Möglichkeiten vor Augen führen:
(K = Kopf; W = Wappen)
WWW, WWK, WKW, KWW, WKK, KWK, KKW und KKK
Wir haben folglich 8 Möglichkeiten, davon erfüllt eine
unsere Bedingung.
Die Wahrscheinlichkeit p ist demnach 1/8 oder 0,125.
134
Wahrscheinlichkeit p bei drei Würfen
135
Wie groß ist die Wahrscheinlichkeit viermal „Kopf“ zu erhalten,
wenn vier mal eine Münze geworfen wird?
Dazu erneut die Möglichkeiten: (K = Kopf; W = Wappen)
WWWW
WWWK
WWKW
WKWW
KWWW
KKKK
KKKW
KKWK
KWKK
WKKK
WWKK
WKKW
KKWW
KWWK
KWKW
WKWK
Wir haben folglich 16 Möglichkeiten, davon erfüllt eine
unsere Bedingung.
Die Wahrscheinlichkeit p ist demnach 1/16 oder 0,0625.
136
Signifikanzstufen
Irrtumswahrscheinlichkeit Bedeutung
Symbolisierung
p > 0,05
nicht signifikant
ns
p <= 0,05
signifikant
*
p <= 0,01
sehr signifikant
**
p <= 0,001
höchst signifikant
***
137
„Ein Wert von p = 0.05 besagt unter der Annahme,
dass kein Effekt existiert, dass – vereinfacht ausgedrückt, puristische Methodiker mögen mit der
Stirn runzeln – bei dieser Stichprobengröße ein
mindestens so großer Effekt nur in 5% aller
vergleichbar angelegter Studien beobachtet werden
kann.“
Rost 2007, 81
138
Irrtumswahrscheinlichkeit:
Ein p = 0,03 bedeutet:
Die Wahrscheinlichkeit, dass unter der Annahme,
die Nullhypothese sei richtig, das gegebene
Untersuchungsergebnis oder ein noch extremeres
auftritt, beträgt 0,03 oder 3%.
Signifikanzstufen
p <= 0,05 signifikant
p <= 0,01 sehr signifikant
p <= 0,001 höchst signifikant
*
**
***
139
Ergebnis einer hypothetischen Studie, in der die Ausbildung von
Paaren verglichen wird (aus: Sedlmeier & Renkewitz 2008, 370):
Partner
Partnerin
Studium
Realschule
Gymnasium
Realschule
Realschule
Gymnasium
Vorzeichentest nach Fischer
Vorzeichen
+
+
+
+
=
+
+
+
Es finden sich
somit 7 positive
Vorzeichen.
Ist das Ergebnis
auf dem 5%
Niveau
signifikant?
Wie hoch ist die
Wahrscheinlichkeit
für 0, 1, 2 etc.
positive Vorzeichen?
140
Wahrscheinlichkeiten für die einzelnen Ergebnisse in Prozentwerten
26
24,6
24
22
20,5
20,5
20
18
Wahrscheinlichkeit = 5,5 %
16
14
11,7
12
11,7
10
8
6
4,4
4,4
4
2
0
1
1
0,1
0
0,1
1
2
3
4
5
6
7
8
9
141
10
Wenn, wie im vorliegenden Fall, von zehn Paaren sieben ein
positives Vorzeichen aufweisen (Bildungsabschluss des
männlichen Partners höher als der des weiblich), dann liegt die
Wahrscheinlichkeit dafür:
• 0,1 % +
• 1,0 % +
• 4,4 % +
• 11,7 % =
• 17,2 %
Es wäre gemäß der Konvention also falsch, daraus
irgendwelche Schlussfolgerungen zu ziehen.
142
Erstellen einer einfachen Probedatei mit folgendem Inhalt:
143
Bei zwei Beobachtungen pro Schulform ergeben sich damit
3 mal 8 = 24 Kombinationsmöglichkeiten:
№
Schulform
Abschluss
1
1
0
2
1
0
3
1
1
4
1
1
5
1
1
6
1
0
7
1
0
8
1
1
144
Die Wahrscheinlichkeit p ist demnach für eine ‚Abweichung‘ von
einem Fall bei sechs Beobachtungen 01/06
entspricht der Wahrscheinlichkeit vom 8/24
p = 0,33333
145
146
147
148
149
150
151
152
153
154
Scatterplot of HISTORY against READING
School perf omance 8v *80c
HISTORY = 1,4433+1,0072*x
N = 80
112
110
108
HISTORY
106
104
102
100
98
96
94
READING:HISTORY:
+100
1,0072*x;
p = 0.0000;
92
94
96 y = 1,4433
98
102 r = 0,9510;
104
106
108
r2 = 0,9043
READING
110
155
Scatterplot of HISTORY against READING
Spreadsheet4 8v *4c
HISTORY = -5,2081+1,0798*x
N=4
112
110
HISTORY
108
106
104
102
100
98
READING:HISTORY:
y100
= -5,2081102
+ 1,0798*x;
96
98
104
2
r = 0,9909; p = 0,0091; r = 0,9819 READING
106
108
110
156
Scatterplot of HISTORY against READING
Spreadsheet5 8v *8c
HISTORY = 3,2114+0,99*x
N=8
110
108
HISTORY
106
104
102
100
98
96
READING:HISTORY:
y 98
= 3,2114 100
+ 0,99*x; 102
r = 0,9602;
94
96
104p = 0,0002;
106
2
r = 0,9220
READING
108
157
Scatterplot of HISTORY against READING
Spreadsheet6 8v *16c
HISTORY = 8,5493+0,9403*x
N = 16
110
108
HISTORY
106
104
102
100
98
96
READING:HISTORY:
y 98
= 8,5493 100
+ 0,9403*x;
94
96
102
r = 0,9428; p = 0,00000; r 2 = 0,8889READING
104
106
108
158
159
Scatterplot of CALCULUS against GRAMMAR
School perf omance 8v *80c
CALCULUS = 99,6862+0,0038*x
N = 80
108
106
104
CALCULUS
102
100
98
96
94
92
90
GRAMMAR:CALCULUS:
y 98
= 99,6862
92
94
96
100 + 0,0038*x;
102
104
r = 0,0057; p = 0,9599; r 2 = 0,0000 GRAMMAR
106
108
110
160
Scatterplot of CALCULUS against GRAMMAR
Spreadsheet7 8v *4c
CALCULUS = 87,6269+0,1156*x
N=4
101,0
100,5
100,0
CALCULUS
99,5
99,0
98,5
98,0
97,5
97,0
GRAMMAR:CALCULUS:
y =100
87,6269
97
98
99
101 + 0,1156*x;
102
103
r = 0,2435; p = 0,7565; r 2 = 0,0593 GRAMMAR
104
105
106
161
Scatterplot of CALCULUS against GRAMMAR
School perf omance 7v *4c
CALCULUS = 115,5557-0,1775*x
N=4
99,2
99,0
98,8
98,6
CALCULUS
98,4
98,2
98,0
97,8
97,6
97,4
97,2
97,0
96,8
96,6
GRAMMAR:CALCULUS:
y = 115,5557
- 0,1775*x;
97,8
98,0
98,2
98,4
98,6
98,8
99,0
2
r = -0,1376; p = 0,8624; r = 0,0189GRAMMAR
99,2
99,4
99,6
99,8
162
Scatterplot of CALCULUS against GRAMMAR
Spreadsheet9 8v *8c
CALCULUS = 84,2333+0,1541*x
N=8
102,5
102,0
101,5
101,0
CALCULUS
100,5
100,0
99,5
99,0
98,5
98,0
97,5
97,0
GRAMMAR:CALCULUS:
y =100
84,2333 +102
0,1541*x; 104
96
98
r = 0,3326; p = 0,4208; r 2 = 0,1106 GRAMMAR
106
108
163
Scatterplot of CALCULUS against GRAMMAR
Spreadsheet6 8v *16c
CALCULUS = 96,7334+0,0231*x
N = 16
103
102
101
CALCULUS
100
99
98
97
96
95
GRAMMAR:CALCULUS:
y 98
= 96,7334
92
94
96
100 + 0,0231*x;
102
104
2
r = 0,0460; p = 0,8657; r = 0,0021 GRAMMAR
106
108
110
164