Transcript 2 3

60
50
„schlecht“
Fehler
40
30
„gut“
20
10
0
1
3
5
7
9
11
13
15
17
19
1
Unterschiede messen
Median ist der Punkt, bei dem die eine Hälfte der Werte oberhalb
und die andere unterhalb dieses Punktes liegt
Median Mean
0
1
2
3
4
5
6
7
8
9
10
Der Mittelwert wird berechnet durch die Summe aller Werte geteilt durch die
Anzahl der Werte
2
Mathematisch wird die Berechnung des
Mittelwertes so dargestellt:
X=
X
∑
∑ xi
n
ausgesprochen: X Strich oder x quer ist das Symbol für den Mittelwert
dies ist der griechische Großbuchstabe für Sigma und das sog.
Summenzeichen, d.h. alle Messwerte müssen addiert werden
xi
dieses Zeichen steht für sämtliche Einzelmesswerte
n
und n steht schließlich für die Anzahl der durchgeführten Messungen
3
Unterschiede messen
Zwei weit verbreite, einfache Methoden:
• Zwischen zwei Klassen unterscheiden: Gut ↔ Schlecht
• Zwischen vier (oder einer anderen Anzahl von)
Perzentilen unterscheiden
4
1
Rangreihe:
2
3
4
5
• Einfache Aussage über Reihenfolge
• Hohe Reliabilität, etwa durch Paarvergleich
• Keine Informationen über Abstände
• Vergleichbarkeit nur bei identischen N‘s
6
7
8
5
Quartile:
1
I. Quartil
2
3
II. Quartil
4
5
III. Quartil
6
• Grobe Aussage über die
Stellung in einer Reihe
• Hohe Reliabilität, weil recht ‚simpel‘
• Sehr grobe Informationen
über Abstände
• Einfache Vergleichbarkeit über
verschiedene Bereiche hinweg
7
VI. Quartil
8
6
Werte Quartil Prozentrang
30
4
100,00
28
4
90,00
21
3
80,00
16
3
70,00
12
3
60,00
11
2
50,00
6
2
40,00
5
2
30,00
1
1
20,00
0
1
10,00
Prozentrang („RANG“):
• Aussage über
die Stellung in einer
Reihe
• Reliabilität von
der Messung abhängig
• Keine Informationen
über Abstände
• Einfache Vergleichbarkeit über verschiedene
Bereiche hinweg
7
Werte Relativer Prozentrang
30
100,00
28
93,33
21
70,00
16
53,33
12
40,00
11
36,67
6
20,00
5
16,67
1
3,33
0
,00
Relativer Prozentrang:
(100*Wert)/MaxWert
• Genaue Aussage über
die Stellung in einer
Reihe
• Reliabilität von
der Messung abhängig
• Informationen
über Abstände
• Einfache Vergleichbarkeit über verschiedene
Bereiche hinweg
8
9
Werte
30
28
21
16
12
11
6
5
1
0
Rel. % Z-Werte
100,00 1,59844
93,33 1,41039
70,00
,75221
53,33
,28208
40,00
-,09403
36,67
-,18805
20,00
-,65818
16,67
-,75221
3,33
-1,12831
,00
-1,22234
Note
2
2
3
3
4
4
4
4
5
5
10
Unterschiede messen
Keine Variation vorhanden
11
Unterschiede messen
In welchem Maß ist
Variation vorhanden?
Erste Ebene: Spannbreite (R für range)
R = Xmax – Xmin
12
Unterschiede messen
In welchem Maß ist
Variation vorhanden?
Zweite Ebene: Summe der quadrierten Fehler (Abweichungen)
σ² =
∑ ( xi
-
2
X)
n-1
Mean
13
Unterschiede messen
In welchem Maß ist
Variation vorhanden?
Dritte Ebene: Standardabweichung
√
σ=
∑ ( xi
-
2
X)
n-1
Mean
14
Unterschiede messen
In welchem Maß ist
Variation vorhanden?
Vierte Ebene: z-Transformation
Abstand jeder Messung zum Mittelwert,
geteilt durch die Standardabweichung
z=
Mean
0
xi
-
σx
X
Mean
0
Alle Mittewerte werden Null,
die Abstände werden standardisiert;
die relative Lage jeder Messung kann verglichen werden
15
16
(leicht hinkender Vergleich)
Sie wollen verschieden formatige, verschieden große Bilder
auf eine Seite bringen
17
(leicht hinkender Vergleich)
Sie wollen verschieden formatige, verschieden große Bilder
auf eine Seite bringen
18
Mittelwerte:
64,55
49,26
Std.-Abw.:
11,623
29,831
19
Wirkung der Z-Transformation:
20
Mit Hilfe dieser Grafik wird erkennbar, was die Prozentränge
im Unterschied zu den Z-standardisierten Werten angeben:
-20
0
20
40
60
80
100
120
Am linken Rand sind die
Rohwerte abgetragen,
am oberen Rand die
Prozentränge und am
unteren Rand die
z-standardisierten Werte.
108,323
105,041
103,749
102,704
101,433
100,339
Wie ersichtlich, hat der
höchste Rohwert den
Prozentrang 100 und den
Z-Wert +3. Der niedrigste
Rohwert hingegen den
Prozentrang 1,25 und den
Z-Wert -2.
99,835
99,412
98,823
98,112
97,404
96,106
95,147
ZSPELLING(L)
PSPELLIN(R)
92,547
-3
-2
-1
0
1
2
3
4
Prozentränge
cum f % = 100
(N = 300)
Rohwert
Fälle
f
cum f
5
25
25
98
4
18
18
3
19
2
cum f
N
cum f %
PR
73
24,3
24
19
55
18,3
18
15
15
36
12,0
12
1
12
12
21
7,0
7
0
9
9
9
3,0
3
80
..
..
300 = 100 %
9= x %
22
sog. ‚Absoluter Rangwert‘:
1. Rang + 2. Rang/2 = 1,5
Werte mal 100/Max-Wert:
2*100 = 200/30 = 6,66666
Relative Rangfolge in %:
20 = 100 %
1,5 =
x%
Z-Transformation
23
Line Plot of VAR00001
Beispiel_Z_Proz_Werte 4v *20c
35
120
30
100
25
80
20
60
15
40
10
20
5
0
0
1
2
3
4
5
6
7
8
0
9 10 11 12 13 14 15 16 17 18 19 20 21
VAR00001(L)
PVAR0000(R)
24
Line Plot of VAR00001
Beispiel_Z_Proz_Werte 4v *20c
35
1,2
1,0
30
0,8
0,6
25
0,4
0,2
20
0,0
-0,2
15
-0,4
-0,6
10
-0,8
-1,0
5
-1,2
0
0
1
2
3
4
5
6
7
8
-1,4
9 10 11 12 13 14 15 16 17 18 19 20 21
VAR00001(L)
ZVAR00001(R)
25
Line Plot of VAR00001
Beispiel_Z_Proz_Werte 4v *20c
35
120
30
100
25
80
20
60
15
40
10
20
5
0
0
1
2
3
4
5
6
7
8
0
9 10 11 12 13 14 15 16 17 18 19 20 21
VAR00001(L)
Real_Proz(R)
26
4
Häufigkeiten
3
2
1
0
2
3
4
5
26
N_A_1
27
28
29
30
27
35
30
25
20
15
10
5
N_A_1
0
0
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20 21
28
0
30,00
30,00
29,00
29,00
29,00
28,00
28,00
28,00
27,00
27,00
26,00
5,00
4,00
4,00
4,00
3,00
3,00
3,00
2,00
2,00
120
1,2
1,0
100
0,8
0,6
80
0,4
0,2
0,0
60
-0,2
-0,4
40
-0,6
-0,8
20
-1,0
-1,2
-1,4
PN_A_1(L)
ZN_A_1(R)
29
4
Häufigkeiten
3
2
1
0
2
3
4
12
13
14
15
N_A_2
16
17
27
28
29
30
30
35
30
25
20
15
10
5
0
0
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20 21
N_A_2
31
0
30,00
30,00
29,00
28,00
28,00
27,00
17,00
16,00
15,00
14,00
13,00
13,00
12,00
4,00
4,00
3,00
3,00
3,00
2,00
2,00
120
1,6
1,4
1,2
100
1,0
0,8
80
0,6
0,4
60
0,2
0,0
-0,2
40
-0,4
-0,6
-0,8
20
-1,0
-1,2
-1,4
PN_A_2(L)
ZN_A_2(R)
32
3
Häufigkeiten
2
1
0
2
3
4
7
9
11
12 13
14
16 17
N_A_3
19 21
24
25 26
28 29
30
33
35
30
25
20
15
10
5
N_A_3
0
0
1
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20 21
34
0
30,00
29,00
28,00
26,00
25,00
24,00
21,00
19,00
17,00
16,00
14,00
13,00
12,00
12,00
11,00
9,00
7,00
4,00
3,00
2,00
120
2,0
1,5
100
1,0
80
0,5
60
0,0
-0,5
40
-1,0
20
-1,5
-2,0
PN_A_3(L)
ZN_A_3(R)
35
Umwandlung eines numerischen Wertes in einen kategorialen Wert
12
10
Häufigkeiten
8
6
4
2
0
93
WRITING:
94
95
96
97
98
99 100 101 102 103 104 105 106 107 108 109
WRITING
N = 80; Mw. = 99,82; Stdabw. = 3,3777;
Max. = 109,1118; Min. = 93,5138
36
Mittelw.
Median
Minimum
Maximum
Stdabw.
80
99,82004
99,56863
93,51375
109,1118
3,377652
Deskriptive Statistik (School perfomance)
12
10
"Schlechte
Schreiber"
"Gute Schreiber"
8
Häufigkeiten
WRITING
Gült. N
6
4
2
0
93
WRITING:
94
95
96
97
98
99 100 101 102 103 104 105 106 107 108 109
37
WRITING
N = 80; Mw. = 99,82; Stdabw. = 3,3777;
Max. = 109,1118; Min. = 93,5138
Mittelwert:
Arithmetisches Mittel =
Summe aller beobachteten
Merkmalswerte dividiert durch die
Anzahl der Beobachtungen
Median (auch Zentral- oder 50% Wert):
Der Median ist der Wert für den gilt,
dass 50% aller Werte größer oder
gleich sind. Der Median halbiert
die Stichprobenverteilung
38
Gült. N
Mittelw.
Median
Minimum
Maximum
Stdabw.
Deskriptive Statistik (School perfomance)
90
121,5067
100,1944
93,51375
410,0000
66,48269
50
Mw. = Mittelwert
45
40
35
Häufigkeiten
WRITING
Median
30
25
20
15
10
5
0
50
WRITING:
100
150
200
250
300
350
400
N = 90; Mw. = 121,5067; Stdabw. =WRITING
66,4827; Max. = 410; Min. = 93,5138
450
39
Gült. N Mittelw.
WRITING 80
Minimum Maximum Stdabw.
99,82004 99,56863 93,51375
Gült. N Mittelw.
WRITING 90
Median
Median
109,1118
3,377652
Minimum Maximum Stdabw.
121,5067 100,1944 93,51375
410,0000
66,48269
40
41
Umwandlung eines numerischen Wertes in einen kategorialen Wert
12
10
Häufigkeiten
8
6
4
2
0
93
WRITING:
94
95
96
97
98
99 100 101 102 103 104 105 106 107 108 109
WRITING
N = 80; Mw. = 99,82; Stdabw. = 3,3777;
Max. = 109,1118; Min. = 93,5138
42
Mittelw.
Median
Minimum
Maximum
Stdabw.
80
99,82004
99,56863
93,51375
109,1118
3,377652
Deskriptive Statistik (School perfomance)
12
10
"Schlechte
Schreiber"
"Gute Schreiber"
8
Häufigkeiten
WRITING
Gült. N
6
4
2
0
93
WRITING:
94
95
96
97
98
99 100 101 102 103 104 105 106 107 108 109
43
WRITING
N = 80; Mw. = 99,82; Stdabw. = 3,3777;
Max. = 109,1118; Min. = 93,5138
Mittelwert:
Arithmetisches Mittel =
Summe aller beobachteten
Merkmalswerte dividiert durch die
Anzahl der Beobachtungen
Median (auch Zentral- oder 50% Wert):
Der Median ist der Wert für den gilt,
dass 50% aller Werte größer oder
gleich sind. Der Median halbiert
die Stichprobenverteilung
44
Gült. N
Mittelw.
Median
Minimum
Maximum
Stdabw.
Deskriptive Statistik (School perfomance)
90
121,5067
100,1944
93,51375
410,0000
66,48269
50
Mw. = Mittelwert
45
40
35
Häufigkeiten
WRITING
Median
30
25
20
15
10
5
0
50
WRITING:
100
150
200
250
300
350
400
N = 90; Mw. = 121,5067; Stdabw. =WRITING
66,4827; Max. = 410; Min. = 93,5138
450
45
Gült. N Mittelw.
WRITING 80
Minimum Maximum Stdabw.
99,82004 99,56863 93,51375
Gült. N Mittelw.
WRITING 90
Median
Median
109,1118
3,377652
Minimum Maximum Stdabw.
121,5067 100,1944 93,51375
410,0000
66,48269
46
47
60
Gruppenzugehörigkeit:
A
50
40
Fehler
Gruppenzugehörigkeit:
B
30
Gruppenzugehörigkeit:
C
20
10
0
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16 17 18 19 20 48
60
50
Gibt es „Muster“ in der Verteilung?
Fehler
40
30
20
10
0
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16 17 18 19 20 49
8
7
6
5
4
3
2
1
0
0,0
0,2
0,4
0,6
0,8
1,0
1,2
1,4
1,6
1,8
2,0
2,2
2,4
50
2,6
8
7
6
5
4
3
2
1
0
0,0
0,2
0,4
0,6
0,8
1,0
1,2
1,4
1,6
1,8
2,0
2,2
2,4
2,6
51
8
7
6
5
4
3
2
1
0
0,0
0,2
0,4
0,6
0,8
1,0
1,2
1,4
1,6
1,8
2,0
2,2
2,4
52
2,6
Kelchlänge
Kelchbreite
Blattlänge
Blattbreite
Iristyp
1
5
3,3
1,4
0,2
Setosa
2
6,4
2,8
5,6
2,2
Virginic
3
6,5
2,8
4,6
1,5
Versicol
4
6,7
3,1
5,6
2,4
Virginic
5
6,3
2,8
5,1
1,5
Virginic
6
4,6
3,4
1,4
0,3
Setosa
7
6,9
3,1
5,1
2,3
Virginic
8
6,2
2,2
4,5
1,5
Versicol
9
5,9
3,2
4,8
1,8
Versicol
10
4,6
3,6
1
0,2
Setosa
11
6,1
3
4,6
1,4
12
6
2,7
5,1
1,6
13
6,5
3
5,2
2
14
5,6
2,5
3,9
1,1
15
6,5
3
5,5
1,8
Virginic
16
5,8
2,7
5,1
1,9
Virginic
17
6,8
3,2
5,9
2,3
Virginic
18
5,1
3,3
1,7
0,5
Setosa
19
5,7
2,8
4,5
1,3
Versicol
20
6,2
3,4
5,4
2,3
Virginic
21
7,7
3,8
6,7
2,2
Virginic
22
6,3
3,3
4,7
1,6
Versicol
23
6,7
3,3
5,7
2,5
Virginic
24
7,6
3
6,6
2,1
Virginic
25
4,9
2,5
4,5
1,7
Virginic
Fisher (1936) Irisdaten:
Länge und Breite von Blättern und Kelchen
für 3 Iristypen
Durch was unterscheiden
sich die drei Iristypen?
Versicol
Versicol
Virginic
Versicol
53
• Kategoriale Werte (gut/schlecht)
• Metrische Werte (1, 2, 3, 4, ..)
[Nominale, Ordinale Werte]
Split:
Welche Variable trennt am
besten bei welchem Wert?
CART
(classification
and regression
trees)
54
Scatterplot für Blattlänge vs. Blattbreite
Irisdat 5v*150c
8
7
6
Blattlänge
5
4
3
2
1
0
0,0
0,2
0,4
0,6
0,8
1,0
1,2
1,4
Blattbreite
1,6
1,8
2,0
2,2
2,4
55
2,6
4,6
S
4,4
S
4,2
S
S
4,0
3,8
Kelchbreite
3,6
3,4
3,2
3,0
2,8
2,6
2,4
2,2
S
S
S
V
SS
SS
V
SSS
S
S S SSS S
VER V V
SS
VER
V
V
S SS
S
VER
VER
VV
V VVER V
S SS
V VER
V VER
V
SS
SSS
VERVER
VERVER
V VVER
V
VVER
VER
VV
VV
S
VER
VER VER
VER
VERVVERVER
V
VVERV VERV V VVER VER
V
VER
VERVER
V VER V V
VERVER
VER V
V VER
VER
VERV
VER
V
V
VER
VER
S
VER
VER
VER
VER
V VER
V
S
VV
V
V
VER
2,0
1,8
4,0
S
4,5
5,0
5,5
6,0
6,5
7,0
7,5
8,0
8,5
Kelchlänge
56
2,6
V VV
V
V
VVVV V V V
V
VV
V
VVVV V
V
VVVV
V V
VV V
V
VER
VV V VV V V V
V VER
VER
VER VER
V
VERVER
VER
VER
VER
VV
VER VERVER
VER
VER
VER
V
VER VER
VER
VER
VER
VER
VER
VER
VER
VER
VER
VERVER
VER
VER
VER
VER
VER
VERVER
VER
2,4
2,2
2,0
1,8
Blattbreite
1,6
1,4
1,2
1,0
0,8
S
S
S SSS S
SSS S
S SSS
SS
SSS S
S SS
0,6
0,4
0,2
0,0
0
1
2
3
4
5
6
7
8
Blattlänge
57
2,6
V
2,4
2,2
2,0
1,8
Blattbreite
1,6
1,4
1,2
1,0
V
V
V
V
V V V
V
V
V V
V
V
V
V
V
V
V
V
V
V V
V
V V V V V VER
V
V
VER
VER
V
VER
VER
VER
V
VER
VER
V VER
VER
VER
VER
V VER
VER
VER
VER
VER
VER
VER VER VER
VER
VER
VER
VER
VER
VER VER
VER
VER
VER VER
VER
VER VER
VER
V
V
0,8
S
0,6
S
0,4
S
S S S
S
S S
S
S S S S S S S S S S
S
S
S S
S
S
S
0,2
0,0
1,8
2,0
2,2
2,4
2,6
2,8
3,0
3,2
3,4
3,6
3,8
4,0
4,2
S
4,4
4,6
Kelchbreite
58
8
V
VV
7
V
VV
V
V
V
V V
V
V
V VV
V
V
V
V
V V
V
V
V
V VVER V
V VER V
V
V V VERV
V VVER
V
VER
VVER
VER
VER
VER
VER
VER
VER
VER
V
VER
VER
VER VER
VER
VER
VER
VER
VER
VER
VER
VER
VER VERVER
VER
VER
VER
VER
VER VER
VERVER
VERVER
VER
VER
VER
VER
VER
VER
VER
VER
6
Blattlänge
5
4
3
2
1
0
4,0
S
S
S
S
SSSS
S
S
S
S
S
SSS
S
S
S
S
S
S
S
SS S
S
SS
S
S
S
4,5
5,0
5,5
V
V
V
V
S
S
S
6,0
6,5
7,0
7,5
8,0
8,5
Kelchlänge
59
Scatterplot of Kelchbreite against Kelchlänge
Irisdat.sta 5v *150c
4,6
4,4
4,2
4,0
3,8
Kelchbreite
3,6
3,4
3,2
3,0
2,8
2,6
2,4
2,2
2,0
1,8
4,0
4,5
5,0
5,5
6,0
6,5
Kelchlänge
7,0
7,5
8,0
8,5
60
Scatterplot of Blattlänge against Kelchlänge
Irisdat.sta 5v *150c
8
7
6
Blattlänge
5
4
3
2
1
0
4,0
4,5
5,0
5,5
6,0
6,5
Kelchlänge
7,0
7,5
8,0
8,5
61
Scatterplot of Blattbreite against Kelchlänge
Irisdat.sta 5v *150c
2,6
2,4
2,2
2,0
1,8
Blattbreite
1,6
1,4
1,2
1,0
0,8
0,6
0,4
0,2
0,0
4,0
4,5
5,0
5,5
6,0
6,5
Kelchlänge
7,0
7,5
8,0
8,5
62
Scatterplot of Blattlänge against Kelchbreite
Irisdat.sta 5v *150c
8
7
6
Blattlänge
5
4
3
2
1
0
1,8
2,0
2,2
2,4
2,6
2,8
3,0
3,2
3,4
Kelchbreite
3,6
3,8
4,0
4,2
4,4
4,6
63
Scatterplot of Blattbreite against Kelchbreite
Irisdat.sta 5v *150c
2,6
2,4
2,2
2,0
1,8
Blattbreite
1,6
1,4
1,2
1,0
0,8
0,6
0,4
0,2
0,0
1,8
2,0
2,2
2,4
2,6
2,8
3,0
3,2
3,4
Kelchbreite
3,6
3,8
4,0
4,2
4,4
4,6
64
Scatterplot of Blattbreite against Blattlänge
Irisdat.sta 5v *150c
2,6
2,4
2,2
2,0
1,8
Blattbreite
1,6
1,4
1,2
1,0
0,8
0,6
0,4
0,2
0,0
0
1
2
3
4
Blattlänge
5
6
7
8
65
Matrixplot
Irisdat 6v*150c
Kelchlänge
Kelchbreite
Blattlänge
Blattbreite
Ty p
66
Matrixplot mit Brushing-Funktion
Virginic
Virginic
Kelchlänge
Virginic
Virginic
Virginic
Virginic
Virginic
Virginic
Virginic
Virginic
Kelchbreite
Virginic
Virginic
Virginic
Virginic
Virginic
Virginic
Virginic
Virginic
Virginic
Virginic
Virginic
Virginic
Blattlänge
Virginic
Virginic
Blattbreite
67
Matrix Plot
Irisdat.sta 5v *150c
Kelc hlänge
Kelc hbreite
Blattlänge
Blattbreite
Iris ty p
68
Setosa
Versicol
Virginic
Klassifikationsbaum für Iristyp
Anzahl Splits = 2; Anzahl Endknoten
1
=3
Setosa
50
100
Blattlänge<=2,0958
2
Setosa
3
Versicol
52
48
Blattbreite<=1,6442
4
Versicol
5
Virginic
69
Rangfolge für Bedeutung Prädiktoren
Abhängige Variable: Iristyp
Rangfolge auf Skala von 0=niedrige Bed. bis 100=hohe Bedeutung
100
Ränge
80
60
40
20
0
Kelchlänge
Kelchbreite
Blattlänge
Blattbreite
Prädiktor-Variable
70
Fehlklassifikationsmatrix Lernstichprobe (Irisdat)
Matrix progn. (Zeile) x beob. (Spalte) Lernstichprobe N = 150
Klasse - Setosa
Setosa
Versicol
0
Virginic
0
Klasse - Versicol
Klasse - Virginic
0
0
4
2
Prognost. Klasse x Beob. Klasse n's (Irisdat)
Matrix progn. (Zeile) x beob. (Spalte) Lernstichprobe N = 150
Klasse - Setosa
Klasse - Versicol
Klasse - Virginic
Setosa
50
0
0
Versicol
0
48
4
Virginic
0
2
46
71
Split-Bedingung (Irisdat) Split-Bedingung je Knoten
1
Split - Konst.
Split - Variable
-2,09578
Blattlänge
-1,64421
Blattbreite
2
3
72
Funktion = 2,09578
8
7
6
V
Blattlänge
4
3
2
S
S
S
0
0,0
V
V
V
VER
V
V
VER V V
V
VER
VER
VER
V
VER VER VER
VER
VER VER
VER
VER
VER
VER V
VER VER
VER
VER
VER VER
VER
VER
VER
VER VER VER
VER
VER
VER
VER VER
VER
VER
VER
VER
5
1
V
V
V
V
V
V
V
V
S
S
S
S
S
S
S
S
0,2
S
S
S
S
S
S
S
S
S
0,4
S
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
V
S
0,6
0,8
1,0
1,2
1,4
Blattbreite
1,6
1,8
2,0
2,2
2,4
2,6
73
Scatterplot für Blattlänge vs. Blattbreite
Irisdat 5v*150c
8
7
6
Blattlänge
5
4
3
2
1
0
0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 1,6 1,8 2,0 2,2 2,4 2,6
Blattbreite
Einschluss v5='Setosa'
Einschluss V5='Vericol'
Einschluss v5='Virginic'
Andere
74
Scatterplot für Blattlänge vs. Blattbreite
Irisdat 5v*150c
Funktion = 2,09578
8
7
6
Blattlänge
5
4
3
2
1
0
0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 1,6 1,8 2,0 2,2 2,4 2,6
Blattbreite
Einschluss v5='Setosa'
Einschluss v5='Virinic'
Einschluss v5='Versicol'
Andere
75
Zwei, von vielen Problemen:
• Feature Choise
• Overfitting, Underfitting
76
Zwei, von vielen Problemen:
• Feature Choise
• Overfitting, Underfitting
77
Kategoriale Splits
a
b
Bivariate Splits
< 0,5
> 0,5
Multivariate Splits
< 0,5
> 0,5, < 1,8
> 1,8
78
Wie kann man dieses Problem lösen?
Etwa mit Hilfe einer sog. „Kreuzvalidierung“:
Alle Daten
Teilmenge
Analyse und Modellbildung
Anwendung
auf andere
Teilmenge
79
Daten
Trainingsdaten
Daten
teilen
Validierungsdaten
Modellbewertung
80
Vierter Schritt: Wovon ist „gut“ oder „schlecht“ abhängig?
Güte der erreichten Aufklärung überprüfen
Predicted Class by Observ ed Class n's f or gut_schlecht
81
82
Practical Significance
Statistical Significance
83
Practical Significance
50% Datensatz
Datensatz
Modell/Zusammenhang
50% Datensatz
Statistical Significance
Zufall
Was, wenn kein
Zusammenhang?
Modell/Zusammenhang = Zufall?
Modell/Zusammenhang >/< Zufall?
84
Zusammenfassung der behandelten methodischen Ansätze:
Eine bislang unbehandelte Frage lautet:
85
Wie aussagekräftig sind die jeweils gewonnenen Befunde?
Folgende Hypothese soll geprüft werden:
H0 Person A besitzt keine hellseherischen Fähigkeiten
H1 Person A verfügt über hellseherische Fähigkeiten
Unter welchen Bedingungen kann H0 bestätigt/verworfen werden?
Unter welchen Bedingungen kann H1 bestätigt/verworfen werden?
Es gibt Konventionen, die als Grundlage der Entscheidung
genutzt werden können/sollten: Das Signifikanzniveau.
Irrtumswahrscheinlichkeit Bedeutung
Symbolisierung
p > 0,05
nicht signifikant
ns
p <= 0,05
signifikant
*
p <= 0,01
sehr signifikant
**
p <= 0,001
höchst signifikant
***
86
Wie groß ist die Wahrscheinlichkeit dreimal „Kopf“ zu erhalten,
wenn drei mal eine Münze geworfen wird?
Dazu müssen wir uns die Möglichkeiten vor Augen führen:
(K = Kopf; W = Wappen)
WWW, WWK, WKW, KWW, WKK, KWK, KKW und KKK
Wir haben folglich 8 Möglichkeiten, davon erfüllt eine
unsere Bedingung.
Die Wahrscheinlichkeit p ist demnach 1/8 oder 0,125.
87
Wahrscheinlichkeit p bei drei Würfen
88
Wie groß ist die Wahrscheinlichkeit viermal „Kopf“ zu erhalten,
wenn vier mal eine Münze geworfen wird?
Dazu erneut die Möglichkeiten: (K = Kopf; W = Wappen)
WWWW
WWWK
WWKW
WKWW
KWWW
KKKK
KKKW
KKWK
KWKK
WKKK
WWKK
WKKW
KKWW
KWWK
KWKW
WKWK
Wir haben folglich 16 Möglichkeiten, davon erfüllt eine
unsere Bedingung.
Die Wahrscheinlichkeit p ist demnach 1/16 oder 0,0625.
89
Signifikanzstufen
Irrtumswahrscheinlichkeit Bedeutung
Symbolisierung
p > 0,05
nicht signifikant
ns
p <= 0,05
signifikant
*
p <= 0,01
sehr signifikant
**
p <= 0,001
höchst signifikant
***
90
„Ein Wert von p = 0.05 besagt unter der Annahme,
dass kein Effekt existiert, dass – vereinfacht ausgedrückt, puristische Methodiker mögen mit der
Stirn runzeln – bei dieser Stichprobengröße ein
mindestens so großer Effekt nur in 5% aller
vergleichbar angelegter Studien beobachtet werden
kann.“
Rost 2007, 81
91
Irrtumswahrscheinlichkeit:
Ein p = 0,03 bedeutet:
Die Wahrscheinlichkeit, dass unter der Annahme,
die Nullhypothese sei richtig, das gegebene
Untersuchungsergebnis oder ein noch extremeres
auftritt, beträgt 0,03 oder 3%.
Signifikanzstufen
p <= 0,05 signifikant
p <= 0,01 sehr signifikant
p <= 0,001 höchst signifikant
*
**
***
92
Ergebnis einer hypothetischen Studie, in der die Ausbildung von
Paaren verglichen wird (aus: Sedlmeier & Renkewitz 2008, 370):
Partner
Partnerin
Studium
Realschule
Gymnasium
Realschule
Realschule
Gymnasium
Vorzeichentest nach Fischer
Vorzeichen
+
+
+
+
=
+
+
+
Es finden sich
somit 7 positive
Vorzeichen.
Ist das Ergebnis
auf dem 5%
Niveau
signifikant?
Wie hoch ist die
Wahrscheinlichkeit
für 0, 1, 2 etc.
positive Vorzeichen?
93
Wahrscheinlichkeiten für die einzelnen Ergebnisse in Prozentwerten
26
24,6
24
22
20,5
20,5
20
18
Wahrscheinlichkeit = 5,5 %
16
14
11,7
12
11,7
10
8
6
4,4
4,4
4
2
0
1
1
0,1
0
0,1
1
2
3
4
5
6
7
8
9
10
94
Wenn, wie im vorliegenden Fall, von zehn Paaren sieben ein
positives Vorzeichen aufweisen (Bildungsabschluss des
männlichen Partners höher als der des weiblich), dann liegt die
Wahrscheinlichkeit dafür:
• 0,1 % +
• 1,0 % +
• 4,4 % +
• 11,7 % =
• 17,2 %
Es wäre gemäß der Konvention also falsch, daraus
irgendwelche Schlussfolgerungen zu ziehen, weil ns.
95
Erstellen einer einfachen Probedatei mit folgendem Inhalt:
96
Bei zwei Beobachtungen pro Schulform ergeben sich damit
3 mal 8 = 24 Kombinationsmöglichkeiten:
№
Schulform
Abschluss
1
1
0
2
1
0
3
1
1
4
1
1
5
1
1
6
1
0
7
1
0
8
1
1
97
Die Wahrscheinlichkeit p ist demnach für eine ‚Abweichung‘ von
einem Fall bei sechs Beobachtungen 01/06
entspricht der Wahrscheinlichkeit vom 8/24
p = 0,33333
98
99
100
101
102
103
104
105
106
107
Scatterplot of HISTORY against READING
School perf omance 8v *80c
HISTORY = 1,4433+1,0072*x
N = 80
112
110
108
HISTORY
106
104
102
100
98
96
94
READING:HISTORY:
+100
1,0072*x;
p = 0.0000;
92
94
96 y = 1,4433
98
102 r = 0,9510;
104
106
108
r2 = 0,9043
READING
110
108
Scatterplot of HISTORY against READING
Spreadsheet4 8v *4c
HISTORY = -5,2081+1,0798*x
N=4
112
110
HISTORY
108
106
104
102
100
98
READING:HISTORY:
y100
= -5,2081102
+ 1,0798*x;
96
98
104
2
r = 0,9909; p = 0,0091; r = 0,9819 READING
106
108
110
109
Scatterplot of HISTORY against READING
Spreadsheet5 8v *8c
HISTORY = 3,2114+0,99*x
N=8
110
108
HISTORY
106
104
102
100
98
96
READING:HISTORY:
y 98
= 3,2114 100
+ 0,99*x; 102
r = 0,9602;
94
96
104p = 0,0002;
106
2
r = 0,9220
READING
108
110
Scatterplot of HISTORY against READING
Spreadsheet6 8v *16c
HISTORY = 8,5493+0,9403*x
N = 16
110
108
HISTORY
106
104
102
100
98
96
READING:HISTORY:
y 98
= 8,5493 100
+ 0,9403*x;
94
96
102
r = 0,9428; p = 0,00000; r 2 = 0,8889READING
104
106
108
111
112
Scatterplot of CALCULUS against GRAMMAR
School perf omance 8v *80c
CALCULUS = 99,6862+0,0038*x
N = 80
108
106
104
CALCULUS
102
100
98
96
94
92
90
GRAMMAR:CALCULUS:
y 98
= 99,6862
92
94
96
100 + 0,0038*x;
102
104
r = 0,0057; p = 0,9599; r 2 = 0,0000 GRAMMAR
106
108
110
113
Scatterplot of CALCULUS against GRAMMAR
Spreadsheet7 8v *4c
CALCULUS = 87,6269+0,1156*x
N=4
101,0
100,5
100,0
CALCULUS
99,5
99,0
98,5
98,0
97,5
97,0
GRAMMAR:CALCULUS:
y =100
87,6269
97
98
99
101 + 0,1156*x;
102
103
r = 0,2435; p = 0,7565; r 2 = 0,0593 GRAMMAR
104
105
106
114
Scatterplot of CALCULUS against GRAMMAR
School perf omance 7v *4c
CALCULUS = 115,5557-0,1775*x
N=4
99,2
99,0
98,8
98,6
CALCULUS
98,4
98,2
98,0
97,8
97,6
97,4
97,2
97,0
96,8
96,6
GRAMMAR:CALCULUS:
y = 115,5557
- 0,1775*x;
97,8
98,0
98,2
98,4
98,6
98,8
99,0
2
r = -0,1376; p = 0,8624; r = 0,0189GRAMMAR
99,2
99,4
99,6
99,8
115
Scatterplot of CALCULUS against GRAMMAR
Spreadsheet9 8v *8c
CALCULUS = 84,2333+0,1541*x
N=8
102,5
102,0
101,5
101,0
CALCULUS
100,5
100,0
99,5
99,0
98,5
98,0
97,5
97,0
GRAMMAR:CALCULUS:
y =100
84,2333 +102
0,1541*x; 104
96
98
r = 0,3326; p = 0,4208; r 2 = 0,1106 GRAMMAR
106
108
116
Scatterplot of CALCULUS against GRAMMAR
Spreadsheet6 8v *16c
CALCULUS = 96,7334+0,0231*x
N = 16
103
102
101
CALCULUS
100
99
98
97
96
95
GRAMMAR:CALCULUS:
y 98
= 96,7334
92
94
96
100 + 0,0231*x;
102
104
2
r = 0,0460; p = 0,8657; r = 0,0021 GRAMMAR
106
108
110
117