Transcript 2 3
60 50 „schlecht“ Fehler 40 30 „gut“ 20 10 0 1 3 5 7 9 11 13 15 17 19 1 Unterschiede messen Median ist der Punkt, bei dem die eine Hälfte der Werte oberhalb und die andere unterhalb dieses Punktes liegt Median Mean 0 1 2 3 4 5 6 7 8 9 10 Der Mittelwert wird berechnet durch die Summe aller Werte geteilt durch die Anzahl der Werte 2 Mathematisch wird die Berechnung des Mittelwertes so dargestellt: X= X ∑ ∑ xi n ausgesprochen: X Strich oder x quer ist das Symbol für den Mittelwert dies ist der griechische Großbuchstabe für Sigma und das sog. Summenzeichen, d.h. alle Messwerte müssen addiert werden xi dieses Zeichen steht für sämtliche Einzelmesswerte n und n steht schließlich für die Anzahl der durchgeführten Messungen 3 Unterschiede messen Zwei weit verbreite, einfache Methoden: • Zwischen zwei Klassen unterscheiden: Gut ↔ Schlecht • Zwischen vier (oder einer anderen Anzahl von) Perzentilen unterscheiden 4 1 Rangreihe: 2 3 4 5 • Einfache Aussage über Reihenfolge • Hohe Reliabilität, etwa durch Paarvergleich • Keine Informationen über Abstände • Vergleichbarkeit nur bei identischen N‘s 6 7 8 5 Quartile: 1 I. Quartil 2 3 II. Quartil 4 5 III. Quartil 6 • Grobe Aussage über die Stellung in einer Reihe • Hohe Reliabilität, weil recht ‚simpel‘ • Sehr grobe Informationen über Abstände • Einfache Vergleichbarkeit über verschiedene Bereiche hinweg 7 VI. Quartil 8 6 Werte Quartil Prozentrang 30 4 100,00 28 4 90,00 21 3 80,00 16 3 70,00 12 3 60,00 11 2 50,00 6 2 40,00 5 2 30,00 1 1 20,00 0 1 10,00 Prozentrang („RANG“): • Aussage über die Stellung in einer Reihe • Reliabilität von der Messung abhängig • Keine Informationen über Abstände • Einfache Vergleichbarkeit über verschiedene Bereiche hinweg 7 Werte Relativer Prozentrang 30 100,00 28 93,33 21 70,00 16 53,33 12 40,00 11 36,67 6 20,00 5 16,67 1 3,33 0 ,00 Relativer Prozentrang: (100*Wert)/MaxWert • Genaue Aussage über die Stellung in einer Reihe • Reliabilität von der Messung abhängig • Informationen über Abstände • Einfache Vergleichbarkeit über verschiedene Bereiche hinweg 8 9 Werte 30 28 21 16 12 11 6 5 1 0 Rel. % Z-Werte 100,00 1,59844 93,33 1,41039 70,00 ,75221 53,33 ,28208 40,00 -,09403 36,67 -,18805 20,00 -,65818 16,67 -,75221 3,33 -1,12831 ,00 -1,22234 Note 2 2 3 3 4 4 4 4 5 5 10 Unterschiede messen Keine Variation vorhanden 11 Unterschiede messen In welchem Maß ist Variation vorhanden? Erste Ebene: Spannbreite (R für range) R = Xmax – Xmin 12 Unterschiede messen In welchem Maß ist Variation vorhanden? Zweite Ebene: Summe der quadrierten Fehler (Abweichungen) σ² = ∑ ( xi - 2 X) n-1 Mean 13 Unterschiede messen In welchem Maß ist Variation vorhanden? Dritte Ebene: Standardabweichung √ σ= ∑ ( xi - 2 X) n-1 Mean 14 Unterschiede messen In welchem Maß ist Variation vorhanden? Vierte Ebene: z-Transformation Abstand jeder Messung zum Mittelwert, geteilt durch die Standardabweichung z= Mean 0 xi - σx X Mean 0 Alle Mittewerte werden Null, die Abstände werden standardisiert; die relative Lage jeder Messung kann verglichen werden 15 16 (leicht hinkender Vergleich) Sie wollen verschieden formatige, verschieden große Bilder auf eine Seite bringen 17 (leicht hinkender Vergleich) Sie wollen verschieden formatige, verschieden große Bilder auf eine Seite bringen 18 Mittelwerte: 64,55 49,26 Std.-Abw.: 11,623 29,831 19 Wirkung der Z-Transformation: 20 Mit Hilfe dieser Grafik wird erkennbar, was die Prozentränge im Unterschied zu den Z-standardisierten Werten angeben: -20 0 20 40 60 80 100 120 Am linken Rand sind die Rohwerte abgetragen, am oberen Rand die Prozentränge und am unteren Rand die z-standardisierten Werte. 108,323 105,041 103,749 102,704 101,433 100,339 Wie ersichtlich, hat der höchste Rohwert den Prozentrang 100 und den Z-Wert +3. Der niedrigste Rohwert hingegen den Prozentrang 1,25 und den Z-Wert -2. 99,835 99,412 98,823 98,112 97,404 96,106 95,147 ZSPELLING(L) PSPELLIN(R) 92,547 -3 -2 -1 0 1 2 3 4 Prozentränge cum f % = 100 (N = 300) Rohwert Fälle f cum f 5 25 25 98 4 18 18 3 19 2 cum f N cum f % PR 73 24,3 24 19 55 18,3 18 15 15 36 12,0 12 1 12 12 21 7,0 7 0 9 9 9 3,0 3 80 .. .. 300 = 100 % 9= x % 22 sog. ‚Absoluter Rangwert‘: 1. Rang + 2. Rang/2 = 1,5 Werte mal 100/Max-Wert: 2*100 = 200/30 = 6,66666 Relative Rangfolge in %: 20 = 100 % 1,5 = x% Z-Transformation 23 Line Plot of VAR00001 Beispiel_Z_Proz_Werte 4v *20c 35 120 30 100 25 80 20 60 15 40 10 20 5 0 0 1 2 3 4 5 6 7 8 0 9 10 11 12 13 14 15 16 17 18 19 20 21 VAR00001(L) PVAR0000(R) 24 Line Plot of VAR00001 Beispiel_Z_Proz_Werte 4v *20c 35 1,2 1,0 30 0,8 0,6 25 0,4 0,2 20 0,0 -0,2 15 -0,4 -0,6 10 -0,8 -1,0 5 -1,2 0 0 1 2 3 4 5 6 7 8 -1,4 9 10 11 12 13 14 15 16 17 18 19 20 21 VAR00001(L) ZVAR00001(R) 25 Line Plot of VAR00001 Beispiel_Z_Proz_Werte 4v *20c 35 120 30 100 25 80 20 60 15 40 10 20 5 0 0 1 2 3 4 5 6 7 8 0 9 10 11 12 13 14 15 16 17 18 19 20 21 VAR00001(L) Real_Proz(R) 26 4 Häufigkeiten 3 2 1 0 2 3 4 5 26 N_A_1 27 28 29 30 27 35 30 25 20 15 10 5 N_A_1 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 28 0 30,00 30,00 29,00 29,00 29,00 28,00 28,00 28,00 27,00 27,00 26,00 5,00 4,00 4,00 4,00 3,00 3,00 3,00 2,00 2,00 120 1,2 1,0 100 0,8 0,6 80 0,4 0,2 0,0 60 -0,2 -0,4 40 -0,6 -0,8 20 -1,0 -1,2 -1,4 PN_A_1(L) ZN_A_1(R) 29 4 Häufigkeiten 3 2 1 0 2 3 4 12 13 14 15 N_A_2 16 17 27 28 29 30 30 35 30 25 20 15 10 5 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 N_A_2 31 0 30,00 30,00 29,00 28,00 28,00 27,00 17,00 16,00 15,00 14,00 13,00 13,00 12,00 4,00 4,00 3,00 3,00 3,00 2,00 2,00 120 1,6 1,4 1,2 100 1,0 0,8 80 0,6 0,4 60 0,2 0,0 -0,2 40 -0,4 -0,6 -0,8 20 -1,0 -1,2 -1,4 PN_A_2(L) ZN_A_2(R) 32 3 Häufigkeiten 2 1 0 2 3 4 7 9 11 12 13 14 16 17 N_A_3 19 21 24 25 26 28 29 30 33 35 30 25 20 15 10 5 N_A_3 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 34 0 30,00 29,00 28,00 26,00 25,00 24,00 21,00 19,00 17,00 16,00 14,00 13,00 12,00 12,00 11,00 9,00 7,00 4,00 3,00 2,00 120 2,0 1,5 100 1,0 80 0,5 60 0,0 -0,5 40 -1,0 20 -1,5 -2,0 PN_A_3(L) ZN_A_3(R) 35 Umwandlung eines numerischen Wertes in einen kategorialen Wert 12 10 Häufigkeiten 8 6 4 2 0 93 WRITING: 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 WRITING N = 80; Mw. = 99,82; Stdabw. = 3,3777; Max. = 109,1118; Min. = 93,5138 36 Mittelw. Median Minimum Maximum Stdabw. 80 99,82004 99,56863 93,51375 109,1118 3,377652 Deskriptive Statistik (School perfomance) 12 10 "Schlechte Schreiber" "Gute Schreiber" 8 Häufigkeiten WRITING Gült. N 6 4 2 0 93 WRITING: 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 37 WRITING N = 80; Mw. = 99,82; Stdabw. = 3,3777; Max. = 109,1118; Min. = 93,5138 Mittelwert: Arithmetisches Mittel = Summe aller beobachteten Merkmalswerte dividiert durch die Anzahl der Beobachtungen Median (auch Zentral- oder 50% Wert): Der Median ist der Wert für den gilt, dass 50% aller Werte größer oder gleich sind. Der Median halbiert die Stichprobenverteilung 38 Gült. N Mittelw. Median Minimum Maximum Stdabw. Deskriptive Statistik (School perfomance) 90 121,5067 100,1944 93,51375 410,0000 66,48269 50 Mw. = Mittelwert 45 40 35 Häufigkeiten WRITING Median 30 25 20 15 10 5 0 50 WRITING: 100 150 200 250 300 350 400 N = 90; Mw. = 121,5067; Stdabw. =WRITING 66,4827; Max. = 410; Min. = 93,5138 450 39 Gült. N Mittelw. WRITING 80 Minimum Maximum Stdabw. 99,82004 99,56863 93,51375 Gült. N Mittelw. WRITING 90 Median Median 109,1118 3,377652 Minimum Maximum Stdabw. 121,5067 100,1944 93,51375 410,0000 66,48269 40 41 Umwandlung eines numerischen Wertes in einen kategorialen Wert 12 10 Häufigkeiten 8 6 4 2 0 93 WRITING: 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 WRITING N = 80; Mw. = 99,82; Stdabw. = 3,3777; Max. = 109,1118; Min. = 93,5138 42 Mittelw. Median Minimum Maximum Stdabw. 80 99,82004 99,56863 93,51375 109,1118 3,377652 Deskriptive Statistik (School perfomance) 12 10 "Schlechte Schreiber" "Gute Schreiber" 8 Häufigkeiten WRITING Gült. N 6 4 2 0 93 WRITING: 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 43 WRITING N = 80; Mw. = 99,82; Stdabw. = 3,3777; Max. = 109,1118; Min. = 93,5138 Mittelwert: Arithmetisches Mittel = Summe aller beobachteten Merkmalswerte dividiert durch die Anzahl der Beobachtungen Median (auch Zentral- oder 50% Wert): Der Median ist der Wert für den gilt, dass 50% aller Werte größer oder gleich sind. Der Median halbiert die Stichprobenverteilung 44 Gült. N Mittelw. Median Minimum Maximum Stdabw. Deskriptive Statistik (School perfomance) 90 121,5067 100,1944 93,51375 410,0000 66,48269 50 Mw. = Mittelwert 45 40 35 Häufigkeiten WRITING Median 30 25 20 15 10 5 0 50 WRITING: 100 150 200 250 300 350 400 N = 90; Mw. = 121,5067; Stdabw. =WRITING 66,4827; Max. = 410; Min. = 93,5138 450 45 Gült. N Mittelw. WRITING 80 Minimum Maximum Stdabw. 99,82004 99,56863 93,51375 Gült. N Mittelw. WRITING 90 Median Median 109,1118 3,377652 Minimum Maximum Stdabw. 121,5067 100,1944 93,51375 410,0000 66,48269 46 47 60 Gruppenzugehörigkeit: A 50 40 Fehler Gruppenzugehörigkeit: B 30 Gruppenzugehörigkeit: C 20 10 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 48 60 50 Gibt es „Muster“ in der Verteilung? Fehler 40 30 20 10 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 49 8 7 6 5 4 3 2 1 0 0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 1,6 1,8 2,0 2,2 2,4 50 2,6 8 7 6 5 4 3 2 1 0 0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 1,6 1,8 2,0 2,2 2,4 2,6 51 8 7 6 5 4 3 2 1 0 0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 1,6 1,8 2,0 2,2 2,4 52 2,6 Kelchlänge Kelchbreite Blattlänge Blattbreite Iristyp 1 5 3,3 1,4 0,2 Setosa 2 6,4 2,8 5,6 2,2 Virginic 3 6,5 2,8 4,6 1,5 Versicol 4 6,7 3,1 5,6 2,4 Virginic 5 6,3 2,8 5,1 1,5 Virginic 6 4,6 3,4 1,4 0,3 Setosa 7 6,9 3,1 5,1 2,3 Virginic 8 6,2 2,2 4,5 1,5 Versicol 9 5,9 3,2 4,8 1,8 Versicol 10 4,6 3,6 1 0,2 Setosa 11 6,1 3 4,6 1,4 12 6 2,7 5,1 1,6 13 6,5 3 5,2 2 14 5,6 2,5 3,9 1,1 15 6,5 3 5,5 1,8 Virginic 16 5,8 2,7 5,1 1,9 Virginic 17 6,8 3,2 5,9 2,3 Virginic 18 5,1 3,3 1,7 0,5 Setosa 19 5,7 2,8 4,5 1,3 Versicol 20 6,2 3,4 5,4 2,3 Virginic 21 7,7 3,8 6,7 2,2 Virginic 22 6,3 3,3 4,7 1,6 Versicol 23 6,7 3,3 5,7 2,5 Virginic 24 7,6 3 6,6 2,1 Virginic 25 4,9 2,5 4,5 1,7 Virginic Fisher (1936) Irisdaten: Länge und Breite von Blättern und Kelchen für 3 Iristypen Durch was unterscheiden sich die drei Iristypen? Versicol Versicol Virginic Versicol 53 • Kategoriale Werte (gut/schlecht) • Metrische Werte (1, 2, 3, 4, ..) [Nominale, Ordinale Werte] Split: Welche Variable trennt am besten bei welchem Wert? CART (classification and regression trees) 54 Scatterplot für Blattlänge vs. Blattbreite Irisdat 5v*150c 8 7 6 Blattlänge 5 4 3 2 1 0 0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 Blattbreite 1,6 1,8 2,0 2,2 2,4 55 2,6 4,6 S 4,4 S 4,2 S S 4,0 3,8 Kelchbreite 3,6 3,4 3,2 3,0 2,8 2,6 2,4 2,2 S S S V SS SS V SSS S S S SSS S VER V V SS VER V V S SS S VER VER VV V VVER V S SS V VER V VER V SS SSS VERVER VERVER V VVER V VVER VER VV VV S VER VER VER VER VERVVERVER V VVERV VERV V VVER VER V VER VERVER V VER V V VERVER VER V V VER VER VERV VER V V VER VER S VER VER VER VER V VER V S VV V V VER 2,0 1,8 4,0 S 4,5 5,0 5,5 6,0 6,5 7,0 7,5 8,0 8,5 Kelchlänge 56 2,6 V VV V V VVVV V V V V VV V VVVV V V VVVV V V VV V V VER VV V VV V V V V VER VER VER VER V VERVER VER VER VER VV VER VERVER VER VER VER V VER VER VER VER VER VER VER VER VER VER VER VERVER VER VER VER VER VER VERVER VER 2,4 2,2 2,0 1,8 Blattbreite 1,6 1,4 1,2 1,0 0,8 S S S SSS S SSS S S SSS SS SSS S S SS 0,6 0,4 0,2 0,0 0 1 2 3 4 5 6 7 8 Blattlänge 57 2,6 V 2,4 2,2 2,0 1,8 Blattbreite 1,6 1,4 1,2 1,0 V V V V V V V V V V V V V V V V V V V V V V V V V V V V VER V V VER VER V VER VER VER V VER VER V VER VER VER VER V VER VER VER VER VER VER VER VER VER VER VER VER VER VER VER VER VER VER VER VER VER VER VER VER V V 0,8 S 0,6 S 0,4 S S S S S S S S S S S S S S S S S S S S S S S S S 0,2 0,0 1,8 2,0 2,2 2,4 2,6 2,8 3,0 3,2 3,4 3,6 3,8 4,0 4,2 S 4,4 4,6 Kelchbreite 58 8 V VV 7 V VV V V V V V V V V VV V V V V V V V V V V VVER V V VER V V V V VERV V VVER V VER VVER VER VER VER VER VER VER VER V VER VER VER VER VER VER VER VER VER VER VER VER VER VERVER VER VER VER VER VER VER VERVER VERVER VER VER VER VER VER VER VER VER 6 Blattlänge 5 4 3 2 1 0 4,0 S S S S SSSS S S S S S SSS S S S S S S S SS S S SS S S S 4,5 5,0 5,5 V V V V S S S 6,0 6,5 7,0 7,5 8,0 8,5 Kelchlänge 59 Scatterplot of Kelchbreite against Kelchlänge Irisdat.sta 5v *150c 4,6 4,4 4,2 4,0 3,8 Kelchbreite 3,6 3,4 3,2 3,0 2,8 2,6 2,4 2,2 2,0 1,8 4,0 4,5 5,0 5,5 6,0 6,5 Kelchlänge 7,0 7,5 8,0 8,5 60 Scatterplot of Blattlänge against Kelchlänge Irisdat.sta 5v *150c 8 7 6 Blattlänge 5 4 3 2 1 0 4,0 4,5 5,0 5,5 6,0 6,5 Kelchlänge 7,0 7,5 8,0 8,5 61 Scatterplot of Blattbreite against Kelchlänge Irisdat.sta 5v *150c 2,6 2,4 2,2 2,0 1,8 Blattbreite 1,6 1,4 1,2 1,0 0,8 0,6 0,4 0,2 0,0 4,0 4,5 5,0 5,5 6,0 6,5 Kelchlänge 7,0 7,5 8,0 8,5 62 Scatterplot of Blattlänge against Kelchbreite Irisdat.sta 5v *150c 8 7 6 Blattlänge 5 4 3 2 1 0 1,8 2,0 2,2 2,4 2,6 2,8 3,0 3,2 3,4 Kelchbreite 3,6 3,8 4,0 4,2 4,4 4,6 63 Scatterplot of Blattbreite against Kelchbreite Irisdat.sta 5v *150c 2,6 2,4 2,2 2,0 1,8 Blattbreite 1,6 1,4 1,2 1,0 0,8 0,6 0,4 0,2 0,0 1,8 2,0 2,2 2,4 2,6 2,8 3,0 3,2 3,4 Kelchbreite 3,6 3,8 4,0 4,2 4,4 4,6 64 Scatterplot of Blattbreite against Blattlänge Irisdat.sta 5v *150c 2,6 2,4 2,2 2,0 1,8 Blattbreite 1,6 1,4 1,2 1,0 0,8 0,6 0,4 0,2 0,0 0 1 2 3 4 Blattlänge 5 6 7 8 65 Matrixplot Irisdat 6v*150c Kelchlänge Kelchbreite Blattlänge Blattbreite Ty p 66 Matrixplot mit Brushing-Funktion Virginic Virginic Kelchlänge Virginic Virginic Virginic Virginic Virginic Virginic Virginic Virginic Kelchbreite Virginic Virginic Virginic Virginic Virginic Virginic Virginic Virginic Virginic Virginic Virginic Virginic Blattlänge Virginic Virginic Blattbreite 67 Matrix Plot Irisdat.sta 5v *150c Kelc hlänge Kelc hbreite Blattlänge Blattbreite Iris ty p 68 Setosa Versicol Virginic Klassifikationsbaum für Iristyp Anzahl Splits = 2; Anzahl Endknoten 1 =3 Setosa 50 100 Blattlänge<=2,0958 2 Setosa 3 Versicol 52 48 Blattbreite<=1,6442 4 Versicol 5 Virginic 69 Rangfolge für Bedeutung Prädiktoren Abhängige Variable: Iristyp Rangfolge auf Skala von 0=niedrige Bed. bis 100=hohe Bedeutung 100 Ränge 80 60 40 20 0 Kelchlänge Kelchbreite Blattlänge Blattbreite Prädiktor-Variable 70 Fehlklassifikationsmatrix Lernstichprobe (Irisdat) Matrix progn. (Zeile) x beob. (Spalte) Lernstichprobe N = 150 Klasse - Setosa Setosa Versicol 0 Virginic 0 Klasse - Versicol Klasse - Virginic 0 0 4 2 Prognost. Klasse x Beob. Klasse n's (Irisdat) Matrix progn. (Zeile) x beob. (Spalte) Lernstichprobe N = 150 Klasse - Setosa Klasse - Versicol Klasse - Virginic Setosa 50 0 0 Versicol 0 48 4 Virginic 0 2 46 71 Split-Bedingung (Irisdat) Split-Bedingung je Knoten 1 Split - Konst. Split - Variable -2,09578 Blattlänge -1,64421 Blattbreite 2 3 72 Funktion = 2,09578 8 7 6 V Blattlänge 4 3 2 S S S 0 0,0 V V V VER V V VER V V V VER VER VER V VER VER VER VER VER VER VER VER VER VER V VER VER VER VER VER VER VER VER VER VER VER VER VER VER VER VER VER VER VER VER VER 5 1 V V V V V V V V S S S S S S S S 0,2 S S S S S S S S S 0,4 S V V V V V V V V V V V V V V V V V V V V V V V V V V S 0,6 0,8 1,0 1,2 1,4 Blattbreite 1,6 1,8 2,0 2,2 2,4 2,6 73 Scatterplot für Blattlänge vs. Blattbreite Irisdat 5v*150c 8 7 6 Blattlänge 5 4 3 2 1 0 0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 1,6 1,8 2,0 2,2 2,4 2,6 Blattbreite Einschluss v5='Setosa' Einschluss V5='Vericol' Einschluss v5='Virginic' Andere 74 Scatterplot für Blattlänge vs. Blattbreite Irisdat 5v*150c Funktion = 2,09578 8 7 6 Blattlänge 5 4 3 2 1 0 0,0 0,2 0,4 0,6 0,8 1,0 1,2 1,4 1,6 1,8 2,0 2,2 2,4 2,6 Blattbreite Einschluss v5='Setosa' Einschluss v5='Virinic' Einschluss v5='Versicol' Andere 75 Zwei, von vielen Problemen: • Feature Choise • Overfitting, Underfitting 76 Zwei, von vielen Problemen: • Feature Choise • Overfitting, Underfitting 77 Kategoriale Splits a b Bivariate Splits < 0,5 > 0,5 Multivariate Splits < 0,5 > 0,5, < 1,8 > 1,8 78 Wie kann man dieses Problem lösen? Etwa mit Hilfe einer sog. „Kreuzvalidierung“: Alle Daten Teilmenge Analyse und Modellbildung Anwendung auf andere Teilmenge 79 Daten Trainingsdaten Daten teilen Validierungsdaten Modellbewertung 80 Vierter Schritt: Wovon ist „gut“ oder „schlecht“ abhängig? Güte der erreichten Aufklärung überprüfen Predicted Class by Observ ed Class n's f or gut_schlecht 81 82 Practical Significance Statistical Significance 83 Practical Significance 50% Datensatz Datensatz Modell/Zusammenhang 50% Datensatz Statistical Significance Zufall Was, wenn kein Zusammenhang? Modell/Zusammenhang = Zufall? Modell/Zusammenhang >/< Zufall? 84 Zusammenfassung der behandelten methodischen Ansätze: Eine bislang unbehandelte Frage lautet: 85 Wie aussagekräftig sind die jeweils gewonnenen Befunde? Folgende Hypothese soll geprüft werden: H0 Person A besitzt keine hellseherischen Fähigkeiten H1 Person A verfügt über hellseherische Fähigkeiten Unter welchen Bedingungen kann H0 bestätigt/verworfen werden? Unter welchen Bedingungen kann H1 bestätigt/verworfen werden? Es gibt Konventionen, die als Grundlage der Entscheidung genutzt werden können/sollten: Das Signifikanzniveau. Irrtumswahrscheinlichkeit Bedeutung Symbolisierung p > 0,05 nicht signifikant ns p <= 0,05 signifikant * p <= 0,01 sehr signifikant ** p <= 0,001 höchst signifikant *** 86 Wie groß ist die Wahrscheinlichkeit dreimal „Kopf“ zu erhalten, wenn drei mal eine Münze geworfen wird? Dazu müssen wir uns die Möglichkeiten vor Augen führen: (K = Kopf; W = Wappen) WWW, WWK, WKW, KWW, WKK, KWK, KKW und KKK Wir haben folglich 8 Möglichkeiten, davon erfüllt eine unsere Bedingung. Die Wahrscheinlichkeit p ist demnach 1/8 oder 0,125. 87 Wahrscheinlichkeit p bei drei Würfen 88 Wie groß ist die Wahrscheinlichkeit viermal „Kopf“ zu erhalten, wenn vier mal eine Münze geworfen wird? Dazu erneut die Möglichkeiten: (K = Kopf; W = Wappen) WWWW WWWK WWKW WKWW KWWW KKKK KKKW KKWK KWKK WKKK WWKK WKKW KKWW KWWK KWKW WKWK Wir haben folglich 16 Möglichkeiten, davon erfüllt eine unsere Bedingung. Die Wahrscheinlichkeit p ist demnach 1/16 oder 0,0625. 89 Signifikanzstufen Irrtumswahrscheinlichkeit Bedeutung Symbolisierung p > 0,05 nicht signifikant ns p <= 0,05 signifikant * p <= 0,01 sehr signifikant ** p <= 0,001 höchst signifikant *** 90 „Ein Wert von p = 0.05 besagt unter der Annahme, dass kein Effekt existiert, dass – vereinfacht ausgedrückt, puristische Methodiker mögen mit der Stirn runzeln – bei dieser Stichprobengröße ein mindestens so großer Effekt nur in 5% aller vergleichbar angelegter Studien beobachtet werden kann.“ Rost 2007, 81 91 Irrtumswahrscheinlichkeit: Ein p = 0,03 bedeutet: Die Wahrscheinlichkeit, dass unter der Annahme, die Nullhypothese sei richtig, das gegebene Untersuchungsergebnis oder ein noch extremeres auftritt, beträgt 0,03 oder 3%. Signifikanzstufen p <= 0,05 signifikant p <= 0,01 sehr signifikant p <= 0,001 höchst signifikant * ** *** 92 Ergebnis einer hypothetischen Studie, in der die Ausbildung von Paaren verglichen wird (aus: Sedlmeier & Renkewitz 2008, 370): Partner Partnerin Studium Realschule Gymnasium Realschule Realschule Gymnasium Vorzeichentest nach Fischer Vorzeichen + + + + = + + + Es finden sich somit 7 positive Vorzeichen. Ist das Ergebnis auf dem 5% Niveau signifikant? Wie hoch ist die Wahrscheinlichkeit für 0, 1, 2 etc. positive Vorzeichen? 93 Wahrscheinlichkeiten für die einzelnen Ergebnisse in Prozentwerten 26 24,6 24 22 20,5 20,5 20 18 Wahrscheinlichkeit = 5,5 % 16 14 11,7 12 11,7 10 8 6 4,4 4,4 4 2 0 1 1 0,1 0 0,1 1 2 3 4 5 6 7 8 9 10 94 Wenn, wie im vorliegenden Fall, von zehn Paaren sieben ein positives Vorzeichen aufweisen (Bildungsabschluss des männlichen Partners höher als der des weiblich), dann liegt die Wahrscheinlichkeit dafür: • 0,1 % + • 1,0 % + • 4,4 % + • 11,7 % = • 17,2 % Es wäre gemäß der Konvention also falsch, daraus irgendwelche Schlussfolgerungen zu ziehen, weil ns. 95 Erstellen einer einfachen Probedatei mit folgendem Inhalt: 96 Bei zwei Beobachtungen pro Schulform ergeben sich damit 3 mal 8 = 24 Kombinationsmöglichkeiten: № Schulform Abschluss 1 1 0 2 1 0 3 1 1 4 1 1 5 1 1 6 1 0 7 1 0 8 1 1 97 Die Wahrscheinlichkeit p ist demnach für eine ‚Abweichung‘ von einem Fall bei sechs Beobachtungen 01/06 entspricht der Wahrscheinlichkeit vom 8/24 p = 0,33333 98 99 100 101 102 103 104 105 106 107 Scatterplot of HISTORY against READING School perf omance 8v *80c HISTORY = 1,4433+1,0072*x N = 80 112 110 108 HISTORY 106 104 102 100 98 96 94 READING:HISTORY: +100 1,0072*x; p = 0.0000; 92 94 96 y = 1,4433 98 102 r = 0,9510; 104 106 108 r2 = 0,9043 READING 110 108 Scatterplot of HISTORY against READING Spreadsheet4 8v *4c HISTORY = -5,2081+1,0798*x N=4 112 110 HISTORY 108 106 104 102 100 98 READING:HISTORY: y100 = -5,2081102 + 1,0798*x; 96 98 104 2 r = 0,9909; p = 0,0091; r = 0,9819 READING 106 108 110 109 Scatterplot of HISTORY against READING Spreadsheet5 8v *8c HISTORY = 3,2114+0,99*x N=8 110 108 HISTORY 106 104 102 100 98 96 READING:HISTORY: y 98 = 3,2114 100 + 0,99*x; 102 r = 0,9602; 94 96 104p = 0,0002; 106 2 r = 0,9220 READING 108 110 Scatterplot of HISTORY against READING Spreadsheet6 8v *16c HISTORY = 8,5493+0,9403*x N = 16 110 108 HISTORY 106 104 102 100 98 96 READING:HISTORY: y 98 = 8,5493 100 + 0,9403*x; 94 96 102 r = 0,9428; p = 0,00000; r 2 = 0,8889READING 104 106 108 111 112 Scatterplot of CALCULUS against GRAMMAR School perf omance 8v *80c CALCULUS = 99,6862+0,0038*x N = 80 108 106 104 CALCULUS 102 100 98 96 94 92 90 GRAMMAR:CALCULUS: y 98 = 99,6862 92 94 96 100 + 0,0038*x; 102 104 r = 0,0057; p = 0,9599; r 2 = 0,0000 GRAMMAR 106 108 110 113 Scatterplot of CALCULUS against GRAMMAR Spreadsheet7 8v *4c CALCULUS = 87,6269+0,1156*x N=4 101,0 100,5 100,0 CALCULUS 99,5 99,0 98,5 98,0 97,5 97,0 GRAMMAR:CALCULUS: y =100 87,6269 97 98 99 101 + 0,1156*x; 102 103 r = 0,2435; p = 0,7565; r 2 = 0,0593 GRAMMAR 104 105 106 114 Scatterplot of CALCULUS against GRAMMAR School perf omance 7v *4c CALCULUS = 115,5557-0,1775*x N=4 99,2 99,0 98,8 98,6 CALCULUS 98,4 98,2 98,0 97,8 97,6 97,4 97,2 97,0 96,8 96,6 GRAMMAR:CALCULUS: y = 115,5557 - 0,1775*x; 97,8 98,0 98,2 98,4 98,6 98,8 99,0 2 r = -0,1376; p = 0,8624; r = 0,0189GRAMMAR 99,2 99,4 99,6 99,8 115 Scatterplot of CALCULUS against GRAMMAR Spreadsheet9 8v *8c CALCULUS = 84,2333+0,1541*x N=8 102,5 102,0 101,5 101,0 CALCULUS 100,5 100,0 99,5 99,0 98,5 98,0 97,5 97,0 GRAMMAR:CALCULUS: y =100 84,2333 +102 0,1541*x; 104 96 98 r = 0,3326; p = 0,4208; r 2 = 0,1106 GRAMMAR 106 108 116 Scatterplot of CALCULUS against GRAMMAR Spreadsheet6 8v *16c CALCULUS = 96,7334+0,0231*x N = 16 103 102 101 CALCULUS 100 99 98 97 96 95 GRAMMAR:CALCULUS: y 98 = 96,7334 92 94 96 100 + 0,0231*x; 102 104 2 r = 0,0460; p = 0,8657; r = 0,0021 GRAMMAR 106 108 110 117