Statistik_Teil_2 - Antiinfectives Intelligence

Download Report

Transcript Statistik_Teil_2 - Antiinfectives Intelligence

Univariate Statistik
M. Kresken
1
Graphische Darstellung
• Kreisdiagramm
• Stabdiagramm
(Säulen-, Balkendiagramm)
• Histogramm
M. Kresken
2
Häufigkeit des Geschlechts
für n=55 Probanden
SEX
absolut
relativ
prozentual
männlich
weiblich
gesamt
28
27
55
0,51
0,49
1,00
50,9%
49,1%
100,0%
M. Kresken
Aufteilung der
Winkelsumme
183
177
360
3
Kreisdiagramm
Geschlecht
49,1%
M. Kresken
50,9%
männlich
weiblich
4
Häufigkeit der Geschwisterkinder
bei n=55 Probanden
M. Kresken
GZ
absolut
relativ
0
1
2
3
4
5
6
7
8
k. A.
gesamt
10
18
12
4
4
3
1
0
1
2
55
0,18
0,33
0,22
0,07
0,07
0,05
0,02
0,00
0,02
0,04
1,00
5
Stabdiagramm
Geschwisterzahl
20
18
absolute Häüfigkeit
16
14
12
10
8
6
4
2
0
0
M. Kresken
1
2
3
4
5
6
7
8
k. A.
6
Histogramm
• Zur Darstellung eines stetigen (auf einer metrischen
Skala gemessenen) Merkmals
• Dazu wird die Messskala in Bereiche, die sogenannten
Klassen, aufgeteilt.
• Klassen müssen den gesamten Wertevorrat
überdecken (Vollständigkeit).
• Klassen dürfen sich nicht überschneiden (Disjunktheit).
• Insbesondere ist festzulegen, zu welcher Klasse die
einzelnen Klassengrenzen gehören.
M. Kresken
7
Histogramm
• Wird die untere Klasse zugeordnet
 linksgeschlossen
 Darstellung: [a1, a2)
 zur Klasse gehören alle Werte ab a1 bis unterhalb a2
• Wird die obere Klasse zugeordnet
 rechtsgeschlossen
 Darstellung: (a1, a2]
 zur Klasse gehören alle Werte oberhalb von a1 bis
einschließlich a2
M. Kresken
8
Häufigkeiten des systolischen
Blutdrucks der n=55 Probanden
Klasseneinteilung für den
sysolischen Blutdruck [mmHg]
(90, 100]
(100, 110]
(110, 120]
(120, 130]
(130, 140]
(140, 150]
(150, 160]
(160, 170]
gesamt
M. Kresken
absolut
relativ
3
6
13
14
10
6
0
3
55
0,05
0,11
0,24
0,25
0,18
0,11
0,00
0,05
1,00
9
Histogramm
Systolischer Blutdruck [mmHg]
relative Häufigkeit
0,30
0,24
0,25
0,25
0,18
0,20
0,15
0,10
0,11
0,11
0,05
0,05
0,05
0,00
0,00
(90,
100]
M. Kresken
(100,
110]
(110,
120]
(120,
130]
(130,
140]
(140,
150]
(150,
160]
(160,
170]
10
Empirische Verteilungsfunktion
• Die Klassenbildung bedeutet eine Zusammenfassung
der Messergebnisse und damit eine Reduzierung der
Information über den konkreten Daten.
• Eine graphische Veranschaulichung der OrginalMessergebnisse eines quantitativen Merkmals ist die
empirische Verteilungsfunktion.
• Dazu werden zu den Messwerten, die auf der Abszisse
angegeben sind, die zugehörigen Summenhäufigkeiten
auf der Ordinate angetragen.
• Die entstehenden Punkte werden durch eine
Treppenfunktion miteinander verbunden.
M. Kresken
11
Empirische Verteilungsfunktion
kumulierte relative Häufigkeit
Blutzuckerkonzentration
1,0
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0,0
50
60
70
80
90
100
110
120
130
140
150
Blutzuckerkonzentration (mg/100ml)
M. Kresken
12
Kenngrößen
M. Kresken
13
Kenngrößen
• Ziel ist es, typische Eigenschaften einer Messreihe mit
wenigen Zahlen zu beschreiben.
• Dadurch wird bewusst eine radikale Reduktion der in
den konkreten Daten enthaltenen Information
angestrebt.
• Zur Beschreibung der Verteilung von Messwerten sollte
immer ein Lagemaß und ein Streuungsmaß angegeben
werden.
M. Kresken
14
Lagemaße
Lagemaße
• Mittelwert
• Quantile
• Median
• Modalwert
Streuungsmaße
• Spannweite
• Standardabweichung/
Varianz
• Quartilsabstand
• Variationskoeffizient
Box-Whisker Plot
M. Kresken
15
Lagemaße (Lageparameter)
• Beschreiben die zentrale Tendenz der Daten
M. Kresken
16
Mittelwert
M. Kresken
Mittelwerte
17
Mittelwert
• Beschreibt den Schwerpunkt der Messwerte, wobei
jeder einzelnen Beobachtung das gleiche Gewicht 1/n
zukommt.
_ x + x + ... + x
1
1
2
n
x=
= n
n
n
x
j
j=1
Arithmetischer Mittelwert
M. Kresken
18
Mittelwert
• Mittelwert der Blutzuckerkonzentrationen von n = 52
Probanden
- Berechnung des Mittelwertes:
_ 62 + 75 + ... + 125
x=
= 92,4
52
Arithmetischer Mittelwert
M. Kresken
19
Mittelwert
• Geometrischer Mittelwert:
- Werte: 0,25, 0,5, 1, 2, 4, 8, 16
x
M. Kresken
log2 x
log2 x + 9
0,25
0,25 = 2-2
log2 0,25 = –2
-2 + 9 = 7
0,5
0,5 = 2-1
log2 0,5 = –1
-1 + 9 = 8
1
1 = 20
log2 1 = 0
0+9=9
2
2 = 21
log2 2 = 1
1 + 9 = 10
4
4 = 22
log2 4 = 2
2 + 9 = 11
8
8 = 23
log2 8 = 3
3 + 9 = 12
16
16 = 24
log2 16 = 4
4 + 9 = 13
20
Mittelwert
• Geometrischer Mittelwert:
- Transformierte Werte (log2 x + 9):
7, 8, 9, 10, 11, 12, 13
_ 7 + 8 + 9 + 10 + 11 + 12 + 13
x=
= 10
7
Rücktransformation: 10 – 9 = 1
1 = log2 2
21 = 2
Mittelwert: 2
M. Kresken
21
Quantile, Median
• Ein p-Quantil ist dadurch gekennzeichnet, dass
mindestens der Anteil p der Werte kleiner oder gleich
diesem Wert ist.
~
• x, das 0,5-Quantil, Median genannt
• Q1, das 0,25-Quantil, unteres Quartil genannt
• Q3, das 0,75-Quantil, oberes Quartil genannt
• Die 0,1-, 0,2 .... 0,9-Quantile heißen Dezile.
• Die 0,01-, 0,02 .... 0,09-Quantile heißen Percentile.
M. Kresken
22
Quantile, Median
• Das p-Quantil lässt sich aus der Rangliste von n
Messwerten bestimmen.
• Zunächst wird das Produkt n x p berechnet.
• Ist n x p keine ganze Zahl, so ist das p-Quantil der k-te
Wert x (k) der Rangliste, wobei k die auf n x p folgende
ganze Zahl ist.
• Falls n x p eine ganze Zahl ist, so wird zur Bestimmung
des p-Quantils zwischen den Werten x (n x p) und
x (n x p + 1) interpoliert.
1
(x (n x p) + x (n x p + 1) )
2
M. Kresken
23
Quantile, Median
• Median und Quartile der Blutzuckerkonzentrationen von
n = 52 Probanden
- Berechnung des Medians:
 Position in der Rangliste n x p = 52 x 0,5 = 26
 Da 26 eine ganze Zahl ist, errechnet man den
Median als den mittleren Messwert zwischen
dem 26. und 27. Messwert der Rangliste.
 Der mediane Blutzuckerwert beträgt
(90 + 92) / 2 [mg/100 ml] = 91 [mg/100 ml]
M. Kresken
24
Quantile, Median
• Median und Quartile der Blutzuckerkonzentrationen von
n = 52 Probanden
- Berechnung des unteren Quartils:
 Position in der Rangliste n x p = 52 x 0,25 = 13
 Da 13 eine ganze Zahl ist, errechnet man das
untere Quartil als den mittleren Messwert
zwischen dem 13. und 14. Messwert der
Rangliste.
 Q1 = (86 + 86) / 2 [mg/100 ml] = 86 [mg/100 ml]
- Berechnung des oberen Quartils:
 Q3 = (96 + 96) / 2 [mg/100 ml] = 96 [mg/100 ml]
M. Kresken
25
Quantile, Median
• Median der Körpergröße von n = 53 Probanden
- Berechnung des Medians:
 Position in der Rangliste n x p = 53 x 0,5 = 26,5
 Da 26,5 keine ganze Zahl ist, ist der 27.
Messwert der Rangliste der Median
 Der mediane Körpergröße beträgt
172 cm
M. Kresken
26
Modalwert
• Der Modalwert ist der Messwert mit der größten
absoluten Häufigkeit.
• Er ist nur sinnvoll, wenn er eindeutig ist.
• Modalwert der Blutzuckerkonzentrationen von n = 52
Probanden:
- Die Werte 84 und 92 wurden jeweils sechs mal
bestimmt.
- Der häufigste Messwert ist nicht eindeutig und der
Modalwert damit nicht bestimmbar.
M. Kresken
27
Modalwert, Median, Mittelwert
• Der Modalwert ist ein sehr einfach bestimmbares
Lagemaß.
• Der Vorteil des Medians gegenüber dem Mittelwert liegt
vor allem darin, dass er durch einzelne „Ausreißer“ nicht
beeinflusst wird.
• Insofern ist der Median ein robustes Maß.
• Ein Vorteil des Mittelwertes besteht darin, dass mit ihm
Rechenoperationen durchgeführt werden können.
M. Kresken
28