Kennwerte der Streuung - Paul-Ehrlich

Download Report

Transcript Kennwerte der Streuung - Paul-Ehrlich

Kennwerte der Streuung bzw.
Dispersions-, Streuungs-, Variations-,
Variabilitätsmaße, Streuungsparameter
Fachschule für Technik
Biomedizinische Arbeitsmethoden
LageparameterStreuparameter


Während Lageparameter das Zentrum
einer Verteilung charakterisieren,
beschreiben Streuungsparameter die
Ausdehnung einer Verteilung.
Beispiel: Ein Sollwert (= Mittelwert)
wird vorgegeben und man ist an den
Abweichungen (Istwerten) interessiert.
Übersicht 1




Spannweite; Variationsbreite; range = R
Hälftespielraum; interquartile range = QR
Mittlere absolute Abweichung vom Mittelwert; mean deviation from the mean;
Average Deviation AD
Mittlere absolute Abweichung vom
Median; mean deviation from the median
= MD
Übersicht 2




Mittlere quadratische Abweichung
(Varianz, variance)
Standardabweichung; mittlerer Fehler;
standard deviation SD≈R/3
Variationskoeffizient; relative Standardabweichung; coefficient of variation CV
Standardfehler (des Mittelwerts);
standard error of the mean SEM
Spannweite (range)
Variations- bzw. Streubreite





R = xmax – xmin = x(n) – x(1) = xmin … xmax
Einfachstes Streuungsmaß
Auch bei Ordinaldaten anwendbar
Wird von Ausreißern (Extremwerten) stark
verfälscht (beeinflusst)
Keine Aussage über Streuung innerhalb
der Datenreihe möglich
Hälftespielraum, interquartile
range, IQR, Quartilabstand




Der Hälftespielraum QR = Q3 - Q1 enthält die
"mittleren" 50% einer Datenreihe
Die kleinsten und größten 25% werden
abgeschnitten
Der Hälftespielraum kann auch bei Ordinaldaten angegeben werden
Manchmal wird auch die Semiquartildifferenz,
also der halbe (mittlere) Quartilabstand QR/2
verwendet
Mittlere absolute Abweichung
1 n
d x   xi  x
n i 1
1 n
d x   xi  x
n i 1

vom Mittelwert:

Vom Median:

Für eine minimale Summe der Abstände
ist der Median optimal:
1 n
d x   xi  c
n i 1
c  x 
Mittlere quadratische
Abweichung (Varianz)
n



1
2
    xi   
n i 1
n
1
2
2
s 
 xi  x 

n  1 i 1
2
Für Grundgesamtheiten
Für Stichproben
als Schätzwert
für σ 2 (empirische Varianz)
Für eine minimale Summe der Abstandsquadrate istn der Mittelwert optimal:
1
2
s 
 xi  c 

n  1 i 1
2
c  x 
Standardabweichung
n



1
2
 
Für Grund xi   

n i 1
gesamtheiten
1 n
2
Für Stichproben s 
 xi  x 

n  1 i 1
als Schätzwert
für σ (empirische Standardabweichung)
Im Gegensatz zur Varianz hat die
Standardabweichung die gleiche Einheit
wie die Stichprobenwerte
Praktische Berechnung der
Standardabweichung

n
n
1
1
2
2
2
s2 
x

x

x

2
x
x

x
 i 


i
i
n  1 i 1
n  1 i 1
n
n
1  n 2
2

xi  2 x  xi   x  mit


n  1  i 1
i 1
i 1

n
x
i 1
i

 nx
n


1  n 2
1
2
2
2

  xi  2 x  nx  nx  
  xi  nx 
n  1  i 1
 n  1  i 1

s 
1 
2
2
  xi  nx  
n  1  i 1

n
2
n
n

 
1
1
2
  xi    xi  
n  1  i 1
n  i 1  
Anschauliche Bedeutung der
Standardabweichung
Für Stichproben aus normalverteilten
Grundgesamtheiten gilt die Faustregel:
 etwa 2/3 (theoretisch 68,27%) aller
Werte liegen im Intervall x  s
 etwa 95% (theoretisch 95,45%) aller
Werte liegen im Intervall x  2s
 fast alle (theoretisch 99,73%) Werte
liegen im Intervall x  3s
Normalverteilung
Gauß'sche Glockenkurve
Normalverteilung
Gauß'sche Glockenkurve
Standardbereiche
99,73%
95,45%
µ-3σ µ-2σ
µ+2σ µ+3σ
68,27%
µ-σ
µ+σ
Variationskoeffizient
Relative Streuung




s
Berechnung: VK   100%
x
maßstabsunabhängiges Streuungsmaß
geeignet zum Vergleich von Streuungen
verschiedener Stichproben
Beispiel: Leukozytenanzahl bei einem
Individuum unter Normalbedingungen:
8000 1/µL ± 2000 1/µL VK = 25%
Standardfehler des Mittelwerts




Berechnung: s x 
s
n
ist ein Maß für die Genauigkeit des
Stichproben-Mittelwertes
wird mit wachsendem Stichprobenumfang kleiner
interessant zur Berechnung von Konfidenzintervallen und bei Hypothesentests
Boxplot
Box- and Whisker-Plot




Der Boxplot besteht aus einem Kasten, der vom
ersten und dritten Quartil begrenzt wird und deren
innere Linie den Median repräsentiert. Die Länge
der Box entspricht dem Interquartilsabstand.
Ferner werden Minimum und Maximum markiert,
sofern sie keine Ausreißer oder Extremwerte sind.
Somit lässt sich auch die Spannweite am Boxplot
ablesen.
Extremwerte (extremes) sind Beobachtungen, die
um mehr als drei Boxlängen vom oberen bzw.
unteren Quartil entfernt liegen.
Extremwerte werden mit einem Stern markiert.
Ausreißer (outliers) sind Werte, die zwischen dem
1,5fachen und dem 3-fachen der Kastenlänge über
oder unterhalb der Box liegen.
Ausreißer werden mit einem Kreis gekennzeichnet.
Boxplot
Beispiel
http://www.math.sfu.ca/~cschwarz/Stat-301/Handouts/node32.html
boxplot of
births in a
hospital in
Canada by
day of the
week