Variabilität

Download Report

Transcript Variabilität

Betrachtung der Realität aus
der Sicht der Statistik
VARIABILITÄT
Übersetzung: / Tradotto da:
Scuola Secondaria 1°grado; Argomento: Leggiamo - Variabilità; (30.09.13); Pacchetto: S1.A.4
VARIABILITÄT
1) Was ist die VARIABILITÄT?
2) Wie misst man die Variabilität?
3) Die Variabilität als Distanzmaß
4) Die Variabilität als Distanzmaß von
einem Zentrum
5) Varianz
6) Standardabweichung
7) Relative Streuungsmaße
Was ist die VARIABILITÄT?
Darunter versteht man, dass ein Phänomen
bei den einzelnen Erhebungseinheiten der
Grundgesamtheit verschiedene Ausprägungen
annehmen kann.
Die Variabilität ist umso größer, je größer die Unterschiede zwischen
den einzelnen Fällen sind.
Die Lagemaße wie Mittelwert, Median oder Modus geben keine
Auskunft darüber, wie die Einheiten dazu tendieren, unterschiedliche
Werte anzunehmen.
3
Reicht der Mittelwert, um die Daten darzustellen?
Semesterende – um die schulischen Leistungen
einzuschätzen, berechnen wir den Mittelwert der
Noten in Mathematik. Das sind die Noten, die
drei Schüler bekommen haben:
MARCO
LUCA
LUIGI
6 5 6 7
6 6 6 6
4 4 8 8
MITTELWERT=6
MITTELWERT=6
MITTELWERT=6
Die Schüler haben den gleichen
Durchschnitt, aber die Noten sind sehr…
UNTERSCHIEDLICH
4
Wie misst man die Variabilität?
Der Mittelwert sagt nichts über die Variabilität der Daten aus.
Dazu müssen wir ein STREUUNGSMASS verwenden.
Nehmen wir an, dass jede Kugel eine Erhebungseinheit ist…
5
Die Variabilität als Distanzmaß
Die Variabilität nimmt zu, wenn die Distanz zwischen den
Beobachtungen zunimmt.
SPANNWEITE=MAX-min
Das ist das einfachste Maß, da es nur die Positionen von zwei
Erhebungseinheiten berücksichtigt. Sie ist die Differenz zwischen
dem beobachteten Maximum und Minimum.
6
Welcher unserer Schüler hat die größte Variabilität?
Wir berechnen die SPANNWEITE, indem wir das
Maximum heranziehen und das Minimum davon
abziehen.
MARCO 6 5 6 7 SPANNWEITE=7-5=2
LUCA
6 6 6 6 SPANNWEITE=6-6=0
LUIGI
4 4 8 8 SPANNWEITE=8-4=4
Luigi hat die unterschiedlichsten Noten, während Lucas Noten
überhaupt nicht variieren.
7
Die SPANNWEITE ist ein unmittelbares Maß, aber…
…es ist sensibel: es berücksichtigt nur die Extremwerte, die
durch außergewöhnliche und unnormale Werte beeinflusst sein
können, während alle anderen beobachteten Werte außer Acht
gelassen werden.
Ein besser geeignetes Maß muss ALLE ERHEBUNGSEINHEITEN
BERÜCKSICHTIGEN!
Aber alle möglichen Unterschiede zwischen allen Erhebungseinheiten zu
berücksichtigen ist zu aufwändig! Eine Lösung ist…
8
Die Variabilität als Distanzmaß von einem
Zentrum
Ein besser geeignetes Streuungsmaß muss also als Distanzmaß jeder
Beobachtung vom Mittelwert der Daten funktionieren.
Die Variabilität nimmt zu, wenn die Distanz zwischen den
Beobachtungen und dem Zentrum der Beobachtungen steigt.
9
Lasst uns versuchen, ein Streuungsmaß zu erstellen!
Um die Distanz jeder Beobachtung vom Mittelwert zu messen, können
wir die Operation Differenz verwenden!
Wir definieren unsere Daten
X ist das beobachtete Phänomen (statistische Variable)
x1,x2,x3,…,xi,…,xn sind die beobachteten Werte der n
Erhebungseinheiten
ist der arithmetische Mittelwert von
n beobachteten Werten
x1
x8
x2
M
x8
x7
10
x3
x6
x5
x4
Abweichungen oder Differenzen vom Mittelwert
Mit welcher mathematischen Formel kann ich die Distanz
zwischen zwei beobachteten Werten messen? Mit der Differenz!
Wenn wir alle Differenzen (auch ABWEICHUNGEN genannt)
nehmen und die Summe bilden erhalten wir jedoch…
 x1  M   ( x 2  M )  ...  ( x n  M )  0
Der arithmetische Mittelwert ist der Punkt, an dem die Daten
im Gleichgewicht sind. Der Mittelwert gleicht die niedrigsten
und die höchsten Werte aus und genau deshalb ist die Summe
der Abweichungen vom Mittelwert gleich NULL.
Die kleinsten Quadrate!!!
Von den verschiedenen Eigenschaften des arithmetischen
Mittelwerts könnten wir jene der kleinsten Quadrate nutzen.
Diese besagt, dass
die Summe der Quadrate der Abweichungen vom
arithmetischen Mittelwert
das Minimum der Summe der Abweichungen von jedem
anderen Wert ist.
 x1  M 2  ( x 2  M ) 2  ...  ( x n  M ) 2
 min
Die Summe der Quadrate der Abweichungen…
 x1  M 2  ( x 2  M ) 2  ...  ( x n  M ) 2
 ist immer größer als null
 ist nur dann gleich null, wenn die Variable nicht variiert
 steigt mit der Zunahme der Dispersion der Beobachtungen
vom Mittelwert
 steigt auch mit der Zunahme der Anzahl der Beobachtungen
(n)
 wird als Quadrat der Maßeinheit der Variablen ausgedrückt
Varianz
Teilt man die Summe der Abweichungen zum Quadrat durch n, um die
Auswirkung aufgrund der Anzahl der Beobachtungen auszuschalten,
 x1  M 
2
 ( x 2  M )  ...  ( x n  M )
2
2
s
2
n
erhält man die VARIANZ. Sie wird allgemein mit s2 („Sigma hoch 2“)
angegeben.
Um ein Streuungsmaß in derselben Maßeinheit der beobachteten
Daten zu erhalten, müssen wir die Quadratwurzel der Varianz ziehen!
14
Standardabweichung
Die Varianz wird als Quadrat der Maßeinheit der beobachteten
Variablen ausgedrückt. Ihr Wert ist also nicht unmittelbar
verständlich.
Häufiger wird die Standardabweichung verwendet.
Eigenschaften:
 Gleiche Maßeinheit wie beim Merkmal
 Definiert die durchschnittliche Distanz der Beobachtungen vom
arithmetischen Mittelwert
Bei n Beobachtungen x1,x2,…,xn lautet die Formel
s 
 x1  M 2  ( x 2  M ) 2  ...  ( x n  M ) 2
n
Wir rechnen mit Marcos Noten
Im Falle von Daten in einer REIHE
Noten von
MARCO
Insgesamt
6
5
6
7
24
Abweichun- Quadrate der
gen vom
AbweichunMittelwert
gen
(6-6)=0
(5-6)=-1
(6-6)=0
(7-6)=1
0
Varianz
Standardabweichung
0
1
0
1
2
0,5
0,71
Und jetzt auch für Luca und Luigi!
Abwei- Quadrate
Abwei- Quadrate
Noten von chungen
der
Noten von chungen
der
LUCA
vom
AbweiLUIGI
vom
AbweiMittelwert chungen
Mittelwert chungen
6
0
0
4
(4-6)=-2
4
6
0
0
4
(4-6)=-2
4
6
0
0
8
(8-6)=2
4
6
0
0
8
(8-6)=2
4
24
0
0
24
0
16
Varianz
0
Varianz
4
StandardStandardabweichung
0
abweichung
2
Luigis Noten sind am unterschiedlichsten – wir bestätigen das,
was wir bereits mit der SPANNWEITE erkannt haben!
Standardabweichung
Wenn die Daten in einer Häufigkeitstabelle zusammengefasst
sind, wird jede Abweichung mit der entsprechenden absoluten
Häufigkeit gewichtet.
s 
 x1  M 2  n1  ( x 2  M ) 2  n 2  ...  ( x k
 M )  nk
2
n
Wir erstellen eine Häufigkeitstabelle mit den Daten der drei Schüler
und berechnen den Mittelwert und die Standardabweichung.
Insgesamt haben wir n=12 Beobachtungen.
Üben wir mit Daten in der Tabelle!
4
5
6
7
8
totale
s 
2
1
6
1
2
12
 x1  M 
2
8
5
36
7
16
72
4
1
0
1
4
10
 n1  ( x 2  M )  n 2  ...  ( x k  M )  n k
2
n
19
8
1
0
1
8
18
2

18
12
 1, 22
Streuungsmaße
Sie messen die Variabilität eines Phänomens, einer Variablen, einer
Verteilung.
Man unterscheidet zwischen:

absoluten Maßen, die in derselben Maßeinheit ausgedrückt
werden wie das untersuchte Phänomen:
 Spannweite
 Standardabweichung …
• relativen Maßen, die unabhängig von der Maßeinheit sind und
sich deshalb dazu eignen, unterschiedliche Phänomene zu
vergleichen. Man erhält sie, indem man ein absolutes Maß mit
einem Mittelwert oder mit dem Maximum in Beziehung setzt.
Relative Streuungsmaße
Sie erlauben Vergleiche der Variabilität
von Verteilungen, die mit unterschiedlichen Maßeinheiten
dargestellt werden (z.B. Gewicht und Größe)
von Verteilungen, die mit derselben Maßeinheit dargestellt
werden, aber von der unterschiedlichen Intensität desselben
Phänomens beeinflusst werden (z.B. Gewicht der
Neugeborenen und Gewicht der Mütter).
Das bekannteste Streuungsmaß ist der Variationskoeffizient.
s
M
 100
Marco vergleicht sich mit seinem Bruder!
Sein Bruder besucht die Universität und hat im letzten
Semester die folgenden Noten (in Dreißigsteln) bekommen.
Noten von
Marcos Bruder
22
Abweichungen
Quadrate der
vom
Abweichungen
Mittelwert
25
(25-22)=3
9
20
(20-22)=-2
4
22
(22-22)=0
0
21
(21-22)=-1
1
88
0
14
Fassen wir alles in einer Tabelle zusammen!
Wer weist die größere Variabilität auf?
Indice
M
Fratello di
Marco
Marco
6
22
0,5
3,5
0,7
1,9
11,8%
8,6%
Die größere Variabilität hat derjenige, der den höheren
Variationskoeffizienten hat: Marco!
23
Versuchen wir es nun mit realen Daten!
Welche der drei Getreideproduktionen (Weizen, Reis oder Mais) ist am
variabelsten?
Produktion einiger Getreidearten - Jahre 1921-2011 (Zentner je Hektar)
Frumento
120
Riso
Granoturco
Die Produktion von Mais hat die
größte Spannweite. Die
Produktion von Weizen
hingegen schwankt am
wenigsten!
100
80
60
40
20
2011
2008
2005
2002
1999
1996
1993
1990
1987
1984
1981
1978
1975
1972
1969
1966
1963
1960
1957
1954
1951
1948
1945
1942
1939
1936
1933
1930
1927
1924
1921
0
Quelle: Ministero di agricoltura, industria e commercio (fino al 1923); Istituto di economia e statistica agraria (anni 1924-1926); Istat,
Stima delle superfici e produzioni delle coltivazioni agrarie, floricole e delle piante intere da vaso (dal 1927)
…und jetzt…
Gute Arbeit!
Übersetzung: / Tradotto da:
Rete per la promozione
della cultura statistica