Statisztika08
Download
Report
Transcript Statisztika08
Statisztika
8.
Dr. Balogh Péter
Gazdaságelemzési és Statisztika Tanszék
DE-AMTC-GVK
A szórás tulajdonságai és felhasználásuk
1.
Ha az xi értékhez egy állandó számot hozzáadunk vagy levonunk a
szórás nem változik.
2.
Ha az xi értékeket egy konstans számmal megszorozzuk vagy
elosztjuk, akkor az eredeti értékek szórásából ugyanazzal a
művelettel kapjuk meg az új értékek szórását.
3.
Egy bizonyos ‘a’ értéktől számított eltérések négyzetes átlagának
minimuma a szórásnégyzet, illetve a szórás.
‘a’ esetén a különbség a x
2
Kvantilisek
A rendezett mintából
tovább származtatott
statisztikák összefoglaló neve, amikor a rendezett
mintát több egyenlő részre osztjuk, és a
részhatárokon levő mintaelemek értékét tekintjük.
A felosztás mértéke alapján:
Medián (2)
Kvartilis (4)
Centilis (10)
Percentilis (100)
3
Kvartilisek
A nagyság szerint rendezett értéksor negyedelésével
állítható elő.
Az alsó kvartilis a legkisebb és a medián között középen
elhelyezkedő adat számértéke a rendezett mintában.
nQ
1
n 1
4
A felső kvartilis hasonlóan a medián és a legnagyobb
érték között van középen.
nQ
3
3 * ( n 1)
4
4
Kvartilisek gyakorisági sorokból
Q 1
Qi Qx
0
Qx 0
nQ
Q 1
nQ fi
i
i 1
fQ
*i
- a kvartilis adat sorszámának megfelelő osztály alsó határa
- az i-edik kvartilis adat sorszáma
i
f - a kvartilist tartalmazó osztályig terjedő halmozott
i 1
i
gyakoriságok összege
fQ
- a kvartilist tartalmazó osztály gyakorisága
i
- az osztályköz terjedelme
5
Interkvartilis terjedelem
Az első és harmadik kvartilis különbsége. Jele: IQR.
Az észlelési adatok 50 %-át foglalja magában. Az első
negyed feletti és a harmadik negyed alatti értékek.
Számítása:
IQ nQ nQ
3
1
6
Kvartilis eltérés
A terjedelemhez nagyon hasonló
mérőszám,
amely az alsó és a felső kvartilis különbségének a
fele.
A nyitott osztályközű gyakorisági soroknál van
jelentősége.
Számítása:
Qe
nQ nQ
3
1
2
7
Decilisek
A decilisek
a minimumtól a maximumig
sorbarendezett adatsor egytizedét jelenti.
Az első decilis-csoport az első tized (pl.: az összes
háztartás azon 10%-a, amelyik a legkevesebb
jövedelemmel rendelkezik).
Az utolsó decilis pl.: a háztartások azon tizede,
amelyik a legmagasabb jövedelemmel rendelkezik.
8
Percentilis
Ha elég adatunk van, akkor percentilisek is definiálhatók.
Pl. az n%-os (vagy n-edik) percentilis azt jelenti, hogy az adatok
n%-a kisebb, mint ez az érték. (Így a medián az 50%-os
percentilisnek, az alsó és felső kvartilisek pedig a 25% ill. 75%-os
percentilisnek felelnek meg.)
A percentiliseknek óriási jelentősége van a 'mit tekintünk
normálisnak?' kérdés eldöntésében.
Az alsó és felső néhány percentilis közötti részt (2,5% - 97,5% vagy
5% - 95%) szokás normális (referencia) értéknek elfogadni.
A percentilisek összessége valójában a tapasztalati eloszlásnak felel
meg. Ilyen alapon a tapasztalati eloszlásfüggvényt (és az abból
származtatott dolgokat, pl. a hisztogramot) is tekinthetjük
statisztikának.
9
Szélsőséges adatok kezelése
A szélsőséges
adatok rontják a kiszámított
statisztikai jellemző használhatóságát.
A szélsőséges adatok elhagyásával jellemzőbb
statisztikai mutatószámokat kaphatunk.
A szélsőséges adatok feltárására alkalmas lehet a
box-plot ábrázolás. Ennek az a lényege, hogy az
interkvantilis terjedelem alsó és felső határát
csökkentik, illetve növelik.
10
Box-plot ábrázolás
extrém pontok
min.
Q3 + 1.5 * IQR
Q1
max
.
Q3
11
Box-plot ábrázolás
a ’doboz’ az adatok középső 50 %-át tartalmazza, a ’doboz’ felső
sarka az adatok 75 %-át (harmadik kvartilis), míg az alsó sarka a
25 %-át (első kvartilis) jelzi (interkvartilis terjedelem);
a ’dobozban’ található vonal a mediánt jelzi;
ha a ’dobozban’ található medián-vonal nem egyenlő távolságra
van az alsó vagy a felső saroktól, akkor az adatok
asszimetrikusak (ferdeség);
a ’dobozból’ kiinduló vertikális vonalak végei a maximális és a
minimális értéket jelzik, kivéve azt az esetet, amikor az adatok
kívül esnek az interkvartilis távolság másfélszeresén;
az extrém pontok (apró körökkel, pontokkal jelölve), ha az
értékek kívül esnek az ”1.5 * IQR” távolságon akár az első, akár
a harmadik kvartilis esetében.
12
Box-plot ábrázolás - Taxi beérkezési és
kiindulási idők a Newark Repülőtéren
13
A boxplot erősségei
grafikusan
mutatja be egy változó értékeinek az
elhelyezkedését és terjedelmét,
jelzéseket
ad az adatok szimmetriájáról és
ferdeségéről,
más
módszerektől eltérően megmutatja, hogy az
adathalmaznak vannak-e extrém pontjai,
jó
és gyors összehasonlítási lehetőséget biztosít
különböző adathalmazok számára.
14