Statisztika08

Download Report

Transcript Statisztika08

Statisztika
8.
Dr. Balogh Péter
Gazdaságelemzési és Statisztika Tanszék
DE-AMTC-GVK
A szórás tulajdonságai és felhasználásuk
1.
Ha az xi értékhez egy állandó számot hozzáadunk vagy levonunk a
szórás nem változik.
2.
Ha az xi értékeket egy konstans számmal megszorozzuk vagy
elosztjuk, akkor az eredeti értékek szórásából ugyanazzal a
művelettel kapjuk meg az új értékek szórását.
3.
Egy bizonyos ‘a’ értéktől számított eltérések négyzetes átlagának
minimuma a szórásnégyzet, illetve a szórás.

‘a’ esetén a különbség a  x

2
Kvantilisek
 A rendezett mintából
tovább származtatott
statisztikák összefoglaló neve, amikor a rendezett
mintát több egyenlő részre osztjuk, és a
részhatárokon levő mintaelemek értékét tekintjük.
 A felosztás mértéke alapján:




Medián (2)
Kvartilis (4)
Centilis (10)
Percentilis (100)
3
Kvartilisek

A nagyság szerint rendezett értéksor negyedelésével
állítható elő.
 Az alsó kvartilis a legkisebb és a medián között középen
elhelyezkedő adat számértéke a rendezett mintában.
nQ

1
n 1

4
A felső kvartilis hasonlóan a medián és a legnagyobb
érték között van középen.
nQ
3
3 * ( n  1)

4
4
Kvartilisek gyakorisági sorokból
Q 1
Qi  Qx 
0
 Qx 0


nQ
Q 1
nQ   fi
i
i 1
fQ
*i
- a kvartilis adat sorszámának megfelelő osztály alsó határa
- az i-edik kvartilis adat sorszáma
i
 f - a kvartilist tartalmazó osztályig terjedő halmozott
i 1
i
gyakoriságok összege
 fQ
- a kvartilist tartalmazó osztály gyakorisága
 i
- az osztályköz terjedelme
5
Interkvartilis terjedelem
Az első és harmadik kvartilis különbsége. Jele: IQR.
 Az észlelési adatok 50 %-át foglalja magában. Az első
negyed feletti és a harmadik negyed alatti értékek.
 Számítása:

IQ  nQ  nQ
3
1
6
Kvartilis eltérés
 A terjedelemhez nagyon hasonló
mérőszám,
amely az alsó és a felső kvartilis különbségének a
fele.
 A nyitott osztályközű gyakorisági soroknál van
jelentősége.

Számítása:
Qe 
nQ  nQ
3
1
2
7
Decilisek
 A decilisek
a minimumtól a maximumig
sorbarendezett adatsor egytizedét jelenti.

Az első decilis-csoport az első tized (pl.: az összes
háztartás azon 10%-a, amelyik a legkevesebb
jövedelemmel rendelkezik).

Az utolsó decilis pl.: a háztartások azon tizede,
amelyik a legmagasabb jövedelemmel rendelkezik.
8
Percentilis

Ha elég adatunk van, akkor percentilisek is definiálhatók.

Pl. az n%-os (vagy n-edik) percentilis azt jelenti, hogy az adatok
n%-a kisebb, mint ez az érték. (Így a medián az 50%-os
percentilisnek, az alsó és felső kvartilisek pedig a 25% ill. 75%-os
percentilisnek felelnek meg.)

A percentiliseknek óriási jelentősége van a 'mit tekintünk
normálisnak?' kérdés eldöntésében.

Az alsó és felső néhány percentilis közötti részt (2,5% - 97,5% vagy
5% - 95%) szokás normális (referencia) értéknek elfogadni.

A percentilisek összessége valójában a tapasztalati eloszlásnak felel
meg. Ilyen alapon a tapasztalati eloszlásfüggvényt (és az abból
származtatott dolgokat, pl. a hisztogramot) is tekinthetjük
statisztikának.
9
Szélsőséges adatok kezelése
 A szélsőséges
adatok rontják a kiszámított
statisztikai jellemző használhatóságát.
 A szélsőséges adatok elhagyásával jellemzőbb
statisztikai mutatószámokat kaphatunk.
 A szélsőséges adatok feltárására alkalmas lehet a
box-plot ábrázolás. Ennek az a lényege, hogy az
interkvantilis terjedelem alsó és felső határát
csökkentik, illetve növelik.
10
Box-plot ábrázolás
extrém pontok
min.
Q3 + 1.5 * IQR
Q1
max
.
Q3
11
Box-plot ábrázolás





a ’doboz’ az adatok középső 50 %-át tartalmazza, a ’doboz’ felső
sarka az adatok 75 %-át (harmadik kvartilis), míg az alsó sarka a
25 %-át (első kvartilis) jelzi (interkvartilis terjedelem);
a ’dobozban’ található vonal a mediánt jelzi;
ha a ’dobozban’ található medián-vonal nem egyenlő távolságra
van az alsó vagy a felső saroktól, akkor az adatok
asszimetrikusak (ferdeség);
a ’dobozból’ kiinduló vertikális vonalak végei a maximális és a
minimális értéket jelzik, kivéve azt az esetet, amikor az adatok
kívül esnek az interkvartilis távolság másfélszeresén;
az extrém pontok (apró körökkel, pontokkal jelölve), ha az
értékek kívül esnek az ”1.5 * IQR” távolságon akár az első, akár
a harmadik kvartilis esetében.
12
Box-plot ábrázolás - Taxi beérkezési és
kiindulási idők a Newark Repülőtéren
13
A boxplot erősségei
 grafikusan
mutatja be egy változó értékeinek az
elhelyezkedését és terjedelmét,
 jelzéseket
ad az adatok szimmetriájáról és
ferdeségéről,
 más
módszerektől eltérően megmutatja, hogy az
adathalmaznak vannak-e extrém pontjai,
 jó
és gyors összehasonlítási lehetőséget biztosít
különböző adathalmazok számára.
14