Štatistické spracovanie a vyhodnotenie dát

Download Report

Transcript Štatistické spracovanie a vyhodnotenie dát

Štatistické spracovanie
a vyhodnotenie dát
Premenné



štatistické jednotky (Statistical Units)
premenné (Variables)
nadobúda hodnotu (Value)
Premenná jednej štatistickej jednotky v jednom časovom
okamihu nadobúda práve jednu hodnotu. Príklady:
Štatistická jednotka
Premenná
Hodnota premennej
študent
pohlavie
mužské
žena
výška [cm]
166
učiteľ
škola
Poprad
vedomostný test
predmet
chémia
Intervalová (kardinálna)
umožňujú zoradenie objektov, ale aj
 kvantifikáciu a
 porovnanie veľkosti rozdielov medzi nimi.


Napríklad: výsledky prijímacích testov žiakov, vieme kto bol prvý, druhý,
tretí atď. Takisto však vieme určiť, o koľko mal jeden žiak lepšie výsledky
ako druhý. Ak by sme vedeli iba výsledné poradie, nevieme určiť, o koľko
bol prvý lepší ako druhý.

Intervalová premenná musí vždy obsahovať jednotku merania a všetky
hodnoty premennej v súbore musia byť vyjadrené pomocou tejto miery (nie
je prípustné, aby niektorí ľudia mali vek uvedení v rokoch a iní
v mesiacoch).

Príklady: vek [roky], výška [cm], hmotnosť [kg], príjem [Sk], obrat [Euro],
teplota [°C]

Poznámka: Intervalová premenná (napr. vek) rozdelená do niekoľkých
intervalov (vekových kategórií: do 20 rokov, 21–25 rokov, 26–30 rokov,
atď.) nie je intervalová premenná ale poradová.
Proporcionálna (pomerová),
Absolútna

Proporcionálna – sme schopní určiť a vecne
interpretovať nulu (počiatok) stupnice
– Príklad: meranie teploty v Kelvinoch

Absolútna – špeciálny prípad pomerovej škály, kde sa
hodnoty nemenia spojito ale diskrétne po kvantách
(dávkach)
– Príklad: počet ľudí v miestnosti, počet vyriešených úloh v teste
Poradová (ordinálna)
umožňuje zoradiť objekty podľa toho, ktoré
majú viac a ktoré majú menej kvality
reprezentovanej premennou.
 neumožňujú povedať „O koľko viac."

– Príklady: prospech v škole, hodnotenie zdravotného
stavu pacienta, hodnotenie reklamy zákazníkom,
poradie pretekárov, socio-ekonomický status.

Poznámka: V sociálnych vedách je bežné
používať na analýzu ordinálnych premenných
metódy určené pre intervalové premenné, ak
počet kategórií ordinálnej premennej je aspoň 5.
Nominálna

klasifikuje objekty do konečného počtu skupín,
pričom určovanie poradia skupín nemá zmysel.
– Príklady: farba, národnosť, krvná skupina,
vierovyznanie, mesto.
Binárna (dichotomická)

Špecifický prípad nominálnej úrovne, kde objekt patrí
vždy iba do jednej z dvoch možných kategórií.
– Príklady: pohlavie, absolvovanie kurzu (áno / nie), časový
okamih (pred akciou / po akcii).

Poznámka: Analýza premenných, ktoré sú merané na
vyššej škále, ako vyžaduje konkrétna štatistická metóda,
je síce neefektívna, ale prípustná. Napr. intervalovú
premennú vek možno ľahko transformovať na binárnu
premennú vek nad 30 rokov (áno / nie). Štatistická
metóda sa nesmie použiť na analýzu premennej meranej
na nižšej škále ako vyžaduje metóda.
Jednorozmerná deskriptívna
štatistika – číselné premenné
Na opis číselnej premennej sa používajú:
– Histogram
– Škatuľový graf
– Histogram doplnený o škatuľový graf
– Opisné charakteristiky
Histogram
typ stĺpcového grafu určený na znázornenie rozdelenia intervalovej
premennej. Graf na osi y zobrazuje početnosti hodnôt premennej
v intervaloch jej hodnôt na osi x.
Škatuľový graf (Box Plot)
znázorňuje rozdelenie hodnôt premennej pomocou opisných charakteristík.
Horizontálna čiara predstavuje medián (50. percentil), horná hrana škatule
75. percentil a dolná hrana 25. percentil. Dĺžka obdĺžnika predstavuje
medzikvartilové rozpätie (IQR), teda stredných 50 % hodnôt súboru.
V najjednoduchšej podobe predstavuje
horná čiarka maximum a dolná čiarka
minimum. Horná čiarka však často
znázorňuje 95. percentil a dolná čiarka
5. percentil. V najzložitejšej podobe
grafu horná čiarka predstavuje 75.
percentil + 1,5 × IQR (neextrémne
maximum) a dolná čiarka 25. percentil
− 1,5 × IQR (neextrémne minimum).
Odľahlé pozorovania (outliers) ležiace
mimo týchto intervalov môžu byť
znázornené ako body. Škatuľový graf
možno umiestniť vertikálne alebo
horizontálne (hodnoty premennej budú
na osi x).
Histogram + škatuľový graf
Dvojrozmerná deskriptívna
štatistika – číselné premenné
Na opísanie vzťahu medzi dvoma číselnými
premennými sa používajú:
– Bivariačný histogram
– X-Y graf
Bivariačný histogram
frequency
predstavuje rozšírenie histogramu a slúži na znázornenie
rozdelenia početnosti dvoch premenných.
na vertikálnej osi zobrazuje početnosti kombinácie hodnôt
premenných v intervaloch ich hodnôt uvedených na osi x
a osi y.
12
10
8
6
4
2
0
mužské
pohlavie ženské
4gym
8gym
SŠM
VŠ
vzdelanie
X-Y graf (Scatter Plot)
oblúbenost chémie
predstavuje základný graf na znázornenie vzťahu medzi
dvoma číselnými premennými.
Bod na grafe predstavuje objekt, ktorého hodnoty
premenných sú dané príslušnými súradnicami na osiach
x a y.
V prípade veľkého počtu pozorovaní s totožnými hodnotami
X a Y sa graf stáva nevhodným, pretože jeden bod
nepredstavuje jedno pozorovanie ale viacero pozorovaní,
ktoré sú "na sebe poukladané".
10
8
6
4
2
0
18
20
22
24
vek
26
28
Viacrozmerná deskriptívna
štatistika – číselné premenné
Na preskúmanie viacerých číselných
premenných súčasne sa používajú
trojrozmerné grafy:
– X-Y-Z graf,
– Vrstevnicový graf,
– Povrchový graf
X-Y-Z graf (3-D Scatter Plot)
oblúbenost chémie
zobrazuje body v priestore.
Súradnice bodov sú dané hodnotami premenných
pre dané pozorovanie (objekt).
10
8
6
4
2
0
18
20
22
vek
24
26
28
1
1,4
1,8
2,2
2,6
3
známka z chémie
Jednorozmerná deskriptívna
štatistika - kategorická
premenná
Na opis kategorickej premennej sa
používajú:
 Frekvenčná tabuľka
 Koláčový graf
 Stĺpcový graf
 Kumulatívny stĺpcový graf
Frekvenčná tabuľka


zodpovedá jednostupňovému triedeniu. Obsahuje
triedne početnosti podľa kategórií (tried) jednej
premennej.
Nasledujúci tabuľka obsahuje rozdelenie respondentov
podľa vzdelania.
Vzdelanie
Početnosť
Percento
ZŠ
17
2,7
SŠ bez maturity
83
13,3
SŠ s maturitou
428
68,4
VŠ
98
15,6
Koláčový graf

predstavuje najvhodnejšie grafické znázornenie percent
(relatívnych početností) frekvenčnej tabuľky. Nasledujúci
obrázok je zostrojený z horeuvedenej frekvenčnej
tabuľky.
Stĺpcový graf
predstavuje najvhodnejšie grafické znázornenie
absolútnych početností frekvenčnej tabuľky.
Nasledujúci obrázok je zostrojený z horeuvedenej
frekvenčnej tabuľky.
Kumulatívny stĺpcový graf
predstavuje alternatívu ku koláčovému grafu.
Nasledujúci obrázok je zostrojený z horeuvedenej
frekvenčnej tabuľky.
Dvojrozmerná deskriptívna
štatistika - kategorické premenné
Na opisánie vzťahu medzi dvoma
kategorickými premennými sa používajú:
– Kontingenčná tabuľka
– Kumulatívny stĺpcový graf
– Stĺpcový graf
– 3-D stĺpcový graf
Kontingenčná tabuľka


je metódou organizovania a analýzy údajov podľa skupín, kategórií
alebo tried, ktorá umožňuje ich porovnávanie.
Spája rozdelenie početnosti dvoch premenných a predstavuje
rozšírenie jednoduchej frekvenčnej tabuľky. Číslo v bunke krížovej
tabuľky predstavuje počet štatistických jednotiek, ktorých riadková
premenná nadobúda hodnotu v hlavičke riadku (napr. pohlavie)
a stĺpcová premenná nadobúda hodnotu v hlavičke stĺpca (napr.
vzdelanie).
ZŠ
SŠ
M
VŠ
Muž
5
34
176
62
Žena
12
49
252
36
Kumulatívny stĺpcový graf

predstavuje najlepší spôsob grafického znázornenia
vzťahu medzi dvojicou kategorických premenných.
V skutočnosti je to grafické zobrazenie riadkových alebo
stĺpcových percent kontingenčnej tabuľky.
Stĺpcový graf

zobrazuje absolútne početnosti kontingenčnej tabuľky.
3-D stĺpcový graf
predstavuje alternatívu k stĺpcovému grafu.
 menšia prehľadnosť.

Opisné charakteristiky
Opisná charakteristika predstavuje číslo
vypočítané podľa príslušného vzorca zo
štatistického súboru.
Cieľom opisných charakteristík je
charakterizovať súbor.
– Miery polohy
– Miery variability
– Miery tvaru
Miery polohy (Stredné hodnoty)
Aritmetický priemer (Mean)
 sa vypočíta ako súčet všetkých hodnôt
vydelený ich počtom:
n
x
x
i 1
n
i
Geometrický priemer
(Geometric Mean)
je vhodnejšou mierou polohy pre pomerovú
premennú (špeciálny typ intervalovej premennej
s bodom absolútnej nuly, pod ktorú hodnota premennej
nemôže klesnúť - napr. hmotnosť, výška, vek)
s pozitívnou šikmosťou (napr. rozdelenie príjmov
obyvateľstva).
 Geometrický priemer sa často používa v ekonómii
a biológii, keď je premenná skôr súčinom ako súčtom
mnohých malých efektov (logaritmus premennej má
bližšie k symetrickému normálnemu rozdeleniu ako
samotná premenná). Vypočíta sa ako n-tá odmocnina
súčinu všetkých hodnôt:

xG  n
n
x
i 1
i
Harmonický priemer
(Harmonic Mean)
Harmonický priemer sa používa na výpočet priemernej
rýchlosti ak sú vzdialenosti konštantné a čas premenlivý.
V prípade rôznych vzdialeností a rovnakých časov sa však
musí použiť aritmetický priemer. Priemerná rýchlosť
auta, ktoré išlo 2 hodiny rýchlosťou 90 km/h a ďalšie
2 hodiny 130 km/h sa rovná: (90+130)/2=110 km/h. Do
výpočtu harmonického priemeru možno zahrnúť iba
nenulové hodnoty:
xH 
n
n
1

i 1 xi
Medián (Median)



predstavuje strednú hodnotu súboru, ktorý je zoradený
od najmenšej po najväčšiu hodnotu.
V prípade párneho počtu hodnôt je medián aritmetický
priemer hodnôt na miestach n/2 a n/2+1. Medián, na
rozdiel od priemeru, nie je ovplyvnený extrémnymi
hodnotami. Medián predstavuje najpoužívanejší kvantil.
Kvantil súboru je hodnota k-tej časti, ak je súbor
rozdelený na n rovnakých častí (hodnoty sú zoradené od
najmenšej po najväčšiu). Okrem mediánu sa často
používajú kvartily (delia súbor na 4 časti) a percentily
(delia súbor na 100 častí). Medián je druhý kvartil, resp.
50. percentil.
Modus (Mode)
predstavuje najčastejšie sa vyskytujúcu hodnotu
premennej.
 Rozdelenie, ktoré má iba jeden vrchol, teda
jedno lokálne maximum, ktoré je zároveň
globálne, sa nazýva unimodálne.

Miery variability
Variačné rozpätie (Range)
 sa vypočíta ako rozdiel medzi najväčšou
a najmenšou hodnotou súboru:
R = xmax - xmin
Medzikvartilové rozpätie
(Interquartile Range)
Predstavuje rozdiel medzi tretím a prvým kvartilom
(75. a 25. percentilom), čo reprezentuje oblasť
stredných 50 percent hodnôt premennej.
Táto miera variability nie je ovplyvnená
extrémnymi hodnotami premennej.
Rozptyl (Variance)
sa rovná priemernému štvorcu odchýlky hodnoty
od priemeru.
Čím je rozptyl väčší, tým sa údaje viac odchyľujú
od priemeru. Rozptyl sa vypočíta podľa vzorca:

x   xi

 i 1   i 1
 n
n


n
1 n
2
s   xi  x 
n i 1
2
n
2
i
2


  x2  x 2



Štandardná odchýlka
(Standard Deviation)
Dôsledkom nutného umocňovania je vypočítaná
hodnota rozptylu v štvorcoch pôvodných
jednotiek.
Aby sa odstránil neblahý vplyv umocňovania,
rozptyl sa odmocní, čím sa vypočíta štandardná
odchýlka:
1 n
2
 xi  x 
s

n i 1
Variačný koeficient
(Coefficient of Variation)
predstavuje relatívnu mieru variability. Používa sa na
porovnávanie variability medzi súbormi dát s odlišnými
priemermi. Variačný koeficient výšky vzorky ľudí bude
rovnaký bez ohľadu na to, či výšku budeme vyjadrovať
v centimetroch alebo metroch. Vypočíta sa ako podiel
štandardnej odchýlky a priemeru.
s
k
x
Koeficient disperzie
(Coefficient of Dispersion)

predstavuje relatívnu mieru variability, ktorá je
iba málo ovplyvnená extrémnymi hodnotami.
1 n
~
x

x

i
n i 1
d
~
x
Miery tvaru
Šikmosť (Skewness)
 meria smer a stupeň asymetrie rozdelenia
premennej a vypočíta sa:
1 n
3
b1 
x

n
i 1
i
 x
s3
Kladná hodnota (pravostranná šikmosť) znamená, že priemer je
väčší ako medián, teda väčšina hodnôt je menšia ako priemer.
Záporná hodnota (ľavostranná šikmosť) znamená, že medián je
väčší ako priemer a teda väčšina hodnôt je väčšia ako priemer.
Šikmosť rovná 0 znamená symetrické rozdelenie, teda priemer
a medián sa rovnajú.
Na horizontálnej osi (x)
histogramov sú hodnoty premennej
a na vertikálnej osi (y) relatívne
početnosti (percentá) hodnôt
premennej v príslušných intervaloch
na osi x.
Trojuholníkové rozdelenia
početností s rovnakým priemerom
(10), rozptylom (2) aj špicatosťou
(2,4), líšiace sa iba šikmosťou.
Špicatosť (Kurtosis)

meria hustotu chvostov rozdelenia premennej, teda
charakterizuje výskyt extrémne vysokých a extrémne
nízkych hodnôt.
n
1
4


x

x
 i
n i 1
b2 
s4
Špicatosť rozdelenia sa porovnáva so špicatosťou normálneho rozdelenia, ktorého
špicatosť sa rovná 3.
Unimodálne rozdelenia, ktorých špicatosť je väčšia, majú hustejšie chvosty
(výskyt extrémnych hodnôt je častejší) ako normálne rozdelenie. Takéto
rozdelenia majú vyšší vrchol.
Unimodálne rozdelenia, ktorých špicatosť je menšia ako 3, majú nižšie chvosty,
teda výskyt extrémnych hodnôt je menej častý ako u normálneho rozdelenia.
Takéto rozdelenia sú plochejšie.
Symetrické rozdelenia s rovnakým priemerom (0) a rovnakým rozptylom (5/3),
ktoré sa líšia iba špicatosťou.
Analýza dát
Medzi premennými existuje vzťah, ak ich hodnoty
vzájomne systematicky korešpondujú.
V korelačnom výskume neovplyvňujeme premenné, iba
ich meriame a hľadáme vzťahy (korelácie).
V experimentálnom výskume s niektorými premennými
manipulujeme (nazývajú sa nezávislé premenné)
a potom meriame dopad týchto manipulácií na ďalšie
premenné (nazývajú sa závislé premenné). Aj v prípade
experimentálnych výskumov sa skúmajú korelácie medzi
manipulovanými premennými a premennými
ovplyvnenými manipuláciou, experimenty však môže
poskytnúť informácie vyššej kvality.
Iba experimentálne údaje môžu nezvratne demonštrovať
kauzálny vzťah.
Korelačné koeficienty
meria silu štatistickej závislosti medzi dvoma
číselnými premennými. Pod pojmom korelačný
koeficient sa najčastejšie myslí Pearsonov
korelačný koeficient označovaný ako r
(Pearson's product moment) z roku 1896, ktorý
je mierou lineárnej závislosti dvoch premenných.
 Pearsonov korelačný koeficient sa vypočíta:

xy  xy
r
sx s y
Kovariancia
vyjadruje, ako sa súčasne menia hodnoty dvoch premenných. Kladná
hodnota znamená, že sa menia spoločne jedným smerom, záporná
hodnota znamená, že sa menia opačným smerom a nula, že sa menia
nezávisle.
Vydelením kovariancie štandardnými odchýlkami sa vypočíta Pearsonov
korelačný koeficient. Hodnota všetkých korelačných koeficientov sa
nachádza v intervale -1; +1.
• -1 znamená dokonalú negatívnu závislosť,
• 1 znamená dokonalú pozitívnu závislosť a
• 0 nezávislosť X a Y.
V prípade Pearsonovho korelačného koeficientu hodnota −1 znamená, že
všetky body v X-Y grafe ležia na klesajúcej priamke, hodnota 1, že
ležia na stúpajúcej priamke a hodnota 0, že sú rozptýlené.
Interpretácia veľkosti korelačného koeficientu je veľmi častým
problémom. Podľa Cohena (1988) je korelácia pod 0,1 triviálna,
0,1–0,3 malá, 0,3–0,5 stredná a nad 0,5 veľká. Korelácia 0,7–
0,9 sa často uvádza ako veľmi veľká a 0,9–1 ako takmer
dokonalá.
Spearmanov koeficient
R  1
6 d i2
n(n 2  1)
kde d – je diferencia dvojice poradia (xi – yi)
 n – počet poradí.
Pri počte n < 5 je korelačný koeficient veľmi neistý, a teda má malú
výrokovú schopnosť.
Hodnoty získané Spearmanovým korelačným koeficientom sa pohybujú
ako pri Pearsonovom korelačnom koeficiente od –1 do 1 vrátane.
Interpretujú sa podobne ako v prípade Pearsonovho koeficientu,
avšak nie sú také citlivé.

Kontingenčné koeficienty
Používajú sa na určenie sily asociácie riadkovej a stĺpcovej
premennej v kontingenčnej tabuľke.
Ak náhodné premenné nie sú ani metricky, ani ordinárne
škálované, ich vzájomný vzťah nemožno primerane
opísať korelačným koeficientom.
Ak má každá náhodne premenná iba 2 triedy, počítame
štvorpolíčkový koeficient korelácie, a to
– koeficient  (ak triedy znakov tvoria pravé
alternatívy), alebo
– tetrachorický koeficient rtet (ak triedy
premenných sú z normálne rozdelených súborov),
alebo
– asociačný koeficient Q.
Koeficient 
Náhodná premenná X
Náhodná
premenná Y
Stĺpcový súčet
Riadkový súčet
x1
x2
y2
a
b
(a + b)
y1
c
d
(c + d)
(a + c)
(b + d)
(a + c) + (b + d) =
= (a + b) + (c + d) = n
Koeficient  počítame, keď dichotomické triedy premenných tvoria pravé
alternatívy umožňujúce jednoznačné priradenie každého prvku (pohlavie, dotazník
´áno – nie´, postoj ´pozitívny – negatívny´).
Koeficient  vypočítame podľa vzorca:
a, b, c, d sú početnosti v štyroch políčkach tabuľky.
Existuje tiež priama súvislosť medzi  a
2.

bc  ad
a  bc  d a  cb  d 
Vyplýva zo vzťahu:
 
2
2
n
Pomocou 2 -testu môžeme testovať, či existuje súvislosť medzi dvoma
náhodnými premennými a ak je to tak, možno  použiť na určenie tesnosti
súvislosti.
;
Tetrachorický koeficient rtet


je odhadom hodnoty korelačného koeficientu r, ktorý
opisuje súvislosť medzi dvoma premennými, ak sú
metricky škálované.
rtet je tým menej spoľahlivé, čím viac sa odlišuje
rozdelenie základných údajov od normálneho
rozdelenia. Keďže exaktný výpočet rtet je náročný,
uspokojíme sa s približnými metódami. Najznámejšia z
nich je tzv. formula cos .


180

cos
bc
 1 
ad







 180 ad 

cos

 bc  ad 
Asociačný koeficient Q

odporúča staršia štatistická literatúra a mnohé súčasné
americké knihy ako charakteristiku vzťahov alternatívne
delených premenných. Počítame ho podľa vzorca
bc  ad
Q
bc  ad
Veľkosť koeficientu informuje iba málo spoľahlivo o
tesnosti súvislosti medzi kvalitatívnymi triedami znaku.