AKDI.: Popisné statistiky v analýze dat

Download Report

Transcript AKDI.: Popisné statistiky v analýze dat

UK FHS
Historická sociologie
(LS 2014+)
Analýza kvantitativních dat I.
Popisné statistiky
a explorační
jednorozměrná analýza
Jiří Šafr
jiri.safr(zavináč)seznam.cz
poslední aktualizace 28. 2. 2015 (vytvořeno 29. 6. 2009)
Obsah
•
•
•
•
Analýza kvantitativních dat (obecné principy)
Dva základní typy statistik / přístupy ve statistice
Připomenutí základních pojmů – typy znaků
Jednoduché popisné statistiky
→ třídění dat 1. stupně (jednorozměrná analýza):
– Střední hodnoty: modus, medián, průměr
– Variance-rozptýlení dat: rozptyl, směrodatná odchylka
– Další míry variability-rozptýlení (rozpětí, kvantily, špičatost,
šikmost)
• Střední hodnoty a míry variability v programu SPSS
• Míry variability pro kategoriální proměnné (úvod):
– Směrodatná odchylka pro dichotomickou proměnnou
– Variační poměr – v
•
•
•
•
Vlastnosti rozdělení znaků
Ověření normality rozložení dat
Na co si dát v datech pozor
Standardizace na z-skóre
2
Analýza kvantitativních dat
• Předmětem statistického zkoumání jsou
hromadné jevy: výskyt vlastností u velkého
počtu prvků – statistických jednotek (osoby,
organizace, události,…)
• Jejich vlastnosti vyjadřují statistické znaky (=
proměnné): kvantitativní (číselné)/ kvalitativní
(slovní).
• Získání dat pomocí šetření:
- úplné-vyčerpávající
- výběrové (pouze u části populace →
výběrový soubor, který reprezentuje základní
soubor)
[Cyhelský, Hustopecký, Závodský 1978]
3
Dva základní typy statistiky/
přístupy ve statistice
1. Popisná statistika: metody pro zjišťování a
sumarizaci informací → grafy, tabulky, popisné
charakteristiky (průměr, rozptyl percentily,..).
Cílem je explorace – průzkum dat.
2. Inferenční statistika (statistická indukce):
metody pro přijímání a měření spolehlivosti
závěrů o populaci založených na informacích
získaných z jejího výběru (odhad parametru
na základě výběru z populace).
Cílem je ověřování hypotéz.
4
Proces analýzy dat musíme
promyslet již ve stadiu
plánování dotazníku
(modelu vztahů a hypotéz).
Nejprve malé připomenutí
základních pojmů
Základní pojmy
•
•
•
•
•
Populace
Základní soubor
Výběrový soubor (vzorek)
Datový soubor
Znak
•
•
•
•
•
•
Třídění dat (jedno a vícestupňové)
Absolutní četnost
Relativní (poměrná) četnost
Kumulativní četnost
Střední hodnota
Distribuce (rozdělení) hodnot proměnné
7
Typy znaků – proměnných
Kategoriální:
Nominální
– Kategorie jsou rovnocenné (na úrovni jmen)
– př.: pohlaví, jména, typ rodiny, barva vlasů, profese
Pořadové (ordinální)
– Kategorie lze seřadit do hierarchie
– Lze se ptát: vyšší/nižší apod., ale ne o kolik
např.: spokojenost, stupeň souhlasu
Kardinální (intervalové/poměrové):
• číselné proměnné
lze se ptát větší/ menší a o kolik
př.: věk, příjem, počet dětí
→ Různé typy znaků vyžadují v analýze odlišné
přístupy (statistické míry).
8
Typy znaků – proměnných z hlediska úrovně měření
Dichotomický
př: Kraj
Vícekategoriální
(polynomický)
Kategoriální
(kategorizované)
Kardinální –
číselné
(numerické)
9
Zdroj: adaptováno podle [Babbie 1995: 137]
Kardinální znaky/proměnné
Kardinální znaky rozlišujeme na:
• a) intervalové – nemají přirozený
počátek: obsahový smysl má rozdíl ale
nikoliv podíl
Příklad: „Dnes je o 10 st. C tepleji“, ale ne
„o 25% tepleji.“ / IQ nemá nulu
• b) poměrové – mají přirozený počátek
(0 má význam), tudíž lze uvažovat i podíl.
Příklad: „nulové“ i „dvojnásobné tržby“
10
Nominální znaky/proměnné
Nominální znaky rozlišujeme na:
• a) více-kategoriální – mají tři a více hodnot
(např. rodinný stav: svobodný/ná; ženatý/á; rozvedený/á;
vdovec/vdova)
Z hlediska analýzy jsou nejobtížněji analyzovatelné a
výsledky interpretovatelné.
• b) dichotomické – mají jen dvě hodnoty lze
je kódovat 0/1: 0 má význam jev nenastal; 1 jev nastal
(např. proměnná žena: 1 = žena a 0 = muž(+ostatní))
Z hlediska analýzy mají určité výhody (např.
pravděpodobnost (tj. %) odpovídá průměru)
•
Více-kategoriální lze převést na sadu dichotomických proměnných (tzv. dummy
znaky).
11
Existují různé typy dat (datových matic), pro nás bude základní
Dvourozměrná datová matice (2-way data): PŘÍPADY × PROMĚNNÉ
Případy
(respondenti
)
Proměnná
Hodnoty
proměnné
12
Data 2-way: PŘÍPADY × PROMĚNNÉ
• Person is the ‘‘object’’ and level of education is the ‘‘attribute’’ for
which the researcher wants a value assigned to each object.
• (Nejen) v SPSS se lze setkat se 2 základními typy 2-way dat (někdy
označovaná také jako „SPSS data“), tj. data uspořádaná tak, že případy
jsou v řádcích, proměnné ve sloupcích:
– Individuální mikrodata – data kde případy jsou individuální
pozorování, nejčastěji respondenti, ale např. také novinové
články
Příklad: Důvěra lidí v prezidenta (informace o hodnotě proměnné u každého
respondenta).
– Agregovaná data – individuální data sloučená za určitou vyšší
organizační jednotku (např. školy, regiony nebo státy) většinou
sumované z individuálních údajů
Ty mohou mít dále různou podobu
– Kombinovaná individuální mikrodata s kontextuálními daty
(buď na agregované úrovni nebo jako kontext společný určité
skupině individuí např. z oficiálních statistik nebo jiné formy
výzkumu).
– Individuální mikrodata s opakovaným měřením v panelové
studii.
Existují ale i jiné typy – uspořádání dat, která lze analyzovat, mj.: tabelární data (např.
kontingenční tabulka), distanční data (např. korelační matice), časové řady a dal.
13
Jednoduché popisné
statistiky
třídění dat 1. stupně:
•Střední hodnoty
•Míry variability
Střední hodnoty:
• nominální znaky →
• ordinální znaky →
• intervalové znaky →
modus
medián
(aritmetický průměr)
aritmetický průměr
• Pomocí „jednoho čísla“ vyjadřujeme vlastnost znaku
→ typická hodnota datové řady
15
Základní střední hodnoty (míry centrální tendence)
• Modus (Mo) = kategorie s největší četností
Nelze s ním provádět žádné algebraické operace. Může existovat i
více modálních kategorií.
• Medián (Me) = hodnota, která je ve prostředku
všech pozorování seřazených podle hodnot
Hodnota proměnné, před níž je polovina
pozorování majících menší hodnotu a za níž je druhá
polovina pozorování majících větší hodnotu než má
medián.
nebo jinak řečeno:
Při sudém počtu hodnot: průměr dvou prostředních hodnot.
_
• Aritmetický průměr (X) = součet hodnot dělený
počtem pozorování
_
• Pro symetrické rozložení hodnot je Mo = Me = X
16
Modus (mode)
[Babbie 1995] 17
Medián
Poznámka: zde je důležité, aby hodnoty znaku byly seřazeny.
Máme 31 případů (žáků) seřazených podle věku, tj. medián je uprostřed (16. žák): 50 % případů je pod a 50 % nad ním.
Zde je medián zároveň modusem i průměrem.
[Babbie 1995] 18
Průměr
[Babbie 1995] 19
Střední hodnoty a jejich limity
• Střední hodnota → popis rozložení hodnot znaku
„pomocí jednoho „typického“ čísla“ – těžiště
uspořádání hodnot znaku
• To má pochopitelně limity:
- jedno číslo k popisu znaku většinou nestačí
(málokdy mají všechny případy přibližně stejnou hodnotu)
- neříká nic o variabilitě – rozptýlení dat
- moc se nehodí pro kategoriální znaky
(→ místo modusu ukazujeme raději celou distribuci
hodnot v %)
Proto je vždy používáme zároveň s údaji o
variabilitě, rozptylu → “kvalitativní“ informace
20
Základní charakteristiky variability
→ „Kvalitativní“ charakteristika středních
hodnot (u kardinálních-číselných znaků)
• Rozptyl = střední hodnota kvadrátů odchylek od
střední hodnoty
• Směrodatná odchylka = odmocnina z rozptylu
náhodné veličiny (na rozdíl od rozptylu je v
původních jednotkách proměnné)
• Výběrová směrodatná odchylka (dtto ale ve
výběrovém souboru → malinká úprava ve vzorci,
logicky jde o odmocninu z výběrového rozptylu)
• Jak uvidíme dále variabilitu hodnot proměnné lze popsat i
podrobněji pomocí dalších měr.
21
Charakteristiky variability kardinálních znaků:
Rozptyl a Směrodatná odchylka
Udávají koncentraci nebo rozptýlení kolem střední hodnoty.
Ukazují na „kvalitu“ průměru.
Rozptyl (σ2) = součet kvadratických odchylek od
průměru dělený rozsahem výběru (pokud jde o
výběrový soubor tak navíc zmenšeným o 1)
(anglicky Variance)
Směrodatná odchylka (σ) = odmocnina z rozptylu
(anglicky Standard Deviation – STDDEV)
Směrodatná odchylka je míra rozptýlení hodnot od
průměrné (střední) hodnoty vyjádřená v původních
hodnotách, v nichž proměnnou měříme (např. u věku v
letech).
Naproti tomu samotný rozptyl je bezrozměrný a špatně
se tak interpretuje.
22
Existují také míry variability pro kategoriální (nominální) znaky, viz dále.
Výpočet směrodatné odchylky
pozorování:
odchylky od prům.:
čtverce odchylek
2
5
4
3
1
8
2
6
2
7
-2
1
0
-1
-3
4
-2
2
-2
3
4
1
0
1
9
16
4
4
4
9
Máme pozorování:
2
5
4
3
1
8
2
6
2
7
součet řady = 40; počet případů n = 10; průměr = 40/10 = 4
odchylky od průměru (X=4):
-2
1
0
-1
-3
4
-2
2
-2
3
(součet odchylek je 9 – 9 = 0)
čtverce odchylek:
4
1
0
1
9
16
4
4
4
9
součet čtverců odchylek = 52
průměrná čtvercová odchylka tj. rozptyl σ2= 52/10= 5,2
směrodatná odchylka (odmocnina z rozptylu) s = 2,28
Existují dva vzorečky: pro populační směrodatnou odchylku (zde – pro celou populaci)
23
a pro výběrovou, tj. jen pro vzorek z populace, v níž je ve jmenovateli místo „n „n-1“.
Výpočet směrodatné odchylky (př. 2)
Obdobné jako předchozí příklad, ale
vynechali jsme jedno – poslední
pozorování (n=9).
Příklad 2. Máme pozorování:
2
5
4
3
1
8
2
6
2
Součet řady = 33; n = 9; průměr = 33/9 = 3,66
odchylky od průměru:
-1,66 1,34 0,34 -0,66 -2,66 4,34 -1,66 2,34 -1,66
součet odchylek je = 0
čtverce odchylek:
2,76; 1,80; 0,12; 0,44; 7,08; 18,84; 2,76; 5,48; 2,76
součet čtverců odchylek = 42,04
průměrná čtvercová odchylka tj. rozptyl = 42,04 /9= 4,67
směrodatná odchylka (odmocnina z rozptylu) = 2,16
24
Příklad k procvičení
DATA: Věk AKD1 LS 2012
Porovnejte střední hodnoty (průměr, medián) a směrodatnou
odchylku u skupin studentů z Denního a Kombinovaného studia
Denní
23
25
24
23
24
23
22
23
22
Kombinované
33
30
48
25
31
46
49
38
26
28
26
31
25
Směrodatná odchylka v Excelu
STDEVPA pro základní soubor
STDEVA pro výběrový soubor
V SPSS je výpočet pro výběrovou
směrodatnou odchylku StD (tj.
pro vzorek z populace).
26
Další popisné statistiky - variabilita
Pro kardinální (číselné) proměnné
• Minimum / maximum
• Rozpětí (= max - min)
• Kvantily: dolní a horní kvartil → mezikvartilové
rozpětí
(jsou ale jiné členění do stejně početně zastoupených skupin, např. tercily
(33 % / 33 % / 33 %), decily (10 % / 10 % …)
• Koeficienty šikmosti (Skewness)
• Koeficienty špičatosti (Kurtosis)
• Variační koeficient (= podíl směr.odchylky a průměru)
Pro kategoriální proměnné
• míry variability (variační koeficient a jeho
varianty) – viz AKD II. 9. Míry variability: variační
koeficient a další indexy
http://metodykv.wz.cz/AKD2_variacni_koef.ppt
27
Různé typy proměnných a odpovídající popisné statistiky
(střední hodnoty, míry variability, grafy, …)
28
Zdroj: [Rachad 2003: 81].
Střední hodnoty a míry variability v SPSS
K dispozici máme více možností, např. pomocí příkazů:
FREQUENCIES, MEANS, DESCRIPTIVES a EXAMINE.
FREQUENCIES vek /STATISTICS MEAN STDDEV MEDIAN
MODE.
*průměr, směrodatná odchylka, medián a Modus (v rámci STATISTICS) + tabulka
frekvencí (počty a %), kterou lze vypnout pomocí přidání /FORMAT NOTABLE.
MEANS vek /CELLS MEAN STDDEV MEDIAN COUNT.
*průměr, směrodatná odchylka, medián a počet platných případů.
DESCRIPTIVES vek.
*průměr, směrodatná odchylka, počet platných případů; vhodné pro porovnání
hodnot u více proměnných (bohužel neumí medián).
EXAMINE vek /PLOT NONE.
*velké množství statistik pro střední hodnoty a variabilitu, zde (PLOT NONE) bez grafů.
29
Střední hodnoty a míry variability v SPSS (output)
Frequencies
Means
Descriptives
Explore
30
Směrodatná odchylka pro
dichotomickou proměnnou (podíl)
• Variance = p*q kde p (resp. q) je pravděpodobnost (tj. p = % / 100).
• Směrodatná odchylka = √p*q nebo √p(1-p)
Poznámka: Všimněte si, že hodnota rozptyl/StD
je zcela závislá na hodnotě parametru (%).
Příklad:
p = 0,29 q = 0,71
StD = √0,29*0,71 = 0,45
Pokud máme hodnoty dichotomické proměnné kódovány jako 0/1 (např. 0=nepracuje, 1=pracuje), pak
lze v SPSS použít výpočet pro kardinální znak, např. Descriptives (vzorec není ale stejný – výsledek se
může nepatrně lišit).
31
Kvantily
• Kvantily (obecně) → členění do stejně početně
zastoupených skupin
• Tercily: tři skupiny (33 % / 33 % / 33 %)
• Decily: deset skupin (10 % / 10 % …)
• Kvartily: čtyři skupiny (25 % / 25 % / 25 % / 25 %)
→ mezikvartilové rozpětí: rozdíl horního a dolního
kvartilu (x75 – x25)
• Zobrazujeme je (spolu s mediánem) v Boxplotu
→ jejich poloha ukáže na zešikmení
(čím blíže je H nebo D kvartil k mediánu, tím větší zešikmení)
• Určení kvantilů v SPSS pomocí NTILES:
FREQUENCIES vek /NTILES (4).
*číslo v závorce určuje, pro kolik stejných skupin chceme určit
hranice hodnot (na jejich základě můžeme dále rekódovat kardinální-spojitý znak na
ordinální-kategoriální).
32
Boxplot – vousaté krabičky: vizualizace distribuce
KVARTILY dělí statistický soubor na desetiny: dolní Q0,25 (Q1) a horní Q0,denní5
(Q3)
Interkvartilové rozpětí:
HH = horní kvartil + 1,5 násobku interkvartilového rozpětí
33
DH = dolní kvartil + 1,5 násobku interkvartilového rozpětí
Variabilita hodnot u nominálního znaku
Na rozdíl od kardinálních-numerických znaků tvar rozložení nedává smysl (v
histogramu), protože kategorie nemají žádný číselný - hierarchický význam.
(u ordinálních znaků tvar rozložení ovšem určitou informaci podává).
Variabilita znaku je dána rozptýleností / koncentrací podílů (%) v jednotlivých
kategoriích (nulová je tehdy jsou-li kategorie % stejně zastoupené).
34
Míry variability pro kategoriální proměnné
poněkud složitější situace (než u kardinálních znaků), zde jen úvod (v, D)
pro nominální proměnné:
• Variační poměr – v
• Nominální rozptyl – D (nomvar) (~ Giniho koeficient)
→ relativní počet všech dvojic, které nejsou ve stejné
kategorii
• Normalizovaný nominální rozptyl
(norm. nomvar nebo IQV)
• Entropie – H
• Normalizovaná entropie – H*
pro ordinální proměnné:
• Ordinální rozptyl - dorvar
Variační koeficient a jeho varianty – viz AKD II. 9. Míry variability: variační
koeficient a další indexy http://metodykv.wz.cz/AKD2_variacni_koef.ppt
• Viz také http://iastat.vse.cz/Nominalni.html
35
Vlastnosti měr variability
kategoriálních znaků
• Čím vyšší hodnota tím vyšší heterogenita
souboru
• Jsou rovny nule, když je celý soubor soustředěn
do jedné kategorie (nulové rozptýlení) → úplná
homogenita
• Maximální hodnota = rovnoměrné rozložení
dat (kategorií) → úplná heterogenita
• Ukazují do jaké míry, jsou data koncentrována
kolem své charakteristické hodnoty (→ modální
kategorie), tj. jak moc je tato hodnota typická pro
celý soubor.
Zdroj: [Řehák, Řeháková 1986: 66-69]
36
Variační poměr – v
• Nejjednodušší míra variability.
• Pokud je více modálních kategorií
uvažujeme nejvyšší četnost pouze jednou.
• Výhodou v je jednoduchost výpočtu.
• Nevýhodou v je, že je založeno pouze na
modální četnosti (normvar – D je
pracnější,ale odráží celou strukturu
tabulky).
37
Zdroj: [Řehák, Řeháková 1986: 66]
Příklad: Variační poměr – v (DATA)
38
[Řehák, Řeháková 1986: 68-70; Agresti, Agresti 1978]
Příklad: Variační poměr – v
Způsob získávání denního tisku u pravidelných
čtenářů, pro Periodikum J
(N = 1289)
Předplácí
Kupuje
K disp. v práci
Půjčuje si
Získává jinak
Celkem
N
% z celku
48,3%
24,1%
6,9%
16,4%
43,0%
100
116
8,9
modus
v
0,483 (= Předplácí)
0,517
absolutní četnost
56,028
= 116 * 0,483
lze spočítat v Excelu:
v = 1 – (56,028 / 116) = 0,517
V může sloužit k porovnání variability rozložení několika znaků (např. zde různých periodik)
nebo podskupin v třídění 2.stupně (podobně jako Směrod.odchylka u kardinálních znaků).
Zde způsoby získávání u různých periodik: např. periodikum J (v=0,517) má dvojnásobný variační
poměr než periodikum H (v=0,224), tj. způsoby jeho získávání jsou mnohem variabilnější
(všimněte si, že u tiskoviny H představuje modus „Kupuje“ celých 77,6 %).
39
Zdroj: [Řehák, Řeháková 1986: 68-69]
Nominální variance (nomvar)
Index diversity (D)
• nomvar nebo D
• Kde: p – podíl pozorování v dané i-té kategorii
→ podíl všech dvojic jednotek, které nemají
stejnou hodnotu znaku nebo také
→ pravděpodobnost, že dva náhodně vybraní
jedinci z populace budou patřit do rozdílných
kategorií.
Index je tím vyšší, čím více je kategorií a čím více jsou
pozorování rozptýlena rovnoměrně v těchto kategoriích.
[Řehák, Řeháková 1986: 68-70; Agresti, Agresti 1978]
40
Více k varianci kategoriálních znaků
v AKD II.
http://metodykv.wz.cz/AKD2_variacni_koef.ppt
SPSS míry variability pro kategoriální proměnné neumí, ale na
již hotovou tabulku (FREQUENCIES) lze v outputu použít skript
Míry variability pro kategorizované proměnné
http://acrea.cz/cz/skripty/mira-variability
Vlastnosti rozdělení znaků
popisná statistka
pro kardinální znaky v
grafickém znázornění
Symetrie, variabilita
Vlastnosti rozložení hodnot znaku,
jsou dány střední hodnotou (průměrem) a rozptylem hodnot
43
[Hanousek, Charamza 1992: 21]
Bimodální (dvouvrcholové) rozložení
• Proměnnou nejlépe reprezentují dvě
střední hodnoty (průměry).
44
Zdroj: [Howell 2011: 52]
Šikmost a špičatost
→ odchylky od symetrie (šikmost) a variability (špičatost/plochost)
45
[Hanousek, Charamza 1992: 21]
Normální rozložení hodnot a směrodatná odchylka
Rozložení hodnot (tvar
křivky) je dán
průměrem a
rozptylem.
Zde jde o normované
(standardizované)
normální rozdělení,
kde μ=0 a σ=1
Platí, že v ploše pod
křivkou vymezené +/- 1
směrodatnou odchylkou
od průměru je 68 %
případů (cca 2/3).
Jde o teoretické rozložení hodnot, v praxi vždy dochází k nějaké odchylce od tohoto
normálního rozložení. Pro většinu analýz kardinálních znaků (např. průměr nebo korelace)
potřebujeme, aby se rozložení proměnných co nejméně odchylovalo od tohoto tvaru
46
(gaussovy křivky).
http://www.stat.tamu.edu/~west/applets/normaldemo1.html
A k čemu variance–variabilita dat
(směrodatná odchylka) je?
• Směrodatná odchylka ukazuje na to, jak „kvalitně“ popisuje
průměr data. (nulová STDEV = všechny případy mají stejnou hodnotu, tj. průměr)
→ uvádíme-li průměr, tak vždy uvedeme i směrodatnou odchylku (StDev)
• Distribuci hodnot – varianci v datech musíme věcně
interpretovat (StdDev, míry šikmosti, percentily, …).
• Před výpočty u numerické proměnné (korelace, průměr, …)
ověřujeme rozložení hodnot, zda se (výrazněji)
nevychyluje od normálního rozložení.
A pro výběrová data, tj. náhodný(!) vzorek z populace platí:
• Normální rozdělení je vlastně zákonem chyb měření (a to i
těch o nichž nevíme, tj. přímo jsme je neměřili). A na tom
jsou postaveny principy inferenční statistiky (testování
hypotéz).
• Směrodatná odchylka slouží k výpočtu Standardní chyby
(S.E.) → kvantifikace chyb měření (výběrové chyby)
47
Význam variance hodnot znaků
• Zjednodušeně řečeno:
naším záměrem je, aby v datech–proměnné byla
„dostatečná“ variabilita (tj. proměnlivost hodnot),
která bude nenáhodná, tj. budeme ji schopni
(většinou pomocí dalších „nezávislých“)
proměnných vysvětlit.
• Pokud je variabilita prakticky nulová (či pouze
náhodná), pak není co vysvětlovat (to v podstatě
platí i, pokud je naopak extrémně vysoká).
• A abychom v datech dosáhli „dostatečné“
variability, to je úkol již pro přípravné fáze
výzkumu (formulace modelu vztahů (výzkumných otázek/hypotéz)
→ rozhodnutí o zahrnutí indikátorů/proměnných, jejich
operacionalizace, stanovení jednotek sběru dat a analýzy, velikosti a
metodě výběru …).
48
Na co si dát v datech dát
pozor
Variance a střední hodnoty
Vzájemná poloha průměru a
mediánu
50
Průměr a rozptyl nejsou všechno!
Výsledek testu
(interval hodnot)
případ
1
případ
2
případ
3
případ
4
20-29
1
-
-
-
30-39
4
2
-
-
40-49
6
5
12
-
50-59
8
10
12
34
60-69
10
16
12
12
70-79
16
17
12
6
80-89
18
18
12
4
90-99
16
12
12
6
100-109
10
10
12
12
110-119
8
7
12
34
120-129
6
5
12
-
130-139
4
3
-
-
140-149
1
1
-
-
150-159
-
1
-
-
160-169
-
1
-
-
šikmost
0,00
0,57
0,00
0,00
-0,43
0,18
-1,23
-1,77
špičatost
Ve všech čtyřech případech je stejné:
maximum
170
průměr
85
směrodatná odchylka
25,8
51
Zdroj: [Hanousek, Charamza 1992: 38-39]
Variabilita rozložení hodnot doporučení
kardinální znaky
• Průměr a směrodatná odchylka nestačí, uvádějte ještě
alespoň medián (vztah průměru a mediánu ukazuje na směr vychýlení)
• Grafické znázornění variability
→ Histogram (případně boxplot)
• Pokud chceme variabilitu popsat čísly: Koeficienty šikmosti
(Skewness) a špičatosti (Kurtosis) nebo mezikvartilové
rozpětí (rozdíl horního a dolního kvartilu)
• Vždy věnujeme nejprve pozornost extrémním hodnotám.
kategoriální (nominální) znaky
• Tabulka frekvencí (s %)
nebo graficky → Barchart
52
Ověření normality rozložení dat
• Histogram → vizuálně orientačně
Podrobněji a přesněji:
• Q-Q graf (quantile-quantile): ukazuje kvantily
pozorované distribuce proměnné proti kvantilů zvolené
distribuční funkce
Normálně rozložená data → přímkový charakter
v SPSS: Analyze, Descriptive statistics, Q-Q plots
• Kolmogorov-Smirnov test: H0 = data jsou normálně
rozložena,
Pozor na interpretaci výsledku: nízké! p (< 0,05) →
distribuce dat se statisticky signifikantně lišší od
normální distribuce.
v SPSS: Analyze, Nonparametric Tests, 1-Sample K-S...
• Dojde-li k porušení normality rozložení
→ rekódování, transformace (např.
logaritmická), použití neparametrických metod
53
Rozložení četností a Q-Q graf
54
Standardizace na z-skóre
odstranění původní metriky u kardinálních-číselných znaků
• Z – skóry: průměr X=0 a StD =1
V transformované proměnné je aritmetický průměr roven
nule a směrodatná odchylka je jedna.
• Odchylka od průměru / směrodatnou odchylkou:
•
Od každého pozorování odečteme průměr a vydělíme směrodatnou odchylkou.
• z-skóre = kolik standardních odchylek je danná hodnota
vzdálena od střední hodnoty (aritmetického průměru)
• Většina nově transformovaných hodnot je
v rozmezí od -3 do 3.
55
→ umožňuje porovnat znaky s odlišnou metrikou.
Standardizace na z-skóre
• V SPSS jednoduše pomocí Descriptives přidáním SAVE:
DESCRIPTIVES var1 /SAVE.
• V datech vznikne proměnná automaticky pojmenovaná Zvar1
(v Labelu je uvedeno „Zscore:“ a původní pojmenování)
• Pozor: Proměnná musí mít přibližně normální
rozložení! (kontrolujeme aspoň vizuálně pomocí Histogramu)
Pokud ne, pak lze transformovat na percentily.
• Existují i jiné principy standardizace dat, např. přímá
56
standardizace.
Některé webové nástroje pro analýzu
Index of On-line Stats Calculators
http://www.physics.csbsju.edu/stats/Index.html
• Exact r×c Contingency Table:
http://www.physics.csbsju.edu/stats/exact_NROW_NCOLUMN_form.html
• Statistical Calculations
•
http://statpages.org/
• R. Webster West applets
http://www.stat.tamu.edu/~west/
http://www.stat.tamu.edu/~west/ph/
Více na webu v sekci Webové nástroje
pro analýzu dat
www.metodykv.wz.cz/index.htm#webnastroje
Učebnice:
Interstat - hypertextová interaktivní učebnice statistiky pro ekonomy
http://www.stahroun.me.cz/interstat/
Statnotes: Topics in Multivariate Analysis, by G. David Garson
http://faculty.chass.ncsu.edu/garson/PAdenní65/index.htm
StatSoft - Elektronická učebnice statistiky (anglicky)
http://www.statsoft.cz/page/index2.php?pg=navigace&nav=31
http://www.statsoft.com/textbook/
57
Nejprve se ptej, k čemu
analýza tvá má sloužit,
potom teprv výběrem metody
dej se soužit.
[Hanousek, Charamza 1992 : 61]
Jednorozměrnou analýzou tj.
tříděním dat prvního stupně
(univariate analysis)
to teprve vše začíná …
→ dvourozměrná
(a vícerozměrná) analýza,
elaborace vztahů …
A navíc, pokud máme výběrová data → inferenční
statistika (intervalové odhady, statistické testování
hypotéz, …)
Literatura
• Babbie, E. 1995. The Practice of social Research. 7th
Edition. Belmont: Wadsworth. → kapitola 15 – Elementary
Analyses.
• de Vaus, D., A. (1985) 2002. Surveys in Social Research,
Fifth Edition. St Leonards NSW: Allen & Unwin / London:
Routledge. → kapitola 13 – Univariate analysis.
• Disman, M. 1993. Jak se vyrábí sociologická znalost.
Praha: Karolinum. → kapitola 8 – Já ti to spočítám aneb
statistika pro úplně beznadějné případy (jen do st. 195).
• Hanousek, Charamza. 1992. Moderní metody zpracování
dat. Matematická statistika pro každého. Praha: Grada.
• Řehák, J., B. Řeháková. 1986. Analýza kategorizovaných
dat v sociologii. Praha: Academia.
•
Howell, D. C. 2014. Fundamental Statistics for the Behavioral Sciences.
Belmont: Wadsworth.
60