variační koeficient a další indexy

Download Report

Transcript variační koeficient a další indexy

UK FHS
Historická sociologie
(LS 2013)
Analýza kvantitativních dat II.
Míry variability:
variační koeficient
a další indexy
Jiří Šafr
jiri.safr(zavináč)seznam.cz
Tato prezentace je zatím ve stadiu vývoje. poslední aktualizace 27. 10. 2014. (6.4. 2014)
1. Kardinální – číselné
proměnné
Variační Rozpětí (Range)
• Základní míra: rozdíl mezi nejvyšší a
nejnižší hodnotou znaku v datech.
• Nevypovídá o celkové variabilitě v datech,
je citlivá na extrémní hodnoty (a ty mohou
být náhodné).
• Proto je lepší používat charakteristiky
popisující kolísání hodnot znaku kolem
průměru nebo další míry polohy.
3
Variační koeficient
• CV (coefficient of variation) je mírou relativního
rozptýlení dat. = podíl směrodatné odchylky k
průměru. (nebo jiné střední hodnotě – mediánu)
• Relative standard deviation (RSD) dtto v
procentech.
• Ukazuje podíl variability ve vztahu k průměru v %.
• Výhodou je, že můžeme porovnávat znaky s
odlišným průměrem i různými metrikami
(rozsahy škál). → např. při mezinárodní
komparaci
•
Pouze pro poměrové proměnné (ratio scales) a pozitivní hodnoty.
4
Data – dvě situace (např. v SPSS)
pro výpočet míry variability
1. CV across a set of variables for
each case – mezi (podobnými)
proměnnými vždy pro jeden
případ (např. respondent) =
mezi sloupci
COMPUTE CV_Spok = CFVAR (spokojenost1, spokojenost2, spokojenost3).
2. CV for one variable across cases –
v rámci jedné proměnné mezi
případy = řádky
Zde je situace v SPSS složitější (pro
uložení do proměnné nutno agregovat),
pokud chceme jen zobrazit výsledek,
pak lze použít příkazy REPORT nebo
RANK (viz příklady 1 a 2).
CV = 0,41
Lze provést porovnání CV např. pro podskupiny dle pohlaví.
5
Příklad 1. CV v rámci jedné proměnné mezi případy
Nelze v menu, musíme v syntaxu, využijeme příkaz REPORT Summaries in Rows,
kde doplníme do Summary příkaz DIVIDE (se zadáním podílu směr.odch. / průměr)
REPORT /FORMAT= CHWRAP(ON) PREVIEW(OFF) CHALIGN(BOTTOM) UNDERSCORE(ON)
ONEBREAKCOLUMN(OFF) CHDSPACE(1) SUMSPACE(0) AUTOMATIC NOLIST
BRKSPACE(0) PAGE(1) MISSING'.' LENGTH(1, 59) ALIGN(LEFT) TSPACE(1) FTSPACE(1)
/TITLE= RIGHT 'Page )PAGE‚ /VARIABLES
spokojenost1 (VALUES) (RIGHT) (OFFSET(0)) (12)
spokojenost2 (VALUES) (RIGHT) (OFFSET(0)) (12)
spokojenost3 (VALUES) (RIGHT) (OFFSET(0)) (12)
/BREAK (TOTAL) 'Grand Total' (SKIP(1))
/SUMMARY MEAN(spokojenost1) SKIP(1) MEAN( spokojenost2 ) MEAN( spokojenost3 ) 'Průměr'
/SUMMARY STDDEV( spokojenost1) STDDEV( spokojenost2 ) STDDEV( spokojenost3 ) 'StdDev‚
/SUMMARY = DIVIDE ( STDDEV( spokojenost1) MEAN( spokojenost1) ) (spokojenost1 (2) )
SKIP(1) DIVIDE ( STDDEV( spokojenost2) MEAN( spokojenost2) ) (spokojenost2 (2) )
SKIP(1) DIVIDE ( STDDEV( spokojenost3) MEAN( spokojenost3) ) (spokojenost3 (2) )
SKIP(1) 'Variační koeficient' .
spokojenost1
spokojenost2
____________
____________
Grand Total
Průměr
3
2
StdDev
1
1
Variační koeficient
,41
,41
spokojenost3
____________
4
0
,00
6
Příklad 2.
CV v rámci jedné proměnné mezi případy:
agregovaná data + v oddělených blocích na
základě časových období
Spotřeba potravin podle sociálních tříd
v letech 1960-1980
(hypotetická data)
Příklad 2. Spotřeba potravin podle
sociálních tříd v letech 1960-1980
Jde o již dříve publikované
údaje. (získali jsme je např.
z tabulek v publikaci ČSÚ)
Uspořádána jsou jako
agregované „událostiroky“, tj. vždy pro daný rok
„případy“ – soc. třídy a
jejich spotřeba potravin v
kg.
Chceme zjistit variabilitu –
rozptýlenost hodnot ve
spotřebě potravin) mezi
třídami v daném roce.
Měříme vlastně nerovnost
ve spotřebě komodit mezi
třídami v časovém
srovnání.
8
Příklad 2. CV pomocí RATIO v SPSS
• Zkoumáme jak se v čase proměnila variance ve
spotřebě komodit mezi třídami.
• V SPSS příkaz RATIO, který slouží k porovnání
poměru dvou (kardinálních) proměnných.
• Pokud chceme CV pouze pro jednu proměnnou
použijeme jednoduchý trik: vytvoříme
proměnnou s konstantní hodnotou 1 a k ní
budeme danou komoditu vztahovat .
• Protože zde porovnáváme spotřebu v čase,
provedeme navíc oddělení výsledků pro jednotlivé
roky pomocí SPLIT.
9
Příprava a zadání výpočtu v syntaxu
*Vytvoření konstanty 1.
COMPUTE konst1 =1.
SORT CASES BY rok.
SPLIT FILE LAYERED BY rok.
RATIO STATISTICS citrony WITH konst1 BY
trida (ASCENDING)
/MISSING=EXCLUDE
/PRINT=MEAN MNCOV RANGE STDDEV.
Zadání samotného CV, zde ve vztahu k průměru (lze i
k mediánu) je MNCOV, navíc máme zadáno Rozpětí
10
a Směrodatnou odchylku.
Výsledek: Variační koeficient v % (RSD)
CV (RSD) mezi
lety 1960 až 1980
klesá, z 75,5 % na
0 %.
V daném období
tedy rozdíly ve
spotřebě citrónů
mezi sociálními
třídami poklesly na
minimum (žádný
rozdíl v roce
1980).
11
Další míry variability
• Koeficient rozptýlení dat - coefficient of
dispersion / variance-to-mean ratio (VMR)
→ podíl mocniny směrodatné odch.k průměru
RATIO STATISTICS lastval WITH saleval BY town
(ASCENDING) /PRINT = BCOC(0.8,1.2) COD MEDIAN
WCOC( 20 ) .
Zdroj: [SPSS 17 Tutorial]
12
2. Kategoriální
(nominální/ordinální)
znaky
Míry variability pro nominální
proměnné
Variabilita hodnot u nominálního znaku
Na rozdíl od kardinálních-numerických znaků tvar rozložení nedává smysl (v
histogramu), protože kategorie nemají žádný číselný - hierarchický význam.
(u ordinálních znaků tvar rozložení ovšem určitou informaci podává).
Variabilita znaku je dána rozptýleností / koncentrací podílů (%) v jednotlivých
kategoriích (nulová je tehdy jsou-li kategorie % stejně zastoupené).
14
Míry variability pro kategoriální proměnné
poněkud složitější situace (než u kardinálních znaků)
Nominální proměnné:
• Variační poměr – v
• Nominální rozptyl – D (nomvar) (Giniho koeficient)
→ relativní počet všech dvojic, které nejsou ve
stejné kategorii
• Normalizovaný nominální rozptyl
(norm. nomvar nebo IQV)
• Entropie – H
• normalizovaná entropie – H*
Ordinální proměnné:
• Ordinální rozptyl - dorvar
Viz http://iastat.vse.cz/Nominalni.html
15
Vlastnosti měr variability
kategoriálních znaků
• Čím vyšší hodnota tím vyšší heterogenita
souboru
• Jsou rovny nule, když je celý soubor soustředěn
do jedné kategorie (nulové rozptýlení) → úplná
homogenita
• Maximální hodnota = rovnoměrné rozložení
dat (kategorií) → úplná heterogenita
• Ukazují do jaké míry, jsou data koncentrována
kolem své charakteristické hodnoty (→ modální
kategorie), tj. jak moc je tato hodnota typická pro
celý soubor.
Zdroj: [Řehák, Řeháková 1986: 66-69]
16
Variační poměr – v
• Nejjednodušší míra variability.
• Pokud je více modálních kategorií
uvažujeme nejvyšší četnost pouze jednou.
• Výhodou v je jednoduchost výpočtu.
• Nevýhodou v je, že je založeno pouze na
modální četnosti (nomvar – D je
pracnější,ale odráží celou strukturu
tabulky).
17
Zdroj: [Řehák, Řeháková 1986: 66]
Příklad: Variační poměr – v (DATA)
18
[Řehák, Řeháková 1986: 68-70; Agresti, Agresti 1978]
Příklad: Variační poměr – v
Způsob získávání denního tisku u pravidelných
čtenářů, pro Periodikum J
(N = 1289)
Předplácí
Kupuje
K disp. v práci
Půjčuje si
Získává jinak
Celkem
N
% z celku
48,3%
24,1%
6,9%
16,4%
43,0%
100
116
8,9
modus
v
0,483 (= Předplácí)
0,517
absolutní četnost
56,028
= 116 * 0,483
lze spočítat v Excelu:
v = 1 – (56,028 / 116) = 0,517
V může sloužit k porovnání variability rozložení několika znaků (např. zde různých periodik)
nebo podskupin v třídění 2.stupně (podobně jako Směrod.odchylka u kardinálních znaků).
Zde způsoby získávání u různých periodik: např. periodikum J (v=0,517) má dvojnásobný variační
poměr než periodikum H (v=0,224), tj. způsoby jeho získávání jsou mnohem variabilnější
(všimněte si, že u tiskoviny H představuje modus „Kupuje“ celých 77,6 %).
19
Zdroj: [Řehák, Řeháková 1986: 68-69]
Nominální variance (nomvar)
Index diversity (D)
• nomvar nebo D
• Kde: p – podíl pozorování v dané i-té kategorii
→ podíl všech dvojic jednotek, které nemají
stejnou hodnotu znaku nebo také
→ pravděpodobnost, že dva náhodně vybraní
jedinci z populace budou patřit do rozdílných
kategorií.
Index je tím vyšší, čím více je kategorií a čím více jsou
pozorování rozptýlena rovnoměrně v těchto kategoriích.
[Řehák, Řeháková 1986: 68-70; Agresti, Agresti 1978]
20
Normalizovaná nominální variance
Index of Qualitative Variation (IQV)
norm.normvar = IQV =
kde K
= D/(1–1/K)
= počet kategorií a D = Index diversity (nom.var)
• IQV = pozorované rozdíly /maximum možných rozdílů
• Standardizovaná pravděpodobnost, že náhodný pár
ve výběru nebude patřit do stejné kategorie.
• Rozpětí 0 až 1: Když všechny hodnoty patří do jedné
kategorie IQV = 0 (úplná homogenita). Když jsou
všechny rovnoměrně zastoupeny pak IQV = 1
(maximum heterogenity)
•
Jako max. počet kategorií (K) použijeme teoretickou hodnotu – všech
možných kategorií, i kdyby v dané subpopulaci nebyly všechny zastoupeny.
•
Více viz http://sociology.about.com/od/Statistics/a/Index-Of-Qualitative-Variation-Iqv.htm
21
Postup výpočtu IQV
1. Vypočítejte podíl kategorií → tabulka
třídění 1. stupně (nebo 2. stupně – pro
podskupiny)
2. Podíl v každé kategorie umocněte
3. Sečtěte umocněné podíly
4. Pro D: odečtěte od 1
5. Pro IQV: D vydělte (1-1/K)
(k je max. počet kategorií)
22
Příklad: D a IQV [Agresti, Agresti 1978]
Occupational Status by Race and Year in W'alton County, Florida
Index diverzity D (nomvar) pro bělochy (white population) v roce 1870:
D = 1 - 0.347 = 0.653
V populaci bělochů v roce 1870 je pravděpodobnost, že dva náhodně vybraní
jedinci budou z odlišné profesně-třídní skupiny 0,653.
23
Standardizace D na IQV
• IQV = ((k- 1)*D)/k nebo D/(1–1/K)
• 1–1/K = 1 – 1/6 = 0,833
→ Jde o maximální možnou hodnotu D
zde 6 profesně třídních kategorií)
• IQV = 0,653 / 0,833 = 0,784
24
Pokračování příklad D a IQV
[Agresti, Agresti 1978]
•
•
•
•
•
Spočítejte D a IQV pro další kategorie:
Běloši 1870
Běloši 1885
Černoši 1870
Černoši 1885
25
Pokračování příklad D a IQV
[Agresti, Agresti 1978]
Běloši
1870
1885
0,784 0,811
Černoši
1870
1885
0,442 0,230
• V každém roce je černošská populace v
porovnání s bělošskou méně profesně-třídně
heterogenní.
• V černošské populaci došlo za 15 let k poklesu
diverzity profesně-třídních kategorií, zatímco u
bělochů variance zůstala přibližně stejná.
26
Míry variability nominální/ordinální
proměnné v SPSS
• SPSS neobsahuje, ale existuje skript, který lze
aplikovat na tabulku třídění 1.stupně (FREQUENCIES)
Míry variability pro kategorizované proměnné
• http://acrea.cz/cz/skripty/mira-variability
• K dispozici jsou tyto míry: variační poměr,
nominální variance, normovaná nominální
variance, ordinální variance a normovaná
ordinální variance.
• Definice těchto měr lze najít v knize Řehák J., Řeháková B. 1986.
Analýza kategorizovaných dat v sociologii. Praha: Academia.
27
Míry variability pro kategorizované znaky v SPSS - skript
Vstupní tabulka
výsledek
28
Pro porovnání podskupin → SPLIT FILE
Muži
Ženy
Ženy mají heterogennější zastoupení
vystudovaných oborů než muži 29
(nomvar ženy=0,8 vs. muži=0,6).
V SPSS: Syntax + Skript
SORT CASES BY pohlavi.
SPLIT FILE SEPARATE BY pohlavi.
FREQ vzd_obor7.
• A pak aplikovat skript mira-variability
→ výsledek se spočte pro muže a ženy
zvlášť
30
A nebo spočítat ručně (v Excelu)
kategorie (obor vzd.) podíly kategorií
1
0,08
2
0,195
3
0,362
4
0,06
5
0,046
6
0,043
7
0,214
suma
1
D (nomvar)
kvadrát
0,006
0,038
0,131
0,004
0,002
0,002
0,046
suma
1-suma
IQV (norm.nomvar) D/(1–1/K)
0,229
0,771
0,925
=R[-2]C/((1-(1/6)))
31
Porovnání IQV
v podskupinách/ populacích
(bude doplněno)
Reference
• Agresti, Alan; Barbara F. Agresti. 1978.
“Statistical Analysis of Qualitative
Variation.” Sociological Methodology 9:
204-237.
• Řehák, J., B. Řeháková. 1986. Analýza
kategorizovaných dat v sociologii. Praha:
Academia.
33