statistické zpracování dotazníků
Download
Report
Transcript statistické zpracování dotazníků
RNDr. Michal Čihák, Ph.D.
je jednou z nejpoužívanějších a nejspolehlivějších
technik měření postojů v dotaznících:
raději použít
„Neutrální postoj „
Statistické znaky dělíme na:
• Nominální – lze interpretovat pouze rovnost nebo
nerovnost hodnot
• Ordinální – hodnoty lze seřadit od nejmenší po největší
(nebo naopak)
• Metrické
– intervalové – lze interpretovat rozdíl dvou hodnot
– poměrové – mimo rozdílu lze interpretovat i podíl dvou hodnot
Likertovy škály lze považovat za ordinální – je možné
tvrdit, že například hodnota „Naprosto souhlasím“ je
před hodnotou „Spíše souhlasím“.
Některé typy škál je možné považovat i za intervalové
– podmínkou je, aby mezi hodnotami byla stejná
„vzdálenost.
Příklad 1. Likertova škála "Poor", "Average", "Good",
and "Very Good" nemůže být považována za
intervalovou, je pouze ordinální.
Příklad 2. Likertova škála " Strongly disagree ",
"Disagree ", "Neither agree nor disagree ", "Agree ",
"Strongly agree" je obvykle vnímána jako intervalová.
Příklad 3. Sémantický diferenciál je typem škály, která
bývá považována za intervalovou (běžný respondent
vnímá stupnici lineárně).
• Nominální znaky – lze použít pouze metody, které
pracují s četnosti (například χ2 test nezávislosti)
• Ordinální – lze navíc použít i neparametrické metody,
které pracují s pořadím (Wilcoxonův test,
Mann-Whitneyův test, apod.)
• Intervalové metrické – odpovědi na několik otázek (se
stejným typem škály) lze sčítat a na takto vzniklý znak
lze použít parametrické testy (t-test, analýza rozptylu,
apod.)
Poznámka: Obecně se doporučuje sčítat minimálně 4 otázky, ideálně
8 a více otázek, což zaručuje (centrální limitní věta) normální rozdělení
vzniklého znaku.
Příklad 3. Pohlaví vs. účast v posledních volbách:
Volby
Pohlaví
muži
ženy
účast
2792
3591
neúčast
1486
2131
Ptáme se, zda účast ve volbách závisí na pohlaví.
χ2 test nezávislosti smí být použit pouze v případě
výběrů, které nejsou párové.
Analyze → Descriptive Statistics → Crosstabs…
p-hodnota je 0,015 < 0,05 (hladina významnosti)
Zamítáme H0 a přijímáme HA
Na hladině významnosti
5 % byla zjištěna
závislost mezi pohlavím
a státní příslušností.
Příklad 3. Ptáme se, zda je tzv. globálního oteplování
vážným nebezpečím pro lidstvo:
Před přečtením
studie
Po přečtení studie
ano
ne
ano
33
67
ne
147
33
Zajímá nás, zda přečtení studie ovlivnilo názor na globální
oteplování.
Zde se jedná o tentýž výběrový soubor, pro nějž byl
průzkum dvakrát zopakován (hodnoty tvoří páry) – musíme
použít McNemarův test namísto χ2 test nezávislosti
Analyze → Descriptive Statistics → Crosstabs…
V našem cvičném souboru ale nemáme data vhodná
pro tento test.
Test smí být použit pouze v případě výběrů, které
nejsou párové (žádný respondent se nesmí vyskytovat
současně v obou výběrových souborech).
Příklad 4. Chceme zjistit, zda se liší názory Čechů a
Poláků v otázce „Jsem si jistý/á, že se chci stát
učitelem/kou.“
Analyze → Nonparametric Tests → Legacy Dialogs →
→ 2 Independent Samples…
p-hodnota je 0,351 > 0,05 (hladina významnosti)
Nezamítáme H0
Na hladině významnosti
5 % nebyl zjištěn rozdíl
mezi Čechy a Poláky
v otázce „Jsem si
jistý/á, že se chci
stát učitelem/kou.“
Test smí být použit pouze v případě výběrů, které jsou
párové (na stejném souboru respondentů provedeme
průzkum dvakrát).
Analyze → Nonparametric Tests → Legacy Dialogs →
→ 2 Related Samples…
V našem cvičném souboru ale nemáme data vhodná
pro tento test.
Má smysl pouze v případě výběrů, které jsou párové
(pro stejný soubor respondentů zkoumáme závislost
dvou ordinálních statistických znaků).
Příklad 5. Chceme zjistit míru závislosti mezi otázkou
„Jsem si jistý/á, že se chci stát učitelkou“ a otázkou
„Celkově považuji profesní přípravu za maximálně
užitečnou“.
Analyze → Correlate → Bivariate…
Spearmanův koeficient korelace je 0,078
p-hodnota pro tento koeficient je 0,195 > 0,05
Koeficient korelace nebyl shledán významným na
hladině významnosti 5 %.
Nebyla zjištěna závislost mezi těmito dvěma otázkami.
Reliabilita (spolehlivost, hodnověrnost) je statistická
veličina, udávající spolehlivost skupiny položek dotazníku.
Lze ji chápat jako míru přítomnosti chyby při měření
Nabývá hodnot od 0 do 1 (0 % až 100 %) – čím je nižší,
tím je měření měně spolehlivé.
Příklad 6. Chceme zjistit reliabilitu položek A4a, A4B, A4c,
A4d, A4e dotazníku.
Předpokládejme, že tyto položky měří „spokojenost se
studiem“. Zajímá nás, jak spolehlivě ji měří.
Analyze → Scale → Reliability Analysis…
Cronbachovo alfa vychází poměrně vysoké, tedy
zvolených 5 otázek dobře měří jednu vlastnost
„celkovou spokojenost se studiem“.
V další tabulce můžeme najít vypočtené korelace mezi
jednotlivými otázkami.
V poslední tabulce můžeme pro každou otázku nalézt
informaci, jak se změní Cronbachovo alfa, pokud tuto
otázku odstraníme z dotazníku.
Příklad 7. Vytvoříme novou proměnnou
SoucetA4 = A4a + A4b + A4c + A4d + A4e
Na takto vzniklou proměnnou lze použít parametrické
testy (t-test, analýza rozptylu, apod.)
Poznámka: Obecně se doporučuje sčítat minimálně 4 otázky,
ideálně 8 a více otázek, což zaručuje (centrální limitní věta)
normální rozdělení vzniklého znaku.
Transform → Compute Variable…
V datovém listu vznikne nová proměnná SoucetA4.
Na záložce Data View nastavte pro tuto
proměnnou ve sloupci Measure
hodnotu Scale.
Pouze pro metrické intervalové znaky (pro ordinální
znaky je náhradou Mann-Whitneyův test)
Pouze v případě výběrů, které nejsou párové (žádný
respondent se nesmí vyskytovat současně v obou
výběrových souborech)
Příklad 8. Zajímá nás, zda se liší názor Čechů a Poláků
na spokojenost se studiem.
Vytvoříme novou proměnnou „spokojenost se studiem“
SoucetA4 = A4a + A4b + A4c + A4d + A4e
Analyze → Compare Means →
→ Independent-Samples T Test…
p-hodnota je 0,060 > 0,05 (hladina významnosti)
Nezamítáme H0, nicméně výsledek testu je „hraniční“
(0,060 je blízko 0,05).
Na hladině významnosti 5 % nebyl zjištěn rozdíl mezi
Čechy a Poláky v „celkové spokojenosti se studiem“.
Příklad 9. Vytvoříme novou proměnnou Vek_intervaly,
podle následujících pravidel:
Vek ≤ 20
interval číslo 1
21 ≤ Vek ≤ 22
interval číslo 2
23 ≤ Vek
interval číslo 3
Pomocí této proměnné určíme četnosti hodnot
proměnné Vek v jednotlivých intervalech
Transform → Recode Into Different Variables…
Chceme porovnat více nezávislých souborů
(t-test porovnává dva nezávislé soubory)
Respondenty třídíme do skupin podle jedné proměnné
Opět pouze pro metrické intervalové znaky
Příklad 10. Zajímá nás, zda se liší názor Čechů, Poláků
a Němců na spokojenost se studiem (třídící proměnná
– Stat).
Příklad 11. Zajímá nás, zda se liší názor různých
věkových skupin na spokojenost se studiem (třídící
proměnná – Vek_intervaly).
Analyze → Compare Means →
→ One-Way ANOVA…
p-hodnota je 0,474 > 0,05 (hladina významnosti)
Nezamítáme H0
Na hladině významnosti 5 % nebyl zjištěn rozdíl mezi
jednotlivými věkovými skupinami.
Pokud by v jiné
úloze byl zjištěn,
hledáme ve druhé
tabulce, mezi
kterými skupinami
je Sig. menší
než 0,05.
Opět chceme porovnat více nezávislých souborů
Respondenty třídíme do skupin podle dvou proměnných
Opět pouze pro metrické intervalové znaky
Příklad 12. Zajímá nás, zda se liší názor na spokojenost se
studiem u českých dívek, českých chlapců, polských dívek a
polských chlapců (dvě třídící proměnné – Stat a Pohlavi).
Nevýhoda – chybí nabídka post hoc porovnání – lze řešit
vytvořením nové třídící proměnné
Pouze pro metrické intervalové znaky (pro ordinální
znaky je náhradou Wilcoxonův znaménkový test)
Pouze v případě výběrů, které jsou párové (na stejném
souboru respondentů provedeme průzkum dvakrát)
Analyze → Compare Means → Paired_Samples T Test…
V našem cvičném souboru ale nemáme data vhodná
pro tento test.