Transcript dvouvýběrový t-test
Slide 1
statistické testy
• z náhodného výběru vyvozuji závěry
ohledně základního souboru
• často potřebuji porovnat dva výběry mezi
sebou, porovnat průměr náhodného
výběru a teoretickou střední hodnotu,
počty pozorované a očekávané atd.
Slide 2
liší se hmotnost samic a samců?
• mám hypotézu H: mf ≠ mm
– předpokládám, že se liší
• hypotézu nemůžu potvrdit (verifikovat)
→ zkusím zamítnout (falzifikovat)
nulovou hypotézu H0: mf = mm
– mají stejnou hmotnost
pokud ji zamítnu, přijmu opačnou
alternativní hypotézu HA (tu moji původní)
• průměr mf, mm se téměř určitě bude lišit.
Bude se lišit tak, abych mohl zamítnout
H0?
Slide 3
statistické testy
• z dat spočítám testovou statistiku, která má
známé teoretické rozdělení (t, F, 2, U….)
• lze určit, jakou hodnotu bude testová
statistika mít, pokud platí H0
• na základě stupňů volnosti (d.f., s.v. – z
počtu nezávislých pozorování) stanovím,
jestli odchylky jsou jen dílem náhody - p
Slide 4
statistické testy
• definuji si hladinu významnosti α –
pravděpodobnost, že zamítnu H0 ačkoli
platí – chyba prvního druhu
• většinou 5 % (= 0.05)
• pokud spočítané p je menší než α –
zamítám H0 a tím „přijímám“ HA
Slide 5
statistické testy
• jako výsledek statistického testu uvádím
– hodnotu testové statistiky (t, F, 2, U…..)
– stupně volnosti (degrees of freedom – d.f., s.v.)
– dosažená hladina významnosti (p)
• t = 3.414, d.f. = 28, p = 0.0215
• t (28) = 3.414, p = 0.0215
• t28 = 3.414, p = 0.0215
Slide 6
Studentův t-test
Slide 7
• testuji, zda můj výběr má střední hodnotu
shodnou s danou hodnotou – jednovýběrový ttest (H0: μ = k)
– dlouhodobá průměrná denní teplota v červnu je rovna
17.5 °C. Byla letos stejná?
• testuji, zda dva náhodné výběry (nezávislé)
pochází ze stejného základního souboru (mají
stejnou střední hodnotu) – dvouvýběrový t-test
(H0: μA = μB)
– hmotnost samic a samců,….
• testuji, zda rozdíl párových hodnot (závislých) je
roven dané hodnotě (větš. 0) - párový t-test
(H0: μ1- μ2 = 0)
– hmotnost před a po zásahu, délka pravé a levé
nohy,….
Slide 8
Studentův t-test
• předpoklad použití:
– normalita dat
• pracuji s průměry, pokud mám dostatek dat, tak se
rozdělení blíží normálnímu (centrální limitní věta)
• pokud mám dat málo, většinou nemůžu zamítnout
že data nepochází z normálního rozdělení
• ne kategoriální či ordinální stupnice!
– shodnost variancí – ale různé modifikace
Slide 9
Příklad:
• měřím zadní stehno bruslařky a chci
porovnat, jestli se liší samci a samice
• chci zjistit, jestli se liší znalosti (= počet
bodů v testu) žáků 2 gymnázií
• měřím střevle ve dvou řekách a chci zjistit,
jestli jsou stejně velké
dvouvýběrový t-test
Slide 10
Příklad:
• měřím zadní stehno bruslařky a chci
porovnat, jestli se liší levé a pravé
• chci zjistit, jestli se liší znalosti (= počet
bodů v testu) žáků před a po prázdninách /
přednášce
• vážím lidi (myši) před a po snězení 0.1 kg
cukru – je změna 0.1 kg?
párový t-test
Slide 11
formální provedení
• chci ukázat: střevle z povodí Stropnice jsou jinak velké
než střevle z povodí Černé (musím zdůvodnit proč!)
• formuluji hypotézu: H0: Výběry naměřených délek střevlí
pochází z jednoho základního souboru (průměry se
neliší)
• alternativní hypotéza: HA: Výběry naměřených délek
střevlí z povodí Stropnice i Černé nepochází z jednoho
základního souboru (= střevle obou povodí jsou různě
velké)
• provedu testování, jak moc je pravděpodobné že oba
výběry pochází ze stejného souboru
• pokud je pravděpodobnost malá (p < 0.05), zamítnu H0 a
akceptuji HA
• pokud je p > 0.05, nemůžu zamítnout H0 (ale ani HA!)
Slide 12
Slide 13
dvouvýběrový t-test
• rovnají se rozptyly?
• shodnost rozptylů testuji F-testem (H0: s21
= s 22)
• pokud p větší než 0.05 – nemůžu
zamítnout H0 rozptyly se rovnají (asi)
• pokud p menší než 0.05 – můžu zamítnout
H0 rozptyly se nerovnají (asi)
Slide 14
Excel vyžaduje, aby data s větším rozptylem byla
zadána jako první!!!
Slide 15
hodnota t
stupně
volnosti
odpovídající p:
-jednostranného testu
-dvoustranného testu
Slide 16
test jednostranný a dvoustranný
• testuji zda A se liší od B (H0: A=B) – dvoustranný
• testuji zda A je menší / větší než B (H0: A≤B) - jednostranný
Slide 17
výsledek
• Průměrná velikost střevlí z povodí
Stropnice a Černé se signifikantně liší (t
(33) = -2.61, p = 0.013)
• dobré je i uvést výsledek F-testu: Po
nezamítnutí homogenity variancí (F(15,18)
= 1.429, p = 0.466)…..
• formálně – zamítám H0 o shodnosti
velikostí střevlí z obou povodí….
Slide 18
chyby statistických testů testu
pravděpodobnost chyby je α = hladina významnosti
rozhodnutí
realita
H0 platí
(např. A=B)
H0 neplatí
(např. A≠B)
zamítnu H0
nezamítnu H0
chyba 1. druhu
správně
správně
chyba 2. druhu
pravděpodobnost chyby je β = neznáme
Slide 19
Grafické vyjádření
• pro znázornění t-testu je vhodný krabicový
graf
Krabicový graf (Tabulka6 10v*40c)
8.8
8.6
8.4
8.2
8.0
7.8
7.6
7.4
Prom2
7.2
7.0
6.8
6.6
6.4
6.2
6.0
Černá
Stropnice
Prom1
Medián
25%-75%
Rozsah neodleh.
Odlehlé
Extrémy
Slide 20
krabicový graf
• v Excelu problém
Slide 21
krabicový graf
• v Excelu problém
• doplněk do Excelu:
http://peltiertech.com/Excel/Zips/PTS_Box_Chart
er_Setup.zip
9
8.5
8
7.5
7
6.5
6
5.5
5
Černá
Stropnice
Slide 22
• data se zadávají
odlišně
• každý sloupec je
jedna proměnná
• u t-testu je jedna
kategoriální
proměnná (zde
povodí) a jedna
kvantitativní (zde
délka)
Statistica
Slide 23
Slide 24
dvouvýběrový t-test,
data ve sloupci pod
sebou
dvouvýběrový t-test,
data ve sloupcích vedle
sebe (jako v Excelu)
párový t-test, data ve
sloupcích vedle sebe
(jako v Excelu)
jednovýběrový t-test na
střední hodnotu
Slide 25
Slide 26
výsledek testů se ukládá v
samostatném souboru
Slide 27
další výsledky, grafy apod.
statistické testy
• z náhodného výběru vyvozuji závěry
ohledně základního souboru
• často potřebuji porovnat dva výběry mezi
sebou, porovnat průměr náhodného
výběru a teoretickou střední hodnotu,
počty pozorované a očekávané atd.
Slide 2
liší se hmotnost samic a samců?
• mám hypotézu H: mf ≠ mm
– předpokládám, že se liší
• hypotézu nemůžu potvrdit (verifikovat)
→ zkusím zamítnout (falzifikovat)
nulovou hypotézu H0: mf = mm
– mají stejnou hmotnost
pokud ji zamítnu, přijmu opačnou
alternativní hypotézu HA (tu moji původní)
• průměr mf, mm se téměř určitě bude lišit.
Bude se lišit tak, abych mohl zamítnout
H0?
Slide 3
statistické testy
• z dat spočítám testovou statistiku, která má
známé teoretické rozdělení (t, F, 2, U….)
• lze určit, jakou hodnotu bude testová
statistika mít, pokud platí H0
• na základě stupňů volnosti (d.f., s.v. – z
počtu nezávislých pozorování) stanovím,
jestli odchylky jsou jen dílem náhody - p
Slide 4
statistické testy
• definuji si hladinu významnosti α –
pravděpodobnost, že zamítnu H0 ačkoli
platí – chyba prvního druhu
• většinou 5 % (= 0.05)
• pokud spočítané p je menší než α –
zamítám H0 a tím „přijímám“ HA
Slide 5
statistické testy
• jako výsledek statistického testu uvádím
– hodnotu testové statistiky (t, F, 2, U…..)
– stupně volnosti (degrees of freedom – d.f., s.v.)
– dosažená hladina významnosti (p)
• t = 3.414, d.f. = 28, p = 0.0215
• t (28) = 3.414, p = 0.0215
• t28 = 3.414, p = 0.0215
Slide 6
Studentův t-test
Slide 7
• testuji, zda můj výběr má střední hodnotu
shodnou s danou hodnotou – jednovýběrový ttest (H0: μ = k)
– dlouhodobá průměrná denní teplota v červnu je rovna
17.5 °C. Byla letos stejná?
• testuji, zda dva náhodné výběry (nezávislé)
pochází ze stejného základního souboru (mají
stejnou střední hodnotu) – dvouvýběrový t-test
(H0: μA = μB)
– hmotnost samic a samců,….
• testuji, zda rozdíl párových hodnot (závislých) je
roven dané hodnotě (větš. 0) - párový t-test
(H0: μ1- μ2 = 0)
– hmotnost před a po zásahu, délka pravé a levé
nohy,….
Slide 8
Studentův t-test
• předpoklad použití:
– normalita dat
• pracuji s průměry, pokud mám dostatek dat, tak se
rozdělení blíží normálnímu (centrální limitní věta)
• pokud mám dat málo, většinou nemůžu zamítnout
že data nepochází z normálního rozdělení
• ne kategoriální či ordinální stupnice!
– shodnost variancí – ale různé modifikace
Slide 9
Příklad:
• měřím zadní stehno bruslařky a chci
porovnat, jestli se liší samci a samice
• chci zjistit, jestli se liší znalosti (= počet
bodů v testu) žáků 2 gymnázií
• měřím střevle ve dvou řekách a chci zjistit,
jestli jsou stejně velké
dvouvýběrový t-test
Slide 10
Příklad:
• měřím zadní stehno bruslařky a chci
porovnat, jestli se liší levé a pravé
• chci zjistit, jestli se liší znalosti (= počet
bodů v testu) žáků před a po prázdninách /
přednášce
• vážím lidi (myši) před a po snězení 0.1 kg
cukru – je změna 0.1 kg?
párový t-test
Slide 11
formální provedení
• chci ukázat: střevle z povodí Stropnice jsou jinak velké
než střevle z povodí Černé (musím zdůvodnit proč!)
• formuluji hypotézu: H0: Výběry naměřených délek střevlí
pochází z jednoho základního souboru (průměry se
neliší)
• alternativní hypotéza: HA: Výběry naměřených délek
střevlí z povodí Stropnice i Černé nepochází z jednoho
základního souboru (= střevle obou povodí jsou různě
velké)
• provedu testování, jak moc je pravděpodobné že oba
výběry pochází ze stejného souboru
• pokud je pravděpodobnost malá (p < 0.05), zamítnu H0 a
akceptuji HA
• pokud je p > 0.05, nemůžu zamítnout H0 (ale ani HA!)
Slide 12
Slide 13
dvouvýběrový t-test
• rovnají se rozptyly?
• shodnost rozptylů testuji F-testem (H0: s21
= s 22)
• pokud p větší než 0.05 – nemůžu
zamítnout H0 rozptyly se rovnají (asi)
• pokud p menší než 0.05 – můžu zamítnout
H0 rozptyly se nerovnají (asi)
Slide 14
Excel vyžaduje, aby data s větším rozptylem byla
zadána jako první!!!
Slide 15
hodnota t
stupně
volnosti
odpovídající p:
-jednostranného testu
-dvoustranného testu
Slide 16
test jednostranný a dvoustranný
• testuji zda A se liší od B (H0: A=B) – dvoustranný
• testuji zda A je menší / větší než B (H0: A≤B) - jednostranný
Slide 17
výsledek
• Průměrná velikost střevlí z povodí
Stropnice a Černé se signifikantně liší (t
(33) = -2.61, p = 0.013)
• dobré je i uvést výsledek F-testu: Po
nezamítnutí homogenity variancí (F(15,18)
= 1.429, p = 0.466)…..
• formálně – zamítám H0 o shodnosti
velikostí střevlí z obou povodí….
Slide 18
chyby statistických testů testu
pravděpodobnost chyby je α = hladina významnosti
rozhodnutí
realita
H0 platí
(např. A=B)
H0 neplatí
(např. A≠B)
zamítnu H0
nezamítnu H0
chyba 1. druhu
správně
správně
chyba 2. druhu
pravděpodobnost chyby je β = neznáme
Slide 19
Grafické vyjádření
• pro znázornění t-testu je vhodný krabicový
graf
Krabicový graf (Tabulka6 10v*40c)
8.8
8.6
8.4
8.2
8.0
7.8
7.6
7.4
Prom2
7.2
7.0
6.8
6.6
6.4
6.2
6.0
Černá
Stropnice
Prom1
Medián
25%-75%
Rozsah neodleh.
Odlehlé
Extrémy
Slide 20
krabicový graf
• v Excelu problém
Slide 21
krabicový graf
• v Excelu problém
• doplněk do Excelu:
http://peltiertech.com/Excel/Zips/PTS_Box_Chart
er_Setup.zip
9
8.5
8
7.5
7
6.5
6
5.5
5
Černá
Stropnice
Slide 22
• data se zadávají
odlišně
• každý sloupec je
jedna proměnná
• u t-testu je jedna
kategoriální
proměnná (zde
povodí) a jedna
kvantitativní (zde
délka)
Statistica
Slide 23
Slide 24
dvouvýběrový t-test,
data ve sloupci pod
sebou
dvouvýběrový t-test,
data ve sloupcích vedle
sebe (jako v Excelu)
párový t-test, data ve
sloupcích vedle sebe
(jako v Excelu)
jednovýběrový t-test na
střední hodnotu
Slide 25
Slide 26
výsledek testů se ukládá v
samostatném souboru
Slide 27
další výsledky, grafy apod.