Statistika2012_8

Download Report

Transcript Statistika2012_8

STATISTIKA
Ing. Jan Popelka, Ph.D.
odborný asistent
Katedra informatiky a geoinformatiky
Univerzita Jana Evangelisty Purkyně v Ústí nad Labem
email: [email protected]
WWW: http://most.ujep.cz/~popelka
b0 n  b1  xi   yi
b0  xi  b1  xi   xi yi
2
KORELAČNÍ A REGRESNÍ ANALÝZA
KORELAČNÍ A REGRESNÍ ANALÝZA
Závislost dvou číselných proměnných.
 Korelační analýza - korelační koeficient a Spearmanův
korelační koeficient pořadí
 Základní princip regresní analýzy
 Odhady regresních koeficientů
 Alternativní modely
 Volba vhodného modelu
 Diagnostická kontrola modelu

3
ZÁVISLOST DVOU ČÍSELNÝCH PROMĚNNÝCH
Grafická analýza závislosti dvou číselných proměnných.
Proměnné vyneseme do bodového grafu, každou proměnnou na
jednu osu.
Graf napomáhá odhalení závislosti i naznačuje sílu závislosti!
Je však třeba mít určitou zkušenost při posuzování výsledků,
protože závěry mohou být dosti subjektivní.
Jedná se o velmi užitečný a přitom jednoduchý nástroj. Každá
složitější analýza závislosti dvou číselných proměnných by měla
začínat grafickou analýzou!
Nevýhodou je, že ji nelze použít, pokud je posuzován vliv více
proměnných (graf lze vytvořit maximálně trojrozměrný).
4
ZÁVISLOST DVOU ČÍSELNÝCH PROMĚNNÝCH
Pevná (funkční) závislost. Může jít o závislost lineární, kdy všechny
hodnoty leží na přímce.
Pevná (funkční) závislost
60
proměnná y
40
20
0
-30
-20
-10
-20
0
10
20
30
-40
proměnná x
5
ZÁVISLOST DVOU ČÍSELNÝCH PROMĚNNÝCH
Pevná (funkční) závislost. Může jít o závislost nelineární, kdy
všechny hodnoty leží na křivce jiné než přímka (parabola).
Pevná (funkční) závislost
proměnná y
1400
1200
1000
800
600
400
200
0
-30
-20
-10
0
proměnná x
10
20
30
6
ZÁVISLOST DVOU ČÍSELNÝCH PROMĚNNÝCH
Volná (stochastická) závislost. Hodnoty neleží přímo na přímce, ale je
patrný jejich průběh kolem pomyslné přímky.
Čím blíže jsou body pomyslné přímce, tím je závislost těsnější.
Volná (stochastická) závislost
40
proměnná y
30
20
10
0
-30
-20
-10
-10 0
10
20
30
-20
-30
proměnná x
7
ZÁVISLOST DVOU ČÍSELNÝCH PROMĚNNÝCH
Volná (stochastická) závislost. Hodnoty neleží na přímce, ale je patrný
jejich průběh kolem pomyslné přímky.
V porovnání s předchozím grafem jde o slabší závislost, hodnoty jsou více
rozptýlené
Volná (stochastická) závislost
60
50
proměnná y
40
30
20
10
0
-30
-20
-10
-10 0
-20
proměnná x
10
20
30
8
ZÁVISLOST DVOU ČÍSELNÝCH PROMĚNNÝCH
Volná (stochastická) závislost. Hodnoty se pohybují v okolí pomyslné
paraboly.
Volná (stochastická) závislost
600
proměnná y
500
400
300
200
100
0
-30
-20
-10
0
proměnná x
10
20
30
9
ZÁVISLOST DVOU ČÍSELNÝCH PROMĚNNÝCH
Nezávislost. Pomyslná křivka je rovnoběžná s osou x nebo vůbec nelze
nalézt pomyslnou křivku procházející množinou bodů.
Nezávislost se projevuje také hodnotami v kulovém mračnu.
Nezávislost
1,2
proměnná y
1
0,8
0,6
0,4
0,2
0
-30
-20
-10
0
proměnná x
10
20
30
10
KORELAČNÍ ANALÝZA
Korelační koeficienty
Stejně jako u analýzy závislosti dvou slovních nebo jedné slovní a
jedné číselné proměnné, lze také zde použít určité koeficienty
pro výpočet síly závislosti.
11
KORELAČNÍ ANALÝZA
Korelační koeficient – nabývá hodnoty <-1;1>
Čím blíže je hodnotě +1, tím je závislost silnější, obě hodnoty
společně rostou.
Čím blíže je hodnotě -1, tím je závislost silnější, rostou-li hodnoty
jedné proměnné, hodnoty druhé proměnné klesají.
Je-li hodnota blízká nule, nejsou proměnné závislé.
xy  x  y
ryx 
sx  s y
MS Excel: = CORREL (první soubor dat;druhý soubor dat)
Nástroje – Analýza – Analýza dat – Korelace
12
KORELAČNÍ ANALÝZA
Korelační koeficient
Měří vzájemnou závislost dvou proměnných. Nerozlišuje tedy mezi
příčinnou a důsledkem. Jde o ukazatel oboustranné závislosti:
ryx = rxy .
13
KORELAČNÍ ANALÝZA
Test lineární závislosti dvou číselných proměnných
H0: mezi proměnnými není lineární závislost
HA: mezi proměnnými je lineární závislost
Testovací statistika:
t
rxy n  2
1  rxy2
Kritický obor: W={t: |t| > t1-α/2(n-2)}.
Online kalkulátor:
 http://vassarstats.net/rsig.html
14
KORELAČNÍ ANALÝZA
Korelační koeficient
ryx = +0,85
Volná (stochastická) závislost
Pevná (funkční) závislost
30
40
20
proměnná y
proměnná y
40
60
20
0
-30
-20
-10
-20
0
10
20
10
0
-30
-20
-10
-10 0
30
10
20
30
-20
-30
-40
proměnná x
Volná (stochastická)
závislost
proměnná x
ryx = +1
60
50
proměnná y
40
30
20
10
0
-30
ryx = -0,62
-20
-10
-10 0
-20
proměnná x
10
20
30
15
KORELAČNÍ ANALÝZA
Spearmanův korelační koeficient pořadí
Je obdobou korelačního koeficientu (nabývá hodnot -1 ≤ rs ≤ +1).
Počítá se z pořadí jednotlivých měření obou proměnných, takže:
 Nepopisuje jen lineární závislost, ale jakékoliv monotónní vztahy
(obecný růst nebo obecný pokles),
 je odolný vůči vlivu odlehlých hodnot.
16
KORELAČNÍ ANALÝZA
Spearmanův korelační koeficient pořadí
rs  1 
6 Di2
n(n 2  1)
Každé hodnotě se přiřadí pořadí Rx a Ry vzhledem k ostatním hodnotám.
Pokud jsou hodnoty ve sloupci stejné, vypočet se pořadí jako průměr.
Di je pak rozdíl pořadí pro každou dvojici hodnot Di = Rx - Ry.
Online kalkulátory:
 http://www.vassarstats.net/corr_rank.html (včetně testu závislosti)
 http://www.maccery.com/maths/
17
KORELAČNÍ ANALÝZA
Test závislosti dvou číselných proměnných pomocí
Spearmanova korelačního koeficientu pořadí
H0: mezi proměnnými není monotónní závislost
HA: mezi proměnnými je monotónní závislost
Testovací statistika: samotný koeficient rs
Kritický obor: W={rs; rs > r(n;α)}
rs statistika nemá standardní rozdělení, proto je nutno hledat
v tabulce (http://most.ujep.cz/~popelka/tabulky.xls)
Online kalkulátor:
 http://www.vassarstats.net/corr_rank.html
18
KORELAČNÍ ANALÝZA
Příklad: Byly sledovány hmotnost a IQ dětí, výsledky jsou v tabulce. Je
možné, že by tyto dva číselné ukazatele byly závislé?
hmotnost (kg)
IQ
25
31
34
38
42
55
105
115
115
116
125
128
19
KORELAČNÍ ANALÝZA
Příklad: Byly sledovány hmotnost a IQ dětí ...
Bodový graf a hodnota korelačního koeficientu ryx = 0,9346
Analýza ukázala, že se jedná o velmi silnou závislost!!!
S rostoucí hmotností roste IQ.
20
KORELAČNÍ ANALÝZA
Příklad: Byla sledována hmotnost a IQ dětí ...
Tvrzení je samozřejmě nesmyslné!!
Jedná se o tzv. zdánlivou korelaci. Existuje totiž další proměnná
(věk dítěte), se kterou jsou obě proměnné vysoce korelovány.
Korelace mezi hmotností a IQ je způsobena vlivem věku.
hmotnost (kg)
IQ
věk (roky)
25
31
34
38
42
55
105 115
115
116
125
128
11
13
13
14
8
10
S rostoucím věkem roste jak hmotnost, tak i IQ. Nelze ale tvrdit, že s
rostoucí hmotností roste IQ nebo obráceně.
21
KORELAČNÍ ANALÝZA
Příklad: Byla sledována hmotnost a IQ dětí ...
Korelační matice – vyjadřuje korelaci všech dvojic proměnných.
hmotnost
hmotnost
IQ
věk
1
IQ
0,934683
1
věk
0,909683
0,90569
1
Hmotnost a věk jsou silně kladně korelovány 0,909.
IQ a věk jsou silně kladně korelovány 0,905.
MS Excel: Data – Analýza – Analýza dat – Korelace
22
KORELAČNÍ ANALÝZA
Příklad: Český hydrometeorologický ústav v Praze měřil na stanicích
s různou nadmořskou výškou průměrnou roční teplotu půdy. Údaje
jsou uvedeny v následující tabulce.
Existuje mezi oběma proměnnými nějaká závislost?
Nadmořská výška
(m n. m.)
158
183
203
225
235
272
400
455
595
Průměrná teplota
půdy (0C)
10,4
10,5
9,3
9,2
9,9
8,7
8
8,3
8,1
23
KORELAČNÍ ANALÝZA
Příklad: Český hydrometeorologický ústav v Praze měřil ...
Elementární metody popisu závislosti:
korelační koeficient ryx = -0,835
Vzhledem k malému počtu hodnot provedu test lineární závislosti.
H0: mezi proměnnými není lineární závislost
HA: mezi proměnnými je lineární závislost
P-hodnota vypočtená online kalkulátorem
(http://vassarstats.net/rsig.html): p-hodnota = 0,0025.
Zamítáme Ho. Platí Ha mezi proměnnými je lineární závislost.
24
KORELAČNÍ ANALÝZA
Příklad: Český hydrometeorologický ústav v Praze měřil ...
Elementární metody popisu závislosti:
Spearmanův korelační koeficient pořadí rs = -0,8833
Ze všech výše uvedených nástrojů vyplývá závěr:
Jedná se o silnou závislost, ne však deterministickou (kromě výšky
působí na teplotu i jiné faktory).
S rostoucí výškou průměrná teplota půdy klesá.
25
KORELAČNÍ ANALÝZA
Příklad: Český hydrometeorologický ústav v Praze měřil ...
Elementární metody popisu závislosti:
bodový graf
26
REGRESNÍ ANALÝZA
Co je to regresní analýza?
Souhrn statistických metod a postupů a
 slouží k detailnímu pochopení závislosti mezi dvěma nebo více
číselnými proměnnými,
 slouží k odhadu hodnot vysvětlované proměnné pro známé
hodnoty vysvětlující proměnné.
Aplikace regresní analýzy:
 analýza závislosti dvou číselných proměnných,
 analýza závislosti více číselných proměnných,
 analýza vývoje ukazatele v čase (závislost ukazatele na
proměnné čas).
27
REGRESNÍ ANALÝZA
Jednoduchá regresní analýza
Popisuje závislost dvou číselných proměnných
z nichž jedna je nezávislá (vysvětlující proměnná) a jedna je
závislá (vysvětlovaná proměnná).
Příklad: závislost koncentrace ozónu na intenzitě slunečního
záření.
Příklad: závislost koncentrace prachových částic v ovzduší na
atmosférickém tlaku.
Příklad: závislost výšky sněhové pokrývky na nadmořské výšce.
28
REGRESNÍ ANALÝZA
Vícenásobná regresní analýza
Popisuje závislost více číselných proměnných
z nichž více je nezávislých (vysvětlující proměnné) a jen jedna je
závislá (vysvětlovaná proměnná).
Příklad: závislost koncentrace ozónu na intenzitě slunečního
záření, délce slunečního záření, intenzitě automobilové dopravy,
tlaku.
Příklad: závislost koncentrace prachových částic v ovzduší na
atmosférickém tlaku, teplotě, vlhkosti, rychlosti větru.
Příklad: závislost výšky sněhové pokrývky na nadmořské výšce,
délce slunečního záření, typu vegetace, sklonu svahu, směru
svahu.
29
REGRESNÍ ANALÝZA
Regresní model
Zjednodušené zobrazení reality.
Závislost popisuje pomocí rovnice (v grafu křivka).
y=η+ε
Např. pomocí přímky: y = β0 + β1x + ε
(lineární závislost)
Deterministická složka
(popisuje vliv vysvětlující
proměnné)
Náhodná složka
(všechny ostatní,
nepopsané vlivy)
30
REGRESNÍ ANALÝZA
Deterministická složka η
Popisuje závislost mezi hlavními (pozorovanými) proměnnými.
Je vyjádřena konkrétní matematickou funkcí (přímka, hyperbola,
parabola atd.)
Náhodná složka ε
Popisuje závislost vysvětlované proměnná na neznámých nebo
nepozorovaných proměnných a popisuje i vliv náhody.
Vyjadřuje se pravděpodobnostní funkcí (normální rozdělení).
31
REGRESNÍ ANALÝZA
Která regresní přímka je vlastně správná?
Pokud jsou pouze dva body, je to jejich spojnice. To ovšem není úloha
pro statistiku.
32
REGRESNÍ ANALÝZA
Která regresní přímka je vlastně správná?
Pokud je více bodů, je to již problém.
Spojuje přímka jiné
dva body?
Spojuje přímka krajní
body?
33
REGRESNÍ ANALÝZA
Která regresní přímka je vlastně správná?
Pokud je více bodů, je to již problém.
Prochází přímka mezi
body?
Spojuje přímka jiné
dva body?
34
REGRESNÍ ANALÝZA
Příklad: Český hydrometeorologický ústav v Praze měřil ...
Pokud body proložíme přímkou, hovoříme o tzv. regresní přímce.
Pokud by všechny
body ležely na
přímce, šlo by o
model pouze s
deterministickou
složkou η.
Body však leží i
mimo – v modelu je
deterministická
složka η i náhodná
složka ε.
35
REGRESNÍ ANALÝZA
Příklad: Český hydrometeorologický ústav v Praze měřil ...
Která regresní přímka je ta správná??
Lze vložit přímku
jen tak od oka
(zelená).
Lze protnout
krajní body
(červená).
Lze použít
nástroje regresní
analýzy a nalézt
přímku, která
prochází nejblíže
všem bodům 36
(černá).
REGRESNÍ ANALÝZA
Příklad: Český hydrometeorologický ústav v Praze měřil ...
Přímka procházející nejblíže všem bodům je vždy jen jedna!
K jejímu nalezení slouží metoda nejmenších čtverců (MNČ).
e1
e3
e2
e5
e4
e6
e7
e8
e9
Vybere ze všech
možných přímek
takovou, pro
kterou je součet
druhých mocnin
(čtverců)
odchylek bodů od
přímky (ei2)
minimální.
37
REGRESNÍ ANALÝZA
Příklad: Český hydrometeorologický ústav v Praze měřil ...
Přímka označená jako 1 je blíže k bodům, součet čtverců odchylek je
menší než u přímky označené jako 2. Přímka 1 je vhodnější.
přímka 2
přímka 1
38
REGRESNÍ ANALÝZA
Metoda nejmenších čtverců
Nástroj k určení bodových odhadů koeficientů výběrové regresní
přímky: ŷ = b0 + b1x
Výběrová je proto, že je založena pouze na výběrových datech.
Koeficienty b0 , b1 jsou výběrové (empirické) regresní koeficienty.
Oproti tomu regresní přímka: η = β0 + β1x ,
je založena na datech základního souboru (ta většinou nejsou k
dispozici), proto je tento model konstruován na základě odhadu.
39
REGRESNÍ ANALÝZA
Metoda nejmenších čtverců
Je založena na řešení soustavy normálních rovnic
(pro regresní přímku s neznámými b0 a b1):
b0 n  b1  xi   yi
b0  xi  b1  xi2   xi yi
jejichž řešením je:
b0
y  x  x y  x


,b
n x    x 
i
i
2
i
i
i
i
2
i
1

n xi yi  yi  xi
n x    xi 
2
i
2
40
REGRESNÍ ANALÝZA
Příklad: Český hydrometeorologický ústav v Praze měřil ...
Pomocí metody nejmenších čtverců byla odhadnuta regresní přímka ve
tvaru ŷ = 10,795 – 0,00541 · x
, nebo také:
průměrná teplota půdy = 10,795 - 0,00541·nadmořská výška.
41
Pozn. V grafu z MS Excel je rovnice zapsána jako výstup volby „Přidat spojnici trendu“ – typ: Lineární.
REGRESNÍ ANALÝZA
Příklad: Český hydrometeorologický ústav v Praze měřil ...
Pomocí metody nejmenších čtverců byla odhadnuta regresní přímka
ve tvaru ŷ = 10,795 – 0,00541 · x.
Koeficient
b0 = 10,795 je
průsečík přímky s
osou Y.
V nadmořské
výšce 0 metrů
n.m. by podle
modelu byla
průměrná teplota
půdy 10,795 0C.
42
REGRESNÍ ANALÝZA
Příklad: Český hydrometeorologický ústav v Praze měřil ...
Pomocí metody nejmenších čtverců byla odhadnuta regresní přímka
ve tvaru ŷ = 10,795 – 0,00541 · x.
Koeficient
b1 = 0,00541 je
směrnicí přímky a
udává její sklon. Je
záporný - přímka
klesá.
S každým dalším
metrem nadmořské
výšky klesá
průměrná teplota
půdy
v průměru
o 0,005410C. 43
REGRESNÍ ANALÝZA
Příklad: Český hydrometeorologický ústav v Praze měřil ...
MS Excel: Data – Analýza – Analýza Dat – Regrese
Do políčka „Vstupní
oblast Y“ zadáváme
závislou
proměnnou.
Data byla vložena
včetně popisků
proto zaškrtneme
„Popisky“.
Do políčka „Vstupní
oblast X“ zadáváme
nezávislou
proměnnou.
44
REGRESNÍ ANALÝZA
Příklad: Český hydrometeorologický ústav v Praze měřil ...
MS EXCEL:
Data – Analýza – Analýza Dat – Regrese
Koeficienty
Chyba stř.
hodnoty
t stat
Hodnota P
Dolní
95%
Horní 95%
Hranice
10,79504
0,446866
24,15722
5,3E-08
9,738368
11,85171
Nadm. výška
-0,00541
0,00134
-4,03872
0,004941
-0,00858
-0,00224
Regresní přímka ve tvaru: ŷ = 10,795 – 0,00541 · x.
45
REGRESNÍ ANALÝZA
Pro různý počet pozorování se mohou odhadnuté regresní koeficienty
b0 a b1 lišit.
Vedle bodových odhadů regresních koeficientů lze provádět i jejich
intervalové odhady.
V praxi mají význam především oboustranné intervaly spolehlivosti:
bi - t1-α/2(n-p) · s(bi) < βi < bi + t1-α/2(n-p) · s(bi) ,
bi
t1-α/2(n-p)
p
s(bi)
… bodový odhad regresního koeficientu,
… je kvantil Studentova t rozdělení,
… je počet koeficientů modelu,
… je směrodatná chyba odhadu koeficientu bi.
46
REGRESNÍ ANALÝZA
Příklad: Český hydrometeorologický ústav v Praze měřil ...
95% interval spolehlivosti pro koeficient b0.
Koeficienty
Hranice
Nadm. výška
Chyba stř.
hodnoty
t stat
Hodnota P
Dolní 95%
Horní 95%
10,79504
0,446866
24,15722
5,3E-08
9,738368
11,85171
-0,00541
0,00134
-4,03872
0,004941
-0,00858
-0,00224
bi - t1-α/2(n-p) · s(bi) < βi < bi + t1-α/2(n-p) · s(bi)
Interval spolehlivosti lze počítat ručně podle vzorce, nebo jej přímo
přečíst z výstupu počítače.
47
REGRESNÍ ANALÝZA
Příklad: Český hydrometeorologický ústav v Praze měřil ...
95% interval spolehlivosti pro oba koeficienty.
Koeficienty
Chyba stř.
hodnoty
t stat
Hodnota P
Dolní 95%
Horní 95%
Hranice
10,79504
0,446866
24,15722
5,3E-08
9,738368
11,85171
Nadm. výška
-0,00541
0,00134
-4,03872
0,004941
-0,00858
-0,00224
V nadmořské výšce 0 metrů n.m. má s pravděpodobností 95 %
průměrná teplota půdy hodnotu v rozmezí 9,74 0C až 11,85 0C.
S každým dalším metrem nadmořské výšky klesá
s pravděpodobností 95 % průměrná teplota půdy o hodnotu
v rozmezí od 0,00858 0C do 0,00224 0C.
48
REGRESNÍ ANALÝZA
ALTERNATIVNÍ MODELY
Vedle regresní přímky existuje i řada dalších funkcí, jejichž
koeficienty lze pomocí metody nejmenších čtverců odhadnout,
Nejznámější jsou:




parabola,
hyperbola,
logaritmická funkce,
polynom.
49
REGRESNÍ ANALÝZA
ALTERNATIVNÍ MODELY
Regresní parabola
η = β0 + β1x + β2x2
Funkční závislost
Stochastická závislost
50
REGRESNÍ ANALÝZA
ALTERNATIVNÍ MODELY
Regresní hyperbola
η = β0 + β1 (1/x)
Funkční závislost
Stochastická závislost
51
REGRESNÍ ANALÝZA
ALTERNATIVNÍ MODELY
Logaritmická funkce
η = β0 + β1·ln(x)
Funkční závislost
Stochastická závislost
52
REGRESNÍ ANALÝZA
ALTERNATIVNÍ MODELY
Exponenciální funkce
η = β0 eβ x
1
Funkční závislost
Stochastická závislost
53
REGRESNÍ ANALÝZA
ALTERNATIVNÍ MODELY
Polynom stupně n
η = β0 + β1x + β2x2+ +β3x3 +
+ ... + βnxn
Pozn.: Na obrázku je polynom
pátého stupně.
Funkční závislost
Stochastická závislost
54
REGRESNÍ ANALÝZA
VOLBA VHODNÉHO MODELU
Při volbě nejlepšího modelu lze použít dva postupy:
1.
Apriorní volba – model je zvolen na základě praktické nebo
teoretické znalosti typu závislosti.
2.
Empirická volba – nejvhodnější model se volí posouzením
bodového grafu nebo pomocí nástrojů regresní analýzy.
Pokud není počet pozorování příliš velký, nemusí tento postup
vést k nalezení vhodné funkce pro popis závislosti v
základním souboru a popisuje pouze závislost
v souboru výběrovém.
55
REGRESNÍ ANALÝZA
VOLBA VHODNÉHO MODELU
Příklad: Český hydrometeorologický ústav v Praze měřil ...
Empirická volba
Volba na základě grafu nemusí být vždy jednoznačná a je subjektivní.
Jde o přímku
(černá)
nebo
logaritmickou
funkci
(oranžová)
nebo snad
hyperbolu
(červená)?
56
REGRESNÍ ANALÝZA
VOLBA VHODNÉHO MODELU
Empirická volba
Statistický software včetně MS Excel nabízí tzv.
determinační index I2
(anglicky se značí R2).
Vystihuje, jak těsně datové body přiléhají ke křivce.
Nabývá hodnot <0; 1>. Čím více se blíží jedné, tím těsněji datové
body ke křivce přiléhají. Navíc určuje, jaké procento změn
vysvětlované proměnné je vysvětleno odhadnutým modelem.
Čím vyšší je jeho hodnota, tím je model vhodnější.
57
REGRESNÍ ANALÝZA
VOLBA VHODNÉHO MODELU
Příklad: Český hydrometeorologický ústav v Praze měřil ...
MS EXCEL: Data – Analýza – Analýza Dat – Regrese
Regresní statistika
Násobné R
0,83649
Hodnota spolehlivosti R
0,699716
Nastavená hodnota spolehlivosti R
0,656818
Chyba stř. hodnoty
0,560452
Pozorování
9
Hodnota determinačního indexu I2 je 0,699716.
69,97 % změn průměrné teploty půdy je vysvětleno změnami
nadmořské výšky.
Zbylých 30,03 % je způsobeno jinými vlivy (les x louka, orientace svahu 58
atd.).
REGRESNÍ ANALÝZA
VOLBA VHODNÉHO MODELU
Příklad: Český hydrometeorologický ústav v Praze měřil ...
Porovnání alternativních modelů pomocí determinačního indexu I2.
Model
I2
Hyperbola
85,39%
Logaritmický
80,01%
Přímka
69,97%
V porovnání s ostatními modely je regresní přímka nejméně vhodná.
Nejlepší se jeví hyperbola.
Pomocí hyperboly je vysvětleno 85 % změn průměrné teploty půdy
prostřednictvím změn nadmořské výšky.
59
REGRESNÍ ANALÝZA
VOLBA VHODNÉHO MODELU
Empirická volba
Při srovnávání modelů s nestejným počtem koeficientů (např.
zahrnutí polynomů) je nutno používat
upravený determinační index I2upr.
(anglicky se značí R2adj).
Penalizuje složitější modely s více koeficienty, což samotný I2
nedokáže.
Nabývá hodnot <0; 1>. Čím více se blíží jedné, tím těsněji datové
body ke křivce přiléhají.
Čím vyšší je jeho hodnota, tím je model vhodnější.
60
REGRESNÍ ANALÝZA
VOLBA VHODNÉHO MODELU
Empirická volba - upravený determinační index I2upr.
Vztah mezi determinačním indexem I2 a upraveným det. indexem I2upr.
I2upr. = I2 - (1 - I2)∙(p - 1)/(n - p - 2)
n je počet pozorování a p je počet parametrů regresního modelu.
61
REGRESNÍ ANALÝZA
VOLBA VHODNÉHO MODELU
Příklad: Český hydrometeorologický ústav v Praze měřil ...
MS EXCEL: Data – Analýza – Analýza Dat – Regrese
Regresní statistika
Násobné R
0,83649
Hodnota spolehlivosti R
0,699716
Nastavená hodnota spolehlivosti R
0,656818
Chyba stř. hodnoty
0,560452
Pozorování
9
Hodnota upraveného determinačního indexu I2upr. je 0,656818.
Jeho hodnota bývá nižší než hodnota I2.
62
REGRESNÍ ANALÝZA
VOLBA VHODNÉHO MODELU
Příklad: Český hydrometeorologický ústav v Praze měřil ...
Porovnání alternativních modelů pomocí upraveného determinačního
indexu I2upr. .
Model
I2upr.
Hyperbola
83,30%
Parabola (3 koeficienty)
81,55%
Logaritmická fce.
77,15%
Přímka
65,68%
V porovnání s ostatními modely je regresní přímka nejméně vhodná.
Nejlepší se jeví hyperbola.
63
REGRESNÍ ANALÝZA
VOLBA VHODNÉHO MODELU
Příklad: Český hydrometeorologický ústav v Praze měřil ...
Odhad koeficientů hyperboly v MS EXCEL: Data – Analýza – Analýza
Dat – Regrese
Pozn.: v programu sleduje se závislost teploty na proměnné 1/nadm. výška
Koeficienty
Chyba stř.
hodnoty
Hodnota P
Dolní
95%
t stat
Horní 95%
Hranice
6,931651693
0,37130046
18,668578
3,141E-07
6,053665
7,8096377
1/nadm. výška
564,2132944
88,2086726
6,3963471
0,0003685
355,6329
772,79366
Regresní hyperbola má tvar ŷ = 6,931 + 564,21/x.
Interpretace odhadnutých koeficientů již není tak jednoduchá jako
v případě regresní přímky.
64
REGRESNÍ ANALÝZA
VOLBA VHODNÉHO MODELU
Princip jednoduchosti
Protože zvolený model je zjednodušením reality, je vhodné volit
model co nejjednodušší.
Pokud není významný rozdíl mezi determinačními indexy I2 resp.
upravenými determinačními indexy I2upr. jednotlivých
modelů (± 2%), je vhodné zvolit model jednodušší (menší
počet koeficientů, méně složitý matematický zápis funkce).
y = b0 + b1x +b2x2 + b3x3 vs.
I2upr.= 87,52%
vs.
Y = b0 + b1x
I2upr.= 85,65%
65
REGRESNÍ ANALÝZA
VOLBA VHODNÉHO MODELU
Volba na základě znalosti studované problematiky
Některé modely mají svá omezení, která způsobí, že danou
závislost nepopíší správně.
Příklad: Český hydrometeorologický ústav v Praze ...
Hyperbola nikdy nedosáhne záporných hodnot, takže nikdy
nemůže vyjít průměrná teplota půdy pod 0 0C, podobně to
platí pro logaritmickou funkci (záporných hodnot dosáhne až
pro hodnoty na 20 000 m n.m.). Z tohoto pohledu jsou obě
funkce nevhodné.
Parabola dosáhne minima a pak začne opět stoupat, ve vysokých
nadmořských výškách by průměrná teplota půdy paradoxně
rostla. Také parabola je nevhodná.
Přímku tedy nadále budeme uvažovat jako nejhodnější model.
66
REGRESNÍ ANALÝZA
VOLBA VHODNÉHO MODELU
Nikdy nezapomínejte na bodový graf!!
Ve všech čtyřech
zobrazených
případech metoda
nejmenších
čtverců shodně
odhadne regresní
přímku
ve tvaru
ŷ = 3 + 0,5x
s determinačním
indexem
I2 = 0,667.
67
REGRESNÍ ANALÝZA
VOLBA VHODNÉHO MODELU
Volba modelu na základě testu
Test pro zjištění, zda je složitější model (více koeficientů) vhodnější
než jednodušší
H0: složitější model nepřináší zlepšení
HA: složitější model přináší zlepšení
Testovací statistika:
S R (1)  S R (2)
p2  p1
F
S R (2)
n  p2
H0 zamítáme, pokud platí: F > F1- (p2 - p1; n - p2).
SR(1) je reziduální součet čtverců jednoduššího modelu, SR(2)
reziduální součet čtverců složitějšího modelu, n je počet
pozorování, p1 počet koeficientů jednoduššího modelu a p2 počet
koeficientů složitějšího modelu.
68
REGRESNÍ ANALÝZA
VOLBA VHODNÉHO MODELU
Příklad: Český hydrometeorologický ústav v Praze měřil ...
Porovnáme dva modely: přímku a polynom 4. stupně pomocí testu.
69
REGRESNÍ ANALÝZA
VOLBA VHODNÉHO MODELU
Příklad: Český hydrometeorologický ústav v Praze měřil ...
Porovnáme dva modely: přímku a polynom 4. stupně pomocí testu.
H0: složitější model nepřináší zlepšení
HA: složitější model přináší zlepšení
ANOVA - Přímka
SR(1) = 2,199 (přímka)
SR(2) = 0,840 (pol.)
p1 = 2
p2 = 4
Rozdíl
SS
MS
F
16,3112
Regrese
1
5,123473
5,12347
Rezidua
7
2,198748
0,31410
Celkem
8
7,322222
Významnost F
0,004941
ANOVA – Polynom 4. stupně
Rozdíl
SS
MS
F
7,71953
Regrese
4
6,482473
1,62061
Rezidua
4
0,83975
0,20993
Celkem
8
7,322222
Významnost F
0,0364412
70
REGRESNÍ ANALÝZA
VOLBA VHODNÉHO MODELU
Příklad: Český hydrometeorologický ústav v Praze měřil ...
Testovací statistika:
S R (1)  S R (2) 2,199  0,840
p2  p1
52
F

 2,157
S R (2)
0,840
95
n  p2
H0 zamítáme, pokud platí: F > F1- (p2 - p1; n - p2),
kde F0,95(3;4) = 6,591.
Protože testovací statistika nepadne do kritického oboru: F < 6,591,
nezamítáme Ho, složitější model nepřináší zlepšení.
71
REGRESNÍ ANALÝZA
DIAGNOSTICKÁ KONTROLA MODELU
Diagnostika modelu
Nástroj sloužící k odvození obecného regresního modelu (model
popisující závislost zkoumaných ukazatelů) z empirického
regresního modelu (model popisující závislost vybraných
hodnot zkoumaných ukazatelů).
Je třeba zjistit, zda lze obecný model skutečně pro daná data
vytvořit a jaké jsou jeho regresní koeficienty.
K tomu slouží dva testy:
1.
F-test o regresním modelu- zabývá se statistickou
významností celého modelu, tedy vytvořitelností obecného
regresního modelu.
2.
t-testy o regresních koeficientech - zabývají se se
statistickou významností jednotlivých regresních koeficientů,
tedy jejich hodnotou v obecném regresním modelu.
72
REGRESNÍ ANALÝZA
DIAGNOSTICKÁ KONTROLA MODELU
F-test o regresním modelu
H0: zvolený model není statisticky významný, obecný model nelze vytvořit
matematicky: β0 = c; β1 = 0
HA: zvolený model je statisticky významný, obecný model lze vytvořit
matematicky : β0 = c; β1 ≠ 0
Testovací statistika:
ST /( p  1)
F
S R /(n  p )
ST je teoretická suma čtverců,
SR je reziduální suma čtverců.
Kritický obor: W = {F; F1-α(p-1;n-p}
73
REGRESNÍ ANALÝZA
DIAGNOSTICKÁ KONTROLA MODELU
Příklad: Český hydrometeorologický ústav v Praze měřil ...
F-test o regresním modelu v MS EXCEL: Nástroje – Analýza Dat –
Regrese
ANOVA - Přímka
Rozdíl
SS
MS
Regrese
1
5,12347361
5,12347
Rezidua
7
2,19874860
0,31410
Celkem
8
7,32222222
F
16,3112
Významnost F
0,004941
Test vyhodnotíme pomocí p-hodnoty.
P-hodnota = 0,004941 < α = 0,05, takže model je statisticky významný
a lze jej pro daná data použít.
74
REGRESNÍ ANALÝZA
DIAGNOSTICKÁ KONTROLA MODELU
F-test o regresním modelu
Pro model s více koeficienty mají hypotézy tvar:
H0: zvolený model není statisticky významný, obecný model nelze
vytvořit
matematicky: β0 = c; β1 = 0; β2 = 0; … ; βn = 0
HA: zvolený model je statisticky významný, obecný model lze vytvořit
matematicky: β0 = c; alespoň jeden z koeficientů se nule nerovná
Příklad: Regresní parabola η = β0 + β1x + β2x2
H0: β0 = c; β1 = 0; β2 = 0
HA: β0 = c; alespoň jeden z koeficientů se nule nerovná
75
REGRESNÍ ANALÝZA
DIAGNOSTICKÁ KONTROLA MODELU
T-testy o regresních koeficientech se provádějí pro každý
koeficient zvlášť.
H0: koeficient není statisticky významný, v obecném modelu se
rovná nula; βi = 0
HA: koeficient je statisticky významný, v obecném modelu se
nerovná 0; βi ≠ 0
Testovací statistika:
bi
t
s (bi )
bi je bodový odhad koeficientu,
s(bi) je směrodatná chyba odhadu regresního koeficientu.
Kritický obor: W = {|t|; t1-α/2(n-p)}
76
REGRESNÍ ANALÝZA
DIAGNOSTICKÁ KONTROLA MODELU
Příklad: Český hydrometeorologický ústav v Praze měřil ...
t-test o regresním koeficientu β0 v MS EXCEL: Nástroje – Analýza Dat –
Regrese
H0: β0 = 0 vs. HA: β0 ≠ 0
Koeficienty
Chyba stř.
hodnoty
t stat
Hodnota P
Dolní
95%
Horní 95%
Hranice
10,79504
0,446866
24,15722
5,3E-08
9,738368
11,85171
Nadm. výška
-0,00541
0,00134
-4,03872
0,004941
-0,00858
-0,00224
P-hodnota = 0,000000053 < α = 0,05, takže koeficient β0 je statisticky
významný.
V obecném modelu bude zapsán hodnotou bodového odhadu 10,79504.
77
REGRESNÍ ANALÝZA
DIAGNOSTICKÁ KONTROLA MODELU
Příklad: Český hydrometeorologický ústav v Praze měřil ...
t-test o regresním koeficientu β1 v MS EXCEL: Nástroje – Analýza Dat –
Regrese
H0: β1 = 0 vs. HA: β1 ≠ 0
Koeficienty
Chyba stř.
hodnoty
t stat
Hodnota P
Dolní
95%
Horní 95%
Hranice
10,79504
0,446866
24,15722
5,3E-08
9,738368
11,85171
Nadm. výška
-0,00541
0,00134
-4,03872
0,004941
-0,00858
-0,00224
P-hodnota = 0,004941 < α = 0,05, takže i koeficient β1 je statisticky
významný.
V obecném modelu bude zapsán hodnotou bodového odhadu -0,00541.
78
REGRESNÍ ANALÝZA
DIAGNOSTICKÁ KONTROLA MODELU
Příklad: Český hydrometeorologický ústav v Praze měřil ...
t-testy o regresních koeficientech β0 a β1 v MS EXCEL: Nástroje –
Analýza Dat – Regrese
Koeficienty
Chyba stř.
hodnoty
t stat
Hodnota P
Dolní 95%
Horní 95%
Hranice
10,79504
0,446866
24,15722
5,3E-08
9,73836
11,85171
Nadm. výška
-0,00541
0,00134
-4,03872
0,004941
-0,00858
-0,00224
Vyhodnocení statistické významnosti koeficientů je možné i podle
intervalů spolehlivosti. Padne-li do odpovídajícího intervalu 0, pak je
koeficient statisticky nevýznamný.
Oba koeficienty jsou statisticky významné, protože ani v jenom
z 95 % intervalů spolehlivosti se 0 nenachází.
79
REGRESNÍ ANALÝZA
DIAGNOSTICKÁ KONTROLA MODELU
Příklad: Český hydrometeorologický ústav v Praze měřil ...
Diagnostickou kontrolou modelu bylo zjištěno, že obecný regresní
model lze odvodit (F-test o regresním modelu).
Diagnostickou kontrolou modelu bylo zjištěno, že regresní
koeficienty jsou významné, a tedy je do regresního modelu zapíšeme
jejich bodovými odhady (t-testy o regresních koeficientech).
Obecný model má konečný tvar:
η = 10,795 – 0,00541 neboli
průměrná teplota půdy = 10,795 - 0,00541·nadmořská výška.
Pozn. Pokud v t-testu o regresním koeficientu platí Ho, pak se do obecného
modelu zapíše hodnota koeficientu 0!
80
REGRESNÍ ANALÝZA
DIAGNOSTICKÁ KONTROLA MODELU
t-testy je nutno provést pro všechny regresní koeficienty.
V mnoha případech vychází koeficient β0 statisticky nevýznamný
(β0 = 0).
U regresní přímky je to logické!
Příklad: Sleduji–li závislost počtu vypitých piv na váze pijáka, tak je
jasné, že piják s hmotností 0 kg vypije 0 piv.
Příklad: Sleduji-li závislost počtu dětí ve školkách na počtu školek ve
městě, tak je jasné, že město, které nemá ani jednu školku,
nebude mít žádné dítě ve vlastní školce.
V takovém případě lze zlepšit odhad modelu nastavením nulového
koeficientu β0: Nástroje – Analýza – Analýza Dat – Regrese
zaškrtnout políčko „konstanta je nula“).
81
REGRESNÍ ANALÝZA
DIAGNOSTICKÁ KONTROLA MODELU
t-testy je nutno provést pro všechny regresní koeficienty.
Pokud vyjde u regresní přímky koeficient β1 statisticky
nevýznamný znamená to, že proměnné nejsou závislé.
V takovém případě vyjde i v F-testu, že model není významný.
Jinými slovy: je-li β1 = 0,
pak má regresní přímka
nulovou směrnici a
závislá proměnná y
nabývá stále stejné
hodnoty bez ohledu
na hodnotu nezávislé
proměnné x.
82
REGRESNÍ ANALÝZA
DIAGNOSTICKÁ KONTROLA MODELU
Příklad: Český hydrometeorologický ústav v Praze měřil ...
Odhad koeficientů polynomu 4. stupně (ŷ = b0 + b1x + b2x2 +b3x3 + b4x4)
Model
Regresní statistika
Násobné R
0,940911754
Hodnota spolehlivosti R
0,885314929
Nastavená hodnota spolehlivosti R
0,770629859
Chyba stř. hodnoty
0,458189255
Pozorování
9
I2upr.
Hyperbola
83,30%
Parabola
81,55%
Logaritm. fce.
77,15%
Polynom 4. st.
77,06%
Přímka
65,68%
Hodnota determinačního indexu I2 roste s počtem koeficientů, proto je
nutné modely s více koeficienty (zde jich je 5) porovnávat pomocí
upraveného determinačního indexu I2upr. = 0,7706.
83
REGRESNÍ ANALÝZA
DIAGNOSTICKÁ KONTROLA MODELU
Příklad: Český hydrometeorologický ústav v Praze měřil ...
Odhad koeficientů polynomu 4. stupně
Obecně je velmi nevhodné používat polynomy vyšších stupňů. Dobře
popisují pouze výběrová data.
84
REGRESNÍ ANALÝZA
DIAGNOSTICKÁ KONTROLA MODELU
Příklad: Český hydrometeorologický ústav v Praze měřil …
Odhad koeficientů polynomu 4. stupně: t-testy
H0: zvolený model není statisticky významný
(β0 = c; β1 = 0; β2 = 0; β3 = 0; β4 = 0)
HA: zvolený model je statisticky významný
(β0 = c; alespoň jeden z koeficientů se nule nerovná)
ANOVA – Polynom 4. stupně
Rozdíl
SS
MS
F
Významnost F
Regrese
4
6,482473
1,620618
7,719531
0,0364412
Rezidua
4
0,83975
0,209937
Celkem
8
7,322222
P-hodnota = 0,03644 < α = 0,05, takže model je statisticky významný a
lze jej pro daná data použít.
85
REGRESNÍ ANALÝZA
DIAGNOSTICKÁ KONTROLA MODELU
Příklad: Český hydrometeorologický ústav v Praze měřil ...
Odhad koeficientů polynomu 4. stupně: t-testy
Koeficienty
Chyba stř.
hodnoty
t stat
Hodnota P
Hranice
7,604427913
13,1428372
0,5785986
0,5938759
nad
0,06634885
0,17915618
0,3703408
0,7299051
nad^2
-0,00044506
0,00085759
-0,5189696
0,6311722
nad^3
9,95695E-07
1,6971E-06
0,5867033
0,5889174
nad^4
-7,2728E-10
1,176E-09
-0,618352
0,5698146
Na hladině významnosti α = 0,05 jsou dle t-testu všechny koeficienty
β0, β1, β2, β3, β4 statisticky nevýznamné.
Regresní rovnice by měla tvar ŷ = 0 + 0x + 0x2 + 0x3 + 0x4,
tedy ŷ = 0 . Tento jev často nastává u polynomů vyšších stupňů.
Doporučením je snížení stupně polynomu (redukce koeficientů).
86
KORELAČNÍ A REGRESNÍ ANALÝZA
DŮLEŽITÉ POJMY – 8. PŘEDNÁŠKA
Lineární závislost
 Korelační koeficient a Spearmanův korelační koeficient
pořadí
 Empirický a obecný regresní model
 Deterministická složka
 Náhodná složka
 Regresní koeficienty
 Metoda nejmenších čtverců
 Determinační index a upravený det. index
 Princip jednoduchosti
 Diagnostická kontrola modelu

87