KorelaceRegrese

Download Report

Transcript KorelaceRegrese

KORELACE A REGRESE
Karel Drápela
1
Prezentace byla vytvořena s podporou projektu OP VK
Průřezová inovace studijních programů Lesnické a
dřevařské fakulty MENDELU v Brně (LDF) s ohledem
na disciplíny společného základu CZ.1.07/2.2.00/28.0021
VÍCEROZMĚRNÝ STATISTICKÝ
SOUBOR
Vícerozměrný statistický soubor je množina C souběžných
realizací určitého počtu veličin X1, X2, …, Xm.
Množina C vznikne získáním hodnot znaků X1, X2, …, Xm na
prvcích množiny n. C je potom množina uspořádaných mtic hodnot x1, x2, …, xm znaků X1, X2, …, Xm.
n-tý
x 1T 
OBJEKT  
2
 x1,1  x1,i  x1,m 
 



   

C  x Tj    x j,1  x j,i  x j,m 
  

m-tá




  

x T   x n ,1  x n ,i  x n ,m  VELIČINA

 n 
STATISTICKÁ ZÁVISLOST
3
STATISTICKÁ ZÁVISLOST
pokud měříme
v příliš malém
intervalu,
nemusí se
závislost
prokázat!!
4
STATISTICKÁ ZÁVISLOST
jedna proměnná je
násobkem druhé – v
tom případě je
možné jednu
proměnnou z
analýzy vyloučit bez
ztráty informace
5
STATISTICKÁ ZÁVISLOST
korelace – popisuje vliv změny úrovně jednoho znaku
na změnu úrovně jiných znaků a platí pro kvantitativní
(měřené) znaky;
kontingence – popisuje závislost kvalitativních
(slovních, popisných) znaků, které mají více než dvě
alternativy, tzv. množných znaků (např. druh dřeviny,
národnost, apod.);
6
asociace - popisuje závislost kvalitativních (slovních,
popisných) znaků, které mají pouze dvě alternativy, tzv.
alternativních znaků (např. pohlaví, odpovědi typu
ano/ne, …).
KORELACE
typy podle počtu korelovaných znaků
jednoduchá – popisuje vztah dvou znaků,
mnohonásobná – popisuje vztahy více než dvou znaků,
parciální – popisuje závislost dvou znaků ve
vícerozměrném statistickém souboru při vyloučení vlivu
ostatních znaků na tuto závislost·
7
KORELACE
typy podle smyslu změny hodnot
kladná – se zvyšováním hodnot jednoho znaku se zvyšují
i hodnoty druhého znaku
záporná - se zvyšováním hodnot jednoho znaku se
zmenšují hodnoty druhého znaku
8
KORELACE
typy podle tvaru závislosti
přímková (lineární) – grafickým obrazem závislosti je
přímka (lineární trend)
křivková (nelineární) – grafickým obrazem závislosti je
křivka (nelineární trend)
9
KORELAČNÍ POČET
korelační analýza
zjišťuje existenci závislosti a její druhy,
měří těsnost závislosti,
ověřuje hypotézy o statistické významnosti závislosti;
regresní analýza
10
zabývá se vytvořením vhodného matematického
modelu závislosti,
stanoví parametry tohoto modelu,
ověřuje hypotézy o vhodnosti a důležitých vlastnostech
modelu.
MÍRA KORELAČNÍ ZÁVISLOSTI
x2
CELKOVÁ VARIABILITA Y
(odchylka měřené hodnoty od
průměru)
REZIDUÁLNÍ VARIABILITA
(odchylka měřených a
modelových - vypočítaných –
hodnot)
x2
VARIABILITA
VYSVĚTLENÁ MODELEM
(odchylka modelových hodnot
od průměru)
x1
11
MÍRA LINEÁRNÍ KORELAČNÍ
ZÁVISLOSTI
REZIDUÁLNÍ VARIABILITA
(odchylka měřených a
modelových - vypočítaných –
hodnot)
x2
CELKOVÁ VARIABILITA Y
(odchylka měřené hodnoty od
průměru)
x2
VARIABILITA
VYSVĚTLENÁ MODELEM
(odchylka modelových hodnot
od průměru)
x1
n
x
2i
i=1
n
12
- x2 
n
  x
2
2i
=
i=1
- x2 
n
  x 2i - x2i 
2
+
n
i=1
n
2
MÍRA LINEÁRNÍ KORELAČNÍ
ZÁVISLOSTI
KOEFICIENT DETERMINACE
2
R =
S
S
2
x2
2
x2
= 1-
S
2
x1 x 2
2
x2
S
KOEFICIENT KORELACE
R=
13
S
S
2
x2
2
x2
= 1-
S
2
x1x2
2
x2
S
KOEFICIENT DETERMINACE
vyjadřuje, jakou část celkové variability závisle proměnné
(vysvětlované proměnné) objasňuje regresní model.
r2 = 0.9
r2 =
0.05
14
r2 = 1
KORELAČNÍ KOEFICIENT
PRO JEDNODUCHOU KORELACI
párový - zvláštní případ vícenásobného korelačního
koeficientu, kdy vyjadřuje míru lineární stochastické
závislosti mezi náhodnými veličinami Xi a Xj,
Pearsonův
Spearmanův (korelace pořadí)
15
KORELAČNÍ KOEFICIENT
PRO VÍCENÁSOBNOU KORELACI
vícenásobný - definuje míru lineární stochastické závislosti
mezi náhodnou veličinou X1 a nejlepší lineární kombinací
složek X2, X3, ..., Xm náhodného vektoru X
parciální - definuje míru lineární stochastické závislosti mezi
náhodnými veličinami Xi a Xj při zkonstantnění dalších složek
vektoru X
x1 x2 x3 x4
x1 x2 x3 x4
16
PEARSONŮV KORELAČNÍ
KOEFICIENT (r)
podmínkou je
dodržení
dvourozměného
normálního
rozdělení
= normovaná kovariance
rx1x 2  rx 2 x1 
17
cov x1x 2
S x1  S x 2
PEARSONŮV KORELAČNÍ
KOEFICIENT (r)
KOVARIANCE:
míra intenzity vztahu mezi složkami vícerozměrného
souboru
je mírou intenzity lineární závislosti
je vždy nezáporná
její limitou je součin směrodatných odchylek
je symetrickou funkcí svých argumentů
její velikost je závislá na měřítku argumentů 
nutnost normování
18
cov x1x 2
1 n
  x1i  x1   x 2i  x 2 
n i1
PEARSONŮV KORELAČNÍ
KOEFICIENT (r)
Základní vlastnosti Pearsonova korelačního koeficientu:
19
je to bezrozměrná míra lineární korelace;
nabývá hodnoty 0 – 1 pro kladnou korelaci, 0 – (-1)
pro zápornou korelaci;
hodnota 0 znamená, že mezi posuzovanými
veličinami není žádný lineární vztah (může být
nelineární) nebo tento vztah zůstal na základě dat,
které máme k dispozici, neprokázán;
hodnota 1 nebo (-1) indikuje funkční závislost;
hodnota korelačního koeficientu je stejná pro
závislost x1 na x2 i pro opačnou závislost x2 na x1.
Souvislost mezi velikosti Pearsonova
korelačního koeficientu a typem závislosti
r =1,000
r =-1,000
r =0,000
r =0,934
r =0,967
r =0,857
r =-0,143
r =0,608
PEARSONŮV KORELAČNÍ
KOEFICIENT (r) – výpočet v Excelu
Pearsonův R
21
SPEARMANŮV KORELAČNÍ
KOEFICIENT
neparametrický korelační koeficient, vycházející nikoli z
hodnot, ale z jejich pořadí.
Používá se tehdy, nejsou-li závažným způsobem splněny
předpoklady pro použití Pearsonova korelačního
koeficientu.
diference mezi
n
2
pořadími hodnot X
i
a Y v jednom řádku
rS  1 
22
6 d
i 1
3
n n
SPEARMANŮV KORELAČNÍ
KOEFICIENT
vlivné body
Pearsonův R = -0,412
(započítává se účinek
vlivných bodů)
23
Spearmanův R = +0,541
(účinek vlivných bodů je
značně omezen)
MNOHONÁSOBNÝ KORELAČNÍ
KOEFICIENT
vyjadřuje sílu závislosti jedné proměnné na dvou a
více jiných proměnných
 xI 1   xII 1
 
 
 xIn   xIIn
24
xIII 1
xIIIn
xm1 


xmn 
MNOHONÁSOBNÝ KORELAČNÍ
KOEFICIENT - vlastnosti
Základní vlastnosti:
0R1
pokud je R = 1, znamená to, že závisle proměnná x1 je
přesně lineární kombinací veličin x2, ..., xm
pokud je R = 0, potom jsou také všechny párové
korelační koeficienty nulové
s růstem počtu vysvětlujících (nezávislých) proměnných
hodnota
vícenásobného
korelačního
koeficientu
neklesá, tj. platí R1(2)  R1(2,3)  ...  R1(2, ..., m)
25
MNOHONÁSOBNÝ KORELAČNÍ
KOEFICIENT - výpočet
R1( 2,3,..., m)  1 
det(R)
det(R (11) )
korelační koeficient 1. a 2. proměnné
 1
R
 21

R=
 R i1


26
R m1
R 12

R 1i
1




1


1
  
R m2  R m i
= determinant korelační matice
= determinant korelační matice s
vypuštěným sloupcem a řádkem
odpovídajícím té proměnné, jejíž
závislost na zbytku matice se
vypočítává
 R 1m 
  
   Korelační matice R

 R im 
1 

 1 
MNOHONÁSOBNÝ KORELAČNÍ
KOEFICIENT
R1(2,3,...,m )
27
R12
R1i
R1m 
 1
R

1
 21



1

  det(R )
R
1
R
im 
 i1


1


Rm 2
Rmi
1 
det(R )
R
  m1
 1
R12
R1i
R1m 
det(R (11) )
 1
R

1
 21



1

  det(R (11) )
1
Rim 
 Ri1


1


Rmi
1 
 Rm1 Rm 2
MNOHONÁSOBNÝ KORELAČNÍ
KOEFICIENT – výpočet v Excelu

28
MNOHONÁSOBNÝ KORELAČNÍ
KOEFICIENT – výpočet v Excelu
det(R )
= DETERMINANT(R)
1
 1

det(R (11) )
= DETERMINANT(R (11) )
29
0.004755585
 1
 0.74577
0.010714947
MNOHONÁSOBNÝ KORELAČNÍ
KOEFICIENT – výpočet v Excelu

30
Nástroje Analýza dat Regrese
PARCIÁLNÍ KORELAČNÍ
KOEFICIENT
používá se k posouzení síly závislosti dvou veličin ve
vícerozměrném souboru při vyloučení vlivu ostatních
veličin
podle počtu „vyloučených“
proměnných se stanovují řády
parciálního R – v příkladu
vlevo to je parciální korelace
III. řádu (3 „vyloučené“
proměnné)
31
PARCIÁLNÍ KORELAČNÍ
KOEFICIENT - výpočet
„Klasický“ výpočet je velmi zdlouhavý – vychází se z
korelační matice, poté se počítají parciální korelace I. řádu
(s jednou vyloučenou proměnnou), z nich II. řádu (dvě
vyloučené proměnné), atd. až do potřebného řádu.
Při využití Excelu je možné využít vzorce
R ij(1, 2,..., m) 
32
(1) j  det(R (ij) )
det(R (ii ) )  det(R ( jj) )
PARCIÁLNÍ KORELAČNÍ
KOEFICIENT – výpočet v Excelu
R ij(1, 2,..., m) 
Rij (1,2,...,m ) 
33
(1) j  det(R (ij) )
det(R (ii ) )  det(R ( jj) )
(1) 2  det( R(12) )
det( R(11) )  det( R(22) )
PARCIÁLNÍ KORELAČNÍ
KOEFICIENT – výpočet v Excelu
det(R(11)) = 0.010715
det(R(12)) = 0.006086
det(R(22)) = 0.010248
34
PARCIÁLNÍ KORELAČNÍ
KOEFICIENT – výpočet v Excelu
R12(3,4,5)
(1) 2  det( R(12) )
1 0.00608


 0.58082
det( R(11) )  det( R(22) )
0.01071 0.01025
Parciální korelační koeficient III. řádu pro závislost
proměnných X1 a X2 (při vyloučení vlivu proměnných X3, X4
a X5) je 0.58.
35
REGRESNÍ ANALÝZA
Základní úlohou regresní analýzy je nalezení vhodného
modelu studované závislosti.
Snažíme se nahradit každou měřenou (experimentální,
empirickou, zjištěnou) hodnotu závisle proměnné
(vysvětlované proměnné) Y hodnotou teoretickou
(modelovou, vyrovnanou, predikovanou), tj. hodnotou ležící na
spojité funkci (modelu) nezávisle proměnné (vysvětlující
proměnné) X (X)
36
Francis Galton
(1822-1911)
• položil základy regresní analýzy
(vztah mezi výškou syna a výškou otce)
• zázračné dítě, bratranec Charlese Darwina
• zakladatel eugeniky
(nauky o zlepšování genetického základu)
REGRESNÍ ANALÝZA
měřené hodnoty
závisle proměnná Y
modelové (vypočítané)
hodnoty
nezávisle proměnná X
38
REGRESNÍ MODEL
 y1   x11
 y  x
 2   21
  
 
 yi   xi1
  
  
 yn   xn1
y
závisle
proměnná
39
x12
x1 j
x22
x2 j
xi 2
xij
xn 2
xnj
X
nezávisle proměnná
y=X+
x1m   1   1 
x2 m    2   2 
   
    
    
xim    j    i 
    
    
xnm    m   n 
β
ε
regresní náhodná
parametry chyba
REGRESNÍ MODEL
závisle proměnná Y
regresní
parametr
1
absolutní člen
nezávisle proměnná X
40
REGRESNÍ MODEL - typy
Regresní model předpokládá, že nezávislá proměnná
(proměnné) je nenáhodná (tj. pevně určena, např.
experimentátorem) a závislá proměnná je náhodná
(měřená).Tento předpoklad nebývá v praxi striktně naplněn (v
mnoha případech jsou obě nebo všechny veličiny náhodné, tj.
měřené, potom mluvíme o tzv. korelačním modelu).
Rozeznáváme:
regresní modely lineární – mají lineární postavení
parametrů
regresní modely nelineární –mají nelineární postavení
parametrů
41
REGRESNÍ MODEL - typy
Příklady lineárních regresních modelů:
y = a + bx
- přímka
y = a + bx + cx2
- parabola
y = a + (b/x)
- hyperbola
lineární modely jsou i
některé, jejichž grafickým
vyjádřením je křivka!!
Příklady nelineárních regresních modelů:
y = axb
Výhody – jsou schopny modelovat
složité reálné děje, např. růst, včetně
reálné predikce.
y = aebx
42
y = ae
k
x
Nevýhody – složitý výpočet
POSTUP REGRESNÍ ANALÝZY
Podstatou řešení regresní analýzy je:
stanovit nejvhodnější tvar regresního modelu (tedy určit
příslušnou rovnici, která bude popisovat závislost Y na X)
stanovit jeho parametry (tj. stanovit konkrétní hodnoty
parametrů )
stanovit statistickou významnost modelu (tj. zda model
podstatným způsobem přispěje ke zpřesnění odhadu závisle
proměnné oproti použití průměru)
výsledky dané modelem interpretovat z hlediska zadání
43
STANOVENÍ VHODNÉHO TVARU
MODELU
1) najít množinu modelů, které svými vlastnostmi
vyhovují řešenému problému (např. růstové funkce)
2) teprve mezi nimi najít podle statistických kritérií
ten model, která nejlépe vyhovuje měřeným datům
Je nutné věnovat velkou pozornost tomu, aby byla
modelována REÁLNÁ PŘÍČINNÁ ZÁVISLOST!!
44
STANOVENÍ PARAMETRŮ MODELU
METODA NEJMENŠÍCH ČTVERCŮ
n
reziduum
y
i=1
45
- yˆ i  = min.
2
i
MNČ PRO PŘÍMKU
n
2


y

a

b

x
 min .
yˆ = a + bx   i
i
i 1
Parciální derivace podle parametrů:
n
  y i  a  b  x i 
2
n
 2 y i  a  b  x i    1  0
i 1
a
n
i 1
  y i  a  b  x i 
2
i 1
46
b
n
 2 y i  a  b  x i    x i   0
i 1
MNČ PRO PŘÍMKU
Získáme soustavu normálních rovnic:
n
 yi  n  a  b  x i
i1
i 1
n
n
n 2
xi yi   xi a  b  xi

i 1
i 1
i1
n
47
MNČ – obecný postup
 n
 
  yi   n
 i 1

 n
  n
  xi yi    xi
 i 1
  i 1
g

xi 

a 
i 1
 
n
2  b 
xi 

i 1
 b
n
A
g - Ab = 0
48
MNČ – obecný postup
1
g
 x1
1
A
 x1
49
 n

 y1    yi 
1  
i 1
T





X

y

xn     n

 yn   xi yi 
 i 1


1
x
n

1

1 


  n
xn  
1 xn    xi
 i 1

xi 

i 1
  XT  X
n
2
xi 

i 1

n
MNČ – obecný postup
g - Ab = 0
X y  X Xb  0
T
T
b   X  X  X  y
T
1
ˆy  X  X  X   XT  y
T
50
1
projekční matice H
T
obecný vztah pro
výpočet regresních
parametrů lineárního
modelu
obecný vztah pro
výpočet predikovaných
(modelových) lineárního
modelu
PŘEDPOKLADY MNČ
1) Regresní parametry  mohou teoreticky nabývat
jakýchkoli hodnot.
2) Regresní model je lineární v parametrech.
3) Jednotlivé nezávislé proměnné jsou skutečně vzájemně
nezávislé, tedy mezi nimi nedochází k tzv. multikolinearitě.
4) Podmíněný rozptyl D(y/x) = 2 je konstantní (tzv.
podmínka homoskedasticity).
5) Náhodné chyby mají nulovou střední hodnotu E(i) = 0,
mají konečný rozptyl E(i2) = 2 a jsou nekorelované.
51
MULTIKOLINEARITA
 y1   x11
 y  x
 2   21
  
 
 yi   xi1
  
  
 yn   xn1
y
52
x12
x1 j
x22
x2 j
xi 2
xij
xn 2
xnj
X
x1m   1   1 
x2 m    2   2 
   
    
    
xim    j    i 
    
    
xnm    m   n 
β
ε
Vektory matice X musí být skutečně navzájem nezávislé (jejich párové R musí být
nulové nebo statisticky nevýznamné). Pokud tomu tak není, dochází k
multikolinearitě, která způsobuje početní i statistické problémy.
MULTIKOLINEARITA – proč je
„nebezpečná“
Početní problémy:
způsobuje špatnou
podmíněnost matice XT X,
(determinant této matice je
nula nebo číslo blízké nule)
potíže při invertaci matice
(regresní model není
jednoznačně řešitelný
(singularita matice)).
53
Statistické problémy:
nelze odděleně sledovat skutečný
vliv jednotlivých vysvětlujících
vstupních proměnných na
vysvětlovanou (závislou)
proměnnou
nespolehlivé určení parametrů
regresního modelu (interval
spolehlivosti parametrů je tak
velký, že odhad parametrů
ztrácí smysl)
nestabilita odhadů regresních
parametrů (např. malá změna
hodnot závisle proměnné
znamená zásadní změnu
parametrů)
MULTIKOLINEARITA – příčiny
Příčiny:
přeurčenost regresního modelu („zbytečně“ mnoho nezávislých
proměnných)
skutečně existující závislost mezi „nezávislými“ proměnnými
povaha modelu (např. polynom)
nevhodné rozmístění experimentálních bodů (např. malá
variabilita hodnot nezávisle proměnné)
54
MULTIKOLINEARITA – vliv variability
nezávisle proměnné
správný průběh
regresní čáry
chyba měření
nesprávný průběh
regresní čáry
55
malá variabilita nezávisle
proměnné
MULTIKOLINEARITA – vliv variability
nezávisle proměnné
vhodná variabilita
nezávisle proměnné
56
MULTIKOLINEARITA - testování
VIF – variance inflation factor – diagonální prvky inverzní
matice ke korelační matici nezávisle proměnných (diag(R-1))
VIF > 10  kritická multikolinearita
korelační matice R
=INVERZE(B2..F6)
Ctrl+Shift+Enter
inverzní matice R-1
57
kriticky vysoké hodnoty VIF
MULTIKOLINEARITA - řešení
K odstranění (nebo zmenšení nepříznivého vlivu)
multikolinearity může vést:
snížení počtu nezávisle proměnných
použití jiného modelu
použití jiné metody výpočtu (obvykle metody regrese
hlavních komponent – PCR)
58
HOMOSKEDASTICITA x
HETEROSKEDASTICITA
závisle proměnná
závisle proměnná
Homoskedasticita znamená, že hodnoty závisle proměnné
y mají pro všechny hodnoty nezávisle proměnné X
konstantní rozptyl (variabilitu, proměnlivost).
malá variabilita hodnot y
pro hodnotu x1
vysoká variabilita hodnot y
pro hodnotu x2
nezávisle proměnná
homoskedasticita
59
x1
x2
nezávisle proměnná
heteroskedasticita
HOMOSKEDASTICITA - princip
měřené hodnoty
nejpravděpodobnější
hodnota veličiny Y
(modelová)
60
HOMOSKEDASTICITA - testování
n
Test trendu reziduí
D    R  eˆi   i 
2
i 1
6
s  1  3
D
n n
Testujeme významnost
Spearmanova korelačního
koeficientu s
tR 
61
s  n  2
1  s
2
HOMOSKEDASTICITA - testování
Vycházíme z předpokladu, že rozptyl naměřené hodnoty yi
je určitou funkcí proměnné xi  (např. exponenciální
funkcí)
Cookův - Weisbergův test
2

2 2


 y i  y  e i 

Sf  i1 n
2   4  yi  y2
n
i 1
62
Pokud v datech není
heteroskedasticita, potom platí,
že Sf  2(1)
HOMOSKEDASTICITA – řešení
Nejobvyklejším způsobem je použití metody vážených
nejmenších čtverců, kdy se podmínka sumy reziduí
násobí vhodně zvolenými váhami


U (b)    yiVii  Vii xij b j 
i 1 
j 1

n
m
2
V běžných případech je možné jako váhy volit hodnoty
1/yi nebo 1/yi2 .
63
INTERVALY SPOLEHLIVOSTI
V KORELAČNÍ A REGRESNÍ ANALÝZE
IS korelačního koeficientu (koeficientu determinace)
IS regresních parametrů
IS modelových hodnot (modelu)
IS predikovaných hodnot (pás spolehlivosti)
64
INTERVAL SPOLEHLIVOSTI R (IS)
IS vymezuje interval možných hodnot korelačního koeficientu
základního souboru  (s pravděpodobností 1 - )
Protože rozdělení výběrových korelačních koeficientů není
normální, musíme použít Fisherovu transformaci
1 R
Z(R )  arctgh(R )  0.5 ln
1 R
která má přibližně normální rozdělení se střední hodnotou
E(Z) = Z() a rozptylem D(Z) = 1/(n-3).
65
INTERVAL SPOLEHLIVOSTI R
polovina IS
Postup výpočtu IS R:
R
Fisherova transformace
v Excelu funkce FISHER(R)
statistické tabulky
Z ( R)  z1 
2
Z(R)
1

n3
horní a dolní
retransformace Z(R) na korelační koeficient
hranice IS ve
Fisherově
v Excelu funkce FISHERINV(Z(R))
transformaci
statistické tabulky
66
horní a dolní
hranice IS ve
Fisherově
transformaci
horní a dolní
hranice IS
korelačního
koeficientu
INTERVAL SPOLEHLIVOSTI R
Fisherova
proměnná
R = 0.95305
FISHER(0.95305) = 1.864
IS Fisherovy proměnné:
1
Z     1.864  1.96 
 1.864  0.65333 =
12  3
 1.2107; 2.51737
1.21
1.864
2.517
IS korelačního koeficientu:
=FISHERINV(1.2107) = 0.83689
=FISHERINV(2.5174) = 0.98707
67
0.837
0.953 0.987
INTERVAL SPOLEHLIVOSTI
REGRESNÍCH PARAMETRŮ
vyjadřuje interval na číselné ose, ve kterém se s
pravděpodobností 1 -  vyskytuje neznámý parametr 
základního souboru
 j  b j  t ,nm  sb
2
j
Pokud IS obsahuje nulu – tedy dolní hranice je záporná a
horní kladná - je daný parametr statisticky nevýznamný.
Směrodatné odchylky pro přímku:
sa 
68
s yx
2
x
 1 2
sx
n2
sb 
sxy
sx n  2
IS REGRESNÍCH PARAMETRŮ
- příklad
100
90
80
70
60
50
40
30
20
10
0
-10
-20
-30
69
a
b
Bodový
odhad
-8.62
1.56
Intervalový odhad
dolní
horní
-23.53
6.29
1.21
1.91
průběh přímky pro
dolní hranici IS
(1,21)
průběh přímky pro hodní hranici IS (1,91)
IS REGRESNÍCH PARAMETRŮ
- příklad
100
a
b
80
Bodový
odhad
0
1.37
Intervalový odhad
dolní
horní
0
0
1.23
1.51
10
20
60
40
20
0
0
-20
70
30
40
50
60
70
INTERVAL SPOLEHLIVOSTI
MODELOVÝCH HODNOT
IS jedné
modelové
hodnoty
JEDNA HODNOTA
REGRESNÍHO MODELU (tyto
hodnoty platí jen pro jeden
konkrétní výběr, ze kterého byly
vypočítány)
horní hranice IS
dolní hranice IS
plocha, ve které se s pravděpodobností
1 -  nacházejí všechny možné modely
vypočítané z jakéhokoliv výběru
pocházejícího z daného základního
souboru
71
IS MODELOVÝCH HODNOT
Pro model přímky:
směr.odchylka reziduí
2
n(x i  x)

 y  yi  t  ,n 2 
 1 n
2
n2
2
 (x i  x)
i 1
modelová
hodnota
72
polovina IS modelu přímky
IS Y HODNOT – PÁS SPOLEHLIVOSTI
udává rozpětí, ve kterém se budou v základním souboru
nacházet hodnoty závisle (vysvětlované) proměnné se
zvolenou pravděpodobností 1 - 
y i (m in,m ax)  yi  t 
2
73
;n  m

IS MODELU A PÁS SPOLEHLIVOSTI příklad
45
40
šířka listu (mm)
35
30
25
20
15
10
20
25
30
35
40
45
50
55
60
délka listu (mm)
74
měřené hodnoty
intervalový odhad modelu
modelové hodnoty
pás spolehlivosti měřených hodnot
65
IS MODELU - příklad
100
90
80
70
60
50
40
30
20
10
0
10
75
20
30
40
50
60
70
TESTY VÝZNAMNOSTI V REGRESNÍ
ANALÝZE – proč musíme testovat?
Y
skutečný regresní
model platný pro
základní soubor
(neznáme ho !!!)
– statisticky
nevýznamný
X
76
Regresní model získaný na základě
výběru („nešťastný“ výběr dat) – vede
k závěru, že model je statisticky
významný
Statistický test významnosti
modelu určí, zda na základě
dat získaných z výběru
můžeme „uvěřit“, že model
je významný i v základním
souboru
TESTY VÝZNAMNOSTI V KORELAČNÍ
A REGRESNÍ ANALÝZE
test významnosti korelačního koeficientu
test významnosti modelu jako celku
test významnosti jednotlivých regresních parametrů
test shody lineárních regresních modelů
a mnoho dalších …..
77
TEST VÝZNAMNOSTI R
Test významnosti odpovídá na otázku, zda je korelace mezi
výběrovými proměnnými (R) natolik silná, abychom mohli tuto
korelaci považovat za prokázanou i pro základní soubor ().
Pro párový R:
tR 
Pro násobný R:
R 2 n  m 
FR 
1  R 2 m  1
Pro parciální R:
78
R n2
1 R2

tR 

R n  k  2
1  R2
KH
t,n-2
n – počet
hodnot výběru
t,n-m
m – počet
proměnných
t,n-k-2
k – počet
„vyloučených“
proměnných
TEST VÝZNAMNOSTI REGRESNÍHO
MODELU – co testujeme
Y = b0 + b1x1 + b2x2 + b3x3 + … + bmxm
Testujeme JEDNOTLIVÉ
PARAMETRY (jestliže je
daný parametr
nevýznamný, příslušná
proměnná xj nijak
nepřispívá ke zpřesnění
odhadu závisle proměnné
a je v modelu zbytečná).
79
Testujeme MODEL JAKO
CELEK (zda příslušná
kombinace nezávisle
proměnných statisticky
významně zpřesní odhad
závisle proměnné oproti
použití jejího průměru)
TEST VÝZNAMNOSTI REGRESNÍHO
MODELU JAKO CELKU
1. Test významnosti korelačního koeficientu
2. Pomocí analýzy rozptylu
Zdroj
variability
Součet čtverců odchylek
n
regresní model
reziduum
(nevysvětleno
regresním
modelem)
Celkový
S REG   yi  y 2
i 1
Počet stupňů
volnosti
i 1
S REG
DFREG
S
MR  R
DFR
Testové
kritérium
DFREG = m –1 M REG 
n
S R   y i  yi 2
Průměrný čtverec
odchylek (rozptyl)
DFR = n – m
F
M REG
MR
n
SC   y i  y 2
i 1
DFC = n - 1
Testové kritérium F se porovná s kritickou hodnotou F;m-1;n-m.
80
TEST VÝZNAMNOSTI REGRESNÍCH
PARAMETRŮ
H0: j = 0, tj. j-tý regresní parametr je nevýznamný
t
bj   j
sb
pro j = 0
t
bj
sb
Pokud platí, že t> t2;n-m, potom je j-tý regresní
parametr statisticky významný a příslušná proměnná
musí zůstat v modelu.
81
HODNOCENÍ MODELU Z HLEDISKA
VÝSLEDKŮ TESTŮ VÝZNAMNOSTI
Výsledek F
testu
TEST
CELÉHO
MODELU
nevýznamný
významný
významný
významný
82
Výsledek t –testu
TEST
JEDNOTLIVÝCH
PARAMETRŮ
Hodnocení modelu
posuzované veličiny jsou lineárně
všechny
nezávislé nebo model je nevhodný
nevýznamné
(nevystihuje
variabilitu
závisle
proměnné)
vhodný (ale nemusí být optimálně
všechny významné
navržen)
některé
vhodný (je možné vypustit nevýznamné
nevýznamné
členy modelu)
zvláštní
případ
způsobený
všechny
multikolinearitou – je nutné upravit
nevýznamné
nebo zcela změnit model
TEST SHODY REGRESNÍCH MODELŮ
Porovnává se:
empirický model (modely) s teoretickým
dva nebo více empirických modelů mezi sebou
H0: Porovnávané modely jsou shodné (tj. shodují se ve
směrnici i v úseku).
83
TEST SHODY REGRESNÍCH MODELŮ
84
A
B
C
D
TEST SHODY REGRESNÍCH MODELŮ
SHODA EMPIRICKÉHO A TEORETICKÉHO MODELU:
H0: Empirický model y’ = a + bx pochází ze základního
souboru, jehož model y’ =  + x je shodný s teoretickým
modelem y’0 = 0 +0x, tj. platí  = 0,  =0.
a  0
t
sa
85
b  0
t
sb
TEST SHODY REGRESNÍCH MODELŮ
SHODA DVOU EMPIRICKÝCH MODELŮ:
H0: j,1 = j,2, tj. regresní koeficienty obou modelů jsou v
základním souboru shodné
Vycházíme z testování shody regresních parametrů dvou
lineárních modelů y1 = X11 + 1 a y2 = X22 + 2
Při tomto testu využijeme tzv. složeného modelu, tj. oba
porovnávané výběry sloučíme do jednoho a také pro něj
stanovíme parametry stejného modelu jako pro oba dílčí
výběry
86
TEST SHODY REGRESNÍCH MODELŮ
(RSCs  RSC1  RSC 2 )(n  2m)
FC 
RSC1  RSC2   m
n
RSCs
RSC1
RSC2
87
celkový počet prvků obou výběrů, tj. n1 + n2
reziduální součet čtverců složeného modelu
reziduální součet čtverců prvního modelu
reziduální součet čtverců druhého modelu
HODNOCENÍ KVALITY
REGRESNÍHO MODELU
střední kvadratická chyba predikce (MEP)
e i2
1 n
MEP  
n i1 1  H ii 2
ei2 čtverec reziduí modelu
Hii i-tý
diagonální
prvek
projekční matice H
Akaikovo informační kritérium (AIC)
 RSC 
AIC  n  ln
  2m
 n 
RSC reziduální součet čtverců
m
počet parametrů
Čím je AIC (MEP) menší, tím je model vhodnější.
88
REGRESNÍ DIAGNOSTIKA – stačí vždy
jen testování modelu a parametrů?
Výběr B
Výběr A
14
12
12
10
10
8
8
Y
Y
14
6
6
y = 0,5x + 3,0
R = 0,8164
4
2
2
0
0
4
6
8
10
X
89
y = 0,5x + 3,0
R = 0,8162
4
12
14
16
4
6
8
10
X
12
14
16
REGRESNÍ DIAGNOSTIKA – stačí vždy
jen testování modelu a parametrů?
Výběr C
Výběr D
12
12
10
10
8
8
Y
14
Y
14
6
6
y = 0,5x + 3,0
R = 0,8162
4
2
2
0
0
4
6
8
10
X
90
y = 0,5x + 3,0
R = 0,8165
4
12
14
16
4
9
14
X
19
24
REGRESNÍ DIAGNOSTIKA
Zkoumá regresní triplet
data (kvalitu dat pro navržený model)
model (kvalitu modelu pro daná data)
metoda odhadu (splnění předpokladů metody MNČ)
91
REGRESNÍ DIAGNOSTIKA
– analýza reziduí
Používá se grafická analýza reziduí - tři typy grafů:
92
Typ grafu
Osa X
Osa Y
I
II
III
pořadové číslo bodu i
j-tá nezávislá proměnná xj
vypočítaná (modelová) hodnota y’i
reziduum ei
reziduum ei
reziduum ei
REGRESNÍ DIAGNOSTIKA
– analýza reziduí
„mrak“ bodů – graf
nesignalizuje žádný
problém
93
REGRESNÍ DIAGNOSTIKA
– analýza reziduí
„klín“ bodů – indikace
heteroskedasticity
(nekonstantního rozptylu)
94
REGRESNÍ DIAGNOSTIKA
– analýza reziduí
indikace chybného
modelu
95
REGRESNÍ DIAGNOSTIKA – vlivné body
Vlivné body (data, jejichž zařazení do modelu průběh
modelu podstatně ovlivní):
1) hrubé chyby - jsou způsobeny chybou měření nebo
pozorování,
2) body s vysokým vlivem (tzv. „zlaté body“) jsou
speciálně vybrané body, které byly přesně změřeny a
zpravidla zlepšují predikční schopnosti modelu;
3) zdánlivě vlivné body - jsou způsobeny nevhodným
modelem;
96
REGRESNÍ DIAGNOSTIKA – vlivné body
odlehlé body
v pořádku
n  m 1
e Ji  e Si 
n  m  e Si
ei
e Si 
 1  H ii
i-tý diagonální prvek
projekční matice H
97
REGRESNÍ DIAGNOSTIKA – kvalita
modelu
1) Graf reziduí
2) Parciální regresní grafy
vyjadřuje závislost mezi vysvětlovanou proměnnou
(tedy vektorem y) a jednou vysvětlující proměnnou xj
při statisticky neměnném vlivu ostatních
vysvětlujících proměnných, které tvoří matici X(j)
(vynechaná j-tá proměnná). Je to tedy určitá grafická
obdoba parciálního korelačního koeficientu u
korelačních modelů.
98
REGRESNÍ DIAGNOSTIKA – kvalita
modelu
Zajímá nás, zda všechny proměnné x1-3 jsou v modelu oprávněně. Postup je
ukázán pro proměnnou x1.
X
x1 x2 x3
y
u1
99
X(1)
y
Proměnná x1 do
modelu patří
x1 x2 x3
u1
v1
x1=f(X(1))
regrese
v1
rezidua
y=f(X(1))
regrese
u1
rezidua
Proměnná x1 do
modelu nepatří
v1
REGRESNÍ DIAGNOSTIKA – kvalita
modelu
pokud body parciálního regresního grafu leží na přímce s
nulovým úsekem (absolutním členem), potom existuje
skutečná lineární závislost mezi y a xj
směrnice přímky proložené body parciálního regresního
grafu číselně odpovídá příslušnému regresnímu koeficientu
bj původního (posuzovaného) regresního modelu
korelační koeficient mezi uj a vj odpovídá parciálnímu
korelačnímu koeficientu
rezidua regresní přímky mezi uj a vj odpovídají reziduím
původního modelu
100
REGRESNÍ DIAGNOSTIKA
– podmínky MNČ
multikolinearita – VIF
heteroskedasticita – testy heteroskedasticity (např. Cook
Weinsberg)
autokorelace reziduí – test významnosti autokorelačního
koeficientu
normalita reziduí – testy normality
101
REGRESNÍ MODEL - typy
Příklady lineárních regresních modelů:
y = a + bx
- přímka
y = a + bx + cx2
- parabola
y = a + (b/x)
- hyperbola
lineární modely jsou i
některé, jejichž grafickým
vyjádřením je křivka!!
Příklady nelineárních regresních modelů:
y = axb
Výhody – jsou schopny modelovat
složité reálné děje, např. růst, včetně
reálné predikce.
y = aebx
102
y = ae
k
x
Nevýhody – složitý výpočet
NELINEÁRNÍ REGRESNÍ MODELY
Platí podmínka, že 1. parciální derivace regresního modelu
podle parametrů
 f  x,  
gj 
 j
je alespoň pro jeden parametr jeho funkcí.
103
NELINEÁRNÍ REGRESNÍ MODELY
Regresní modely se dělí na:
neseparabilní – všechny parametry jsou v nelineárním
postavení
separabilní – část parametrů je lineárních, část
nelineárních
linearizovatelné – vhodnou transformací je lze převést na
lineární model
104
NELINEÁRNÍ REGRESNÍ MODELY
pro lineární model:
účelová (minimalizační)
funkce
105
jednoznačné řešení
pro nelineární model:
NELINEÁRNÍ REGRESNÍ MODELY
1. odhad parametrů
1. aproximace
2. odhad parametrů
(první vypočítaný)
2. aproximace
3. odhad parametrů
(druhý vypočítaný)
106
NELINEÁRNÍ REGRESNÍ MODELY
lokální min. (zde není
optimální řešení)
sedlový bod
globální minimum
(optimální řešení)
107
NELINEÁRNÍ REGRESNÍ MODELY
Metody odhadů parametrů
nederivační
metody přímého hledání (např. krokové hledání minima,
Rosenbrockova metoda)
simplexové metody (postupné vytváření adaptivních polyedrů –
simplexů a jejich „překlápění“ směrem k minimu)
metody využívající náhodných čísel
derivační (tendence k lokálním minimům, závislost na prvních odhadech,
vhodné k jemnému nalezení minima jako pokračování nederivačních metod)
Gauss-Newton
Levenberg-Marquart
dog-leg
108
HODNOCENÍ NELINEÁRNÍHO
REGRESNÍHO MODELU
1. Kvalita nalezených odhadů parametrů
a) podle intervalů spolehlivosti (čím menší interval
spolehlivosti, tím lépe)
 j  b j  Cmm  m  s  F1 ;m;n m
2
b) podle rozptylů parametrů, kde by pro kvalitní
odhad mělo platit
2  D(b j )  b j
109
HODNOCENÍ NELINEÁRNÍHO
REGRESNÍHO MODELU
2. Kvalita dosažené těsnosti proložení
1. a) podle reziduálního rozptylu
b) podle regresního rabatu, což je v procentech
vyjádřený koeficient determinace (čím více se blíží 100 %,
tím lepší proložení)
3. Vhodnost navrženého modelu
Akaikovo informační kritérium(AIC) - (čím je AIC menší,
tím vhodnější je model).
110
HODNOCENÍ NELINEÁRNÍHO
REGRESNÍHO MODELU
4. Predikční schopnost modelu
střední kvadratická chyba predikce (MEP) - čím je
MEP menší, tím je predikční schopnost modelu lepší
5. Kvalita experimentálních dat
a) na základě analýzy reziduí
b) na základě analýzy vlivných bodů (podle
Jackknife reziduí, Cookovy vzdálenosti, diagonální
prvky projekční matice a věrohodnostní vzdálenost).
111