Jednoduchá regrese

Download Report

Transcript Jednoduchá regrese

Lineární regrese
Význam lineárního modelu
• Modely založené na lineárním vztahu jsou
nejčastěji používanými typy v biologii
• Ne vždy ale platí na stupnici, na které tyto
entity měříme (logaritmická transformace)
Regrese vs. korelace
• V obou případech studuji (lineární) vztah
dvou kvantitativních proměnných
• V případě korelace hrají obě proměnné
stejnou roli
• V případě regrese je jejich role
nesymetrická: vysvětluji hodnoty jedné
(závislé = dependent, vysvětlované)
pomocí druhé (nezávislé = independent,
vysvětlující)
Jak lineární regrese vypadá
Podobné lineární závislosti
•
•
•
•
•
•
výška rostliny na obsahu živin v půdě
intenzita fotosyntézy na množství světla
druhová bohatost na zeměpisné šířce
rychlost enzymatické reakce na teplotě
... ale ne naopak!
Regrese se používá i v případě, kdy obě
proměnné mohou hrát obě role: například
predikce výšky stromu z jeho průměru ve
výšce 1.3 m (DBH)
Anatomie regresní přímky 1
• Model pro hodnoty proměnné Y se skládá ze strukturální
(systematické) části (zde a + bX) a stochastické
(náhodné) části (zde e)
• Průsečík (intercept) a; často také označován b0
• Pro nejjednodušší lineární model (přímku) je zde jen
jeden koeficient b (b1), představující sklon (slope)
• Hodnoty obou koeficientů závisí na jednotkách pro X a Y
• Dependent variable – independent variable
• ale také: Response – predictor variable
Anatomie regresní přímky 2
• pozorovaná
hodnota Yi
• průměry leží
na přímce
• fitovaná hodnota
„se stříškou“
• regresní reziduál
• pozorované
hodnoty Y, průměr
a fitované hodnoty
jsou základem pro
hodnocení modelu
Odhad parametrů a a b
• Metoda nejmenších čtverců
least squares criterion
ˆ


Y

Y

2
n
i 1
i
i
• Teoretické hodnoty pro základní populaci
jsou pro náš výběr pozorování odhadovány
(estimated) jako a a b
X  X Y  Y 

b
 X  X 
i
i
2
i
a  Y  bX
Předpoklady o datech
• Minimalizace variability Y kolem přímky
souvisí s předpokladem, že jen Y je
náhodná proměnná, X je známo přesně
• Pro některé modely proto není tento model
vhodný  regrese typu II
• Homogenita variance
• Linearita závislosti: je vždy potřeba si data
vynést v grafu, neaplikovat model „slepě“!
Odhad regresních parametrů
v programu Statistica
• modul Multiple Regression
• ... ale nesmíme to takto
popsat v článku!
• z velkého okna výsledků
zvolíme Summary
Testování regresního modelu 1
• U modelů lineární regrese můžeme
testovat buď celý model (pomocí F testu)
nebo vliv jednotlivých prediktorů (t test)
• V případě přímkové regrese (s jediným
prediktorem) jsou závěry shodné
• Můžeme také testovat průsečík (b0 = a),
ale odpovídající hypotéza nebývá obvykle
zajímavá
Testování regresního modelu 2
• Ve vzorkované základní populace nemusí
závislost existovat ...
• ... ale náš výběr ji může naznačovat test
• Odhad p pro H0:b=0 je pravděpodobností, že
takhle dobrou závislost dostaneme náhodou, jsouli proměnné ve skutečnosti nezávislé
Test celého modelu:
analýza variance regresního modelu
• Základem je (podobně jako v klasické
ANOVA) rozdělení variability hodnot
závislé proměnné Y na dvě části:
– modelem vysvětlenou variabilitu (zde
variabilita fitovaných hodnot) a
– nevysvětlenou - residuální variabilitu (zde
variabilita residuálů)
• ... a jejich porovnání pomocí F statistiky
Analýza variance
regresního modelu
Test jednotlivých
regresních koeficientů
• Testujeme hypotézu H0: b = 0
• K statistice t patří dfERR
Koeficient determinace – R2
• Procento vysvětlené variability
• R2 adjusted: odhad hodnoty koeficientu
v základní populaci
Síla testu
• Zvětšuje se s počtem pozorování a také
s těsností vztahu (vyjádřenou např. R2)
• Těsnost vztahu lze v experimentálních
studiích často zvýšit zvětšením rozsahu
nezávislé proměnné (prediktoru). Tím ale
často i snížíme linearitu vztahu!
Konfidenční pás
• Confidence region: v něm leží – se zvolenou
pravděpodobností – průměrná (střední)
hodnota Y pro zvolené X
Predikční pás
• Prediction region: v něm budou s danou
pravděpodobností jednotlivá pozorování
s uvažovanou hodnotou X
Interpretace modelu 1:
závisí na našich cílech
• Výsledky nové analytické metody průkazně
(p<0.001) závisí na koncentraci stanovované
látky. To není zajímavý výsledek, zde nás
zajímá těsnost vztahu (R2, chyba odhadu)
• Počet druhů závisí pozitivně na pH půdy
(F1,33=12.3, p<0.01). To je zajímavý
výsledek, protože neplatnost H0 není a priori
zjevná. Ale i zde chci znát velikost efektu
(hodnotu regresního koeficientu) a těsnost
vztahu (R2)
Interpretace modelu 2:
závislost neznamená kauzalitu
• Obdobně: závislost počtu
rozvodů na počtu ledniček
v čase
• Kauzalitu nelze podpořit
na základě pozorování:
jedinou cestou je
manipulativní
experiment
(ne vždy možný )
Nebezpečí extrapolace
• Lineární regresi neužíváme proto, že
bychom věřili v lineárnost vztahu v celém
rozsahu, ale ve zvoleném rozsahu často
lze i nelineární vztah rozumně popsat
regresní přímkou
• Proto je třeba opatrnosti při extrapolaci:
radši takovou věc vůbec nedělat 
Regrese procházející počátkem
Jak to
reálně
bylo
Změna počtu druhů se stářím sopečného ostrova
Parametry nafitovaného modelu
Regression Summary f or Dependent Variable:
pocetdruhu (suspav elikon
R= .98008746 R2= .96057143 Adjusted R2= .95071429
F(1,4)=97.449 p<.00059 Std.Error of estimate: .99283
Beta
Std.Err.
B
Std.Err.
t(4)
p-lev el
N=6
of Beta
of B
Intercept
-9.57143 1.825556 -5.24302 0.006327
sukcese[roky ] 0.980087 0.099283 1.17143 0.118666 9.87164 0.000591
• S vysokou jistotou jsem tímto modelem
ukázal, že počet druhů byl na začátku
záporný ...
• ... názorný příklad nebezpečí extrapolace
Model s a = 0
• Jak se změní model, pokud z modelu
vyloučím průsečík (tj. nastavím jej na 0)?
Transformace dat v regresi
• Transformovat lze závislou proměnnou
(odezvu) i nezávislé proměnné (prediktory)
• Je tu ale jeden podstatný rozdíl: v případě
závislé proměnné měním nejen tvar
závislosti, ale i rozdělení residuálů
• Často ale oba ohledy nejdou proti sobě ...
• Změna tvaru závislosti by měla vést
k linearizaci, často lze potřebnou
transformaci odvodit ze známé rovnice
Linearizace závislosti 1
• Závislost počtu nalezených druhů na velikosti
studované plochy: SPEC = a*AREAb
• Zlogaritmováním obou stran dostávám:
log(SPEC) = log(a) + b*log(AREA)
Linearizace závislosti 2
• Exponenciální závislost počtu jedinců na
čase:
Nt=N0ert
• Po logaritmování: log(Nt) = log(N0) + r*t