Mnohonásobná regrese a mnohorozměrná analýza dat v programu CANOCO Mnohonásobná regrese • mám více prediktorů – ovlivňuje výšku rostliny hnojení a zálivka? – ovlivňuje hmotnost těla.

Download Report

Transcript Mnohonásobná regrese a mnohorozměrná analýza dat v programu CANOCO Mnohonásobná regrese • mám více prediktorů – ovlivňuje výšku rostliny hnojení a zálivka? – ovlivňuje hmotnost těla.

Mnohonásobná regrese a
mnohorozměrná analýza dat
v programu CANOCO
Mnohonásobná regrese
• mám více prediktorů
– ovlivňuje výšku rostliny hnojení a zálivka?
– ovlivňuje hmotnost těla zeměpisná šířka a
nadmořská výška?
• prediktory by ideálně neměly být korelované
• lineární model:
Y     1X 1   2 X 2  
Y     iXi  
i
Mnohonásobná regrese
• lineární - grafem je rovina (pro 2 prediktory)
3D povrchový graf (Tabulka1 10v*17c)
Prom3 = 1649.5152+0.7729*x+0.9422*y
5000
4000
3000
2000
1000
Mnohonásobná regrese
• kvadratická
3D povrchový graf (Tabulka1 10v*17c)
Prom3 = 1697.5292+0.871*x-3.2787*y-1.3512E-5*x*x-0.0005*x*y+0.0093*y*y
6000
5000
4000
3000
2000
1000
Mnohonásobná regrese
• metoda nejmenších čtverců
3D povrchový graf (Tabulka1 10v*32c)
Prom3 = MNČ váž. vzdáleností
8000
6000
4000
2000
Mnohonásobná regrese
• koeficienty α a βi-n odhadujeme stejně jako
u jednoduché regrese
• testujeme:
– ANOVA celého modelu (ani jeden prediktor
nevysvětluje závisle proměnnou)
– t-testy jednotlivých regresních koeficientů (k
jednotlivým proměnným)
Mnohorozměrná analýza dat
• Canoco for Windows
– program pro hodnocení společenstev
– mám seznam lokalit (vzorky) a druhů, které
jsem tam našel
– dostanu ordinační diagram - „podobné“ druhy,
lokality nebo oboje jsou u sebe
– pokud mám ve vzorcích změřené nějaké
vysvětlující proměnné (např. abiotické
faktory), můžu si najít jestli průkazně ovlivňují
druhy a jak
Canoco – velmi stručný návod
• v podstatě hledá imaginární „co nejlépe“
vysvětlující proměnné (osy)
• viz Mnohorozměrná analýza ekologických
dat. Jan Lepš & Petr Šmilauer, BF JU v ČB,
2000
• obecně pomocí Canoca mohu hodnotit jakoukoli
(mnohorozměrnou) odpověď
– typicky tedy druhy (počty, 0-1, třídy početnosti,…) ve
vzorcích
– ale i např. hmotnost, strupovitost, chuť a rezistence
brambor
– známka z M, Čj, Fy, Bi, Tv, D a Ch u studentů
– délka pestíku, plocha listů, průměr stonku, počet listů,
celková výška u rostlin
Canoco – velmi stručný návod
• zdrojová data – v Excelu či jiném
tabulkovém procesoru
• „druhová“ data:
– řádky jsou jednotlivé vzorky
– ve sloupcích druhy (nebo to co sleduji)
hodnocené téměř libovolným způsobem (0-1,
počet, ordinální kategorie, délka,
hmotnost,…….)
Canoco – velmi stručný návod
• druhová data převedu do formátu Canoca
programem WCanoImp (oblast dat v Excelu
zkopíruji do schránky, spustím WCanoImp
a dám „Save“)
• uložím jako *.dta nebo *.spe (pokud chci
aby to Canoco zobrazilo, jinak můžu třeba
*.xyz)
• Spustím Canoco for Windows a zvolím
nový projekt
Canoco – velmi stručný návod
• vyberu soubor s druhovými daty a zadám
soubor, kam se uloží řešení projektu (*.sol)
• Type of Analysis – zde můžu zvolit některou
nepřímou (neomezenou) analýzu (PCA –
Principle Component Analysis, CA –
Correspondent Analysis, DCA – detrended CA)
• nejprve zvolím DCA, podle výsledku se
rozhodnu mezi PCA (lineární) či CA (unimodální)
Lineární metody – předpokládám lineární
odpověď, anebo mám krátký úsek gradientu
Unimodální – nepředpokládám lineární odpověď,
anebo mám dlouhý úsek gradientu
podle Lepš a Šmilauer 2000
Canoco – velmi stručný návod
• Provedu DCA (většinou nechám defaultní
nastavení, pokud mám počty jedinců je dobrá
použít odmocninovou transformaci)
• Po analýze dostanu souhrnnou tabulku:
• pokud je délka gradientu větší než 4, měl bych
použít unimodální. Pokud menší než 3, bývá
lepší lineární. Pokud 3-4  je to na mně.
Canoco – velmi stručný návod
• podle délky gradientu tedy zvolím CA nebo
PCA
• provedu analýzu, přepnu do CanoDraw
Kumulovaná procentuální část variability
vysvětlená jednotlivými osami
Canoco – velmi stručný návod
• pokud mám u vzorků změřené nějaké
vysvětlující proměnné:
–
–
–
–
mám je v Excelu ve stejném pořadí jako druhová data
oblast vyberu a spustím WCanoImp
uložím jako *.dta nebo *.env
v Canocu užiji omezené (přímé) analýzy – RDA
(Redundancy Analysis), CCA (Canonical
– Correspondence Analysis)
– zase mezi lineárními a unimodálními rozhodnu
pomocí DCA
Canoco – velmi stručný návod
• proměnné – poměrová, intervalová či ordinální
škála
• kategoriální proměnné – zadávám jako tzv.
dummy variables
smrk
buk
jedl_buk
louka
1
0
0
0
0
1
0
0
0
0
0
1
1
0
0
0
• nebo fuzzy variables
svetlo
stin
0
1
0.5
0.5
1
0
Canoco – velmi stručný návod
• Canoco umí spočítat, jestli daná
vysvětlující proměnná (environmentální
charakteristika) ovlivňuje vysvětlované
proměnné (druhy) statisticky průkazně –
tzv. Monte-Carlo permutační testy
• manuální „forward selection“ – do analýzy
zařadím jen ty proměnné, které mají
průkazný efekt (většinou, záleží na tom co
chci získat)
Canoco – velmi stručný návod
• další postup podobný jako u neomezených analýz
• ve výsledcích dostanu omezené a neomezené
osy
• kategoriální (nominální) proměnné musím v
CanoDraw takto značit
• pokud mám kovariáty (covariables, vysvětlující
proměnné, jejichž vliv chci odfiltrovat) – volím na
začátku projektu
• další – viz cvičení a Lepš a Šmilauer 2000