Introgradanalcesky

Download Report

Transcript Introgradanalcesky

Úvod do gradientové analýzy
Community concept
(from Mike Austin)
Continuum concept
(from Mike Austin)
Skutečnost je někde mezi, a nejspíš
je i o něco komplikovanější
Původně (a teoreticky)
• Community concept jako základ pro
klasifikaci
• Continuum concept jako základ pro ordinaci
/ gradientovou analýzu
V praxi
• Potřebuju vegetační mapu (nebo kategorie
pro plán managementu pro AOPK) – Užiju
klasifikaci
• Zajímají mě přechody, gradienty etc. – užiju
gradientovou analýzu, ordinaci...
Methods of the gradient analysis
A priori
knowledge
of species- Method
environment
relationships
No. of No. of
environ species
mental
variable
s
1, n
1 no
40
Result
COVER
Data used in
calculations
30
20
10
0
5
6
7
pH
Regression Dependence of the
species on
environmental variables
None
n
yes
Calibration
Estimates of
environmental values
None
n
no
Ordination
Axes of variability in
species composition
1, n
n
no
Constrained Variability in species
ordination composition explained
by environmental
variables and
Relationship of
environmental variables
to the species data
8
9
Na krátkém
gradientu bývá
lineární
aproximace
dobrou volbou,
na dlouhém
gradientu
nikoliv
Nicméně
• Ve většině případů, soustředíme-li se na
jednotlivý druh, tak ani lineární, ani
unimodální odpověď nejsou ideálním
řešením.
• Při studiu celého společenstva – a tedy mnoho
druhů současně, užívám metody založené na
lineárním nebo unimodálním modelu
odpovědi jako rozumný kompromis mezi
realističností a jednoduchostí.
“Weighted averaging regression”
Odhadujeme optima druhů váženým
průměrováním
n
WA ( Sp) 
 Envi  Abundi
i 1
n
 Abund
i 1
Optimum
i
n
S .D. 
2
(
Env

WA
(
Sp
))
 Abundi
 i
i 1
n
 Abund
i 1
Tolerance
i
Environmental value
Species abundance
5
Species abundance Product
0
0.1
0
20
0.5
10
2
40
2.0
80
1
60
4.2
252
80
2.0
160
100
0.5
50
120
0.1
12
Total
9.4
564
4
3
0
0
20
40
60 80 100 120 140 160 180 200
Env ironmental v ariable
n
WA ( Sp) 
 Env  Abund
i
i 1
i
n
 Abund
i 1
i
 564/ 9.4  60
Species abundance Product
60
4.2
252
80
2.0
160
100
0.5
50
120
0.1
12
Total
6.8
472
n
WA( Sp ) 
 Env
i 1
i
 Abund i
n
 Abund
i 1
i
 472 / 6.8  69.4
5
Species abundance
Environmental. value
4
3
2
1
0
0
20
40
60 80 100 120 140 160 180 200
Env ironmental v ariable
Techniky založené na lineárním modelu odpovědi jsou
vhodné pro homogenní data (tedy krátké gradienty), metody
založené na váženém průměrování jsou vhodné pro
heterogenní data – dlouhé gradienty.
Kalibrace (s užitím váženého průměrování)
s
WA ( Sam p) 
 IV  Abund
i
i 1
s
 Abund
i 1
Drosera rotundifolia
Andromeda polypofila
Vaccinium oxycoccus
Vaccinium uliginosum
Urtica dioica
Phalaris arundinacea
Total
Nitrogen (WA):
i
Nitrogen IV
1
1
1
3
8
7
i
Sample 1
2
3
5
2
0
0
12
1.333
(=16/12)
IV x abund.
2
3
5
6
0
0
16
Sample 2
0
0
0
1
5
5
11
7.090
(=78/11)
IV x abund.
0
0
0
3
40
35
78
Ordinační diagram
Urtica
Chenopodium
Cactus
Nymphea
Menyanthes
Comarum
Aira
Drosera
Ordinační diagram
Nutrients
Urtica
Chenopodium
Cactus
Nymphea
Menyanthes
Comarum
Aira
Drosera
Proximity means similarity
Water
Dvě možné formulace problému ordinace
1.
Nalezni konfiguraci vzorků (objektů) v ordinačním
prostoru tak, aby vzdálenosti co nejlépe odpovídali
nepodobnosti v jejich druhovém složení. Explicitně to dělá
multidimensional scaling. (Metric and non-metric). Musíme
mít definováno, jak se měří nepodobnost druhového složení.
2. Nalezni "latentní" proměnné (ordinační osy), které budou
nejlepšími prediktory pro hodnoty všech druhů v souboru.
Tento přístup vyžaduje, abychom měli definován model (pro
všechny druhy stejný) odpovědi druhu na hodnotu prediktoru
(tj. ordinační osy).
Pozn. Obecně, místo vzorků a druhů můžeme mít objekty, a
na nich měřené charakteristiky (proměnné)
Terminologie
• Staré CANOCO – vzorky (samples), druhy
(species), proměnné prostředí
(environmental variables)
• Nové Canoco5 – obecně případy (cases),
odpovědi (reponse variables), vysvětlující
proměnné (predictors) – ty si ale můžeme
libovolně nazvat
Model linearní odpovědi je předpokládán v tzv.
lineárních metodách ordinace, model unimodální
odpovědi v metodách užívajících weighted
averaging (též zvané unimodální metody). V
lineárních metodách je sample score lineární
kombinací (váženým součtem) skore druhů, v
unimodálních metodách je to vážený průměr
(+nějaké přeškálování).
Note: Algoritmus weighted averaging zahrnuje
implicitní dvojí standardizaci (po vzrcích i po
druzích) U lineárních metod si můžeme vybrat, jestli (a
kterou) standardizaci chceme, a kterou ne.
Kvantitativní data
Transformace je algebraická funkce Xij’=f(Xij) –
aplikujeme ji nezávisle na ostatních hodnotách.
Standardizaci provádíme buď s ohledem na ostatní
hodnoty ve vzorku (standardization by samples) nebo
na hodnoty daného druhu v ostatních vzorcích
(standardization by species).
[obecně standardizaci
provádíme pro případy/objekty – cases, nebo proměnné –
variables.
Centering znamená odečtení průměru. Výsledný sloupec
nebo řádek má potom nulový průměr
Standardizace obvykle dělíme hodnotu sumou nebo normou
(sloupce nebo řádku). Standardization by total / by norm.
Weighted averaging implikuje užití chi2 distance
Chi-squared distance
2
12
1

j 1 S  j
s

 X1 j X 2 j 



 S1 S 2 
2
where S+j is total of j-th species values over all the
samples
n
S  j   X ij
i 1
and Si+ is total of all the species values in the i-th
sample
s
Si    X ij
i 1
Všimněte si, že
v této míře už je
zahrnutá dvojitá
standardizace
(by total)
Obě formulace mohou vést ke stejnému řešení. (Kdyby
byly vzorky podobného složení na ordinační ose daleko od
sebe, tak ta ordinační osa nemůže mít dobré predikční
schopnosti.) Například, principal component analysis –
PCA – může být formulována jako projekce v
Euklidovském prostoru, nebo jako hledání nejlepšího
lineárního prediktoru.
Specifikováním typu odpovědi
specifikujeme vlastně i užitou míru
podobnosti (a vice versa), ale pro
některé míry podobnosti neexistuje
odpovídající model.
„Dobrá” osa zachovává původní vzdálenosti (nepodobnosti), a je
také dobrým prediktorem pro jednotlivé druhy, ‚špatná“ osa
nedokáže ani jedno, ani druhé.
9
„bad“
8
7
Species 2
6
5
4
„good“
3
2
1
0
2
3
4
5
6
Species 1
7
8
9
10
„Dobrá” osa zachovává původní vzdálenosti (nepodobnosti), a je
také dobrým prediktorem pro jednotlivé druhy, „špatná“ osa
nedokáže ani jedno, ani druhé.
10
9
Species1
8
9
7
6
5
8
4
7
3
2
2
5
4
6
8
10
12
Good axis
4
9
3
8
2
7
1
0
2
3
4
5
6
Species 1
7
8
9
10
Species 2
Species 2
6
6
5
4
3
2
1
0
2
4
6
8
Good axis
10
12
14
14
“Špatná osa” je zcela neužitečná
jako prediktor pro jednotlivé druhy
10
9
Species 1
8
9
8
7
6
5
7
4
6
5
2
7.0
7.2
7.4
7.6
7.8
4
8.0
8.2
8.4
8.6
8.8
9.0
9.2
9.4
9.6
Bad axis
9
3
8
2
7
1
0
2
3
4
5
6
Species 1
7
8
9
10
Species 2
Species 2
3
6
5
4
3
2
1
0
7.0
7.2
7.4
7.6
7.8
8.0
8.2
8.4
Bad axis
8.6
8.8
9.0
9.2
9.4
9.6
Když jsou proměnné (druhy) prakticky nezávislé, žádná
dobrá osa neexistuje – vzdálenosti nejsou zachovávány, a osa
neslouží jako prediktor
9
8
7
Species2
6
5
4
3
2
1
0
-2
0
2
4
Species1
6
8
10
Za výsledky ordinace považujeme hodnoty jednotlivých
vzorků (případů) na ordinační ose (latentní proměnné latent variable) zvané sample/case scores a odhady
optim druhů na této proměnné (the species scores,
variable scores) [pro unmodální metody; pro lineární
metody jsou to charakteristiky lineární závislosti].
Přitom požadujeme, abych charakteristiky (score) snímků
mohly být odhadnuty z charakteristik druhů (váženým
průměrováním), a aby charakteristiky druhů mohly být
stejně odhadnuty z charakteristik (score) vzorků,
Toho lze dosáhnout pomocí následujícího algoritmu:
Step 1 Začni s vybranými (z palce vycucanými)
počátečními skore (souřadnicemi) vzorků {xi}
Step 2 Spočti skore druhů {yi} pomocí [weighted
averaging] regrese z hodnot {xi}
Step 3 Spočti nová skore vzorků {xi} pomocí [weighted
averaging] kalibrace z hodnot {yi}
Step 4 Odstraň „smrštění“ ordinační osy pomocí
lineárního přeškálování (natéhni osy – „jako gumu“)
Step 5 Při konvergenci můžeš skončit, jinak GO TO Step
2
xrescaled
x  xmin

 length
xmax  xmin
xmax  xmin

length
=eigenvalue
0
10
Steps 1 to 3
xmin
xmax
0
Jako bych měl
značky na
gumě, a tu
gumu natáhnul
10
xrescaled
x  xmin

 length
xmax  xmin
Délka osy je často arbitrárně daná
(ale jsou výjimky – viz dále)
Orientace os je arbitrární (co je
důležité jsou vzájemné pozice
druhů a snímků)
Čím větší je eigenvalue (charakteristické číslo), tím větší je
vysvětlující síla dané prdinační osy. Množství vysvětlené
variability je úměrné hodnotě eigenvalue.
Ve weighted averaging, eigenvalues < 1 (=1 je jenom pro perfect
partitioning).
V programu CANOCO jsou lineární metody škálovány tak, že
sume hodnot eigenvalue = 1 (nemusí platit pro jiné programy)
samples
xx0xx
xxx0x
0
perfect partitioning
0
x0xx0
xxx0x
Constrained ordination
Osa je lineární kombinací měřených proměnných
(lineární kombinace = a X1 +b X2 + c X3 )
Step 1 Začni s vybranými (z palce vycucanými)
počátečními skore (souřadnicemi) vzorků {xi}
Step 2 Spočti skore druhů {yi} pomocí [weighted
averaging] regrese z hodnot {xi}
Step 3 Spočti nová skore vzorků {xi} pomocí
[weighted averaging] kalibrace z hodnot {yi}
Step 4 Odstraň „smrštění“ ordinační osy pomocí
lineárního přeškálování (natéhni osy – „jako gumu“)
Step 5 Při konvergenci můžeš skončit, jinak GO TO
Step 2
Constrained ordination
Osa je lineární kombinací měřených proměnných
(lineární kombinace = a X1 +b X2 + c X3 )
Step 1 Začni s vybranými (z palce vycucanými)
počátečními skore (souřadnicemi) vzorků {xi}
Step 2 Spočti skore druhů {yi} pomocí [weighted
averaging] regrese z hodnot {xi}
Step 3 Spočti nová skore vzorků {xi} pomocí [weighted
averaging] kalibrace z hodnot {yi}
Step 3a – Spočti regresi skore vzorků {xi} na měřených
hodnotách prostředí a původní hodnoty nahraď
regresními odhady
Step 4 Odstraň „smrštění“ ordinační osy pomocí
lineárního přeškálování (natéhni osy – „jako gumu“)
Step 5 Při konvergenci můžeš skončit, jinak GO TO
Step 2
CaseR vs. CaseE
• Step 3a – Spočti regresi skore vzorků {xi} na
měřených hodnotách prostředí a původní
hodnoty nahraď regresními odhady
• CaseR score = hodnota spočtená z druhového
složení (kde je vzorek podle druhového
složení[nebo obecně podle response variables]) –
nicméně, dv souřadnicích os, které jsou určeny
proměnými prostředí
• CaseE score = fitovaná hodnota, tj . Lineární
kombinace hodnot proměnných prostředí/
prediktorů (kde by měl vzorek být podle
fitovaného modelu) – při kreslení omezených
ordinací je to default
Základní ordinační techniky
Linear methods
Weighted averaging
Unconstrained
Principal Components
Analysis (PCA)
Correspondence Analysis (CA)
Constrained
Redundancy Analysis
(RDA)
Canonical Correspondence
Analysis (CCA)
Detrending
Hybridní analýzy
PCA
CA
RDA
CCA
Detrending – druhá osa je BY DEFINITION
lineárně nezávislá na první ose (korelční
koeficient je nula) – to ale nevylučuje možnost
nějaké kvadratické závislosti.
Tak vezmeme kladivo a narovnáme ji
Pozor, to děláme při každé iteraci – to velmi často donutí
metodu najít ekologicky smysluplný gradient - druhá osa,
která je kvadratickou funkcí první osy takovým gradientem
často nebývá
Tak ji narovnáme
Detrending by segments (vysoce
neparametrické) nebo by polynomials
Bez ohledu na svou “heuristickou” povahu,
detrending udělá druhou osu často interpretovatelnou
Detrending by segments je spojeno s takzvaným nonlinear rescaling
smysl s.d. – units
Myšlenka je
Odpověď druhu na gradient (zde představovaný osou) má tvar
gaussovské křivky – „šířka niky“ může být charakterizována
pomocí „s.d.“ (odpovídá směrodatné odchylce příslušného
normálního rozdělení – průměrná s.d. (přes všechny druhy) je s.d.
unit
1 s.d.
Jednoduchost vs. realističnost
• V unimodálních metodách, souřadnice (skore)
druhů jsou optima druhů (předpokládaný vrchol
unimodální křivky), v lineárních metodách jsou
šipky směry lineární odpovědi
• Bylo by samozřejmě hezké mít pro každý druh
realističtější odpověď – nicméně, u při uvedeném
výrazném zjednodušení nedostaneme do
ordinačního diagramu obvykle všechny druhy.
Uvést komplikovanější typy odpovědí by
znamenalo mít ještě méně druhů, a přehlednost by
se úplně ztratila.
DVA PŘÍSTUPY
Když máme k dispozici jak data o druhovém složení, tak data o
prostředí (obecně, odpovědi i prediktory), máme dvě možnosti. 1.
Nejdřív spočteme neomezenou (unconstrained) ordinaci, a do ní
pasivně promítneme proměnné prostředí (pomocí regrese), nebo
spočteme ordinaci přímou.
(D)CA
S pasivně
promítnutými
proměnnými
prostředí.
nebo
CCA
Tyto dva přístupy jsou kompementární a měly
bychom je užívat oba – nejprve neomezenou, a
poté omezenou ordinaci! Pomocí neomezené
ordinace jistě zachytíme osy největší variability v
druhovém složení, ale některá proměnná prostředí,
která má průkazní, ale níkoliv dominantní efekt se
může jevit jako nedůležitá, nic nevysvětlující.
Když počítáme přímou ordinaci, můžeme vhodně
otestovat všechny proměnné prostředí, ale může
nám uniknout nejdůležitější osa variability
druhového složení, pakliže jsme k ní neměřili
příslušnou určující proměnnou prostředí.
Co budeme dělat s kategoriálními
proměnnými?
1
Var1
1
2
3
4
5
6
7
8
9
10
2
Var2
0
0
0
0
0
1
1
1
1
1
Univ ariate Tests of Signif icance f or Var2 (Spreadsheet
Sigma-restricted parameterization
Ef f ectiv e hy pothesis decomposition
SS
Degr. of
MS
F
p
Ef f ect
Freedom
Intercept 360.0000
1 360.0000 76.59574 0.000023
"Var1"
32.4000
1 32.4000 6.89362 0.030386
Error
37.6000
8
4.7000
2
3
4
5
7
5
6
9
8
11
S
c
a
tte
r
p
o
l
t(
S
p
r
e
a
d
s
h
e
e
t1
1
0
v
*
1
0
c
)
V
a
r
2
=
4
.2
+
3
.6
*
x
1
2
Analy sis of Variance; DV: Var2 (Spreadsheet1)
Sums of df Mean
F
p-lev el
Ef f ect
Squares
Squares
Regress. 32.40000 1 32.40000 6.893617 0.030386
Residual 37.60000 8 4.70000
Total
70.00000
1
0
Var2
8
6
4
2
0
0
.2
0
.0
0
.2
0
.4
0
.6
V
a
r
1
0
.8
1
.0
1
.2
ANOVA grouping=var4
4
Var4
1
2
3
4
5
6
7
8
9
10
5
Var5
1
1
1
2
2
2
3
3
3
3
6
Var6
1
1
1
0
0
0
0
0
0
0
7
Var7
0
0
0
1
1
1
0
0
0
0
2
3
4
2
5
6
7
8
9
8
Univ ariate Tests of Signif icance f or Var7 (Spreadsheet1
Sigma-restricted parameterization
Ef f ectiv e hy pothesis decomposition
SS
Degr. of
MS
F
p
Ef f ect
Freedom
Intercept 256.4848
1 256.4848 141.7416 0.000007
"Var4"
47.7333
2 23.8667 13.1895 0.004224
Error
12.6667
7
1.8095
Regression Summary for Dependent Variable: Var7
(Spreadsheet1) Independent Var5 and Var6
R= .88898086 R2= .79028698 Adjusted R2= .73036897
F(2,7)=13.189 p<.00422 Std.Error of estimate: 1.3452
Dummy variables
4
5
groundrock basalt
1 basalt
1
2 basalt
1
3 basalt
1
4 granit
0
5 granit
0
6 granit
0
7 limestone
0
8 limestone
0
9 limestone
0
10 limestone
0
6
granit
0
0
0
1
1
1
0
0
0
0
7
8
limestone biomass
0
2
0
3
0
4
0
2
0
5
0
6
1
7
1
8
1
9
1
8
V Canoco 5 (nikoliv ve starších versích), expanze faktoru do
dummy variables je dělána automaticky (prostě řekneme
programu, tohle je faktor – ale je třeba o tom vědět.
Prediktory an odpovědi jsou
obvykle různě korelované,
rozdělení odpovědí není
normální. Pro testování užíváme
proto
Monte Carlo permutation test.
Monte Carlo permutation test
Plant
1-st
2-nd
3-rd
4-th
Nitrogen height (as
permutation permutation permutation permutation
measured)
5-th
etc
5
3
3
8
5
5
...
7
5
8
5
5
8
...
6
5
4
4
3
4
...
10
8
5
3
8
5
...
3
4
5
5
4
3
...
F-value
10.058
0.214
1.428
4.494
0.826
0.###
1  pocet. perm utaci, kde( F  10.058)
1  celkovy. pocet. perm utací
10,058 – myšleno zde, obecně je to F v nepermutovaných datech