Trendanalyse - AMO

Download Report

Transcript Trendanalyse - AMO

Trendanalyse op maat voor
een meetnet waterkwaliteit
NHV - dinsdag 6 maart 2012
drs. Paul K. Baggelaar
Icastat
ir. Eit C.J. van der Meulen
AMO
© Icastat - AMO
1
Hoofddoelstellingen milieumeetnetten
Beschrijven en beoordelen van:
1.
de toestand
objectiveren met behulp van normen
2. de verandering van de toestand
objectiveren met behulp van statistische
methoden
vergt veel inspanning bij grootschalig meetnet
(duizenden reeksen)
© Icastat - AMO
2
Trend
 Vorm van niet-stationariteit
 Verandering in het centrum
van de
kansverdeling van meetwaarden over
tenminste enkele jaren
 We richten ons op de monotone trend
© Icastat - AMO
3
Onderdelen van trendanalyse
1. Trenddetectie: objectieve uitspraak over
wél of géén trend
2. Trendkwantificering: schatting van de
grootte van de trend
© Icastat - AMO
4
Toetsen op monotone trend
Bekendste: toets op lineaire regressiehelling
onderzoeksvariabele
intercept
modelresidu
Yt = b0 + b1Xt + et
tijdsindex
helling
© Icastat - AMO
tijd
5
Trendtoetsen met lineaire regressie
Toetshypothesen:
H 0 :  1  0 en H a :  1  0
Toetsingsgrootheid:
b1
T
s[ b1 ]
Student-t-waarde
Verwerp H0 als T > t(0,975;n-2)
© Icastat - AMO
6
Voorwaarden trendtoetsen met
lineaire regressie
1.
Modelresiduën zijn afkomstig uit
(dezelfde) normale kansverdeling
2. Modelresiduën vertonen geen
autocorrelatie
© Icastat - AMO
7
Voorbeeld lineaire regressie
Trendplot M_10J_NA_0% (Testreeks)
20
meetwaarden
tijdreekswaarden
Lowess
trendlijn
mg/l
15
10
5
2000
© Icastat - AMO
2001
2002
2003
2004
2005
jaar
2006
2007
2008
2009
2010
8
Modelresiduën normaal verdeeld?
Tijdreeksplot modelresiduen M_10J_NA_0% (Testreeks)
mg/l
5
0
-5
2000
2001
2002
2003
2004
2005
jaar
Histogram
2006
2007
2008
2009
2010
aantal
30
20
10
0
-3
-2
-1
0
1
2
3
4
waarde mg/l
PP-plot
mg/l
5
0
-5
-3
© Icastat - AMO
-2
-1
0
normaalscore
1
2
3
9
Modelresiduën geen autocorrelatie?
Tijdreeks modelresiduen en voortschrijdend gemiddelde (365) M_10J_NA_0% (Testreeks)
4
mg/l
2
0
-2
-4
2000
2001
2002
2003
2004
2005
2006
jaar
Modelresiduen autocorrelatie?
2007
2008
2009
2010
95% betrouwbaarheidsinterval
0.6
0.4
0.2
0
-0.2
5
© Icastat - AMO
10
15
aantal tijdsintervallen
20
25
10
Uitgebreide lineaire regressie
modelruis
Z t = b0 + b1  X t + Nt
N t = 1  N t -1 + et
autoregressieve modelparameter
© Icastat - AMO
modelresidu
11
Voorbeeld uitgebreide lineaire regressie
Trendplot M_10J_NA_0% (Testreeks)
20
meetwaarden
tijdreekswaarden
Lowess
trendlijn
mg/l
15
10
5
2000
© Icastat - AMO
2001
2002
2003
2004
2005
jaar
2006
2007
2008
2009
2010
12
Modelresiduën geen autocorrelatie?
Tijdreeks modelresiduen en voortschrijdend gemiddelde (365) M_10J_NA_0% (Testreeks)
2
mg/l
1
0
-1
-2
-3
2000
2001
2002
2003
2004
2005
2006
jaar
Modelresiduen autocorrelatie?
2007
2008
2009
2010
0.3
95% betrouwbaarheidsinterval
0.2
0.1
0
-0.1
-0.2
5
© Icastat - AMO
10
15
aantal tijdsintervallen
20
25
13
Mogelijke kenmerken milieugegevens
 Ondergrens van nul
 Gecensureerde meetwaarden (bv. < 1 mg/l)
 Uitschieters, meestal naar boven
 Scheve kansverdeling (naar rechts)
 Seizoenspatroon
 Correlatie in tijd of ruimte
Rekening mee houden bij statistische analyse
© Icastat - AMO
14
Nóg uitgebreidere lineaire regressie
aantal seizoenen
seizoenseffect
seizoensindicator
Z t = b0 + b1  X t +  (  i  I i ) + N t
s
seizoensindex
i=2
N t = 1  N t -1 + et
autoregressieve modelparameter
© Icastat - AMO
modelruis
modelresidu
15
Voorbeeld verdelingsvrije toets:
Mann-Kendall-toets
n -1
S=
n
sgnZ k - Z t 

t =1 k = t +1
sgn = 1 als  > 0
sgn = 0 als  = 0
sgn =  1 als  < 0
ES = 0 en VarS =
S 1
T
Var S 
T= 0
T
© Icastat - AMO
als S > 0
als S = 0
S 1
Var S 
n  n  1  2n  5
18
als S < 0
Statistisch significante trendals :
T  U( 1 / 2 ) bij tweezijdig toetsen
16
Uitbreidingen Mann-Kendall-toets
Toetsingsgrootheid per seizoen
n g 1 n g
Sg =
  sgn[Zkg - Zig]
i=1 k=i+ 1
s
S* =  S g
g=1
*
E[S ] =
s
 E[Sg] = 0
g=1
Var[S * ] =
s
s
 Var[Sg] +   Cov[Sg ,Sh]
g=1
© Icastat - AMO
s
g=1 h g
17
Toetsen op monotone trend
Parametrisch
Lineaire regressie | +s | +a | +sa |
Verdelingsvrij
Mann-Kendall | +s | +a | +sa |
Spearman | +s |
Lettenmaier | +a | +sa |
Farrell | +s |
Wanneer welke toets gebruiken?
© Icastat - AMO
18
Criteria bij keuze trendtoets
1. Empirisch significantieniveau niet hoger dan
gehanteerd significantieniveau ()
verleent objectiviteit en zeggingskracht aan
signaleringsfunctie van het meetnet
2. Hoogste onderscheidend vermogen (1-) van
alle trendtoetsen die aan 1. voldoen
er wordt dan zo efficiënt mogelijk informatie
gefilterd uit de duur betaalde meetgegevens
© Icastat - AMO
19
Voorbeeld keuze trendtoets
Onderscheidend vermogen trendtoetsen
100%
1
80%
2
60%
40%
3
20%
=5%
0%
0
© Icastat - AMO
Trendgrootte ->
20
Percentage trenddetectie bij normale kansverdeling
100%
80%
LR
MK
60%
40%
20%
n = 120
0%
0.00
0.02
0.04
0.06
0.08
0.10
0.12
0.14
0.16
Trend [standafw/jaar]
© Icastat - AMO
21
Percentage trenddetectie bij lognormale kansverdeling
100%
80%
MK
LR
60%
40%
20%
n = 120
0%
0.00
0.02
0.04
0.06
0.08
0.10
0.12
0.14
0.16
Trend [standafw/jaar]
© Icastat - AMO
22
Kenmerken verdelingsvrij toetsen
1. Doet bij normale kansverdeling niet veel
onder voor parametrisch toetsen
2. Is bij niet-normale kansverdeling
krachtiger dan parametrisch toetsen
3. Geen last van uitschieters !
© Icastat - AMO
23
En transformeren?
 Lukt zelden volledig en toepassen van een
parametrische toets/schatter is dan niet
optimaal
 Geeft ‘kromme’ trends in de meetschaal
Bij niet-normaliteit geven wij de voorkeur aan
verdelingsvrije methoden
© Icastat - AMO
24
Toetsen geselecteerd
voor de procedure
Parametrisch
Lineaire regressie en uitbreidingen
Verdelingsvrij
Mann-Kendall en uitbreidingen
© Icastat - AMO
25
Preferentieprocessen van de toetsen
Statistische kenmerken van proces
Normale kansverdeling
Toets
S
A
S+ A
Geen normale kansverdeling
S
A
S+ A
LR
LRs
LRa
LRsa
MK
MKs
MKsa
© Icastat - AMO
26
© Icastat - AMO
27
Trendkwantificering
Trendtoets
(Uitgebreide) lineaire regressie
Mann-Kendall
Seizoenale Mann-Kendall
Seizoenale Mann-Kendall met verdiscontering autocorrelatie
Trendschatter
Lineaire regressiehelling
Theilhelling
Kendall-seizoenshelling
Theilhelling en Kendall-seizoenshelling zijn beide
zuivere en robuuste schatters, met
grotere nauwkeurigheid dan lineaire regressiehelling bij scheve kansverdelingen
© Icastat - AMO
28
Principe Theilhelling
Tijd
1
2
3
4
5
6
7
Tijd
Meetwaarde
1.2
1.6
3.4
3.7
5.2
16.0
5.8
1
1.2
2
1.6
0.40
3
3.4
1.10
1.80
4
3.7
0.83
1.05
0.30
5
5.2
1.00
1.20
0.90
1.50
6
16.0
2.96
3.60
4.20
6.15
10.80
7
5.8
0.77
0.84
0.60
0.70
0.30
-10.20
Theilhelling is mediaan van de hellingen = 1.00
© Icastat - AMO
29
Robuustheid Theilhelling
18
Uitschieter
16
14
12
10
Lineaire regressielijn
8
6
4
Theillijn
2
0
1
© Icastat - AMO
2
3
4
5
6
7
30
Nauwkeurigheid Theilhelling
[Hirsch et al., 1991]
RMSE Ratio = (RMSE Theilhelling) / (RMSE lin reghelling)
© Icastat - AMO
31
Toepassingen procedure
Grootschalige meetnetten waterkwaliteit
RIWA
RWS
10 waterschappen
drinkwaterbedrijf
Provincie
VMM






Structureren presentatie uitvoer is uitdaging !
© Icastat - AMO
32
Conclusies
1. Maatwerk bij trendanalyse loont: meer
onderscheidend vermogen bij trendtoetsen en
grotere nauwkeurigheid bij trendschatten
2. Selectie toets/schatter obv soort kansverdeling
en al of geen seizoenseffecten en/of
autocorrelatie
3. Bij niet-normaliteit verdelingsvrije methoden
4. Selectieprocedure en trendanalyse zijn zodanig
geobjectiveerd dat ze automatisch uitgevoerd
kunnen worden
© Icastat - AMO
33
Vragen?
© Icastat - AMO
34