Baza danych prawdopodobieństwa maksymalnych sum dobowych
Download
Report
Transcript Baza danych prawdopodobieństwa maksymalnych sum dobowych
Baza danych
prawdopodobieństwa
maksymalnych miesięcznych
i rocznych sum dobowych opadów
z terenu Polski – wersja 1
Alfred Stach
Instytut Paleogeografii i Geoekologii UAM
Prawdopodobieństwo maksymalnych
okresowych sum dobowych opadów
Atlas hydrologiczny … 1986
Wykorzystano dane z 301 stacji i posterunków z lat
1951 – 1975
Do określenia prawdopodobieństwa maksymalnych
sum dobowych zastosowano rozkład Pearsona III
typu i metodę kwantyli do szacowania jego
parametrów
„Zmienność maksymalnych sum dobowych w skali
kraju jest niewielka, natomiast rozrzut wyników
obliczeń dla jednakowych prawdopodobieństw
występowania jest znaczny na obszarach o
zbliżonych warunkach fizyczno-geograficznych”
(Ciepielowski, Dąbkowski 2006)
„W związku z rozwojem metod empirycznych oceny
maksymalnych przepływów prawdopodobnych
pochodzenia deszczowego w zlewniach
niekontrolowanych hydrologicznie, przydatność tej
charakterystyki (tj. maksymalnych sum dobowych)
jest duża, …” (Ciepielowski, Dąbkowski 2006)
Atlas hydrologiczny … 1986
Metodyka opracowania nowej bazy
Użyto wszystkie dostępne dane MSDO z okresu
1956 – 1980 (opublikowane w Rocznikach
Opadowych i pozyskane z przygranicznej strefy na
terenie Niemiec).
Zastosowano metodę przestrzenną –
uwzględniającą autokorelację MSDO
Z dostępnych metod - kriging multigaussowski
(ang. multigaussian kriging), kriging dysjunktywny
(ang. disjunctive kriging) oraz kriging wartości
kodowanych (ang. indicator kriging – IK) – wybrano
ostatni z wymienionych
Metodykę IK przedstawiono 2 lata temu;
kompletne opisy znajdują się w szeregu
podręczników (między innymi Chilès, Delfiner
1999, Deutsch, Journel 1998, Goovaerts 1997,
Webster, Oliver 2001)
Kryteria wyboru metody
krigingu wartości kodowanych (IK)
Wady:
utrata części informacji ze względu dyskredytyzację ciągłej dystrybuanty
empirycznej,
pracochłonność – konieczność czasochłonnego budowania modelu
semiwariancji dla każdej wartości progowej; często występujące trudności w
określeniu modeli dla wartości bardzo niskich i bardzo wysokich zmuszają do
subiektywnych decyzji, a te rodzą wątpliwości co do optymalności uzyskanych
estymacji,
wykraczanie estymowanych prawdopodobieństw poza dopuszczalny zakres
(0, 1), oraz błędy w ich relacjach porządkowych,
arbitralnie przyjmowana metoda interpolacji/ekstrapolacji uzyskanej
warunkowej dystrybuanty.
Zalety:
potwierdzona w dziesiątkach zastosowań i testów metodycznych skuteczność,
brak trudnych do weryfikacji założeń dotyczących rozkładu statystycznego
populacji (metoda nieparametryczna),
żadna z alternatywnych metod nie jest wyraźnie lepsza,
alternatywne metody są bardziej skomplikowane = bardziej „podatne” na
błędy metodyczne,
łatwa możliwość uwzględnienia danych uzupełniających („twardych” i
„miękkich”).
powszechna dostępność oprogramowania (Deutsch, Journel 1998, Mao,
Journel 1998, Pardo-Igúzquiza, Dowd 2005, Richmond 2002.
Problem rozdzielczości
rastrowej bazy danych
Analizy GIS których efektem są rastrowe modele
zmienności przestrzennej wymagają na etapie planowania
metodyki podjęcia decyzji o ich rozdzielczości, czyli
inaczej mówiąc o wymiarach oczka siatki.
Najważniejsze kryteria brane pod uwagę dotyczą zbioru
danych na podstawie którego budowany jest model:
typ próbkowania (punktowe bądź obszarowe; losowe,
regularne, preferencyjne, profilowe itp.),
zagęszczenie danych (ilość na jednostkę powierzchni),
charakterystyki zmienności przestrzennej analizowanej cechy:
statystyki lokalne,
parametry autokorelacji,
rozkład statystyczny błędów zarówno samych pomiarów, jak i
określenia lokalizacji stanowisk pomiarowych.
Kryteria uzupełniające:
docelowa skala modelu (mapy),
przeznaczenie modelu,
ograniczenia odnośnie mocy obliczeniowej i pamięci
komputera.
Problem rozdzielczości
rastrowej bazy danych
Wykorzystano zalecenia Hengla (2006)
Kryteria:
docelowa skala modelu (ok. 1 : 6 000 000): zakres
rozdzielczości optymalnych od 600 do 15 000 m;
rozdzielczość optymalna – 3 000 m,
ilość (zagęszczenie danych): zakres rozdzielczości
optymalnych - od 567 do 1134 m; rozdzielczość
optymalna – 900 m,
typ rozkładu przestrzennego danych źródłowych:
zakres rozdzielczości optymalnych - od 1300 m do
3900 m; rozdzielczość optymalna – 2 800 m,
zasięg autokorelacji danych: zakres rozdzielczości
optymalnych - od 1560 do 7750 m; rozdzielczość
optymalna – 750 m,
Błąd określenia położenia stanowiska pomiarowego:
od 600 do 900 m
Przyjęta ostatecznie rozdzielczość modelu: 1000 m
Dane pomiarowe
Problem zmian
ilości
i rozkładu
przestrzennego
danych
Eliminacja
danych
Kompletność serii
pomiarowych
Eliminacja
danych
Uzupełnianie serii
pomiarowych
Analiza serii
czasowych
Dane pomiarowe
t1
Równomierność
pokrycia
Analiza
przestrzenna
(interpolacja)
t2
t3
t54
...
tn-2 tn-1
tn
Analiza
Analiza
przestrzenna
Analiza
przestrzenna
(interpolacja) dla t1 przestrzennaAnaliza Analiza
(interpolacja) dla t2 przestrzenna
(interpolacja) dla t3 przestrzennaAnaliza Analiza
(interpolacja) dla t4 przestrzenna
Analiza
(interpolacja) dla t...
przestrzenna
(interpolacja) dla tn-2
przestrzenna
(interpolacja) dla tn-1
(interpolacja) dla tn
Analiza statystyczna
(w tym serii czasowych)
Odległość - [m] - Distance
0,4
4000
A
Skośność - Skewness
6000
1,1
1
0
1980
1978
1979
1977
1976
1975
1973
1974
1972
1971
1969
1970
1968
1967
1966
1965
1963
1964
1962
1961
1960
1958
1959
1957
1956
0,9
Rok - Year
8000
Odległość - [m] - Distance
6000
(a)
(b)
(c)
(d)
0,4
4000
Miesiące – Months
-5
01 6
-5
01 7
-5
01 8
-5
01 9
-6
01 0
-6
01 1
-6
01 2
-6
01 3
-6
01 4
-6
01 5
-6
01 6
-6
01 7
-6
01 8
-6
01 9
-7
01 0
-7
01 1
-7
01 2
-7
01 3
-7
01 4
-7
01 5
-7
01 6
-7
01 7
-7
01 8
-7
01 9
-8
0
B
1,1
1
0
1980
1979
1978
1977
1976
1975
1974
1973
1972
1971
1970
1969
1968
1967
1966
1965
1964
1963
1962
1961
1960
1959
1958
70
1957
2800
1956
01
0,9
Rok - Year
2600
60
2400
50
2200
40
a
b
c
d
2000
1800
30
1980
1979
1978
1977
1976
1975
1974
1973
1972
1971
1970
1969
1968
1967
1966
1965
1964
1963
1962
1961
1960
1959
1958
1957
20
1956
1600
Statystyki odległości najbliższego sąsiada i
losowości rozkładu przestrzennego punktów
pomiarowych, dla których analizowano MSDO
opadów, w kolejnych miesiącach (A) i latach (B)
wielolecia 1956-80. Objaśnienia: (a) – średnia odległość do
najbliższego sąsiada, (b) – odchylenie standardowe odległości do
najbliższego sąsiada, (c) – skośność odległości do najbliższego
sąsiada, (d) – wskaźnik Clarka i Evansa losowości rozkładu
przestrzennego.
Wskaźnik - Clark and Evans - Index
PIHM/IMGW, b – dane roczne z Roczników Opadowych
PIHM/IMGW, c – miesięczne dane z przygranicznej strefy na
obszarze Niemiec, d – roczne dane z przygranicznej strefy na
obszarze Niemiec
1,2
0,8
Skośność - Skewness
Zestawienie ilości pomiarów MSDO w Polsce i
w Niemczech, które wykorzystano w niniejszym
opracowaniu: a – dane miesięczne z Roczników Opadowych
Rok – Year
Wskaźnik - Clark and Evans - Index
Problem zmian
ilości
i rozkładu
przestrzennego
danych
1,2
0,8
Dane niemieckie – German data
Ogólna ilość danych – Total number of data
8000
Problem zmian ilości
i rozkładu przestrzennego danych – ocena
za pomocą kroswalidacji
10
0.05
MAE
MSSR
ME
9
0
8
-0.05
6
-0.1
ME (mm)
MAE (mm) i MSSR
7
5
-0.15
4
3
-0.2
2
-0.25
1
0
-0.3
1
10 19 28 37 46 55 64 73 82 91 100 109 118 127 136 145 154 163 172 181 190 199 208 217 226 235 244 253 262 271 280 289 298
Miesiące
Problem zmian ilości
i rozkładu przestrzennego danych – ocena
za pomocą kroswalidacji
1
1
G
PI-sw
0.99
0.9
0.98
0.8
0.97
PI-sw
GI
0.7
0.96
0.6
0.95
0.5
0.94
0.4
0.93
0.92
0.3
1
11
21
31
41
51
61
71
81
91 101 111 121 131 141 151 161 171 181 191 201 211 221 231 241 251 261 271 281 291
Miesiące w latach 1956-80
Problem optymalizacji parametrów
obliczeń
10.2
Ilość punktów danych używanych do estymacji wartości
każdego węzła siatki – optymalizacja za pomocą
kroswalidacji
2.2
6.4
Średni błąd absolutny (MAE)
2
10
1.8
9.8
6
1.6
5.6
1.4
9.6
1.2
9.4
1
4
8
12
16
Ilość punktów w sąsiedztwie
20
24
5.2
08-56
06-57
10-61
05-65
07-65
05-67
02-72
Problem optymalizacji parametrów
obliczeń:
Ilość punktów danych używanych do estymacji wartości
każdego węzła siatki – optymalizacja za pomocą
kroswalidacji
1
1.4
Szerokość pasma (PI-width)
Dokładność (GI)
0.96
0.92
08-56
06-57
10-61
05-65
07-65
05-67
02-72
0.88
0.84
0.8
0.44
08-56
06-57
10-61
05-65
07-65
05-67
02-72
1.2
0.42
1
0.4
0.8
0.6
4
8
12
16
Ilość punktów w sąsiedztwie
20
24
0.38
4
8
12
16
Ilość punktów w sąsiedztwie
20
24
Wybrane przykłady z opracowanej
wieloletniej bazy danych
Średnia oczekiwana wartość MSDO (mm)
Styczeń
Lipiec
700000
600000
13.5
13.0
12.5
12.0
11.5
11.0
10.5
10.0
9.5
9.0
8.5
8.0
7.5
7.0
6.5
6.0
5.5
500000
400000
300000
200000
200000
300000
400000
500000
600000
Współrzędna - X (m) - Coordinate
700000
800000
Współrzędna - Y (m) - Coordinate
Współrzędna - Y (m) - Coordinate
700000
600000
40.0
38.0
36.0
500000
34.0
32.0
30.0
400000
28.0
26.0
300000
24.0
22.0
20.0
200000
18.0
16.0
200000
300000
400000
500000
600000
Współrzędna - X (m) - Coordinate
700000
800000
Wybrane przykłady z opracowanej
wieloletniej bazy danych
Odchylenie standardowe wartości oczekiwanej (mm)
Styczeń
Lipiec
700000
600000
14.5
14.0
13.5
13.0
12.5
12.0
11.5
11.0
10.5
10.0
9.5
9.0
8.5
8.0
7.5
7.0
6.5
6.0
5.5
5.0
500000
400000
300000
200000
200000
300000
400000
500000
600000
Współrzędna - X (m) - Coordinate
700000
800000
Współrzędna - Y (m) - Coordinate
Współrzędna - Y (m) - Coordinate
700000
600000
44
42
40
500000
38
36
34
400000
32
30
28
26
300000
24
22
20
200000
18
16
200000
300000
400000
500000
600000
Współrzędna - X (m) - Coordinate
700000
800000
Wybrane przykłady z opracowanej
wieloletniej bazy danych
Oczekiwana suma opadu
o prawdopodobieństwie 0,1 (mm)
Styczeń
Lipiec
700000
600000
34
33
32
31
30
29
28
27
26
25
24
23
22
21
20
19
18
17
16
15
14
13
12
500000
400000
300000
200000
200000
300000
400000
500000
600000
Współrzędna - X (m) - Coordinate
700000
800000
Współrzędna - Y (m) - Coordinate
Współrzędna - Y (m) - Coordinate
700000
600000
105
100
95
500000
90
85
80
400000
75
70
65
60
300000
55
50
45
200000
40
35
200000
300000
400000
500000
600000
Współrzędna - X (m) - Coordinate
700000
800000
Wybrane przykłady z opracowanej
wieloletniej bazy danych
Oczekiwana suma opadu
o prawdopodobieństwie 0,01 (mm)
Styczeń
Lipiec
700000
600000
54
52
50
48
46
44
42
40
38
36
34
32
30
28
26
24
22
20
500000
400000
300000
200000
200000
300000
400000
500000
600000
Współrzędna - X (m) - Coordinate
700000
800000
Współrzędna - Y (m) - Coordinate
Współrzędna - Y (m) - Coordinate
700000
600000
155
150
145
140
135
130
125
120
115
110
105
100
95
90
85
80
75
70
65
500000
400000
300000
200000
200000
300000
400000
500000
600000
Współrzędna - X (m) - Coordinate
700000
800000
Wybrane przykłady z opracowanej
wieloletniej bazy danych
Pole prawdopodobieństwa rocznych MSDO
Wartość oczekiwana (mm)
Odchylenie standardowe
wartości oczekiwanej (mm)
700000
600000
62
60
58
56
54
52
50
48
46
44
42
40
38
36
34
32
30
28
500000
400000
300000
200000
200000
300000
400000
500000
600000
Współrzędna - X (m) - Coordinate
700000
800000
Współrzędna - Y (m) - Coordinate
Współrzędna - Y (m) - Coordinate
700000
600000
52
50
48
46
44
42
40
38
36
34
32
30
28
26
24
22
20
18
500000
400000
300000
200000
200000
300000
400000
500000
600000
Współrzędna - X (m) - Coordinate
700000
800000
Stare i nowe:
podobieństwa i różnice
Współrzędna - Y (m) - Coordinate
700000
600000
170
165
160
155
150
145
140
135
130
125
120
115
110
105
100
95
90
85
500000
400000
300000
200000
200000
300000
400000
500000
600000
Współrzędna - X (m) - Coordinate
700000
800000
Podsumowanie - metodyka
Źródłem na podstawie którego wykonano opracowanie było
747 486 wartości maksymalnych opadów dobowych w
poszczególnych miesiącach wielolecia 1956-80 (średnio ok.
2492) i 61 940 sum maksymalnych rocznych opadów
dobowych (średnio ok. 2478)
Do opracowania rastrowej bazy danych prawdopodobieństwa
MSDO wykorzystano metodę krigingu wartości kodowanych
dla 13 wartości progowych (1, 5, 10, 20 …, 90, 95 i 99%
percentyl). Przed wykonaniem obliczeń przygotowano 4225
modeli struktury przestrzennej (325 zbiorów danych 13
wartości progowych). Parametry obliczeń optymalizowano za
pomocą kroswalidacji.
Na podstawie nieprzestrzennych i przestrzennych cech
źródłowego zbioru danych stwierdzono, że optymalna
rozdzielczość tworzonych modeli rastrowych powinna wynosić
1 1 km.
Stwierdzono, że zmiany ilości i rozkładu przestrzennego
punktów pomiarowych zachodzące w analizowanym wieloleciu
nie miały wpływu na jakość uzyskanych wyników
Docelowa siatka interpolacyjna miała 319 114 węzłów
obejmując całe terytorium lądowe Polski, Zalew Szczeciński,
część polską Zalewu Wiślanego, Zatokę Pucką, a także strefę
o szerokości 2 km poza granicami
Podsumowanie - efekty
Etapowym wynikiem obliczeń są rastrowe modele
prawdopodobieństwa MSDO dla każdego z 325 źródłowych
zbiorów danych (325 319 114 węzłów 13 progów = 1 348
256 650 wartości)
Końcowym efektem są średnie wieloletnie pola
prawdopodobieństwa MSDO dla poszczególnych miesięcy i
całego roku (13 319 114 węzłów 13 progów = 53 930 266
wartości)
Z uzyskanych rozkładów prawdopodobieństwa MSDO dla
każdego węzła siatki interpolacyjnej można prosto obliczyć:
wartość oczekiwaną opadu (średnią rozkładu),
odchylenie standardowe (wariancję warunkową),
sumę opadu dobowego o zadanym prawdopodobieństwie
wystąpienia,
prawdopodobieństwo opadu o podanej sumie dobowej,
inne statystyki, na przykład przedziałowe.
Baza jest przeznaczona przede wszystkim do ocen
punktowych. Do analiz obszarowych bardziej nadają się dane
symulowane. Wersja 2 bazy – w przygotowaniu - będzie miała
taki charakter
Podsumowanie – stare/nowe
Stwierdzono, że uzyskane modele wieloletnie,
oprócz znacznie większej rozdzielczości
przestrzennej, od poprzednich „analogowych”
danych różnią się istotnie wielkością
prognozowanych rocznych MSDO o
prawdopodobieństwie 1%
na Niżu nie ma obszarów o opadach poniżej 80 mm
dla większość obszaru niżowego maksymalny opad
dobowy o prawdopodobieństwie 0,01 wynosi od 120
do 150 mm (poprzednio 80 – 100 mm)
najwyższe „stuletnie” opady dobowe są
prognozowane w tych samych lokalizacjach, lecz ich
sumy są znacząco niższe – około 175 mm, zamiast
jak poprzednio ponad 200 mm
DZIĘKUJĘ ZA UWAGĘ