Transcript Generalizacja danych przestrzennych
Slide 1
Generalizacja danych przestrzennych
dr hab. Ryszard Walkowiak prof. nadzw.
Slide 2
Generalizacja danych
W poprzednich wykładach stwierdziliśmy, że jednym z
głównych zadań GIS jest właściwa reprezentacja danych
przestrzennych.
Powierzchnia Ziemi, badana z dużą szczegółowością, jest
tworem niewyobrażalnie skomplikowanym.
Jej bardzo dokładne zobrazowanie wymagałoby umieszczenia
w bazie danych, a następnie przetwarzania, ogromnej, prawie
nieskończonej liczby danych.
Prowadziłoby to do wytwarzania map zbyt szczegółowych,
całkowicie nieczytelnych.
Z tego względu opracowano różne metody upraszczania,
nazywane generalizacją danych.
Slide 3
Generalizacja danych
Metody generalizacji danych dzielimy ogólnie na:
generalizację kształtu
generalizację statystyczną.
Slide 4
Generalizacja kształtu
Generalizacja kształtu polega na zmianie kształtu
obiektów w celu lepszego ich uwidocznienia na mapie,
przy zachowaniu ich najważniejszych cech.
Slide 5
Generalizacja kształtu
uproszczenie lub wybór punktów np. przez eliminację
niektórych wierzchołków wieloboku tak, aby jego
kształt stał się prostszy.
Slide 6
Generalizacja kształtu
wygładzanie polegające na zastępowaniu ostrych i
złożonych kształtów przez wygładzone
Slide 7
Generalizacja kształtu
agregacja, czyli zastąpienie dużej liczby
szczegółowych znaków mniejszą liczbą nowych
znaków.
Slide 8
Generalizacja kształtu
łączenie polegające na zastępowaniu kilku obiektów
powierzchniowych przez jeden.
Slide 9
Generalizacja kształtu
scalanie polegające łączeniu wielu obiektów liniowych
w jeden.
Slide 10
Generalizacja kształtu
dekompozycja polegająca na zamianie obiektu
powierzchniowego na obiekt punktowy.
Slide 11
Generalizacja kształtu
wybór obiektów polegający na eliminacji pewnych
obiektów przy zachowaniu ogólnych prawidłowości
rozkładu przestrzennego
Slide 12
Generalizacja kształtu
przewiększenie obiektu w celu zachowania atrybutów,
mimo że przy danej skali powinien być niewidoczny.
Slide 13
Generalizacja kształtu
wzmocnienie przez zmianę wielkości i kształtów
symboli
Slide 14
Generalizacja kształtu
przemieszczenie obiektów z ich rzeczywistego
położenia w celu zachowania ich relacji
przestrzennych i czytelności
Slide 15
Generalizacja statystyczna
Gdy mapy są używane do wyświetlania informacji
statystycznych (np. liczba ludności, procent bezrobocia itd.),
należy zachować szczególną ostrożność, aby przedstawić jak
najdokładniej przestrzenny rozkład danych.
Jest to trudne zadanie, gdyż sensem wyświetlania danych
statystycznych na mapach jest uchwycenie ich rozkładu w
przestrzeni.
Jednak uogólniając i upraszczając dane, można ukryć
subtelne różnice w rozkładzie.
Dlatego też, podczas mapowania danych statystycznych,
należy zawsze starać się znaleźć równowagę między
wiernością rzeczywistemu rozkładowi danych a
uogólnieniem, tak, aby uwypuklić zależności przestrzenne.
Slide 16
Generalizacja statystyczna
Aby przedstawić wartości jakiejś zmiennej w postaci
kolorów, należy podzielić cały zakres zmienności tej
zmiennej na przedziały.
W tym celu należy najpierw ustalić liczbę przedziałów a
następnie ich granice.
Slide 17
Generalizacja statystyczna
15
25
7
21
34
56
61
45
39
92
77
88
0-30
31-65
65-
Slide 18
Generalizacja statystyczna
0-25
15
25
7
21
34
56
26-50
61
45
39
51-75
92
77
88
76-
Slide 19
Generalizacja statystyczna
Liczba klas
Za mało klas: zarys rozkładu danych jest niewyraźny, gubimy
niuanse.
Za dużo klas: dezorientacja, problem z interpretacją, gubimy
strukturę przestrzenną.
Większość map tematycznych zawiera od 3 do 7 klas.
Przy zastosowaniu odcieni szarości, 8 klas to maksimum,
które da się rozróżnić.
Slide 20
Generalizacja statystyczna
Metody klasyfikacji
Mapy tematyczne przygotowane z tych samych danych i
z taką samą ilością klas, dają inną informację, jeśli
zastosowano różne metody podziału (klasyfikacji).
Metoda podziału musi być odpowiednia do określonego
rozkładu statystycznego danych.
Slide 21
Generalizacja statystyczna
Rozkład danych
Histogram
Pierwszy etap przy tworzeniu map tematycznych: wykreślenie
frekwencji występowania określonych przedziałów wartości
cechy
Umożliwia identyfikację rozkładu danych.
Zastosowanie podstawowych statystyk opisowych: średnia,
mediana, skośność, kurtoza.
Frekwencja
Jednolity
Wartość cechy
Normalny
Wykładniczy
Slide 22
Generalizacja statystyczna
Rozkład danych
(Max-Min) / IK
Prosta interpretacja.
Odpowiednie dla danych o
rozkładzie jednolitym i ciągłym.
Nieodpowiednie jeśli dane są
skupione wokół niewielu
wartości.
C1
C2
C3
C4
Frekwencja
Jednakowe przedziały
Każda klasa reprezentuje
jednakowy przedział wartości
cechy.
Szerokość klasy to różnica
między wartością największą a
najmniejszą podzielona przez
liczbę klas.
Min
Wartość
Max
Slide 23
n(C2)
C3
Wartość
C4
n(C4)
C2
n(C3)
C1
n(C1)
Kwantyle
Równa liczba obserwacji w
każdej klasie.
n(C1) = n(C2) = n(C3) = n(C4).
Stosowny dla nierównomiernie
rozłożonych danych.
Obiekty o zbliżonych
wartościach cechy mogą się
znajdować w różnych
kategoriach.
Jednakowa powierzchnia
Klasy tworzone są aby miały
podobną powierzchnię.
Efekt podobny do podziału
kwantylowego jeśli wielkość
jednostki jest taka sama.
Frekwencja
Generalizacja statystyczna
Rozkład danych
Slide 24
Generalizacja statystyczna
Rozkład danych
C1
C2
C3
C4
Frekwencja
Odchylenie standardowe
Jako granice klas stosowana
jest średnia i wielokrotności
odchylenia standardowego.
Wskazana, gdy rozkład
wartości cechy jest zbliżony
do normalnego.
Wizualizacja obiektów,
których wartości cechy są
powyżej lub poniżej średniej.
Wyraźnie widoczne obiekty
odstające.
Nie pokazuje wartości jako
cech obiektów, jedynie ich
odległość od średniej.
Wartość -1STD Śr. +1STD
Slide 25
Generalizacja statystyczna
Rozkład danych
Wzrost arytmetyczny,
geometryczny lub
wykładniczy
Szerokość przedziałów
C2
Frekwencja
klasowych rośnie lub maleje
nieliniowo.
Wskazane dla rozkładów o
charakterze wykładniczym.
C1
Wartość
C3 C4
Slide 26
Generalizacja statystyczna
Rozkład danych
Podział naturalny (Natural
breaks)
Złożona metoda optymalizacji
C1
C2
Frequency
podziału.
Minimalizuje sumę wariancji
w każdej klasie.
Najlepsza jeśli dane nie są
rozłożone równomiernie.
Uzasadniona statystycznie.
Trudna do porównania z
innymi klasyfikacjami.
Arbitralna decyzja wyboru
odpowiedniej liczby klas.
Value
C3 C4
Slide 27
Generalizacja statystyczna
Rozkład danych
Podział własny
Operator wybiera podział klasowy, który jest najlepiej
dostosowany do rozkładu danych.
Metoda ta podawana jest jako ostatnia, ponieważ
zazwyczaj nie ma jasnych kryteriów dokonanego
podziału, lub są one stosowane niekonsekwentnie.
Zazwyczaj tego typu wybór związany jest z osobistym
doświadczeniem eksperta.
Często do tej grupy można włączyć podział dokonany ze
względów estetycznych (okrągłe liczby).
5000 - 10000 zamiast 4982 - 10123.
Inny cel
Klasyfikacja może być także użyta do umyślnego
zamazania lub ukrycia informacji.
Slide 28
Generalizacja statystyczna
Rozkład danych
Równe przedziały
Kwantyle
Slide 29
Generalizacja statystyczna
Rozkład danych
Odchylenie standardowe
Slide 30
Wnioskowanie przestrzenne
Uzupełnianie braków danych
Zazwyczaj próbkowanie nie jest kompletne zarówno w ujęciu
czasowym, jak i przestrzennym.
Bardzo często potrzebna jest metoda obiektywnego
uzupełniania braków danych.
Interpolacja i ekstrapolacja
Dane w lokalizacjach gdzie nie dokonano pomiaru niekiedy
mogą być szacowane na podstawie wyników pomiarów
dokonanych w sąsiedztwie.
Interpolacja:
Prognozowanie brakujących danych w miejscach (czasie) leżących
pomiędzy miejscami (czasem), w których pobrano próbki.
Ekstrapolacja:
Prognozowanie brakujących danych leżących poza zasięgiem obszaru
znanego.
Slide 31
Wysokość
Wnioskowanie przestrzenne
Interpolacja i ekstrapolacja
Linia interpolowana
Oczekiwanie na światłach
Próbka
Lokalizacja
Linia ekstrapolowana
Próbka
Linia interpolowana
Liczba pojazdów
Slide 32
Wnioskowanie przestrzenne
Dopasowanie trendu
1.9
1.8
1.7
1.6
1.5
1.4
y = 0.6435x + 1.0553
R² = 0.1781
1.3
1.2
0.7
0.75
0.8
0.85
0.9
0.95
1
Slide 33
Wnioskowanie przestrzenne
Niebezpieczeństwo ekstrapolacji
Slide 34
Wnioskowanie przestrzenne
Niebezpieczeństwo ekstrapolacji
Rekordy w biegu na 100 m mężczyzn
12
10
8
6
4
2
0
1900
-2
2100
2300
2500
2700
Obserwacje
2900
ekstrapolacja
3100
3300
3500
Generalizacja danych przestrzennych
dr hab. Ryszard Walkowiak prof. nadzw.
Slide 2
Generalizacja danych
W poprzednich wykładach stwierdziliśmy, że jednym z
głównych zadań GIS jest właściwa reprezentacja danych
przestrzennych.
Powierzchnia Ziemi, badana z dużą szczegółowością, jest
tworem niewyobrażalnie skomplikowanym.
Jej bardzo dokładne zobrazowanie wymagałoby umieszczenia
w bazie danych, a następnie przetwarzania, ogromnej, prawie
nieskończonej liczby danych.
Prowadziłoby to do wytwarzania map zbyt szczegółowych,
całkowicie nieczytelnych.
Z tego względu opracowano różne metody upraszczania,
nazywane generalizacją danych.
Slide 3
Generalizacja danych
Metody generalizacji danych dzielimy ogólnie na:
generalizację kształtu
generalizację statystyczną.
Slide 4
Generalizacja kształtu
Generalizacja kształtu polega na zmianie kształtu
obiektów w celu lepszego ich uwidocznienia na mapie,
przy zachowaniu ich najważniejszych cech.
Slide 5
Generalizacja kształtu
uproszczenie lub wybór punktów np. przez eliminację
niektórych wierzchołków wieloboku tak, aby jego
kształt stał się prostszy.
Slide 6
Generalizacja kształtu
wygładzanie polegające na zastępowaniu ostrych i
złożonych kształtów przez wygładzone
Slide 7
Generalizacja kształtu
agregacja, czyli zastąpienie dużej liczby
szczegółowych znaków mniejszą liczbą nowych
znaków.
Slide 8
Generalizacja kształtu
łączenie polegające na zastępowaniu kilku obiektów
powierzchniowych przez jeden.
Slide 9
Generalizacja kształtu
scalanie polegające łączeniu wielu obiektów liniowych
w jeden.
Slide 10
Generalizacja kształtu
dekompozycja polegająca na zamianie obiektu
powierzchniowego na obiekt punktowy.
Slide 11
Generalizacja kształtu
wybór obiektów polegający na eliminacji pewnych
obiektów przy zachowaniu ogólnych prawidłowości
rozkładu przestrzennego
Slide 12
Generalizacja kształtu
przewiększenie obiektu w celu zachowania atrybutów,
mimo że przy danej skali powinien być niewidoczny.
Slide 13
Generalizacja kształtu
wzmocnienie przez zmianę wielkości i kształtów
symboli
Slide 14
Generalizacja kształtu
przemieszczenie obiektów z ich rzeczywistego
położenia w celu zachowania ich relacji
przestrzennych i czytelności
Slide 15
Generalizacja statystyczna
Gdy mapy są używane do wyświetlania informacji
statystycznych (np. liczba ludności, procent bezrobocia itd.),
należy zachować szczególną ostrożność, aby przedstawić jak
najdokładniej przestrzenny rozkład danych.
Jest to trudne zadanie, gdyż sensem wyświetlania danych
statystycznych na mapach jest uchwycenie ich rozkładu w
przestrzeni.
Jednak uogólniając i upraszczając dane, można ukryć
subtelne różnice w rozkładzie.
Dlatego też, podczas mapowania danych statystycznych,
należy zawsze starać się znaleźć równowagę między
wiernością rzeczywistemu rozkładowi danych a
uogólnieniem, tak, aby uwypuklić zależności przestrzenne.
Slide 16
Generalizacja statystyczna
Aby przedstawić wartości jakiejś zmiennej w postaci
kolorów, należy podzielić cały zakres zmienności tej
zmiennej na przedziały.
W tym celu należy najpierw ustalić liczbę przedziałów a
następnie ich granice.
Slide 17
Generalizacja statystyczna
15
25
7
21
34
56
61
45
39
92
77
88
0-30
31-65
65-
Slide 18
Generalizacja statystyczna
0-25
15
25
7
21
34
56
26-50
61
45
39
51-75
92
77
88
76-
Slide 19
Generalizacja statystyczna
Liczba klas
Za mało klas: zarys rozkładu danych jest niewyraźny, gubimy
niuanse.
Za dużo klas: dezorientacja, problem z interpretacją, gubimy
strukturę przestrzenną.
Większość map tematycznych zawiera od 3 do 7 klas.
Przy zastosowaniu odcieni szarości, 8 klas to maksimum,
które da się rozróżnić.
Slide 20
Generalizacja statystyczna
Metody klasyfikacji
Mapy tematyczne przygotowane z tych samych danych i
z taką samą ilością klas, dają inną informację, jeśli
zastosowano różne metody podziału (klasyfikacji).
Metoda podziału musi być odpowiednia do określonego
rozkładu statystycznego danych.
Slide 21
Generalizacja statystyczna
Rozkład danych
Histogram
Pierwszy etap przy tworzeniu map tematycznych: wykreślenie
frekwencji występowania określonych przedziałów wartości
cechy
Umożliwia identyfikację rozkładu danych.
Zastosowanie podstawowych statystyk opisowych: średnia,
mediana, skośność, kurtoza.
Frekwencja
Jednolity
Wartość cechy
Normalny
Wykładniczy
Slide 22
Generalizacja statystyczna
Rozkład danych
(Max-Min) / IK
Prosta interpretacja.
Odpowiednie dla danych o
rozkładzie jednolitym i ciągłym.
Nieodpowiednie jeśli dane są
skupione wokół niewielu
wartości.
C1
C2
C3
C4
Frekwencja
Jednakowe przedziały
Każda klasa reprezentuje
jednakowy przedział wartości
cechy.
Szerokość klasy to różnica
między wartością największą a
najmniejszą podzielona przez
liczbę klas.
Min
Wartość
Max
Slide 23
n(C2)
C3
Wartość
C4
n(C4)
C2
n(C3)
C1
n(C1)
Kwantyle
Równa liczba obserwacji w
każdej klasie.
n(C1) = n(C2) = n(C3) = n(C4).
Stosowny dla nierównomiernie
rozłożonych danych.
Obiekty o zbliżonych
wartościach cechy mogą się
znajdować w różnych
kategoriach.
Jednakowa powierzchnia
Klasy tworzone są aby miały
podobną powierzchnię.
Efekt podobny do podziału
kwantylowego jeśli wielkość
jednostki jest taka sama.
Frekwencja
Generalizacja statystyczna
Rozkład danych
Slide 24
Generalizacja statystyczna
Rozkład danych
C1
C2
C3
C4
Frekwencja
Odchylenie standardowe
Jako granice klas stosowana
jest średnia i wielokrotności
odchylenia standardowego.
Wskazana, gdy rozkład
wartości cechy jest zbliżony
do normalnego.
Wizualizacja obiektów,
których wartości cechy są
powyżej lub poniżej średniej.
Wyraźnie widoczne obiekty
odstające.
Nie pokazuje wartości jako
cech obiektów, jedynie ich
odległość od średniej.
Wartość -1STD Śr. +1STD
Slide 25
Generalizacja statystyczna
Rozkład danych
Wzrost arytmetyczny,
geometryczny lub
wykładniczy
Szerokość przedziałów
C2
Frekwencja
klasowych rośnie lub maleje
nieliniowo.
Wskazane dla rozkładów o
charakterze wykładniczym.
C1
Wartość
C3 C4
Slide 26
Generalizacja statystyczna
Rozkład danych
Podział naturalny (Natural
breaks)
Złożona metoda optymalizacji
C1
C2
Frequency
podziału.
Minimalizuje sumę wariancji
w każdej klasie.
Najlepsza jeśli dane nie są
rozłożone równomiernie.
Uzasadniona statystycznie.
Trudna do porównania z
innymi klasyfikacjami.
Arbitralna decyzja wyboru
odpowiedniej liczby klas.
Value
C3 C4
Slide 27
Generalizacja statystyczna
Rozkład danych
Podział własny
Operator wybiera podział klasowy, który jest najlepiej
dostosowany do rozkładu danych.
Metoda ta podawana jest jako ostatnia, ponieważ
zazwyczaj nie ma jasnych kryteriów dokonanego
podziału, lub są one stosowane niekonsekwentnie.
Zazwyczaj tego typu wybór związany jest z osobistym
doświadczeniem eksperta.
Często do tej grupy można włączyć podział dokonany ze
względów estetycznych (okrągłe liczby).
5000 - 10000 zamiast 4982 - 10123.
Inny cel
Klasyfikacja może być także użyta do umyślnego
zamazania lub ukrycia informacji.
Slide 28
Generalizacja statystyczna
Rozkład danych
Równe przedziały
Kwantyle
Slide 29
Generalizacja statystyczna
Rozkład danych
Odchylenie standardowe
Slide 30
Wnioskowanie przestrzenne
Uzupełnianie braków danych
Zazwyczaj próbkowanie nie jest kompletne zarówno w ujęciu
czasowym, jak i przestrzennym.
Bardzo często potrzebna jest metoda obiektywnego
uzupełniania braków danych.
Interpolacja i ekstrapolacja
Dane w lokalizacjach gdzie nie dokonano pomiaru niekiedy
mogą być szacowane na podstawie wyników pomiarów
dokonanych w sąsiedztwie.
Interpolacja:
Prognozowanie brakujących danych w miejscach (czasie) leżących
pomiędzy miejscami (czasem), w których pobrano próbki.
Ekstrapolacja:
Prognozowanie brakujących danych leżących poza zasięgiem obszaru
znanego.
Slide 31
Wysokość
Wnioskowanie przestrzenne
Interpolacja i ekstrapolacja
Linia interpolowana
Oczekiwanie na światłach
Próbka
Lokalizacja
Linia ekstrapolowana
Próbka
Linia interpolowana
Liczba pojazdów
Slide 32
Wnioskowanie przestrzenne
Dopasowanie trendu
1.9
1.8
1.7
1.6
1.5
1.4
y = 0.6435x + 1.0553
R² = 0.1781
1.3
1.2
0.7
0.75
0.8
0.85
0.9
0.95
1
Slide 33
Wnioskowanie przestrzenne
Niebezpieczeństwo ekstrapolacji
Slide 34
Wnioskowanie przestrzenne
Niebezpieczeństwo ekstrapolacji
Rekordy w biegu na 100 m mężczyzn
12
10
8
6
4
2
0
1900
-2
2100
2300
2500
2700
Obserwacje
2900
ekstrapolacja
3100
3300
3500