Generalizacja danych przestrzennych

Download Report

Transcript Generalizacja danych przestrzennych

Slide 1

Generalizacja danych przestrzennych
dr hab. Ryszard Walkowiak prof. nadzw.


Slide 2

Generalizacja danych
W poprzednich wykładach stwierdziliśmy, że jednym z
głównych zadań GIS jest właściwa reprezentacja danych
przestrzennych.
Powierzchnia Ziemi, badana z dużą szczegółowością, jest
tworem niewyobrażalnie skomplikowanym.
Jej bardzo dokładne zobrazowanie wymagałoby umieszczenia
w bazie danych, a następnie przetwarzania, ogromnej, prawie
nieskończonej liczby danych.
Prowadziłoby to do wytwarzania map zbyt szczegółowych,
całkowicie nieczytelnych.
Z tego względu opracowano różne metody upraszczania,
nazywane generalizacją danych.


Slide 3

Generalizacja danych
Metody generalizacji danych dzielimy ogólnie na:
 generalizację kształtu
 generalizację statystyczną.


Slide 4

Generalizacja kształtu
Generalizacja kształtu polega na zmianie kształtu
obiektów w celu lepszego ich uwidocznienia na mapie,
przy zachowaniu ich najważniejszych cech.


Slide 5

Generalizacja kształtu
 uproszczenie lub wybór punktów np. przez eliminację

niektórych wierzchołków wieloboku tak, aby jego
kształt stał się prostszy.


Slide 6

Generalizacja kształtu
 wygładzanie polegające na zastępowaniu ostrych i

złożonych kształtów przez wygładzone


Slide 7

Generalizacja kształtu
 agregacja, czyli zastąpienie dużej liczby

szczegółowych znaków mniejszą liczbą nowych
znaków.


Slide 8

Generalizacja kształtu
 łączenie polegające na zastępowaniu kilku obiektów

powierzchniowych przez jeden.


Slide 9

Generalizacja kształtu
 scalanie polegające łączeniu wielu obiektów liniowych

w jeden.


Slide 10

Generalizacja kształtu
 dekompozycja polegająca na zamianie obiektu

powierzchniowego na obiekt punktowy.


Slide 11

Generalizacja kształtu
 wybór obiektów polegający na eliminacji pewnych

obiektów przy zachowaniu ogólnych prawidłowości
rozkładu przestrzennego


Slide 12

Generalizacja kształtu
 przewiększenie obiektu w celu zachowania atrybutów,

mimo że przy danej skali powinien być niewidoczny.


Slide 13

Generalizacja kształtu
 wzmocnienie przez zmianę wielkości i kształtów

symboli


Slide 14

Generalizacja kształtu
 przemieszczenie obiektów z ich rzeczywistego

położenia w celu zachowania ich relacji
przestrzennych i czytelności


Slide 15

Generalizacja statystyczna
Gdy mapy są używane do wyświetlania informacji
statystycznych (np. liczba ludności, procent bezrobocia itd.),
należy zachować szczególną ostrożność, aby przedstawić jak
najdokładniej przestrzenny rozkład danych.
Jest to trudne zadanie, gdyż sensem wyświetlania danych
statystycznych na mapach jest uchwycenie ich rozkładu w
przestrzeni.
Jednak uogólniając i upraszczając dane, można ukryć
subtelne różnice w rozkładzie.
Dlatego też, podczas mapowania danych statystycznych,
należy zawsze starać się znaleźć równowagę między
wiernością rzeczywistemu rozkładowi danych a
uogólnieniem, tak, aby uwypuklić zależności przestrzenne.


Slide 16

Generalizacja statystyczna
Aby przedstawić wartości jakiejś zmiennej w postaci
kolorów, należy podzielić cały zakres zmienności tej
zmiennej na przedziały.
W tym celu należy najpierw ustalić liczbę przedziałów a
następnie ich granice.


Slide 17

Generalizacja statystyczna
15

25

7

21

34

56

61

45

39

92

77

88

0-30

31-65

65-


Slide 18

Generalizacja statystyczna
0-25

15

25

7

21

34

56

26-50

61

45

39

51-75

92

77

88
76-


Slide 19

Generalizacja statystyczna
 Liczba klas
 Za mało klas: zarys rozkładu danych jest niewyraźny, gubimy

niuanse.
 Za dużo klas: dezorientacja, problem z interpretacją, gubimy
strukturę przestrzenną.
 Większość map tematycznych zawiera od 3 do 7 klas.
 Przy zastosowaniu odcieni szarości, 8 klas to maksimum,
które da się rozróżnić.


Slide 20

Generalizacja statystyczna
 Metody klasyfikacji
 Mapy tematyczne przygotowane z tych samych danych i

z taką samą ilością klas, dają inną informację, jeśli
zastosowano różne metody podziału (klasyfikacji).
 Metoda podziału musi być odpowiednia do określonego
rozkładu statystycznego danych.


Slide 21

Generalizacja statystyczna
Rozkład danych
 Histogram
 Pierwszy etap przy tworzeniu map tematycznych: wykreślenie

frekwencji występowania określonych przedziałów wartości
cechy
 Umożliwia identyfikację rozkładu danych.
 Zastosowanie podstawowych statystyk opisowych: średnia,
mediana, skośność, kurtoza.

Frekwencja

Jednolity

Wartość cechy

Normalny

Wykładniczy


Slide 22

Generalizacja statystyczna
Rozkład danych

 (Max-Min) / IK

 Prosta interpretacja.
 Odpowiednie dla danych o

rozkładzie jednolitym i ciągłym.
 Nieodpowiednie jeśli dane są
skupione wokół niewielu
wartości.

C1

C2

C3

C4

Frekwencja

 Jednakowe przedziały
 Każda klasa reprezentuje
jednakowy przedział wartości
cechy.
 Szerokość klasy to różnica
między wartością największą a
najmniejszą podzielona przez
liczbę klas.

Min

Wartość

Max


Slide 23

n(C2)

C3

Wartość

C4

n(C4)

C2

n(C3)

C1

n(C1)

 Kwantyle
 Równa liczba obserwacji w
każdej klasie.
 n(C1) = n(C2) = n(C3) = n(C4).
 Stosowny dla nierównomiernie
rozłożonych danych.
 Obiekty o zbliżonych
wartościach cechy mogą się
znajdować w różnych
kategoriach.
 Jednakowa powierzchnia
 Klasy tworzone są aby miały
podobną powierzchnię.
 Efekt podobny do podziału
kwantylowego jeśli wielkość
jednostki jest taka sama.

Frekwencja

Generalizacja statystyczna
Rozkład danych


Slide 24

Generalizacja statystyczna
Rozkład danych

C1

C2

C3

C4

Frekwencja

 Odchylenie standardowe
 Jako granice klas stosowana
jest średnia i wielokrotności
odchylenia standardowego.
 Wskazana, gdy rozkład
wartości cechy jest zbliżony
do normalnego.
 Wizualizacja obiektów,
których wartości cechy są
powyżej lub poniżej średniej.
 Wyraźnie widoczne obiekty
odstające.
 Nie pokazuje wartości jako
cech obiektów, jedynie ich
odległość od średniej.

Wartość -1STD Śr. +1STD


Slide 25

Generalizacja statystyczna
Rozkład danych
 Wzrost arytmetyczny,

geometryczny lub
wykładniczy
 Szerokość przedziałów

C2

Frekwencja

klasowych rośnie lub maleje
nieliniowo.
 Wskazane dla rozkładów o
charakterze wykładniczym.

C1

Wartość

C3 C4


Slide 26

Generalizacja statystyczna
Rozkład danych
 Podział naturalny (Natural

breaks)
 Złożona metoda optymalizacji






C1

C2

Frequency



podziału.
Minimalizuje sumę wariancji
w każdej klasie.
Najlepsza jeśli dane nie są
rozłożone równomiernie.
Uzasadniona statystycznie.
Trudna do porównania z
innymi klasyfikacjami.
Arbitralna decyzja wyboru
odpowiedniej liczby klas.

Value

C3 C4


Slide 27

Generalizacja statystyczna
Rozkład danych
 Podział własny
 Operator wybiera podział klasowy, który jest najlepiej

dostosowany do rozkładu danych.
 Metoda ta podawana jest jako ostatnia, ponieważ
zazwyczaj nie ma jasnych kryteriów dokonanego
podziału, lub są one stosowane niekonsekwentnie.
 Zazwyczaj tego typu wybór związany jest z osobistym
doświadczeniem eksperta.
 Często do tej grupy można włączyć podział dokonany ze
względów estetycznych (okrągłe liczby).
 5000 - 10000 zamiast 4982 - 10123.

 Inny cel
 Klasyfikacja może być także użyta do umyślnego

zamazania lub ukrycia informacji.


Slide 28

Generalizacja statystyczna
Rozkład danych
Równe przedziały

Kwantyle


Slide 29

Generalizacja statystyczna
Rozkład danych

Odchylenie standardowe


Slide 30

Wnioskowanie przestrzenne
 Uzupełnianie braków danych
 Zazwyczaj próbkowanie nie jest kompletne zarówno w ujęciu

czasowym, jak i przestrzennym.
 Bardzo często potrzebna jest metoda obiektywnego
uzupełniania braków danych.
 Interpolacja i ekstrapolacja
 Dane w lokalizacjach gdzie nie dokonano pomiaru niekiedy

mogą być szacowane na podstawie wyników pomiarów
dokonanych w sąsiedztwie.
 Interpolacja:

 Prognozowanie brakujących danych w miejscach (czasie) leżących

pomiędzy miejscami (czasem), w których pobrano próbki.

 Ekstrapolacja:
 Prognozowanie brakujących danych leżących poza zasięgiem obszaru
znanego.


Slide 31

Wysokość

Wnioskowanie przestrzenne
Interpolacja i ekstrapolacja
Linia interpolowana

Oczekiwanie na światłach

Próbka
Lokalizacja
Linia ekstrapolowana

Próbka
Linia interpolowana

Liczba pojazdów


Slide 32

Wnioskowanie przestrzenne
Dopasowanie trendu
1.9
1.8
1.7
1.6
1.5
1.4

y = 0.6435x + 1.0553
R² = 0.1781

1.3
1.2
0.7

0.75

0.8

0.85

0.9

0.95

1


Slide 33

Wnioskowanie przestrzenne
Niebezpieczeństwo ekstrapolacji


Slide 34

Wnioskowanie przestrzenne
Niebezpieczeństwo ekstrapolacji
Rekordy w biegu na 100 m mężczyzn

12
10
8
6
4
2
0
1900
-2

2100

2300

2500

2700

Obserwacje

2900
ekstrapolacja

3100

3300

3500