분리거리

Download Report

Transcript 분리거리

-1-
공간자기상관
Spatial Autocorrelation
-2-
공간자기상관
• 정의
공간현상의 위치에 따른 유사성의 정도
• 해석
가까이 위치한 것은 유사할 가능성이 크다
• 토블러의 법칙 (Tobler’s law)
Everything is related to everything else, but
near things are more related than distant
things
-3-
(1) “가까운”의 정량화
• 공간가중치
위치들 간의 가깝고 먼 정도
• 공간가중치 행렬
행정구역 폴리곤
• 예) 인접하면 1, 인접하지 않으면 0 (이진 행렬)
• 예) 폴리곤 센트로이드 간의 거리에 반비례
래스터 그리드
• 예) 인접하면 1, 인접하지 않으면 0 (이진 행렬)
• 예) 셀 중심 간의 거리에 반비례
-4-
공간가중치 행렬
• 폴리곤 인접 여부
-5-
공간가중치 행렬
• 폴리곤 인접 여부
이진 행렬
-6-
공간가중치 행렬
• 폴리곤 인접 여부
열 표준화 (row standardization)
☞ 각 가중치를 열 합계 (row sum)로 나눔  가중치 합이 1이 되도록
-7-
공간가중치 행렬
• 폴리곤 센트로이드 거리에 반비례
6.28
6.33
4.53
4.18
-8-
공간가중치 행렬
• 폴리곤 센트로이드 거리에 반비례
-9-
공간가중치 행렬
• 폴리곤 센트로이드 거리에 반비례
-10-
공간가중치 행렬
• 폴리곤 센트로이드 거리에 반비례
열 표준화 (row standardization)
☞ 각 가중치를 열 합계 (row sum)로 나눔  가중치 합이 1이 되도록
-11-
공간가중치 행렬
• 폴리곤 센트로이드 거리를 이용할 때 옵션
가중치 적용 대상의 범위
• 인접 폴리곤을 대상으로
• 일정 거리 이내의 폴리곤을 대상으로
• etc.
반비례의 제곱수
• 거리, 거리2, 거리3, 거리1/2에 반비례…
역 거리 가중치
(inverse distance weighting: IDW)
-12-
공간가중치 행렬
• 셀 인접 여부
Rook 방식
0.25
0.25
0.25
0.25
(열 표준화)
-13-
공간가중치 행렬
• 셀 인접 여부
Queen 방식
 각각 0.125 (열 표준화)
-14-
공간가중치 행렬
• 셀 중심 거리에 반비례
Queen 방식
 각각 0.1036, 0.1464 (열 표준화)
-15-
공간가중치 행렬
• 셀 중심 거리를 이용할 때 옵션
가중치 적용 대상의 범위
• 인접 셀을 대상으로
• 일정 거리 이내의 셀을 대상으로
• etc.
반비례의 제곱수
• 거리, 거리2, 거리3, 거리1/2에 반비례…
역 거리 가중치
(inverse distance weighting: IDW)
-16-
(2) “유사하다”의 정량화
• 공간자기상관 지수
Moran’s I
I
n  wij cij
i
( j는 i가 아닌 나머지 요소들)
j i
W  ( xi  x ) 2
i
cij  ( xi  x )( x j  x )
wij 는 xi와 xj 간의 공간가중치 W   wij
i
I 의 범위
비유사성
-1
랜덤
j i
유사성
0
엄밀하게는 0이 아니라 -1/(n-1)  기대값
1
-17-
Moran’s I의 통계적 유의성
• x가 정규분포의 모집단에서 임의로 추출
된 샘플이라고 가정하면
랜덤하게 재배치하여 시행을 반복했을 때
모란 I 지수의 기대값 (n이 커지면 0에 수렴)
기대값
분산
z값 I  E ( I )
Var ( I )
z-score
-18-
공간자기상관 지수 -1• Moran’s I 계산 연습
A값 = 3
B값 = 2
C값 = 2
D값 = 1
(B)
(A)
(D)
(C)
(A) (B) (C) (D)
(A) (B) (C) (D)
wij  (A)
cij  (A)
이진행렬
(C)
의 경우
(D)
(C)
(B)
2
(
x

x
)
2
 i
i
(나-평균)(너-평균)
(B)
(D)
 w c
i
j i
ij ij
 2
W  10
I  0.4
(기대값 = -1/3)
-19-
공간자기상관 지수 -2• Moran’s I 계산 연습
A값 = 3
B값 = 2
C값 = 2
D값 = 1
(B)
(A)
(D)
(C)
(A) (B) (C) (D)
(A) (B) (C) (D)
wij  (A)
cij  (A)
이진행렬
(열표준화) (C)
(D)
(C)
(B)
2
(
x

x
)
2
 i
i
(나-평균)(너-평균)
(B)
(D)
 w c
i
j i
ij ij
 2 / 3
W 4
I  1 / 3
(기대값 = -1/3)
-20-
공간자기상관 지수 -3• Moran’s I 계산 연습
A값 = 3
B값 = 2
C값 = 2
D값 = 1
2.3
(C)
(B)
3.2
(A)
2.4
3.0
4.0
2.4
(D)
(A) (B) (C) (D)
(A) (B) (C) (D)
wij  (A)
1/거리2
의 경우
i
cij  (A)
(B)
(나-평균)(너-평균)
(B)
(C)
(C)
(D)
(D)
2
(
x

x
)
2
 i
(구역간 거리)
 w c
i
j i
ij ij
 0.34
W  1.615
I  0.42
(기대값 = -1/3)
-21-
공간자기상관 지수 -4• Moran’s I 계산 연습
A값 = 3
B값 = 2
C값 = 2
D값 = 1
2.3
2.4
(C)
(B)
3.2
(A)
3.0
4.0
2.4
(D)
(A) (B) (C) (D)
(A) (B) (C) (D)
wij  (A)
1/거리2
cij  (A)
(B)
i
(나-평균)(너-평균)
(B)
(열 표준화)(C)
(D)
2
(
x

x
)
2
 i
(구역간 거리)
(C)
(D)
 w c
i
j i
ij ij
 0.76
W 4
I  0.38
(기대값 = -1/3)
-22-
연습문제
• Moran’s I 계산 연습
x(1)
x(2)
x(3)
x(4)
=
=
=
=
10
7
9
6
• 이진행렬(열표준화), 1/거리2(열표준화)에
대한 Moran’s I를 각각 구하시오
• A4용지에 손으로 써서 제출
-23-
R로 Moran’s I 구하기
• 인구 1만명당 교통사고건수
-24-
R로 Moran’s I 구하기
• 인구 1만명당 교통사고건수
-25-
R 패키지 인스톨
Mirror site
maptools
foreign
spdep
-26-
R로 Moran’s I 구하기
☞ 폴리곤으로부터 neighbor 객체 생성
☞ neighbor로부터 list weight 객체 생성
-27-
R로 Moran’s I 구하기
• 결과 해석
z값(t값)
이 데이터의 모란 I 지수
랜덤하게 재배치하여
시행을 반복했을 때
모란 I 지수의 기대값
유의수준
랜덤하게 재배치하여
시행을 반복했을 때
모란 I 지수의 분산
-28-
국지적 공간자기상관
• 정의
개별 지점이 가지는 공간자기상관의 정도
• 전역적 vs. 국지적
전역적 공간자기상관 지수: 전체 구역을 하나
의 지수로 요약
국지적 공간자기상관 지수: 개별 지점에 대해
각각 지수가 산출됨
-29-
Local Moran’s I
• Local Moran’s I
범위: -작은값 ~ +큰값
[+]: 양의 공간자기상관 (인근한 것끼리 값이
유사)
[-]: 음의 공간자기상관 (인근한 것끼리 값이
비유사)
I i  zi  wij z j
j i
zi 
xi  x
x
열 표준화
I i 의 평균 = I
-30-
Local Moran’s I 결과 해석
R코드는 26페이지에 이어서
각 지점의
로컬 모란 I
로컬 모란 I의 로컬 모란 I의 로컬 모란 I의
기대값
분산
z값(t값):신빙성
로컬 모란 I의
유의수준
-31-
Local Moran’s I 단계구분도
R코드는 30페이지에 이어서
☞ [ , 1]: 모든 row의 첫번째 column
☞ 색채배열 선택
-32-
Local Moran’s I 단계구분도
-33-
팔레트
-34-
Local G*
• Local G*
범위: -작은값 ~ +큰값
[+]: 높은 값끼리 몰려있는 클러스터 (hot spot)
[-]: 낮은 값끼리 몰려있는 클러스터 (cold spot)
w x
ij
Gi 
*
j
j
 x  wij
j


n wij    wij 
j
 j

S
n 1
2
2
S
x
j
n
2
j
 x2
neighbor에 포함
wij •자기자신도
•열 표준화했을 때와 하지 않았을 때 Gi*값 동일
-35-
R코드는 26페이지에 이어서
Local G*
nb  자신도 포함하는 nb로 변환
cut(무엇을, 무엇으로)
-36-
RColorBrewer의 팔레트
-37-
-38-
공간 내삽
Spatial Interpolation
-39-
내삽과 공간 내삽
• 내삽 (內揷: interpolation)
기지 (旣知)의 값을 이용하여, 그 사이의 미지
(未知)의 값을 추정
예) 11월18일의 환율이 1100, 11월21일의 환
율이 1160이면, 11월20일은 1140???
• 공간 내삽
내삽을 XY 2차원 평면에 적용
점자료  연속면 (격자화)
-40-
격자화 (Gridding)
-41-
역거리 가중치 (IDW)
• 가중평균
미지의 어떤 지점의 추정치는 그 부근 관측치
의 가중평균으로 구함
• 가중치
추정하고자 하는 타겟 지점으로부터 멀리 위
치하는 관측치일수록 그 가중치가 적어짐
• 기본 모형
사용자정의
가중치는 거리 α승에 반비례 (α=1/2, 1, 2, …)
Zi의 추정치 = 부근 관측치 Zj의 가중평균
𝑍𝑖 =
𝑊𝑖𝑗 𝑍𝑗
𝑊𝑖𝑗
-42-
역거리 가중치 (IDW)
• 주변 관측치의 탐색반경
예) 반경 3 이내의 관측치를 대상으로, 거리
제곱에 반비례하는 가중치
ⓔ
ⓐ
ⓕ
ⓑ
ⓒ
ⓓ
[가중치의 합]
[열 표준화 가중치]
(a)
1
w(a)
w(b)
w(c)
w(d)
w(e)
w(f)
(b)
1
(c) (d) (e) (f)
1
1
1
1

 2


2
2
2
2
2
3
5
2
2
5
10
1 1 1 1 1 1
     
5 2 9 2 5 10
145

 1.6111
90
=
=
=
=
=
=
0.1241
0.3103
0.0691
0.3103
0.1241
0.0621
15*0.1241 + 14*0.3103 + 12*0.0691 + 13*0.3103 + 11*0.1241 + 10*0.0621 = 13.0549
-43-
합리적인 탐색반경 설정
관측치 pair의 거리
• 상관조락거리 (Correlation Decay Distance)
분리거리가 h인 관측치 pair들에 대하여 상관
계수를 계산할 때, h가 커짐에 따라 상관계수
가 감소하는 경향
상관계수가 1/e일 때의 거리를 상관조락거리
오일러 상수: 2.718…… (자연로그의 밑)
라고 함
상관조락거리 이상의 관측치들은 서로 영향을
미치지 않는다고 보아도 됨  상관조락거리
를 내삽 시의 관측치 탐색반경으로 설정
-44-
합리적인 탐색반경 설정
예들 들어 0.05도(degree) 눈금의 자로 거리를 재서
분리거리별 “관측치 쌍”들을 모아서 상관계수를 구한다면…
분리거리
0.05
0.1
0.15
……
관측치 pair
(1)-(8), (3)-(16), (9)-(22), ……
(4)-(12), (5)-(9), (9)-(18), ……
(1)-(18), (5)-(16), (10)-(33), ……
……
상관계수
0.8
0.7
0.65
……
-45-
합리적인 탐색반경 설정
• 상관조락거리의 예시
거리에 따른 상관계수를 fitting하여
하나의 곡선으로 나타냄
1/e
CDD
-46-
Angular Distance Weighting
• 거리뿐 아니라 방향을 고려한 가중치 부여
관측치가 특정방향에 집중 분포하면, 그 방향에
있는 관측치들이 과다하게 반영되는 문제
관측치가 많이 존재하는 곳은 가중치를 줄이고,
많이 존재하지 않는 곳은 가중치를 늘일 필요 
관측치 분포밀도에 따른 가중치 조정
어떤 관측지점 j의 가중치(Wj)는 거리가중치 wj와
방향가중치({…}부분)를 곱하여 나타냄
k—내삽지점—j가 이루는 각
CDD 이내의
j 이외 다른
모든 관측지점
상수 (양수: 1, 2, …)
내삽지점과 관측지점(j) 간의 거리
-47-
ADW 가중치 계산 연습
• CDD=2, m=2일 때
각 관측치들의 거리가중치는 동일
각 관측치들의 방향가중치는?
(1)
(2)
(3)
(7)
?
(6)
1
(4)
(5)
[엑셀 함수]
• e의 n제곱 = exp(n)
• 코사인 = cos(라디안)
• 각도  라디안 = radians(각도)
-48-
과제 – ADW와 IDW 계산 연습
• ADW: CDD=2, m=2
• IDW: “1/d”을 가중치로
9
8
6
8
?
10
7
1
9
𝑍𝑖 =
𝑊𝑖𝑗 𝑍𝑗
𝑊𝑖𝑗
-49-
크리깅 (Kriging)
• 분리거리에 따른 관측치의 비유사성을 이
용한 내삽 방법
베리오그램
공분산행렬
각 관측점 가중치
가중평균으로 내삽
-50-
베리오그램
• 분리거리에 따른 비유사도를 측정
어떤 지점
그로부터 h만큼 떨어진 지점
1 n
 (h)   [ z ( xi )  z ( xi  h)]2
2n i 1
분리거리가 h인 관측치의 pair가 n쌍일 때
z(xi) – z(xi+h)는 두 관측치의 차
분리거리가 커짐에 따라, 베리오그램은 일반
적으로 증가
베리오그램의 단위는 관측치의 단위와 동일
-51-
Siberia Revisited
예들 들어 0.05도 눈금의 자로 거리를 재서
분리거리별 “관측치 쌍”들을 모아서 베리오그램을 구한다면…
분리거리
0.05
0.1
0.15
……
관측치 pair
(1)-(8), (3)-(16), (9)-(22), ……
(4)-(12), (5)-(9), (9)-(18), ……
(1)-(18), (5)-(16), (10)-(33), ……
……
베리오그램
1
1.5
1.8
……
-52-
경험 vs. 이론 베리오그램
• 경험 베리오그램
일정간격의 분리거리에 대한 베리오그램 값의
집합 (실제 베리오그램)
• 이론 베리오그램
경험 베리오그램을 하나의 식으로 나타낸 것
(모델링된 베리오그램)
적색점: 경험 variogram
청색선: 이론 variogram
-53-
이론 베리오그램의 구성요소
• Range, sill, nugget
Range: 베리오그램이 수렴할 때의 분리거리
Sill: range에 해당하는 베리오그램 값
Nugget: 분리거리가 0일 때의 베리오그램 값
(Y절편)
range
sill
nugget
-54-
이론 베리오그램 모델링
• 경험 베리오그램  이론 베리오그램 (하
나의 식으로 나타냄)
• Range(r), Sill(s), Nugget(n), 분리거리(h)를
이용하여
구형 모델 (spherical model)
지수형 모델 (exponential model)
가우스형 모델 (Gaussian model)
-55-
이론 베리오그램 모델링
• 구형, 지수형, 가우스형
구형
Spherical model
지수형
Exponential model
가우스형
Gaussian model
완만한 곡선 형태
약간 S자 형태
일찍 수렴후 거의 직선
수렴후 거의 직선
-56-
이론 베리오그램 최적화
• Weighted Least Squares (가중 최소제곱법)
경험 vs. 이론 베리오그램의 weighted sumof-squares를 최소화하는 range, sill,
nugget을 도출함 (iteration을 통해)
 Eh 
 N h  T  1
 h

2
의 최소화
Nh = 분리거리 h일 때 pair개수
Th = 이론 variogram값 (선)
Eh = 경험 variogram값 (점)
-57-
크리깅
• 공분산 행렬
공분산 = Sill – Variogram
☞ 베리오그램을 이용하여
“관측치 공분산행렬”을 작성
공분산 (유사도)
Sill
Variogram (비유사도)
분리거리
z2와 z3의 “분리거리”가 0.5이면  베리
오그램은 2.7이고  공분산은 3.5이다
크리깅
-58-
z1
z4
z0?
z2
z3
• 미지의 지점(z0) 내삽에 필요한 각 관측지
점(z1, z2, z3, z4)의 가중치 도출을 위하여
분리거리를 알면  베리오그램을 알 수 있고
공분산행렬을 이용
 공분산을 알 수 있음
2

 1 1    01
   2 
 1 2    02 
2 
 1 3     03
 타겟지점 z0와
 
2
 4개 관측치의
 1 4    04
  
 공분산행렬
1
1
1
0     1 
내삽치
라그랑지 파라미터
XY=Z
 가중치 합이 1이 되도록 해줌
Y=X-1Z
가중평균 가중치
  112
 2
  21
4개 관측치의  2

공분산행렬  31
2
  41

 1
 122
2
 22
 322
2
 42
 132
2
 23
 332
2
 43
 142
2
 24
 342
2
 44
타겟지점 z0에 대한
4개 관측치의 <가중치행렬>
(ω 값은 사용되지 않고 폐기)
𝑧0 =
관측치
𝑖 𝜆𝑖 𝑧𝑖
𝑖 𝜆𝑖
크리깅 계산 연습
-59-
z1
z4
z0?
z2
타겟지점과 관측치의
공분산행렬
관측치의 공분산행렬
0.2047
0
0.0004
 4

4
0.7465 0.0423
 0.2047
 0
0.7465
4
0.1836

4
 0.0004 0.0423 0.1836
 1
1
1
1

 1 1   1.055 
  

 1 2   0.3374 
 1 3    0.011 
  

 1 4   0.8479 
0     1 
관측치의
가중치행렬
(우리가 구하고자 하는 것)
XY=Z
Y=X-1Z
z3
크리깅 계산 연습
-60-
z1
z4
z0?
z2
z3
z1=10
z2=8
z3=7
z4=12
☞ 행렬에서 하나의 row가 될 것임
로우 기준으로 묶음을 구성
☞ 역행렬 함수
☞ 행렬의 곱은 %*%
λ1=0.3900
λ2=0.1796
λ3=0.0890
λ4=0.3414 (가중치)
내삽치 z0 = λ1z1 + λ2z2 + λ3z3 + λ4z4 = 10.0566