1 - 부경대학교 공간정보시스템

Download Report

Transcript 1 - 부경대학교 공간정보시스템

-1-
공간통계학 및 실습
공간정보시스템공학과
이양원
[email protected]
-2-
“위치”는 중요하다
=
픽셀개수
히스토그램
RGB값
-3-
“위치”는 중요하다
• A = B = C (?)
 평균(A) = 평균(B) = 평균(C)
 표준편차(A) = 표준편차(B) = 표준편차(C)
-4-
1. 지리정보의 다기준 분석
- AHP -
-5-
다기준 분석
• MCA (multi-criteria analysis)
어떤 문제에 연관된 기준이 다수 존재할 때,
그 기준들을 종합하여 현상을 분석하는 방법
기준들의 가중치 설정이 중요
예)탄소저감: 자동차, 화석연료, 공장, 산림, …
• AHP (Analytic Hierarchical Process)
쌍대비교를 이용하여 다수 기준의 가중치를
설정하는 계층적 방법
-6-
AHP 계산 순서
• 쌍대비교 행렬
• 가중치 벡터
• 일관성 비율
람다맥스, CI, RI  CR
• 행렬통합
CR < 0.1
기하평균
-7-
쌍대 비교
• 무엇은 무엇보다 몇 배 중요하다
건강은 사랑보다 ( 2 )배 중요하다?
건강은 돈보다 ( 5 )배 중요하다?
사랑은 돈보다 ( 2 )배 중요하다?  2.5배이어야
• 쌍대비교 행렬
무
엇
이
무엇보다
건강 사랑 돈
2
5
건강 1
1
2
사랑 0.5
0.2 0.5 1
돈
일관성 있지만…
-8-
가중치 벡터 구하기
• 세로 합
건강 사랑 돈
2
5
건강 1
1
2
사랑 0.5
0.2 0.5 1
돈
Sum 1.7 3.5 8
• 각 요소를 세로 합으로 나누기
건강
사랑
2/3.5
건강 1/1.7
사랑 0.5/1.7 1/3.5
돈 0.2/1.7 0.5/3.5
돈
5/8
2/8
1/8
-9-
가중치 벡터 구하기
• 가로 합을 항목 개수로 나누기
 1 / 1.7  2 / 3.5  5 / 8   0.5949 
 

1
w   0.5 / 1.7  1 / 3.5  2 / 8    0.2766 
3
  0.1285 
0
.
2
/
1
.
7

0
.
5
/
3
.
5

1
/
8

 

건강
사랑
돈
가중치 벡터
-10-
일관성 비율 (Consistency Ratio)
• λmax
각 항목에 대한 [세로합 * 가중치]의 합
특징: 반드시 항목 수 (n) 보다 크거나 같음
(1.7*0.5949) + (3.5*0.2766) + (8*0.1285)=3.0075
• CI (Consistency Index: 일관성 지수)
(λmax – n) / (n – 1)
(3.0075 – 3) / (3 – 1) = 0.0037
• RI (Random Index: 랜덤 지수)
“CI는 보통 이 정도”라고 가정하는 비교 기준
항목 수에 따라 기준치가 주어짐
n 1 2
3
4
5
6
7
8
9
10
RI 0 0 0.58 0.9 1.12 1.24 1.32 1.41 1.45 1.49
-11-
일관성 비율 (Consistency Ratio)
• CR (consistency ratio)
CR = CI / RI
CR = 0.0037 / 0.58 = 0.0064
CR이 0.1 미만인 쌍대비교 행렬: 일관성 있는
쌍대비교 행렬이라고 간주하여 채택
CR이 0.1 이상인 쌍대비교 행렬: 일관성 없는
쌍대비교 행렬이라고 간주하여 버림
-12-
행렬 통합
• 보다 합리적인 가중치 적용을 위해서
여러 사람의 쌍대비교 행렬을 이용
• 쌍대비교 행렬은 사람에 따라 다르다
• 여러 사람의 쌍대비교 행렬을 통합하려면
일관성이 있는 행렬들만 채택한 후
(일반적으로) 기하평균을 적용하여 통합
-13-
행렬 통합
• 예) 3개의 쌍대비교 행렬을 통합할 때
행렬1 A B
A
1 2.5
B
0.4 1
C
0.2 0.5
C
5
2
1
행렬2
A
B C
A
1
2 4
B
0.5
1 2
C
0.25 0.5 1
행렬3
A
B
C
A
1
4
10
B
0.25 1 2.5
C
0.1 0.4 1
-14-
통합 가중치 벡터
• 계산하면
통합
A
B
C
A
1
2.7144 5.8480
B 0.3684
1
2.1544
C 0.1710 0.4642
1
• 세로 합
통합
A
B
C
A
1
2.7144 5.8480
B 0.3684
1
2.1544
C 0.1710 0.4642
1
Sum 1.5394 4.1786 9.0024
-15-
통합 가중치 벡터
• 각 요소를 세로 합으로 나누기
통합
A
B
C
A
1/1.5394
2.7144/4.1786 5.8480/9.0024
B 0.3684/1.5394
1/4.1786
2.1544/9.0024
C 0.1710/1.5394 0.4642/4.1786
1/9.0024
• 가로 합을 항목 개수로 나누기
 0.6496  0.6496  0.6496   0.6496 
 

1
w   0.2393  0.2393  0.2393    0.2393 
3
  0.1111 
0.1111

0.1111

0.1111

 

건강
사랑
돈
-16-
계층적?!
• 건강
 신체
 정신
• 사랑
0.6
0.4
0.6
0.3
 가족
0.4
 애인
0.5
 인류애 0.1
• 돈
0.1
 급여
0.5
 예금
0.3
 부동산 0.2








건강—신체
건강—정신
사랑—가족
사랑—애인
사랑—인류애
돈—급여
돈—예금
돈—부동산
0.24
0.36
0.12
0.15
0.03
0.05
0.03
0.02
-17-
2. 지리정보의 회귀분석
-18-
回歸分析
• Regression analysis
독립변수(X)가 종속변수(Y)에 어떠한 영향을
미치는지 분석하기 위하여
X와 Y가 어떠한 관계에 있는지, 관계식을 도출
그 관계식을 회귀식이라고 함
회귀식을 통해, 어떤 X값이 주어졌을 때 이에
따른 Y값을 추정할 수 있음 (X  Y)
X는 설명변수, Y는 반응변수라고도 함
(예) 강수  토양수분
고도  기온
-19-
선형 회귀 모형
• Linear regression model
회귀식 (독립변수와 이에 영향을 받는 종속변
수의 관계)을 선형 함수로 일반화하여 나타냄
예) Y = a + bX
고도(m)
기온(ºC)
10
33 508
52 109 427 236 187 126 297
17.5 17.3 14.6 17.8 17.5 14.4 16.6 16.9 16.4 15.5
-20-
선형 회귀 모형
• 고도 (X)  기온 (Y)
고도가 상승함에 따라 기온은 하강
-21-
선형 회귀 모형
• 가장 적합한 回歸線
X 변수와 Y 변수의 관계를 가장 잘 설명하는
最適線 (best-fitting line)
회귀선이 실제 관측치 분포에 최대한 가까이
그려지도록 함
즉, 관측치 (Yi)와 추정치 (Ŷi)의 차이인 잔차
(殘差) 제곱의 합을 최소화하는 회귀선 도출
min  (Yi - Ŷi )
2
최소제곱법
-22-
선형 회귀 모형
• 잔차 제곱의 합이 최소화되도록
최적의 회귀선을 찾음
?
?
-23-
선형 회귀 모형
• 잔차 제곱의 합이 최소화되도록
Y = a + bX의 a와 b를 구함
관측치
(잔차 = 관측치 - 추정치)
추정치
-24-
-25-
회귀계수 산출
• Y = a + bX
• Y = 17.8106 – 0.0069X
-26-
추정치와 잔차
• Y(추정치) = 17.8106 – 0.0069X
고도(X)가 350미터라면 기온(Y)은 몇 도로 추
정되는가?
-27-
결정계수
• R2 (R-squared)
회귀모형의 설명력 (0 ≤ R2 ≤ 1)
구해진 회귀식이 “얼마나 납득할 수 있는가”를
말함
Sum of Square (제곱합)
[추정치SS / 관측치SS]로 계산
𝑅2 =
𝑛
𝑖=1(𝑌𝑖
𝑛
𝑖=1(𝑌𝑖
2
− 𝑌)
− 𝑌)2
SS(추정치 minus 평균)
SS(관측치 minus 평균)
-28-
결정계수
• R2 (R-squared)
R2이 클수록 설명력이 큰 모형
-29-
단순회귀 vs. 다중회귀
• 단순회귀
1개의 설명변수
y = ß0 + ß1x1
• 다중회귀
복수의 설명변수
y = ß0 + ß1x1 + ß2x2 + … + ßkxk
y 기온(ºC)
x1 고도(m)
x2 일사(MJ/m2)
17.5 17.3 14.6 17.8 17.5 14.4 16.6 16.9 16.4 15.5
10
33 508
52 109 427 236 187 126 297
10
11
8
10
9
9
9
12
9
10
-30-
R을 이용한 회귀분석
• FOSS (Free and Open Source Software)
http://cran.nexr.com/
Windows – base – Download R
-31-
R을 이용한 회귀분석
• 단순 회귀
우측 값을 좌측 변수에 대입
temp <- c(17.5, 17.3, 14.6, 17.8, 17.5, 14.4,
16.6, 16.9, 16.4, 15.5) c(값, 값, 값, …) --- 배열
alt <- c(10, 33, 508, 52, 109, 427, 236, 187,
126, 297)
plot(가로축, 세로축)
plot(alt, temp) linear model(regression)
simp.reg <- lm(temp ~ alt) lm(반응변수 ~ 설명변수)
summary(simp.reg)
R은 대소문자 구분
-32-
R을 이용한 회귀분석
• 결과의 해석
호출된 linear model의 공식
잔차의 분포
(최소, ¼선, ½선, ¾선, 최대)
(계수)
β0
β1
잔차의
표준오차
R-squared
(값)
자유도
-33-
결과의 해석
• 회귀계수
β0 (절편): 17.8105
β1 (기울기): -0.0069
• x가 1만큼 증가하면 y는 -0.0069만큼 증가
• x가 y에 미치는 영향의 방향 (-)과 크기 (0.0069)
☞ n개의 샘플(표본)로 회귀분석을 수행할 때, 샘플의 구성이 달라지면
잔차와 회귀계수도 달라진다. 즉, 샘플의 구성에 따라 잔차와 회귀계수
가 조금씩 달라질 수 있는데, 이러한 변이(가변성)를 표준오차라 한다.
• 잔차의 표준오차

SE 
☞ df (degrees of freedom, 자유도): 주어진 조건
하에서 자유롭게 변화할 수 있는 정보량. 회귀분석
에서 df는 [샘플 개수 – 설명변수 개수 – 1]로 계산.
2
(y

y
ˆ
)
 i i
df
• 회귀계수 β0 (절편)의 표준오차
 SE(β )  SE 1 
0
n
x2
2
(x

x
)
i 1 i
n
• 회귀계수 β1 (기울기)의 표준오차

SE(β1 ) 
SE 2
2
(x

x
)
i 1 i
n
-34-
-35-
회귀계수가 얼마나 믿을만한가?
 정규분포의 원리
☞ 참고로, R2는 “회귀식”의 신빙성
• t-value
t-value = 회귀계수 / 표준오차
 맞을 가능성
“회귀계수”의 신빙성을 나타냄
회귀계수의 부호와 동일한 부호를 가짐
±1.96 (95% 신뢰도), ±2.58 (99% 신뢰도), ……
• Pr(>|t|)
p-value라고도 함
“회귀계수”의 유의수준을 나타냄
 틀릴 가능성
정규분포에서 |t| 보다 클 확률
t=1.96일 때 0.05, t=2.58일 때 0.01, ……
0
-36-
R을 이용한 회귀분석
• 다중회귀
rad <- c(10, 11, 8, 10, 9, 9, 9, 12, 9, 10)
mult.reg <- lm(temp ~ alt + rad)
lm(y ~ x1 + x2 + x3 + …)
summary(mult.reg)
참고
-37-
R2(결정계수)와 R(상관계수)
• 공분산(covariance)
두 변수가 같이 움직이는(같은 경향을 가지는)
정도

Cov( x, y ) 
n
i 1
( xi  x )( yi  y )
n 1
☞ 평균, 분산 등을 구할 때
모집단은 n으로 나누고
표본집단(샘플)은 n-1로 나눔
• 상관계수
 두 변수의 상관성을 나타냄
1 사이의 값을 가짐
 r  Cov( x, y) •• -1에서
1에 가까울수록 강한 양의 상관관계
xy
 x y
• -1에 가까울수록 강한 음의 상관관계
결정계수 = 상관계수의 제곱
참고
-38-
공분산과 상관계수 계산
• eng와 math의 공분산
eng <- c(83, 42, 68, 92, 100)
math <- c(73, 56, 72, 89, 84)
cov(eng, math)
• eng와 math의 상관계수
cov(eng, math) / (sd(eng) * sd(math))
cor(eng, math)
-39-
로지스틱 (logistic) 회귀분석
승/패, 생존/사망 등 이진값
• 반응변수가 논리형 변수(0 또는 1)일 때,
설명변수에 따른 반응변수의 확률값 추정
y
1
(  0  1 x1   2 x2 ...   p x p )
설명변수 Y : 암환자의 생존/사망
X : 흡연량, 음주량, 나이, 성별
1 e
1
y
1  ez
반응변수
0≤y≤1
z   0  1 x1   2 x2  ...   p x p
y
2.718…
오일러 상수
자연로그의 밑
z
-40-
우선 알아둘 것
최우법(Maximum Likelihood Method)
• 우도함수(likelihood function)
경우의 수가 발생하는 정도(확률)를 함수로 표현
모집단의 승률을 p라고 할 때, [승-패-승-승-승-패
전체(total) -승-패-승-승]이라는 경우의 수가 발생할 확률은?
p × (1-p) × p × p × p × (1-p) × p × (1-p) × p × p
승
패
승 승
승
패
승
패
승
• 최우법
모집단의 발생확률 p를 구하려면  표본집단의
우도함수를 최대화하여 p를 구함
일부로부터
전체를 짐작
승
-41-
설명변수를 통하여 승률 추정
• 설명변수 X
팀타율
로지스틱 회귀분석의 설명변수는
홈/원정 ☞
수치형, 논리형 변수 모두 가능
• 반응변수 Y
승리/패배
☞ 로지스틱 회귀분석의 반응변수는
반드시 논리형 변수 (이진값: 0/1)
과거 20경기의 샘플  앞으로 있을 경기의 승률을 추정
(승: 1, 패: 0)
(홈: 1, 원정: 0)
-42-
최우법을 이용한 로지스틱 회귀
y
• 우도함수
<20경기>
승
p
승/패
패
(1-p)
1
1 e
 (  0  1 x1   2 x2 ) X1: 팀타율
X2: 홈/원정
……
승
p
1
1


 1 
 
 (  0  1 0.283  2 0 )
 (  0  1 0.242   2 0 ) 
1 e
1  e (  0  10.228  2 1)
 1 e

1
• 로그 우도함수의 최대화


1
1
1


L  ln 

1





 (  0  1 0.283  2 0 )
 (  0  1 0.242   2 0 ) 
 (  0  1 0.228  2 1) 
1

e
1

e
1

e




☞ 로그 우도함수 최대화  β0, β1, β2를 구함 (통계패키지 R 이용)
-43-
R에서 로지스틱 회귀분석
• 팀타율, 홈/원정  승률
Y win <- c(1, 0, 0, 0, 0, 1, 0, 1, 0, 1, 0, 0, 1, 1, 0, 0,
1, 0, 0, 1)
X1 hit <- c(0.283, 0.242, 0.261, 0.244, 0.238, 0.281,
0.247, 0.268, 0.251, 0.281, 0.219, 0.223, 0.271,
0.262, 0.263, 0.218, 0.217, 0.271, 0.236, 0.228)
X2 home <- c(0, 0, 1, 0, 0, 1, 1, 0, 0, 1, 0, 0, 1, 1, 0,
0, 1, 0, 0, 1)
my.logit <- glm(win ~ hit+home, binomial(logit))
로지스틱 회귀임을
summary(my.logit)
나타내는 옵션
-44-
로지스틱 회귀분석 결과
• 결과 해석
β0
β1
β2
-45-
설명변수를 통하여 승률 추정
• 팀타율 0.255, 홈경기일 때 이길 확률은?
y
1
1  e ( -13.213 45.965 x1  2.777 x2 )
☞ e는 엑셀에서 exp 명령 이용
1

1  e ( -13.213 45.9650.255 2.7771)
 0.783