확률분포의 특성

Download Report

Transcript 확률분포의 특성

수문통계분석

2012.10.17

담당교수명 : 서 영 민 연 락 처 : [email protected]

010-2507-7107

수문통계분석 서론 확률변량 자료의 표현 확률개념 확률분포 확률분포의 특성 재현기간 및 위험도 수문자료계열 회귀분석

서 론

서론

확률론적 수문해석의 필요성

- 수문과정들이 가지는

무작위성 (randomness)

으로 인해 확률적 의미로 분석 되거나 설명되어야 할 경우가 많음.

*

randomness

: lack of pattern or predictablility in events - 수문현상의 모든 발생원리를 정량적으로 나타내기가 불가능 - 각종 수자원설계는 정확한 발생시간을 예측할 수 없는 특정 크기의 장래 수문사상에 대하여 계획되고 설계 - 대부분의 경우 홍수나 갈수를 완전히 방지한다는 것은 불가능  특정 발생확률을 가지는 수문량에 대하여 계획 (예, 100년 빈도 홍수량)  이를 초과할 경우 피해를 감수할 수밖에 없으나 장기적으로 볼 때 피해복구에 드는 비용이 과다설계로 인한 사업비의 증분보다는 크지 않은 범위 내에서 사회적 문제까지를 고려하여 설계수문량 결정

서론

확정론적 해석방법 (deterministic hydrologic analysis)

- 물순환의 여러 성분과정에서의 각종 현상이 확정성 법칙 (law of certainty)에 따라 발생 - 물순환 성분에 대한 각종 현상 간의 상호작용을 수학적인 관계로 모델링 - 수문시스템이 무작위성을 가지지 않는다고 가정 (모든 수문현상이 확정적으로 발생한다고 가정) - 대부분의 수문모의모델 (예, 강우-유출모델)

서론

통계학적 해석방법 (statistical hydrologic analysis)

- 수문시스템의 강우-유출관계 등에 대한 물리적 인과관계를 전혀 분석하지 않고 수집된 강우량과 유출량 등의 수문자료계열의 각종 특성을 통계학적 기법에 의해 분석 및 모의하는 방법 -

확률론적 분석기법 (probabilistic analysis)

:- 수문자료 계열 (연최대 혹은 연최소치 계열)을 구성하는 개별 자료의 발생순서는 고려하지 않음.

:- 특정 크기의 사상이 발생할 빈도 혹은 재현기간을 결정 (빈도해석) -

추계학적 분석기법 (stochastic analysis)

:- 각종 수문사상의 발생확률은 일정하지 않고 시간에 따라 변함을 고려 :- 수문자료 계열을 구성하는 개별 자료의 발생순서를 고려하여 자료계열의 통계학적 특성을 분석 (추계학적 모의발생모델)

확률변량

확률변량

확률변량 (확률변수, random variable)

- 확실성 (certainty)을 가지고 예측할 수 없는 변량 (유출량, 강우, 수위 등) - 확률분포에 의해 설명되는 변수 :- 확률분포: 확률변수 X의 값 x가 X의 특정 범위 내에 포함될 확률을 설명 :- 예) 주사위: P(X=1)=1/6, P(X<3)=1/6+1/6=1/3

확률변량의 구분 이산형 (discrete) 확률변량

:- 이산형 값들로 이루어지는 확률변량 :- 예) 동전 (앞, 뒤), 주사위 (1-6), 전도형 우량계 측정치

연속형 (continuous) 확률변량

:- 연속적인 측정치로 이루어지는 확률변량 :- 예) 자기우량계 측정치 0,18 0,16 0,14 0,12 0,1 0,08 0,06 0,04 0,02 0 1 2 3 4 5

Outcome of One Dice

6

자료의 표현

자료의 표현

독립성 (independence)

:- 어떤 사상 (event)의 발생이 다른 사상의 발생에 영향을 미치지 않는 특성 :- 장래 사상의 크기는 과거 사상의 크기에 영향을 받지 않는 특성

정상성 (stationarity)

시계열 (time series)에서 장기간 동안 통계 특성치들이 변하지 않고 일정한 특성

(nonstationary time series)

자료의 표현

히스토그램 (주상도, histogram)

:- 자료의 범위 (range)를 계급구간 (class interval)으로 나누고 각 계급구간에 해당하는 관측치의 수 (빈도, frequency)를 측정하여 나타낸 그래프 :- 자료의 대칭, 왜곡 등의 판단 및 확률분포 결정

확률개념

확률개념

확률 (probability)

어떤 사상 X i 가 발생할 확률 P(X i ) 는 그 사상이 발생하는 상대적인 횟수로 정의 : 사상 X i 가 발생할 상대도수 (relative frequency) 또는 확률 (probability) n i : 사상 X i 가 발생하는 횟수, N : 시행횟수

확률개념

확률법칙

1) 임의 사상의 발생확률은 0과 1 사이의 값 2) 발생 가능한 모든 사상의 확률의 합은 1 3) 상호배반적인 사상의 합집합의 확률은 각 사상의 확률의 합 4) 서로 독립적인 사상의 교집합의 확률은 각 사상의 확률의 곱 5) 서로 독립도 아니고 상호배반도 아닌 경우 6) 서로 독립일 경우 조건부 확률

예제

번개가 칠 사상을 X, 호우가 발생할 사상을 Y 번개가 칠 확률 0.3, 호우가 발생할 확률 0.1, 번개가 칠 때 호우가 발생할 확률 0.5

호우와 번개가 동시에 발생할 확률?

P(X)=0.3, P(Y)=0.1

P(Y|X)=P(X∩Y)/P(X)  P(X∩Y)=P(Y|X)P(X) =0.5×0.3=0.15

만일 두 사상이 독립일 경우 P(X∩Y)=P(X)P(Y)=0.3×0.1=0.03

확률분포

확률분포

확률분포 (probability distribution)

확률변수의 거동을 나타내는 함수 PMF

확률분포의 구분 이산형 (discrete) 확률분포함수 (probability mass function, PMF) 연속형 (continuous) 확률밀도함수 (probability density function, PDF)

PDF

확률분포

이산형 확률분포

:- 확률변수 X의 값 x가 a와 b 사이에 있을 확률 :- 누가확률분포함수 (cumulative probability distribution function, CDF) 예) P(75)=0.013, P(125)=0.173, P(175)=0.360, P(225)=0.267, P(275)=0.093, P(325)=0.080, P(375)=0.000, P(425)=0.013

X가 225보다 크지 않을 확률?

F(225)=0.013+0.173+0.360+0.267=0.813 (81.3%)

확률분포

연속형 확률분포

:- 확률변수 X의 값 x가 a와 b 사이에 있을 확률 :- 확률밀도함수 아래의 총면적 :- 누가확률밀도함수 (cumulative probability density function, CDF) PMF CDF

확률분포

PDF와 CDF 관계

 CDF F(x) 의 기울기 dx : 계급구간 Δx  0 :- 확률변수 X의 임의 값 x에서의 확률밀도함수는 그 값에서의 누가확률밀도함수 F(x) 의 기울기 :- 확률밀도함수에 계급구간을 곱한 그 계급구간에 해당하는 확률 = 누가확률밀도함수에서 Δx 구간에 해당하는 누가확률의 변화 ΔF(x) 와 같음 f(x)Δx 는

확률분포의 특성

확률분포의 특성

:

확률분포의 모멘트

확률분포의 모멘트 (moment)

:-

원점에 대한 N차 모멘트

(이산형) (연속형) :-

원점에 대한 1차 모멘트

:- 평균 (mean or average) μ 또는 기대값 (expected value) E (·) :- 중앙집중 성향을 나타내는 척도 :- 분포의 대다수가 위치하고 있는 지점을 나타내는 위치변수 (이산형) (연속형)

확률분포의 특성

:

확률분포의 모멘트

:-

평균에 대한 N차 모멘트 (central moment)

:- 확률변수 x와 평균치간의 차이에 대한 기대값 :- 평균에 대한 1차 모멘트는 0 (이산형) (연속형) :- 기대값의 특성 a, b : 상수  기대값은 선형 연산자 (linear operator)

확률분포의 특성

:

확률분포의 모멘트

:-

평균에 대한 2차 모멘트: 분산 (variance)

:- 평균으로부터 편차의 제곱에 대한 기대값 :- 자료가 평균으로부터 흩어져 있는 정도는 나타냄 :- 분산의 제곱근 σ : 표준편차 (standard deviation) (이산형) (연속형) :- 분산의 특성 a, b : 상수

확률분포의 특성

:

중앙집중성향

:- 표본자료가 가장 집중되어 있는 곳이 어딘가를 나타내는 것 :- 산술평균, 중앙값, 최빈값

산술평균 (arithmetic mean)

:- 원점에 대한 1차 모멘트 : 모집단 (population)에 대한 평균 : 표본집합 (sample set)에 대한 평균 : 자료의 수 :- 모집단 (population) 확률변수의 관측가능한 모든 값을 포함하는 집합 :- 표본집합 (sample set) 모집단으로부터 선택된 부분집합  : 모집단으로부터 이론적으로 계산된 평균 : 표본자료로부터 계산된 평균

확률분포의 특성

:

중앙집중성향

중앙값 (median)

:- 자료집단의 중간에 위치하는 관측치 :- 관측자료를 크기 순으로 나열했을 때 중앙에 위치하고 있는 값

최빈값 (mode)

:- 관측치를 가장 많이 포함하고 있는 확률변수의 값 또는 계급구간값

기하평균 (geometric mean)

:- n개의 관측치 곲을 n승근하여 계산 :- 왜곡이 심한 자료를 분석시 사용

조화평균 (harmonic mean)

:- 역수의 산술평균의 역수 :- 지하수 대수층 특성 분석시 사용

확률분포의 특성

:

중앙집중성향

중앙집중 성향을 나타내는 매개변수들의 위치

확률분포의 특성

:

분산도

자료가 흩어져 있는 정도의 측정

:- 범위 (range) = 최대값 – 최소값 :- 사분위수 범위 (interquartile range) = 제3사분위수 – 제1사분위수 :- 분산 (variance) :- 자료가 평균치 주위로 어떻게 분포하고 있는지 측정 (자료 퍼짐의 정도) :- 확률밀도함수의 평균치에 관한 2차 모멘트

분산 (variance)

(모집단)  편차 제곱의 평균 (표본집단) n-1 : 표본평균을 사용함으로써 발생하는 왜곡의 보정

확률분포의 특성

:

분산도

표준편차 (standard deviation)

분산의 단위: 표본자료를 제곱한 단위  원래 자료의 단위로 표현을 위해 표준편차를 사용하기도 함.

변동계수 (coefficient of variation)

표준편차와 평균의 비 서로 다른 표본자료의 퍼짐정도를 비교 (예. 강우량과 유출량)

확률분포의 특성

:

왜곡도

왜곡도 (skewness)

:- 자료의 평균에 대한 대칭정도를 나타내는 매개변수 :- 양의 왜곡 :- 분포의 중심이 좌측으로 치우쳐지고 분포의 꼬리가 길게 늘어져 있는 상태 :- 대부분의 수문학적 자료 :- 왜곡도 :- 평균치에 대한 3차 모멘트 (모집단) (표본집단)

확률분포의 특성

:

왜곡도

왜곡도 계수 (coefficient of skewness)

대칭 양의 왜곡 (오른쪽으로 왜곡) 음의 왜곡 (왼쪽으로 왜곡)

확률분포의 특성

:

첨예도

첨예도 (kurtosis)

:- 첨두 상태 (첨두의 뾰족한 정도)를 나타내는 매개변수 :- 평균에 대한 4차 모멘트 (모집단) (표본집단)

예제

12.4

산술평균, 중앙값, 최빈값, 기하평균, 조화평균, 범위, 사분위수 범위, 분산, 표준편차, 변동계수, 왜곡도, 왜곡도 계수, 첨예도를 구하라.

산술평균 중앙값 최빈값 기하평균 조화평균

최소값 최대값 범위

제1사분위수 제3사분위수 사분위수 범위

분산 표준편차 변동계수

왜곡도 왜곡도 계수 첨예도

Normal Distribution

Histogram

1 st quartile median 3 rd quartile maximum 3 rd quartile median 1 st quartile minimum

재현기간 및 위험도

재현기간 및 위험도

재현기간 (return period)

:- 특정사상의 크기와 같거나 초과하는 사상이 발생하는 평균기간 :- 어떤 수문사상 (강우량, 홍수량)의 크기가 평균 T년 동안에 한번 같거나 초과하게 되면 재현기간 T년을 가진다고 말함.

:- 초과확률의 역수 예 ) 재현기간 100 년 홍수 (100 년 빈도 홍수 ) 어떤 해에 그 보다 크거나 같은 홍수가 발생할 확률이 1/100=0.01 (1%) 100 년 빈도 홍수 :- 100 년 마다 한번씩 발생하는 홍수라는 의미가 아님 !!

:-

평균적으로

100 년 마다 한번씩 발생 (100 년에 서너번 발생할 수도 있고 한번도 발생하지 않을 수도 있음 )

재현기간 및 위험도

위험도 (risk)

:- 연속되는 n년 동안 최소한 한번 T년 빈도의 홍수가 발생할 확률 :- 설계 재현기간 T에 해당하는 홍수량이 구조물의 예상수명기간 내에 초과되면 치수구조물이 붕괴되는 것으로 고려 어떤 해에 홍수가 발생할 확률 어떤 해에 홍수가 발생하지 않을 확률 n년 동안 계속해서 홍수가 발생하지 않을 확률 연속되는 n년 동안 최소한 한번 T년 빈도의 홍수가 발생할 확률

설계 수명기간 (n)과 홍수의 재현기간 (T)에 따른 위험도 R

수문자료계열

수문자료계열

시계열의 선택

:- 전기간치계열 (complete-duration series) :- 부분기간치계열 (partial-duration series) :- 극치계열 (extreme-value series)

수문자료계열

시계열의 선택 원자료 ( 전기간치 계열 ) 연초과치 계열

모든 기간의 자료 포함

연최고치 계열

계열에 속한 자료의 숫자와 기록년수가 같도록 기준치를 정하여 기준치 이상의 자료만 포함 매년 최대치를 선택하여 구성한 계열

회귀분석

회귀분석

회귀분석 (regression analysis)

:- 한 개의 종속변수와 여러 개의 독립변수간의 관계식을 구하는 과정 :- 회귀식 (regression equation): 회귀분석을 통해 유도된 식 : :-

선형 회귀분석 (linear regression analysis)

:- 종속변수와 독립변수간의 관계가 선형인 회귀분석

비선형 회귀분석 (nonlinear regression analysis)

:- 종속변수와 독립변수간의 관계가 비선형인 회귀분석 : :-

단순회귀분석 (simple regression analysis)

:- 독립변수가 한 개인 회귀분석

중회귀분석 (multiple regression analysis)

:- 독립변수가 두 개 이상인 회귀분석

단순선형회귀분석 (simple linear regression analysis)

:- 하나의 독립변수만을 이용하여 종속변수를 예측하며, 이 관계가 직선형태인 경우의 회귀분석 Y: 종속변수, X: 독립변수, a: 절편, b: 회귀식의 기울기

단순선형회귀분석 (simple linear regression analysis) 양의 선형관계 음의 선형관계 비선형관계 무상관

단순선형회귀분석 (simple linear regression analysis) 매개변수 (회귀상수) 추정

관측량 (Y i ) 과 회귀식에 의한 예측량 (Y) 과의 편차의 제곱합을 최소 (

최소자승법

) a, b 0 에 관해 편미분한 식을 으로 놓음 .

단순비선형회귀분석 (simple nonlinear regression analysis)

선형관계로 변환한 후 회귀상수 추정

상관관계

- 종속변수와 독립변수 간의 함수관계 (회귀식)가 어느 정도 정확한 지 검토 - 종속변수에 대한 예측치의 타당성 검토

상관계수 (correlation coefficient)

또는 R>0: 증가관계 R<0: 감소관계 R=0: 무상관 R=±1: 완전상관

표준개산오차 (standard error of estimate)

중선형회귀분석