직선성 판단 (R-square)

Download Report

Transcript 직선성 판단 (R-square)

기계공학에서의 신뢰성공학
Project 1
유 정현, 박 창기
2015. 11. 17.
Cryogenic Engineering Lab.
개요

과제 목표


데이터 분석




주어진 데이터에 가장 적합한 분포함수 및 결정
직선성 판단 (육안)
직선성 판단 (R-squre)
K-S 검정
결론
2
Data 1
3
직선성 판단 (육안) - 대칭누적분포함수
2.0
1.5
1.0
1.0
0.5
0.5
0.0
0.0
-0.5
-0.5
-1.0
-1.0
-1.5
-1.5
Normal
-2.0
100
200
LogNormal
Linear Fit of E
1.5
E
C
2.0
normal
Linear Fit of C
300
400
500
600
LogNormal
-2.0
4.8
700
5.0
5.2
5.4
5.6
2
6.0
6.2
6.4
6.6
2
Weibull
Linear Fit of G
1
Biexponential
Linear Fit of I
1
0
0
-1
-1
I
G
5.8
D
A
-2
-2
-3
-3
Weibull
-4
Biexp
-4
4.8
5.0
5.2
5.4
5.6
5.8
F
6.0
6.2
6.4
6.6
100
200
300
400
H
500
600
700
4
직선성 판단 (육안) - 평균랭크
2.0
1.5
1.0
1.0
0.5
0.5
0.0
0.0
-0.5
-0.5
-1.0
-1.0
-1.5
Normal
200
300
400
500
600
LogNormal
-1.5
-2.0
100
LogNormal
Linear Fit of E
1.5
E
C
2.0
normal
Linear Fit of C
-2.0
700
4.8
5.0
5.2
5.4
5.6
A
1.5
6.0
6.2
6.4
6.6
1.5
Weibull
Linear Fit of G
1.0
0.5
0.5
0.0
0.0
-0.5
-0.5
-1.0
-1.0
-1.5
-1.5
-2.0
-2.0
-2.5
-2.5
Weibull
-3.0
4.8
5.0
5.2
5.4
Biexponential
Linear Fit of I
1.0
I
G
5.8
D
5.6
5.8
F
6.0
6.2
6.4
Biexp
-3.0
6.6
100
200
300
400
H
500
600
700
5
직선성 판단 (육안) - 메디안랭크
2.0
1.5
1.0
1.0
0.5
0.5
0.0
0.0
-0.5
-0.5
-1.0
-1.0
Normal
-1.5
200
300
400
500
600
LogNormal
-1.5
-2.0
100
LogNormal
Linear Fit of E
1.5
E
C
2.0
normal
Linear Fit of C
-2.0
700
4.8
5.0
5.2
5.4
A
6.0
6.2
6.4
6.6
Biexponential
Linear Fit of I
1
0
0
-1
-1
I
G
5.8
D
Weibull
Linear Fit of G
1
5.6
-2
-2
Weibull
-3
4.8
5.0
5.2
5.4
5.6
5.8
F
6.0
6.2
6.4
Biexp
-3
6.6
100
200
300
400
H
500
600
700
6
직선성 판단 (육안) – 그 외의 방법
2.0
2.0
normal
Linear Fit of C
1.5
1.5
1.0
1.0
0.5
0.5
E
0.0
C
LogNormal
Linear Fit of E
0.0
-0.5
-0.5
-1.0
-1.0
-1.5
Normal
-1.5
100
200
300
400
500
600
LogNormal
-2.0
-2.0
4.8
700
5.0
5.2
5.4
2
6.0
6.2
6.4
6.6
2
Weibull
Linear Fit of G
Biexponential
Linear Fit of I
Linear Fit of I
1
0
0
-1
-1
I
G
5.8
D
A
1
5.6
-2
-2
Weibull
-3
Biexp
-3
-4
-4
4.8
5.0
5.2
5.4
5.6
5.8
F
6.0
6.2
6.4
6.6
100
200
300
400
H
500
600
700
7
직선성 판단 (육안)
2.0
2.0
LogNormal
Linear Fit of E
1.5
0.5
0.5
0.0
0.0
0.0
-0.5
-1.0
-1.0
-1.5
-1.5
-2.0
-2.0
1.0
0.5
E
C
0.5
-0.5
-1.0
-1.0
-1.5
300
400
500
600
4.8
700
5.0
5.2
5.4
5.6
6.0
6.2
6.4
-1.5
6.6
100
Symmetry - Normal
300
400
-2
5.2
5.4
5.6
5.8
6.0
6.2
F
6.4
6.6
100
200
300
400
0.0
0.0
-0.5
-1.0
-1.0
-1.5
-1.5
-2.0
-2.0
5.2
5.4
5.6
5.8
6.0
6.2
6.4
6.6
100
2.0
LogNormal
Linear Fit of E
1.5
normal
Linear Fit of C
1.5
2.0
300
400
500
600
700
1.0
1.0
0.5
0.5
-0.5
-1.0
-1.0
-1.5
-1.5
-2.0
-2.0
300
400
500
600
700
0.0
E
C
E
0.0
4.8
5.0
5.2
5.4
5.6
5.8
6.0
6.2
6.4
-0.5
-1.0
-1.0
-1.5
-1.5
-2.0
100
6.6
200
300
400
500
600
700
4.8
Biexponential
Linear Fit of I
-1
5.6
5.8
6.0
6.2
6.4
6.6
Biexponential
Linear Fit of I
Linear Fit of I
1
0
G
0
-1
2
Weibull
Linear Fit of G
1
0
-1
-1
I
I
0
5.4
Etc - LogNormal
2
1
5.2
D
Etc - Normal
Median - LogNormal
Weibull
Linear Fit of G
5.0
A
D
Median - Normal
0.0
-0.5
-2.0
A
LogNormal
Linear Fit of E
1.5
0.5
-0.5
G
6.6
H
1.0
1
200
F
0.5
200
6.4
-3.0
5.0
1.0
100
6.2
-2.5
4.8
700
2.0
0.0
C
600
6.0
Symmetry - Biexp
Mean - Weibull
Mean - Biexp
육안으로
더 구체적인 직선성
판단이 어려움
 각 경우에서 R-square 값을 비교
normal
Linear Fit of C
1.5
500
H
Symmetry - Weibull
2.0
5.8
0.5
-0.5
-4
5.0
5.6
Biexponential
Linear Fit of I
1.0
-3.0
4.8
5.4
1.5
-2.5
-3
-4
5.2
Mean - LogNormal
-2
-3
5.0
D
0.5
G
0
-1
4.8
Weibull
Linear Fit of G
1.0
I
0
-2.0
700
1.5
Biexponential
Linear Fit of I
1
-1
600
Mean - Normal
2
Weibull
Linear Fit of G
500
A
Symmetry - LogNormal
2
1
200
D
A
G
5.8
I
200
0.0
-0.5
-2.0
100
LogNormal
Linear Fit of E
1.5
1.0
1.0
-0.5
2.0
normal
Linear Fit of C
1.5
1.0
E
C
2.0
normal
Linear Fit of C
1.5
-2
-2
-2
-2
-3
-3
-3
-3
-4
4.8
5.0
5.2
5.4
5.6
5.8
6.0
6.2
6.4
6.6
F
Median - Weibull
100
200
300
400
500
600
700
H
Median - Biexp
4.8
5.0
5.2
5.4
5.6
5.8
6.0
6.2
6.4
F
Etc - Weibull
6.6
-4
100
200
300
400
500
600
700
H
Etc - Biexp
8
직선성 판단 (R-square)
 0.9 이상의 값을 직선으로 판단
0.941
0.854
Symmetry - Normal
Symmetry - LogNormal
0.948
0.958
0.948
Mean - Normal
0.939
0.852
Mean - LogNormal
0.972
- Biexp
Mean - Weibull
Mean - Biexp
R-squareSymmetry
값을 비교해도
직선성
판단이 어려움
 K-S 검정을 통해 보다 상세히 판단
Symmetry - Weibull
0.945
0.853
0.944
0.854
Median - Normal
Median - LogNormal
Etc - Normal
Etc - LogNormal
0.945
0.967
0.947
0.964
Median - Weibull
Median - Biexp
Etc - Weibull
Etc - Biexp
9
K-S 검정

검정 목표




데이터를 가장 나타내는 누적분포함수-이론식 결정
최소의 Dnα값을 갖는 누적분포함수-이론식 결정
즉, 가장 높은 유의수준을 갖는 누적분포함수-이론식 결정
검정 방법
①
②
③
α = 0.25 (교과서에 주어진 가장 큰 유의수준)인 경우, 이론
F(x)±Dnα 내에 표본데이터가 모두 포함되는지 확인
표본데이터가 α = 0.25일 때, F(x)±Dnα 를 벗어난 경우는 제외
표본데이터가 전부 F(x)±Dnα 에 포함이 되는 경우, α값에 따른
Dnα값을 외삽하여 가장 큰 α값 결정
10
K-S 검정

α vs. Dnα 외삽 (2차 방정식 이용)
 정규 및 대수 정규분포
[표 7.5-2의 1]
 극치 분포 및 Weibull 분포
[표 7.5-2의 2]
0.20
0.20
0.15
0.15
Dn
Dn

0.25

0.25
0.10
0.05
0.10
0.05
B
Polynomial Fit of B
0.00
0.0
0.2
B
Polynomial Fit of B
0.00
0.4
0.6
0.8
1.0

관계식 : 𝐷𝑛𝛼 = 0.237 − 0.330 𝛼 + 0.093 𝛼 2
0.0
0.2
0.4
0.6
0.8
1.0

관계식 : 𝐷𝑛𝛼 = 0.243 − 0.344 𝛼 + 0.102 𝛼 2
11
K-S 검정
mean rank
symmetry
symmetry
mean rank
1.0
1.0
1.0
0.8
0.8
0.8
0.8
0.6
0.6
0.6
0.6
0.2
0.4
0.2
0.0
0.4
0.2
200
300
400
500
600
700
Symmetry - Normal
A
100
200
300
400
500
600
B
0.2
0.0
100
700
200
300
400
500
600
700
100
Mean - Normal
Symmetry - LogNormal
etc
1.0
1.0
0.8
0.8
0.8
0.6
0.6
0.6
0.6
0.2
0.4
0.2
0.0
0.0
100
200
300
400
500
600
Symmetry - Weibull
200
300
400
500
600
100
Symmetry - Biexp
symmetry
B
0.2
200
300
400
500
600
700
100
Mean - Weibull
0.8
0.8
0.8
0.8
0.6
0.6
0.6
0.6
0.0
0.4
0.2
200
300
400
500
600
700
Median - Normal
A
100
200
300
400
500
600
Median - LogNormal
0.2
200
300
400
500
600
Etc - Normal
100
700
1.0
0.8
0.8
0.8
0.8
0.6
0.6
0.6
0.6
0.0
0.4
0.2
0.0
100
200
300
400
500
600
700
Median - Weibull
A
α = 0.25
B
B
B
B
α = 0.50
0.2
0.4
0.2
0.0
100
200
300
400
500
600
700
Median - Biexp
A
500
600
700
etc
1.0
α = 0.25
400
Etc - LogNormal
1.0
0.2
300
median rank
etc
0.4
200
A
A
1.0
0.4
700
0.0
100
700
A
median rank
600
α < 0.25
0.4
0.0
0.0
100
α = 0.32
B
B
B
B
α < 0.25
0.2
500
mean rank
1.0
α = 0.32
400
symmetry
mean rank
1.0
0.2
300
A
1.0
0.4
200
Mean - Biexp
A
1.0
0.4
700
0.0
700
A
A
600
α = 0.53
0.4
0.0
100
700
α = 0.25
B
α = 0.44
Q
L
α = 0.25
500
etc
0.8
0.2
400
median rank
1.0
0.4
300
A
1.0
0.4
200
Mean - LogNormal
A
A
median rank
α < 0.25
0.4
0.0
0.0
100
α = 0.34
B
α < 0.25
G
B
α = 0.31
0.4
1.0
α = 0.48
0.0
100
200
300
400
500
600
Etc - Weibull
A
700
100
200
300
400
500
600
Etc - Biexp
A
700
12
Data-1 결론

육안으로 직선성 판단하는 경우, 각 분포함수에서
LogNormal 이론식을 제외하고는 모두 직선으로 판단

R-square 값으로 직선성 판단하는 경우, 각 분포함수에서
LogNormal 이론식을 제외하고는 모두 직선으로 판단

K-S 검정의 경우, Mean rank가 가장 데이터의 누적분포
함수로 적합하였고, Biexponential 이론식이 해당 데이터
에 대한 누적분포함수를 가장 잘 나타내는 것으로 판단
13
224
428
336
Data 2
93
4
100
87
62
360
52
292
n=11
직선성 판단
15
1.5
1.5
1.0
1.0
0.5
0.5
0.0
0.0
F(x)
F(x)
대칭 표본 누적법
-0.5
-0.5
-1.0
-1.0
-1.5
0
100
200
300
400
500
-1.5
1
2
3
X
0
0
-1
-1
F(x)
F(x)
1
-2
-2
-3
-3
3
6
Lognormal
1
2
5
lnx
Normal
1
4
4
lnx
Weibull
5
6
0
100
200
300
400
x
Biexponential
500
1.5
1.5
1.0
1.0
0.5
0.5
0.0
0.0
F(x)
F(x)
평균 랭크법
-0.5
-0.5
-1.0
-1.0
-1.5
-1.5
0
100
200
300
400
500
1
2
x
0.5
0.5
0.0
0.0
-0.5
-0.5
F(x)
F(x)
1.0
-1.0
-1.5
-2.0
-2.0
-2.5
-2.5
4
lnx
Weibull
6
-1.0
-1.5
3
5
Lognormal
1.0
2
4
lnx
Normal
1
3
5
6
0
100
200
300
x
Biexponential
400
500
2.0
2.0
1.5
1.5
1.0
1.0
0.5
0.5
0.0
0.0
F(x)
F(x)
메디안 랭크법
-0.5
-0.5
-1.0
-1.0
-1.5
-1.5
-2.0
0
100
200
300
400
-2.0
500
1
2
1.5
1.5
1.0
1.0
0.5
0.5
0.0
0.0
-0.5
-0.5
-1.0
-1.5
-2.5
-2.5
-3.0
-3.0
3
4
lnx
Weibull
6
-1.5
-2.0
2
5
-1.0
-2.0
1
4
lnx
Lognormal
Biexponential
F(x)
x
Normal
3
5
6
0
100
200
300
x
Biexponential
400
500
2.0
2.0
1.5
1.5
1.0
1.0
0.5
0.5
0.0
0.0
F(x)
F(x)
그 외의 방법
-0.5
-0.5
-1.0
-1.0
-1.5
-1.5
-2.0
0
100
200
300
400
500
-2.0
1
2
1
1
0
0
-1
-1
-2
-2
-3
-3
1
2
3
4
lnx
Weibull
4
5
6
lnx
Lognormal
F(x)
F(x)
x
Normal
3
5
6
0
100
200
300
x
Biexponential
400
500
직선성 판단
대칭 표본
평균
메디안
그외
Normal
○
○
○
○
Lognormal
X
X
X
X
Weibull
○
○
○
○
Biexponential
X
X
○
X
R square value 비교
 0.9 이상의 값을 직선으로 판단
눈으로 판단, R square value 비교로는 우월을 가리기 힘들어
K-S 검정을 함
K-S 검정
1.0
1.0
0.8
0.8
0.6
0.6
F(x)
F(x)
대칭표본 누적법
0.4
𝛼 −𝐷
0.25- 0.200
0.2
0.4
𝛼 −𝐷
0.25- 0.200
0.40- 0.144
0.2
0.0
0.0
0
100
200
300
400
500
0
100
200
x
0.8
0.8
0.6
0.6
F(x)
F(x)
1.0
𝛼 −𝐷
0.25- 0.202
0.40- 0.143
0.0
0
100
200
300
x
Weibull
500
Lognormal
1.0
0.2
400
x
Normal
0.4
300
400
500
0.4
0.2
𝛼 −𝐷
0.25- 0.202
0.0
0
100
200
300
x
Biexponential
400
500
1.0
1.0
0.8
0.8
0.6
0.6
F(x)
F(x)
평균 랭크법
0.4
𝛼 −𝐷
0.25- 0.200
0.2
0.0
0
100
200
300
400
0.4
𝛼 −𝐷
0.25- 0.200
0.40- 0.144
0.2
0.0
500
0
100
200
x
300
400
500
x
Normal
Lognormal
1.0
1.0
0.8
0.8
0.6
F(x)
F(x)
0.6
0.4
𝛼 −𝐷
0.25- 0.202
0.40- 0.143
0.2
0.0
0
100
200
300
x
Weibull
400
500
0.4
𝛼 −𝐷
0.25- 0.202
0.2
0.0
0
100
200
300
x
Biexponential
400
500
1.0
1.0
0.8
0.8
0.6
0.6
F(x)
F(x)
메디안 랭크법
0.4
𝛼 −𝐷
0.25- 0.200
0.2
0.4
𝛼 −𝐷
0.25- 0.200
0.40- 0.144
0.2
0.0
0.0
0
100
200
300
400
500
0
100
200
x
0.8
0.8
0.6
0.6
F(x)
F(x)
1.0
𝛼 −𝐷
0.25- 0.202
0.40- 0.143
0.0
0
100
200
300
x
Weibull
500
Lognormal
1.0
0.2
400
x
Normal
0.4
300
400
500
0.4
0.2
𝛼 −𝐷
0.25- 0.202
0.0
0
100
200
300
x
Biexponential
400
500
1.0
1.0
0.8
0.8
0.6
0.6
F(x)
F(x)
그 외의 방법
0.4
𝛼 −𝐷
0.25- 0.200
0.2
0.4
𝛼 −𝐷
0.25- 0.200
0.40- 0.144
0.2
0.0
0.0
0
100
200
300
400
500
0
100
200
x
0.8
0.8
0.6
0.6
F(x)
F(x)
1.0
𝛼 −𝐷
0.25- 0.202
0.40- 0.143
0.0
0
100
200
300
x
Weibull
500
Lognormal
1.0
0.2
400
x
Normal
0.4
300
400
500
0.4
0.2
𝛼 −𝐷
0.25- 0.202
0.0
0
100
200
300
x
Biexponential
400
500
Data-2 결론
• 눈을 통한 직선성 검사에서는 모든 누적분포함수가 Normal,
Weibull 2가지를 따르는 것으로 볼 수 있었다.
• R square 값으로 비교 했을 때, Normal> Weibull 순으로 0.9
이상의 큰 값을 가졌다.
• K-S 검정에서는 Weibull 분포가 주어진 데이터를 가장 잘 따르
는 것을 확인 하였다.
• R square 값과 K-S 검정을 통해 대칭표본누적법-Weibull 분포
가 가장 적합한 분포라고 결정
Data 1&2
직선성 판단
2
2
1
1
0
0
F(x)
F(x)
대칭 표본 누적법
-1
-1
-2
-2
0
100
200
300
400
500
600
700
1
2
3
4
x
6
7
x
Normal
2
5
Lognormal
1
1
0
0
F(x)
F(x)
-1
-1
-2
-2
-3
-3
-4
0
100
200
300
400
x
Weibull
500
600
700
0
100
200
300
x
Biexponential
400
500
2.0
2.0
1.5
1.5
1.0
1.0
0.5
0.5
0.0
0.0
F(x)
F(x)
평균 랭크법
-0.5
-0.5
-1.0
-1.0
-1.5
-1.5
-2.0
-2.0
0
100
200
300
400
500
600
700
1
2
3
x
0
0
-1
-1
F(x)
F(x)
1
-2
-2
-3
-3
1
2
3
6
7
4
lnx
Weibull
Lognormal
2
1
-4
5
lnx
Normal
2
4
5
6
7
-4
0
100
200
300
400
500
x
Biexponential
600
700
2
2
1
1
0
0
F(x)
F(x)
메디안 랭크법
-1
-1
-2
-2
0
100
200
300
400
500
600
700
1
2
3
x
5
6
7
lnx
Normal
2
4
Lognormal
2
0
0
-1
-1
F(x)
1
F(x)
1
-2
-2
-3
-3
-4
-4
1
2
3
4
x
Weibull
5
6
7
0
100
200
300
400
500
x
Biexponential
600
700
2
2
1
1
0
0
F(x)
F(x)
그 외의 방법
-1
-1
-2
-2
0
100
200
300
400
500
600
700
1
2
3
x
5
6
7
x
Normal
2
4
Lognormal
2
0
0
-1
-1
F(x)
1
F(x)
1
-2
-2
-3
-3
-4
-4
1
2
3
4
x
Weibull
5
6
7
0
100
200
300
400
500
x
Biexponential
600
700
직선성 판단
대칭 표본
평균
메디안
그외
Normal
○
○
○
○
Lognormal
X
X
X
X
Weibull
○
X
X
X
Biexponential
○
○
○
○
직선성 판단 (R-square)
 0.9 이상의 값을 직선으로 판단
눈으로 판단, R square value 비교로는 우월을 가리기 힘들어
K-S 검정을 함
1.0
1.0
0.8
0.8
0.6
0.6
F(x)
F(x)
대칭 표본 누적법
0.4
𝜶 −𝑫
0.25- 0.133
0.40- 0.095
0.2
0.0
0
100
200
300
400
500
600
0.4
𝛂 −𝐃
0.25- 0.133
0.2
0.0
0
700
100
200
x
0.8
0.8
0.6
0.6
F(x)
F(x)
1.0
0.4
𝜶 −𝑫
0.25- 0.136
0.2
0.0
200
300
500
600
700
Lognormal
1.0
100
400
x
Normal
0
300
400
x
Weibull
500
600
700
0.4
𝜶 −𝑫
0.25- 0.136
0.40- 0.096
0.2
0.0
0
100
200
300
400
500
x
Biexponential
600
700
1.0
1.0
0.8
0.8
0.6
0.6
F(x)
F(x)
평균 랭크법
0.4
𝜶 −𝑫
0.25- 0.133
0.40- 0.095
0.2
0.0
0
100
200
300
400
500
600
0.4
𝛂 −𝐃
0.25- 0.133
0.2
0.0
700
0
100
200
x
0.8
0.8
0.6
0.6
F(x)
F(x)
1.0
0.4
𝜶 −𝑫
0.25- 0.136
0.2
0.0
200
300
500
600
700
Lognormal
1.0
100
400
x
Normal
0
300
400
x
Weibull
500
600
700
0.4
𝜶 −𝑫
0.25- 0.136
0.40- 0.096
0.2
0.0
0
100
200
300
400
500
x
Biexponential
600
700
1.0
1.0
0.8
0.8
0.6
0.6
F(x)
F(x)
메디안 랭크법
0.4
0.2
α = 0.33
0.4
α < 0.25
0.2
0.0
0.0
0
100
200
300
400
500
600
700
0
100
200
x
400
500
600
700
x
Normal
Lognormal
1.0
1.0
0.8
0.8
0.6
0.6
F(x)
F(x)
300
0.4
α < 0.25
0.2
0.0
0.4
α = 0.35
0.2
0.0
0
100
200
300
400
x
Weibull
500
600
700
0
100
200
300
400
500
x
Biexponential
600
700
1.0
1.0
0.8
0.8
0.6
0.6
F(x)
F(x)
그 외의 방법
0.4
α = 0.33
0.2
0.4
α < 0.25
0.2
0.0
0.0
0
100
200
300
400
500
600
700
0
100
200
x
400
500
600
700
x
Normal
Lognormal
1.0
1.0
0.8
0.8
0.6
0.6
F(x)
F(x)
300
0.4
α < 0.25
0.2
0.0
0.4
α = 0.36
0.2
0.0
0
100
200
300
400
x
Weibull
500
600
700
0
100
200
300
400
500
x
Biexponential
600
700
Data-1&2 결론
• 눈을 통한 직선성 검사에서는 모든 누적분포함수가 Normal,
Biexponential 2가지를 따르는 것으로 볼 수 있었다.
• R square 값으로 비교 했을 때, Normal>Biexponential 순으로
0.9 이상의 큰 값을 가졌다.
• K-S 검정에서는 Normal, Biexponential 분포가 주어진 데이터
를 가장 잘 따르는 것을 확인 하였다.
• R square 값과 K-S 검정을 통해 평균랭크법-Biexponential 분
포가 가장 적합한 분포라고 결정