2장-자료의 정리 및 기술통계

Download Report

Transcript 2장-자료의 정리 및 기술통계

제2장 자료의 정리
및 기술통계
Min Gyoung Chan Ph.Dr.
제1절 자료의 종류
구분
예
설명
Nominal
(명목자료)
제품의 상표, 사람의 성별, 회사의
업종
순서(크기)를 가지지 않고 구분
Ordinal
(순위자료)
농수산물의 등급, 군대의 계급
순서(크기)에 의해 구분
Discrete
(이산적 자료)
사람의 수, 자동차의 대수
자료의 특성이 수치로 표현하는 자료로서
정수의 값만 취하는 자료.
Continuous
(연속적 자료)
무게, 길이, 온도, 속도
자료의 특성이 수치로 표현하는 자료로서
연속적인 값을 갖는 자료
범주적
자료
수치적
자료
자료의 정리 및 기술통계 - 1
제2절 자료의 정리 / 1.점도표
미니텝 프로그램
그래프> 점도표
그래프의 점도표로 들어가 점도표 창이 뜨면 단순 상태에서 바로 확인을 클릭함.
자료의 정리 및 기술통계 - 2
제2절 자료의 정리 / 1.점도표
미니텝 프로그램
점도표 단일 Y변수 창이 뜨면 그래프변수에 C1의 동전액수를 선택하고 확인을 누르면 점도표가 도출된다.
<그림 2.1> 점도표
자료의 정리 및 기술통계 - 3
제2절 자료의 정리 / 2.도수분포표 및 막대그래프
[예 2.1] 도수분포표란 각 관측 값의 관측빈도를 정리한 표
<표 2.1> 도수분포표
계급
계급구간
빈도수
상대도수
상대누적
누적상대도수
1
0.0~500.5
61
0.5922
61
0.5922
2
500.5~1000.5
32
0.3107
93
0.9029
3
1000.5~1500.5
5
0.0485
98
0.9805
4
1500.5~2000.5
3
0.0291
101
0.9805
5
2000.5~2500.5
0
0.000
101
0.9805
6
2500.5~3000.5
1
0.0970
102
0.9902
7
3000.5~3500.5
0
0.0000
102
0.9902
8
3500.5~4000.5
0
0.0000
102
0.9902
9
4000.5~4500.5
0
0.0000
102
0.9902
10
4500.5 이상
1
0.0097
103
1.0000
103
0.9999
자료의 정리 및 기술통계 - 4
제2절 자료의 정리 / 2.도수분포표 및 막대그래프
미니텝 프로그램
그래프> 막대 차트
그래프의 막대 차트로 들어가 막대 차트 창이 뜨면 단순 상태에서 바로 확인을 클릭함.
자료의 정리 및 기술통계 - 5
제2절 자료의 정리 / 2.도수분포표 및 막대그래프
미니텝 프로그램
각 범주의 개수,단순 창이 뜨면 범주형 변수에 C1의 계급을 선택하고 데이터 옵션을 클릭하여 빈도 창으로 들어가
빈도변수에 C2의 빈도를 선택하고 확인을 누르고 레이블을 클릭하여 제목에 ‘동전소지액의 막대그림표’를 입력하고
확인하면 막대그림표가 도출된다.
<그림 2.3> 막대그림표
자료의 정리 및 기술통계 - 6
제2절 자료의 정리 / 2.도수분포표 및 막대그래프
엑셀 프로그램
삽입> 세로 막대형
엑셀 시트의 데이터가 있는 A column을 지정하고 2차원 세로막대형의 가장 좌측 모형을 클릭함
<그림 2.3> 막대그림표
자료의 정리 및 기술통계 - 7
제2절 자료의 정리 / 3.기타 그림표
미니텝 프로그램
그래프> 파이 차트
그래프의 파이 차트로 들어가 범주형 변수에 C3의 구간을 선택하고 파이 옵션에 들어가 부피 내림 차순을 선
택하고 확인을 누른다.
자료의 정리 및 기술통계 - 8
제2절 자료의 정리 / 3.기타 그림표
미니텝 프로그램
그래프> 파이 차트
다시 파이차트 창에서 레이블을 클릭하여 제목에 ‘동전소지액의 파이 차트’를 입력하고 조각레이블을 클릭
하여 범주이름, 빈도, 백분율을 표시한 다음 확인을 누르고, 데이터 옵션을 클릭하여 빈도변수에 C4의 구간
빈도를 선택하고 확인하면 파이차트가 도출된다
자료의 정리 및 기술통계 - 9
제2절 자료의 정리 / 3.기타 그림표
엑셀 프로그램
삽입> 원형
엑셀 시트의 데이터가 있는 A ,B column을 지정하고 3차원 세로막대형의 가장 좌측 모형을 클릭함
<그림 2.4> 원 그림표
자료의 정리 및 기술통계 - 10
제2절 자료의 정리 / 3.기타 그림표
미니텝 프로그램
그래프> 막대차트
그래프의 막대 차트로 들어가 범주형 변수에 C1의 계급(소지액)을 선택하고 데이터 옵션을 클릭하여 빈도
변수에 C2의 빈도를 선택하고 확인을 누른다.
자료의 정리 및 기술통계 - 11
제2절 자료의 정리 / 3.기타 그림표
미니텝 프로그램
그래프> 막대차트
다시 레이블 차트로 들어가 제목에 ’동전소지액의 도수다각형’을 입력하고 확인을 누른후 데이터 보기로 들어
가 데이터 표시를 연결선으로 변경하고 확인하고 확인하면 도수다각형 그림이 도출된다.
자료의 정리 및 기술통계 - 12
제2절 자료의 정리 / 3.기타 그림표
엑셀 프로그램
삽입> 꺾은선형
엑셀 시트의 데이터가 있는 A column을 지정하고 2차원 꺾은선 형의 가장 좌측 모형을 클릭함
<그림 2.5> 도수다각형
자료의 정리 및 기술통계 - 13
제2절 자료의 정리 / 3.기타 그림표
미니텝 프로그램
그래프> 막대차트
그래프의 막대 차트로 들어가 도수다각형 방법과 동일하게 실시하나 옵션에서 데이터 누적을 위해 x에 걸쳐
Y를 누적으로 표시를 선택하고 레이블에서 제목을 ‘동전소지액의 누적도수다가형’으로 변경하여 확인하고
확인하면 그림이 도출된다.
자료의 정리 및 기술통계 - 14
제2절 자료의 정리 / 3.기타 그림표
엑셀 프로그램
삽입> 꺾은선형
엑셀 시트의 데이터가 있는 B column을 지정하고 2차원 꺾은선 형의 가장 좌측 모형을 클릭함
<그림 2.5> 누적도수다각형
자료의 정리 및 기술통계 - 15
제3절 특성치
자료의 특성과 분포의 형태
특성치 산출에 대한 필요성이 제기되는 이유
1. 자료의 특성을 압축하여 전달할 수 있는 수단
2. 자료의 개별적 특성을 분리하여 측정할 수 있다
자료의 개별적 특성 4가지
첨도
(Kurtois)
산포
(Spread)

Variance, Standard
Deviation,Range
비대칭도
(Skewness)
48
49
50
51
위치
(Location)
52
53
모양을 나타냄

Mean, Median,
Mode
자료의 정리 및 기술통계 - 16
제3절 특성치
모수(parameter)와 통계치 (statistics)
모수(parameter)
X1 , X2 , …, Xn
통계치 (statistics)
모평균(μ)
표본평균(X)
모표준편차(σ)
표본표준편차(S)
모분산(σ2)
표본분산(V)
모비율(P)
표본비율(p
모집단(Population)
표본(Sample)
※ 모집단(Population) : 통계적인 관찰의 대상이 되는 집단 전체
※ 모수 (Parameter) : 모집단의 특성을 결정하는 미지의 상수 : 모평균(μ), 모표준편차(σ), 모분산(σ2), 모비율(P)
※ 표본(Sample) : 모집단에서 선택된 모집단 구성단위의 일부
※ 통계량(Statistic) : 표본의 특성을 나타내는 대표값 : 표본평균(X), 표본표준편차(S), 표본분산(V), 표본비율(p)
자료의 정리 및 기술통계 - 17
제3절 특성치 / 1.분포의 중심
1.1 산술평균
산술평균은 분포의 중심위치를 파악하는데 가장 많이 사용되는 대표치
산술평균 또는 평균(Mean)
측정된 값들의 합을 측정된 개수로 나눈 값
(모집단의 평균은 , 표본의 평균은
로 표시)
X
X


N
X
X


n
장점: 1) 모든 값을 반영하며, 2) 쉽게 계산/이해되며,
3) 수학적 특성이 반영됨
단점: 극단적인 값에 과도하게 영향을 받음
자료의 정리 및 기술통계 - 18
제3절 특성치 / 1.분포의 중심
1.2 가중평균
자료의 평균을 고려할 때 때로는 모든 자료의 중요성이 동일하지 않는다는 사실을 고려
[예제 2.2] 어느 주식투자자의 주가수익률
투자종목
투자비율
주가수익률
갑
15%
0.15
을
30%
0.10
병
20%
0.12
정
35%
0.05
합계
가중치를 고려한 주가수익률
Tw = 0.15*0.15 + 0.30*0.10+0.20*0.12+0.35*0.05=0.094
자료의 정리 및 기술통계 - 19
제3절 특성치 / 1.분포의 중심
1.3 최빈수
최빈수란 관측 빈도가 가장 높은 값이나 범주
최빈수(Mode)
측정된 값에서 가장 빈도가 큰 값
장점: 가장 빈도가 큰 값을 보여줌
단점: 1) 수학적 특성이 결여됨,
2) 경우에 따라 최빈값이 없을 수 있음
승용차의 크기
구입소비자수
소형차
23
중형차
64
대형차
13
합계
100
자료의 정리 및 기술통계 - 20
제3절 특성치 / 1.분포의 중심
1.4 중앙값
자료를 크기순서에 따라 일렬로 배치했을 때 가운데에 위치한 값
중앙값(Median)
측정된 값들을 크기순서(올림차순)대로 정렬했을 때 중앙에 위치
하는 값(측정수가 짝수이면 중앙 두개 값의 평균)
장점: 극단적인 값에 대해 왜곡되지 않음
단점: 수학적 특성이 결여됨
0
0
4
4
200 240 520
200 240 300
560
520
640
560
700 900
640
700 900
자료의 정리 및 기술통계 - 21
제3절 특성치 / 1.분포의 중심
엑셀 프로그램
수식> 함수추가>통계
분석결과를 저장할 C2를 설정하고 통계 메뉴들이 나오면 산술평균값 에 해당하는 Average를 클릭함
자료의 정리 및 기술통계 - 22
제3절 특성치 / 1.분포의 중심
엑셀 프로그램
함수인수 창이 뜨면 Number1에 분석할 데이터의 영역을 설정하고 확인을 누르면 C2에 산술평균 값이 도출된다
중앙치도 같은 방법으로 실시하면 된다.
자료의 정리 및 기술통계 - 23
제3절 특성치 / 1.분포의 중심
미니텝 프로그램
통계 분석> 기초통계> 그래프 요약
그래프요약에서 변수에 C1의 동전소지액 선택하고 확인을 누르면 여러 가지의 통계치가 도출되며 그림의 형태
가 오른 쪽으로 긴 형태의 모양임을 알 수 있다.
자료의 정리 및 기술통계 - 24
제3절 특성치 / 1.분포의 중심
1.5 대표치 들의 장단점
<그림 2.10> 분포의 형태
(a)좌우대칭분포
평균값
최빈수
중앙값
(b)오른쪽꼬리 분포
(c)왼쪽꼬리 분포
최빈수
최빈수
중앙값
평균값
중앙값
평균값
자료의 정리 및 기술통계 - 25
제3절 특성치 / 2.자료의 산포 정도
자료가 중심위치로부터 떨어져 있는 정도 
산포 정도 (degree of dispersion), 변동(variability)
범위(range), 평균편차(average deviation), 표준편차(standard deviation)
<그림 2.7> 품질(주간수익률)의 분포
주식 A
[예 2.5]
주식B가 주식A에 비해 위험도가 크다
[예 2.4]
A사 품질분포
A사 제품의 품질균일성이 높다.
주식B
B사 품질분포
자료의 정리 및 기술통계 - 26
제3절 특성치 / 2.자료의 산포 정도
2.1 범위
범위는 산포의 정도에서 가장 간단한 형태의 측정방법
범위 (Range)
데이터집합에서 최대값에서 최소값을 뺀 값.
Range = Xmax - Xmin
자료 중에서 최대치와 최소치라는 단두개의자료만을 활용하여 계산하기
때문에 일반적으로 산포 정도에 대한 만족스러운 측정수단이 되지 못함
자료의 정리 및 기술통계 - 27
제3절 특성치 / 2.자료의 산포 정도
2.2 평균 편차
평균편차란 자료의 값과 그 평균과의 차이의 평균
평균 편차
자료의 값과 그 평균과의 차이의 평균
-
-
d = 1/n x Σ l di l = 1/n x Σ l Xi – X l
[예 2.6]
0
4 0 200 240 420
560
640
700 800
평균이 400 이므로 평균편차는
d = 1/9( l 0-400 l + l 40-400 l + … + l 700-400 l + l 800-400l = 248.89
자료의 정리 및 기술통계 - 28
제3절 특성치 / 2.자료의 산포 정도
2.3 표준 편차와 분산
평균편차와 마찬가지로 분산 역시 편차라는 산술평균과 자료의 측정치간의 차이를 고려한 개념
분산(Variance)
평균과 데이터 값들과의 차이를 제곱한 값의 평균

모집단의 경우:
 (X

  )2
N
(X  X )2

2
s 
n 1
표본의 경우:
[예 2.7]
2
학생
1
2
3
4
5
6
Xi
52
54
72
68
83
75
학생
7
8
9
10
Σ Xi
Σ Xi ²
Xi
88
77
80
65
714
52,240
S² = 140.044
자료의 정리 및 기술통계 - 29
제3절 특성치 / 2.자료의 산포 정도
분산 은 편차의 제곱을 사용하므로 측정단위가 길이(cm)인 경우 면적(cm²)이 되므로 문제가 있어
분산을 사용하기보다는 분산의 제곱근인 표준 편차를 사용하여 단위를 통일함
표준편차(Standard Deviation)
분산(Variance)에 제곱근을 취한 값
모집단의 경우:
표본의 경우:
 
 (X
s 
 (X
  )2
N
 X )2
n 1
S = √140.044 = 11.834
참고) 표본의 분산 및 표준편차의 계산식에서 분모가 “총 표본 수 - 1”를 사용하는 이유:
1) 불편(unbiased) 추정치: n으로 나눈 값 보다 n-1로 나눈 값이 통계적으로 모집단의 분산(표준편차)을 추정하는데
더 정확한 추정치 임
자료의 정리 및 기술통계 - 30
제3절 특성치 / 2.자료의 산포 정도
엑셀 프로그램
수식> 함수추가>통계
분석결과를 저장할 C2를 설정하고 통계 메뉴들이 나오면 분산값 에 해당하는 VAR을 클릭함
자료의 정리 및 기술통계 - 31
제3절 특성치 / 2.자료의 산포 정도
엑셀 프로그램
함수인수 창이 뜨면 Number1에 분석할 데이터의 영역을 설정하고 확인을 누르면 C2에 분산값이 도출된다
표준편차도 같은 방법으로 실시하면 된다.
연습문제 4,5
자료의 정리 및 기술통계 - 32