사업체 조사에서의 선택적 에디팅
Download
Report
Transcript 사업체 조사에서의 선택적 에디팅
사업체조사에서의
선택적 에디팅( Selective Editing )
발표자 : 이기재 (한국방송통신대학교 정보통계학과 교수)
박현아(서울대학교 통계학과 Post Dr.)
Contents
1
데이터 에디팅(Data Editing)의 정의
2
데이터 오류 및 결측치
3
데이터 에디팅의 분류
4
선택적 에디팅(Selective editing)
5
선택적 에디팅 적용 과정
6
선택적 에디팅 적용 사례
1. 데이터 에디팅(Data Editing) (1)
정의
통계 자료를 산출하는 일련의 과정 중 데이터를 수집
하고 처리하는 단계에서 오류 및 결측치를 찾아내고(
탐색) 이를 수정하는 작업(Granquist,1995)
데이터 에디팅 시점
전통적인 면접조사에서는 응답이 완료된 조사표를 자
료 입력(코딩) 후 데이터 에디팅을 실시함
CATI(Computer Assisted Telephone Interviewing)과
CAPI(Computer Assisted Personal Interviewing)의 경
우에서는 조사표 입력, 코딩과 데이터 에디팅이 동시에
이루어 짐
1. 데이터 에디팅(Data Editing) (2)
장점
데이터의 정확성 향상 : 응답오차와 처리오차 제거, 무
응답 편향 줄임
자료가 활용될 때 자료의 일관성을 향상시킴
단점
통계 공표를 지연시켜 시의성 저하
과대한 비용과 시간 : 데이터 에디팅 비용이 전체 조사
비용에서 20-40%를 차지함(Granquist & Kovar(1997))
지나친 개입으로 새로운 오류와 불확실성이 자료에 포
함될 수 있음
데이터 오류 및 결측치 (1)
체계적인 오류(Systematic error)
특정 항목에 대하여 모든 레코드에서 일관되게 나타나
는 오류
랜덤 오류를 탐색하기 전에 탐색되고 처리됨
예 : 단위측정오류, 컴퓨터 시스템 오류,부호화 오류,
용어 이해 불충분으로 인한 오류, 코딩오류
랜덤오류(Random error)
체계적인 이유가 아닌 우연히 발생하는 오류
데이터 오류 및 결측치 (2)
결측값(Missing data)
일반 결측값과 구조적 결측값의 구별 : 구조적 결측값
이란 여과 질문에 의한 결측을 말함
단위무응답(Unit nonresponse)와 항목무응답(Item
nonresponse) : 각각 조사자의 무응답과 몇 개의 항목
무응답을 의미
응답자료만을 이용한 추정은 편향이 발생함
처리방안 : 가중치 조정이나 무응답 대체법 이용
자료의 오류 및 결측치 (3)
특이치 (Outlier)
집계나 추정치에 영향을 크게 미치는 값
표본조사 값과 설계가중치의 영향력으로 발생
대다수의 자료와 멀리 떨어진 관측치를 특이치(Outlier)
라 하며 영향력 관측치와 거의 같은 개념
탐색 방안 : 범위 탐색, 울타리 방법, 상자그림, 로버스
트 탐색, 거리 탐색(Mahalanobis 거리)
처리 방안 : 재조사, 제거 후 대체, 값조정 (Winsorization),
가중치 조정(Down weighting), 값과 가중치 조정, 로버
스트(Robust)한 추정
데이터 에디팅의 분류 (1)
사람 개입 여부에 따른 분류
수작업 에디팅(Manual editing) (Bethlehem(2009))
수동으로 자료오류를 탐색하고 탐색된 자료 오류를
수동으로 처리함
데이터 상의 오류를 처리하는 데 한계가 있음
쌍방향 에디팅(Interactive editing)
자료 획득 후 오류 탐색 및 처리를 사람이 컴퓨터의
도움을 받아 진행함 (예: Blaise, CSPro 등)
충분한 보조정보와 재조사가 가능할 때 효과적임
많은 비용과 시간이 필요
재조사에 의한 편향발생 및 새로운 오류 개입
데이터 에디팅의 분류 (2)
사람 개입 여부에 따른 분류
자동 에디팅(Automated editing) (Bethlehem, 2009)
컴퓨터 프로그램을 이용하여 저장된 자료의 오류
를 탐색하고 처리하는 방법.
편집규칙을 프로그램으로 만들어 오류 탐색,처리
Fellegi-Holt(1976)방법 : 컴퓨터 발전과 더불어 데
이터 에디팅의 이론적 체계화 시도
편집규칙의 예 : IF-THEN-ELSE의 구조 사용,
예)나이가 어리면 미혼으로 수정하는 프로그램
IF Age<15 THEN Marstat=Unmarried
데이터 에디팅의 종류 (1)
마이크로 에디팅 (Micro editing)
개별 조사단위에 대하여 적용되는 데이터 편집 방법 :
입력 데이터 편집(Input data editing)
Data capture와 추정 단계에서 적용 가능
수작업과 자동화(컴퓨터 이용) 과정을 통해 이루어짐
종류 : validity edits, logical edits, consistency
edits, range edits 등
조사 오류값을 찾아 수정하거나 결측치 처리 후 대체
개별 조사단위의 상대적 중요도에 대한 고려 없이 진
행됨.
“Over-editing”의 문제 발생 가능성
선택적 에디팅(selective editing) 방법 적용
데이터 에디팅의 종류 (2)
매크로 에디팅 (Macro editing)
주로 추정단계에서 적용됨. 출력 데이터 편집(Output
data editing)
마이크로 에디팅 단계에서 누락된 데이터 오류를 찾아
수정함
추정결과에 중대한 영향을 미치는 특이치(outlier)를
찾아 처리하게 됨
특이치 검출 방안
Aggregation method(Granquist, 1997): 추정량의 값을 구해서
문제가 되는 레코드를 찾아내어 수정하는 방법(현재 자료 또는
과거 자료와 같이 비교하여 특이치 검출)
Distribution method(자료의 분포 이용 방법) : 탐색적 자료분석
(EDA) 방법, 상자그림, 히스토그램과 산점도 등을 사용함
선택적 에디팅(Selective editing) (1)
선택적 에디팅
Significance editing라고도 함
전통적인 마이크로 에디팅은 각 조사단위에 대해 똑
같은 처리 강도로 진행됨
개별적 에디팅의 수와 비용을 최소화하기 위해 영향
이 큰 조사단위를 선별하여 수행하고자 함
영향력이 큰 의심 조사단위에 대해서 재접촉
(recontact)과 추적조사(follow-up)가 실시됨.
영향력이 크지 않은 경우는 에디팅을 적용하지 않거
나, 자동화 에디팅을 적용함
선택적 에디팅(Selective editing) (2)
선택적 에디팅 (계속)
각 조사단위에 대해 score값을 구하여 우선 순위를 결
정함
영국, 호주, 네덜란드, 스웨덴, 미국 등의 국가통계 작
성 기관에서 사용함
특히 사업체조사에서 중요한 역할을 함
스웨덴 통계청은 SELEKT 1.1을 개발하여 사용하고
있음 (Norberg, A. et al. (2011))
선택적 에디팅(Selective editing) (3)
A procedure which targets only some of the micro
data variables or records for review by prioritizing
the manual work (Norberg et al, 2010).
선택적 에디팅의 적용 (1)
Hooper, Lewis & Dobbins (2010)에 기초함
1. 중요변수(key variables)와 추정영역(Domain) 결정
고용형태별근로실태조사
- 중요변수 : 임금총액, 상여금 제외 임금총액, 근로시
간등
- 추정영역 : 산업중분류*사업체 규모
사업체노동력조사
- 중요변수 : 현원, 입직자수, 이직자수, 빈일자리수 등
- 추정영역 : 산업중분류*사업체 규모
선택적 에디팅의 적용 (2)
2. Item(local) and unit(global) score 함수
각 조사단위에서 각 중요변수에 대한 score 계산
-
: 설계가중치,
: 에디팅 전의 조사값,
: predicted value,
: 변수 j의 추정영역 d의 전시점 추정값
선택적 에디팅의 적용 (3)
<참고> Item(local) score 함수의 의미
각 조사단위에서 각 중요변수에 대한 score 계산
Risk component
Influence component
선택적 에디팅의 적용 (4)
<참고> Item(local) score 함수
각 조사단위에서 각 중요변수에 대한 score 계산
-
: 직전 조사시점의 조사값을 활용하거나
활용할 수 없는 경우는 register value 또는
imputed value를 이용함
선택적 에디팅의 적용 (5)
Unit(Global) score 함수
각 unit에서 각 중요변수에 대한 score 값을 unit(조
사단위) score로 전환
Unit score 함수의 예
-
,
- 대개 SUM이나 MAX 함수를 주로 이용함
선택적 에디팅의 적용 (6)
<참고> Unit(Global) score 함수
Unit score는 Minkowski metric으로 표현 가능
Unit score 함수의 예
-
,
선택적 에디팅의 적용 (7)
3. Threshold (Cut-off value) 결정 (1)
주요 데이터 질에 대한 지표
- Relative Bias(RB)
- Absolute Relative Bias(ARB)
- Savings
영국 통계청의 Monthly Business Survey에서는 ARB
가 1%이하가 되도록 모의실험을 통해서 threshold
결정
선택적 에디팅의 적용 (8)
3. Threshold (Cut-off value) 결정 (2)
Threshold 결정을 위해서는 raw, unedited data set와
해당 데이터에 대한 clean, edited data가 함께 필요
함
모의실험을 통해서 결정하게 됨
과거 데이터가 없는 경우에는 모형기반의 결정법 이
용하게 됨. Lawrence and McKenzie(2000)
실무적으로는 각 조사단위에 대해서 unit score를 계
산하여 에디팅의 우선순위를 결정하고 예산과 시간
이 허락하는 범위에서 진행할 수 있음
선택적 에디팅 적용 예시 (1)
사업체노동력조사 (고용현황 부분)
2010년 5월, 6월 사업체노동력조사 결과 이용
중요변수
- 현원, 입직자수, 이직자수, 빈일자리수
추정 영역(domain)
- 산업 중분류*사업체 규모
- 산업중분류 : 26(전자제품, 컴퓨터, 영상, 음향,
및 통신기기), 47(소매업), 56(음식점업) 등
선택적 에디팅 적용 예시 (2)
각 조사단위에서 4개 변수에 대해서 item score 계산
-
-
: 전월의 조사값 활용
선택적 에디팅의 적용 예시 (3)
Unit(Global) score 함수 계산
각 unit에서 각 중요변수에 대한 score 값을 unit(조
사단위) score로 전환
,
선택적 에디팅의 적용 예시(4)
- item1, item2, item3, item4 : 4개 주요 변수에 대한 item score 값
- unit_sc1, unit_sc2, unit_sc3 : unit score를 구하는 3가지 방법
- 순위1, 순위2, 순위3 : 3가지 unit score에 대한 순위
선택적 에디팅의 적용 예시(5)
선택적 에디팅 적용 후 검토
Unit(Global) score 종류에 따른 차이는 크지 않음.
3 종류의 unit score 함수에 대해서 상위 5% 내
일치도는 90%수준임
각 조사단위의 unit score는 에디팅의 우선순위를
나타내고, 예산과 시간의 범위 내에서 데이터 점검 가능
선택적 에디팅을 적용하기 위해서는 충분한 사전
준비가 필요함. 예를 들어 Raw, unedited data와 clean,
edited data가 함께 준비되어야 적용할 수 있음
결론 및 토의 (1)
1. 데이터 에디팅은 작성되는 통계의 질을 좌우하
는 중요한 요소로 상당한 비용과 시간이 소요되
는 작업임
2. 선택적 에디팅은 예산과 시간의 제약 속에서 효
율적으로 마이크로 에디팅을 진행하는 방안을
제시함
3. 사업체조사는 조사단위에 따라 추정결과에 미치
는 영향 정도에 차이가 크게 나타남. 이 경우에
선택적 에디팅의 유용성은 대단히 큼
결론 및 토의 (2)
4. 선택적 에디팅을 적용하기 위해서는 충분한 사
전 준비 작업이 필요함. 예를 들어 Raw,
unedited data와 clean, edited data가 함께 준
비되어야 적용할 수 있고, 에디팅 질도 파악 가
능함
5. 궁극적으로 스웨덴 통계청의 SELEKT 1.1와 같은
범용 선택적 에디팅 시스템 구축을 위한 연구
도 필요함. 대표적 사업체 조사에 유연하게 적용
될 수 있도록 구축되어야 함
참고문헌
Bethlehem, J.(2009) Applied survey methods, wiley.
Chamber,R.L.(1986) Outlier robust finite population estimation,
JASA 81, 1063-1069.
Fellegi, I.P. and Holt, D.(1976) A systematic approach to automatic
edit and imputation, JASA 71,17-35.
Granquist, L. (1995) Improving the traditional editing process, In
Business survey methods(eds. Cox et al.), John Wiley & Son:177199.
Granquist, L. and Kover, J. (1997) Editing of survey data: How much
is enough?, In survey measurement and process quailty (eds.
Lyberg et al.), John Wiley & Son:415-435.
Granquist, L. (1997) Macro-editing: The aggregate method,
statistical data editing, UN Conference of European statisticians
statistical standard and studies, Geneva (Swizerland).
참고문헌
Granquist, L. (1997) The New View on Editing, International
Statistical Review.
Hooper, E., Lewis, D. and Dobbins, C. (2010) The Application of
Selective Editing to the ONS Monthly Business Survey, Q2010
Conference, Helsinki, 2010.
Latouche and Berthelot(1992) Use of score function to prioritize and
limit recontacts in editing business surveys, Journal of official
statistics 8, 389-400.
Lawrence, D. and Mcdavitt, C. (1994) Significance edition in the
Australian survey of average weekly earings, Journal of official
statistics 10, 437-447.
Norberg, A. et al (2010) A General Methodology for Selective Data
Editing, Statistics Sweden.