사업체 조사에서의 선택적 에디팅

Download Report

Transcript 사업체 조사에서의 선택적 에디팅

사업체조사에서의
선택적 에디팅( Selective Editing )
발표자 : 이기재 (한국방송통신대학교 정보통계학과 교수)
박현아(서울대학교 통계학과 Post Dr.)
Contents
1
데이터 에디팅(Data Editing)의 정의
2
데이터 오류 및 결측치
3
데이터 에디팅의 분류
4
선택적 에디팅(Selective editing)
5
선택적 에디팅 적용 과정
6
선택적 에디팅 적용 사례
1. 데이터 에디팅(Data Editing) (1)
 정의
 통계 자료를 산출하는 일련의 과정 중 데이터를 수집
하고 처리하는 단계에서 오류 및 결측치를 찾아내고(
탐색) 이를 수정하는 작업(Granquist,1995)
 데이터 에디팅 시점
 전통적인 면접조사에서는 응답이 완료된 조사표를 자
료 입력(코딩) 후 데이터 에디팅을 실시함
 CATI(Computer Assisted Telephone Interviewing)과
CAPI(Computer Assisted Personal Interviewing)의 경
우에서는 조사표 입력, 코딩과 데이터 에디팅이 동시에
이루어 짐
1. 데이터 에디팅(Data Editing) (2)
 장점
 데이터의 정확성 향상 : 응답오차와 처리오차 제거, 무
응답 편향 줄임
 자료가 활용될 때 자료의 일관성을 향상시킴
 단점
 통계 공표를 지연시켜 시의성 저하
 과대한 비용과 시간 : 데이터 에디팅 비용이 전체 조사
비용에서 20-40%를 차지함(Granquist & Kovar(1997))
 지나친 개입으로 새로운 오류와 불확실성이 자료에 포
함될 수 있음
데이터 오류 및 결측치 (1)
 체계적인 오류(Systematic error)
 특정 항목에 대하여 모든 레코드에서 일관되게 나타나
는 오류
 랜덤 오류를 탐색하기 전에 탐색되고 처리됨
 예 : 단위측정오류, 컴퓨터 시스템 오류,부호화 오류,
용어 이해 불충분으로 인한 오류, 코딩오류
 랜덤오류(Random error)
 체계적인 이유가 아닌 우연히 발생하는 오류
데이터 오류 및 결측치 (2)
 결측값(Missing data)
 일반 결측값과 구조적 결측값의 구별 : 구조적 결측값
이란 여과 질문에 의한 결측을 말함
 단위무응답(Unit nonresponse)와 항목무응답(Item
nonresponse) : 각각 조사자의 무응답과 몇 개의 항목
무응답을 의미
 응답자료만을 이용한 추정은 편향이 발생함
 처리방안 : 가중치 조정이나 무응답 대체법 이용
자료의 오류 및 결측치 (3)
 특이치 (Outlier)
 집계나 추정치에 영향을 크게 미치는 값
 표본조사 값과 설계가중치의 영향력으로 발생
 대다수의 자료와 멀리 떨어진 관측치를 특이치(Outlier)
라 하며 영향력 관측치와 거의 같은 개념
 탐색 방안 : 범위 탐색, 울타리 방법, 상자그림, 로버스
트 탐색, 거리 탐색(Mahalanobis 거리)
 처리 방안 : 재조사, 제거 후 대체, 값조정 (Winsorization),
가중치 조정(Down weighting), 값과 가중치 조정, 로버
스트(Robust)한 추정
데이터 에디팅의 분류 (1)
 사람 개입 여부에 따른 분류
 수작업 에디팅(Manual editing) (Bethlehem(2009))
 수동으로 자료오류를 탐색하고 탐색된 자료 오류를
수동으로 처리함
 데이터 상의 오류를 처리하는 데 한계가 있음
 쌍방향 에디팅(Interactive editing)
 자료 획득 후 오류 탐색 및 처리를 사람이 컴퓨터의
도움을 받아 진행함 (예: Blaise, CSPro 등)
 충분한 보조정보와 재조사가 가능할 때 효과적임
 많은 비용과 시간이 필요
 재조사에 의한 편향발생 및 새로운 오류 개입
데이터 에디팅의 분류 (2)
 사람 개입 여부에 따른 분류
 자동 에디팅(Automated editing) (Bethlehem, 2009)
 컴퓨터 프로그램을 이용하여 저장된 자료의 오류
를 탐색하고 처리하는 방법.
 편집규칙을 프로그램으로 만들어 오류 탐색,처리
 Fellegi-Holt(1976)방법 : 컴퓨터 발전과 더불어 데
이터 에디팅의 이론적 체계화 시도
 편집규칙의 예 : IF-THEN-ELSE의 구조 사용,
예)나이가 어리면 미혼으로 수정하는 프로그램
IF Age<15 THEN Marstat=Unmarried
데이터 에디팅의 종류 (1)
 마이크로 에디팅 (Micro editing)
 개별 조사단위에 대하여 적용되는 데이터 편집 방법 :
입력 데이터 편집(Input data editing)
 Data capture와 추정 단계에서 적용 가능
 수작업과 자동화(컴퓨터 이용) 과정을 통해 이루어짐
 종류 : validity edits, logical edits, consistency
edits, range edits 등
 조사 오류값을 찾아 수정하거나 결측치 처리 후 대체
 개별 조사단위의 상대적 중요도에 대한 고려 없이 진
행됨.
 “Over-editing”의 문제 발생 가능성
 선택적 에디팅(selective editing) 방법 적용
데이터 에디팅의 종류 (2)
 매크로 에디팅 (Macro editing)
 주로 추정단계에서 적용됨. 출력 데이터 편집(Output
data editing)
 마이크로 에디팅 단계에서 누락된 데이터 오류를 찾아
수정함
 추정결과에 중대한 영향을 미치는 특이치(outlier)를
찾아 처리하게 됨
 특이치 검출 방안
 Aggregation method(Granquist, 1997): 추정량의 값을 구해서
문제가 되는 레코드를 찾아내어 수정하는 방법(현재 자료 또는
과거 자료와 같이 비교하여 특이치 검출)
 Distribution method(자료의 분포 이용 방법) : 탐색적 자료분석
(EDA) 방법, 상자그림, 히스토그램과 산점도 등을 사용함
선택적 에디팅(Selective editing) (1)
 선택적 에디팅
 Significance editing라고도 함
 전통적인 마이크로 에디팅은 각 조사단위에 대해 똑
같은 처리 강도로 진행됨
 개별적 에디팅의 수와 비용을 최소화하기 위해 영향
이 큰 조사단위를 선별하여 수행하고자 함
 영향력이 큰 의심 조사단위에 대해서 재접촉
(recontact)과 추적조사(follow-up)가 실시됨.
 영향력이 크지 않은 경우는 에디팅을 적용하지 않거
나, 자동화 에디팅을 적용함
선택적 에디팅(Selective editing) (2)
 선택적 에디팅 (계속)
 각 조사단위에 대해 score값을 구하여 우선 순위를 결
정함
 영국, 호주, 네덜란드, 스웨덴, 미국 등의 국가통계 작
성 기관에서 사용함
 특히 사업체조사에서 중요한 역할을 함
 스웨덴 통계청은 SELEKT 1.1을 개발하여 사용하고
있음 (Norberg, A. et al. (2011))
선택적 에디팅(Selective editing) (3)
A procedure which targets only some of the micro
data variables or records for review by prioritizing
the manual work (Norberg et al, 2010).
선택적 에디팅의 적용 (1)
 Hooper, Lewis & Dobbins (2010)에 기초함
1. 중요변수(key variables)와 추정영역(Domain) 결정
 고용형태별근로실태조사
- 중요변수 : 임금총액, 상여금 제외 임금총액, 근로시
간등
- 추정영역 : 산업중분류*사업체 규모
 사업체노동력조사
- 중요변수 : 현원, 입직자수, 이직자수, 빈일자리수 등
- 추정영역 : 산업중분류*사업체 규모
선택적 에디팅의 적용 (2)
2. Item(local) and unit(global) score 함수
 각 조사단위에서 각 중요변수에 대한 score 계산
-
: 설계가중치,
: 에디팅 전의 조사값,
: predicted value,
: 변수 j의 추정영역 d의 전시점 추정값
선택적 에디팅의 적용 (3)
<참고> Item(local) score 함수의 의미
 각 조사단위에서 각 중요변수에 대한 score 계산
Risk component
Influence component
선택적 에디팅의 적용 (4)
<참고> Item(local) score 함수
 각 조사단위에서 각 중요변수에 대한 score 계산
-
: 직전 조사시점의 조사값을 활용하거나
활용할 수 없는 경우는 register value 또는
imputed value를 이용함
선택적 에디팅의 적용 (5)
Unit(Global) score 함수
 각 unit에서 각 중요변수에 대한 score 값을 unit(조
사단위) score로 전환
 Unit score 함수의 예
-
,
 - 대개 SUM이나 MAX 함수를 주로 이용함
선택적 에디팅의 적용 (6)
<참고> Unit(Global) score 함수
 Unit score는 Minkowski metric으로 표현 가능
 Unit score 함수의 예
-
,
선택적 에디팅의 적용 (7)
3. Threshold (Cut-off value) 결정 (1)
 주요 데이터 질에 대한 지표
- Relative Bias(RB)
- Absolute Relative Bias(ARB)
- Savings
 영국 통계청의 Monthly Business Survey에서는 ARB
가 1%이하가 되도록 모의실험을 통해서 threshold
결정
선택적 에디팅의 적용 (8)
3. Threshold (Cut-off value) 결정 (2)
 Threshold 결정을 위해서는 raw, unedited data set와
해당 데이터에 대한 clean, edited data가 함께 필요
함
 모의실험을 통해서 결정하게 됨
 과거 데이터가 없는 경우에는 모형기반의 결정법 이
용하게 됨. Lawrence and McKenzie(2000)
 실무적으로는 각 조사단위에 대해서 unit score를 계
산하여 에디팅의 우선순위를 결정하고 예산과 시간
이 허락하는 범위에서 진행할 수 있음
선택적 에디팅 적용 예시 (1)
 사업체노동력조사 (고용현황 부분)
 2010년 5월, 6월 사업체노동력조사 결과 이용
 중요변수
- 현원, 입직자수, 이직자수, 빈일자리수
 추정 영역(domain)
- 산업 중분류*사업체 규모
- 산업중분류 : 26(전자제품, 컴퓨터, 영상, 음향,
및 통신기기), 47(소매업), 56(음식점업) 등
선택적 에디팅 적용 예시 (2)
 각 조사단위에서 4개 변수에 대해서 item score 계산
-
-
: 전월의 조사값 활용
선택적 에디팅의 적용 예시 (3)
 Unit(Global) score 함수 계산
 각 unit에서 각 중요변수에 대한 score 값을 unit(조
사단위) score로 전환

,
선택적 에디팅의 적용 예시(4)
- item1, item2, item3, item4 : 4개 주요 변수에 대한 item score 값
- unit_sc1, unit_sc2, unit_sc3 : unit score를 구하는 3가지 방법
- 순위1, 순위2, 순위3 : 3가지 unit score에 대한 순위
선택적 에디팅의 적용 예시(5)
 선택적 에디팅 적용 후 검토
 Unit(Global) score 종류에 따른 차이는 크지 않음.
3 종류의 unit score 함수에 대해서 상위 5% 내
일치도는 90%수준임
 각 조사단위의 unit score는 에디팅의 우선순위를
나타내고, 예산과 시간의 범위 내에서 데이터 점검 가능
 선택적 에디팅을 적용하기 위해서는 충분한 사전
준비가 필요함. 예를 들어 Raw, unedited data와 clean,
edited data가 함께 준비되어야 적용할 수 있음
결론 및 토의 (1)
1. 데이터 에디팅은 작성되는 통계의 질을 좌우하
는 중요한 요소로 상당한 비용과 시간이 소요되
는 작업임
2. 선택적 에디팅은 예산과 시간의 제약 속에서 효
율적으로 마이크로 에디팅을 진행하는 방안을
제시함
3. 사업체조사는 조사단위에 따라 추정결과에 미치
는 영향 정도에 차이가 크게 나타남. 이 경우에
선택적 에디팅의 유용성은 대단히 큼
결론 및 토의 (2)
4. 선택적 에디팅을 적용하기 위해서는 충분한 사
전 준비 작업이 필요함. 예를 들어 Raw,
unedited data와 clean, edited data가 함께 준
비되어야 적용할 수 있고, 에디팅 질도 파악 가
능함
5. 궁극적으로 스웨덴 통계청의 SELEKT 1.1와 같은
범용 선택적 에디팅 시스템 구축을 위한 연구
도 필요함. 대표적 사업체 조사에 유연하게 적용
될 수 있도록 구축되어야 함
참고문헌
 Bethlehem, J.(2009) Applied survey methods, wiley.
 Chamber,R.L.(1986) Outlier robust finite population estimation,
JASA 81, 1063-1069.
 Fellegi, I.P. and Holt, D.(1976) A systematic approach to automatic
edit and imputation, JASA 71,17-35.
 Granquist, L. (1995) Improving the traditional editing process, In
Business survey methods(eds. Cox et al.), John Wiley & Son:177199.
 Granquist, L. and Kover, J. (1997) Editing of survey data: How much
is enough?, In survey measurement and process quailty (eds.
Lyberg et al.), John Wiley & Son:415-435.
 Granquist, L. (1997) Macro-editing: The aggregate method,
statistical data editing, UN Conference of European statisticians
statistical standard and studies, Geneva (Swizerland).
참고문헌
 Granquist, L. (1997) The New View on Editing, International
Statistical Review.
 Hooper, E., Lewis, D. and Dobbins, C. (2010) The Application of
Selective Editing to the ONS Monthly Business Survey, Q2010
Conference, Helsinki, 2010.
 Latouche and Berthelot(1992) Use of score function to prioritize and
limit recontacts in editing business surveys, Journal of official
statistics 8, 389-400.
 Lawrence, D. and Mcdavitt, C. (1994) Significance edition in the
Australian survey of average weekly earings, Journal of official
statistics 10, 437-447.
 Norberg, A. et al (2010) A General Methodology for Selective Data
Editing, Statistics Sweden.