Семинар, проводимый ЕЭК ОНН, по технологии проведения переписи населения для странучастниц СПЕКА и СНГ (г.

Download Report

Transcript Семинар, проводимый ЕЭК ОНН, по технологии проведения переписи населения для странучастниц СПЕКА и СНГ (г.

Семинар, проводимый ЕЭК ОНН, по технологии
проведения переписи населения для странучастниц СПЕКА и СНГ
(г. Астана, 7-8 июня 2007г.)
Технология кодирования,
редактирования и использования
расчетных данных переписи
Паоло Валенте (ЕЭК ООН)
Paolo Valente - UNECE Statistical Division
Slide 1
Содержание:
1. Кодировка
2. Редактирование и
использование расчетных
данных
Справочный материал:
Руководство
по управлению данными переписи
населения и жилищного фонда (Глава IV, Части D-F)
Руководство
по редактированию данных переписи
населения и жилищного фонда
Paolo Valente - UNECE Statistical Division
Slide 2
1. Кодировка данных переписи
Вопросы:
1. Как вы проводили кодировку данных
предыдущей переписи?
2.
Были ли Вы довольны кодировкой?
3.
С какими проблемами Вы
столкнулись при кодировке данных?
4.
Были ли проблемы с конкретными
переменными?
Paolo Valente - UNECE Statistical Division
Slide 3
Кодировка данных переписи

Кодировка данных = Приписывание
классификационного кода ответам анкеты

Системы кодирования:
a) Ручные
b) При помощи компьютера
c) Автоматизированные
d) Комбинация a), b) или c)

Методологии кодирования:
a) Упрощенные (1 или 2 слова): н-р, место
рождения
b) Структурированные (> 1 вопроса): н-р, род
занятий
c) Иерархические: н-р, адрес
Paolo Valente - UNECE Statistical Division
Slide 4
Ручное кодирование данных

Служащие определяют код при помощи
“словарей кодов”, и записывают его на
анкете для последующей обработки

Преимущества:
 Легко выполнить
 Не требуется никаких технологий

Недостатки:
 Требует много времени
 Требует много усилий
 Риск непоследовательности
Paolo Valente - UNECE Statistical Division
Slide 5
Кодирование при помощи
компьютера
Помощь компьютеризированных
систем
 Компьютеризированные словари
кодов
 Как работает этот метод:
1) Кодирующее устройство печатает
только несколько символов
2) Система выбирает согласующиеся списки
3) Кодирующее устройство выбирает
правильный код
4) Код автоматически фиксируется системой

Paolo Valente - UNECE Statistical Division
Slide 6
Кодирование при помощи
компьютера

Преимущества:
 Эффективность
 Высокое качество
 Особенно эффективно для
структурированного кодирования
(можно включить правила кодирования)

Недостатки:
 Относительно сложная система
 Требует много времени на разработку
 Достаточно дорогостоящая
Paolo Valente - UNECE Statistical Division
Slide 7
Автоматизированное
кодирование
Основано на компьютерных алгоритмах
Исключает вмешательство оператора
Текст считывается при помощи ИРС и
сопоставляется с индексами
 Система приписывает сопоставленному
ответу балл:
 Если балл превышает определенный
уровень, ответ принимается
 Если балл ниже этого уровня, требуется
вмешательство оператора (кодирование
при помощи компьютера)



Paolo Valente - UNECE Statistical Division
Slide 8
Автоматизированное
кодирование
Уровни сопоставления зависят от используемых
алгоритмов и вида переменной
 Максимальные уровни сопоставления в
идеальных условиях:
 Для простых переменных (место рождения),
примерно 80%
 Для сложных переменных (род занятий, место
работы), примерно 50%

 Все несогласованные ответы должны
обрабатываться при помощи компьютерного
кодирования
Paolo Valente - UNECE Statistical Division
Slide 9
Автоматизированное
кодирование

Преимущества:
 Высокая эффективность
 Высокое качество (если система разработана
правильно)
 Последовательность
 Особенно эффективно для структурированного
кодирования (можно включить правила
кодирования)

Недостатки:
 Очень сложная система
 Требует много времени на разработку
 Дорогостоящая
 Риск систематических ошибок в случае
несоответствия алгоритмов и индексов
Paolo Valente - UNECE Statistical Division
Slide 10
Кодирование – практика цикла 2000г.


Страны СНГ в целом используют ручное кодирование
Около половины стран-членов ЕЭК ООН применяют
автоматизированное кодирование, в комбинации с
компьютерным или ручным
 В большинстве случаев программное обеспечение
разрабатывается внутри страны
 Программное обеспечение автоматизированного
кодирования:

ACTR (Автоматическое кодирование распознанием
текста), разработанное Статистическим управлением
Канады, также используемое Италией, Великобританией
См. “Оценка данных переписи населения и жилищного
фонда”, Глава III

Интегрированная система,в т.ч. компьютерное
кодирование: CSPro (Бюро переписи США)
Paolo Valente - UNECE Statistical Division
Slide 11
Кодирование данных
переписи цикла 2010г.
Вопросы:
1.
Как Вы планируете проводить
кодировку данных следующей
переписи?
2.
Рассматриваете ли Вы вариант
компьютерного кодирования?
3.
Почему? …почему нет?
Paolo Valente - UNECE Statistical Division
Slide 12
2. Редактирование и
использование расчетных данных
Вопросы по редактированию:
1.
Какие данные Вы редактировали в
предыдущей переписи?
2.
Как Вы редактируете данные?
3.
Были ли у Вас проблемы?
Paolo Valente - UNECE Statistical Division
Slide 13
2. Редактирование и использование
расчетных данных
Вопросы по использованию:
1.
Приходилось ли Вам использовать
расчетные данные вместо
отсутствующих?
если да:
По каким переменным?
3. Какой Вы использовали для этого метод и
программу?
4. Создавали ли Вы статистические данные на
основе расчетных?
2.
Paolo Valente - UNECE Statistical Division
Slide 14
Редактирование и использование
расчетных данных

Редактирование = Выявление и
исправление ошибок данных
переписи

Использование расчетных данных =
приписывание значений
отсутствующим данным

Оба подхода взаимосвязаны, и оба
термина иногда используются по разному
Paolo Valente - UNECE Statistical Division
Slide 15
Редактирование и использование
расчетных данных

Различные виды ошибок:





Ошибки охвата обследования (н-р.
упущения, дублирование)
Ошибки счетчика
Ошибки респондента
Ошибки кодирования
Ошибки ввода данных
а также…

Ошибки редактирования!
Paolo Valente - UNECE Statistical Division
Slide 16
Редактирование и использование
расчетных данных

Важно не только выявить ошибки, но и
установить их причины, для того, чтобы
предпринять соответствующие меры и
повысить качество

Цели редактирования и использования
расчетных данных:
 Повысить качество данных переписи
 Ускорить анализ данных переписи
 Определить виды и источники ошибок
Paolo Valente - UNECE Statistical Division
Slide 17
Редактирование и использование
расчетных данных

Дилемма: что редактировать, а что
НЕТ?

Комплексные системы редактирования
могут быть сложными и дорогостоящими,
и в некоторых случаях могут вызвать
искажение данных
 Используйте относительно простые
системы редактирования!
Paolo Valente - UNECE Statistical Division
Slide 18
Редактирование и использование
расчетных данных

В целом, система редактирования должна
быть:
 Минимализирующей (только очевидные
ошибки)
 Автоматизированной (насколько
возможно)
 Систематичной
 Соответствовать другим процедурам NSI
 Соответствовать международным
стандартам
Paolo Valente - UNECE Statistical Division
Slide 19
Редактирование и использование
расчетных данных
Основные принципы редактирования:
 Делать возможным несколько
необходимых изменений
 Устранять очевидные несоответствия
 Обеспечивает записи для ошибочных или
отсутствующих данных с использованием
других записей по жилищной единице,
члену семьи или другим людям
домохозяйства или сравнительной группы
в качестве руководства
Paolo Valente - UNECE Statistical Division
Slide 20
Редактирование и использование
расчетных данных
Пример противоречивой информации 1:

Основное лицо и супруг(а) одного пола
Отец
Глава семьи
(фертильный)
Супруга
(фертильная)
Сын
Дочь
Paolo Valente - UNECE Statistical Division
Slide 21
Редактирование и использование
расчетных данных
Пример противоречивой информации 2:

Большая разница в возрасте между матерью и
ребенком
Отец
Глава семьи
(возраст 53)
Сын
(возраст 10)
Супруга
(возраст 60)
Дочь
(возраст 8)
Paolo Valente - UNECE Statistical Division
Slide 22
Редактирование и использование
расчетных данных
Подходы редактирования:
Нисходящий:
Последовательные данные, от первого
к последнему
 Многочисленные переменные (ФеллегиХолт):

Данные и взаимосвязь между переменными
проверяются по домохозяйству
2. Редактирование отслеживает все ложные
данные
3. Система проводит оценку наилучшего способа
изменения данных
1.
Paolo Valente - UNECE Statistical Division
Slide 23
Редактирование и использование
расчетных данных
Методы использования расчетных данных:

Статические данные (или “cold deck”)




Используется в основном только для отсутствующих
значений
Значение присваивается из предыдущего набора, или
распределение достоверных ответов
Набор значений со временем не меняется
Динамические данные (или “hot deck”)



Используется для отсутствующих или противоречивых
значений
Значение присваивается от “донорского” с аналогичными
характеристиками, постоянно изменяется
Расчетные данные ответа со временем меняются
См. “Руководство по редактированию данных переписи”, Гл.
II.E и Приложение V
Paolo Valente - UNECE Statistical Division
Slide 24
Редактирование и использование
расчетных данных
Виды редактирования:

Фатальное редактирование определяет ошибки с
достоверностью
 Поисковое редактирование определяет
подозреваемые ошибки

Структура редактирования


Проверяет охват и взаимосвязь различных единиц:
люди, домашние хозяйства, жилищная единица,
область регистрации и т.д.

Редактирование данных по населению и
жилищному фонду
см. “Руководство по редактированию данных
переписи ”, Главы III, IV и V
Paolo Valente - UNECE Statistical Division
Slide 25
Редактирование и использование
расчетных данных
Практика переписи 2000г.

Большинство стран ЕЭК (33 из 40) проводили
компьютерное редактирование, в т.ч. несколько
стран СНГ

22 страны проводили автоматизированное
использование расчетных данных
 Многие страны разработали специальную
программу
 Некоторые страны использовали SAS, Oracle,
SQL, CSPro
См. “Оценка данных переписи населения и
жилищного фонда”, Глава III
Paolo Valente - UNECE Statistical Division
Slide 26
Редактирование и использование расчетных
данных
Планы по проведению переписи 2010г.
Вопросы:
 Как Вы планируете проводить
редактирование и использование
расчетных данных?
 Какие Вы планируете
подходы/методы редактирования?
Paolo Valente - UNECE Statistical Division
Slide 27
Редактирование и использование расчетных
данных
Планы по проведению переписи 2010г.
Вопросы:
 Для каких переменных Вы
рассматриваете использование
расчетных данных вместо
отсутствующих?
Paolo Valente - UNECE Statistical Division
Slide 28