Семинар, проводимый ЕЭК ОНН, по технологии проведения переписи населения для странучастниц СПЕКА и СНГ (г.
Download
Report
Transcript Семинар, проводимый ЕЭК ОНН, по технологии проведения переписи населения для странучастниц СПЕКА и СНГ (г.
Семинар, проводимый ЕЭК ОНН, по технологии
проведения переписи населения для странучастниц СПЕКА и СНГ
(г. Астана, 7-8 июня 2007г.)
Технология кодирования,
редактирования и использования
расчетных данных переписи
Паоло Валенте (ЕЭК ООН)
Paolo Valente - UNECE Statistical Division
Slide 1
Содержание:
1. Кодировка
2. Редактирование и
использование расчетных
данных
Справочный материал:
Руководство
по управлению данными переписи
населения и жилищного фонда (Глава IV, Части D-F)
Руководство
по редактированию данных переписи
населения и жилищного фонда
Paolo Valente - UNECE Statistical Division
Slide 2
1. Кодировка данных переписи
Вопросы:
1. Как вы проводили кодировку данных
предыдущей переписи?
2.
Были ли Вы довольны кодировкой?
3.
С какими проблемами Вы
столкнулись при кодировке данных?
4.
Были ли проблемы с конкретными
переменными?
Paolo Valente - UNECE Statistical Division
Slide 3
Кодировка данных переписи
Кодировка данных = Приписывание
классификационного кода ответам анкеты
Системы кодирования:
a) Ручные
b) При помощи компьютера
c) Автоматизированные
d) Комбинация a), b) или c)
Методологии кодирования:
a) Упрощенные (1 или 2 слова): н-р, место
рождения
b) Структурированные (> 1 вопроса): н-р, род
занятий
c) Иерархические: н-р, адрес
Paolo Valente - UNECE Statistical Division
Slide 4
Ручное кодирование данных
Служащие определяют код при помощи
“словарей кодов”, и записывают его на
анкете для последующей обработки
Преимущества:
Легко выполнить
Не требуется никаких технологий
Недостатки:
Требует много времени
Требует много усилий
Риск непоследовательности
Paolo Valente - UNECE Statistical Division
Slide 5
Кодирование при помощи
компьютера
Помощь компьютеризированных
систем
Компьютеризированные словари
кодов
Как работает этот метод:
1) Кодирующее устройство печатает
только несколько символов
2) Система выбирает согласующиеся списки
3) Кодирующее устройство выбирает
правильный код
4) Код автоматически фиксируется системой
Paolo Valente - UNECE Statistical Division
Slide 6
Кодирование при помощи
компьютера
Преимущества:
Эффективность
Высокое качество
Особенно эффективно для
структурированного кодирования
(можно включить правила кодирования)
Недостатки:
Относительно сложная система
Требует много времени на разработку
Достаточно дорогостоящая
Paolo Valente - UNECE Statistical Division
Slide 7
Автоматизированное
кодирование
Основано на компьютерных алгоритмах
Исключает вмешательство оператора
Текст считывается при помощи ИРС и
сопоставляется с индексами
Система приписывает сопоставленному
ответу балл:
Если балл превышает определенный
уровень, ответ принимается
Если балл ниже этого уровня, требуется
вмешательство оператора (кодирование
при помощи компьютера)
Paolo Valente - UNECE Statistical Division
Slide 8
Автоматизированное
кодирование
Уровни сопоставления зависят от используемых
алгоритмов и вида переменной
Максимальные уровни сопоставления в
идеальных условиях:
Для простых переменных (место рождения),
примерно 80%
Для сложных переменных (род занятий, место
работы), примерно 50%
Все несогласованные ответы должны
обрабатываться при помощи компьютерного
кодирования
Paolo Valente - UNECE Statistical Division
Slide 9
Автоматизированное
кодирование
Преимущества:
Высокая эффективность
Высокое качество (если система разработана
правильно)
Последовательность
Особенно эффективно для структурированного
кодирования (можно включить правила
кодирования)
Недостатки:
Очень сложная система
Требует много времени на разработку
Дорогостоящая
Риск систематических ошибок в случае
несоответствия алгоритмов и индексов
Paolo Valente - UNECE Statistical Division
Slide 10
Кодирование – практика цикла 2000г.
Страны СНГ в целом используют ручное кодирование
Около половины стран-членов ЕЭК ООН применяют
автоматизированное кодирование, в комбинации с
компьютерным или ручным
В большинстве случаев программное обеспечение
разрабатывается внутри страны
Программное обеспечение автоматизированного
кодирования:
ACTR (Автоматическое кодирование распознанием
текста), разработанное Статистическим управлением
Канады, также используемое Италией, Великобританией
См. “Оценка данных переписи населения и жилищного
фонда”, Глава III
Интегрированная система,в т.ч. компьютерное
кодирование: CSPro (Бюро переписи США)
Paolo Valente - UNECE Statistical Division
Slide 11
Кодирование данных
переписи цикла 2010г.
Вопросы:
1.
Как Вы планируете проводить
кодировку данных следующей
переписи?
2.
Рассматриваете ли Вы вариант
компьютерного кодирования?
3.
Почему? …почему нет?
Paolo Valente - UNECE Statistical Division
Slide 12
2. Редактирование и
использование расчетных данных
Вопросы по редактированию:
1.
Какие данные Вы редактировали в
предыдущей переписи?
2.
Как Вы редактируете данные?
3.
Были ли у Вас проблемы?
Paolo Valente - UNECE Statistical Division
Slide 13
2. Редактирование и использование
расчетных данных
Вопросы по использованию:
1.
Приходилось ли Вам использовать
расчетные данные вместо
отсутствующих?
если да:
По каким переменным?
3. Какой Вы использовали для этого метод и
программу?
4. Создавали ли Вы статистические данные на
основе расчетных?
2.
Paolo Valente - UNECE Statistical Division
Slide 14
Редактирование и использование
расчетных данных
Редактирование = Выявление и
исправление ошибок данных
переписи
Использование расчетных данных =
приписывание значений
отсутствующим данным
Оба подхода взаимосвязаны, и оба
термина иногда используются по разному
Paolo Valente - UNECE Statistical Division
Slide 15
Редактирование и использование
расчетных данных
Различные виды ошибок:
Ошибки охвата обследования (н-р.
упущения, дублирование)
Ошибки счетчика
Ошибки респондента
Ошибки кодирования
Ошибки ввода данных
а также…
Ошибки редактирования!
Paolo Valente - UNECE Statistical Division
Slide 16
Редактирование и использование
расчетных данных
Важно не только выявить ошибки, но и
установить их причины, для того, чтобы
предпринять соответствующие меры и
повысить качество
Цели редактирования и использования
расчетных данных:
Повысить качество данных переписи
Ускорить анализ данных переписи
Определить виды и источники ошибок
Paolo Valente - UNECE Statistical Division
Slide 17
Редактирование и использование
расчетных данных
Дилемма: что редактировать, а что
НЕТ?
Комплексные системы редактирования
могут быть сложными и дорогостоящими,
и в некоторых случаях могут вызвать
искажение данных
Используйте относительно простые
системы редактирования!
Paolo Valente - UNECE Statistical Division
Slide 18
Редактирование и использование
расчетных данных
В целом, система редактирования должна
быть:
Минимализирующей (только очевидные
ошибки)
Автоматизированной (насколько
возможно)
Систематичной
Соответствовать другим процедурам NSI
Соответствовать международным
стандартам
Paolo Valente - UNECE Statistical Division
Slide 19
Редактирование и использование
расчетных данных
Основные принципы редактирования:
Делать возможным несколько
необходимых изменений
Устранять очевидные несоответствия
Обеспечивает записи для ошибочных или
отсутствующих данных с использованием
других записей по жилищной единице,
члену семьи или другим людям
домохозяйства или сравнительной группы
в качестве руководства
Paolo Valente - UNECE Statistical Division
Slide 20
Редактирование и использование
расчетных данных
Пример противоречивой информации 1:
Основное лицо и супруг(а) одного пола
Отец
Глава семьи
(фертильный)
Супруга
(фертильная)
Сын
Дочь
Paolo Valente - UNECE Statistical Division
Slide 21
Редактирование и использование
расчетных данных
Пример противоречивой информации 2:
Большая разница в возрасте между матерью и
ребенком
Отец
Глава семьи
(возраст 53)
Сын
(возраст 10)
Супруга
(возраст 60)
Дочь
(возраст 8)
Paolo Valente - UNECE Statistical Division
Slide 22
Редактирование и использование
расчетных данных
Подходы редактирования:
Нисходящий:
Последовательные данные, от первого
к последнему
Многочисленные переменные (ФеллегиХолт):
Данные и взаимосвязь между переменными
проверяются по домохозяйству
2. Редактирование отслеживает все ложные
данные
3. Система проводит оценку наилучшего способа
изменения данных
1.
Paolo Valente - UNECE Statistical Division
Slide 23
Редактирование и использование
расчетных данных
Методы использования расчетных данных:
Статические данные (или “cold deck”)
Используется в основном только для отсутствующих
значений
Значение присваивается из предыдущего набора, или
распределение достоверных ответов
Набор значений со временем не меняется
Динамические данные (или “hot deck”)
Используется для отсутствующих или противоречивых
значений
Значение присваивается от “донорского” с аналогичными
характеристиками, постоянно изменяется
Расчетные данные ответа со временем меняются
См. “Руководство по редактированию данных переписи”, Гл.
II.E и Приложение V
Paolo Valente - UNECE Statistical Division
Slide 24
Редактирование и использование
расчетных данных
Виды редактирования:
Фатальное редактирование определяет ошибки с
достоверностью
Поисковое редактирование определяет
подозреваемые ошибки
Структура редактирования
Проверяет охват и взаимосвязь различных единиц:
люди, домашние хозяйства, жилищная единица,
область регистрации и т.д.
Редактирование данных по населению и
жилищному фонду
см. “Руководство по редактированию данных
переписи ”, Главы III, IV и V
Paolo Valente - UNECE Statistical Division
Slide 25
Редактирование и использование
расчетных данных
Практика переписи 2000г.
Большинство стран ЕЭК (33 из 40) проводили
компьютерное редактирование, в т.ч. несколько
стран СНГ
22 страны проводили автоматизированное
использование расчетных данных
Многие страны разработали специальную
программу
Некоторые страны использовали SAS, Oracle,
SQL, CSPro
См. “Оценка данных переписи населения и
жилищного фонда”, Глава III
Paolo Valente - UNECE Statistical Division
Slide 26
Редактирование и использование расчетных
данных
Планы по проведению переписи 2010г.
Вопросы:
Как Вы планируете проводить
редактирование и использование
расчетных данных?
Какие Вы планируете
подходы/методы редактирования?
Paolo Valente - UNECE Statistical Division
Slide 27
Редактирование и использование расчетных
данных
Планы по проведению переписи 2010г.
Вопросы:
Для каких переменных Вы
рассматриваете использование
расчетных данных вместо
отсутствующих?
Paolo Valente - UNECE Statistical Division
Slide 28