ACP policórico

Download Report

Transcript ACP policórico

El índice de activos para datos censales:
Una aplicación para predecir indicadores
educativos en países en desarrollo
Rodrigo Lovatón Dávila, Dorothy Gondwe, Aine Seitz McCarthy,
Phatta Kirdruang, and Uttam Sharma
Integrated Public Use Microdata Series- International (IPUMS-I)
Indice
Motivación
Preguntas de investigación
Revisión de literatura
Datos
Metodología
Resultados
Trabajo en curso
Motivación
Necesidad de una medida de nivel socioeconómico (NSE)
para investigación económica y demográfica:
 Estimación de pobreza e inequidad.
 Como variable de control en análisis de regresión.
Problemas con ingresos y gastos en encuestas de hogares:
 Datos costosos de recolectar.
 Dificultad para su medición / menor disponibilidad.
Uso de información censal para crear una medida de NSE:
 Microdatos censales tienen gran cobertura y son accesibles.
 Datos disponibles a través de IPUMS-International.
 Aplicación del enfoque basado en activos para crear una medida de
NSE.
Preguntas de investigación
1) ¿Es el índice de activos internamente consistente
cuando es aplicado a microdatos censales?
2) ¿Es el índice de activos una medida válida de
nivel socioeconómico (NSE)?
Revisión de literatura

El índice de activos es una buena proxy de ingresos y gasto
de consumo (McKenzie, 2005; Sahn y Steifel, 2000).

El índice de activos es confiable en la predicción de
indicadores educativos, cuando es comparado con gastos
(Filmer y Pritchett, 2001).

Validación del índice examinando indicadores de salud a
través de estratos de NSE (Bollen et al., 2002; Filmer y
Scott, 2008; Sahn y Stiefel, 2003).

La Encuesta Demográfica y de Salud Familiar (ENDES) usa
un índice basado en activos.
Datos
Microdatos censales de IPUMS-International.
 Mayor archivo de información gratuita y públicamente accesible de
muestras censales: 211 muestras de 68 países, de 1960 a 2010
 Actualmente, no incluye ninguna medida estándar de nivel
socioeconómico para el hogar.
Encuesta Demográfica y de Salud Familiar (ENDES)
País
IPUMS-I
ENDES
Brasil
2000
1996
Colombia
2005
2005
Perú
1993
1992
Senegal
2002
2005
Sudáfica
1996
1996
Categoría
Ejemplos
Activos
Teléfono, radio, televisión, refrigerador,
computadora, bicicleta, equipo de
sonido, lavadora
Acceso a
servicios
Electricidad, agua, saneamiento
Características
de la vivienda
Material predominante en paredes,
pisos, techos
Metodología: ACP
Supuesto: nivel socioeconómico no observado está reflejado
en características de la vivienda, acceso a servicios, y activos.
Recodificación de variables categóricas en binarias y cálculo
del índice con Análisis de Componentes Principales (ACP).
C1 = b11(X1) + b12(X2) + ... b1p(Xp)
 Técnica de reducción de datos que forma un índice a partir de una
combinación lineal de todas las variables.
 Cada variable recibe un peso asignado en función de su contribución a
la variabilidad total de los datos.
 Se asigna a cada hogar un índice de acuerdo con la tenencia de dichas
variables.
Definición de quintiles basados en el índice de activos.
Metodología: ACP
Colombia 2005 - Resultados ACP
Has telephone
Has television
Has refrigerator
Uses water from aqueduct, inside the dwelling
Uses water from aqueduct, outside the dwelling
Uses water from a public standpipe
Uses water from well with pump
Uses water from river, stream, or spring
Uses water from tanker truck
Uses toilet connected to sewer
Uses shared toielet connected to sewer
Uses own toilet connected to septic system
Uses shared toilet connected to septic system
Uses own unconnected flush toilet
Uses shared unconnected flush toilet
No sanitary service
Has parquet or polished wood flooring
Has tile flooring
Has wood plank flooring
Has cement flooring
Has earth, mud, dung, or sand flooring
Poorest
1.45
29.33
14.76
9.88
21.75
1.45
22.10
34.51
2.25
3.77
0.35
38.26
1.44
11.64
0.40
44.14
0.15
1.68
11.74
37.54
48.89
Wealth quintile (% owns asset)
2nd
3rd
4th
Richest
Total
19.23
70.86
50.67
55.64
20.53
1.32
9.21
5.07
2.94
49.09
5.85
34.40
1.12
5.16
0.17
4.21
1.15
15.06
4.88
71.01
7.90
52.46
77.52
66.98
68.56
11.19
0.64
6.84
8.29
1.21
64.96
4.47
16.09
0.78
3.48
0.17
10.05
5.90
42.64
4.45
35.51
11.51
57.53
91.78
76.27
88.03
7.26
0.32
1.83
0.46
0.63
87.66
4.86
6.46
0.15
0.60
0.01
0.25
3.63
43.63
2.05
50.16
0.52
86.70
98.06
95.23
94.88
3.62
0.08
0.51
0.14
0.15
96.35
1.56
1.84
0.02
0.12
0.00
0.10
6.59
75.26
1.19
16.91
0.05
97.54
99.14
99.48
97.09
2.22
0.02
0.22
0.06
0.04
98.81
0.26
0.89
0.00
0.02
0.00
0.02
17.82
78.48
1.02
2.67
0.01
Factor
score
0.2278
0.2127
0.2211
0.2334
-0.0669
-0.0143
-0.0937
-0.1556
-0.0165
0.2508
0.0115
-0.1072
-0.0222
-0.0665
-0.0137
-0.1809
0.0786
0.1963
-0.0612
-0.0482
-0.1823
Metodología
1) Consistencia interna
 Eliminación
de variables por etapas (stepwise),
cálculo de correlaciones y el alpha de Cronbach.
 Comparación gráfica de distribuciones de riqueza con
el índice de la ENDES.
2) Validez
 Predicción
de indicadores educativos (nivel educativo
alcanzado y asistencia a la escuela).
Metodología: Consistencia interna (I)
Eliminación de variables por etapas (stepwise),
siguiendo el orden de los pesos del ACP (menor a mayor) y
luego el índice es recalculado con las variables restantes.
Cálculo de correlaciones: verificación de consistencia
de los rankings luego de la eliminación de cada variable.
Comparación del ranking original de hogares al ranking
usando el nuevo grupo de variables.
Alpha de Cronbach: comparación de la consistencia
K
interna entre índices.

2 
 Yi


K 

1  i 1 2
K 1 
X







Resultados: Consistencia interna (I)
Peru 1993
Colombia 2005
1
1.000
0.95
0.950
0.9
0.900
0.850
0.85
0.800
0.8
59
54
49
44 39 34 29 24 19
Number of Variables Included
Cronbach alpha

Spearman rank
14
9
62 57 52 47 42 37 32 27 22 17 12
Number of Variables Included
Cronbach alpha
7
Spearman rank
El alpha de Cronbach y las correlaciones calculadas durante el
proceso de eliminación de variables muestran que el índice
tiene una consistencia interna primero estable o creciente y
luego decreciente a partir de cierto punto.
2
Metodología: Consistencia interna (II)
Comparación gráfica de funciones de densidad
kernel entre microdatos censales y ENDES.
Se espera distribuciones similares de NSE, dado que se
trata de bases de datos de años similares.
Comparación
de
estadísticos
resumen
de
distribuciones estandarizadas entre microdatos
censales y ENDES.
Percentiles, sesgo, y curtosis.
Resultados: Consistencia interna (II)
Senegal 2002

Brasil 2000
El índice de activos basado en microdatos censales muestra
una similar distribución al correspondiente a la ENDES.
Metodología: Validez
 Aplicación
a indicadores educativos
1. Comparación de distribuciones de asistencia a la
escuela y nivel educativo según quintiles del
índice para microdatos censales y ENDES.
2. Estimación de un modelo probit para asistencia a
la escuela, controlando por el índice de activos y
otras variables individuales y del hogar:
Pr(y=1|X) = Φ(X’β)
Donde Pr(y=1|X) es la probabilidad de asistir a la
escuela.
School enrollment according to DHS wealth quintiles
100
90.9
90
93.2
87.4
95.4
93.0
94.6 95.8 95.7
94.0
88.9
88.6
84.5
80
91.2
90.6
88.2
86.8
84.3
78.0
77.8
73.4
68.8
70
60
55.7
48.1
50
43.2
40
34.7
30
20
10
0
Brazil
South Africa
Poorest quintile
Second quintile
Peru
Third quintile
Senegal
Fourth quintile
Richest quintile
Colombia
School enrollment according to census asset index
100
97.0
93.9
90.5
91.5
89.8
87.6
90
94.8
93.0
86.2
84.8
83.8
80.6
79.2
80
88.0
86.4 87.4
82.4
77.2
70.5
68.8
70
70.9
60
55.0
50
44.8
40
35.2
30
27.1
20
10
0
Brazil
South Africa
Poorest quintile
Second quintile
Peru
Third quintile
Senegal
Fourth quintile
Richest quintile
Colombia
Adult primary school completion according to DHS wealth index
100
90
98.9
97.1
93.6
98.3
95.8
92.7
93.2
86.9
85.1
80.5
78.4
80
92.7
87.5
82.9
75.9
75.9
68.1
70
65.8
63.1
63.1
60
47.5
50
40.3
40
28.8
30
20
15.1
9.1
10
0
Brazil
Poorest quintile
South Africa
Second quintile
Peru
Third quintile
Colombia
Fourth quintile
Senegal
Richest quintile
Adult primary school completion according to census asset index
98.1
95.0
100
93.3
92.9
89.7
90
85.2
84.0
80
70
84.8
81.9
76.2
75.3
70.2
64.1
60
62.9
61.2
56.0
50
54.7
46.6
40.4
40
35.6
32.5
30
23.1
20
15.7
10
5.2
8.2
0
Brazil
Poorest quintile
South Africa
Second quintile
Peru
Third quintile
Colombia
Fourth quintile
Senegal
Richest quintile
Resultados: Validez
Modelo probit para asistencia a la escuela usando
microdatos censales
Muestra
Brasil 2000
Colombia
2005
Perú 1993
Sudáfrica
1996

Coeficiente
Z-stat
P-value
0.3169
(0.0025)
0.1225
(0.0010)
0.1674
(0.0038)
0.2405
(0.0033)
125.61
< 0.01
113.41
< 0.01
36.73
< 0.01
70.9
< 0.01
Efecto
marginal
0.0325
(0.0003)
0.0190
(0.0002)
0.0344
(0.0008)
0.0461
(0.0006)
Variables de control: Sexo, edad y edad al cuadrado para el niño; sexo,
edad y edad al cuadrado para el jefe del hogar; nivel educativo del jefe
del hogar; residencia en área urbana o rural.
Resultados: Validez
Colombia 2005
Perú 1993
0.012
0.060
0.135
0.028
0.130
0.010
0.058
0.025
0.125
0.008
0.056
0.022
0.120
0.006
0.054
0.019
0.115
0.016
0.110
0.013
0.105
0.004
0.052
0.002
0.000
0.050
59
54
49
44
39
34
29
24
19
14
9
0.010
0.100
62
Marginal effect
R-squared
57
52
47
42
37
32
Marginal effect
27
22
17
12
7
2
R-squared
Resultados del modelo probit para asistencia educativa durante el
proceso de eliminación de variables.
 El efecto marginal del índice de activos y el R2 son estables
inicialmente y luego decrecientes.

Discusión de resultados

Procedimiento
de
eliminación
de
variables
y
las
distribuciones de densidad de kernel muestran que se trata
de una medida consistente de nivel socioeconómico.

El modelo probit indica que el índice de activos tiene un
efecto positivo y significativo en la asistencia a la escuela.

La metodología permite determinar estándares para el
requerimiento de datos para obtener un índice válido.

El análisis de más muestras de microdatos censales permitirá
obtener resultados más concluyentes respecto al grupo de
variables esenciales para el índice.
Cuál es el “mejor” método para ACP?
El ACP presentado previamente está basado en variables
categóricas recodificadas como binarias (“ACP binario”).
Kolenikov y Angeles (2009) sugieren el uso de variables
ordinales, las cuales aportan información adicional a través
del orden de las categorías.
Métodos alternativos aplicados a variables ordinales:
“ACP policórico”: ACP basado en correlaciones policóricas.
“ACP ordinal”: ACP basado en la forma “tradicional” para
calcular correlaciones pero aplicado a variables ordinales.
Trabajo en curso (1)
 Preguntas de investigación:
1. ¿Son los rankings de hogares basados en métodos
alternativos muy diferentes?
2. ¿Cuál de los métodos para ACP tiene un mejor
desempeño para examinar indicadores educativos?
(usando quintiles o análisis de regresión)
Trabajo en curso (2)
Metodología:
Tres métodos para ACP: binario, policórico, ordinal.
Cálculo de índices basados en métodos alternativos para
7 muestras de IPUMS-I (incluyendo Cambodia 1998 y
Tailandia 2000).
Comparación de los índices usando:
1. Clasificación de hogares según quintiles.
2. Comparación gráfica de densidades kernel.
3. Análisis de regresión para asistencia a la escuela.
Resultados preliminares (1)
Clasificación de hogares por quintiles (Colombia 2005)
100
1.74
9.55
9.56
80.53
80.76
96.27
9.92
9.69
1.99
Binario vs Policórico
Binario vs Ordinal
Ordinal vs Policórico
80
60
40
20
0
Menor quintil
Mismo quintil
Mayor quintil
La clasificación de hogares por quintiles es más similar entre los
métodos aplicados a variables ordinales (ACP policórico y ACP ordinal),
respecto del ACP binario.
Resultados preliminares (2)
Brasil 2000
Colombia 2005
Las distribuciones kernel para los métodos alternativos muestran
similitudes, las cuales son mayores entre los índices aplicados a variables
ordinales (forma de la distribución y la concentración de su masa.)
Resultados preliminares (3)
Modelo logit para asistencia a la escuela (odd-ratios)
ACP binario
ACP
policórico
ACP ordinal
Brasil 2000
1.28
1.48
1.32
Colombia 2005
1.24
1.48
1.30
Perú 1993
1.10
1.20
1.12
Senegal 2002
1.12
1.24
1.16
Sudáfrica 1996
1.18
1.26
1.23
Cambodia 1998
1.20
1.58
1.34
Tailandia 2000
1.43
1.67
1.54
Muestra
 Variables
de control: Sexo, edad y edad al cuadrado para el niño; sexo,
edad y edad al cuadrado para el jefe del hogar; nivel educativo del jefe del
hogar; residencia en área urbana o rural.
Discusión de resultados preliminares
ACP policórico y ordinal tienen mayor concordancia en
clasificación de hogares por quintiles que el ACP binario.
Los odds-ratios del modelo logit para asistencia a la escuela
muestran un patrón en todas las muestras analizadas:
ACP policórico > ACP ordinal > ACP binario
Los resultados preliminares sugieren que el ACP policórico
y ordinal tienen un mejor desempeño que el ACP binario
como control por nivel socioeconómico.
Siguientes pasos: inclusión de muestras adicionales y
desarrollar un procedimiento de eliminación de variables
por etapas.
Gracias.