Powerpoint Módulo I Complementario
Download
Report
Transcript Powerpoint Módulo I Complementario
METODOLOGÍA DE INVESTIGACIÓN
Titular: Agustín Salvia
Clase 2: MÉTODOS DE INVESTIGACIÓN BASADOS
EN EL ANÁLISIS DE VARIABLES.
ESTADÍSTICA DESCRIPTIVA
Medición de variables
Variable: cualidad o característica de un objeto (o evento) que contenga,
al menos, dos atributos en los que pueda clasificarse un objeto o evento
Medición de una variable: asignar valores o categorías a las distintas
características que conforman el objeto de estudio
Requisitos básicos:
Exhaustividad: debe comprender el mayor número de atributos
posible. Toda observación debe ser clasificada
Exclusividad: los distintos atributos de la variable deben ser
mutuamente excluyentes. Una observación solo puede clasificarse
en términos de un solo atributo
Precisión: realizar el mayor número de distinciones posibles. Las
categorías pueden agruparse más tarde, el camino inverso no es
posible...
Tipología según el nivel de medición
Variables Nominales:
Ejemplos: sexo, nacionalidad, estado ocupacional, grupo
sanguíneo, partido político, estado civil, religión, plan social al que
pertenece, localidad donde reside, etc.
No se puede establecer ningún tipo de relación
Análisis estadístico limitado
Tipología según el nivel de medición
Variables Ordinales:
Ejemplos: estrato social, orden de mérito, nivel educativo, opinión
acerca de un hecho/situación/gobierno
Los atributos, además de poseer las características mencionadas,
tienen la propiedad de poder establecer un orden
No puede conocerse la magnitud de la diferencia entre un atributo
y otro
Son variables no métricas o cualitativas
Análisis estadístico limitado
Tipología según el nivel de medición
Variables Cuantitativas o métricas:
Variables de intervalo:
Además de establecer un orden, la diferencia entre dos atributos puede
cuantificarse
La distancia que separa a personas de 15 y 16 años, es la misma que la
existente entre personas de 72 y 73 años
Permite realizar la mayoría de las operaciones aritméticas
Ejemplos: temperatura en ºC
No tiene cero absoluto. El cero no implica la ausencia de atributo
Tipología según el nivel de medición
Variables Cuantitativas o métricas:
Variables de razón:
Además de las características de las variables de intervalo, se suma la
posibilidad de contar con un cero absoluto
El cero absoluto indica ausencia de la característica
Permite cálculo de proporciones
Permite realizar cualquier operación aritmética
Ejemplos: ingreso, altura, peso, número de habitantes, todas las variables
que consideren tiempo y distancia
Tipología según el nivel de medición
Variables Cuantitativas o métricas:
Variables discretas:
Entre dos valores dados, no existen valores intermedios
Ejemplos: número de hijos, número de elementos vendidos, número de
beneficiarios de un plan
Variables continuas:
Entre dos valores dados, existen valores intermedios
Ejemplos: edad, peso, altura, ingreso
HERRAMIENTAS BÁSICAS EN LA ESTADÍSTICA DESCRIPTIVA
La organización de los datos
Distribución de frecuencias
Distribución porcentual
Distribución acumulada
Proporciones
Razones
Representaciones gráficas
HERRAMIENTAS BÁSICAS EN LA ESTADÍSTICA DESCRIPTIVA
Cúantos jóvenes de 15 a 29 años del total del país están en
hogares en situación de pobreza?
Indicador: hogares por debajo de la línea de Pobreza
Fuente: EPH
Variable :
lphogD85 (hogar bajo la línea de pobreza)
Valores :
1 SI (hogar pobre)
2 NO (hogar no pobre)
Tabla de distribución de frecuencias
Resume en una tabla la información de la muestra
Frecuencias
Estadísticos
LPHOGD85
N
Válidos
Perdid
os
23523661
0
N número de casos
suma de las respectivas frecuencias de cada
dato (N=ΣXi).
frecuencia total
Tabla de distribución de frecuencias
Variable
LPHOGD85
Válidos
1
2
Total
Frecuencia
Porcentaje
7389959
16133702
23523661
31,4
68,6
100,0
Valores /
Categorías
Porcentaje
válido
31,4
68,6
100,0
Porcentaje
acumulado
31,4
100,0
frecuencias absolutas :(fi.)
representan el número de veces
que aparece cada valor de la
variable
Tabla de distribución de frecuencias
LPHOGD85
Válidos
1
2
Total
Frecuencia
Porcentaje
7389959
16133702
23523661
31,4
68,6
100,0
Porcentaje
válido
31,4
68,6
100,0
Porcentaje
acumulado
31,4
100,0
frecuencias relativas: (fr)
Representan la relación entre la
frecuencia absoluta y el tamaño de la
muestra. (porcentajes y proporciones)
Tabla de distribución de frecuencias
LPHOGD85
Válidos
1
2
Total
Frecuencia
Porcentaje
7389959
16133702
23523661
31,4
68,6
100,0
Porcentaje
válido
31,4
68,6
100,0
Porcentaje
acumulado
31,4
100,0
frecuencia relativa acumulada:
relación entre la frecuencia absoluta
acumulada dividido por el tamaño de la
muestra (N).
Otras medidas resumen
LPHOGD85
Válidos
1
2
Total
Porcentaje
válido
Frecuencia
Porcentaje
7389959
16133702
23523661
31,4
68,6
100,0
Proporciones: es el
cociente entre la
frecuencia absoluta del
valor y el N
31,4
68,6
100,0
Porcentaje
acumulado
31,4
100,0
Razones: es el cociente
entre la frecuencia
absoluta de un valor y la
frecuencia absoluta del
otro
fi Valor (1)
7389959
fi Valor 2
16133702
N
23523661
fi Valor 1
7389959
La proporción de jóvenes
póbres es de 0,31
Hay 1 jóven pobre por
cada 2 jóvenes no pobres
2,18
Diagrama de barras: Se utilizan rectángulos separados, que tienen
como base a cada uno de los datos y como altura la frecuencia absoluta
o relativa de ese dato.
LPHOGD85
LPHOGD85
20000000
31
1
fi
10000000
LPHOGD85
Frecuencia
GRÁFICOS ESTADÍSTICOS
0
1
2
2
69
0
20
40
LPHOGD85
Porcentaje
Casos ponderados por PONDIH
Casos ponderados por PONDIH
60
80
fr
GRÁFICOS ESTADÍSTICOS
LPHOGD85
Gráfica de Torta: Se forma al dividir
un círculo en sectores de manera que:
a) cada sector equivale al porcentaje
correspondiente al dato o grupo que
representa; y b) la unión de los
sectores forma el círculo y la suma de
sus porcentajes es 100.
1
2
Casos ponderados por PONDIH
HERRAMIENTAS BÁSICAS EN LA ESTADÍSTICA DESCRIPTIVA
INFORMACIÓN RESUMEN DE VARIABLES
ALEATORIAS
Formas más compactas para caracterizar las
distribuciones
TENDENCIA CENTRAL
HETEROGENEIDAD O DESVÍO
FORMA DE LA DISTRIBUCIÓN
Medidas de tendencia central
Refiere a los valores de las variables que suelen estar en el centro de la
distribución.
Posición donde se centra una distribución en una escala de valores
Moda
Mediana
Media
Medidas de tendencia central
Moda
Valor que presenta la mayor concentración de frecuencia PEA
5000000
4000000
PEA
3000000
Activo
Inactivo
Total
Frequency
4699861
1207374
5907235
Percent
79,6
20,4
100,0
Statistics
Cumulativ
e Percent
79,6
100,0
2000000
Frequency
Valid
Valid
Percent
79,6
20,4
100,0
1000000
0
Activo
PEA
N
Mode
Valid
Missing
5907235
0
1,00
Inac tivo
PEA
Cases weighted by PONDERA
TEMPORARY .
SELECT IF (h12>25 AND h12<45) .
FREQUENCIES
VARIABLES=cdea
/STATISTICS=MODE
/BARCHART FREQ
/ORDER ANALYSIS .
Variable nominal
Unimodal
Bimodal
Medidas de tendencia central
Mediana
Es el punto o valor numérico que deja por debajo (y por
encima) a la mitad de las puntuaciones de la de la
distribución
La mediana se calcula en primer lugar ordenando los datos y
luego:
- Si el número de datos es impar, la mediana es el dato central
- Si el número de datos es par, la mediana se considera como el promedio
de los dos datos centrales
Medidas de tendencia central
Mediana
800
800
1000
960
1000
150
1000
550
550
250
150
500
900
300
330
500
300
350
700
1800
20
40
72
90
100
120
120
120
150
150
150
150
150
160
160
200
200
200
220
250
150
450
800
800
600
700
20
300
400
400
250
250
280
280
300
300
300
300
300
300
900
700
980
800
1500
1100
750
640
360
72
300
300
300
320
330
350
360
380
400
400
680
760
800
500
500
400
600
120
250
160
400
400
400
450
450
480
480
500
500
500
40
200
300
280
960
1150
300
100
600
90
510
2440
1200
320
650
600
300
650
1000
150
500
500
500
510
540
550
550
550
570
580
600
600
600
600
600
640
650
650
680
700
120
120
160
540
570
300
550
150
400
220
700
700
750
760
800
800
800
800
800
800
480
480
300
280
500
600
500
800
380
450
800
850
900
900
900
960
960
980
1000
1000
850
250
200
900
580
1200
400
300
200
1000
1000
1000
1000
1100
1150
1200
1200
1500
1800
2440
Medidas de tendencia central
Mediana
edad
Estadísticos
edad
N
Válidos
Perdidos
6197556
0
Media
21,89
Mediana
22,00
Moda
23
Válidos
Frecuencia
439878
427380
412200
419529
415349
Porcentaje
7,1
6,9
6,7
6,8
6,7
Porcentaje
válido
7,1
6,9
6,7
6,8
6,7
Porcentaje
acumulado
7,1
14,0
20,6
27,4
34,1
20
21
22
23
24
399023
428206
6,4
6,9
6,4
6,9
40,6
47,5
378808
461983
6,1
7,5
6,1
7,5
53,6
61,0
408871
6,6
6,6
67,6
25
26
415516
430316
407540
385408
367549
6,7
6,9
6,6
6,2
5,9
6,7
6,9
6,6
6,2
5,9
74,3
81,3
87,9
94,1
100,0
6197556
100,0
100,0
15
16
17
18
19
27
28
29
Total
VARIABLE CUANTITATIVA
Medidas de tendencia central
Media
La MEDIA ARITMÉTICA O PROMEDIO es una medida estadística de
tendencia central. De una cantidad finita de números, es igual a la suma de
todos ellos dividida entre el número de sumandos.
También la media aritmética puede ser denominada como centro de
gravedad de una distribución, el cual no es necesariamente la mitad.
Propiedades de la media
La media es sensible al valor exacto de todos los datos en la
distribución
La suma de las desviaciones con respecto a la media es cero
La media es muy sensible a los datos extremos
NOTA:
Dado que cualquier valor extremo distorsiona la media aritmética, no es una
buena medida de tendencia central en esas circunstancias. Por ello en
presencia de valores extremos, es mas apropiado usar la mediana como
medida de tendencia central. La mediana no se afecta con la presencia de
valores extremos.
Medidas de posición no centrales
Percentiles/cuartiles/deciles/n tiles
800
800
1000
960
1000
150
1000
550
550
250
150
500
900
300
330
500
300
350
700
1800
150
450
800
800
600
700
20
300
400
400
900
700
980
800
1500
1100
750
640
360
72
680
760
800
500
500
400
600
120
250
160
40
200
300
280
960
1150
300
100
600
90
510
2440
1200
320
650
600
300
650
1000
150
120
120
160
540
570
300
550
150
400
220
480
480
300
280
500
600
500
800
380
450
850
250
200
900
580
1200
400
300
200
1000
Medidas de posición no centrales
Percentiles/cuartiles/deciles/n tiles
Percentil 1
1° Cuartil
20
40
72
90
100
120
120
120
150
150
1° decil
150
150
150
160
160
200
200
200
220
250
250
250
280
280
300
300
300
300
300
300
3° Cuartil
300
300
300
320
330
350
360
380
400
400
400
400
400
450
450
480
480
500
500
500
Percentil 50
2° Cuartil
5° decil
500
500
500
510
540
550
550
550
570
580
600
600
600
600
600
640
650
650
680
700
700
700
750
760
800
800
800
800
800
800
800
850
900
900
900
960
960
980
1000
1000
1000
1000
1000
1100
1150
1200
1200
1500
1800
2440
Percentil 99
Decil 10
Medidas de posición. Ejemplo. Ingreso
horario
Medidas de Dispersión
•
•
Las distribuciones del ingreso de dos provincias con el mismo ingreso
medio por hogar son muy distintas si una de ellas tiene extremos de
pobreza y de riqueza, mientras que la otra tiene poca variación de
ingresos entre familias.
Estamos interesados en la dispersión o variabilidad de los ingresos,
.
además de estarlo en sus centros
Distribución con baja dispersión
Distribución con alta dispersión
Medidas de Dispersión
Los datos también se deben caracterizar en términos de
su dispersión o variabilidad.
Las medidas de variabilidad cuantifican la extensión de la
dispersión
La variabilidad tiene que ver con qué tan alejados están
los datos de la media.
Medidas de dispersión / desviación
respecto a la media
Miden el grado de cercanía o lejanía de las puntuaciones respecto a la media
Permiten describir el grado de homogeneidad / heterogeneidad de la
distribución de una variable
Máximo y Mínimo
Rango
Amplitud Intercuartílica
Varianza
Desvío típico
Coeficiente de variabilidad
Medidas de dispersión / desviación
respecto a la media
Mínimo Máximo rango o recorrido y amplitud intercuartílica
Mínimo
20
40
72
90
100
120
120
120
150
150
150
150
150
160
160
200
200
200
220
250
250
250
280
280
300
300
300
300
300
300
300
300
300
320
330
350
360
380
400
400
400
400
400
450
450
480
480
500
500
500
500
500
500
510
540
550
550
550
570
580
600
600
600
600
600
640
650
650
680
700
700
700
750
760
800
800
800
800
800
800
800
850
900
900
900
960
960
980
1000
1000
rango o recorrido
Amplitud intercuartílica
Distancia entre el máximo valor y el
mínimo valor que puede asumir la
variable
Distancia entre el valor del primer
cuartil y el valor del tercero
Máximo - Mínimo
3°cuartil - 1°cuartil
2240
- 20
=
2220
800
-
300
=
1000
1000
1000
1100
1150
1200
1200
1500
1800
2440
Máximo
500
Medidas de dispersión / desviación
respecto a la media
Varianza y desvío típico
La desviación estándar (o desviación típica) y la varianza son medidas de
dispersión para variables de razón y de intervalo. Son medidas que informan
acerca del promedio de distancias que tienen los datos respecto de su media
aritmética, expresada en las mismas unidades de medida que la variable de
origen. Ambas medidas están estrechamente relacionadas ya que se define
una a partir de la otra.
20
40
72
90
100
120
120
120
150
150
150
150
150
160
160
(Xi – u)2
200
200
200
220
250
560
500
500
400
500
500
400
600
600
33512
620,5926
650
680
760
800
800
850
1000
1000
1000
900
900
900
960
960
980
1000
1000
1100
1150
1200
1200
1500
1800
2440
N: 54
Medidas de dispersión / desviación
respecto a la media
Varianza y desvío típico
Expresión de la varianza:
Expresión de la desviación
estándar:
(Xi – u)2
(Xi – u)2
(Xi – u)2
X
(Xi – u)2
(Xi – u)2
N: 54
Medidas de dispersión / desviación
respecto a la media
Informe
P21 Monto de ingres o de la ocupación principal perc ibido en ese mes
CH04 Sex o
1 Varón
2 Mujer
Total
Media
628,94
441,68
548,64
N
8931
6705
15636
Des v . típ.
723,011
477,588
636,363
Varianza
522745,3
228089,9
404957,8
Mínimo
2
2
2
Máx imo
20000
6600
20000
Mediana
450,00
300,00
400,00
Curtos is
98,879
25,366
100,206
Asimetría
6,526
3,743
6,301
En dos poblaciones con distinta media qué grupo presenta
mayor heterogeneidad ???????
Medidas de dispersión / desviación respecto
a la media
Coeficiente de variabilidad
Es de particular utilidad comparar la variabilidad de 2 o mas conjuntos de
datos con medias diferentes.
El coeficiente de variabilidad es una medida relativa que se expresa en
porcentaje en vez de en términos de las unidades de los datos.
Es una forma de estandarizar el desvío
Indica la relación entre el desvío y la media
Medidas de dispersión / desviación
respecto a la media
Coeficiente de variabilidad
El coeficiente de variación mide la dispersión con relación a la media y se
calcula dividiendo la desviación estándar por la media, multiplicando este
resultado por 100.
Si se multiplica por 100 se obtiene el grado de variabilidad
respecto de la media
S
X
4,3 / 21,9= 0,19
Estadísticos
edad
N
Error típ. de la media
Desv. típ.
Varianza
Rango
Mínimo
Máximo
Válidos
Perdidos
6197556
0
,002
4,297
18,465
14
15
29
Estadísticos
edad
N
Válidos
Perdidos
6197556
0
Media
21,89
Mediana
22,00
Moda
23
Existe una variabillidad de + 19% respecto de la media
Medidas de dispersión / desviación
respecto a la media
Informe
P21 Monto de ingres o de la ocupación principal perc ibido en ese mes
CH04 Sex o
1 Varón
2 Mujer
Total
Media
628,94
441,68
548,64
N
8931
6705
15636
Des v . típ.
723,011
477,588
636,363
Varianza
522745,3
228089,9
404957,8
Mínimo
2
2
2
Máx imo
20000
6600
20000
Mediana
450,00
300,00
400,00
Curtos is
98,879
25,366
100,206
Asimetría
6,526
3,743
6,301
CV= S/X
V= 723 / 688,9
1,05
M= 477,6 / 441,7
1,08
La Forma de la distribución
Una tercera característica de un conjunto de datos es la forma,
es decir, la manera en que están distribuidas las observaciones.
La distribución de los datos puede ser o no simétrica. Si la
distribución de los datos no es simétrica, se llama asimétrica o
sesgada.
Para describir la forma se puede comparar la media y la
mediana.
También puede observarse a través del coeficiente de asimetría
Mide el grado de Simetría / Asimetría de la distribución
La Forma de la distribución
.
Media
Mdn
Si es + indicará muchos casos en los valores más bajos y pocos
en los más altos positivamente asimétrica .
Media > Mediana: Positivos o con sesgamiento a la derecha
La Forma de la distribución
Mdn
Media
Si es - indicará muchos casos en los valores más altos y pocos en los
más bajos negativamente asimétrica.
Media < Mediana: Negativos o con sesgaminto a la izquierda.
La Forma de la distribución
Mdn = Media
En la distribución Normal es 0 Simétrica
Media = Mediana: Simétricos o con sesgamiento cero.
La Forma de la distribución
Otra manera de apreciar la forma de una distribución es observar el
nivel de apilamiento o llanura de la curva
leptocúrtica
(menor dispersión)
Platicúrtica
(mayor dispersión)
mesocúrtica
.
El coeficiente de kurtosis mide el grado de apuntamiento de la
curva
La Forma de la distribución
El coeficiente de kurtosis
Mide el grado de apuntamiento de la curva
En la distribución Normal es 0 mesocúrtica
Si es + indicará un grado de apilamiento mayor que en la normal leptocúrtica
(menor dispersión)
Si es – indicará que es más aplanada que la normal platicúrtica (mayor
dispersión)
HERRAMIENTAS BÁSICAS EN LA ESTADÍSTICA DESCRIPTIVA
UN TIPO PARTICULAR DE
DISTRIBUCIÓN PARA VARIABLES
ALEATORIAS MÉTRICAS
LA CURVA NORMAL
SUS PROPIEDADES
ESTADÍSTICA DESCRIPTIVA – LA
DISTRIBUCIÓN NORMAL
Es un tipo particular de distribución de frecuencias.
En los casos en que los valores que asume una variable depende de múltiples factores
sin que ninguno de ellos sesgue la distribución, es de esperar que los valores se
distribuyan homogéneamente alrededor de la media la mediana y la moda.
Estas variables aleatorias presentan una distribución que es aproximadamente
simétrica y cuya gráfica tiene forma de campana (mesocúrtica).
Esta distribución es utilizada en aplicaciones estadísticas como modelo o parámetro de
comparación dada la frecuencia o normalidad con la que ciertos fenómenos tienden a
parecerse a esta distribución.
ESTADÍSTICA DESCRIPTIVA – LA DISTRIBUCIÓN NORMAL
La distribución normal queda definida por dos parámetros:
LA MEDIA Y EL DESVIACIÓN ESTÁNDAR
ESTADÍSTICA DESCRIPTIVA – LA DISTRIBUCIÓN NORMAL
El área total bajo la curva es igual a 100 % o 1.
El área bajo la curva comprendido entre los valores situados a una desviaciones estándar
de la media es aproximadamente igual al 68%.
El área bajo la curva comprendido entre los valores situados a dos desviaciones estándar
de la media es aproximadamente igual al 95%.
σ= -1
σ =-2
σ =1
σ =2
σ = -3
2,14
2,14
σ =3
ESTADÍSTICA DESCRIPTIVA – LA DISTRIBUCIÓN NORMAL
σ= -1
σ =-2
σ = -3
σ =1
σ =2
σ =3
Se puede determinar el área
entre dos ordenadas cuales
quiera a través del calculo de
las unidades de desviación en
que se encuentra una porción
de
la
población
y
su
correspondencia en la tabla de
áreas bajo la curva normal
Puntuaciones Z
Refiere al número de unidades de desviación
típica que un individuo o caso queda por
encima2,14
o por debajo de la media de su grupo
Z=X–X
S
ESTADÍSTICA DESCRIPTIVA – LA DISTRIBUCIÓN NORMAL
Se requiere conocer la porción
de población que gana hasta
$143
S= 12
Z=X–X
2,14
X= 143
S
a) Cálculo de Z
Z= (143 – 168) / 12
Z= -2,08
168
b) Correspondencia en la tabla
De áreas bajo la curva normal
0,4812
48%
2,14
c) 0,5 – 0,4812 = 0,0188
aprox 1,9%
Análisis de tablas de contingencia
TIPO DE ANÁLISIS QUE PERMITE UNA TABLA DE
CONTINGENCIA
ANÁLISIS DE PERFILES O CARACTERÍSTICAS POBLACIONALES
ANÁLISIS DESCRIPTIVO DE GRUPOS O SEGMENTOS DE POBLACIÓN
Componentes Tabla de una contingencia
DISTRIBUCIONES MARGINALES
DISTRIBUCIONES CONDICIONALES
UN TOTAL POBLACIONAL O MUESTRAL
Pobres
Aprobaron
No
aprobaron
Total
No pobres
Celdas condicionales
Total
40
Marginales
(de fila)
60
70
Marginales
(de columna)
30
100
N: total poblacional o
muestral
Análisis bivariados Tablas de
contingencia
Función descriptiva
Rendimiento
educativo/cond.
Socioec.
Pobres
No pobres
Total
Aprobaron
15
25
40
% fila
%Col
37,5
21,4
62,5
83,3
100
40
5
60
% del total
No aprobaron
% fila
%Col
% del total
Total
% fila
%Col
% del total
55
91,6
78,6
15
8,4
16,7
100
60
70
30
100
70
30
100
100
100
100
Análisis de tablas de contingencia
TIPO DE ANÁLISIS QUE PERMITE UNA TABLA DE
CONTINGENCIA
ANÁLISIS DE ASOCIACIÓN
Análisis bivariados Tablas de
contingencia
hipótesis
Existe una relación entre los logros educativos de los alumnos y su contexto
sociofamiliar.
Análisis bivariados Tablas de
contingencia
Hipótesis
Existe una relación entre los logros educativos de los alumnos y su
contexto sociofamiliar.
aprobó
Variables:
categorías
Si
no
Situación de
pobreza
v. Nominal dicotómica
Si
no
v. Nominal dicotómica
Análisis bivariados Tablas de
contingencia
Los niños que no hayan aprobado el exámen se
encontrarán mayoritariamente en situación de pobreza
H1:
No Pobres
Pobres
Aprobaron
XX
x
No
aprobaron
Total
XX
XXXXXXXX
Total
Hipótesis rinconal
Análisis bivariados Tablas de
contingencia
Los niños que no hayan aprobado el exámen se
encontrarán mayoritariamente en situación de pobreza
Mientras que los que lo han aprobado se encontrarán en
hogares por encima de la línea de pobreza
H2:
No Pobres
Pobres
Aprobaron
XXXXXXXX XX
No
Aprobaron
XX
Total
Total
XXXXXXXX
Hipótesis
Diagonal
Análisis bivariados Tablas de
contingencia
La idea de asociación / relación entre variables
se define por lo general en oposición al de
independencia
estadística
y
se
evalúa
examinando el sentido y la fuerza de las
regularidades empíricas
Análisis bivariados Tablas de
contingencia
Pobres
No pobres
Total
Aprobaron
25
25
50
No aprobaron
25
Total
50
XXX
XXX
25
50
XXX
XXX
50
100
Si conozco la distribución esperada bajo el supuesto de independencia estadística
lo puedo contrastar con la distribución real y ver si las diferencias son
estadísticamente significativas
Análisis bivariados Tablas de
contingencia
“Las variables X e Y (situación de pobreza y aprobación del exámen ) son
estadísticamente independientes si el porcentaje o número de de observaciones
que poseen el atributo Y1 ( no aprobó) es el mismo entre X1 (pobres) que entre
X2 (no pobres)”.
Pobres
No pobres
Total
Aprobaron
(Y1)
(40 * 70) / 100 (40 * 30) / 100 40
28
12
No aprobaron
(Y2)
(60 * 70) / 100 (60 * 30) / 100 60
42
18
Total
70
30
100
Análisis bivariados Tablas de
contingencia
“Las variables X e Y (situación de pobreza y aprobación del exámen ) son
estadísticamente independientes si el porcentaje o número de de observaciones
que poseen el atributo Y1 ( no aprobó) es el mismo entre X1 (pobres) que entre
X2 (no pobres)”.
Pobres
No pobres
Total
Aprobaron
(Y1)
28
15
12
25
40
No aprobaron
(Y2)
42
55
18
5
60
Total
70
30
100
Análisis bivariados Tablas de
contingencia
La relación encontrada ¿es estadísticamente significativa o se
debe al azar?
TEST DE HIPÓTESIS
Si existe ¿cúal es la fuerza y el sentido de dicha relación?
COEFICIENTES DE ASOCIACIÓN
Si existe la relación ¿cúal es la fuerza y el sentido de dicha
relación?
Para medir el grado de dependencia o asociación entre las variables X e Y se
utillizan medidas de asociación
Existen diferentes medidas según las características de la tabla, el tipo de hipótesis y las
características de las variables
Medidas de asociación para dos variables de
escala nominal
Coeficiente phi
Medida de asociación para dos variables
dicotómicas
Basada en el coeficiente ji cuadrado
Asume valores entre 0 y 1
Coeficientes Lambdas
Basada en reducción del error
Interpretación distinta de los anteriores
Asume valores entre 0 y 1
Proporción en que se reduce el error al
predecir los valores de una variable a partir de
los de la otra
Coeficiente V de Cramer
Extensión de PHI
Variables nominales de más de 2 categ
Asume valores entre 0 y 1
Coeficiente Kappa
Compara los valores de dos variables
nominales tales que sus valores pueden ser
los mismos
Tablas cuadradas
Mide el grado de acuerdo entre las dos
variables
Asume valores entre -1y 1 Valores próximos
a 1 : total acuerdo. Valores próximos a -1 :
total desacuerdo
Medidas de asociación
Medidas de asociación para dos variables de escala
ordinal
Coeficiente Gamma
Medida de asociación para dos variables cualitativas de escala ordinal
Asume valores entre -1 y 1
Valores próximos a 1 : fuerte asociación positiva: a medida que aumentan los valores de una
variable aumentan los de la otra
Valores próximos a -1 : fuerte asociación negativa: a medida que aumentan los valores de una
variable disminuyen los de la otra
0 indica que no hay relación ni positiva ni negativa aunque puede haber otro tipo de relación.
Puede alcanzar valores extremos cuando la asociación no es total
Medidas de asociación
Medidas de asociación para dos variables de escala
ordinal
Coeficiente Tau-b de Kendall
Extensión del GammaAsume valores entre -1 y 1
Alcanza valores extremos (-1 y 1) cuando la asociación es total
Alcanza valores extremos (-1 y 1) sólo cuando las dos variables tienen el mismo número de
categorías (la tabla es cuadrada)
Coeficiente Tau-c de Kendall
Corrección del tau-b para variables con distinto tipo de categorías
Puede subestimar el grado de asociación.
MEDIDAS DE ASOCIACIÓN
Medida de
asociación
Tabla
Escala de
Medida
Observaciones
Phi
2x2
Nominales
V de Cramer
fxc
Nominales
Lambda
fxc
Nominales
Toma valores entre 0 y 1.
Disponen versión asimétrica.
Es fácil de interpretar en términos de la
proporción que se reduce le error de
predicción del valor de una variable a partir
de los valores de la otra (pero puede tomar
valores muy bajos en tablas con asociación).
Gamma
fxc
Ordinales
Tau b / c de
fxc
Ordinales
Toma valores entre -1 y 1, pasando por 0.
Gamma es más fácil de interpretar. Asume
relaciones curvilineales.
Tau b sólo alcanza valores extremos cuando
hay asociación total y f y c son iguales.
Tau c tiende a subestimar la relación.
Kendall
Medidas basadas en chi cuadrado.
Toman valores comprendidos entre 0 y 1.
Evalúa hipótesis lineales (diagonal principal).
Son útiles para estimar grados de asociación
entre pares de variables, sobre un mismo
conjunto de individuos para n filas y columnas.