Transcript Tema 3

Tema 3: Caracterización de grupos
1. Introducción.
2. Tendencia central.
2.1. Concepto.
2.2. Moda, mediana y media aritmética. Definición, cálculo y principales características.
2.3. Otras medias.
2.4. Criterios de uso.
3. Variabilidad.
3.1. Concepto.
3.2. Amplitud, Varianza y Desviación Típica (muestral y poblacional).
3.3. Otras medidas: Amplitud intercuartílica y Coeficiente de Variación.
3.4. Criterios de uso.
4. Asimetría: Introducción y principales medidas.
5. Curtosis: Introducción y medidas
6. Representación gráfica: diagramas de caja y barras de error.
2. Tendencia central
Nos indican un valor representativo del grueso de los datos, de la
referencia de los mismos –un valor central.
Ejemplo: con las calificaciones 4,7,5,6,5,4,5,5,5,6,5,4,4,
es claro que (a ojo) están en torno a cinco, que podría ser tomado
como índice de tendencia central.
Veremos primero los 3 índices de tendencia central más comunes (moda, media y
mediana). Después veremos otros índices que han sido propuestos.
Media aritmética
Fórmula:
X 
X
i
n
Simplemente se trata de sumar todos los valores y dicha cantidad se
divide por el número de valores que tengamos.
Si tenemos los datos: 4,6,5,3,7
La media será (4+6+5+3+7)/5=4
Nota: se pueden emplear medias aritméticas ponderadas. Pensemos que
hay 2 datos, uno (5) pesa 0’6 y el otro (6) pesa 0’4. Entonces, la media
será (5*0’6+6*0’4)/(0’6+0’4)=5’4
Propiedades de la Media aritmética
-La suma de diferencias (de todos los valores) respecto a la media es
siempre 0
-Si sumamos una constante a cada uno de los valores, la nueva media
aritmética resultante será la original más la constante.
-Si multiplicamos cada uno de los valores por una constante, la nueva
media aritmética será la original por la constante.
-Minimiza la suma de diferencias en términos cuadráticos.
Mediana
La Mediana (Mdn o Md) se define como el valor que tiene la
propiedad de que el número de observaciones menores que él es
igual al número de observaciones mayores que él.
Por ejemplo, en la secuencia (ordenada) 3,4,5,6,7,8,9
la mediana será 6
En la secuencia (ordenada) 2,3,4,6,7,9
la mediana será 5 (la media aritmética entre los dos valores centrales;
observad que n es par; en el ejemplo de arriba era impar)
Propiedades de la mediana
-No utiliza todos los elementos
-Se puede calcular con datos ordinales
-Se ve menos afectada por datos atípicos que la media
aritmética.
-Minimiza la suma de diferencias en valor absoluto (recordad
que la media aritmética minimizaba la suma de diferencias en
términos cuadráticos)
Ejemplo uso de la mediana
Los 9 empleados de una nueva empresa viven al lado
de la Nacional 340 en diferentes kilómetros:
Núm. Emp.
3
Km 1
2
4
1
5 6
2
1
26
Dado que todos viajan en coche, y sabiendo que quieres minimizar el coste en
gasolina, ¿en qué lugar pondrías la empresa para minimizar tal coste?
La moda
Se define como Moda (Mo) aquel valor de la variable al que corresponde
mayor frecuencia.
En el conjunto de datos: 4,5,6,6,3,6,4,5 la Mo=6
Propiedades:
-No es necesariamente única (puede haber varias modas)
-Se puede calcular con datos en escala nominal
-En su cálculo no intervienen todos los elementos
¿Cuál elegir?
Moda
Mediana
Media
Resistencia y robustez
Estadísticos resistentes: Son aquellos que no se ven
influidos (o solo ligeramente) por pequeños cambios en los
datos.
Evidentemente, la media es un estadístico muy poco
resistente a cambios en los datos, dado que se ve influida
por todos y cada uno de ellos.
La mediana, en cambio, es un estadístico altamente
resistente.
Estadísticos (Estimadores) robustos (ESTADÍSTICA
INFERENCIAL): Son aquellos estadísticos (estimadores) que
funcionan bien para varios tipos distintos de distribuciones
teóricas, aunque pueden no ser el mejor estimador para
ningún tipo concreto de distribución. Es decir, son el “mejor
compromiso”.
La media no es un estimador robusto.
La mediana es un estimador más robusto que la
media, si bien hay otros estimadores más
robustos que veremos en el punto siguiente del
temario.
Medidas robustas de tendencia central
1. Medias Recortadas
Consiste en calcular la media aritmética sobre un subconjunto central del
conjunto de datos, no considerándose una determinada proporción p por cada
extremo. (p se expresa normalmente como porcentaje).
Por ejemplo, una media recortada al 40% en una secuencia de 10 datos implica
no tener en cuenta ni los 4 valores menores ni los 4 valores mayores.
Observar que la media recortada al 0% es la media aritmética.
A la media recortada al 25% se la denomina centrimedia.
Medidas robustas de tendencia central
1. Medias Recortadas (cont)
Calcula la media recortada al 5% de los siguientes datos:
3, 4, 4, 5, 5, 6, 7, 8, 9, 11
El valor debe ser 6.11
Calcula la media recortada al 10% de los datos anteriores (da 6)
Calcula la centrimedia (da 5.8)
Medidas robustas de tendencia central
2. Media Winsorizada
Es análogo a las medias recortadas excepto en que las puntuaciones
eliminadas, ya no lo son sino que se sustituyen por los valores menor y mayor
que quedan para el cómputo de la media winsorizada.
Así, en la media recortada a nivel 2 implicaría eliminar las dos puntuaciones
mayores y las 2 menores:
3, 4, 4, 5, 5, 6, 7, 8, 9, 11
Y quedan los datos: 4, 5, 5, 6, 7, 8 y se calcula la media de los mismos
En la media winsorizada, los datos 3 y 4 (los dos menores) y el 9 y 11 (los dos
mayores) se sustituyen por 4 y 8 respectivamente. Es decir,
4, 4, 4, 5, 5, 6, 7, 8, 8, 8 y se calcula la media de los mismos, que será la media
winsorizada a nivel 2 (debe de dar 5.9)
Medidas robustas de tendencia central
3. Otros tipos de media en la que se recortan datos
En muchas ocasiones lo que se hace es emplear un valor mínimo y uno máximo
más allá del cual se eliminan los datos que sobrepasen tales valores.
Por ejemplo, en experimentos de tiempo de reacción para discriminar
palabras/pseudopalabras se pueden eliminar datos menores de 200 ms y
mayores de 1500 ms. (Menos de 200 ms es demasiado rápido; más de 1500 ms
es demasiado lento.)
De esta manera, si todos los datos están en el rango 200-1500 ms no se elimina
ningún dato
Medidas robustas de tendencia central
4. Trimedia
Es un índice de tendencia central que consiste en calcular una media aritmética
ponderada de tres medidas, la Mediana (con peso doble) y el primer y tercer
cuartil.
Pensemos que en un conjunto de datos, el primer cuartil es 51, la mediana es
55 y el tercer cuartil es 63. La trimedia es:
Medidas robustas de tendencia central
5. Otras medidas robustas
El estimador-M de Huber, el estimador biponderado de Tukey, el estimador Mredescendente de Hampel y el estimador en onda de Andrew. Estos estimadores se
diferencian entre sí por el tipo de ponderación aplicada sobre los datos.
Por ejemplo, en el Estimador-M de Huber (Estimador M de posición): Las
puntuaciones típicas que sean menores que una constante, reciben un peso de 1. Los
casos que tienen los mayores valores absolutos tienen pesos tanto más pequeños
cuanto mayor es su distancia respecto a cero. La constante es 1.339.
Cálculo: lo da el SPSS.
3. Variabilidad
En el punto anterior vimos las medidas de tendencia central
(media, mediana, etc). Claramente, para saber cuán
representativo es el valor de tal medida de tendencia
central es necesario tener una medida de variabilidad.
Por ejemplo, alguien puede tener una media de 5 con los
siguientes datos (5, 4, 6, 5, 5) y otro tener una media de 5
con los datos (10, 0, 5, 9, 1). Evidentemente el primer sujeto
es mucho más consistente, muestra menos variabilidad.
¿Cómo podemos medir la variabilidad?
Una primera estrategia sería emplear la fórmula
n
 X
i 1
i
X
n
El problema es que siempre vale cero....
 X
i 1
i
X0
Una segunda estrategia es emplear valores absolutos
n
X
i 1
i
X
Esta es la llamada “Desviación Media”, cuyo problema es que lo
problemático del uso de valores absolutos.
¿qué nos queda, pues? Emplear la suma de diferencias al cuadrado....Es el
primer paso para la varianza
Varianza
Fórmula
n
s2 
 X
i 1
i
X
2
n
Como veremos en el segundo semestre (Estadística inferencial), la varianza es
un estimador sesgado de la varianza poblacional; por ello se prefiere el uso de
la “cuasivarianza” que es igual que la varianza excepto en que se divide por n1; la cuasivarianza es un estimador insesgado de la varianza poblacional¨:
n
s2 
 X
i 1
i
X
n 1
2
Desviación típica y cuasidesviación típica
Fórmulas
n
s
 X
i 1
i
X
n
2
n
s
 X
i 1
i
X
2
n 1
Una ventaja obvia de la desviación típica sobre la varianza es que la desviación
típica viene dada en las mismas unidades de medida que los datos originales
(en la varianza las unidades están al cuadrado).
Por eso, en estadística descriptiva se suele dar la media acompañada de la
(cuasi)desv.típica, más que con la (cuasi)varianza.
NOTA: El SPSS cuando indica varianzas o desviaciones típicas, en realidad
calcula cuasivarianzas y cuasidesviaciones típicas
Algunas propiedades de la varianza y
desviación típica
1. La varianza y la desv. Típica son valores esencialmente
positivos.
(Observad que las diferencias sobre la media están al
cuadrado)
2. Ni la varianza ni la desv.típica se alteran cuando a los
datos se les añade una constante a.
Yi  a  X i
Entonces, sabemos que
Y a X
Yi  a  X i
n
s y2 
 Y  Y 
i 1
i
n
Y a X
Entonces, sabemos que
2
n

  (a  X )  (a  X ) 
i 1
i
n
2
n

 X
i 1
i
 X )
n
Claro está que lo mismo se aplica a la desv.típica (y a la cuasivarianza y la
cuasidesv.típica
2
 sx2
3. Si los datos se multiplican por una constante a cualquiera,
la desv.típica queda multiplicada por el valor absoluto de
dicha constante, y la varianza por el cuadrado de dicha
constante
Y  aX
Yi  aX i
n
s y2 
 Y  Y 
i 1
i
n
2
n

  aX
i 1
i  aX 
n
s y  a sx
2
n

a2   X i  X )
i 1
n
2
 a 2 sx2
Otras medidas de variabilidad
1. Amplitud total (AT)
Es la diferencia entre los valores extremos
AT  X max  X min
Su ventaja es la sencillez de cálculo; el problema es que es únicamente
sensible a los valores extremos (e insensible a los intermedios).
2. Desviación media (DM)
n
DM 
X
i 1
i
X
n
El problema del empleo de la DM es la dificultad que tiene trabajar con valores
absolutos. La DM es poco frecuente encontrarla en la práctica.
Otras medidas de variabilidad
3. Amplitud semi-intercuartil (Q)
Está basada en el primer y tercer cuartil, lo que la hace un
estadístico resistente
Q
Q3  Q1
2
Se emplea relativamente en alguna áreas de la psicología; se suele
emplear cuando la mediana sea el índice de tendencia central.
4. Coeficiente de variación (CV)
Observa: Escala de razón…
Indica el número de veces que la desviación ontiene a la media: cuanto mayor es el CV
CV mayor es la variabilidad y menor la representatividad de la media. típica c
Al no tener unidades permite la comparación entre variables diferentes.
Medidas robustas de variabilidad
1. La MEDA (Mediana de las diferencias absolutas frente a la mediana)
MEDA  mediana X i  Md
Ejemplo de cálculo: 3,4,4,5,5,6,7,8,9,11 (Md=5.5)
MEDA=1.5
Es la Mediana de 0’5, 0’5, 0’5, 1’5, 1’5, 1’5, 2’5, 2’5, 3’5, 5’5
Medidas robustas de variabilidad
2. La desviación pseudotípica
Es un índice de variabilidad que permite estimar la desviación típica (que como
sabemos es muy susceptible a la influencia de puntuaciones atípicas, como también
ocurre con la media aritmética) que cabría esperar de la muestra si ésta perteneciera a
una población en el que la distribución subyacente sea la normal.
4. Asimetría
En los dos puntos anteriores hemos visto las medidas de tendencia
central y las medidas de variabilidad.
Si bien la obtención de tales medidas es clave para describir una
muestra y efectuar inferencias sobre la población de origen, es
también fundamental saber la forma de una distribución para obtener
una caracterización adecuada de los datos.
Asimetría
Si bien es fácil tener una idea de si la distribución es simétrica o no tras ver la
representación gráfica (p.e., un histograma o un diagrama de caja y bigotes),
es importante cuantificar la posible asimetría de una distribución.
Recordemos que cuando la distribución de los datos es simétrica, la media,
la mediana y la moda coinciden. (Y la distribución tiene la misma forma a la
izquierda y la derecha del centro)
Si bien muchas distribuciones psicológicas se asume que tienden a ser
simétricas y unimodales, en muchos casos la distribución que encontramos
es asimétrica (v.g., las distribuciones de los Tiempos de Reacción en casi
cualquier tarea es asimétrica positivo).
Asimetría positiva
Examen difícil
Salarios
Tiempos de Reacción
Moda
Mediana
Examen fácil
Media
Asimetría negativa
Media
Mediana
Moda
Índices de asimetría
1. Índice de asimetría de Pearson
Muy sencillo de calcular. Está basado en la relación entre la media y la moda en
distribuciones simétricas y asimétricas (ver transparencia anterior):
X  Mo
As 
sx
Si la distribución es simétrica As será 0
Si la distribución es asimétrica positiva, As será mayor que 0
Si la distribución es asimétrica negativa, As será menor que 0
Índices de asimetría
2. Índice de asimetría de Fisher
Está basado en la diferencia de los datos sobre la media, como la varianza, si
bien esta vez se elevan los coeficientes al cubo
n
As 
3
(
X

X
)
n
 i
i 1
sx3
Si la distribución es simétrica As será 0
Si la distribución es asimétrica positiva, As será mayor que 0
Si la distribución es asimétrica negativa, As será menor que 0
Desventaja: Muy influida por puntuaciones atípicas-
5. Curtosis o apuntamiento
Hace referencia al apuntamiento de la distribución en relación a un
estándar, que es la distribución normal.
Este estándar es la distribución normal: distribución mesocúrtica.
Si la distribución es más apuntada que la distribución normal tenemos
una distribución leptocúrtica.
Si la distribución es más achatada que la distribución normal tenemos
una distribución platicúrtica.
Curtosis o apuntamiento
IMPORTANTE: Curtosis es independiente de la variabilidad (en el
sentido de “varianza”).
Es decir, no es que una distribución leptocúrtica tenga menos varianza
y por eso es más apuntada.
Una distribución leptocúrtica es muy apuntada en el centro (más que la
normal), decae muy rápidamente en un primer momento, pero en los
extremos es algo más alta que la distribución normal.
Eso quiere decir que una distribución leptocúrtica es más probable que
ofrezca más valores extremos que la distribución normal.
Ejemplo de curtosis (dist. Mesocúrtica)
1200
1000
800
600
400
200
Desv. típ. = 1.01
Media = -.00
N = 10000.00
0
25
4.
75
3.
25
3.
75
2.
25
2.
75
1.
25
1.
5
.7
5
.2
5
-.2
5
-.7 5
.2
-1 5
.7
-1 5
.2
-2 5
.7
-2 5
.2
-3 5
.7
-3
NORMAL
Índice de curtosis (veremos un solo índice)
Para una distribución normal (mesocúrtica) sabemos que
n
(X
i 1
i
 X )4 n
s
3
4
x
Y esta va a ser la referencia para el índice de curtosis que vamos a
emplear
n
C r
4
(
X

X
)
n
 i
i 1
s
4
x
3
Si la distribución es normal (mesocúrtica), el índice vale 0
Si la distribución es leptocúrtica, el índice es superior a 0
Si la distribución es platicúrtica, el índice es inferior a 0
Más ejemplos de curtosis
6. Cómo ver la tendencia, variabilidad y asimetría en un gráfico
Si bien es posible emplear diferentes gráficos para evaluar la variabilidad (y tendencia
central, asimetría, etc), es interesante el uso de los diagramas de caja y bigotes.
La caja viene definida por el primer cuartil y el tercer cuartil, con la mediana también
indicada. Esto lo veremos en detalle en las prácticas.
Pero mejor veamos un ejemplo (Ratcliff, Perea, Colangelo y Buchanan, 2004, Brain &
Cognition), en el que se examinan ciertas características en una tarea de decisión
léxica (decidir si un estímulo era palabra o no; se mide el Tiempo de Reacción) con
un grupo de controles y un grupo de personas con daño cerebral (afásicos).
Lo que se medía era
1) un índice de cuán conservador eran las personas en la tarea (“boundary
separation”)
2) un índice correspondiente a procesos “no-decisionales” (“non-decision
component”).
3) un índice correspondiente a la calidad de información (“drift rate)
Cómo ver la variabilidad en un gráfico
La Mediana es el trazo grueso dentro
de las cajas (entre los cuartiles primero
y tercero).
Las puntuaciones “atípicas” están
presentadas individualmente (ver que
hay dos tipos de datos atípicos).
Observad que los controles son
claramente diferentes a los pacientes
en “boundary separation” y en el
“non-decision component”, mientras
que hay bastante más solapamiento
en la “calidad de información”.
Cómo ver la asimetría en un gráfico
En el caso del “drift rate” (pacientes),
la distancia entre el P75 y P50 es
mucho menor que ente el P50 y el
P25, lo que sugiere que hay asimetría
positiva.
P25 P50 P75
En el caso del “non-decision
component” (pacientes), la distancia
entre el P75 y P50 es mucho menor
que ente el P50 y el P25, lo que
sugiere que hay asimetría negativa.