Transcript Tema 4
Tema 4: Medidas de posición individual.
1. Introducción.
2. Cuantiles: Rangos Percentiles, Percentiles,
Deciles y Cuartiles.
3. Transformaciones lineales: Puntuaciones
típicas-- Introducción, cálculo y principales
características.
4. Escalas derivadas –basadas en
transformaciones lineales
(Inciso final: El caso de las transformaciones no
lineales)
4.1 Introducción
En este tema vamos a ver índices estadísticos que permiten conocer
diversos puntos característicos de la distribución que no sean
necesariamente valores centrales.
En particular, veremos índices que nos proporcionarán información de
unos datos dentro del conjunto de datos.
Como veremos, una persona con una puntuación con un percentil muy
alto en un test de inteligencia querrá indicar que dicha persona está muy
por encima de la mayoría de personas en inteligencia.
De la misma manera, si sabemos que una persona tienes una puntuación
típica positiva elevada en un test de inteligencia proporciona información
sobre la inteligencia de dicha persona (una alta inteligencia en relación al
grupo).
4.2 Medidas de posición individual: centiles
Los centiles dividen la distribución (ordenada) de datos en 100 partes.
Cada parte contiene 1/100 de las puntuaciones.
El Centil 60, por ejemplo, es aquella puntuación que deja por debajo
de sí el 60% de los datos. El Centil 15 es aquella puntuación que deja
por debajo de sí el 15% de los datos.
Los centiles son cuantiles que dividen la distribución en 100 partes.
Hay otros cuantiles. Uno de ellos es la mediana, que divide la
distribución en dos partes (Mediana=Centil 50)
Otros cuantiles son los deciles (Decil 1=Centil 10) y los cuartiles
(Cuartil 1=Centil 25, Cuartil 2= Mediana, Cuartil 3=Centil 75)
Medidas de posición individual: centiles
Cálculo de centiles
Centil k:
Mediana (Centil 50):
Posición de Orden = ( N 1)
k
100
Posición de Orden = ( N 1)
50
100
NOTA: el cálculo lo veremos con datos individuales, y no con datos agrupados
Rango percentil (RP)
Se trata de una medida inversa del percentil.
Se puede emplear, por ejemplo, para indicar la posición del resultado de
una prueba de aptitud entre los resultados de la prueba. Pensemos que
una puntuación tiene un rango percentil de 78. Eso significa que el 78%
de las otras personas tienen una calificación inferior.
Cálculo (datos sin agrupar):
Para calcular el rango percentil de una medida cualquiera se
cuentan los inferiores a él, se divide ese número entre el número
total.
(Y se multiplica por 100 y se redondea.)
Ejemplo en Excel –página de Microsoft
Función
RANGO.PERCENTIL(matriz;x)
Observad: Expresado en proporción,
más que en porcentaje
4.3 Transformaciones lineales. Puntuaciones típicas
Con la forma y=a+bx
Que se emplea por ejemplo, para pasar de grados Celsius a
grados Fahrenheit.
Pero fijaros que esta transformación no cambia la forma de la
distribución. (Puede cambiar la media y la desv.típica, pero no
la forma de la distribución.)
Puntuaciones típicas
Indican el número de desviaciones típicas en que una
observación se separa de la media del grupo de datos.
zi
Xi X
sx
La media de las puntuaciones típicas es 0
La varianza (y desv.típica) es 1
Observad que las puntuaciones z son abstractas (ello permite la
comparación de variables con escalas diferentes).
Puntuaciones típicas (ejemplo)
Si tenemos dos estudiantes A y B que han hecho un examen,
y sabemos que la puntuación típica de A para el grupo de
estudiantes es de 1 y la puntuación típica de B es de 0, ¿quién
tendrá mejor nota?
Evidentemente es A; su puntuación está 1 desv.típica sobre la media del grupo;
la de B corresponde a la de la media del grupo.
Puntuaciones típicas y observaciones atípicas
En muchos casos, se suele indicar que si z>3, tales valores se suelen
considerar atípicos. (Que es un criterio que no tiene por qué coincidir con las
puntuaciones atípicas en los diagramas de caja y bigotes.)
4.4 Escalas derivadas (sobre las puntuaciones típicas)
Un pequeño inconveniente de las puntuaciones típicas es que
conllevan el uso de valores muy pequeños (con decimales,
habitualmente), así como valores negativos.
Por ello, a veces se efectúan transformaciones lineales sobre
las puntuaciones típicas. El ejemplo que vamos a ver son las
puntuaciones T (con media 50 y desv.típica 10) y con las
escalas de CI (con media 100 y desv.típica 15).
Puntuaciones T
De manera genérica
Ti a zi b
Observad que la nueva media viene dada por b, y que la desv.típica
viene dada por el valor absoluto de a
En el caso de las puntuaciones T, a=10 y b=50
Escala de CI
En el caso de la escala de CI:
CI 15 z 100
INCISO: Transformaciones no lineales
¿Porqué hacemos transformaciones (no lineales) en los datos?
-Para hacer la distribución más simétrica
-Para hacer lineal la relación entre variables (caso de tener más
de una variable; estadística bi/multivariada)
Una familia de transformaciones especialmente útiles es la
“escalera de potencias” de Tukey
Corrigen asimetría
negativa
Corrigen asimetría
positiva
Ejemplo. Datos de TR de un participante
Histograma
300
Descriptivos
TR_S6
Media
Intervalo de confianza
para la media al 95%
Media recortada al 5%
Mediana
Varianza
Des v. típ.
Mínimo
Máximo
Rango
Amplitud intercuartil
Asimetría
Curtos is
200
100
Límite inferior
Límite s uperior
Estadístico
445.0208
429.0520
460.9896
414.7789
386.0000
63565.691
252.12237
2.00
2001.00
1999.00
189.0000
2.875
12.113
Desv. típ. = 252.12
Media = 445.0
N = 960.00
.0
-8
.0
08
20 0
.
40
18 0
.
72
16 0
.
04
15 .0
36
13 0
.
68
11 0
.
00
10
0
2.
83
0
4.
66
0
6.
49
0
8.
32
0
0.
16
0
Error típ.
8.13721
TR_S6
Observad no sólo que hay algunas puntuaciones atípicas a ambos lados, sino
que hay una clara asimetría positiva.
.079
.158
Ejemplo. Datos (transformados; raiz cuadrad) de TR de un participante (cont.)
Descriptivos
Histograma
RAIZ_S6
300
Media
Intervalo de confianza
para la media al 95%
Media recortada al 5%
Mediana
Varianza
Des v. típ.
Mínimo
Máximo
Rango
Amplitud intercuartil
Asimetría
Curtos is
200
Límite inferior
Límite s uperior
Estadístico
20.4522
20.1246
Error típ.
.16695
20.7798
20.1056
19.6469
26.757
5.17273
1.41
44.73
43.32
4.7436
1.229
4.898
.079
.158
100
Desv. típ. = 5.17
Media = 20.5
N = 960.00
0
.0
42
.0
38
.0
34
.0
30
.0
26
.0
22
.0
18
.0
14
.0
10
0
6.
0
2.
RAIZ_S6
HEMOS EFECTUADO LA RAIZ PARA
HACER MÁS SIMETRICA LA
DISTRIBUCIÓN.
Observad no sólo que aún queda algo de asimetría positiva. Con el logaritmo,
podremos reducir más la asimetría positiva, es lo que haremos ahora
Ejemplo. Datos (transformados; logaritmo) de TR de un participante (cont.)
Descriptivos
Histograma
LOGX_S6
300
Media
Intervalo de confianza
para la media al 95%
Límite inferior
Límite s uperior
Estadís tico
2.5906
2.5742
Media recortada al 5%
Mediana
Varianza
Des v. típ.
Mínimo
Máximo
Rango
Amplitud intercuartil
Asimetría
Curtosis
200
Error típ.
.00833
2.6069
2.5958
2.5866
.067
.25807
.30
3.30
3.00
.2078
-3.424
29.305
.079
.158
100
Desv. típ. = .26
Media = 2.59
N = 960.00
0
25
3.
00
3.
75
2.
50
2.
25
2.
00
2.
75
1.
50
1.
25
1.
00
1.
5
.7
0
.5
5
.2
Nota: Si algún valor fuera 0,
emplear log(1+x)
LOGX_S6
Observad no sólo que la asimetría positiva ha desaparecido (si acaso hay cierta
asimetría negativa causada por unas pocas puntuaciones atípicas).
Ejemplo. Datos (transformados; cuadrado) de TR de un participante (cont.)
Nota: Emplear el cuadrado no lo debéis hacer para corregir la asimetría
positiva...sólo la negativa! Lo que hemos hecho es aumentar la asimetría
positiva y eso no es lo que queríamos...(y si empleamos el cubo, aún peor para
nuestros fines).
Histograma
Descriptivos
700
CUADR_S6
600
Media
Intervalo de confianza
para la media al 95%
Límite inferior
Límite s uperior
Estadís tico
261543.02
234015.68
Error típ.
14027.10
289070.36
500
Media recortada al 5%
Mediana
Varianza
Des v. típ.
Mínimo
Máximo
Rango
Amplitud intercuartil
Asimetría
Desv.
típ. = 434613.6
Curtosis
400
300
200
100
N = 960.00
0
0.
00
16 .0
40 00
0
80 .0
36 00
0
44 .0
33 000
08 .0
30 00
0
72 .0
26 00
0
36 .0
23 00
0
00 .0
20 000
64 .0
16 00
0
28
13 0.0
0
20
99 0.0
0
60 0
65 00.
00
32 0.0
0
60
-1
0
Media = 261543.0
CUADR_S6
191389.16
148996.00
1.89E+11
434613.65
4.00
4004001
4003997
152145.00
5.818
42.074
.079
.158
Esta familia de transformaciones (“escalera de Tukey”) tiene
importantes propiedades:
1. Preservan el orden de los valores; es decir, los valores
mayores de la escala original seguirán siendo los valores
mayores en la escala transformada.
2. Modifican la distancia entre los valores. Con potencias p<1
(raíz x o log x) se comprimen los datos en la parte superior
de la distribución en relación a los valores menores; Con
potencias p>1 (como el cuadrado de x) se tiene el efecto
contrario.
3. El efecto sobre la forma de la distribución cambia
sistemáticamente con p. Si raíz x hace menos pronunciada
la asimetría positiva de una distribución, el log x provocará
que la distribución resultante sea aún menos asimétrica
positiva (en relación a raíz x).
En definitiva, las transformaciones de potencia pueden
hacer que la variable transformada tenga menos
asimetría. ¿Por qué es eso importante?
– Las distribuciones que muestran una clara asimetría
son difíciles de estudiar.
– Los valores originales aparentemente atípicos se
encontrarán más cercanos al grueso de los datos.
– Los métodos estadísticos suelen emplear la media
aritmética; pero la media de una distribución asimétrica
no es un buen índice del grueso de los datos.