Distribución estadística I: Moda, media, varianza y desv

Download Report

Transcript Distribución estadística I: Moda, media, varianza y desv

Descriptores numericos de una
distribucion
Objetivos
Describiendo distribuciones con numeros

Medidas de tendencia central: media y la mediana

Medidas de dispersion: percentiles y desviacion estandar
Medida de tendencia central: la media
La media o el promedio aritmetico
Para calcular la media, se añaden todos
los valores y luego se divide entre el
numero de individuos. “Es el centro de
la masa.”
Suma de las alturas 1598.3
Dividido entre 25 mujeres = 63.9 cm
58.2
59.5
60.7
60.9
61.9
61.9
62.2
62.2
62.4
62.9
63.9
63.1
63.9
64.0
64.5
64.1
64.8
65.2
65.7
66.2
66.7
67.1
67.8
68.9
69.6
mujer
altura
mujer
altura
(i)
(x)
(i)
(x)
i=1
x1= 58.2
i = 14
x14= 64.0
i=2
x2= 59.5
i = 15
x15= 64.5
i=3
x3= 60.7
i = 16
x16= 64.1
i=4
x4= 60.9
i = 17
x17= 64.8
i=5
x5= 61.9
i = 18
x18= 65.2
i=6
x6= 61.9
i = 19
x19= 65.7
i=7
x7= 62.2
i = 20
x20= 66.2
i=8
x8= 62.2
i = 21
x21= 66.7
i=9
x9= 62.4
i = 22
x22= 67.1
i = 10
x10= 62.9
i = 23
x23= 67.8
i = 11
x11= 63.9
i = 24
x24= 68.9
i = 12
x12= 63.1
i = 25
i = 13
x13= 63.9
n=25
x
= 69.6
25
Nocion matematica:
x 1  x 2  ....  xn
x
n
n
1
x   xi
n i 1
1598.3
x
 63.9
25
S=1598.3
Aprendamos inmediatamante como usar las calculadoras.
Los resumenes numericos deben tener sentido
altura de 25 mujeres en una clase
x  69.3
Aca la forma de la
distribucion es muy
irregular porque?
Podremos tener
mas de una
especie o fenotipo?
La distribucion de las alturas
parece ser coherente y simetrica.
La media en un buen resumen
numerico.
x  69.6
Height of plants by color
x  63.9
5
x  70.5
x  78.3
red
Number of plants
4
pink
blue
3
2
1
0
58
60
62
64
66
68
70
72
74
76
78
Height in centimeters
Un resumen numerico unico no tendria sentido
80
82
84
Medidas de tendencia central: la mediana
La mediana es el punto central de una distribucion- un numero tal que la mitad de
las observaciones son mas pequeñas y la otra mitad son mas grandes
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
1
2
3
4
5
6
7
8
9
10
11
12
1
2
3
4
5
6
7
8
9
10
11
0.6
1.2
1.6
1.9
1.5
2.1
2.3
2.3
2.5
2.8
2.9
3.3
3.4
3.6
3.7
3.8
3.9
4.1
4.2
4.5
4.7
4.9
5.3
5.6
25 12
6.1
1. Ordenar las observaciones desde
la mas pequeña hasta la mas grande.
n = numero de observaciones
______________________________
2. Si n es impar, la mediana es
la observacion (n+1)/2 en la lista
 n = 25
(n+1)/2 = 26/2 = 13
Mediana = 3.4
3. Si n es par, la mediana es el promedio
de las 2 observaciones centrales
n = 24 
n/2 = 12
Mediana = (3.3+3.4) /2 = 3.35
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
1
2
3
4
5
6
7
8
9
10
11
1
2
3
4
5
6
7
8
9
10
11
0.6
1.2
1.6
1.9
1.5
2.1
2.3
2.3
2.5
2.8
2.9
3.3
3.4
3.6
3.7
3.8
3.9
4.1
4.2
4.5
4.7
4.9
5.3
5.6
Comparemos la Mediana y la Media
La mediana y la media son la misma sólo si la distribucion es simétrica.
La mediana es una medida de tendencia central que es resistente a
sesgo y a los outliers. La Media no lo es.
Media y mediana en una
distribución simétrica
Media
Mediana
Media y mediana en una
distribución asimétrica
Sesgo Izq
Media
Mediana
Media
Mediana
Sesgo Der
Media y Mediana de una distribucion con outliers
Percent of people dying
x  3.4
x  4.2
Sin outliers
Con outliers
La media es desviada
La mediana, es solo modificada
considerablemente hacia la
ligeramente por los outliers (de
derecha por los outliers
3.4 a 3.6).
(de 3.4 a 4.2).
Impacto de datos sesgados
Media y mediana de una
distribucion simetrica
Enfermedad X:
x  3.4
M  3.4
La Media y la Mediana son iguales
En una distribucion sesgada
Mieloma Multiple :
x  3.4
M  2.5
La Media esta desviada
hacia el sesgo
Medidas de dispersion: desviación estandar
La desviacion estandar se usa para describir la variacion alrededor de la media
1) Primero se calcula la variancia s2.
1 n
2
s 
(
x

x
)
 i
n 1 1
2
2) Luego se calcula la raiz cuadrada
para obtener la desviacion
estandar s.
x
Media
± 1 s.d.
1 n
2
s
(
x

x
)

i
n 1 1
Cálculos …
1 n
2
s
(
x

x
)

i
n 1 1
Media = 63.4
Suma de las desviaciones al cuadrado from
mean = 85.2
Altura de mujeres (pulgadas)
i
xi
x
(xi-x)
(xi-x)2
1
59
63.4
−4.4
19.0
2
60
63.4
−3.4
11.3
3
61
63.4
−2.4
5.6
4
62
63.4
−1.4
1.8
5
62
63.4
−1.4
1.8
6
63
63.4
−0.4
0.1
7
63
63.4
−0.4
0.1
8
63
63.4
−0.4
0.1
9
64
63.4
0.6
0.4
10
64
63.4
0.6
0.4
11
65
63.4
1.6
2.7
12
66
63.4
2.6
7.0
13
67
63.4
3.6
13.3
14
68
63.4
4.6
21.6
Sum
0.0
Sum
85.2
Mean
63.4
Degrees freedom (df) = (n − 1) = 13
s2 = variance = 85.2/13 = 6.55 inches squared
s = standard deviation = √6.55 = 2.56 inches
Uno NUNCA calcula esto a mano, Favor practicar con su
calculadora.
La distribucion Normal
Objetives
Las distribuciones normales

Curvas de densidad

Distribucion Normal

La regla 68-95-99.7

La distribucion Normal estandar

Usando la tabla Normal estandar

Encontrar un valor dada una proporcion
Curvas de densidad
Una curva de densidad es un modelo matematico de distribucion.
Siempre esta sobre el eje horizontal.
El area total bajo la curva es, por definicion igual a 1 ó 100%.
El area bajo la curva para un rango de variables esta en proporcion de
todas las observaciones para ese rango
Histograma de una muestra
con su curva de densidad
teorica que describe a la
poblacion
Las curvas de densidad vienen en
cualquier forma.
Algunas son conocidas
matematicamante otras no.
Distribucion Normal
Las distribuciones Normales—o de Gauss— son una familia de curvas
de densidad con forma de campana, simetricas y definidas por una
media m (mu) y una desviacion estandar s (sigma): N (m,s).
1
e
2
f ( x) 
1  xm 
 

2 s 
2
x
e = 2.71828… la base del logaritmo natural
π = pi = 3.14159…
x
Una familia de curvas de densidad
Las medias son la misma (m = 15)
Mientras las desviaciones estandar
son diferentes (s = 2, 4, y 6).
0
2
4
6
8
10
12
14
16
18
20
22
24
26
28
30
Las medias son diferentes
(m = 10, 15, y 20) Mientras que las
desviaciones estandar son las
mismas (s = 3).
0
2
4
6
8
10
12
14
16
18
20
22
24
26
28
30
Todas las curvas Normales N (m,s) comparten las
mismas propiedades

Cerca de 68% de todas las
Punto de inflexion
observaciones estan dentro de 1
desviacion estandar (s)de la
media (m).
Cerca
de 95% de todas las
observaciones estan dentro de 2 s
de la media m.
Casi
todas (99.7%) las
observaciones estan dentro de las
3 s de la media.
media µ = 64.5 desviacion
estandar s = 2.5
N(µ, s) = N(64.5, 2.5)
Recordatorio: µ (mu) es la media de la curva ideal mientras que x es el promedio de una muestra
σ (sigma) es la desviacion estandar de la curva ideal, mientras que s es la d.e. de una muestra.
La distribucion normal estandar
Debido a que todas las distribuciones estandar comparten las mismas
propiedades podemos estandarizar nuestros datos para transformar
cualquier curva normal N (m,s) en la curva normal estandar N (0,1).
N(64.5, 2.5)
N(0,1)
=>
x
Standardized height (no units)
Para cada x calculamos un nuevo valor, z (llamado el valor z).
z
Estandarizando: calculando los valores z
Un valor-z mide el numero de desviaciones estandar a la que un dato x
se encuentra de la media m.
z
(x  m )
s
Cuando x es 1 desviacion estandar mas
grande que la media entonces z = 1.
para x  m  s , z 
m s  m s
 1
s
s
Cuando x es 1 desviacion estandar mas
grande que la media entonces z = 2.
para x  m  2s , z 
m  2s  m 2s

2
s
s
Cuando x es mayor que la media, z es positivo.
Cuando x es menor que la media, z es negativo
Ejemplo: altura en mujeres
N(µ, s) =
N(64.5, 2.5)
La altura en mujeres sigue la distribucion
N(64.5″,2.5″). Cual es el porcentaje de
Area= ???
mujeres mas pequeñas de 67 pulgadas?
Media µ = 64.5"
Desviacion estandar s = 2.5"
x (altura) = 67"
Area = ???
m = 64.5″ x = 67″
z =0
z =1
Calculamos z,el valor estandarizado de x:
z
(x  m)
s
, z
(67  64.5) 2.5

 1  1 desv. estandar de la media
2.5
2.5
Gracias a la regla 68-95-99.7 , podemos concluir que el porcentaje de
mujeres mas pequeñas de 67” debe ser aproximadamante: .68 + mitad de
(1 − .68) = .84, or 84%.
Usando la Tabla
La tabla de z muestra el area bajo la curva Normal estandar hacia la izquierda de
cualquier valor de z.
.0082 es el
area bajo
N(0,1) a la
izq de z = 2.40
.0080 es el area
bajo N(0,1) Izq de
z = -2.41
(…)
0.0069 es el area
bajo N(0,1) Izq de
z = -2.46
Porcentaje de mujeres mas pequeñas de 67”
Para z = 1.00, el area bajo
la curva Normal estandar a
la izquierda de z es 0.8413.
N(µ, s) =
N(64.5”, 2.5”)
Area ≈ 0.84
Conclusion:
84.13% de la mujeres son mas pequeñas
Area ≈ 0.16
que 67″.
restando 1 − 0.8413, o 15.87%, de mujeres
son mas grandes que 67".
m = 64.5” x = 67”
z=1
Tips usando la Tabla Z
Gracias a que la distribucion
normal es simetrica, hay dos
Area = 0.9901
maneras en las que se puede
calcular el area bajo la curva
Area = 0.0099
normal a la derecha del valor Z.
z = -2.33
Area a la derecha de z =
area izquierda de -z
Area a la derecha de z
=
1
−
area izquierda de z
La asociacion de colegios atleticos (NCAA) requiere que los atletas tengan por lo
menos 820 en los examenes de SAT combinados verbal y matematicos para
completar su primer año. Los scores SAT del 2003 fueron aproximadamante
normales con una media 1026 y desviacion estandar 209.
Que proporcion de estudiantes calificaran para NCAA (SAT ≥ 820)?
x  820
m  1026
s  209
(x  m)
z
s
(820  1026)
209
 206
z
 0.99
209
T able A : area under
z
N(0,1)t o t heleft of
z - .99 is 0.1611
or approx.16%.
Area right of 820
=
=
Total area
1
−
−
Area left of 820
0.1611
≈ 84%
Note: The actual data may contain students who scored
exactly 820 on the SAT. However, the proportion of scores
exactly equal to 820 being 0 for a normal distribution is a
consequence of the idealized smoothing of density curves.
Tips usando la Tabla Z
Para calcular el area entre dos valores z, primero obtener el area bajo
N(0,1) a la izquierda del valor z de la Tabla.
Luego restar el area
pequeña del area
grande.
Un error comun es restar los
valores de z.
area entre z1 y z2 =
area izq de z1 – area izq de z2
 El area bajo N(0,1) para un valor cualquiera es cero.
La NCAA define un “partial qualifier” como alguien elegible para practicar y recibir
una bolsa de estudiante atleta pero no para competir si tienen un SAT de por lo
menos 720. Cual es la proporcion de todos los estudiantes que toman el
SAT que serian partial qualifiers? O dicho de otra manera, cual es la
proporcion que tendra scores entre 720 y 820?
x  720
m  1026
s  209
(x  m)
z
s
(720  1026)
209
 306
z
 1.46
209
T able A : area bajo
z
N(0,1)a la izq de
z - .99 es 0.0721
o aprox.7%.
Area entre
720 y 820
≈ 9%
=
=
Area izq de 820
0.1611
−
−
Area izq de 720
0.0721
Alrededor de 9% de todos los estudiantes que toman el
SAT tendran scores entre720 y 820.
Lo divertido de trabajar con datos
normalemente distribuidos es que
podemos manipularlos y
encontrar respuestas a preguntas
que involucran distribuciones
aparentemente no comparables.
Lo hacemos estandarizando los
datos. Lo que implica cambiar la
escala de tal manera que la media
es 0 y la desv. Estandar es igual a
1. si hacemos esto a distribuciones
diferentes las hacemos
comparables.
(x  m )
z
s
N(0,1)
Example: Gestation time in malnourished mothers
What are the effects of better maternal care on gestation time and premies?
The goal is to obtain pregnancies of 240 days (8 months) or longer.
What improvement did we get
by adding better food?
m 266
s 15
m 250
s 20
180
200
220
240
260
280
Gestation time (days)
Vitamins only
Vitamins and better food
300
320
Under each treatment, what percent of mothers failed to carry their babies at
least 240 days?
Vitamins only
m= 250, s= 20,
x = 240
x  240
m  250
s  20
z
(x  m)
s
(240  250)
20
170
 10
z
 0.5
20
(half a standarddeviation)
T able A : area under N(0,1)t o
t heleft of z - 0.5 is 0.3085.
z
190
210
230
250
270
290
Gestation time (days)
Vitamins only: 30.85% of women
would be expected to have gestation
times shorter than 240 days.
310
Vitamins and better food
m = 266, s = 15,
x = 240
x  240
m  266
s  15
(x  m)
z
s
(240  266)
z
15
 26
206
z
 1.73
15
(almost 2 sd from mean)
T able A : area under N(0,1)t o
t heleft of z - 1.73is 0.0418.
221
236
251
266
281
296
311
Gestation time (days)
Vitamins and better food: 4.18% of women
would be expected to have gestation
times shorter than 240 days.
Compared to vitamin supplements alone, vitamins and better food resulted in a much
smaller percentage of women with pregnancy terms below 8 months (4% vs. 31%).
Finding a value given a proportion
When you know the proportion, but you don’t know the x-value that
represents the cut-off, you need to use Table A backward.
1. State the problem and draw a picture.
2. Use Table A backward, from the inside out to the margins, to
find the corresponding z.
3. Unstandardize to transform z back to the original x scale by
using the formula:
x  m  zs
Example: Women’s heights
Women’s heights follow the N(64.5″,2.5″)
distribution. What is the 25th percentile for
women’s heights?
mean µ = 64.5"
standard deviation s = 2.5"
proportion = area under curve=0.25
We use Table A backward to get the z.
On the left half of Table A (with proportions 0.5), we find that a
proportion of 0.25 is between z = -0.67 and –0.68.
We’ll use z = –0.67.
Now convert back to x:
x  m  zs  64.5  (0.67)(2.5)  62.825"
The 25th percentile for women’s heights is 62.825”, or 5’ 2.82”.
Relaciones: correlacion
Variables explicativas y de respuesta
Una variable de respuesta mide el resultado de un estudio. Una
variable explicativa explica cambios en la variable de respuesta.
Tipicamante, la variable explicativa o independiente se grafica en el
eje x y la variable de respuesta o dependiente en el eje y.
Blood Alcohol as a function of Number of Beers
Respuesta
(variable
dependiente) :
Contenido
de alcohol
en sangre
Blood Alcohol Level (mg/ml)
0.20
y
0.18
0.16
0.14
0.12
0.10
0.08
0.06
0.04
0.02
0.00
x
0
1
2
3
4
5
6
7
8
9
10
Number of Beers
Variable explicativa (independiente) :
numero de cervezas
Algunos plots no tienen varibles claras.
Las calorias explican los
los contenidos de sodio?
Forma y direccion de una asociacion
Linear
No relacion
No linear
Asociacion Positiva : Valores altos de una variable tienden a ocurrir
junto con valores altos de la la otra variable.
Asociacion Negativa: Valores altos de una variable tienden a ocurrir junto con
valores bajos de la la otra variable.
Sin relacion:
x e y varian independendientemente.Conocer x no dice nada acerca de y.
One way to remember this:
The equation for this line is y = 5.
x is not involved.
El coeficiente de correlacion “r”
El coeficiente de correlacion es una medida de la direccion y la fuerza
de una relacion. Se calcula usando la media y la desviacion estandar
de las variables x e y .
Tiempo de nado: x = 35, sx = 0.7
Pulso: y = 140 sy = 9.5
La correlacion solo puede ser
usada para describir variables
CUANTITATIVAS. Variables
categoricas no tienen medias ni
desv. estandar.
Parte del calculo involucra
encontrar a z, el valor
estandarizado que usamos
cuando se trabaja con una
distribucion normal.
Uds. No quieren hacer esto a mano.
Asegurense de saber otener este
valor con su calculadora!
Estandarizacion:
Nos permite comparar
correlaciones entre data
sets donde las variables
estan medidas en unidades
diferentes o cuando las
variables son diferentes.
Por ejemplo podemos
comparar la correlacion
entre tiempo de nado y
pulso y tiempo de nado y
ritmo respiratorio.
“r” no distingue entre variables explicativas y de
respuesta
El coeficiente de correlacion , r,
trat a x e y simetricamente.
r = -0.75
r = -0.75
“r” no tiene unidades
Cambiar las unidades de la variable
no cambia el coeficiente de
correlacion “r,” porque eliminamos
todas las unidades al estandarizar zscores).
r = -0.75
z-score plot is the same
for both plots
r = -0.75
“r” va de −1 a +1
“r” cuantifica la fuerza y la
direccion de una relacion
linear entre dos variables
cuantitativas.
Fuerza: Que tan bien los puntos
siguen una linea recta.
Direccion es positiva cuando
individuos con valores de x mas
altos tienden a tener valores de y
mas altos.
Cuando la variabilidad
en una o ambas
variables decrece, el
coeficiente de
correlacion se hace mas
fuerte
(cerca a +1 o −1).
Cuidado usando la correlacion
Solo para relaciones lineares.
Nota: a veces se puede transformar datos no lineares a formas lineares, por
ejemplo tomando el logarithmo. Luego se puede calcular la correlacion usando
los datos transformados.
Puntos de influencia
Correlaciones se calculan usando
medias y dsv. Estandar y por lo
tanto NO son resistentes a los
outliers.
Mover un solo punto fuera de la
tendencia general disminuye la
correlacion de −0.91 a −0.75.
Prueben en el website
http://www.whfreeman.com/bps3e
Añadir 2 outliers disminuye r de 0.95 a 0.61.
Preguntas en correlacion
1. Porque no hay diferencia entre las variables explicativas y de
rspuesta en una correlacion?
2. Porque ambas variables deben ser cuantitativas?
3. Como el cambiar las unidades de una variable afecta la
correlacion?
4. Cual es el efecto de los outliers en las correlaciones?
5. Porque un ajuste excelente a una linea horizontal NO implica una
correlacion fuerte?