Clase 6_16-11-07_FM

Download Report

Transcript Clase 6_16-11-07_FM

Probabilidad y
Estadística
Master en Administración de Empresas
Facultad de Ciencias Empresariales
Universidad Austral
Año 2007
Clase 6 – Prof. Martha Blanco y Fernanda Méndez
Intervalo de confianza para una media
poblacional
Obtén una muestra aleatoria simple de tamaño n de una
población de media  desconocida. Un intervalo de confianza
de nivel C para  es
donde t* es el valor crítico superior (1-C)/2 de la distribución
t(n-1). Este intervalo es exacto cuando la distribución de la
población es normal y aproximadamente correcto para muestras
grandes en los demás casos.
Prueba de significación para una media
poblacional
Obtén una muestra aleatoria simple de tamaño n de una
población de media  desconocida. Para contrastar la hipótesis
H0: =0 a partir de una muestra aleatoria simple de tamaño n,
calcula el estadístico t de una muestra
En términos de la variable T que tiene una distribución t(n-1), el
valor P para contrastar H0 en contra de
Estos valores P son exactos si la distribución de la población es
normal y son aproximadamente correctos para muestras grandes
en los demás casos.
Procedimientos t en diseños por pares
Utiliza estos procedimientos t de una muestra para
analizar los datos de los diseños por pares. Primero tienes
que calcular la diferencia dentro de cada par para obtener
una sola muestra.
Utilización de los procedimientos t
 Antes de utilizar los procedimientos t, dibuja un gráfico
para detectar asimetrías o la presencia de observaciones
atípicas (gráfico de probabilidad normal, diagrama de tallo y
hoja, diagrama de caja). Excepto en el caso de muestras
pequeñas, el supuesto de que los datos sean una muestra
aleatoria simple de la población de interés es más importante
que el supuesto de que la distribución de la población sea
normal.
Tamaño de muestra menor que 15. Utiliza los procedimientos t
si los datos son aproximadamente normales. Si los datos no
son claramente normales o si existen observaciones atípicas,
no utilices los procedimientos t.
Tamaño de muestra mayor o igual a 15. Los procedimientos t se
pueden utilizar a no ser que existan observaciones atípicas o
que la distribución sea muy asimétrica.
Muestras grandes. Los procedimientos t se pueden utilizar
incluso para distribuciones muy asimétricas cuando la
muestra sea grande, aproximadamente cuando n ≥ 40.
Comparación de dos medias
Problemas de dos muestras
 El objetivo de la inferencia es la comparación de
las respuestas de dos tratamientos o la
comparación de las características de dos
poblaciones.
 Tenemos una muestra distinta de cada población
o de cada tratamiento.
Supuestos para la comparación de dos medias
 Tenemos dos muestras aleatorias simples de
dos poblaciones distintas. Las muestras son
independientes. Es decir, una muestra no tiene
ninguna influencia sobre la otra. Así, por ejemplo,
la agrupación por pares viola la independencia.
Medimos la misma variable en las dos muestras.
 Las dos poblaciones tienen distribuciones
normales. Las medias y las desviaciones típicas de
las dos poblaciones son desconocidas.
Intervalo de confianza t de dos muestras
Obtén una muestra aleatoria simple de tamaño n1 de la población
normal de media 1 desconocida y una muestra aleatoria simple
independiente de tamaño n2 de otra población normal de media
2 desconocida. El intervalo de confianza para 1 -2 dado por
tiene un nivel de confianza de al menos C, independientemente
de cuáles sean las desviaciones típicas poblacionales. Aquí t* es el
valor crítico superior de (1-C)/2 de la distribución t(k), donde k
es el menor de los valores n1-1 y n2-1.
Prueba de significación t de dos muestras
Para contrastar la hipótesis H0: 1 = 2, calcula el estadístico t de
dos muestras
y utiliza los valores P o los valores críticos de la distribución t(k).
El verdadero valor P o el nivel de significación predeterminado
siempre será igual o menor que el valor calculado a partir de t(k),
independientemente de cuáles sean los valores que tengan
desviaciones poblacionales desconocidas.
Procedimientos t de dos muestras más precisos
Procedimientos t de dos muestras con varianza
común
Si se puede suponer que las dos poblaciones tienen varianzas
iguales, se pueden utilizar los procedimientos t de dos muestras
con varianza común. Estos se basan en el estimador amalgamado
de la varianza muestral
s a2 
El estadístico t de dos muestras con varianza común tiene
exactamente una distribución t con n1+n2-2 grados de libertad si
las varianzas poblacionales son realmente iguales.
Prueba F para comparar dos desviaciones típicas
Caso de estudio 1
Estudios de arquitectura: En el archivo caso1.xls se
presentan las características de una muestra aleatoria de 25
estudios de arquitectura del área de Indianápolis.
 Realice una tabla donde muestre el promedio, la
desviación estándar, el intervalo de confianza del 95%, y los
cinco números resumen para las variables: facturación del
año 1998, facturación del año 1997, número de arquitectos
matriculados empleados, número de ingenieros matriculados
empleados y número de empleados tiempo completo.
 Compare la facturación promedio de los años 1998 y 1997
de los estudios de arquitectura. ¿Se puede concluir que la
facturación promedio de las empresas en el año 1998 es
superior a la del año 1997?
Clasifique las empresas como “viejas” o “nuevas” según ellas
hayan comenzado o no a trabajar en el área antes de 1970.
Compare la facturación promedio en el año 1997 de las
empresas nuevas y viejas. Indique si ha utilizado o no los
procedimientos amalgamados y explique por qué. Informe sus
resultados con resúmenes numéricos y gráficos. Escriba un
párrafo corto explicando las diferencias encontradas.
Discusión. Procedimientos t de una muestra.
Cuadro 1. Promedio y desviación estándar de las variables en estudio
facturacion_1998
facturacion_1997
arq uitectos matriculados
ingenieros matriculados
empleados tiempo completo
Mean
3.1280
2.6880
10.0400
7.0800
60.6000
Std. Deviation
1.4226
1.3857
8.6770
9.6217
44.7064
Cuadro 2. Los cinco números resumen de las variables en estudio
facturacion_1998
facturacion_1997
arq uitectos matriculados
ingenieros matriculados
empleados tiempo completo
Minimum
1.60
.70
2.00
.00
7.00
Maximum
6.20
5.60
31.00
35.00
155.00
25
2.05
1.45
4.00
.00
16.00
Percentiles
50
2.60
2.40
5.00
2.00
61.00
75
3.80
3.85
15.50
12.50
103.00
Diagramas de tallo y Diagramas de caja de las variables en estudio
Facturación en el año 1998
Frequency
4.00
10.00
6.00
1.00
2.00
2.00
Stem &
1
2
3
4
5
6
Leaf
.
.
.
.
.
.
Facturación en el año 1997
Frequency
6666
0011235567
334788
4
25
22
2.00
6.00
7.00
5.00
3.00
2.00
7
6
6
5
5
4
4
3
3
2
2
0
1
2
3
4
5
Leaf
.
.
.
.
.
.
1
1
N=
Stem &
25
facturacion_1998
0
N=
25
facturacion_1997
79
023457
0034455
03889
127
06
Diagramas de tallo y Diagramas de caja de las variables en estudio
Número de arquitectos matriculados
Frequency
Stem &
7.00
0
9.00
0
3.00
1
2.00
1
1.00
2
3.00 Extremes
.
.
.
.
.
Leaf
2233344
555555689
022
99
1
(>=24)
Número de ingenieros matriculados
Frequency
Stem &
16.00
0
1.00
0
4.00
1
.00
1
3.00
2
1.00 Extremes
Leaf
.
.
.
.
.
0000000011112344
7
2234
133
(>=35)
40
40
11
30
3
2
30
5
20
20
10
10
0
0
-10
-10
N=
25
arquitec matric
N=
25
ingenieros matric
Número de empleados a tiempo completo
Frequency
8.00
2.00
2.00
6.00
1.00
3.00
2.00
1.00
Stem &
0
0
0
0
0
1
1
1
.
.
.
.
.
.
.
.
Leaf
01111111
22
55
666777
9
111
23
5
200
150
100
50
0
-50
N=
25
emp tiempo comp
Cuadro 3: Intervalos de confianza del 95% para la media de las
variables en estudio
Variable
Intervalo de confianza del 95% para la
media
Facturación en el año 1998
(2.541; 3.715)
Facturación en el año 1997
(2.116; 3.260)
Número de arquitectos
matriculados
Número de ingenieros
matriculados
Número de empleados a
tiempo completo
No se cumplen los supuestos
(La distribución de los datos de la muestra es muy
asimétrica y presenta valores extremos)
No se cumplen los supuestos
(La distribución de los datos de la muestra es muy
asimétrica y presenta valores extremos)
(42.146; 79.054)
Este intervalo puede ser aproximado pues la distribución
de los datos de la muestra presenta cierta asimetría
Discusión. Comparación facturación de las
empresas en el año 1998 y 1997
En este caso se trata de un experimento de datos apareados y no de
dos muestras independientes, por lo tanto se calculan las diferencias
entre la facturación del año 1998 y la del 1997 para cada estudio de
arquitectura, con el objeto de evaluar si la facturación promedio del
año 1998 es significativamente diferente de la correspondiente al año
1997. Se contrastan las siguientes hipótesis:
H0: D = 0
Ha: D > 0
El siguiente cuadro muestra el promedio y el desvío estándar de las 25
diferencias:
N
factur98-factur97
Valid N (listwise)
25
25
Mean
.4400
Std.
Deviation
1.3392
Para verificar si se pueden aplicar los procedimientos t se realiza el
diagrama de tallo y el gráfico de probabilidad normal de las
diferencias entre la facturación de 1998 y la de 1997.
Diagrama de tallo de las diferencias en la
facturación de 1998 y 1997
2.00
1.00
4.00
3.00
5.00
3.00
1.00
.00
4.00
2.00
Stem &
-1
-1
-0
-0
0
0
1
1
2
2
.
.
.
.
.
.
.
.
.
.
1.00
Leaf
56
3
5788
234
12344
568
1
3344
67
.75
.50
Expected Cum Prob
Frequency
Gráfico de probabilidad normal para las
diferencias en la facturación de 1998 y 1997
.25
0.00
0.00
.25
.50
.75
1.00
Observed Cum Prob
Se observa que los datos son bastantes simétricos y poco alejados de
la normalidad, lo que permite la aplicación de los procedimientos t.
La estadística t es entonces
t
x0
s/ n
 1.643
El valor P para t=1.643 es el área situada a la derecha de 1.643
por debajo de la curva de la distribución t con n-1=24 grados
de libertad. Un programa estadístico da el valor exacto,
P=0.056. Los datos muestran que a un nivel de significación del
10% la facturación de los estudios de arquitectura en 1998 es
más alta que en 1997.
Cuadro 6: Salida del programa estadístico SPSS
Paired Samples Test
Paired Differences
Mean
Pair
1
facturacion_1998 facturacion_1997
.4400
Std.
Deviation
1.3392
Std. Error
Mean
.2678
95% Confidence
Interval of the
Difference
Lower
Upper
-.1128
.9928
t
1.643
Sig .
(2-tailed)
df
24
.113
Los procedimientos t para diseños por pares sólo son
completamente exactos cuando la población es normal. Las
diferencias en la facturación de 1998 y 1997 para la muestra de
25 empresas presentan desviaciones de la normalidad.
Discusión. Comparación empresas nuevas y
viejas
La pregunta de interés es si la facturación promedio en el año
1997 es diferente en las empresas nuevas y viejas. Se desea
probar:
H0: 1 = 2
H a : 1  2
El siguiente cuadro muestra el promedio y el desvío estándar
de los dos grupos de empresas:
facturacion_1997
ANTIGUED
vieja
nueva
N
11
14
Mean
2.6364
2.7286
Std.
Deviation
1.1075
1.6117
Diagrama de tallo de la facturación en el
año 1997 de empresas nuevas y viejas
Nuevas
0
1
2
3
4
5
7
37
345
0389
2
facturacion_1997
9
5420
5400
8
72
42
Viejas
Diagrama de caja de la facturación en el
año 1997 de empresas nuevas y viejas
6
5
4
3
2
1
0
N=
11
14
vieja
nueva
Primero es recomendable comparar los desvíos estándares
poblacionales mediante la siguiente prueba
H0: 1 = 2
Ha: 1  2
El estadístico F de contraste es F 
s 2 mayor
2
s mayor

1.61172
2
1.1075
 2.1178
Se compara el valor calculado F = 2.1178 con los valores críticos de
la distribución F(13, 10). El valor observado F = 2.1178 es menor al
valor crítico F=2.14, correspondiente al área de probabilidad 0.10 de
la cola de la distribución F(13, 10). En consecuencia, el valor P de
dos colas es mayor a 0.10 (exactamente es igual a 0.2397) y luego no
se rechaza H0. La conclusión es que los datos muestran que a un
nivel de significación del 10% la variabilidad de los dos grupos
de empresas no es distinta.
Es decir que los datos de la muestra no presentan evidencias
para suponer que las desviaciones estándares poblacionales no
son iguales. La varianza muestral amalgamada es:
s 2p 
n1  1s12  n 2  1s 22
n1  n 2  2
10  1.61172  13  1.10752

 1.3267
11  14  2
El estadístico t de dos muestras con varianza común es
t
x1  x 2
s p 1 n1  1 n 2
 0.162
La probabilidad asociada resulta igual a 0.873, luego no se
rechaza la hipótesis nula de igualdad de la facturación
promedio en el año 1997 de las empresas nuevas y viejas.
Cuadro 5: Salida del programa estadístico SPSS
Independent Samples Test
Levene's Test for
Equality of Variances
F
facturacion_1997
Equal variances
assumed
Equal variances
not assumed
3.151
Sig .
.089
t-test for Eq uality of Means
t
Sig .
(2-tailed)
df
Mean
Difference
Std. Error
Difference
95% Confidence
Interval of the
Difference
Lower
Upper
-.162
23
.873
-9.221E-02
.5700
-1.2714
1.0870
-.169
22.674
.867
-9.221E-02
.5450
-1.2206
1.0361
Inferencia para una proporción poblacional
Obtén una muestra aleatoria simple de tamaño n de una gran
población con una proporción p de éxitos desconocida. Un
intervalo de confianza de nivel C aproximado para p es
donde
z* es el valor crítico superior normal estandarizado de 1  C
2
Para contrastar la hipótesis H0: p = p0 calcula el estadístico
En términos de la variable Z que tiene una distribución
normal estandarizada, el valor P aproximado para el contraste
de H0 en contra de
Tamaño de muestra para un error de
estimación deseado
El tamaño de muestra necesario para obtener un intervalo de
confianza de nivel C con un error de estimación aproximado m,
para una proporción poblacional p es
donde p* es el valor supuesto para la proporción muestral y z* es
el valor crítico normal estandarizado correspondiente al nivel de
confianza que desees. Si utilizas p* = 0,5 en esta fórmula, el
error de estimación del intervalo será menor o igual que m.
Intervalos de confianza para la comparación
de dos proporciones
Obtén una muestra aleatoria simple de tamaño n1 de una
población con una proporción p1 de éxitos y obtén una muestra
aleatoria simple, independiente de la anterior, de tamaño n2 de
otra población con una proporción p2 de éxitos. Cuando n1 y n2
son grandes, un intervalo de confianza aproximado de nivel C
para p1 - p2 es
En esta fórmula el error típico ET de pˆ 1  pˆ 2 es

1  C
y z* es el valor crítico superior normal estandarizado de
2
En la práctica, utiliza este intervalo de confianza cuando la
población sea al menos 10 veces mayor que las muestras y
los recuentos de éxitos y fracasos sean mayores o iguales que
5 en ambas muestras.
Pruebas de significación para la comparación
de dos proporciones
Para contrastar la hipótesis
H0: p1 = p2
Halla en primer lugar la proporción muestral común pˆ de
éxitos en las dos muestras combinadas. Luego calcula el
estadístico z
En términos de la variable z que tiene una distribución normal
estandarizada, el valor P para una prueba en contra de
En las práctica, utiliza estas pruebas cuando las poblaciones sean al
menos 10 veces mayores que la muestra y cuando los recuentos de
éxitos y fracasos sean mayores o iguales a 5 en ambas muestras.
Caso de estudio 2
Tamaño de muestra, valor P y error típico. En este caso se
examinan los efectos del tamaño de muestra sobre el contraste de
hipótesis y el intervalo de confianza para la comparación de dos
proporciones.
Para cada cálculo, suponga que ˆp1  0,6 y ˆp 2  0,4 y considere n
como el valor común entre n1 y n2. Use la estadística z para probar
H0: p1 = p2 frente a la alternativa Ha: p1  p2. Calcule la estadística y
el valor P asociado para los siguientes valores de n: 15, 25, 50, 75,
100 y 500.
Resuma los resultados en una tabla y realice un gráfico. Explique lo
observado con respecto al efecto del tamaño muestral sobre la
significación estadística cuando las proporciones muestrales no
cambian.
Luego realice cálculos similares para el intervalo de confianza.
Suponga que pˆ 1  0,6 y pˆ 2  0,4 . Calcule el error típico para el
intervalo de confianza del 95% para la comparación de dos
proporciones para los siguientes valores de n = 15, 25, 50, 75, 100 y
500. Resuma y explique sus resultados.
Discusión. Tamaño de muestra y valor P
Se desea contrastar la hipótesis
H0: p1 = p2 frente a la Ha: p1  p2.
Se supone que las proporciones muestrales son pˆ 1  0,4 y
pˆ 2  0,6 , luego la proporción muestral común es
1
pˆ  pˆ 1  pˆ 2   0,5 .
2
Se considera n el valor común entre n1 y n2.
Se calcula el estadístico z bajo el supuesto de que es válida la
pˆ 1  pˆ 2
H0 : p 1 = p 2 : z 
pˆ 1  pˆ 1 n 1  1 n 2 
y luego el correspondiente valor P: 2P(Z ≥ |z|).
Tamaño de muestra y valor P
0,3000
n
Estadístico
15
1,095
Valor
P
0,273
25
1,414
0,157
50
2,000
0,046
75
2,449
0,014
0,1000
100
2,828
0,005
0,0500
500
6,325
0,000
0,0000
0,2500
valor P
0,2000
0,1500
0
50
100
150 200 250 300 350 400 450 500 550
tamaño de muestra (n1=n2)
El gráfico anterior permite observar el efecto del tamaño
muestral sobre la significación estadística cuando las
proporciones muestrales no cambian. El mismo muestra
que el valor P disminuye a medida que aumenta el
tamaño muestral. Además, en este caso, se observa que para
tamaños de muestra superiores a 100 los valores P son
prácticamente nulos.
Esto indica que con un tamaño muestral grande, aún una
diferencia pequeña en las proporciones muestrales, puede
resultar estadísticamente significativa o bien, por otro lado,
que una diferencia importante puede ser estadísticamente no
significativa si la muestra es pequeña.
Discusión. Tamaño de muestra y error típico
La fórmula del error típico de pˆ 1  pˆ 2 es
pˆ 1 1  pˆ 1  pˆ 2 1  pˆ 2 

n1
n2
ET 
Tamaño de muestra y error típico
0,400
n
Error típico
15
0,351
25
0,272
50
0,192
75
0,157
100
0,136
0,050
500
0,061
0,000
0,350
error típico
0,300
0,250
0,200
0,150
0,100
0
50
100
150
200 250
300 350
400 450
tamaño de muestra (n1=n2)
500 550
15
Intervalo de confianza
del 95% para la
comparación de dos
proporciones
(-0,151; 0,551)
25
(-0,072; 0,472)
50
(0,008; 0,392)
75
(0,043; 0,357)
100
(0,064; 0,336)
500
(0,139; 0,261)
Intervalo de confianza del 95% para la comparación de
proporciones y Tamaño muestral
0.600
intervalo de confianza
n
0.500
0.400
0.300
0.200
0.100
0.000
-0.100
-0.200
0
50
100
150 200 250 300 350 400
tamaño de muestra (n1=n2)
450 500 550
El gráfico anterior permite observar el efecto del tamaño
muestral sobre la amplitud del intervalo de confianza para la
comparación de dos proporciones. El mismo muestra que la
amplitud disminuye a medida que aumenta el tamaño
muestral.