Estadística descriptiva

Download Report

Transcript Estadística descriptiva

Estadística Descriptiva
Instructor: Dr. Porfirio Gutiérrez González
Correo: [email protected]
PGG
1
Importancia de la estadística
Descriptiva
Estadística
Inferencial
PGG
- Agricultura
- Biología
- Negocios
- Química
- Comunicaciones
- Economía
- Educación
- Electrónica
- Medicina
- Física
- Psicología
- Sociología
- etc.
2
Estadística descriptiva
• Se relaciona principalmente con la recopilación,
presentación y descripción de datos.
Estadística inferencial

PGG
Se refiere a la técnica de interpretar y usar
valores resultantes de la estadística
descriptiva para responder preguntas que no
solo requieren del análisis directo sino del uso
de la inducción para alcanzar conclusiones
más generales.
3
Población, Muestra, Parámetros y
Estadísticos
Parámetros
generalmente
desconocidos
Estadísticos
estimados
m
s
s2
Población o Universo
Inferir
PGG
Aleatoriamente
x
s
s2
Muestra
4
Medidas de tendencia central y
variabilidad
Para analizar el comportamiento o distribución de un
conjunto de datos, comúnmente se inicia calculando los
estadístico básicos.
Algunos estadísticos que se pueden calcular son:
 Media, Mediana, Moda (medidas de tendencia central)
 Desviación Estándar, Rango, Coeficiente de Variación
(medidas de variabilidad)
PGG
5

Medidas de tendencia central
Media aritmética o promedio
n
S Xj
X =
X1 + X 2 + X 3 + . . . + X n
n
j=1
=
n
Mediana
Es un conjunto de números ordenados en orden de
magnitud ascendente, es decir de menor a mayor; el
dato que ocupa la posición central corresponde a la
mediana.
PGG
6
Moda
En un conjunto de números es el valor que ocurre
con mayor frecuencia, es decir, es el valor más
frecuente.
La moda puede no existir en la distribución e incluso
puede tener 2 o más.
En el caso de una moda la distribución es unimodal;
cuando existen dos modas es bimodal; tres modas,
trimodal; y así sucesivamente.
PGG
7
 Medidas de dispersión o variabilidad
La dispersión o variabilidad de los datos intenta dar una idea
de qué tan esparcidos se encuentran los datos en una
distribución.
PGG
8
Rango o amplitud
En un conjunto de datos el rango se define como
la diferencia existente entre el valor máximo y el
valor mínimo del conjunto de datos.
2,4,3,5,4,3,5,7,6,2,4,5,7,4
Rango = R = VALORmax - VALOR min
R = 7 - 2
R = 5
PGG
9
Desviación estándar
La desviación estándar representa las desviaciones de cada
uno de los números obtenidos con respecto a su media
aritmética, dividido entre el total de datos menos 1. Se
obtiene de la siguiente manera:
𝑆=
𝑛
𝑖=1
𝑋𝑖 − 𝑋
𝑛−1
2
Varianza
𝑆2 =
PGG
𝑛
𝑖=1
𝑋𝑖 − 𝑋
𝑛−1
2
10
Problema
Un producto debe tener un % vol. de alcohol de 40%, con
una tolerancia de ±5%. De los muestreos para evaluar la
calidad se obtienen los siguientes datos:
41.77
39.36
39.67
40.47
42.83
37.49
39.70
39.14
41.75
41.86
PGG
39.28
38.83
42.12
39.52
41.66
43.59
40.38
41.03
39.81
41.77
40.31
39.02
45.22
40.39
42.94
38.08
41.47
37.68
42.71
38.82
34.03
35.43
42.23
38.37
38.67
39.20
41.84
41.66
39.83
40.77
38.89
41.81
38.80
37.26
42.69
42.07
39.48
40.68
38.17
40.10
42.70
44.65
39.57
40.75
40.56
42.16
37.98
40.67
41.89
37.67
11
Resultados estadísticos
Recuento
Promedio
Mediana
Moda
Varianza
Desviación Estándar
Coeficiente de Variación
Mínimo
Máximo
Rango
PGG
60
40.321
40.385
41.77
4.299
2.073
5.14
34.03
45.22
11.19
12
El promedio de % Volumen es 40.321, con esto
puedo afirmar que, si se evalúan a otros 60 .
¿Se esperaría que el promedio fuera de 40.321?
¿Se esperaría que la desviación estándar fuera de
2.07?
PGG
13
 Regla empírica.
Muchos de los datos que surgen en la práctica se ha
observado.
• 𝑋 -S y 𝑋 +S está el 68%
• 𝑋  2S está el 95%
• 𝑋  3S el 99.7%
99.994 %
99.73 %
95.44 %
68.26 %
-2 s
-3 s
-4 s
PGG
- s
+ s
+ 2s
+ 3s
+ 4s
14
• Regla empírica
𝑋  3S el 99.7%
𝑋-3(S)=40.32-3*2.07=34.11
𝑋+3(S)=40.32+3*2.07=46.53
Intervalo [34.11, 46.53]
El 99.7% de la producción del producto tienen % volumen
de 34.11 a 46.53
PGG
15
Intervalo de confianza para la media poblacional
Sea
𝒙𝟏 , 𝒙𝟐 , 𝒙𝟑 , ⋯ , 𝒙𝒏
muestra
es
una
aleatoria
tamaño 𝒏 > 𝟑𝟎
de
tomada de
una población normal
media
𝝁
conocida.
𝒙 − 𝒁∝
𝟐
𝝈
≤ 𝝁 ≤ 𝒙 + 𝒁∝
𝒏
𝟐
𝝈
𝒏
y
con
varianza
Entonces
un
intervalo de confianza
100%(1- 𝜶 ) para
𝝁
del
esta
dada por
Donde 𝒁∝ 𝟐 es el punto de la distribución normal estándar,
que corresponde al nivel de confianza dado 𝜶
PGG
𝝈𝟐
16
𝛼
𝝈
𝒙-𝒁𝜶 𝟐
𝒏
≤𝝁≤
𝟒𝟎. 𝟑𝟐-𝟏. 𝟗𝟔
𝝈
𝒙+𝒁𝜶 𝟐
𝒏
𝟐.𝟎𝟕𝟑
𝟔𝟎
≤ 𝝁 ≤ 𝟒𝟎. 𝟑𝟐−𝟏. 𝟗𝟔
𝑍𝛼
2
0.10
𝑍0.05 = 1.645
0.05
𝑍0.025 = 1.96
0.01
𝑦 𝑍0.005 = 2.575
𝟐.𝟎𝟕𝟑
𝟔𝟎
𝟒𝟎. 𝟑𝟐-𝟎. 𝟓𝟑 ≤ 𝝁 ≤ 𝟒𝟎. 𝟑𝟐−𝟎. 𝟓𝟑
𝟑𝟗. 𝟕𝟗 ≤ 𝝁 ≤ 𝟒𝟎. 𝟖𝟓
*Investigación para el alumno:
1) Investigar el intervalo de confianza para la varianza poblacional.
2) Procedimiento para la construcción de un histograma.
3) Diagrama de caja o de bigotes.
4) Resolver el problema 1 de estadística descriptiva, con el intervalo
de confianza para la media y la varianza.
PGG
17
Histograma para el % de volumen de alcohol
H is to gr a m a de V O L U M E N
18
16
14
Fr e c ue nc ia
12
10
8
6
4
2
0
34.5
36.0
37.5
39.0
40.5
42.0
43.5
45.0
V OLUM EN
PGG
18
Histograma
Es una gráfica de barras la cual presenta en forma ordenada los
datos del proceso con el propósito de determinar el
comportamiento y distribución del proceso del que fueron
tomados los datos.
PGG
19
 Tipos de Histogramas
Es posible obtener información útil sobre el estado de una población
al momento de observar la forma del histograma.
Las siguientes son formas típicas, las cuales podemos emplear como
indicios en el análisis de un proceso.
15
Representa a un proceso
estable en el cual los factores
de variación (6 M´s) son los
únicos que producen la
variación del proceso.
10
5
1 2 3 4 5 6 7
TIPO GENERAL (Normal)
PGG
20
15
Principalmente es el resultado
de mediciones inadecuadas o
registros favorecidos.
10
5
1 2 3 4 5 6 7 8
TIPO PEINETA
15
10
5
1 2 3 4 5 6 7 8
Surge cuando dos características
de trabajo totalmente diferentes
se conjugan en un solo proceso de
observación.
Ejemplo: turnos diferentes,
grupos diferentes,
aulas distintas, etc.
TIPO BIMODAL (Doble pico)
PGG
21
15
Es generado por fuentes externas
al proceso, las cuales producen una
tendencia de los datos a incrementar
su distancia respecto al valor central
de los datos.
10
5
1 2 3 4 5 6 7 8
TIPO SESGO POSITIVO
15
Es generado de igual manera por
causas externas, entre las que
podemos mencionar la alteración
de parámetros para ajustar un proceso
dentro de los límites de especificación
o de control establecidos.
10
5
1 2 3 4 5 6 7
TIPO JOTA ( Precipicio )
PGG
22
Diagrama de Caja para el % Volumen de alcohol
G r á f i c a d e c a ja d e V O L U M E N
4 5 .0
V OLUMEN
4 2 .5
4 0 .0
3 7 .5
3 5 .0
*Tarea para el alumno:
1) Obtener e interpretar el histograma y diagrama de caja para el
problema 1.
2) Realizar el análisis estadístico o exploratorio del problema 5.
PGG
23