Curso intermedio de Minitab

Download Report

Transcript Curso intermedio de Minitab

Contenido
Parte A:
1. Configuración personalizada de Minitab
2. Gráficas especiales
3. Manipulación de datos
4. Cálculos y patrones de datos en columnas
5. Distribuciones de probabilidad
6. Estadística inferencial – Pruebas de hipótesis
2
Contenido
Parte B:
7. Tamaño de muestra y potencia
8. Análisis exploratorio de datos
9. Estadística no paramétrica
10. Tablas y pruebas no paramétricas
11. Regresión lineal y cuadrática
12. Regresión múltiple
3
Contenido
Parte C:
13. Series de tiempo
14. Diseño de experimentos factoriales
15.
Estudios de R&R – Concordancia por atributos
16. Capacidad de procesos por atributos
17. Capacidad de procesos
18. Cartas de control ponderadas en el tiempo
4
Contenido
Parte A:
1. Configuración personalizada de Minitab
2. Gráficas especiales
3. Manipulación de datos
4. Cálculos y patrones de datos en columnas
5. Distribuciones de probabilidad
6. Estadística inferencial – Pruebas de hipótesis
6
Configuración personalizada del Minitab
• Barras de tareas
• Personalización
• Opciones
• Perfiles
• Seguridad de archivos
8
Barras de tareas: Tools > toolbars
9
Barras de tareas: Tools > toolbars > Standard
Ayuda
Editar el último
diálogo Ctrl-E
Comando anterior
Alt-F2
Comando siguiente
F2
Cancelar
Buscar
siguiente
Buscar Ctrl-F
10
Tools > toolbars > Project Manager
Mostrar
folder de
sesión
Mostrar
folders de
hojas
Ctrl-Alt-D
y
Gráficas
Ctrl-Alt-G
Mostrar
InforMación
Ctrl-Alt-I
Mostrar
historial
Ctrl-Alt-H
Mostrar
reporte
Ctrl-Alt-R
Mostrar
documentos
Relacionados
Datos Ctrl-Alt-L
Mostrar diseño
Ctrl-Alt-E
Project
Mgr.
Ctrl-I
Borrar
gráficas
Mostrar hoja de
Datos Ctrl-D
Mostrar sesión
Ctrl-M
11
Tools > toolbars > Worksheet
Asignar
Fórmula
a columna
Insertar celda
renglón y columna
Mover
columna
Mostrar
Filas de
Datos de
Puntos
Selec.
Con
Brush
Borrar
12
Tools > toolbars > Graph editing
Selección
Brush
Borrar
selección
13
Tools > toolbars > Graph annotation tool
Selección
Insertar rectángulo círculo,
línea, punto
Insertar dibujo de
línea o superficie
Insertar
Texto
14
Tools > toolbars > 3-D Graph tools
Rotación
inversa y
normal en
el eje X
Rotación
inversa y
normal en
el eje Y
Rotación
inversa y
normal en
el eje Z
Rotación inversa y
normal ligera en los
ejes X, Y y Z
Zoom
+y-
Regreso a
parámetros
inciales
15
Tools > toolbars > Factorial designs
Crear
diseño
factorial
Definir
diseño
factorial
Seleccio
nar
Diseño
óptimo
Analizar
Diseño
factorial
Optimizador
Analizar
variabilidad
Preproceso
de
respuestas
para
análisis de
variabilidad
Gráficas
factoriales
Modificar
y mostrar
diseño
Gráficas de
contornos
overlaid
Gráficas de
contorno y
superifice de
respuesta
16
Tools > toolbars > Response surface designs
Crear diseño
de superficie
de
respuesta
Definir diseño
de superficie de
respuesta
Seleccionar
Diseño
óptimo
Analizar
Diseño
de
Superficie
de
respuesta
Optimizador
Modificar
y mostrar
diseño
Gráficas de
contornos
overlaid
Gráficas de
contorno y
superifice de
respuesta
17
Tools > toolbars > Mixture designs
Crear
diseño
factorial
Definir
diseño
factorial
Seleccio
nar
Diseño
óptimo
Analizar
Diseño
factorial
Gráficas
factoriales
Gráfica
Del diseño
Simplex
Gráficas
de trazo
de
respuesta
Optimizador
Modificar
y mostrar
diseño
Gráficas de
contornos
overlaid
Gráficas de
contorno y
superifice de
respuesta
18
Tools > toolbars > Taguchi designs
Crear
diseño
de
Taguchi
Definir diseño
de Taguchi
Analizar
Diseño
de
Taguchi
Modificar y
mostrar diseño
Predecir
resultado
19
Tools > Customize
Para personalizar
las opciones de
menú, seleccionar
y arrastrar el
comando
específico, a una
barra de menú
existente
Tools > Options
Para personalizar
las opciones por
Default, de cada
una de las
opciones y menús
de Minitab
Tools > Profiles
Para personalizar
las opciones y
menús de Minitab,
definidos para un
perfil específico
Seguridad para archivos
Permite asignar passwords en archivos de proyectos.
para protegerlos de uso no autorizado.
Tools > File Security
File > Save Project As > Security
Password to open project file
Clave para abrir un archivo de proyecto
(Hasta 15 caracteres)
Password to modify project file
Clave para modificar archivo de proyecto
Read Only
Permite su acceso de solo lectura
NOTA: Si el password se olvida o pierde, no hay forma de recuperarlo
Gráficas especiales
• Gráficas de dispersión de dos variables
• Gráficas matriciales de dispersión
• Gráficas tridimensionales
• Gráficas de contornos
• Gráficas de superficies de respuesta
25
Gráficas de dispersión de dos variables
Gráfica de dispersión simple
File > Open Worksheet > Pulse.mtw
o Copiar los datos de Archivos Datos Módulo 2 a Minitab
Graph > Scatterplot > Simple
Indicar en Y variable Weight y en X variable Height
La gráfica de dispersión simple se muestra a continuación:
Scatterplot of Weight vs Height
220
200
Weight
180
160
140
120
100
60
62
64
66
68
Height
70
72
74
76
26
Gráfica de dispersión Simple con una variable categórica:
File > Open Worksheet > Pulse.mtw
Graph > Scatterplot > Simple
Indicar en Y variable Weight y en X variable Height
Se puede agregar otra variable para estratificar haciendo doble click en los
puntos y seleccionando la pestaña Groups e indicando la variable
categórica Sex.
Scatterplot of Weight vs Height
220
Sex
1
2
200
Weight
180
160
140
120
100
60
62
64
66
68
Height
70
72
74
76
27
Para cambiar el tipo se símbolo por categoría para impresión en blanco y negro:
Click sobre cualquiera de los puntos, para seleccionarlos todos
Click sobre los puntos de una cierta categoría
Doble click para que aparezca el cuadro de diálogo que permita cambiar color,
símbolo y tamaño para los puntos de ese grupo.
28
Para marcar más de un punto a la vez se utiliza Brush
Con el gráfico seleccionado con un click, seleccionar Editor > Brush, se pueden
seleccionar los puntos uno a uno o con un cuadro seleccionar varios a la vez,.
manteniendo presionado el botón izquierdo del ratón mientras se seleccionan.
Otra forma de activar Brush es con la barra de herramientas Graph Editing llamada
desde: Tools > Tool Bars > Graph Editing
29
Con Brush activado y con la ventana de gráfica activa, en el Menu Editor seleccionar
Set ID Variables indicar Pulse 1, Pulse 2, Ran, Smokes,
Activity seleccionar Include (row numbers)
Se muestra la siguiente información:
30
Para poner la Actividad a cada punto se usa:
Graph > Scatter plot: With Groups
Labels > Data Labels > seleccionar Use Labels from Column Activity
31
Para hacer un Zoom de una zona del diagrama hay que cambiar los valores mínimo y
máximo de los ejes, seleccionar cada uno y en Scale Range poner los adecuados.
Eje X
Minimum
100 Maximum
120
Eje Y
Minimum
61 Maximum
64
32
Para identificar las coordenadas de los puntos
de la gráfica seleccionar la gráfica
Editor > Crosshair
El cursor se convierte en una cruz que se puede
colocar en el punto para ver las coordenadas
33
Gráficas de dispersión Bivariantes con páneles:
Se utiliza el archivo REHEAT.MTW de Minitab localizado en DATA .
File > Open Worksheet > Reheat.Mtw
Graph > Scatter plot: With Connect Line
para unir los puntos
Y variable Quality X variables Time
Multiple graphs > By Variables > En By variables in separate panels Temp
34
Para modificar la apariencia de la gráfica, seleccionarla y :
Editor > Panel > Options
Seleccionar Don´t alternate panels
Seleccionar Group information: Both variable names and levels
Scatterplot of Quality vs Time
Temp = 350
Temp = 375
Temp = 400
Temp = 425
Temp = 450
Temp = 475
8
6
4
Quality
2
0
8
6
4
2
0
25
30
35
25
30
35
25
30
35
Time
35
Graficas bivariantes con distribuciones de frecuencia adicionales: Reheat.Mtw
File > Open Worksheet> Reheat.Mtw
Graph > Marginal Plot
Variables Y = PVP X = Pot(CV)
Se tienen 3 posibilidades después de indicar la variable Y y X como antes:
Marginal Plot of Height vs Weight
75
75
70
70
Height
Height
Marginal Plot of Height vs Weight
65
65
100
150
Weight
200
100
150
Weight
200
Marginal Plot of Height vs Weight
Height
75
70
65
100
150
Weight
200
36
Matrices de Graficas bivariantes simples: Pulse.Mtw
Simple
File > Open Worksheet > Pulse.Mtw
Graph > Matrix Plot > Simple
Se tienen varias posibilidades después de indicar las variables:
Matriz de "todas" por "todas" las
variables seleccionadas
Permite seleccionar
toda la matriz o
solo la parte inferior
o superior de la
misma
37
Matrix Plot of Pulse1, Pulse2, Height, Weight
50
100
150
100
150
200
100
75
Pulse1
50
150
100
Pulse2
50
75
70
Height
65
200
150
Weight
100
50
75
100
65
70
75
38
Matrices de Graficas bivariantes por grupos: Pulse.Mtw
Por grupos
File > Open Worksheet > Pulse.Mtw
Graph > Matrix Plot > With groups
Graph variables > Pulse 1 Pulse 2 Height Weight
Categorical variables for subgroups Sex
OK
Matrix Plot of Pulse1, Pulse2, Height, Weight
50
100
150
100
150
200
100
75
Pulse1
Sex
1
2
50
150
100
Pulse2
50
75
70
Height
65
200
150
Weight
100
50
75
100
65
70
75
39
Matrices de Graficas bivariantes varias X vs varias Y: Pulse.Mtw
Por grupos
File > Open Worksheet > Pulse.Mtw
Graph > Matrix Plot > Each Y vs Each X > With Smoother
Y variables > Pulse 1 Pulse 2 X Variables Height Weight
OK
Matrix Plot of Pulse1, Pulse2 vs Height, Weight
100
125
150
175
200
Pulse1
100
75
50
150
Pulse2
125
100
75
50
60
64
68
Height
72
76
Weight
40
Gráficas de dispersión tridimensionales: Coches.Mtw
Grafica bivariada en tres dimensiones
Graph > 3D Scatter Plot
Se utiliza de nuevo el archivo COCHES.MTW anexo
3DScatterplot of PVPvs Pot.(CV) vs Cil.(cc)
45000000
30000000
PVP
15000000
Indicar las variables para el eje
Z, Y y X
450
0
300
0
2000
Cil.(cc)
150
4000
6000
Pot.(CV)
0
41
Con la herramienta Tools > Tool Bars > 3D Graph tools se puede modificar la gráfica:
Girar gráfica
Zoom
Posición inicial
Sobre la gráfica de 3 dimensiones se
pueden usar también las opciones Brush,
modificar ejes, puntos, etc. haciendo
doble click sobre ellos.
En algunos casos se desea tener los
líneas verticales para los puntos, esto
se hace en el menu de:
Graph > 3D Scatter Plot
Data View Seleccionar en Data Display
Projected lines
42
Grafica bivariada en tres dimensiones estratificada por una variable categórica
Graph > 3D Scatter Plot
3DScatterplotof PVPvsPot.(CV)vsCil.(cc)
Num.Cil.
2
4
5
6
8
12
45000000
Indicar las variables Z, Y y X así
como la variable (s) categórica (s)
30000000
PVP
15000000
450
300
150 Pot.(CV)
0
0
2000
Cil.(cc)
4000
6000
0
43
ContourPlotofC3vsC2,C1
5.0
Curvas de nivel (Contour Plots)
-0.4
-0.4
-0.4
Graph > Contour Plot
C2
Columnas de datos para Z, Y y X de Mesh
2.5
-0.8
-0.8
0.4
0.4
0.0
0.8
0.8
-2.5
0.0
-0.4
-0.8
-5.0
-5.0
-2.5
-0.4
-0.8
0.0
C1
-0.8
2.5
5.0
44
Superficie mallada (Wireframe) o superificie con textura (surface)
Graph > 3D Scatter Plot
Generar datos para la superficie por medio de una función ya establecida con:
Calc > Make Mesh Data
Columnas donde
se guardan los
datos generados
Datos para un
sombrero vaquero
Obtener la gráfica con:
Graph > 3D Surface Plot
45
Obtener la gráfica con:
Graph > 3D Surface Plot
Columnas de datos para Z, Y y X de Mesh
Se tienen dos opciones,
mallada o superficie
Surface Plot of C3 vs C2, C1
1
C3
0
5
-1
0
-5
C1
0
5
C2
-5
46
Extraer subconjuntos de datos de hojas de trabajo (Worksheets)
Data > Subset worksheet
49
La sección de la hoja de trabajo resultante es:
50
Dividir hojas de trabajo (Worksheets)
Data > Split worksheet
51
Reunir hojas de trabajo (Worksheets)
Data > Merge worksheet
OK
52
Copias diversas
Data > Copy
OK
53
Apilar columnas
Data > Stack columns
OK
Columnas resultantes
54
Desapilar columnas
Data > Unstack columns
OK
Columnas resultantes
55
Transponer columnas
Transpone columnas a renglones
Por ejemplo, se tienen datos de estudiantes arreglados en columnas
pero se quiere rearreglarlos por tipo de ejercicio:
Task
Pushups
Pullups
Situps
Lyn
Bill
50
66
73
Sam
69
85
88
Marie
70
81
95
57
76
79
File > Open Worksheet > Exercise.Mtw
Data > Transpose columns
En Transpose the following columns Lyn Bill Sam Marie
En Store Transpose seleccionar After last column in use
En Create variable names using columns, anotar Task
OK
56
Los resultados se muestran a continuación:
Labels
Lyn
Bill
Sam
Marie
Pushups
Pullups
50
69
70
57
Situps
66
85
81
76
73
88
95
79
57
Ordenar datos por una más columnas
En los siguientes datos de ventas, se desea un listado
por agencia:
Index
Quarter
1
2
3
4
5
6
7
8
Year
1
2
3
4
1
2
3
4
Sales
1991
1991
1991
1991
1992
1992
1992
1992
Advertis
94
99
98
92
106
116
113
108
Capital
17
10
9
22
24
18
13
14
AdAgency
8
6
12
16
29
32
33
36
Omega
Omega
Alpha
Alpha
Alpha
Alpha
Omega
Omega
File > Open Worksheet > Market.Mtw
Data > Sort
En Sort column(s), seleccionar Sales Advertis AdAgency
En la primera By column seleccionar AdAgency
En la segunda By column seleccionar Advertis y seleccionar Descending
En Store sorted data seleccionar Columns(s) of current worksheet
seleccionar C8 C9 C10
OK
58
Los resultados son los siguientes:
Sales
Advertis
106
92
116
98
94
108
113
99
24
22
18
9
17
14
13
10
AdAgency
Alpha
Alpha
Alpha
Alpha
Omega
Omega
Omega
Omega
59
Borrado de datos de renglones y columnas
Data > Delete Rows
OK
Data > Erase variables
OK
60
Uso de tablas de conversión
Se desea codificar los nombres de estados a sus números de ID
Tabla de conversión
State
MT
CO
CO
OR
WA
CA
WA
StNam
AL
AK
AZ
AR
CA
CO
CT
STID
StCod
1
2
3
4
5
6
7
La Tabla resultante es la siguiente:
State
MT
CO
File > Open Worksheet > States. Mtw
CO
Crear una columna nueva STID para los códigos
OR
Data > Code > Use conversion Table
WA
En Input column, seleccionar State
CA
En Output column, seleccionar STID
En Column of Original Values, seleccionar StNam
WA
En Column of New Values, seleccionar StCod
CO
OK
StNam
AL
AK
AZ
AR
CA
CO
CT
DE
StCod
STID
1
2
3
4
5
6
7
8
26
6
6
37
47
5
47
6
61
Cambio de tipo de variables
Tabla resultante
C1-T
C2-D
Data > Change data type
Fechas
Ene-10
Feb-10
Mar-10
Abr-10
May-10
Jun-10
Dates
Ene-2010
Feb-2010
Mar-2010
Abr-2010
May-2010
Jun-2010
Se desea cambiar datos de fecha en texto a datos en formato de fecha
Fechas
Ene-1-10
Feb-1-10
Mar-1-10
Abr-1-10
May-1-10
Jun-1-10
Instrucciones de Minitab:
Data > Change data type > Text to Date/Time
En Change text column, seleccionar Fechas
En Store Date / Time columns in, seleccionar Dates
En Format of text columns (e.g. mm-dd-yy), mm-yy
OK
NOTA: mmm da el nombre del mes
62
Extracción de datos de fechas
Data > Extract from Date / Time
Tabla resultante
C2-D
Dates
FechaNum
Ene-2010
201001
Feb-2010
201002
Mar-2010
201003
Abr-2010
201004
May-2010
201005
Jun-2010
201006
63
Concatenar columnas
Se usa para combinar columnas de texto en una columna más amplia
Por ejemplo, los nombres y apellidos de estudiantes, estan en 2 columnas:
Apellido
Allen
Charles
Perkins
Richards
Stephens
Nombre
Jo
Dave
Max
Bob
Mary
File > Open worksheet > STUDENTS.MTW
Data > Concatenate
En Concatenate text columns, First Last
En Store Results, poner Students
OK
Tabla resultante
Students
Jo Allen
Dave Charles
Max Perkins
Bob Richards
Mary Stephens
64
Despiegue de contantes y matrices
Data > Display data
Muestra datos seleccionados de constantes y matrices almancenadas
dado que no se mostraron en la ventana de sesión.
Las constantes son números o textos definidos, para uso en fórmulas
y cálculos. Todas las constantes se identifican con un nombre que inicia
con K (K1, K2, etc.). Minitab tiene tres constantes reservadas:
K998 = *
K999 = 2.718 (e ) K1000 = 3.4142 (Pi)
También se pueden asignar otros nombres a las constantes.
65
Las matrices son bloques rectangulares de números sobre los que se
realizan operaciones matemáticas.
Por ejemplo una matriz 3 x 4 (filas x columnas) es:
Las matrices tienen una identificación que inicia con M (M1, M2, etc.)
También se pueden asignar otros nombres a las matrcies.
Instrucciones de Minitab:
Data > Display Data
En Columns, constants, and matrices to display, las que se quieren mostrar
OK
66
Cálculo y patrones de datos en columnas
Calculadora aritmética de columnas
La calculadora se utiliza para realizar operaciones aritméticas,
comparaciones, operaciones lógicas y operaciones entre columnas.
Se puede realizar la operaciòn inmediata, o asignarla como fórmula a
una columna o constante. Las expresiones no pueden contener matrices.
C1-C4 no es un rango de valores, se interpreta como C1 menos C4.
Ejemplo:
File > Open worksheet > PULSE.Mtw
Calc > Calculator
Store results in variable, Pulse Diff
En Expresion, poner Pulse2 - Pulse 1
OK
69
Los resultados son:
Pulse1
Pulse2
64
58
62
66
64
88
70
76
78
80
Pulse Diff
24
12
14
12
16
70
Asignación de una constante
Se desea asignar el valor 1.25 en una constante
Calc > Calculator
Store results in variable, K1
En Expresion, poner 1.25
OK
71
Cálculos con datos de fechas
Restar dos columnas de fechas
Fecha Hoy - Fecha Anterior
Restar 30 días a la fecha de hoy
y guardar el resultado numérico
TODAY() - 30
Restar 30 días a la fecha de hoy DATE(TODAY() - 30)
y guardar el resultadocomo fecha
Extraer la fecha de una columna
de Fecha / Tiempo
DATE(fecha)
Guardar un indicador (verdadero Fecha = WHEN("3/15/03")
falso) en una columna, con base
en la fecha y tiempo de una
columna de fecha
(1= verdadero, 0=falso)
72
Guardar un indicador (verdadero Tiempo >= TIME ("7:30") AND
falso) en una columna, con base Tiempo <= TIME ("13:30")
en el tiempo de una columna
Guardar un indicador (verdadero Fecha contratada > TODAY()-30
falso) en una columna, con base
en comparación de datos de fechas
Guardar un indicador (verdadero Fecha contratada >DATE("3/15/03")-30
falso) en una columna, con base
en comparación de datos de fechas
73
Expresiones generales
Calcular una expresión matemática
Coeficiente de variación
STDEV(C1)/MEAN(C10)*100
Área del círculo
K1000*C1**2
Grados centígrados
5/9*(Farenheit - 32)
Guardar texto en columna
"Verde"
Guardar un indicador de
verdadero o falso en col.
(1= verdadero, 0=falso)
C1 > C2
(C1<10) or (C1>=16)
74
Estadísticas de fila y columna
Determina las estadísticas de filas y columnas con las pantallas sig.:
Calc > Column statistics
Calc > Row statistics
75
Estandarizar valores de variable
Se utiliza para determianr los valores Z correspondientes a valores X
almacenados en una columna:
Calc > Standaridize
76
Patrones de datos en columnas
Facilita el llenado de una columna con números que siguen un patrón
tales como 1 al 100, o 5 subconjuntos de 1, 2 y 3.
Se pueden obtener patrones con números igualmente espaciados o
con espaciamientos diferentes como 10, 20, 50….
Calc > Make patterned data
77
Por ejemplo:
Calc > Make Patterned Data > Simple set of numbers
Store patterned data, poner ID
En From firs value, poner 1, en To last value, poner 100
OK
Tabla resultante:
ID
1
2
3
4
5
78
Otros ejemplos:
79
Otros ejemplos:
80
Arbitrary set of numbers
Text Values
81
Simpe set of Date/Time values Arbitrary set of Date/Time values
82
Variables indicadoras parea la regresión
Convierte datos categóricos en variables indicadoras para uso en regresión
Ejemplo:
AL realizar un análisis de regresión de los datos de ventas, se quiere incluir
la estación del año, que es variable categórica, primavera, verano,
otoño e invierno (datos en archivo SEASONALSALES.MTW).
Season
Spring
Spring
Spring
Spring
Spring
Etcétera…
Daily Sales
3.75
3.89
4.78
3.82
3.63
83
Instrucciones de Minitab:
File > Open worksheet > SEASONALSALES:MTW
Calc > Make Indicator variables for, Season
Store indicator variables in columns, Spring Summer Fall Winter
OK
84
Los datos resultantes son:
Season
Spring
Spring
Spring
Spring
Spring
Daily Sales
3.75
3.89
4.78
3.82
3.63
Fall
Spring
0
0
0
0
0
1
1
1
1
1
Summer Winter
0
0
0
0
0
0
0
0
0
0
Etc…
Se puede ahora realizar la regresión con:
Instrucciones de Minitab:
Stat > Regresión > Regression
En Response, poner Daily Sales
En Predictors, Spring Summer Fall Winter
OK
85
Los resultados se muestran a continuación:
The regression equation is
Daily Sales = 0.687 + 0.634 Fall + 3.13 Spring
+ 4.03 Summer
Predictor
Constant
Fall
Spring
Summer
Coef
0.6870
0.6340
3.1290
4.0310
S = 0.628497
SE Coef
0.1987
0.2811
0.2811
0.2811
R-Sq = 88.8%
T
3.46
2.26
11.13
14.34
P
0.001
0.030
0.000
0.000
R-Sq(adj) = 87.8%
86
Interpretación:
Los coeficientes para Fall, Spring y Summer son significativos.
Las ventas de Spring sonm mayores en $3.13 que las de Winter $0),
en general se pueden observar las diferencias de los coeficientes
de las estaciones para comparar sus efectos en las ventas.
Normal Probability Plot
(response is Daily Sales)
99
95
90
Percent
80
70
60
50
40
30
20
10
5
1
-1.5
-1.0
-0.5
0.0
Residual
0.5
1.0
1.5
Los residuos muestran normalidad, por lo que el modelo es válido
87
Distribución normal o de Gauss
Estadístico Z
Inferencia estadística de los
parámetros:
m= media
Cuando n >= 30 y/o
(de datos históricos)
m=proporción
Cuando n >= 30
es conocida
Estadístico t
Inferencia estadística del
parámetro:
m= media
Cuando n < 30 y desconocida
(sin historial del proceso o prov.)
90
Estadístico 2
Inferencia estadística del
parámetro:
= desviación estándar
Comprobar normalidad del
proceso
Estadístico F
Inferencia estadística del
parámetro:
12/ 22 relación de varianzas
Revisar normalidad de muestras
91
Generación de números aleatorios para simulación
Permite generar números aleatorios a partir de diferentes distribuciones
con base en sus parámetros específicos:
Calc > Random data
92
Ejemplo para la distribución normal:
Calc > Random data > Normal
La tabla resultante es:
Datos
113.307163
103.446686
100.30218
118.253584
105.06341
Etcetera
93
Distribuciones de probabilidad
Permite calcular las densidades de probabilidad, probabilidades
acumulativas y probabilidades acumulativas inversas para
una serie de distribuciones discretas y continuas:
Calc > Probability distributions
94
Ejemplo para la distribución normal:
Calc > Probability distributions > Normal
Los resultados son:
Cumulative Distribution Function
Normal with mean = 100 and standard deviation = 10
x
90
P( X <= x )
0.158655
95
Mostrar áreas bajo la curva de probabilidad
Se trata de ver el área que incluye al 10% de los alumnos que obtuvieron las calificaciones más altas
a partir del 90%, con una media de 1211 y una desviación estándar de 320, y ver si la calificación de
1738 entra en esta zona.
Seleccionar Graph > Probability Distribution Plot.
Seleccionar View Probability, click OK.
De la Distribution, Seleccionar Normal.
En Mean, poner 1211 . En Standard deviation, poner 320 .
Click en Shaded area. En Define Shaded Area By, seleccionar X Value.
Click Right Tail. En X value, poner 1738 .
Distribution Plot
Click OK en cada cuadro de diálogo
Normal, Mean=1211, StDev=320
0.0014
0.0012
0.0010
Density
1
2
3
4
5
6
7
0.0008
0.0006
0.0004
0.0002
0.0498
0.0000
1211
X
1738
98
O para un 10% del área:
5 Click en Shaded area. En Define Shaded Area By, seleccionar Probab., Right Tail, 0.10.
Distribution Plot
Normal, Mean=1211, StDev=320
0.0014
0.0012
Density
0.0010
0.0008
0.0006
0.0004
0.0002
0.0000
0.1
1211
X
1621
El valor de 1738 si entra en la zona.
99
Solo como demostración para el caso de dos colas:
5 Click en Shaded area. En Define Shaded Area By, sel. Probab., Both Tails, 0.10.
Distribution Plot
Normal, Mean=1211, StDev=320
0.0014
0.0012
Density
0.0010
0.0008
0.0006
0.0004
0.0002
0.05
0.0000
0.05
685
1211
X
1737
100
Prueba de normalidad
Es una prueba de hipótesis de una población para determinar si la muestra se extrae de una
población normal, que es la hipótesis nula. La hipótesis alterna es que no es normal.
Se puede hacer por diversos métodos:
1. Método gráfico
Se trata de probar la flamabilidad de una fibra y ver si sigue una distribución normal,
además se quiere observar su valor en el percentll 87avo.
1
2
3
4
5
6
File > Open worksheet FLAMERTD.MTW.
Graph > Probability Plot.
Seleccionar Single, click OK.
En Graph variables,seleccionar Fabric .
Click Scale, y click el Percentile Lines .
En Show percentile lines at Y values, teclear 87 . Click OK en cada cuadro de diálogo.
101
Probability Plot of Fabric
Normal - 95% CI
99
95
90
87
Mean
StDev
N
AD
P-Value
3.573
0.5700
15
0.310
0.517
Percent
80
70
60
50
40
30
20
10
1
4.215
5
2
3
4
Fabric
5
6
Los puntos no salen del intervalo de confianza del 95% y el P value es menor de 0.05
por tanto los datos de la muestra siguen una distribución normal.
El IC del 87% se encuentra entre los valores 3.84295 y 4.58790
102
6. Estadística inferencial
Pruebas de hipótesis
105
Estadística inferencial
• Introducción
• Intervalos de confianza
• Pruebas de hipótesis de una población
• Pruebas de hipótesis de dos poblaciones
• Análisis de varianza de una vía (ANOVA One way)
• Análisis de varianza de dos vías (ANOVA two ways)
• Análisis de medias (ANOM)
• ANOVA balanceado
106
IC = Estadístico +- error muestral
Intervalo de
confianza (95%) ,
rango de valores
para estimar los
parámetros , ,
2, 
Población, total
de productos y
servicios (N)
Muestra
(n)
Inferencia estadística
de los parámetros:
m= media
s= desviación estándar
2= varianza
=proporción
Estadísticos
X, s, p
107
Distribución normal o de Gauss
Estadístico Z
Inferencia estadística de los
parámetros:
m= media
Cuando n >= 30 y/o
(de datos históricos)
m=proporción
Cuando n >= 30
es conocida
Estadístico t
Inferencia estadística del
parámetro:
m= media
Cuando n < 30 y desconocida
(sin historial del proceso o prov.)
108
Estadístico 2
Inferencia estadística del
parámetro:
= desviación estándar
Comprobar normalidad del
proceso
Estadístico F
Inferencia estadística del
parámetro:
12/ 22 relación de varianzas
Revisar normalidad de muestras
109
IC = Estadístico +- error muestral
Intervalo de
confianza (95%) ,
rango de valores
para estimar los
parámetros , ,
2, 
Población, total
de productos y
servicios (N)
Estadísticos utilizados:
m= media, Z o t
=proporción
Muestra
(n)
s= desviación estándar, 2
12/
22 Rel. de varianzas
Estadísticos
X, s, p
110
Intervalos de confianza para la media
Determinar el intervalo de confianza para la media poblacional , con los datos tomados
del índice de calidad del vino, con los datos en el archivo Wine.Mtw. Desv. Estándar = 2.04
Se utiliza el estadístico Z por ser n > 30
File > Open worskeet > Wine.Mtw
Stat > Basic statistics > 1-Sample-Z (Test and confidence interval)
Samples in columns seleccionar columna Quality Estándar deviation 2.04
Options Confidence level 95% OK
Individual Value Plot of Quality
Graphs seleccionar Individual value plot OK
OK
(with 95% Z-confidence interval for the Mean, and StDev = 2.04)
_
X
Intervalo donde se encuentra
La media poblacional
7
8
9
10
11
12
Quality
13
14
15
16
111
Se obtienen los resultados siguientes:
One-Sample Z: Quality
The assumed standard deviation = 2.04
Variable
N
Mean StDev SE Mean
95% CI
Quality
38 12.437 2.045
0.331 (11.788, 13.085)
Conclusión: para un 95% de nivel de confianza, con los datos obtenidos de
la muestra del ínidice de calidad del vino (Quality), el intervalo que contiene al índice
promedio de calidad para toda la producción de vino es:
(11.788 a 13.085)
La gráfica de puntos que muestra la distribución de los valores del índice de calidad
y el Intervalo de confianza correspondiente, para un nivel de confianza del 95% es:
Individual Value Plot of Quality
(with 95% Z-confidence interval for the Mean, and S tDev = 2.04)
_
X
7
8
9
10
11
12
Quality
13
14
15
16
112
Prueba de hipótesis

Una prueba de hipótesis es una afirmación sobre el valor que
se estima tiene un parámetro poblacional , , 2, 

Si la afirmación contiene el signo igual (=, >=, <=) se establece
primero la hipótesis nula Ho

Si la afirmación contiene los signos (<, >, <> o
primero la hipótesis alterna Ha

Es necesario establecer el nivel de confianza de la prueba,
normalmente 95% (o alfa de 1-NC = 0.05)
) se establece
113
Prueba de hipótesis para la media
Cuando no se conoce la desviación estándar y la muestra n es menor a 30.
Por ejemplo, se afirma que las ventas promedio diarias son mayores a 100 unidades:
Se toma una muestra de 20 días y se determina que el promedio es 110
y la desviación estandar de la muestra es 5
Establecimiento de hipótesis
Ha: m> 100
Ho: m<= 100
En Minitab:
Stat > Basic statistics > 1-sample t
114
One-Sample
Z muestran a continuación
Los resultados se
Test
of mu = 100
One-Sample
T vs > 100
The
assumed
standard
deviation
= 5 with summarized data.
* NOTE
* Graphs
cannot
be made
Test of mu = 100 vs not = 100
LowerSE Mean
N
Mean 95%
StDev
95% CI
N Mean
SE Mean
P
20
110.00
5.00 Bound
1.12 Z (107.66,
112.34)
20 110.00
1.12
T
8.94
P
0.000
108.16 8.94 0.000
Conclusión: El intervalo de confianza donde se encuentra el promedio de las ventas
con base en una muestra tomada es (107.66 a 112.34) para un 95% de nivel de confianza.
El Intervalo de confianza de (107.66, 112.34) no contiene a la media de la hipótesis (100)
y P value es menor a 0.05, se rechaza Ho y se acepta Ha, ya subió el promedio de ventas.
115
Cuando se conoce la desviación estándar y la muestra n es mayor a 30.
Para el caso de los datos del archivo Wine.Mtw se trata de probar la afirmación de que
el aroma es mayor o igual a 4, a un 95% de nivel de confianza.
Establecimiento de hipótesis
Ha: m<4
Ho: m>= 4
En Minitab:
Stat > Basic statistics > 1-Sample-Z (Test and confidence interval)
Samples in columns seleccionar columna Aroma Standard deviation 4.847
Perform hypothesis test Hypothesized mean 4
Options Confidence level 95% Alternative Less Than OK
Graphs seleccionar Individual value plot OK
OK
116
117
Los resultados se muestran a continuación:
One-Sample Z: Aroma
Test of mu = 4 vs < 4
The assumed standard deviation = 4.847
Variable
Aroma
N
38
Mean
4.847
StDev
1.082
95% Upper
Bound
6.141
SE Mean
0.786
Z
1.08
P
0.859
Conclusión: El intervalo de confianza donde se encuentra el promedio de Aroma
con base en una muestra tomada es (…., 6.141) para un 95% de nivel de confianza.
El Intervalo de confianza de (….., 6.141) SI contiene a la media de la hipótesis (4)
y P value es mayor a 0.05, NO se rechaza Ho, el Aroma tiene un promedio >= 4.
Individual Value Plot of Aroma
(with Ho and 95% Z-confidence interval for the Mean, and StDev = 4.847)
_
X
Ho
3
4
5
6
7
8
A roma
118
Prueba de hipótesis para una proporción
Ejemplo: Un producto tiene accesorios que se piensa nadie usa, se hace una encuesta
a 200 usuarios y 17 si usan los accesorios.
¿Para un 95% de confianza se confirma la sospecha de que menos del 10% de
usuarios usan estos accesorios?
Establecer hipótesis:
Ho: Proporción  >= 0.10
Ha: Proporción  < 0.10
Instrucciones de Minitab
Stat > Basic Statistics > 1 - Proportion
Options Confidence level 95% Test Proportion 0.1 Alternative Less Than
seleccionar Use test and interval based on normal distribution
OK
119
Se obtuvieron los resultados siguientes:
Test and CI for One Proportion
Test of p = 0.1 vs p < 0.1
Sample
1
X
17
N
200
Sample p
0.085000
Upper
Bound
0.124771
Exact
P-Value
0.285
No se rechaza Ho ya que la Proporción del 10% de la
hipótesis se encuentra en el intervalo de confianza y el
P value es mayor a 0.05, no se acepta la hipótesis alterna.
Es válido decir que sólo el 10% de usuarios utilizan los accesorios
120
Comparación de dos medias - Muestras independientes
Ho: Media A (mA)- Media B (mB) = 0
Ha: Media A (mA)- Media B (mB) 0
Ejemplo: 10 pieles son curtidas usando el método A y 10 usando el método B, las
resistencias a la tracción son las siguientes:
Método A Método B
24.3
24.4
25.6
21.5
26.7
25.1
22.7
22.8
24.8
25.2
23.8
23.5
25.9
22.2
26.4
23.5
25.8
23.3
25.4
24.7
¿Se puede decir que los dos métodos producen resistencias a la tracción diferentes?
Usar un nivel de confianza del 95%.
En Minitab:
Se colocan los valores en dos columnas diferentes C1 y C2 corresp. A Metodos A y B
121
Paso 1. Se realiza un análisis de comparación de varianzas poblacionales:
Ho: Varianza A = Varianza B
Ha: Varianza A  Varianza B
Stat > Basic Statistics > 2 Variances
Samples in different columns First Método A Second Método B
Options Confidence level 95%
OK
122
Los resultados son los siguientes:
Test for Equal
95% Bonferroni
F-Test (normal
Test statistic
Variances: Método A, Método B
confidence intervals for standard deviations
distribution)
= 1.01, p-value = 0.991
Como el P value es mayor a 0.05 no se rechaza la Hipótesis nula de igualdad de
varianzas, por tanto se asume que son iguales. Esta inf. se usará a continuación:
123
Paso 2. Se realiza un análisis de comparación de medias poblacionales
Establecer hipótesis
H: Media A - Media B = 0
Ha: Media A - Media B  0
Instrucciones de Minitab:
Stat > Basic Statistics > 2 - Sample t
Samples in different columns First Método A Second Método B
seleccionar Assume equal variances
Options Confidence level 95% Test difference 0.0 Alternative Not equal OK
OK
124
La gráfica de caja parece indicar diferencia entre las medias de las muestras
Boxplot of Método A, Método B
27
26
Data
25
24
23
22
21
Método A
Método B
125
Se obtienen los siguientes resultados:
Two-sample T for Método A vs Método B
N
Mean StDev SE Mean
Método A 10 25.14
1.24
0.39
Método B 10 23.62
1.24
0.39
Difference = mu (Método A) - mu (Método B)
Estimate for difference: 1.52000
95% CI for difference: (0.355, 2.685)
T-Test of difference = 0 (vs not =): T-Value = 2.74
P-Value = 0.013 DF = 18
Conclusiones:
Como el cero no se encuentra en el intervalo de confianza de la diferencia
de las dos medias y el valor P value es menor a 0.05 se rechaza la hipótesis nula
de igualdad de medias y se acepta Ha afirmando que las medias son diferentes
126
Muestras pareadas - Prueba si las diferencias entre sujetos son iguales.
Ho: Media de diferencias = 0
Ha: Media de diferencias 
Se utilizan cuando se trata de comparar el efecto de dos tratamientos a los mismos
sujetos u objetos, por ejemplo el peso de individuos antes y después de una rutina.
También se aplica cuando cuando antes de comparar se hacen parejas de sujetos
por ejemplo para comparar los promedios de alumos de dos universidades, primero
se forman parejas (dos ingenieros, dos administradores, dos arquitectos, etc.)
Ejemplo: Se hacen dos tratamientos superficiales para lentes A y B, se seleccionan
10 personas a las que se les instala uno de esos lentes en cualquier lado al azar.
Después de un periodo se mide el deterioro (rayas, desgaste, etc.) de cada lente:
A un 95% de nivel de confianza
¿Se puede afirmar que los 2 tratamientos producen diferente deterioro en los lentes?
Se colocan los datos en las columnas C1 y C2 para los Lentes A y B.
127
Persona
1
2
3
4
5
6
7
8
9
10
Lente A
6.7
5.0
3.6
6.2
5.9
4.0
5.2
4.5
4.4
4.1
Lente B
6.9
5.8
4.1
7.0
7.0
4.6
5.5
5.0
4.3
4.8
En Minitab colocar los datos de Lentes en dos columnas
Establecer hipótesis
Ho: Diferencia de medias = 0
Ha: Diferencia de medias  0
Instrucciones de Minitab
Stat > Basic Statistics > Paired t
Samples in different columns First Lente A Second Lente B
Graphs Individual value plot
Options Confidence level 95% Test mean 0.0 Alternative Not equal OK
OK
128
Resultados
Paired T-Test and CI: Lente A, Lente B
Paired T for Lente A - Lente B
N
Mean
StDev
Lente A
10
4.96000
1.02978
Lente B
10
5.50000
1.13039
Difference 10 -0.540000 0.343835
SE Mean
0.32564
0.35746
0.108730
95% CI for mean difference: (-0.785964, -0.294036)
T-Test of mean difference = 0 (vs not = 0): T-Value = -4.97
P-Value = 0.001
Como el cero no se encuentra en el intervalo de confianza de la
diferencia de las dos medias y el valor P value es menor a 0.05
se rechaza la hipótesis nula de igualdad de medias y se acepta
la alterna afirmando que los tratamientos dan deterioros diferentes.
129
Individual Value Plot of Differences
(with Ho and 95% t-confidence interval for the mean)
_
X
Ho
-1.2
-1.0
-0.8
-0.6
-0.4
Differences
-0.2
0.0
Como el valor de Ho no se
encuentra en el intervalo de
confianza de la diferencia de las
dos medias, se rechaza Ho
y se acepta Ha indicando que el
deterioro es diferentes en los dos
métodos.
130
Comparación de dos proporciones
Ejemplo: En una encuesta a 300 clientes de la zona A, 33 estan descontentos
En otra zona B se encuestaron a 250 clientes y 22 se mostraron descontentos.
A un 95% de nivel de confianza o 5% de nivel de sigfinicancia,
¿Hay diferencia en las proporciones de clientes descontentos en las dos zonas?
Establecer hipótesis:
Ho: Proporción A = Proporción B
Ha: Proporción A  Proporción B
Instrucciones de Minitab (datos resumidos):
Stat > Basic Statistics > 2 - Proportions
Options Confidence level 95% Alternative Not equal, Test Difference = 0
Seleccionar Use Pooled estimate p for test
OK
131
Los resultados son los siguientes:
Test and CI for Two Proportions
Sample
X
N Sample p
1
33 300 0.110000
2
22 250 0.088000
Difference = p (1) - p (2)
Estimate for difference: 0.022
95% CI for difference: (-0.0278678, 0.0718678)
Test for difference = 0 (vs not = 0): Z = 0.86
P-Value = 0.392
Como el cero SI se encuentra en el intervalo de confianza de la
diferencia de las 2 proporciones y el valor P value es mayor a 0.05
no se rechaza la hipótesis nula de igualdad de proporciones
o sea que no hay razón para decir que las proporciones son diferentes.
132
Análisis de varianza (ANOVA)
El Análisis de Varianza es una prueba de hipótesis que trata de probar la
igualdad de varias medias al mismo tiempo:
H 0  1   2   3  ....   k
H 1 : Al menos dos medias
son diferentes
.
Requiere que las poblaciones sean normales y con varianza similar.
ANOVA de una vía con datos de tratamientos en diferentes columnas:
Ejemplo: Los técnicos de una fábrica de papel hacen un experimento de un factor
para ver que variedad de árbol produce menos fenoles en los desechos de pasta de
papel. Se colectan los siguientes datos en porcentajes:
A un 95% de nivel de confianza, ¿hay alguna variedad que produzca más fenoles que otra?
Se colocan los datos en tres columnas distintas:
133
Instrucciones de Minitab:
Stat > ANOVA > One Way (Unstacked)
Responses in separate columns A B C
Confidence Level 95
Comparisons Tukey's, family error rate: 5
Graphs: Residual plots Box plot of data Normal plot of residuals
OK
134
Los resultados se muestran a continuación:
One-way ANOVA: A, B, C
Source DF
Factor
2
Error
12
Total
14
S = 0.2309
Level
A
B
C
N
4
5
6
SS
MS
0.9000 0.4500
0.6400 0.0533
1.5400
R-Sq = 58.44%
Mean
1.9000
1.3000
1.4000
StDev
0.1414
0.2121
0.2828
Pooled StDev = 0.2309
Desviación estándar poblacional
F
8.44
Como el valor P value es menor
a 0.05 existe una diferencia
significativa entre algunas medias
P
0.005
R-Sq(adj) = 51.52%
Individual 95% CIs For Mean Based on
Pooled StDev
A produce más fenoles que B,C
----+---------+---------+---------+----(-------*--------)
(------*-------)
(------*------)
----+---------+---------+---------+----1.20
1.50
1.80
2.10
Las medias B y C
son similares
La media de A es
diferente a B y C
135
Tukey 95% Simultaneous Confidence Intervals
All Pairwise Comparisons
Individual confidence level = 97.94%
A subtracted from:
Lower
Center
B -1.0130 -0.6000
C -0.8974 -0.5000
B subtracted from:
Lower Center
C -0.2728 0.1000
Upper
-0.1870
-0.1026
Upper
0.4728
Como el cero no está en el
intervalo de la diferencia B-A
o C-A, A es diferente de B y C
-----+---------+---------+---------+---(---------*---------)
(---------*--------)
-----+---------+---------+---------+----0.80
-0.40
-0.00
0.40
-----+---------+---------+---------+---(---------*--------)
-----+---------+---------+---------+----0.80
-0.40
-0.00
0.40
El intervalo de la diferencia C-B si incluye
el cero por tanto B no es diferentes de C
136
Los resultados gráficos son los siguientes:
Boxplot of A, B, C
2.2
2.0
Data
1.8
1.6
1.4
1.2
1.0
A
B
C
Se observa que la media de A es diferente a las medias de B y C
(si se superpone B y C tienen elementos comunes y son iguales)
Los árboles B y C producen menos cantidad de fenoles.
137
Los resultados gráficos son los siguientes:
Normal Probability Plot
(responses are A, B, C)
99
95
90
Percent
80
70
60
50
40
30
20
10
5
1
-0.50
-0.25
0.00
Residual
0.25
0.50
Los residuos o errores se apegan a la recta normal, por tanto
el modelo ANOVA es un modelo adecuado para los datos
138
ANOVA de una vía con datos de tratamientos en una sola columna
Los datos del ejemplo anterior se arreglan en dos
columnas como se muestran a continuación:
A
1.9
1.8
2.1
1.8
B
1.6
1.1
1.3
1.4
1.1
C
1.3
1.6
1.8
1.1
1.5
1.1
Fenoles
1.9
1.8
2.1
1.8
1.6
1.1
1.3
1.4
1.1
1.3
1.6
1.8
1.1
1.5
1.1
Árbol
A
A
A
A
B
B
B
B
B
C
C
C
C
C
C
139
Instrucciones de Minitab:
Stat > ANOVA > One Way
Response Fenoles Factor Árbol Confidence Level 95
Comparisons Tukey's, family error rate: 5
Graphs: Residual plots Box plot of data Normal plot of residuals
OK
Los resultados que se obtienen son iguales a los ejemplo anterior.
140
Ejercicios:
Las calificaciones de un curso de liderazgo para 18 participantes de tres diferentes
departamentos fueron las mostradas en la tabla siguiente. Probar a un 95% de nivel de confianza
o 5% de nivel de significancia si el aprovechamiento fue similar en los tres departamentos
o en su caso cuál fue el peor.
DEPARTAMENTO
Depto_A Depto_B
8
7
7
8
8
7
6
7
7
6
8
8
Depto_C
5
6
6
7
7
6
Arreglados en dos columnas quedan como:
Calificaciones Depto
8 Depto_A
7 Depto_A
8 Depto_A
6 Depto_A
7 Depto_A
8 Depto_A
7 Depto_B
8 Depto_B
7 Depto_B
7 Depto_B
6 Depto_B
8 Depto_B
5 Depto_C
6 Depto_C
6 Depto_C
7 Depto_C
7 Depto_C
6 Depto_C
141
a) Con datos en tres columnas
Instrucciones de Minitab:
Stat > ANOVA > One Way (Unstacked)
Responses in separate columns Depto_A Depto_B Depto_C
Confidence Level 95
Comparisons Tukey's, family error rate: 5
Graphs: Residual plots Box plot of data Normal plot of residuals
OK
Como el valor P de
es
que 0.05, se concluye que
El peor aprovechamiento lo tuvo el departamento
De las gráficas de diferencias de Tukey, las medias de los procesos que son diferentes son
(dado que el cero no se encuentra en el intervalo de confianza de la diferencia de medias
– Pairwise comparisons):
b) Otra opción con datos en una sola columna
Instrucciones de Minitab:
Stat > ANOVA > One Way
Response Calificación Factor Depto Confidence Level 95
Comparisons Tukey's, family error rate: 5
Graphs: Residual plots Box plot of data Normal plot of residuals
OK
Identificar la media que es diferente a las demás (donde el cero no pertenezca al intervalo
142
b) Otra opción con datos en una sola columna
Con Minitab:
Stat > ANOVA One way
Response Calificaciones Factor Depto
Comparisons: Tukey’s, family error rate 5
Graphs: Box polot of data
OK
ESTADÍSTICAS > ANOVA UN FACTOR
RESPUESTA CALIF FACTOR DEPTO.
COMPARACIONES: TUKEY, TASA DE ERROR DE LA FAMILIA 5
GRÁFICAS: DIAGRAMA DE CAJA DE DATOS
OK
Identificar la media que es diferente a las demás (donde el cero no pertenezca al intervalo
de confianza de la diferencia de medias entre cada dos tratamientos Depto).
143
Análisis de varianza de dos vías (ANOVA Two way)
Prueba la igualdad de medias poblacionales cuando la clasificación de tratamientos
es por variables o factores, las celdas deben estar balanceadas con el mismo
número de observaciones y los factores deben ser fijos.
Para mostrar las medias en las celdas y sus desviaciones estándar utilizar la opción
Cross Tabulation and Chi Square.
Si se desea que ciertos factores sean aleatorios, usar ANOVA balanceado o
el Modelo lineal general si desea comparar medias usando comparaciones múltiples.
Por ejemplo:
Se estudia el plancton en dos lagos. Se preparan doce tanques en el laboratorio,
seis con agua de cada uno de los lagos, se agrega uno de tres nutrientes en
cada tanque y al mes se cuenta el plancton en cada unidad de volumen de agua.
Se utiliza el ANOVA de dos vías para este experimento.
144
Instrucciones de Minitab:
1 File > Open worksheet > EXH_AOV.MTW.
Zooplank ton Supplement
2
3
4
5
Lak e
34
1
Rose
43
57
40
85
68
67
53
41
24
42
52
1
1
1
2
2
2
2
3
3
3
3
Rose
Dennison
Dennison
Rose
Rose
Dennison
Dennison
Rose
Rose
Dennison
Dennison
Stat > ANOVA > Two-Way.
En Response, seleccionar Zooplankton .
En Row factor, seleccionar Supplement . Seleccionar Display means.
En Column factor, seleccionar Lake . Sel. Display means. Click OK.
145
Los resultados se muestran a continuación:
Two-way ANOVA: Zooplankton versus Supplement, Lake
Source
Supplement
Lake
Interaction
Error
Total
S = 10.18
Supplement
1
2
3
DF
2
1
2
6
11
SS
1918.50
21.33
561.17
622.00
3123.00
R-Sq = 80.08%
Mean
43.50
68.25
39.75
MS
959.250
21.333
280.583
103.667
F
9.25
0.21
2.71
P
0.015
0.666
0.145
R-Sq(adj) = 63.49%
Individual 95% CIs For Mean Based on
Pooled StDev
--+---------+---------+---------+------(-------*-------)
(--------*-------)
(--------*-------)
--+---------+---------+---------+------30
45
60
75
Interpretación:
De la tabla de ANOVA se ve que no hay una interacción significativa entre
Supplement*Lake y tampoco Lake es significativo.
146
Mean
43.50
68.25
39.75
Individual 95% CIs For Mean Based on
Pooled StDev
--+---------+---------+---------+------(-------*-------)
(--------*-------)
(--------*-------)
--+---------+---------+---------+------30
45
60
75
Mean
51.8333
49.1667
Individual 95% CIs For Mean Based on
Pooled StDev
-----+---------+---------+---------+---(----------------*----------------)
(----------------*----------------)
-----+---------+---------+---------+---42.0
48.0
54.0
60.0
Supplement
1
2
3
Lake
Dennison
Rose
Hay evidencia significativa que Supplement afecta al crecimiento para un alfa de 0.05.
De gráfica de medias parece que Supplement 2 es mejor para crecimiento del plancton.
Para examinar comparaciones múltiples de medias, utilizar el modelo lineal general.
147
Análisis de medias
Sirve para realizar un análisis de medias (ANOM) para datos normales,
binomiales o de Poisson y opcionalmente imprime
una tabla resumen para datos normales o binomiales.
Por ejemplo para datos normales:
Se evalúa el efecto de tres tiempos de niveles de proceso y tres niveles de
resistencia en la densidad. Se analizan las medias y un diseño de dos vías
para identificar interacciones o efectos principales significativos.
148
Instrucciones de Minitab:
1 File > Open worksheet EXH_AOV.MTW.
Density
Minutes Strength
7
10
3
8
10
3
10
10
3
7
10
3
1
15
1
4
15
1
3
15
1
2
15
1
6
15
2
7
15
2
8
15
2
Etcétera…
3
4
5
En Response, seleccionar Density .
Seleccionar Normal.
En Factor 1, seleccionar Minutes .
En Factor 2, seleccionar Strength. Click OK.
149
Los resultados se muestran a continuación:
Two-Way Normal ANOM for Density
Alpha = 0.05
Interaction Effects
Effect
2
1.578
0
-2
Strength
Minutes
0
-1.578
1
10
2
3
1
15
2
3
Main Effects for Minutes
5
5.300
10
15
Minutes
18
3
8
Mean
Mean
6.222
6
2
Main Effects for Strength
7.145
7
1
18
7.145
6.222
5.300
6
4
2
1
2
Strength
3
150
Interpretación:
Se muestra la gráfica de interacción y de efectos principales para 2 factores.
La gráfica ANOM tiene una línea central y límites de decisión, si un punto
cae fuera de estos límites es evidente que es diferente de la gran media.
Si la interacción fuera significativa, ya no se consideran
los efectos principales por separado, dado que unos dependen de otros.
En este caso no es significativo.
El punto que representa la media del nivel 3 del factor Minutes se muestra
con un asterisco en rojo, indicando que hay evidencia al nivel de alfa = 0.05
de que difiera significativamente de la media general.
En el caso de Strenght, hay evidencia de que los efectos principales
para los niveles 1 y 3 se encuentren fuera de los límites de decisión
y son diferentes de la media general.
Los puntos que están fuera se pueden investigar.
151
Ejemplos con datos binomiales
Se cuenta el número de soldaduara rechazadas en muestras de tamaño 80
para identificar que proporciones están fuera de la línea con otras muestras.
Como las muestras tienen 2 resultados, la proporción de éxitos es constante
y son independientes se usa el análisis de medias para datos binomiales.
1 File > Open worksheet EXH_AOV.MTW.
WeldRejects
3
6
8
14
6
1
8
1
8
10
1
152
2 Stat > ANOVA > Analysis of Means.
3 En Response, seleccionar WeldRejects .
4 Seleccionar Binomial y poner 80 en Sample size. Click OK.
One-Way Binomial ANOM for WeldRejects
Alpha = 0.05
0.20
0.1547
Proportion
0.15
0.10
0.075
0.05
0.00
0
1
2
3
4
5
6
Sample
7
8
9
10
11
153
Intrepretación:
La gráfica muestra la proporción de defectos para cada muestra, la línea
central como la proporción promedio, y los límites superior e inferior.
En este caso la muestra 4 sale de los límites de decisión y es anormal.
154
Ejemplo con datos de Poisson
Una fábrica de juguetes, quiere monitorear el número de defectos
de carros de juguete. Se toman 20 muestras de carros y se
crea una carta de medias para examinar el número de defectos
en cada muestra.
1 File > Open worksheet TOYS.MTW.
Defects
Defects
9
4
11
4
2
2
5
5
15
5
13
2
8
3
7
2
5
1
2
6
155
2 Stat > ANOVA > Analysis of Means.
3 En Response, seleccionar Defects
4 Seleccionar Poisson . Click OK.
One-Way Poisson ANOM for Defects
Alpha = 0.05
16
12.49
Defects
12
8
5.55
4
0
0
1
2
3
4
5
6
7
8
9
10 11 12 13 14 15 16 17 18 19 20
Sample
156
Interpretación:
La gráfica muestra el número de defectos en cada muestra, la línea central
es el promedio de defectos, y los límites de decisión superior e inferior.
En este caso, el número de defectos de los carros cinco y seis son
anormales ya que caen fuera de los límites de decisión.
157
ANOVA Balanceado
Se usa para realizar análisis univariado de varianza para cada
una de las variables de respuesta.
El diseño debe ser balanceado, con las mismas observaciones por celda.
Los factores pueden ser cruzados o anidados, fijos o aleatorios. Se pueden
incluir hasta 50 variables de respuesta con hasta 31 factores simultaneos.
Los factores son predictores (independientes) que se seleccionan a que
varien sistemáticamente durante un experimento
para determinar su efecto en la variable de respuesta (variable dependiente).
158
Por ejemplo, si se quiere evaluar el acabado superficial de partes metálicas
producidas por varias máquinas y se miden por varios operadores.
Tanto "Máquina" como "Operador" son factores en este experimento.
Los factores pueden ser cruzados o anidados, dependiendo de cómo
se colecten los datos.
Factores cruzados:
Dos factores son cruzados cuando cada nivel de un factor ocurre
en combinación con cada nivel del otro factor. Por ejemplo, los mismos
tres operadores evalúan el acabado superficial de las 2 máquinas.
159
Modelo:
En la caja de Model solo se especifican las X's no la Y.
La opción Make Patterned data, single set of numbers
puede ayudar a cargar los números de niveles de un factor.
Las reglas para expresar modelos son:
1 * indica un término de interacción, por ejemplo A*B.
Por ejemplo:
Dos factores cruzados: A B A*B
160
Por ejemplo para un diseño cruzado de tres vías con niveles a, b
y c de factores A, B, C, con n observaciones por celda, se tiene:
1 Calc>Make Patterned Data > Simple set of numbers, F3 (Reset def.).
Poner A en Store patterned data in. Poner 1 en From first value,
niveles de A en To last value.
Poner el producto bcn en List the whole sequence. Clik OK
2 Calc>Make Patterned Data > Simple set of numbers, F3 (Reset defaults).
Poner B en Store patterned data in. Poner 1 en From first value,
niveles de B en To last value.
Niveles de A en List each value. Poner cn en List the whole sequence.
Click OK
3 Calc>Make Patterned Data > Simple set of numbers, F3 (Reset defaults).
Poner C en Store patterned data in. Poner 1 en From first value,
niveles de C en To last value.
Producto ab en List each value. Poner el tamaño de muestra n
en List the whole sequence. Clik OK
161
Ejemplo de ANOVA con dos factores cruzados
Se quiere probar cuanto toma usar una calculadora nueva y una antigua.
Seis ingenieros trabajan en ambos un problema estadístico y uno de
ingeniería usando cada modelo de calculadora y se toma
el tiempo en minutos que toma resolver el problema.
Los ingenieros se consideran como bloques del diseño experimental.
Hay dos factores: Tipo de problema y Modelo de calcualadora,
cada uno con dos niuveles. Como cada nivel del factor ocurre
en combinación con cada nivel del otro factor, los factores son cruzados.
162
1 File > Open worksheet EXH_AOV.MTW.
SolveTime Engineer ProbType Calculator Engineer ProbType Calculator
3.1
Jones
Stat
New
Dixon
Stat
New
7.5
Jones
Stat
Old
Dixon
Stat
Old
2.5
Jones
Eng
New
Dixon
Eng
New
5.1
Jones
Eng
Old
Dixon
Eng
Old
3.8
Williams
Stat
New
Erickson
Stat
New
8.1
Williams
Stat
Old
Erickson
Stat
Old
2.8
Williams
Eng
New
Erickson
Eng
New
5.3
Williams
Eng
Old
Erickson
Eng
Old
3
Adams
Stat
New
Maynes
Stat
New
7.6
Adams
Stat
Old
Maynes
Stat
Old
2
Adams
Eng
New
Maynes
Eng
New
4.9
Adams
Eng
Old
Maynes
Eng
Old
163
2
3
4
5
6
7
Stat > ANOVA > Balanced ANOVA.
En Responses, seleccionar SolveTime .
En Model, seleccionar Engineer ProbType | Calculator .
En Random Factors, seleccionar Engineer .
Click Results. En Display means corresponding to the terms,
poner ProbType | Calculator .
Click OK en cada cuadro de diálogo.
164
Los resultados se muestran a continuación:
ANOVA:
SolveTime vs Engineer, ProbType, Calculator
Factor
Type
Levels Values
Engineer
random
6 Adams, Dixon,
Erickson, Jones, Maynes, Williams
ProbType
fixed
2 Eng, Stat
Calculator fixed
2 New, Old
Analysis of Variance for SolveTime
Source
DF
SS
MS
F
Engineer
5
1.053
0.211
3.13
ProbType
1 16.667 16.667
247.52
Calculator
1 72.107 72.107 1070.89
ProbType*Calculator
1
3.682
3.682
54.68
Error
15
1.010
0.067
Total
23 94.518
S = 0.259487
R-Sq = 98.93%
R-Sq(adj) = 98.36%
P
0.039
0.000
0.000
0.000
165
Means
ProbType
Eng
Stat
N
12
12
Calculator
New
Old
ProbType
Eng
Eng
Stat
Stat
SolveTime
3.8250
5.4917
N
12
12
SolveTime
2.9250
6.3917
Calculator
New
Old
New
Old
N
SolveTime
6
2.4833
6
5.1667
6
3.3667
6
7.6167
166
Interpretación:
Se muestran los factores con su tipo (fijos o aleatorios),
número de niveles y valores. Después se muestra la
tabla de ANOVA, indicando una interacción significativa entre
tipo de problema y calculadora.
También se muestran las medias de todos los factores y sus
combinaciones como efectos principales.
Donde se puede observar que el tiempo se reduce
al cambiar de la calculadora antigua a la nueva.
167
Contenido
Parte B:
7. Tamaño de muestra y potencia
8. Análisis exploratorio de datos
9. Estadística no paramétrica
10. Tablas y pruebas no paramétricas
11. Regresión lineal y cuadrática
12. Regresión múltiple
169
7. Tamaño de muestra
y potencia
170
Tamaño de muestra y potencia
• Introducción
• Prueba de una y dos medias
• Prueba de una y dos proporciones
• Prueba de ANOVA de una vía
• Diseño de experimentos de dos niveles
171
Tamaño de muestra y potencia
Potencia: Es la capacidad de una prueba para detectar una diferencia cuando
cuando realmente existe.
Hipótesis Nula
Desición
Verdadera
Falsa
No rechazar Desición correcta
Error tipo II
p=1-a
p=b
Rechazar Error tipo I
Desición correcta
p=a
p=1- b
Potencia
La potencia de la prueba es la probabilidad de de rechazar correctamente
la hipótesis nula siendo que en realidad es falsa.
El análisis de potencia puede ayudar a contestar preguntas como:
* ¿Cuántas muestras se deben tomar para el análisis?
* ¿Es suficiente el tamaño de muestra?
* ¿Qué tan grande es la diferencia que la prueba puede detectar?
* ¿Son realmente valiosos los resultados de la prueba?
172
Para estimar la potencia, Minitab requiere de dos de los siguientes parámetros:
* Tamaños de muestra
* Diferencias - un corrimiento significativo de la media que se desea detectar
* Valores de potencia - La probabilidad deseada de rechazar Ho cuando es falsa
Caso 1. Prueba t de una media poblacional
Ejemplo: Se tiene una población normal con media de 365 y límites de especificación
de 360 y 370. Si la media se desplaza 2.5 gramos por arriba de la media, el número de
defectos sería inaceptable, la desviación estándar histórica es de 2.403:
173
Caso 1. Prueba t de una media poblacional
Ejemplo: Se tiene una población normal con media de 365 y límites de especificación
de 360 y 370. Si la media se desplaza 2.5 gramos por arriba de la media, el número de
defectos sería inaceptable, la desviación estándar histórica es de 2.403:
Stat > Power and Sample Size > 1 - Sample t
Completar el diálogo como sigue:
174
Los resultados se muestran a continuación:
Power and Sample Size
1-Sample t Test
Testing mean = null (versus not = null)
Calculating power for mean = null + difference
Alpha = 0.05 Assumed standard deviation = 2.403
Difference
2.5
Sample
Size
6
Se tiene un 53.76% de Potencia para detectar
una diferencia de 2.5 si se usan 6 muestras
O sea que hay una probabilidad del 46.24%
que no se rechaze Ho y se concluya que no
hay diferencia significativa.
Power
0.537662
CORRIDA DE 2.5 GRS. EN PROMEDIO
0.18
LIE 360
0.16
Ha: Corrida
367.5
Ho:
Meta
365
Variable
Original
Corrida
LIE 370
Power Curve for 1-Sample Z Test
1.0
Sample
Size
2
4
6
8
10
12
0.14
0.8
0.10
0.6
0.08
Power
Y-Data
0.12
0.06
A ssumptions
A lpha
0.05
S tDev
2.403
A lternativ e N ot =
0.4
0.04
0.2
0.02
0.00
355
360
365
C1
370
375
0.0
-3
-2
-1
0
Difference
1
2
3
175
¿Cuántas muestras se requieren para tener un 80% de probabilidad de detectar
el corrimiento, y para 85%, 90% y 95%?
Stat > Power and Sample Size > 1 - Sample t
Se cambia este parámetro
Los resultados se muestran a continuación:
Difference
2.5
2.5
2.5
2.5
Sample
Size
10
11
12
15
Target
Power
0.80
0.85
0.90
0.95
Actual Power
0.832695
0.873928
0.905836
0.962487
Si la potencia es demasiado alta por decir 99% se pueden
detectar diferencias que realmente no son significativas.
176
Caso 2. Prueba t de comparación de dos medias poblacionales
Ejemplo: La potencia de una prueba depende de la diferencia que se quiera detectar
respecto a la desviación estándar, para una sigma poner 1 en diferencia y desviación
estándar, con valores deseados de Potencia de 0.8 y 0.9.
Stat > Power and Sample Size > 2 - Sample t
Power and Sample Size
2-Sample t Test
Testing mean 1 = mean 2 (versus not =)
Calculating power for mean 1 = mean 2 + difference
Alpha = 0.05 Assumed standard deviation = 1
Sample Target
Difference
Size
Power Actual Power
1
17
0.8
0.807037
1
23
0.9
0.912498
Se requieren tamaños de muestra de entre 17 y 23
177
Caso 3. Prueba de 1 proporción
Para estimar la potencia, Minitab requiere de dos de los siguientes parámetros:
* Tamaños de muestra
* La proporción - una proporción que se desea detectar con alta probabilidad
* Valores de potencia - Probabilidad deseada de rechazar Ho cuando es falsa
Suponiendo que se desea detectar una proporción de 0.04 con el 0.8 y 0.9
de niveles de Potencia:
Proporción que se desea detectar con alta
probabilidad (0.80, 0.90)
Es la proporción de la Hipótesis nula
Test for One Proportion
Testing proportion = 0.02 (versus > 0.02)
Alpha = 0.05
Alternative Sample Target
Proportion
Size
Power Actual Power
0.04
391
0.8
0.800388
0.04
580
0.9
0.900226
178
Caso 3. Prueba de 1 proporción
Para estimar la potencia, Minitab requiere de dos de los siguientes parámetros:
* Tamaños de muestra
* La proporción - una proporción que se desea detectar con alta probabilidad
* Valores de potencia - Probabilidad deseada de rechazar Ho cuando es falsa
Suponiendo que se desea detectar una proporción de 0.04 con el 0.8 y 0.9
de niveles de Potencia:
Proporción que se desea detectar con alta
probabilidad (0.80, 0.90)
Es la proporción de la Hipótesis nula
179
Los resultados se muestran a continuación:
Test for One Proportion
Testing proportion = 0.02 (versus > 0.02)
Alpha = 0.05
Alternative Sample Target
Proportion
Size Power Actual Power
0.04
391
0.8
0.800388
0.04
580
0.9
0.900226
180
La Potencia de prueba si se utiliza un tamaño de muestra de 500:
Stat > Power and Sample Size > 2 - Proportions
Sample sizes = 500
Alternative values of p 0.04 Hypothetized p: 0.02
Options: Greater Than
Significance Level = 0.05
Power Curve fo
1.0
0.8
Los resultados se muestran a continuación:
Test for One Proportion
Testing proportion = 0.02 (versus > 0.02)
Alpha = 0.05
Alternative Sample
Proportion
Size
Power
0.04
500 0.865861
Power
0.6
0.4
0.2
0.0
0.0
0.2
0.4
Alternative
Por tanto con un tamaño de muestra de 500, la potencia de la prueba
para detectar un corrimiento de 2% a 4% es del 86.6%
181
Caso 4. Prueba de 2 proporciones
Para estimar la potencia, Minitab requiere de dos de los siguientes parámetros:
* Tamaños de muestra
* La proporción 1 - una proporción que se desea detectar con alta probabilidad
* Valores de potencia - Probabilidad deseada de rechazar Ho cuando es falsa
o una proporción 2 - contra la que se prueba la igualdad de prop.
Ejemplo:
Suponiendo que se desea detectar una proporción de 0.04 con el 0.8 y 0.9
de niveles de Potencia:
OPTIONS
Proporción que se desea detectar
con alta probabilidad (0.80, 0.90)
GRAPHS
182
Power and Sample Size
Test for Two Proportions
Testing proportion 1 = proportion 2 (versus not =)
Calculating power for proportion 2 = 0.05
Alpha = 0.05
Proportion 1
0.04
0.04
Sample
Size
6745
9030
Target
Power
0.8
0.9
Actual Power
0.800005
0.900030
The sample size is for each group.
183
Ejemplo:
En política se desea saber si hay diferencia entre las proporciones
de hombres y mujeres que apoyen una reforma fiscal. Encuestas
anteriores muestran que el 30% (p=0.3) de los votantes apoyan
la reforma.
Se encuestan a 1000 personas de cada género, ¿cuál es la
potencia para detectar una diferencia entre hombres y mujeres
que soporten la reforma en 5% o más?
Stat > Power and Sample Size > 2 - Proportions
Sample sizes, 1000
Proportion 1 values 0.25 0.35
Proportion 2, ingresar 0.30
OK
184
Los resultados se muestran a continuación:
Power and Sample Size
Test for Two Proportions
Testing proportion 1=proportion 2 (vs not =)
Calculating power for proportion 2 = 0.3
Alpha = 0.05
Proportion 1
0.25
0.35
Sample
Size
1000
1000
Power
0.707060
0.665570
185
Power Curve for Test for Two Proportions
1.0
Sample
Size
1000
0.8
A ssumptions
A lpha
0.05
P roportion 2
0.3
A lternativ e
N ot =
Power
0.6
0.4
0.2
0.0
0.0
0.2
0.4
0.6
Proportion 1
0.8
1.0
186
Caso 5. ANOVA de una vía
Sirve para determinar el tamaño de muestra necesario para detectar diferencia
máxima en medias de niveles de un factor, con base en tamaño de muestra
y potencia de la prueba deseada.
Ejemplo:
Se trata de determinar si o no 4 tratamientos afectan el rendimiento de un
producto, para lo cual se utilizan 5 observaciones por tratamiento. Se sabe
que la media del grupo de control es de 8 y se trata de encontrar diferencia
significativa de +4. De investigaciones previas se determino una desviación
estándar de 1.64.
187
Instrucciones de Minitab:
1. Stat > Power and Sample Size > One way ANOVA
2. Number of levels, 4
3. Sample sizes, 5
4. En Values of the maximum difference between means, 4
5. En Estándar deviation, 1.64
OK
Los resultados son los siguientes:
Power and Sample Size
One-way ANOVA
Alpha = 0.05 Assumed std. Dev. = 1.64
SS Sample
Maximum
Means
Size
Power Difference
8
5 0.826860
4
The sample size is for each level.
No. Levels = 4
188
Power Curve for One-way ANOVA
1.0
Sample
Size
5
0.8
A ssumptions
A lpha
0.05
S tDev
1.64
# Lev els
4
Power
0.6
0.4
0.2
0.0
0
1
2
3
4
5
Maximum Difference
6
7
8
Interpretación:
Si se asignan 5 observaciones para cada tratamiento, se tiene una potencia
del 83% de detectar una diferencia de 4 unidades o más entre las medias
de los tratamientos. También se muestra la curva OC de la potencia.
189
Caso 6. Diseños de experimentos de dos niveles
Sirve para determinar el número de réplicas necesario para detectar el
efecto específico en el nivel de potencia específicado, con base en el
número de puntos centrales y efecto mínimo.
Ejemplo:
Se quiere determinar el "mejor" ajuste de 4 variables de entrada (factores)
para mejorar la trasnparencia de una parte plástica. Se ha determinado que
el diseño adecuado es un factorial fraccional (1/2) con 8 corridas experim.
y 3 puntos centrales. Se intenta detectar efectos de magnitud 5 o más.
Experimentación previa sugiere que la desviación estándar es de 4.5.
190
Instrucciones de Minitab:
1. Stat > Power and Sample Size > 2 level Factorial Design
2. Number of factors, 4
3. Number of corner points, 8
4. En Replicates, 1 2 3 4
5. En Effects, 5
6. En Number of center points per block, 3
7. En Standard deviation, 4.5
OK
Los resultados se muestran a continuación:
Power and Sample Size
2-Level Factorial Design
Alpha = 0.05
Assumed standard deviation = 4.5
Factors:
4
Base Design: 4, 8
Blocks:
none
Including a term for center points in model.
Center
Points
3
3
3
3
Effect
5
5
5
5
Reps
1
2
3
4
Total
Runs
11
19
27
35
Power
0.157738
0.518929
0.730495
0.856508
191
Power Curve for 2-Level Factorial Design
1.0
Reps,
C tr Pts Per Blk
1, 3
2, 3
3, 3
4, 3
0.8
A ssumptions
A lpha
0.05
S tD ev
4.5
# F actors
4
# C orner P ts
8
# Blocks
none
# Terms O mitted
0
Power
0.6
0.4
Term Included In M odel
C enter P oints
Yes
0.2
0.0
-5.0
-2.5
0.0
Effect
2.5
5.0
Interpretación:
Si hay una réplica del diseño, solo se tiene el 16% de posibilidad de detectar
diferencias de 5. Con 4 réplicas del diseño (1/2) fraccional para 35 corridas
(32 puntos vértice y 3 puntos centrales) se tiene el 86% de posibilidad de
encontrar efectos importantes.
La curva muestra las combinaciones de parámetros y la potencia de la prueba.
192
8. Análisis exploratorio
de datos (EDA)
193
Análisis exploratorio de datos (EDA)
• Introducción
• Prueba de una muestra por Poisson
• Prueba de dos muestras por Poisson
• Análisis de medianas de dos vías
• Regresión resistente
• Suavizamiento resistente
• Prueba de normalidad con gráfica de desviaciones
194
Introducción

Los métodos de análisis de datos exploratorio (EDA) se
utilizan para explorar los datos antes de utilizar otros
métodos más tradicionales, o para examinar los residuales de
un modelo.

Permiten identificar observaciones anormales (Outliers) y
violaciones a los supuestos tradicionales tales como no
linealidad o varianza no constante.
195
Prueba de una muestra por Poisson
Calcula el intervalo de confianza de la tasa de ocurrencia y el número medio de ocurencias
de eventos en una muestra en un proceso de Poisson, y prueba la hipótesis de que la tasa
de ocurrencias es igual a un valor especificado.
Un proceso de Poisson describe el número de ocurrencias de un evento en un cierto
periodo de tiempo como área, volumen, etc. Por ejemplo:
 El número de llamadas telefónicas diarias a un centro de servicio a clientes
 El número de defectos en un tramo de alambre
196
Por ejemplo:
La empresa A de receptores de TV cuenta el número de unidades con pantallas defectivas
que se producen cada trimestre durante los últimos 10 años.
Los directivos establecen que 20 defectivos por cuatrimestre es el máximo aceptable,
y quieren determinar si la producción actual cumple este requerimiento.
1
2
3
4
5
6
File > Open the worksheet TVDEFECT.MTW.
Stat > Basic Statistics > 1-Sample Poisson Rate.
En Samples in columns, Seleccionar 'Defective A '.
Seleccionar Perform hypothesis test. En Hypothesized rate, poner 20 .
Click Options. En Alternative, seleccionar less than.
Click OK en cada cuadro de diálogo
197
Defective A Defective B
Resultados:
18
20
18
35
21
19
14
30
19
26
14
22
Etc.
Etc.
Test and CI for One-Sample Poisson Rate: Defective A
Test of rate = 20 vs rate < 20
Total
Rate of 95% Upper
Exact
Variable
Occurrences
N Occurrence
Bound P-Value
Defective A
713 40
17.8250
18.9628
0.001
Length of observation = 1.
Como P value es menor
a 0.05, se rechaza Ho y se
acepta Ha donde la tasa de
defectos es menor a 20
198
Prueba de dos muestras por Poisson
Se puede probar si la empresa A tiene una tasa mayor de defectos que la
empresa B. La empresa A mide cada tres meses sus defectos
y la empresa B cada seis meses.
Se trata de probar cual empresa tiene la menor tasa de defectos mensual.
1 File > Open the worksheet TVDEFECT.MTW.
2 Stat > Basic Statistics > 2-Sample Poisson Rate.
3 Samples in different columns, Seleccionar 'Defective A '.
4 First 'Defective A'
5 Second 'Defective B'
6 Click Options. En "Length" of obs. [time, items, area, vol. etc], ner '3 6 '
7 Confidence level 95.0 Test difference 0 Alternative Not equal
8 Seleccionar Use pooled estimate of rate to test a zero difference
9 Click OK en cada cuadro de diálogo
199
Los resultados se muestran a continuación:
Test and CI for Two-Sample Poisson Rates: Defective A, Defective B
Variable
Defective A
Defective B
Total
Occurrences
713
515
N
40
20
"Length" of
Observation
3
6
Rate of
Occurrence
5.94167
4.29167
Mean
Occurrence
17.825
25.750
Difference = rate(Defective A) - rate(Defective B)
Estimate for difference: 1.65
95% CI for difference: (1.07764, 2.22236)
Test for difference = 0 (vs not = 0): Z = 5.50 P-Value = 0.000
Exact Test: P-Value = 0.000
Como el valor P value es menor a 0.05 se acepta la hipótesis alterna
que A y B son diferentes,
donde
donde
B tiene
B tiene
la menortasa
la menor tasa
de de
ocurrencia
ocurrencia
Difference = mu (Defective A) - mu (Defective B)
Estimate for difference: -7.925
95% CI for difference: (-10.5053, -5.34474)
Test for difference = 0 (vs not = 0): Z = -6.40 P-Value = 0.000
Exact Test: P-Value = 0.000
200
Prueba de bondad de ajuste (Chi cuadrada)
Permite comparar los valores observados de la distribución con
los valores esperados de la misma distribución y prueba la
hipótesis nula de que los valores soin similares:
* Prueba que tan bien ajusta una distribución teórica a
un conjunto de datos
* Prueba si un modelo estadístico ajusta a a los datos. Por ejemplo
la regresión Logistics usa una prueba de bondad de ajuste con
Chi cuadrada para probar si modela de manera adecuada los datos
NOTA: Si las frecuencias esperadas en alguna celda son menores
a 5, los resultados pueden no ser válidos.
201
Por ejemplo:
Ho: Los datos siguen una distribución Multinomial
Ha: Los datos no siguen la distribución Multinomial
La filiación política de ciera ciudad es: Republicanos 52%,
Demócratas 40% e independientes 8%. Se quiere probar si
esta filiación política es similar a la de otra población.
Para lo cual utilizan una muestra de 200 personas (datos en POLL.MTW)
Political PartyCounts
Proportions
Republican
121
0.52
Democratic
75
0.4
Others
4
0.08
Instrucciones de Minitab:
1 File > Open Worksheet > POLL.MTW.
2 Sel. Stat > Tables > Chi Square Goodness of Fit (1 var.)
3 En Observed counts, poner Counts .
4 En Category names, poner Political Party
5 Seleccionar Specific proportions, poner Proportions
Click OK en cada cuadro de diálogo
202
Los resultados se muestran a continuación:
Chi-Square Goodness-of-Fit Test for Obs. Counts in Counts
Using category names in Political Party
Category
Republican
Democratic
Others
N
200
DF
2
Observed
121
75
4
Chi-Sq
12.0913
Test
Proportion
0.52
0.40
0.08
Expected
104
80
16
Contribution
to Chi-Sq
2.77885
0.31250
9.00000
P-Value
0.002
Interpretación:
Como el valor P de la prueba es menor a un alfa de 0.05, se rechaza
la hipótesis nula y se concluye que la filiación política no es la misma
en las ciudades comparadas
203
Chart of Observed and Expected Values
Expected
Observed
120
100
60
40
Chart of Contribution to the Chi-Square Value by Category
20
0
Category
9
8
Republican
Democratic
Others
7
Contributed Value
Value
80
6
5
4
3
2
1
0
Others
Republican
Category
Democratic
204
Análisis de medianas de dos vías
Es similar al análisis de varianza de dos vías (ANOVA two way), pero
no es más robusta en cuanto a puntos aberrantes (Outliers)
Ejemplo:
Se trata de probar tres tipos de remaches, en los que se aplicó la
fuerza por el frente y por detrás, y se mide el impacto, para
determinar si hay diferencias en los tres tipos de remaches.
205
Instrucciones de Minitab:
Paso: Realizar el análisis de medianas
1 File > Open worksheet > EXH_STAT.MTW.
2 Seleccionar Stat > EDA > Median Polish.
3 En Response, poner Impact .
4 En Row factor, HelmetType . En Column factor, poner Location .
5 En Common effect, poner CommonEffect . En Row effects,
poner RowEffect. En Column effects, poner ColumnEffect.
6 Check Residuals. Click OK.
Paso 2. Mostrar los resultados
1 Seleccionar Data > Display Data.
2 En Columns, constants, and matrices to display,
poner CommonEffect, RowEffect, y ColumnEffect.
Click OK.
206
Los resultados se muestran a continuación:
CommonEffect
44.5000
Row RowEffect ColumEffect
1
0
-1
2
23
1
3
-3
Interpretación:
El efecto general de impacto es 44.5.
Los efectos de fila son 0, 23 y -3 respecto al valor común
que corresponden al remache 1, 2 y 3 respectivamente.
Se observa que el remache 2 tiene un mayor impacto.
Los efectos de columna de -1 y 1 indican que hubo una
pequeña reducción de impacto ligera respecto al valor
común en el frente y un poco mayor para la parte de atrás.
207
Con los residuos se pueden identifcar Outliers.
1 Seleccionar Data > Display Data.
2 En Columns, constants, and matrices to display,
poner RESI1.
Click OK.
RESI1
3.5 -0.5
3.5
0.5 -5.5 -4.5
1.5 -1.5
2.5
0.5 -1.5 -0.5
Celda 1,1
208
Regresión resistente
Es similar al análisis de regresión lineal excepto que es más robusta
ante puntos aberrantes (Outliers). Se sugiere utilizarla al principio
para observar si hay relación lineal.
Stat > EDA > Resistant line
209
Suavizamiento resistente
Suaviza una serie ordenada de datos colectados durante el tiempo
para remover fluctuaciones aleatorias y descubrir tanto las
tendencias como los puntos aberrantes (Outliers).
Ofrece varios métodos
Stat > EDA > Resistant Smoothing
210
Prueba de normalidad con gráfica de desviaciones
El rotograma es un histograma suspendido con una distribución
normal que lo ajusta. Muestra las desviaciones a partir del
ajuste de la distribución normal, como lo hace por percentiles
protege contra puntos aberrantes (Outliers) y cuentas anormales
de eventos.
Ejemplo:
Se utiliza un rotograma para determinar si o no las mediciones de
peso de 92 estudiantes siguen una distribución normal.
Instrucciones de Minitab
1 File > Open worksheet > PULSE.MTW.
2 Seleccionar Stat > EDA > Rootogram
3 En Variable, poner Weight .
Click OK.
Weight
140
145
160
190
155
Etcétera
211
Los resultados se muestran a continuación
212
Interpretación:
La gráfica muestra residuales dobles para indicar que tanto los
datos se separan de la distribución normal,
Se observa una concentración ligera de signso negativos en el
lado inferior y una mayor concentración de signos positivos
en la parte central y superior.
Sin embargo en ambos casos permanecen dentro del intervalo
de confianza, indicando que los pesos son normales.
213
9. Estadística no paramétrica
214
Estadística no paramétrica
• Introducción
• Prueba de signos de la mediana
• Prueba de una mediana de Wilconox
• Prueba de rangos de dos muestra de Mann Whitney
• Prueba de igualdad de medianas de Kruskal Wallis
• Prueba de igualdad de medianas de Mood
• Experimentos aleatorizados bloqueados de
Friedman
• Prueba de rachas
215
ESTADÍSTICA NO PARAMÉTRICA
Acciones a tomar sobre los datos normales antes de optar por estas pruebas:
Revise y asegúrese de que los datos no siguen una distribución normal.
• Desarrollar una Prueba de normalidad. Para la prueba de Bartlet (P value <0.05)
• Revisar la información para detectar errores (tipográficos, etc.).
Investiguar los valores atípicos.
• Una muestra pequeña (n < 30) proveniente de un universo normal,
se mostrará algunas veces como anormal.
• Intentar transformar los datos. Las transformaciones comunes incluyen:
•- Raíz cuadrada de todos los datos
•- Logaritmo de todos los datos
•- Cuadrado de todos los datos
• Si la información es todavía anormal, entonces usar estas herramientas no paramétricas
Se utilizan cuando no interesa la forma de la distribución o los datos no son normales
216
Prueba de Hipótesis
Atributos
Variables
No Normales
Varianzas
Homogeneidad
de Varianzas
de Levene
Tablas de
Contingencia de
Medianas
Correlación
Correlación
Prueba de signos
Normal
Wilcoxon
MannWhitney
KruskalWallis
Prueba de Mood
Friedman
Variancia
Chi
Prueba-F
Homogeneidad
de la Variación
de Bartlett
Medias
Pruebas de t
Muestra-1
Muestra-2
ANOVA
Una vía
Dos vías
Residuos
distribuidos
normalmente
Correlación
Regresión
217
Pruebas no paramétricas con la medianas o medianas
Pruebas de la Mediana
Prueba de signos: Prueba si el promedio de la mediana de la muestra
es igual a un valor conocido o a un valor a alcanzar.
Prueba Wilcoxon: Prueba si la mediana de la muestra es igual a un valor
conocido o a un valor hipotético.
Prueba de dos o más Medianas
Prueba Mann-Whitney: Prueba si dos medianas de muestras son iguales.
Comprueba el rango de dos muestras, por dif. entre dos medianas del universo.
Prueba Kruskal-Wallis: Prueba igualdad de dos o más medianas de muestras
Asume que todas las distribuciones tienen la misma forma.
Pruebas de dos Medianas
Prueba de la mediana de Mood: Otra prueba para más de dos medianas.
Prueba más firme para los valores atípicos contenidos en la inf.
Prueba de Friedman: Prueba si las medianas de las muestras, clasificadas
bajo dos categorías, son iguales.
Correlación: Prueba la relación lineal entre dos variables
218
Puebas de signos de la mediana
Ho: mediana = mediana hipotetizada versus
Ha: mediana ≠ mediana hipotetizada
Ejemplo: Se evaluan los índices de precios de 29 casas. Los datos históricos indican
que el índice ha sido de 115. Probar a un alfa de 0.10 si el índice se ha incrementado.
Nivel de confianza = 1 - alfa = 90%
File > Open worksheet > Exh_Stat.Mtw
Stat > Nonparametrics > 1-Sample Sign.
En Variables, seleccionar PriceIndex Confidence interval level 90
Seleccionar Test median y poner 115 en el cuadro
En Alternative, Seleccionar greater than. Click OK.
Los resultados son los siguientes:
Sign Test for Median: PriceIndex
Sign test of median = 115.0 versus > 115.0
N Below Equal Above
P
PriceIndex 29
12
0
17 0.2291
Interpretación de resultados:
Median
144.0
Como el valor P de la prueba es >0.1 no hay
evidencia suficiente para rechazar Ho y la
mediana no es mayor a 115.
219
Prueba de una mediana de Wilconox
Ho: mediana = mediana hipotetizada versus
Ha: mediana ≠ mediana hipotetizada
Se registran los resultados de examenes en ciencias para 9 estudiantes. Se quiere
probar si hay suficiente evidencia de que la mediana sea menor a 77 con alfa = 0.05.
Nivel de confianza = 1 - alfa = 95%
File > Open worksheet > Exh_Stat.Mtw
Stat > Nonparametrics > 1-Sample Wilconox
En Variables, seleccionar Achievement Confidence interval level 95
Seleccionar Test median y poner 77 en el cuadro
En Alternative, Seleccionar less Than. Click OK.
Los resultados son los siguientes:
Wilcoxon Signed Rank Test: Achievement
Test of median = 77.00 versus median < 77.00
Achievement
N
9
N for
Test
8
Interpretación de resultados:
Wilcoxon
Statistic
19.5
P
0.610
Estimated
Median
77.50
Como el valor P de la prueba es >0.05 no hay
evidencia suficiente para rechazar Ho y la
mediana no es estadísticamentemenor a 77.
220
Prueba de rangos de dos muestras de Mann Whitney
H0: h1 = h2 versus
H1: h1 ≠h2 , donde h es mediana de la población.
Se asume que las muestras provienen de dos poblaciones con la misma forma y varianza
Ejemplo: Se compara la presión diastólica de dos muestras extraidas de dos poblaciones
Se quiere probar a un 5% de nivel de significancia si hay diferencia entre las medianas.
Nivel de confianza = 1 - alfa = 90%
File > Open worksheet > Exh_Stat.Mtw
Stat > Nonparametrics > Mann-Whitney
En First Sample, sleccionar DBP1. En Second Sample, seleccionar DBP2. Click OK.
En Confidence level 95 y en Alternative, Seleccionar Not equal. Click OK.
221
Los resultados son los siguientes:
Mann-Whitney Test and CI: DBP1, DBP2
N Median
DBP1 8
69.50
DBP2 9
78.00
Point estimate for ETA1-ETA2 is -7.50
95.1 Percent CI for ETA1-ETA2 is (-18.00,4.00)
W = 60.0
Test of ETA1 = ETA2 vs ETA1 not = ETA2 is significant at 0.2685
The test is significant at 0.2679 (adjusted for ties)
Interpretación de resultados:
Como el valor P de la prueba es >0.05 no hay
evidencia suficiente para rechazar Ho y las
medianas no son diferentes estadísticamente.
222
Prueba de igualdad de medianas de Kruskal Wallis
H0: Las medianas poblacionales son todas iguales vs
H1: Al menos hay una diferente
Esta es una generalización de la prueba de Mann Whitney
Ejemplo: Se quiere probar si el efecto de tres tratamientos diferentes influyen en el
crecimiento de bacterias a un 5% de nivel de significancia
Nivel de confianza = 1 - alfa = 90%
File > Open worksheet > Exh_Stat.Mtw
Stat > Nonparametrics > Kruskal-Wallis.
En Response, seleccionar Growth .
En Factor, seleccionar Treatment . Click OK.
Los resultados son los siguientes:
Kruskal-Wallis
Kruskal-Wallis
Treatment
N
1
5
2
5
3
6
Overall
16
H = 8.63 DF =
H = 8.64 DF =
Test: Growth versus Treatment
Test on Growth
Median Ave Rank
Z Interpretación de resultados:
13.20
7.7 -0.45 Como el valor P de la prueba es < 0.05 hay evidencia suficiente para rechazar Ho y las
12.90
4.3 -2.38 medianas son diferentes estadísticamente.
15.60
12.7
2.71 La mediana 3 difiere menos de la mediana general
8.5
Las medianas 1 y 2 tienen una mayor diferencia respecto a la mediana general.
2 P = 0.013
2 P = 0.013 (adjusted for ties)
223
Prueba de igualdad de medianas de Mood
Prueba similar a la anterior:
H0: h1 = h2 = h3, versus H1: no todas las h's son iguales con h's medianas poblacionales .
de OTIS para los tres niveles educacionales.
Ejemplo: Se mide la habilidad intelectual de 179 estudiantes en base al dibujo de figuras
después se aplica una prueba OTIS y se quiere probar si a un alfa de 5% hay diferencia
significativa entre el nivel de educación 0 - Preprofesionales 1 -Profesionales
2 - Preparatoria
Nivel de confianza = 1 - alfa = 90%
File > Open worksheet > Cartoon.Mtw
Stat > Nonparametrics > Mood´s Median Test
En Response, seleccionar OTIS.
En Factor, seleccionar ED. Click OK.
224
Los resultados son los siguientes:
Mood Median Test: Otis versus ED
Mood median test for Otis
Chi-Square = 49.08
DF = 2
ED
0
1
2
N<=
47
29
15
N>
9
24
55
Median
97.5
106.0
116.5
Q3-Q1
17.3
21.5
16.3
Interpretación de resultados:
Como el valor P es menor a 0.05
indica que las medianas no son
iguales
P = 0.000
Individual 95.0% CIs
----+---------+---------+---------+-(-----*-----)
(------*------)
(----*----)
----+---------+---------+---------+-96.0
104.0
112.0
120.0
225
Exp. aleatorizado bloqueado (equivale a ANOVA 2 vías) Prueba de Friedman
Ho: Los efectos de todos los tratamientos son cero
H1: Los efectos de los tratamientos difieren de cero
Ejemplo: Se quiere probar un tratamiento de drogas sobre la actividad enzimatica.
Se prueba con tres tratamientos en animales de diferentes granjas.
EnzymeActivity Therapy
0.15
1
0.26
1
0.23
1
0.99
1
0.55
2
0.26
2
-0.22
2
0.99
2
0.55
3
0.66
3
0.77
3
0.99
3
Litter
1
2
3
4
1
2
3
4
1
2
3
4
226
Instrucciones de Minitab:
File > Open worksheet > EXH_STAT.MTW
Stat > Nonparametrics > Friedman.
En Response, seleccionar EnzymeActivity.
En Treatment, selecionar Therapy. En Blocks, seleccionar Litter. Click OK.
Los resultados son los siguientes:
Friedman Test: EnzymeActivity versus Therapy blocked by Litter
S = 2.38 DF = 2 P = 0.305
S = 3.80 DF = 2 P = 0.150 (adjusted for ties)
Los valores P son mayores a 0.10
Sum
por tanto no hay evidencia para
of
decir que el efecto de los
Therapy N Est Median Ranks
tratamientos sea diferente de cero
1
4
0.2450
6.5
2
4
0.3117
7.0
3
4
0.5783
10.5
Grand median = 0.3783
227
Prueba de Rachas
Prueba de Rachas paramétrica:
Racha es un punto o serie consecutiva de puntos que caen en un lado de la mediana.
Se usa cuando se buscan evidencias de ciertos patrones no aleatorios en el proceso,
indicando que la variación es anormal formando grupos, oscilaciones, mezclas
y que se deben tomar acciones correctivas.
Si la muestra es de uno determina la línea central como la mediana y si la muestra
es de subgrupos une las medias de los subgrupos con una línea.
Las hipotesis de esta prueba son:
H0: Las rachas son aleatorias
H1: Las rachas siguen un patrón no aleatorio
228
Por ejemplo con el archivo RADON.MTW de este módulo se tiene:
File > Open Worksheet > Radon.mtw
Stat > Quality Tools > Run Chart
En Single column, seleccionar Membrane .
En Subgroup size, poner 2 . Click OK.
Run Chart of Membrane
45
Membrane
40
35
30
25
20
1
2
Number of runs about median:
Expected number of runs:
Longest run about median:
Approx P-Value for Clustering:
Approx P-Value for Mixtures:
3
4
3
6.00000
5
0.02209
0.97791
5
6
Sample
7
Number of runs up or down:
Expected number of runs:
Longest run up or down:
Approx P-Value for Trends:
Approx P-Value for Oscillation:
8
9
10
5
6.33333
3
0.13455
0.86545
Interpretación de resultados
Como el P value de Clustering es menor a 0.05 indica que el patrón
no es aleatorio y se deben investigar las posibles causas.
229
Prueba de rachas no paramétrica
H0: Las rachas son aleatorias
H1: Las rachas siguen un patrón no aleatorio
Un entrevistador encuesta a 30 personas al azar y les hace una pregunta con 4 posibles
respuestas (0, 1, 2 y 3). Se quiere probar si hay una respuesta aleatoria en el orden de
las respuestas o que no haya sesgo en el entrevistado.
Usar el archivo File > Open Worksheet > EXH_STAT.MTW.
Stat > Nonparametrics > Runs Test.
En Variables, seleccionar Response . Click OK.
Los resultados son los siguientes:
Runs Test: Response
Runs test for Response
Runs above and below K = 1.23333
The observed number of runs = 8
The expected number of runs = 14.9333
11 observations above K, 19 below
P-value =
0.005
Interpretación de resultados:
Como P value es menor a 0.05 se tiene evidencia de que
el comportamiento de las respuestas no es aleatorio y debe investigarse la causa.
230
10. Tablas y pruebas
no paramétricas
231
Tablas y pruebas no paramétricas
• Contador de eventos
• Estadística descriptiva de tablas
• Tabulación cruzada y Chi cuadrada
• Análisis Chi cuadrada con tabulación cruzada
• Tablas de contingencia
232
Contador de eventos
Se usa para mostrar cuenta, cuenta acumulada, porcentajes, y porcentajes acumulados para
cada variable especificada
Suponiendo que se está estudiando la influencia de la actividad de paciente en el desempeño de una
droga nueva. Después de colectar los datos, se examina la distribución de la actividad del paciente.
1
File > Open worksheet EXH_TABL.MTW
Activity
Moderate
Moderate
A lot
Slight
Moderate
Slight
A lot
Moderate
Moderate
Etc.
2
3
4
5
Repetir con GENDER y HEIGHT
Los resultados son los siguientes:
Tally for Discrete Variables: Activity
Activity Count CumCnt Percent CumPct
A lot
21
21
23.08
23.08
Moderate
61
82
67.03
90.11
Slight
9
91
9.89 100.00
N=
91
La actividad ligera tiene un 9.89%, la actividad moderada
un 67.03% y alta 23.08%
Stat > Tables > Tally Individual Variables.
En Variables, poner Activity .
En Display, seleccionar Counts, Percents, Cumulative counts, y Cumulative percents
Click OK
233
Estadística descriptiva de tablas
Se usa para generar tablas conteniendo frecuencias estadísticas
para variables categóricas y estadísticas resumidas para variables
numéricas asociadas.
Ejemplo:
Se desea resumir las estadísticas de frecuencias de datos de pulso
para las personas en el estudio, calasificadas por género y nivel de
actividad (datos en el archivo EXT-TABL.MTW)
234
Gender
Activity
Male
Moderate
Male
Moderate
Male
A lot
Male
Slight
Male
Moderate
Etcétera…
Smokes
No
No
Yes
Yes
No
Height
Weight
66
72
73.5
73
69
Pulse
140
145
160
190
155
64
58
62
66
64
Instrucciones de Minitab:
1 File Open > Worksheet > EXH_TABL.MTW.
2 Seleccionar Stat > Tables > Descriptive Statistics.
3 En For rows, poner Gender . En For columns, poner Smokes .
4 Sel. Categorical variables, check Counts and Row Percents.
5 Sel. Associated variables, poner Pulse . Sel. Display Means
Click OK en cada cuadro de diálogo
235
Los resultados se muestran a continuación:
Tabulated statistics: Gender, Smokes
Rows: Gender
Columns: Smokes
No
Yes
All
Female
74.59
84.50
76.86
27
8
35
77.14
22.86
100.00
Male
70.00
37
66.07
72.42
19
33.93
70.82
56
100.00
All
71.94
64
70.33
76.00
27
29.67
73.14
91
100.00
Cell Contents:
Pulse
:
Mean
Count
% of Row
236
Interpretación:
Se muestra la tabla resumen tanto de la variable categórica y la
variable asociada.
Minitab muestra el valor medio del pulso, el contador y los
porcentajes de fila clasificados por género y estado de fumar
De los 56 hombres, 19 son fumadores, su pulso medio es 72.42 y su
porcentaje correspondiente de fila es de 33.93%
237
Ejemplo:
Se desea resumir los pesos y estaturas de las personas en el estudio
calsificados por género y nivel de actividad.
Instrucciones de Minitab:
1 File Open > Worksheet > EXH_TABL.MTW.
2 Seleccionar Stat > Tables > Descriptive Statistics.
3 En For rows, poner Gender . En For columns, poner Activity .
4 Sel. Associated variables, poner Heigh y Weight
5 En Display, seleccionar Means, Std. Dev., y N Missing
Click OK en cada cuadro de diálogo
238
Los resultados se muestran a continuación:
Tabulated statistics: Gender, Activity
Rows: Gender
Columns: Activity
Female
Male
A lot
64.60
121.0
2.074
21.02
0
0
5
14.29
Moderate
65.62
124.5
2.735
12.78
0
0
26
74.29
Slight
65.00
123.0
2.160
7.70
0
0
4
11.43
All
65.40
123.8
2.563
13.37
0
0
35
100.00
71.12
155.5
2.649
13.21
0
0
16
28.57
70.43
158.1
2.521
20.58
0
0
35
62.50
72.40
170.0
2.510
19.69
0
0
5
8.93
70.80
158.4
2.579
18.77
0
0
56
100.00
239
All
69.57
147.3
3.773
21.12
0
0
21
23.08
Cell Contents:
68.38
143.8
3.532
24.27
0
0
61
67.03
Height
Weight
Height
Weight
Height
Weight
:
:
:
:
:
:
69.11
149.1
4.485
28.80
0
0
9
9.89
68.73
145.1
3.679
23.87
0
0
91
100.00
Mean
Mean
Standard deviation
Standard deviation
Missing
Missing
Count
% of Row
Interpretación:
Minitab muestra la media, desviación estándar, y tamaño de muestra
para Height y Weight, clasificados por Gender y Activity.
El hombre con actividad moderada tiene peso medio de 158.1 lbs.
con desv. Est. De 20.58 lbs. Estos valores son con base en 35
observaciones. Al final se muestran las estadísticas totales.
240
Tabulación cruzada y Chi cuadrada
Se usa para generar tablas de frecuencia y porcentajes. También se
puede realizar una prueba Chi cuadrada y seleccionar el Layout
de la tabla.
241
242
243
244
Ejemplo:
Sería conveniente clasificar las personas del estudio por género,
si fuman o no y peso como la variable asociada. Presentar esta
informaciòn en una tabla de tres vías.
Instrucciones de Minitab:
1 File Open > Worksheet > EXH_TABL.MTW.
2 Seleccionar Stat > Tables > Cross Tabulation and Chi Square
3 En For rows, poner Gender . En For columns, poner Activity .
En For Layers, poner Smokes.
4 En Display, seleccionar Counts
Click OK en cada cuadro de diálogo
245
Los resultados se muestran a continuación:
Tabulated statistics: Gender, Activity, Smokes
Results for Smokes = No
Rows: Gender
Columns: Activity
A lot Moderate Slight All
Female
4
20
3
27
Male
12
22
3
37
All
16
42
6
64
Cell Contents:
Count
Results for Smokes = Yes
Rows: Gender
Columns: Activity
A lot Moderate Slight
Female
1
6
1
Male
4
13
2
All
5
19
3
Cell Contents:
Count
All
8
19
27
246
Interpretación:
Minitab crea una tabla de dos vías para cada nivel de la variable
por capas, Smoke. La variable de fila es Gender y la variable de
columna es Activity. También se puede cambiar el Layout de la
tabla asignando variables a través de las filas, debajo de las
columnas o por capas.
247
Ejemplo de cambio de Layout de tabla
Instrucciones de Minitab:
1 File Open > Worksheet > EXH_TABL.MTW.
2 Seleccionar Stat > Tables > Cross Tabulation and Chi Square
3 En For rows, poner Gender . En For columns, Activity Smokes
4 En Display, seleccionar Counts
Click OK en cada cuadro de diálogo
248
Los resultados se muestran a continuación:
Tabulated statistics: Gender, Activity, Smokes
Rows: Gender
Columns: Activity / Smokes
A lot
Moderate
Slight
All
No Yes
No
Yes
No Yes
All
Female
4
1
20
6
3
1
35
Male
12
4
22
13
3
2
56
All
16
5
42
19
6
3
91
Cell Contents:
Count
Interpretación:
La variable de fila es Gender, la variable de columna superior es
Activity y la inferior es Smokes.
249
Análisis Chi cuadrada con Tabulación cruzada
Hay interés en determianr si hay asociación entre el Género y el
nivel de actividad para las personas en el estudio. Hacer una
prueba Chi Cuadrada.
Instrucciones de Minitab:
1 File Open > Worksheet > EXH_TABL.MTW.
2 Seleccionar Stat > Tables > Cross Tabulation and Chi Square
3 En For rows, poner Gender . En For columns, poner Activity
4 En Display, seleccionar Counts
5 Sel. Chi Square > Chi Cuad. Analysis, Exp. Cell counts, Std. Res.
Click OK en cada cuadro de diálogo
250
251
Cell Contents:
Count
Expected count
Standardized residual
Pearson Chi-Square=2.487, DF=2, P-Value=0.288
Likelihood Ratio Chi-Square = 2.613, DF = 2,
P-Value = 0.271
* NOTE * 1 cells with exp. counts less than 5
Interpretación:
Las celdas en la tabla continenen las frecuencias, las frecuencias
esperadas y los residuos estandarizados.
Como P value es mayor a 0.05, no hay evidencia de asociación
entre Gender y Activity . Como hay una frecuencia menor a 5, se
debe tener precuación al intepretar los resultados
252
Tablas de Contingencia
La Tabla de contingencia es una prueba de independencia entre variables.
Ho: La variable de renglón es independiente de la variable de columna
Las proporciones en todas las columnas de cada renglón son iguales
Ha: La variable de renglón tiene dependencia de la variable de columna
Las proporciones en las columnas de cada renglón son diferentes
Ejemplo: Se tiene interés de probar si la afiliación política depende del sexo y del
partído político, para lo cual se encuestan a 100 personas.
Democrat Republican
Hombres
Mujeres
28
22
18
27
Other
4
1
Las instrucciones son las siguientes:
File > Open worksheet Exh_Tabl.Mtw.
Stat > Tables > Chi-Square Test (Tabla en Worksheet).
En Columns que contiene la tabla, indicar Democrat, Republican y Other. Click OK.
253
Los resultados son los siguientes:
Chi-Square Test: Democrat, Republican, Other
Expected counts are printed below observed counts
Chi-Square contributions are printed below expected counts
Democrat Republican Other Total
1
28
18
4
50
25.00
22.50
2.50
NOTA: Las frecuencias
0.360
0.900 0.900
esperadas deberían ser mayores
a 5.
2
22
27
1
50
25.00
22.50
2.50
0.360
0.900 0.900
Total
50
45
5
100
Chi-Sq = 4.320, DF = 2, P-Value = 0.115
El valor P es mayor a 0.05 y no
2 cells with expected counts less than 5.
se rechaza Ho por tanto el tipo
de partido es independiente del
sexo de los votantes.
254
Ejercicios:
1. Los errores presentados en tres tipos de servicios cuando se prestan por tres regiones
se muestran a continuación, probar con una tabla de contingencia si los errores dependen
del tipo de servicio y región para un 95% de nivel de confianza.
Servicio
1
2
3
Region A Region B Region C
27
12
8
41
22
9
42
14
10
Ho: Los errores NO dependen en cada región del tipo de servicio.
Ha: Los errores en cada región, dependen del tipo de servicio,
Con Minitab:
Stat > Tables > Chi square test (two way table in worksheet)
Columns containing the table Region A Region B Region C
OK
255
2. Probar a una alfa de 0.05 si los errores que se cometen al facturar
en diferentes ramos son similares.
Nivel de confianza = 1 - alfa = 95%
Orden
Farmacia Consumo Comput. Telecom.
Correcta
207
136
151
178
Incorrecta
3
4
9
12
Ho: El número de errores no depende del ramo industrial
Ha: El número de errores depende del ramo industrial
Con Minitab:
Stat > Tables > Chi square test (two way table in worksheet)
Columns containing the table Farmacia Consumo Comput. Telecom.
OK
256
11. Regresión lineal y cuadrática
257
Regresión lineal y cuadrática
• Correlación y regresión lineal
• Regresión simple por medio de gráfica
• Regresión cuadrática por medio de gráfica
258
Correlación y Regresión lineal y cuadrática simple
Coeficiente de Correlación
Establece si existe una relación entre las variables y responde a la pregunta,
”¿Qué tan evidente es esta relación?".
La correlación es una prueba fácil y rápida para eliminar factores que no influyen
en la predicción, para una respuesta dada.
* Es una medida de la fuerza de la relación lineal entre dos variables x y y.
* Es un número entre -1 y 1
* Un valor positivo indica que cuando una variable aumenta, la otra variable aumenta
* Un valor negativo indica que cuando una variable aumenta, la otra disminuye
* Si las dos variables no están relacionadas, el coeficiente de correlación tiende a 0.
259
Correlación Negativa
Evidente
25
20
20
15
15
10
Y
Y
Correlación Positiva
Evidente
25
5
0
5
10
15
20
25
X
5
Sin Correlación
0
r= 1
25
10
0
0
5
10
r = -1
15
20
25
X
20
15
25
Y
Correlación
Positiva
10
0
0
20
5
10
15
r= 0
20
25
25
X
20
15
15
10
Y
Y
Correlación
Negativa
5
r = 0.8
5
0
0
5
10
15
X
20
25
r = -0.8
10
5
0
0
5
10
15
20
25
X
260
Ejemplo:
Se utiliza el archivo PULSE.MTW campos Peso (Weight) y Altura (Height)
File > Open Worksheet > Pulse.Mtw
o copiar los datos del archivo anexo
Antes de calcular el coeficiente de correlación se sugiere hacer un diagrama
bivariante para identificar posibles valores anómalos, relaciones no lineales, etc.
Graph > Scatterplot: Simple
Y = Weight y X = Height
Scatterplot of Weight vs Height
220
200
Weight
180
160
140
120
100
60
62
64
66
68
Height
70
72
74
76
261
Ahora se calcula el coeficiente de Correlación que mide el grado de relación que existe
entre dos variables, como sigue:
Stat > Basic Statistics > Correlation
Seleccionar en Variables Weight Height
Seleccionar Display P values
Los resultados son los siguientes:
Correlations: Weight, Height
Pearson correlation of Weight and Height Coeficiente
= 0.785 de correlación
P-Value = 0.000
Como el P value es menor a 0.05, la correlación si es significativa
262
Coeficiente de correlación
Reglas empíricas
Coeficiente de correlación
0.8 < r < 1.0
0.3 < r < 0.8
-0.3 < r < 0.3
-0.8 < r < -0.3
-1.0 < r < -0.8
Relación
Fuerte, positiva
Débil, positiva
No existe
Débil, negativa
Fuerte, negativa
263
Análisis de Regresión
El análisis de regresión es un método
estandarizado para localizar la correlación entre dos
grupos de datos, y, quizá más importante, crear un
modelo de predicción.
Puede ser usado para analizar las relaciones entre:
• Una sola “X” predictora y una sola “Y”
• Múltiples predictores “X” y una sola “Y”
• Varios predictores “X” entre sí
264
Modelo de regresión lineal simple
Fitted Line Plot
Resultados de prueba (%) = 31.21 + 0.6955 Tiempo de estudio (horas)
S
R-Sq
R-Sq(adj)
Resultados de prueba (%)
80
4.47182
77.0%
74.2%
75
R^2 Coef. de
determinación
70
65
60
55
50
30
40
50
60
Tiempo de estudio (horas)
70
Mínimos cuadrados
265
Regresión simple por medio de gráfica:
File > Open Worksheet > Pulse.Mtw
Stat > Regression > Fitted line Plot
Seleccionar en Response (Y) Weight y en Predictor (X) Height
Seleccionar modelo Type of Regression model Linear
Sel. en Graphs > Residuals Standardized > Normal Plot y Residuals vs fits
OK
Ecuación de
Regresión
Fitted Line Plot
Weight = - 204.7 + 5.092 Height
220
200
Weight
180
S
R-Sq
R-Sq(adj)
160
140
120
100
60
62
64
66
68
Height
70
72
74
76
14.7920
61.6%
61.2%
S Desv. Estandar de
los residuos
(valor real-estimado
por la regresión)
R-Sq Coeficiente
de Determinación
en porcentaje de
variación explicada
por la ecuación de
regresión
R-Sq (Adj) - Sólo para regresión múltiple
266
Regression Analysis: Weight versus Height
The regression equation is
Weight = - 204.7 + 5.092 Height
S = 14.7920
R-Sq = 61.6%
R-Sq(adj) = 61.2%
Analysis of Variance
Source
DF
SS
MS
F
P
Regression
1 31591.6 31591.6 144.38
0.000
Error
90 19692.2
218.8
Total
91 51283.9
El valor p menor a 0.05 indica que SI
es significativa la Correlación de Y y X.
267
Análisis de los residuos
Versus Fits
Normal Probability Plot
(response is Weight)
(response is Weight)
4
99.9
99
95
90
2
Percent
Standardized Residual
3
1
0
80
70
60
50
40
30
20
10
5
-1
1
-2
0.1
100
110
120
130
140
150
Fitted Value
160
Los residuos muestran aleatoriedad
170
180
-4
-3
-2
-1
0
1
Standardized Residual
2
3
4
Los residuos siguen una distribución normal
268
Regresión cuadrática por medio de gráfica:
File > Open Worksheet > Exh_Reg.Mtw
Stat > Regression > Fitted line Plot
Seleccionar en Response (Y) EnergyConsumption y en Predictor (X) MachineSetting
Seleccionar modelo Type of Regression Model Quadratic
Sel. en Graphs > Residuals Standardized > Normal Plot y Residuals vs fits
OK
Ecuación de
Regresión
Fitted Line Plot
EnergyConsumption = 128.8 - 13.11 MachineSetting
+ 0.3289 MachineSetting**2
EnergyConsumption
40
S
R-Sq
R-Sq(adj)
30
6.00002
79.3%
73.4%
S Desv. Estandar de
los residuos
(valor real-estimado
por la regresión)
20
10
0
10
15
20
MachineSetting
25
30
R-Sq Coeficiente
de Determinación
en porcentaje de
variación explicada
por la ecuación de
regresión
R-Sq (Adj) - Sólo para regresión múltiple
269
Resultados
Polynomial Regression Analysis: EnergyConsumption versus MachineS
The regression equation is
EnergyConsumption = 128.8-13.11 MachineSetting+0.3289 MachineSett
S = 6.00002
R-Sq = 79.3%
Analysis of Variance
Source
DF
SS
Regression
2
963.81
Error
7
252.00
Total
9 1215.81
Sequential Analysis of
Source
DF
SS
Linear
1
28.500
Quadratic
1 935.308
R-Sq(adj) = 73.4%
MS
F
P
481.904 13.39 0.004
36.000
El valor p menor a 0.05 indica que SI
es significativa la Correlación de Y y X.
Variance
F
P
0.19 0.673
25.98 0.001
270
Análisis de los residuos
Normal Probability Plot
(response is EnergyConsumption)
99
95
90
Percent
80
70
60
50
40
30
20
10
5
1
-3
-2
-1
0
1
Standardized Residual
2
3
Los residuos siguen una distribución normal
271
12. Regresión Múltiple
272
Regresión múltiple
• Introducción
• Regresión múltiple
• Regresión por pasos
• Regresión por mejores subconjuntos
273
Introducción
274
Regresión múltiple
Genera una ecuación que describe la relación estadística entre uno o más
predictores y la variable de respuesta y predice nuevas observaciones.
Utiliza el método de mínimos cuadrados para derivar la ecuación que
minimiza la suma de los residuos al cuadrado.
Los resultados de la regresión indican la dirección, tamaño, y significancia
estadística de la relación entre los predictores y la respuesta.
* El signo de cada coeficiente indica la dirección de la relación.
* Los coeficientes representan el cambio pormedio en la respuesta
para una unidad de cambio en el predictor, mientras se mantienen
constantes otros predictores del modelo.
275
* El valor P de cada coeficiente prueba la hipótesis nula de que el
coeficiente es igual a cero (sin efecto). Por tanto, valores bajos de P
sugieren que el predictor tiene un efecto significativo en el modelo.
* La ecuación predice nuevas observaciones con base en valores
específicos de los predictores
276
Regresión múltiple

Cuando se usa más de una variable independiente para predecir
los valores de una variable dependiente, el proceso se llama
análisis de regresión múltiple, incluye el uso de ecuaciones
lineales.
Yu  b 0  b1 X u1  b 2 X u 2  ....... b k X uk   u
Se asume que los errores u tienen las características siguientes:
 Tienen media cero y varianza común 2.
 Son estadísticamente independientes.
 Están distribuidos en forma normal.
277
Tamaño de muestra

Tomar 5 observaciones para cada una de las variables
independientes, si esta razón es menor de5 a 1, se tiene el riesgo
de “sobreajustar” el modelo

Un mejor nivel deseable es tomar 15 a 20 observaciones por cada
variable independiente
278
Multicolinealidad

La multicolinealidad implica una dependencia cercana entre
regresores (columnas de la matriz X ), de tal forma que si hay una
dependencia lineal exacta hará que la matriz X’X sea singular.

La presencia de dependencias cercanamente lineales impactan
dramáticamente en la habilidad para estimar los coeficientes de
regresión.

La varianza de los coeficientes de la regresión son inflados debido
a la multicolinealidad. Es evidente por los valores diferentes de cero
que no están en la diagonal principal de X’X. Que son
correlaciones simples entre los regresores.
279
Multicolinealidad

Una prueba fácil de probar si hay multicolinealidad entre dos
variables es que su coeficiente de correlación sea mayor a 0.7

Los elementos de la diagonal principal de la matriz X’X se
denominan Factores de inflación de varianza (VIFs) y se usan
como un diagnóstico importante de multicolinealidad. Para el
componente j – ésimo se tiene:

Si es mayor a 10 implica que se tienen serios problemas de
multicolinealidad.
1
VIF j 
1  R 2j
280
Análisis de los residuos




Los residuos graficados vs la Y estimada, pueden mostrar
diferentes patrones indicando adecuación o no adecuación del
modelo:
La gráfica de residuos aleatorios cuya suma es cero (null plot)
indica modelo adecuado
La gráfica de residuos mostrando una no linealidad curvilínea
indica necesidad de transformar las variables
Si los residuos se van abriendo indica que la varianza muestra
heteroestacidad y se requiere transformar las variables. Se
puede probar con la prueba de Levene de homogeneidad de
varianzas
281
Escalamiento de residuos

En algunos casos es difícil hacer comparaciones directas
entre los coeficientes de la regresión debido a que la
magnitud de bj refleja las unidades de medición del regresor
Xj. Por ejemplo:
Yˆ  5  X 1  1000X 2

Para facilitarla visualización de residuos ante grandes
diferencias en los coeficientes, se sugiere estandarizar o
estudentizar los residuos
282
Escalamiento de residuos

Residuos estandarizados
◦ Se obtienen dividiendo cada residuo entre la desviación
estándar de los residuos
di 
ei
,
MSE
◦ Después de la estandarización, los residuos tienen una
media de 0 y desviación estándar de 1
◦ Con más de 50 datos siguen a la distribución t, de manera
que si exceden a 1.96 (límite para alfa 0.05) indica
significancia estadística y son “outliers”
283
Escalamiento de residuos

Residuos estudentizados
◦ Son similares a los residuos donde se elimina una
observación y se predice su valor, pero además se elimina la
i-ésima observación en el cálculo de la desviación estándar
usada para estandarizar la í-ésima observación
◦ Puede identificar observaciones que tienen una gran
influencia pero que no son detectadas por los residuos
estandarizados
ri 
ei
,
MSE(1  hii )
284
Escalamiento de residuos



El estadístico PRESS (Prediction Error Sum of Squares) es una
medida similar a la R2 en la regresión. Difiere en que se estiman n1 modelos de regresión.
En cada modelo se omite una observación en la estimación del
modelo de regresión y entonces se predice el valor de la
observación omitida con el modelo estimado. El residuo iésimo
será:
ˆ(i )
e

Y

Y
(
i
)
i
El residuo PRESS es la suma al cuadrado de los residuos
individuales e indica una medida de la capacidad de predicción
PRESS   e(2i )  Yi  Yˆ(i ) 
N
i 1
2
RPr2 edicción  1 
PRESS
SYY
285
Gráficas parciales de regresión

Para mostrar el impacto de casos individuales es más efectiva
la gráfica de regresión parcial. Un caso “outlier” impacta en la
pendiente de la ecuación de regresión (y su coeficiente).

Una comparación visual de la gráfica de regresión parcial con y
sin la observación muestra la influencia de la observación

El coeficiente de correlación parcial es la correlación de la
variable independiente Xi y la variable dependiente Yi cuando
se han eliminado de ambos Xi y Yi

La correlación semiparcial refleja la correlación entre las
variables independiente y dependiente removiendo el efecto Xi
286
Por ejemplo:
Se investiga el efecto de los factores que afectan a % de rotura de papas
(variable de respuesta) antes de su embarque. Los predictores son
el % de papa respecto a otros ingredientes y la temperatura de
horneado en grados celsius.
% de papas rotas = 4.231 - 0.044(% papas) + 0.023 Temp
Predictor
Coeficiente
Constante
% papas
Temp
4.231
-0.044
0.023
P
0.322
0.001
0.02
R-Sq = 67.2%
287
Como el P value de ambos predictores es menor a 0.05, son
significativos, explican el 67.2% de la varianza del
% de papas rotas.
* Por cada grado C de incremento en la temperatura, el % de
papas rotas se espera se incremente en 0.023%
* Para predecir el % de papas rotas con el 50% de papas y
una temperatura de cocción de 175 ºC, se calcula el valor
esperado de 4.831% de papas rotas.
288
Regresión múltiple
289
Ejemplo:
Como parte de una prueba de energía térmica solar, se mide el
calor total en Fluxes en las casas. Se desea examinar si este calor puede
predecirse por la posición de los puntos focales en el Este; Sur y Norte.
HeatFlux
271.8
264
238.8
230.7
251.6
257.9
East
33.53
36.5
34.66
33.13
35.75
34.46
South
40.55
36.19
37.31
32.52
33.71
34.14
North
16.66
16.46
17.66
17.5
16.4
16.28 Etc… Etc..
290
Instrucciones de Minitab:
1
2
3
4
5
6
7
File > Open worksheet > EXH_REGR.MTW.
Seleccionar Stat > Regression > Regression.
En Response, seleccionar HeatFlux .
EIn Predictors, seleccionar East South North .
Click Graphs.
En Residuals for Plots, seleccionar Standardized.
En Residual Plots, seleccionar Individual Plots. Histogram of residuals,
Normal plot of residuals, y Residuals versus fits. Click OK.
8 Click Options. En Display, seleccionar PRESS y predicted R-square.
Click OK en cada caja de diálogo.
291
Los resultados se muestran a continuación:
Regression Analysis: HeatFlux versus East, South, North
The regression equation is
HeatFlux = 389 + 2.12 East + 5.32 South - 24.1 North
Predictor
Constant
East
South
North
S = 8.59782
Coef
389.17
2.125
5.3185
-24.132
SE Coef
66.09
1.214
0.9629
1.869
R-Sq = 87.4%
T
5.89
1.75
5.52
-12.92
P
0.000
0.092
0.000
0.000
R-Sq(adj) = 85.9%
292
PRESS = 3089.67
R-Sq(pred) = 78.96%
Analysis of Variance
Source
Regression
Residual Error
Total
Source
East
South
North
DF
1
1
1
DF
3
25
28
SS
12833.9
1848.1
14681.9
MS
4278.0
73.9
F
57.87
P
0.000
Seq SS
153.8
349.5
12330.6
Unusual Observations
Obs East HeatFlux
Fit SE Fit Residual St Resid
4 33.1
230.70 210.20
5.03
20.50
2.94R
22 37.8
254.50 237.16
4.24
17.34
2.32R
R denotes an observation with a large standardized residual
293
Interpretación:
* El valor P de la ANOVA (0.00) indica que el modelo de regresión es
significativo a un nivel alfa de 0.05. Indica que al menos un coeficiente
es diferente de cero.
* Los valores P para los coeficientes estimados de North y South (P = 0.000)
indican que tienen influencia significativa en el HeatFlux. El P-value de East
de 0.092 indica que no es significativo a un nivel de significancia de 0.05.
Además la suma secuencial de cuadrados (sequential sum of squares)
indica que el predictor East, no explica una gran cantidad de varianza, Por
lo que el modelo con solo North y South serìa apropiado.
* El valor de R-sq (adj) de 85.9% tomando en cuenta el número de
predictores en el modelo, indica que el modelo ajusta bien a los datos.
294
* El Predicted R-Sq de 78.96% es cercano al valor de R-Sq, el modelo no
parece estar sobreajustado y tiene buena capacidad predictiva.
* Las observaciones 4 y 22 se identifican como anormales dado que el
valor estandarizado de sus residuos es mayor a 2. Pueden ser Outliers.
Versus Order
Normal Probability Plot
(response is HeatFlux)
(response is HeatFlux)
2
90
Percent
Standardized Residual
99
0
50
10
-2
2
4
6
8
10
12
14
16
18
20
22
24
26
1
28
-3.0
-1.5
Observation Order
0.0
1.5
3.0
Standardized Residual
Versus Fits
Histogram
(response is HeatFlux)
(response is HeatFlux)
2
6
Frequency
Standardized Residual
8
0
4
2
-2
200
220
240
Fitted Value
260
280
0
-2
-1
0
1
Standardized Residual
2
3
295
Interpretación:
* La gráfica de Histograma indica que pueden existir puntos
aberrantes en los datos, indicado por las dos barras derechas.
* La gráfica de probabilidad normal muestra un patrón aprox.
lineal consistente con una distribución normal. Hay dos puntos
que salen de la línea, con Brushing se identifican como el 4 y 22.
* La gráfica de residuos contra valores estimados, muestra que
son más pequeños conforme se incrementa el valor estimado
de Y, lo que puede indicar que los resiudos no tienen una
varianza constante y tal vez sea necesaria una transf. de datos.
296
Regresión por pasos
y mejores subconjuntos
297
Regresión por pasos (Stepwise regression)
Remueve y agrega variables al modelo de regresión con el
propósito de identificar un subconjunto útil de predictores.
Se tienen tres procedimientos:
* Regresión estándar por pasos, agrega y remueve variables.
* Regresión hacia delante (forward regression), agrega variables
* Regresión hacia atrás (backward regression), remueve variables
Cuando se selecciona el método por pasos (stepwise), se puede
introducir un conjunto inicial de variables predictoras en la caja
Predictors in initial model, estas serán
removidas si sus valores p son mayores al valor Alpha to enter .
Si se quieren mantener en el modelo a pesar de sus valores P
incluirlas en la caja Predictors to include in every model.
298
Cuando se selecciona el método de regresión hacia adelante,
se puede introducir el valor de Alpha to enter.
Cuando se selecciona el método de regresión hacia atrás,
se puede introducir el valor de Alpha to remove.
Ejemplo:
Un grupo de estudiantes registra su peso, estatura, género,
preferencia por fumar, nivel de ejercicio y pulso en reposo.
Algunos de ellos corren durante un minuto, después de lo
cual todos se toman el pulso por segunda vez. Se desea
encontrar los mejores predictores para la 2a. tasa de pulso.
Pulse1
Pulse2
64
58
62
66
64
Ran
88
70
76
78
80
Smokes
1
1
1
1
1
Sex
2
2
1
1
2
Height
1
1
1
1
1
Weight
66
72
73.5
73
69
Activity
140
145
160
190
155
2
2
3
1
2
299
Instrucciones de Minitab:
1 File > Open worksheet > PULSE.MTW.
2 Pulsar [CTRL] + [M] para activar la Session window.
3 Sel. Editor > Enable Commands para
que Minitab muestre comandos.
4 Seleccionar Stat > Regression > Stepwise.
5 En Response, seleccionar Pulse2 .
6 En Predictors, seleccionar Pulse1 Ran  Weight .
7 Click Options.
8 In Number of steps between pauses, anotar 2 .
9 Click OK en cada caja de diálogo.
10 En la Session window, en el 1er. More? prompt, poner Yes .
11 En la Session window, en el 2do. More? prompt, poner No .
300
Los resultados se muestran a continuación:
Stepwise Regression: Pulse2 versus Pulse1, Ran, ...
Alpha-to-Enter: 0.15 Alpha-to-Remove: 0.15
Response is Pulse2 on 6 predictors, with N = 92
Step
1
2
Constant
10.28 44.48
Pulse1
0.957 0.912
T-Value
7.42
9.74
P-Value
0.000 0.000
Ran
T-Value
P-Value
S
R-Sq
R-Sq(adj)
Mallows Cp
-19.1
-9.05
0.000
13.5
37.97
37.28
103.2
9.82
67.71
66.98
13.5
301
More? (Yes, No, Subcommand, or Help)
SUBC> yes
Step
3
Constant
42.62
Pulse1
T-Value
P-Value
0.812
8.88
0.000
Ran
T-Value
P-Value
-20.1
-10.09
0.000
Sex
T-Value
P-Value
7.8
3.74
0.000
S
R-Sq
R-Sq(adj)
Mallows Cp
9.18
72.14
71.19
1.9
More? (Yes, No, Subcommand, or Help)
SUBC> no
302
Interpretación:
El ejemplo utiliza seis predictores. Se pidio que Minitab
realice dos etapas en el método de regresión por pasos
automático, muestre los resultados y permita intervenir.
En la primera etapa del modelo, la variable Pulse 1 se
introduce al modelo; en el paso 2, entra la variable Ran,
no se removió ninguna variable.
En cada paso Minitab indica la constante, Coeficientes
y el valor T para cada modelo, desviación estándar y
R-sq (adj).
Al dar Yes en la segunda etapa, el procedimiento agrega
la variable Sex, como ya no hay más variables que entren
o salgan, el procedimiento pregunta de nuevo, al
constestar con No, se detiene.
303
Regresión por mejores subconjuntos (Best subsets)
Este método de regresión identifica los mjeores modelos de
regresión que pueden ser formados con las variables
predictoras que se especifiquen.
Minitab inicia por analizar los modelos de un predictor, y
después los de dos predictores, etc. Solo muestra dos
de los mejores modelos en cada caso.
304
Ejemplo:
Como parte de una prueba de energía térmica solar, se mide el
calor total en Fluxes en las casas. Se desea examinar si este
calor puede predecirse por las variables de posición de los
puntos focales en el Este; Sur y Norte ; la Insulation y la hora.
Time of the day .
HeatFlux
271.8
264
238.8
230.7
251.6
257.9
East
33.53
36.5
34.66
33.13
35.75
34.46
South
40.55
36.19
37.31
32.52
33.71
34.14
305
Instrucciones de Minitab:
1 File > Open worksheet > EXH_REGR.MTW.
2 Seleccionar Stat > Regression > Best Subsets
3 En Response, seleccionar HeatFlux .
4 En Free Predictors, seleccionar Insulation - Time .
Click OK en cada caja de diálogo.
306
Los resultados se muestran a continuación:
Best Subsets Regression: HeatFlux vs Insolation, East, ...
Response is HeatFlux
Vars
1
1
2
2
3
3
4
4
5
R-Sq
72.1
39.4
85.9
82.0
87.4
86.5
89.1
88.0
89.9
R-Sq(adj)
71.0
37.1
84.8
80.6
85.9
84.9
87.3
86.0
87.7
Mallows
Cp
38.5
112.7
9.1
17.8
7.6
9.7
5.8
8.2
6.0
S
12.328
18.154
8.9321
10.076
8.5978
8.9110
8.1698
8.5550
8.0390
I
n
s
o
l
a
t
i
o
n
E
a
s
t
S
o
u
t
h
N
o
r
t
h
X
T
i
m
e
X
X X
X X
X X X
X
X X
X X X X
X
X X X
X X X X X
307
Interpretación de resultados:
Cada línea representa un modelo diferente. Vars es el número
de variables predictoras en el modelo, R-Sq (adj) está en %.
El modelo con todas las variables tiene un valor de Cp de Mallow
de 6.0 (debe ser aprox. igual al número de predictores más la
constante), tiene una R-Sq(adj) de 87.7% y el menor valor de
desviación estándar S (8.0390).
Compite con el modelo de cuatro predictores (sin el timepo)
tiene un valor de Cp de 5.8, una S uin poco mayor (8.16) y la
R-Sq (adj) es ligeramente más baja (87.3%).
En el modelo de tres predictores se observa que el agregar
la variable East no ayuda al ajuste del modelo.
308
Ejemplo de datos de autos:
Estadística de coches:
Stat > Regression > Regression
Response Velo.max Predictors Num.Cil, Cil.(cc), Pot.(CV)
Graphs: Four in One Residuals versus variables Pot.(CV)
Options: Prediction intervals for new observations 4 1124 100
309
Se obtienen los siguientes resultados:
Regression Analysis: Velo.max versus Num.Cil., Cil.(cc), Pot.(CV)
The regression equation is
Velo.max = 157 - 5.72 Num.Cil. - 0.00218 Cil.(cc) + 0.521 Pot.(CV)
244 cases used, 3 cases contain missing values
Predictor
Coef
SE Coef
T
P
Constant
157.178
2.562 61.34 0.000
Num.Cil.
-5.7177
0.9893 -5.78
Significativo
0.000
(P value < 0.05)
Cil.(cc)
-0.002178 0.001610 -1.35
No significativo
0.177
(Pvalue > 0.05)
Pot.(CV)
0.52092
0.01927 27.03
Significativo
0.000
(P value < 0.05)
S = 9.76245
R-Sq = 89.1%
Analysis of Variance
Source
DF
SS
Regression
3 187887
Residual Error 240
22873
Total
243 210760
Source
Num.Cil.
Cil.(cc)
Pot.(CV)
DF
1
1
1
Seq SS
98419
19841
69627
R-Sq(adj)
Coef.
= De
89.0%
determinación
MS
62629
95
F
657.14
P
0.000
R residuos con
más de 2 sigmas
X residuos muy
alejados del
grupo normal
310
R denotes an observation with a large standardized residual.
X denotes an observation whose X value gives it large influence.
Predicted Values for New Observations
Obs
Fit SE Fit
95% CI
95% PI
1 183.951
1.161 (181.663, 186.239) (164.584, 203.318)
Values of Predictors for New Observations
Obs
1
Num.Cil.
4.00
Cil.(cc)
1124
Pot.(CV)
100
311
Los residuos muestran un comportamiento normal por lo que el modelo es adecuado
Residual Plots for Velo.max
Normal Probability Plot of the Residuals
Residuals Versus the Fitted Values
99.9
20
90
Residual
Percent
99
50
10
1
0.1
0
-20
-40
-40
-20
0
Residual
20
40
150
Histogramof the Residuals
200
250
Fitted Value
300
Residuals Versus the Order of the Data
80
Residual
Frequency
20
60
40
20
0
0
-20
-40
-40
-30
-20
-10
0
Residual
10
20
1 20 40 60 80 100 120 140 160 180 200 220 240
Observation Order
312
ResidualsVersusPot.(CV)
El comportamiento de los residuos
vs Potencia sugiere que es necesaria
una transformación de variables por
ejemplo sacarle raíz cuadrada.
(responseis Velo.max)
30
20
Residual
10
0
-10
-20
-30
-40
-50
0
100
200
300
400
500
Pot.(CV)
313
Transformando la variable Pot.(CV) por Pot2 = raiz cuadrada de Pot.(CV) se tiene:
Regression Analysis: Velo.max vs Num.Cil., Cil.(cc),Pot2
The regression equation is
Velo.max = 73.5-1.42 Num.Cil.-0.00699 Cil.(cc)+ 12.8 Pot2
Predictor
Constant
Num.Cil.
Cil.(cc)
Pot2
Coef
73.502
-1.4201
-0.006988
12.8232
S = 7.03547
SE Coef
2.258
0.6770
0.001202
0.3177
R-Sq = 94.4%
T
32.56
-2.10
-5.82
40.36
P
0.000
0.037
0.000 Significativo (P value < 0.05)
0.000
R-Sq(adj)
Mejora
= 94.3%
el ajuste
Predicted Values for New Observations
Obs
Fit SE Fit
95% CI
95% PI
1 1342.286 29.024 (1285.111, 1399.461) (1283.455, 1401.117)XX
XX denotes a point that is an extreme outlier in the pred
Values of Predictors for New Observations
Obs Num.Cil. Cil.(cc) Pot2
1
4.00
1124
100
314
Residual Plots for Velo.max
Normal Probability Plot of the Residuals
Residuals Versus the Fitted Values
99.9
20
90
Residual
Percent
99
50
10
0
-20
1
0.1
-40
-20
0
-40
20
150
Residual
Histogram of the Residuals
200
250
Fitted Value
300
Residuals Versus the Order of the Data
20
Residual
Frequency
40
30
20
0
-20
10
0
-30.0 -22.5 -15.0 -7.5 0.0
Residual
7.5
15.0
-40
1
20 40 60 80 100 120 140 160 180 200 220 240
Observation Order
315
Los residuos vs Pot2 ya tienen un mejor comportamiento más aleatorio:
Residuals Versus Pot2
(response is Velo.max)
20
10
Residual
0
-10
-20
-30
-40
5.0
7.5
10.0
12.5
15.0
17.5
20.0
22.5
Pot2
316
Selección de la mejor ecuación: Best Subsets
Permite obtener un "buen modelo" en función de su sencillez o facilidad de
interpretación.
Stat > Regression > Stepwise
Variables candidatas a entrar en
el modelo
Variables forzadas a entrar en los
modelos
317
Mínimo numero de variables en el modelo 1
Máximo número de variables en el modelo
todas
Número de ecuaciones que aparecen con
1, 2, 3.... Variables regresoras
318
Los resultados son los siguientes:
Best Subsets Regression: Velo.max vs Num.Cil., Cil.(cc), ...
Response is Velo.max
244 cases used, 3 cases contain missing values
N C P
u i o
m l t
. . .
C ( ( P
i c C o
Mallows
l c V t
Vars R-Sq R-Sq(adj)
C-p
S . ) ) 2
1 92.5
92.5
109.0 8.0783
Buenos modelos
X
1 86.6
86.5
385.3 10.813
X
2 94.3
94.2
29.3 7.0849
Incluye sólo
X Cil.(cc)
X
y Pot2
2 93.6
93.6
58.0 7.4544
X X
3 94.8
94.8
3.9 6.7261
X X X
3 94.4
94.3
26.5 7.0355
IncluyeX Num.Cil,
X
X Cil.(Cc), Pot2
4 94.9
94.8
5.0 6.7269 X X X X
319
Selección de la mejor ecuación: Stepwise
Se usa cuando el número de variables es muy grande mayor a 31,
antes da los mismos resultados que el método anterior:
Variable de respuesta
Variables candidatas a entrar en
lós modelos
320
Criterio para la entrada y salida
de variables
El método implica que las
variables puedan ir entrando o
saliendo. Iniciando con ninguna.
Las variables van entrando pero
ya no salen
Las variables van saliendo a
partir de tomar todas y no vuelven
a entrar
Permite mostrar en cada paso
las mejores opciones además de
la seleccionada y el número de
pasos entre pausas.
321
Los resultados obtenidos son los siguientes:
Stepwise Regression: Velo.max versus Num.Cil., Cil.(cc), Pot.(CV), Pot2
Alpha-to-Enter: 0.15 Alpha-to-Remove: 0.15
Response is Velo.max on 4 predictors, with N = 244
N(cases with missing observations) = 3 N(all cases) = 247
Step
1
2
Variables
3
que entran en cada
Constant
78.97
71.48
43.58
paso y su calidad de ajuste
Pot2
10.41
12.69
17.41
T-Value
54.66
40.50
18.33
P-Value
0.000
0.000
0.000
Cil.(cc)
-0.00845 -0.00722
T-Value
-8.58
-7.48
P-Value
0.000
0.000
Pot.(CV)
-0.206
T-Value
-5.23
P-Value
0.000
S
8.08
7.08
6.73
R-Sq
92.51
94.26
94.85
R-Sq(adj)
92.48
94.21
94.78
Modelo adecuado
Mallows C-p 109.0
29.3
3.9
322
Contenido
Parte C:
13. Series de tiempo
14. Diseño de experimentos factoriales
15.
Estudios de R&R – Concordancia por atributos
16. Capacidad de procesos por atributos
17. Capacidad de procesos
18. Cartas de control ponderadas en el tiempo
324
13. Series de tiempo
325
Series de tiempo
• Introducción
• Método de Tendencia lineal y cuadrática
• Método de Promedio móvil
• Método de Suavización exponencial simple
• Método de Suavización exponencial doble
• Método de Winters
326
INTRODUCCIÓN
Los métodos de análisis de series de tiempo consideran el hecho que los datos
tomados en diversos periodos de tiempo pueden tener algunas características de
autocorrelación, tendencia o estacionalidad que se debe tomar en cuenta.
Definición de serie de tiempo: Es una secuencia ordenada de valores de una
variable en intervalos de tiempo periódicos y consecutivos.
Aplicación: la aplicación de estos métodos tiene dos propósitos: comprender las
fuerzas de influencia en los datos y descubrir la estructura que produjo los datos
observados. Ajustar el modelo y proceder a realizar pronósticos, monitoreo,
retroalimentación y control en avance.
Las aplicaciones incluyen pronósticos económicos, análisis de presupuesto,
análisis del mercado, etc.
327
Tendencias: Si los datos muestran una tendencia, se pueden ajustar los datos con
algún tipo de curva o recta y modelar los residuales. Como el propósito del ajuste
es simplemente remover la tendencia a largo plazo, una línea recta es suficiente.
328
Estacionalidad: son fluctuaciones periódicas, por ejemplo cuando hay picos de
ventas en la navidad y después declinan. La serie de tiempo de ventas mostrarán
un incremento durante septiembre a diciembre y una declinación durante enero y
febrero.
329
INDICADORES DE MODELOS DE SERIES DE TIEMPO
Estos indicadores sirven para comparar la efectividad de diferentes modelos
utilizados. Siempre se busca el valor menor en los indicadores MAPE, MAD y
MSD ya que representa un mejor ajuste del modelo.
MAPE: Porcentaje promedio absoluto de error, mide la exactitud de los valores
estimados de la serie de tiempo. La exactitud se expresa como un porcentaje con
yt igual al valor observado, yˆt es el valor estimado y n el número de
observaciones.
330
MAD: Desviación media absoluta, mide la exactitud de los valores estimados de la
serie de tiempo. Expresa la exactitud en las mismas unidades de los datos.
MSD: Desviación cuadrática media, es más sensible a errores anormales de
pronóstico que el MAD.
331
MÉTODOS DE PRONÓSTICO
Los métodos de series de tiempo incluyen métodos de pronóstico y de
suavizamiento simples, métodos de análisis de correlación y métodos de Box
Jenkins ARIMA.
Métodos de pronóstico y suavizamiento simple: se basan en la idea de que hay
patrones visibles en una gráfica de series de tiempo que pueden ser extrapolados
al futuro. El método se selecciona dependiendo de si los patrones son estáticos
(constantes en el tiempo) o dinámicos (cambian en el tiempo), la naturaleza de los
componentes de tendencia y estacionalidad y que tan lejos se quiera pronosticar,
son métodos generalmente fáciles y rápidos de aplicar.
332
Métodos de pronóstico ARIMA (Autoregressive Integrated Moving Average):
también usan patrones de datos, sin embargo puede que no sean fácilmente
visibles en la serie de tiempo. El modelo usa funciones de diferencias,
autocorrelación y autocorrelación parcial para ayudar a identificar un modelo
aceptable. El modelo ARIMA representa una serie de pasos de filtraje hasta que
solo queda ruido aleatorio. Es un proceso iterativo que consume tiempo de
ejecución.
333
Por ejemplo:
Se colectan datos de empleo en un sector de negocios durante 60 meses y se
desea predecir la tasa de empleo para los siguientes 12 meses, EMPLOY.MTW.
Trade
322
317
319
323
327
Etc.
Food
53.5
53
53.2
52.5
53.4
Etc.
Metals
44.2
44.3
44.4
43.4
42.8
Etc.
Trade
351
354
355
357
362
Etc.
Food
63.6
68.8
68.9
60.1
55.6
Etc.
Metals
44.5
45
44.8
44.9
45.2
Etc.
334
MÉTODO DE TENDENCIA LINEAL
Las instrucciones de Minitab son las siguientes:
1 File > Open Worksheet > EMPLOY.MTW.
2 Ejecutar Stat > Time Series > Trend Analysis.
3 En Variable, poner Trade.
4 En Model Type, seleccionar Linear
5 Seleccionar Generate forecasts y poner 12 en Number of forecasts.
6 Seleccionar Storage .
7 Seleccionar Fits (Trend Line) , Residuals (detrended data), y Forecasts.
Seleccionar OK en cada diálogo.
335
Trend Analysis Plot for Trade
Linear Trend Model
Yt = 313.989 + 1.16485*t
400
Variable
Actual
Fits
Forecasts
390
380
Accuracy Measures
MAPE
1.8999
MAD
6.6177
MSD
67.4325
Trade
370
360
350
340
330
320
310
1
7
14
21
28
35
42
Index
49
56
63
70
MAPE
MAD
MSD
Forecasts
Period Forecast
61
385.045
62
386.209
63
387.374
64
388.539
65
389.704
66
390.869
67
392.034
68
393.199
69
394.363
70
395.528
71
396.693
72
397.858
1.8999
6.6177
67.4325
336
MODELO CUADRÁTICO
1 Open Worksheet EMPLOY.MTW.
2 Ejecutar Stat > Time Series > Trend Analysis.
3 En Variable, poner Trade.
4 En Model Type, seleccionar Quadratic.
5 Seleccionar Generate forecasts y poner 12 en Number of forecasts.
6 Seleccionar Storage .
7 Seleccionar Fits (Trend Line) , Residuals (detrended data), y Forecasts.
Seleccionar OK en cada diálogo.
337
Trend Analysis Plot for Trade
Quadratic Trend Model
Yt = 320.762 + 0.509373*t + 0.0107456*t**2
Variable
Actual
Fits
Forecasts
410
400
390
Accuracy Measures
MAPE
1.7076
MAD
5.9566
MSD
59.1305
Trade
380
370
360
350
340
330
320
1
7
14
21
28
35
42
Index
49
56
63
70
Forecasts
Period Forecast
61
391.818
62
393.649
63
395.502
64
397.376
65
399.271
66
401.188
67
403.127
68
405.087
69
407.068
70
409.071
71
411.096
72
413.142
MAPE 1.7076
MAD 5.9566
MSD 59.1305
338
PROMEDIO MÓVIL
Suaviza los datos al promediar observaciones consecutivas en la serie de tiempo.
Este método es adecuado cuando no hay componente de tendencia ni
estacionalidad
Se calcula el promedio móvil de la serie. Por ejemplo si se tienen los números 4, 5,
8, 9, 10 y se usa un promedio móvil de 3. Los primeros dos valores no existen. El
tercer valor es el promedio de 4, 5, y 8; el cuarto valor es el promedio de 5, 8, y 9;
el quinto valor es el promedio de 8, 9, y10
339
Ejemplo:
Se desea predecir el empleo durante los próximos 6 meses en el segmento de
metales con los datos de los últimos 60 meses. Se usa el método de promedio
móvil si no se tienen patrones bien definidos de tendencia o estacionalidad en los
datos.
1 File > Open worksheet EMPLOY.MTW.
2 Seleccionar Stat > Time Series > Moving Average.
3 En Variable, seleccionar Metals. En MA length, poner 3.
4 Seleccionar Center the moving averages.
5 Seleccionar Generate forecasts, y poner 6 en Number of forecasts. Click
OK.
340
Moving Average Plot for Metals
52
Variable
Actual
Fits
Forecasts
95.0% PI
50
Moving Average
Length 3
Metals
48
Accuracy
MAPE
MAD
MSD
46
44
42
Measures
1.55036
0.70292
0.76433
Forecasts
Period Forecast
61
49.2
62
49.2
63
49.2
64
49.2
65
49.2
66
49.2
40
1
7
14
21
MAPE
MAD
MSD
28
35
Index
42
49
56
63
1.55036
0.70292
0.76433
341
MÉTODOS DE SUAVIZACIÓN EXPONENCIAL SIMPLE
Se aplica cuando solo si se tiene un comportamiento de la serie de tiempo sin
tendencia o estacionalidad. El componente simple dinámico en un modelo de
promedio móvil es el nivel.
Peso especificado
1. Se usa el promedio de los primeros seis (o N si N<6) observaciones para el
valor inicial suavizado (en tiempo uno).
2. Los valores suavizados subsecuentes se calculan de la fórmula:
Valor suavizado en t = a(dato en periodo t)] + (1-a) (valor suavizado en t-1)
Donde a es el peso.
342
Ejemplo:
Se desea predecir el empleo durante los próximos 6 meses en el segmento de
metales con los datos de los últimos 60 meses.
1
2
3
4
File > Open worksheet EMPLOY.MTW.
Seleccionar Stat > Time Series > Single Exp Smoothing.
En Variable, poner Metals.
Seleccionar Generate forecasts, y 6 en Number of forecasts. Click OK.
Los resultados se muestran a continuación:
Single Exponential Smoothing for Metals
Data
Metals
Length 60
Smoothing Constant
Alpha 1.04170
343
Single Exponential Smoothing Plot for Metals
52
Variable
Actual
Fits
Forecasts
95.0% PI
50
Smoothing Constant
Alpha
1.04170
Metals
48
Accuracy
MAPE
MAD
MSD
46
44
42
Measures
1.11648
0.50427
0.42956
Forecasts
Period Forecast
61
48.0560
62
48.0560
63
48.0560
64
48.0560
65
48.0560
66
48.0560
40
1
7
MAPE
MAD
MSD
14
21
28
35
Index
42
49
56
63
1.11648
0.50427
0.42956
344
SUAVIZAMIENTO EXPONENCIAL DOBLE (HOLT)
Se aplica cuando en la serie de tiempo se presenta una tendencia ascendente o
descendente pero sin estacionalidad.
Pesos especificados
1. Se hace una regresión lineal en los datos de la serie (Y) contra el tiempo (X).
2. La constante de esta regresión es el valor inicial estimado del componente de
nivel, el coeficiente de la pendiente es el estimado inicial del componente de
tendencia.
Pronósticos: el método de suavizamiento exponencial doble usa los componentes
de nivel y de tendencia para generar los pronósticos.
345
Por ejemplo:
1 File > Open worksheet EMPLOY.MTW.
2 Seleccionar Stat > Time Series > Double Exp Smoothing.
3 En Variable, poner Metals.
4 Seleccionar Generate forecasts, y 6 en Number of forecasts.
Click OK.
Los resultados se muestran a continuación:
Double Exponential Smoothing for Metals
Data
Metals
Length 60
Smoothing Constants
Alpha (level) 1.03840
Gamma (trend) 0.02997
346
Double Exponential Smoothing Plot for Metals
54
Variable
Actual
Fits
Forecasts
95.0% PI
52
Metals
50
Smoothing Constants
Alpha (level)
1.03840
Gamma (trend)
0.02997
48
Accuracy
MAPE
MAD
MSD
46
44
42
Measures
1.19684
0.54058
0.46794
Forecasts
Period Forecast
61
48.0961
62
48.1357
63
48.1752
64
48.2147
65
48.2542
66
48.2937
40
1
7
MAPE
MAD
MSD
14
21
28
35
Index
42
49
56
63
1.19684
0.54058
0.46794
347
MÉTODO DE WINTERS
Se aplica cuando en la serie de tiempo se presentan los patrones de tendencia y
estacionalidad.
Suaviza los datos por el método exponencial de Holt – Winters. Se recomienda
este método cuando se tienen presentes los componentes de tendencia y
estacionalidad ya sea en forma aditiva o multiplicativa.
El efecto multiplicativo se presenta cuando el patrón estacional en los datos
depende del tamaño de los datos o sea cuando la magnitud del patrón estacional
se incrementa conforme los valores aumentan y decrece cuando los valores de los
datos disminuyen.
El efecto aditivo es mejor cuando el patrón estacional en los datos no depende del
valor de los datos, o sea que el patrón estacional no cambia conforme la serie se
incrementa o disminuye de valor.
348
El método de Winters calcula los estimados de de tres componentes: nivel,
tendencia y estacionalidad. Calcula estimados dinámicos con ecuaciones para los
tres componentes: nivel, tendencia y estacionalidad. Estas ecuaciones dan una
mayor ponderación a observaciones recientes y menos peso a observaciones
pasadas, las ponderaciones decrecen geométricamente a una tasa constante.
La ponderación seleccionada para Nivel, tendencia y estacionalidad es de 0.2 si
se quiere hacer una correspondencia con el modelo ARIMA u otros valores entre 0
y 1 para reducir los errores de estimación.
349
Ejemplo de pronósticos utilizando el Método de Winters
Se desea predecir el empleo para los siguientes seis meses en la industria
alimenticia usando datos colectados sobre los últimos 60 meses, usando el
método de Winters con el modelo multiplicativo, dado que hay componente
estacional y de tendencia aparente en los datos.
Instrucciones de Minitab
1 File > Open Worksheet > EMPLOY.MTW.
2 Ejecutar Stat > Time Series > Winters' Method.
3 En Variable, poner Food. In Seasonal length, 12 .
4 En Model Type, seleccionar Multiplicative.
5 Seleccionar Generate forecasts poner 6 en Number of forecasts. Seleccionar
OK.
350
Winters' Method Plot for Food
Multiplicative Method
Variable
A ctual
Fits
Forecasts
95.0% PI
75
70
Smoothing Constants
A lpha (lev el)
0.2
Gamma (trend)
0.2
Delta (seasonal)
0.2
Food
65
A ccuracy
MA PE
MA D
MSD
60
55
Measures
1.88377
1.12068
2.86696
Period
Forecast
61 57.8102
62 57.3892
63 57.8332
64 57.9307
65 58.8311
66 62.7415
50
1
7
14
21
28
35
Index
Smoothing Constants
Alpha (level) 0.2
Gamma (trend) 0.2
Delta (seasonal) 0.2
42
49
56
63
MAPE 1.88377
MAD 1.12068
MSD 2.86696
351
14. Diseños de experimentos
352
Diseño de experimentos
• Introducción
• Diseños de experimentos 2K
• Diseños de experimentos factoriales completos
353
Introducción
354
Diseño de experimentos factoriales

Es una prueba o serie de pruebas donde se inducen cambios
deliberados en las variables de entrada de un proceso, para
observar su influencia en la variable de salida o respuesta
Entradas
Salidas (Y)
Proceso
Entradas
Salidas (Y)
Diseño de
Producto
355
Número de niveles
•
y
En Dos Niveles nos permite
considerar únicamente los
efectos lineares.
1
2
2 Niveles
y
•
En Tres Niveles hay la necesidad de
ejecutar más pruebas, sin embargo,
nos permite buscar la curvatura, es
decir, los efectos cuadráticos.
1
2
3
3 Niveles
356
Pasos del DOE - generales
Establecer objetivos
 Seleccionar variables del proceso



Seleccionar un diseño experimental
Ejecutar el diseño
Asegurar que los datos sean consistentes con los
supuestos
 Analizar e interpretar los resultados
 Usar / presentar los resultados (pueden orientar a
corridas futuras)

357
Pasos del DOE - detallado

Proceso en control, evaluar capacidad

Determinar CTQ objetivo a mejorar

Definir como medir la variable de respuesta

Determinar los factores de influencia

Determinar los niveles de experimentación
358
Pasos del DOE – detallado…

Seleccionar diseño experimental a utilizar

Verificar el error R&R del sistema de medición

Planear y asignar recursos a los experimentos

Realizar los experimentos

Medir las unidades experimentales
359
Pasos del DOE - detallado

De resultados identificar factores significativos

Determinar la mejor combinación de niveles de
factores para lograr los objetivos

Correr un experimento de confirmación

Establecer controles para mantener la solución

Re evaluar la capacidad del proceso
360
Tipos de Experimentos
Tipos Comunes
de Experimentos
1.
Factorial Completo
(todas las combinaciones de factores
y niveles)
2.
Fraccional Factorial
(subgrupo del número total de
combinaciones)
3.
Examen
Objetivos
Número Típico de
Factores Controlables
• Encontrar los niveles de
4 o menos
factor que proporcionan
los mejores resultados.
• Construir un modelo matemático
(evalúa todas las interacciones).
• Encontrar los niveles de
factor que proporcionan
los mejores resultados.
• Construir un modelo matemático
(evalúa todas las interacciones).
• Probar muchos factores para
encntrar los pocos vitales.
(no evalúa interacciones).
5 o más
7 o más
361
Tipos de Experimentos
(continuación)
Tipos Comunes
de Experimentos
4.
•
Diseño Central
Compuesto
o Box-Behnken
5.
Diseño Robusto
6.
Diseño Robusto
Dinámico de
Taguchi
(Función Ideal)
Objetivos
Número Típico de
Factores Controlables
• Optimizar
• Construir un modelo matemático
cuando no haya efectos lineales
(Superficie de respuesta).
• Optimizar
• Para encontrar los niveles de factores
a fin de reducir al mínimo la variación
ante factores de ruido cambiantes.
• Optimizar
• Optimizar la función de un producto
o proceso de manufactura.
• Reducir al mínimo la sensibilidad al
ruido y aumentar al máximo la
sensibilidad a la señal de entrada.
3 o menos
5 o más
7 o más
362
Los Factores Pueden Afectar...
1. La Variación del Resultado
Tiempo de
Ciclo Largo
Tiempo de
Ciclo Corto
Dimensión de la Parte
2. El Resultado Promedio
Presión de
Sujeción Baja
Presión de
Sujeción Alta
Dimensión de la Parte
3. La Variación y el Promedio
Temp
Alta
Temp
Baja
Dimensión de la Parte
4. Ni la Variación ni el Promedio
Ambos materiales
producen el
mismo resultado
Dimensión de la Parte
363
Estrategia cuando el “Valor Meta es Mejor”
Paso 1: Encuentra los factores que
afectan la variación. Usa estos
factores para reducir al mínimo
la variación.
Paso 2: Encuentra los factores que
desplazan el promedio (y no
afectan la variación). Usa estos
factores para ajustar la salida
promedio con la meta deseada.
Meta
364
Estrategia cuando el
“Valor Mínimo es Mejor”
Tendencia de
salida baja
0
• El objetivo en este caso es encontrar los factores que
afectan la salida promedio (tiempo). Usa estos factores para
hacer que la tendencia del promedio sea baja.
• Cuando se reduce la variación en la salida al mínimo,
también se mejora la salida al detectar los factores que
contribuyen en gran medida a la variación.
365
Diseños de
experimentos 2K
366
Diseños factoriales de dos niveles
El número de combinaciones de prueba para un
factorial completo con factores k, cada uno en dos
niveles es:
k
n2
Por lo tanto, a estos diseños se les conoce como
diseños .
k
2
367
Diseño factorial completo 2K
ALTO
ALTO
Representación Gráfica
B
B
ALTO
BAJO
BAJO
BAJO
A
BAJO
Prueba A
Representación Tabular
1
2
3
4
B
+
+
+
+
ALTO BAJO
Factor
ALTO
A
A
C
1
2
3
4
5
6
7
8
+
+
+
+
B
C
+
+
+
+
+
+
+
+
368
Diseño factorial completo 2K
Niveles
Bajo
Alto
Velocidad (seg.)
350
400
Tiempo
1min.
2min.
Factores
Todas las combinaciones
Corrida 1:
Corrida 2:
Corrida 3:
Corrida 4:
Velocidad
350
350
400
400
Tiempo
1min.
2min.
1min.
2min.
369
Experimento factorial completo –
sin interacción

Un experimento factorial completo es un experimento donde se
prueban todas las posibles combinaciones de los niveles de todos los
factores.
Factor A :
Factor B :
-1
+1
+1
30
52
-1
20
40
Y = Respuesta
Efecto del factor A = (52+40)/2 - (30+20)/2 = 21
Efecto del factor B = (30+52)/2 - (20+40)/2 = 11
Efecto de A*B = (52+20)/2 – (30+40)/2
=1
B+1
B-1
A -1 +1
370
Experimento sin interacción
B = +1
30
52
Respuesta
Promedio
B = -1
40
20
A = -1
A = +1
371
Experimento sin interacción
Respuesta
52
40
30
20
A = -1
A = +1
372
Modelo de regresión lineal
y  b 0  b1 x1  b 2 x2  b12 x1 x2
bˆ  (20  40  30  52) / 4  35.5
0
bˆ1  21/ 2  11
bˆ2  11/ 2  5.5
bˆ12  1/ 2  0.5
ˆ  35.5  10.5 x1  5.5 x2  0.5 x1 x2
y
El coeficiente 0.5 es muy pequeño
dado que no hay interacción
373
Gráfica de contornos
Experimentos sin interacción
Dirección
De ascenso
rápido
1
49
46
40
.5
X2
34
0
-.5
28
22
-1
X1
-1 -.6
-.4 -.2 0.0 +.2 +.4 +.6 +.8
+1
374
Superficie de respuesta
Experimentos sin interacción
Y = respuesta
Superficie de respuesta
Gráfica del modelo de regresión
X1
X2
Experimento factorial completo –
con interacción

Un experimento factorial completo es un experimento donde se
prueban todas las posibles combinaciones de los niveles de todos los
factores.
Factor A :
Factor B :
-1
+1
+1
40
12
-1
20
50
Efecto de A*B = {(12+20)-(40+50)}/2 = -29
Y = Respuesta
B+1
B-1
A -1 +1
376
Interacción de dos factores
Sin interacción
Interacción
moderada
Interacción
fuerte
Interacción
fuerte
Factoriales completos vs fraccionales
377
Experimento con interacción
B = +1
40
12
Respuesta
Promedio
B = -1
50
20
A = -1
A = +1
378
Modelo de regresión lineal
y  b 0  b1 x1  b 2 x2  b12 x1 x2
bˆ  (20  40  30  52) / 4  30.5
0
bˆ1  2 / 2  1
bˆ2  18 / 2  9
bˆ12  58 / 2  29
ˆ  30.5  1x1  9 x2  29 x1 x2
y
El coeficiente -29 es muy grande representando
la interacción
380
Dirección
De ascenso
rápido
Gráfica de contornos
1
49
25
43
.5
40
X2
31
0
34
28
-.5
-1
X1
-1 -.6
-.4 -.2 0.0 +.2 +.4 +.6 +.8
+1
381
Superficie de respuesta
Experimentos con interacción
Superficie de respuesta
Gráfica del modelo de
regresión
382
Tabla ANOVA – Experimento de
Tratamiento Térmico
Origen
DF
SS Sec
SS Aj
MS Aj
F
P
Temp
1
162.000
162.00
162.00
46.29
0.002
Tiempo
1
2.000
2.000
2.000
0.57
0.492
Temp*
Tiempo
1
72.000
72.000
72.000
20.57
0.011
Error
4
14.000
Total
7
250.000
14.000
3.500
La Temperatura
es significativa.
El Tiempo, por
sí solo, no es
significativo.
El Tiempo, en
combinación
con la
Temperatura,
es significativa.
383
Modelo de regresión
384
Gráficas factoriales de efectos
principales e interacciones
Main Effects Plot (data means) for Res
Interaction Plot (data means) for Res
-1
1
-1
1
90
A
-1
1
86
90
84
82
A
B
Mean
Res
88
85
80
-1
1
B
385
Gráficas de contornos y
de superficie de respuesta
Contour Plot of Res
B
1
82.5
85.0
87.5
90.0
92.5
Surface Plot of Res
0
95
90
-1
Res
-1
0
A
85
1
1
80
0
-1
A
B
-1
0
1
386
Ejemplo:
En el diseño de una página Web se desea maximizar el número
Y (miles) de visitas a la misma. Para lo cual se realiza un diseño
de experimentos de tres factores con dos niveles y dos réplicas.
Factor
Nivel bajo Nivel Alto
A. Colores
8
12
B. Intensidad
230
240
C. Velocidad de carga
0.6
1
Como respuesta se toma el nivel de visitas en una escala de 0 a 30
entre mayor sea mejor calidad
387
Paso 1. Generar diseño
Stat > DOE > Factorial > Create Factorial Design
Sel. 2-Level factorial (default generators); Number of factors 3
Designs: Seleccionar Full Factorial
Replicates 2 Blocks 1
Factors: Colores 8 12 Intensidad 230 240 Velocidad 0.6 1
Options: Quitar bandera de Randomize runs
OK
Puede colocar la matriz del diseño en orden aleatorio o estándar con
Stat > DOE > Display Design: Estándar order for design
Para cambiar de unidades sin codificar a unidades codificadas:
Stat > DOE > Display Design: Coded o Uncoded Units
388
Paso 2. Introducir los resultados experimentales:
Run Order Colores Intensidad Velocidad
1
8
230
0.6
2
12
230
0.6
3
8
240
0.6
4
12
240
0.6
5
8
230
1
6
12
230
1
7
8
240
1
8
12
240
1
Y
10
26.5
15
17.5
11.5
26
17.5
20
8
28
13
19
10
25
19
18
389
Paso 3. Analizar el diseño
Stat > DOE > Factorial > Analyze Factorial Design
Response Y
Graphs: Seleccionar Effects plots Normal Pareto Alpha = 0.05
Residual for Plots Standardized
Seleccionar Normal Plot y Residuals vs Fits
Results Seleccionar todos los términos con >>
OK OK
390
Los resultados se muestran a continuación.
Pareto Chart of the Standardized Effects
(response is Y, Alpha = .05)
2.31
F actor
A
B
C
A
N ame
C olores
Intensidad
V elocidad
AB
Term
AC
C
Normal Plot of the Standardized Effects
BC
(response is Y, Alpha = .05)
99
B
Effect Type
Not Significant
Significant
95
ABC
2
4
6
8
10
12
Standardized Effect
14
16
18
80
Los factores e interacciones significativas pasan la raya roja
Percent
0
70
(response is Y, Alpha = .05)
N ame
C olores
Intensidad
V elocidad
60
50
40
30
AC
20
Normal Plot of the Standardized Effects
10
AB
5
99
Effect Ty pe
Not Significant
1
Significant
95
A
90
80
Percent
F actor
A
B
C
A
90
70
F actor
A
B
C
N ame
C olores
Intensidad
V elocidad
-10
-5
0
5
10
Standardized Effect
15
20
60
50
40
30
AC
20
10
AB
391
Los términos significativos tienen un P value <=0.05
Estimated Effects and Coefficients for Y (coded units)
Term
Effect
Coef
SE Coef
T
P
17.750
0.2932
60.55
0.000
9.500
4.750
0.2932
16.20
0.000
Intensidad
-0.750
-0.375
0.2932
-1.28
0.237
Velocidad
1.250
0.625
0.2932
2.13
0.066
Colores*Intensidad
-7.000
-3.500
0.2932
-11.94
0.000
Colores*Velocidad
-1.750
-0.875
0.2932
-2.98
0.017
Intensidad*Velocidad
1.250
0.625
0.2932
2.13
0.066
Colores*Intensidad*Velocidad
0.000
0.000
0.2932
0.00
1.000
Constant
Colores
La ecuación de regresión con valores codificados es:
Nivel_Serv = 17.75 + 4.75*Colores - 3.5*Colores*Intensidad - 0.875*Colores*velocidad
392
Las gráficas de los residuos se muestran a continuación:
Normal Probability Plot
(response is Y)
99
95
90
70
60
50
40
30
Versus Fits
20
(response is Y)
10
5
1
1.0
-3
-2
-1
0
1
Standardized Residual
Standardized Residual
Percent
80
2 0.5
3
0.0
-0.5
-1.0
-1.5
10.0
12.5
15.0
17.5
20.0
Fitted Value
22.5
25.0
27.5
El comportamiento de los residuos es normal, validando el modelo.
393
Los coeficientes son los siguientes:
Estimated Coefficients for Y in uncoded units
Term
Constant
Colores
Intensidad
Velocidad
Colores*Intensidad
Colores*Velocidad
Intensidad*Velocidad
Colores*Intensidad*Velocidad
Coef
-713.375
86.3750
2.92500
-121.875
-0.350000
-2.1875
0.62500
-0.000000
Y = -713.375 + 86.375 Colores - 0.35 Colores*Intensidad
- 2.1875 Colores*Velocidad
La ecuación incluye solo los términos que son significativos
394
Paso 4. Obtener las gráficas factoriales
Stat > DOE > Factorial Plots
Sel. Main Effects Plot: Setup: Response Y; Pasar factores con >>
Sel. Interaction Plot: Setup: Response Y; Pasar factores con >>
Sel. Cube Plot: SetUp >> Response Y; Pasar con >>
OK
Main Effects Plot for Y
Data Means
Colores
Intensidad
22
20
18
16
Mean
14
8
12
230
240
Velocidad
22
20
18
16
14
0.6
1.0
395
Las interacciones significativas son A*B y A*C
Los mejores niveles de operación son: A = 8, B = 230 y C = 0.6
Colores = 12
396
El cubo muestra las diferentes Y's - La mejor combinación es:
Cube Plot (data means) for Y
18.25
19.00
14.00
18.25
240
Intensidad
10.75
25.50
1
9.00
27.25
8
12
230
Velocidad
0.6
Colores
397
Paso 5. Gráficas de contornos y de superficie de respuesta
Stat > DOE > Contour / Surface Plots
Sel. Contour Plot: Setup: Response Y;
Sel. gener. plots for all pair of num. Factors
Sel. Surface Plot: Setup: Resp. Y;
Sel. gener. plots for all pair of num. Factors
OK
Contour Plots of Y
240
237
Intensidad*Colores
1.0
0.9
0.8
Velocidad*Colores
Y
<
10.0 –
12.5 –
15.0 –
10.0
12.5
15.0
17.5
398
Contour Plots of Y
Intensidad*C olores
240
Velocidad*C olores
1.0
10.0
12.5
15.0
17.5
20.0
22.5
0.9
237
0.8
234
0.7
231
8
1.0
9
10
11
12
Velocidad*Intensidad
0.6
8
9
10
11
12
Y
<
–
–
–
–
–
–
>
10.0
12.5
15.0
17.5
20.0
22.5
25.0
25.0
Hold Values
C olores
8
Intensidad 230
Velocidad
0.6
0.9
0.8
0.7
0.6
231
234
237
240
Las flechas muestran la dirección de experimentación futura
para mejores resultados
399
Gráficas de superficie de respuesta
400
Paso 6. Ampliación de la respuesta en la zona de Y = 21 a 24
Stat > DOE > Factorial > Overlaid Contour Plot
Seleccionar Response Y con >
Seleccionar en Settings Hold Extra factors inProbar
Low setting
con High y Middle settings
Seleccionar en Contours Low 21 High 26
Factors X:Axis A:Colores Y:Axis B:Intensidad
OK
401
Contour Plot of Y
240.0
Y
21
24
238.5
Hold Values
Velocidad 1
Intensidad
237.0
235.5
234.0
232.5
231.0
8
9
10
Colores
11
12
402
Paso 7. Obtener una respuesta optimizada
Stat > DOE > Factorial > Response Optimizer
Seleccionar en Response Y
Seleccionar en Options :Colores 10 Intensidad 235 Velocidad 0.8
Seleccionar en Set up: Goal Maximize Lower 21 Target 26
OK
403
Sel.y mover las líneas de cada factor hasta obtener el máximo nivel de servicio:
Optimal
High
D
Cur
1.0000 Low
Colores
12.0
[12.0]
8.0
Intensid
240.0
[230.0]
230.0
Velocida
1.0
[0.60]
0.60
Composite
Desirability
1.0000
Y
Maximum
y = 27.2500
d = 1.0000
404
Diseños de experimentos
Factoriales completos
405
Diseño de experimentos factoriales completos
de tres niveles
Se estudia el nivel de servicio de una sucursal (Y), donde se piensa
que los factores que mayor influencia tienen son la velocidad y el
tiempo de espera en filas.
Se diseña un experimento factorial completo con dos réplicas y
tres niveles en cada factor como se muestra en la tabla siguiente.
Considerar un 5% de nivel de significancia o 95% de nivel de confianza.
Velocidad (seg.)
150
160
170
Tiempo de espera en fila (seg.)
200
215
230
90.4
90.7
90.2
90.2
90.6
90.4
90.1
90.5
89.9
90.3
90.6
90.1
90.5
90.8
90.4
90.7
90.9
90.1
406
PASO 1. GENERAR EL DISEÑO FACTORIAL
Stat > DOE > Factorial > Create Factorial Design
seleccionar Type of Design: General Full Factorial Design
Number of factors 2
Designs: Factor A Name Velocidad
Factor B Name Tiempo
Number of Replicates 2
Number of Levels 3
Number of Levels 3
Options Quitar bandera de randomize runs
Factors Introducir los niveles para Velocidad 200 215 230
Tiempo 150 160 170
OK
407
PASO 2. CARGA DE DATOS DE LA COLUMNA DE RESPUESTA
DESPUÉS DE GENERAR EL DISEÑO O ARREGLO
StdOrder
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
PtType
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
Blocks
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
Copiar columna de datos
Velocidad Tiempo
Nivel_Serv
200
150
90.4
200
160
90.1
200
170
90.5
215
150
90.7
215
160
90.5
215
170
90.8
230
150
90.2
230
160
89.9
230
170
90.4
200
150
90.2
200
160
90.3
200
170
90.7
215
150
90.6
215
160
90.6
215
170
90.9
230
150
90.4
230
160
90.1
230
170
90.1
408
PASO 3. ANALIZAR EL DISEÑO DE EXPERIMENTOS
Stat > DOE > Factorial > Analyze Factorial Design
Response Seleccionar Nivel_Serv
Terms
Pasar todos los términos a Selected con >> OK
Graphs
Residuals for Plots Estandardized
Seleccionar Residual plots: Normal y vs fits OK
Results
ANOVA table, Covariate, Unusual observations
Seleccionar todos los términos con >> OK
OK
Cálculo de residuales
Y(i,j) estimada= Promedio de valores en cada celda (i,j)
Residuales o error e(i,j) = Y(i,j) real observada - Y (i,j) estimada
409
Los residuales versus Y estimada son aleatorios con media cero
Versus Fits
Standar dized Residual
(response is N iv el_S erv )
2
1
0
-1
-2
90.0
90.1
90.2
90.3
90.4
90.5
Fitted V alue
90.6
90.7
90.8
90.9
Normal Probability Plot
(response is N iv el_S erv )
99
P er cent
90
50
10
1
-3
-2
-1
0
Standar dized Residual
1
2
3
Los residuales se distribuyen normalmente (apego a la línea recta)
410
Multilevel Factorial Design
Factors:
2
Replicates:
2
Base runs:
9
Total runs:
18
Base blocks: 1
Total blocks:
1
Number of levels: 3, 3
General Linear Model: Nivel_Serv vs Velocidad, Tiempo
Factor
Type
Levels Values
Temp
fixed
3 200, 215, 230
Presion fixed
3 150, 160, 170
Analysis of Variance for Nivel_Serv, with Adjusted SS for Tests
Significativos a nivel de 0.05
Source
DF
Seq SS
Adj SS
Adj MS
F
P
Velocidad
2
0.76778
0.76778
0.38389 21.59 0.000
Tiempo
2
0.30111
0.30111
0.15056
8.47 0.009
Velocidad*Tiempo
4
0.06889
0.06889
0.01722
0.97 0.470
Error
9
0.16000
0.16000
0.01778
Total
17
1.29778
No significativo a nivel 0.05
S = 0.133333
R-Sq = 87.67%
R-Sq(adj) = 76.71%
411
PASO 4. GRÁFICAS FACTORIALES PARA IDENTIFICAR
LAS MEJORES CONDICIONES DE OPERACIÓN
Determinados de promedios del Nivel_Serv en cada nivel de factores
Least Squares Means for Rendimiento
Temp
200
215
230
Presion
150
160
170
Temp*Presion
200 150
200 160
200 170
215 150
215 160
215 170
230 150
230 160
230 170
Mean
90.37
90.68
90.18
SE Mean
0.05443
0.05443
0.05443
90.42
90.25
90.57
0.05443
0.05443
0.05443
90.30
90.20
90.60
90.65
90.55
90.85
90.30
90.00
90.25
0.09428
0.09428
0.09428
0.09428
0.09428
0.09428
0.09428
0.09428
0.09428
412
PASO 5. GRÁFICAS FACTORIALES
Stat > DOE > Factorial > Factorial Plots
Seleccionar Main effects e Interaction Plots
Setup para ambas: En Response seleccionar Nivel_Serv
y con >> seleccionar todos los factores OK
Seleccionar Data Means OK
De aquí se seleccionan los mejores niveles de acuerdo al resultado
deseado. Si la interacción es significativa, los mejores niveles se
seleccionan de las gráficas de interacciones, de otra forma se
seleccionan de las gráficas de efectos de los factores principales.
413
Main Effects Plot for Nivel_Serv
Data Means
Velocidad
90.7
Tiempo
Mean
90.6
90.5
90.4
90.3
90.2
200
215
230
150
160
170
Para maximizar el nivel de servicio se seleccionan:
Velocidad = 215 seg.
Tiempo = 170 seg.
414
Interaction Plot for Nivel_Serv
Data Means
90.9
Velocidad
200
215
230
90.8
90.7
Mean
90.6
90.5
90.4
90.3
90.2
90.1
90.0
150
160
Tiempo
170
Esta gráfica no es utilizada debido a que la interacción
no fue significativa
415
15. Estudios de R&R Concordancia por atributos
416
Estudios de R&R – Concordancia por atributos
• Introducción
• Ejemplos
417
Análisis de concordancia por atributos
Se usa para evaluar la concordancia de calificaciones nominales u ordinales
dadas por diversos evaluadores. Las mediciones son evaluaciones subjetivas
dadas por las personas más que mediciones directas. Por ejemplo:
- Evaluación de desempeño de automoviles
- Clasificación de calidad de fibras como "buena" o "mala"
- Evaluación del color del vino, su aroma, y sabor en una escala del 1 al 10.
En estas situaciones, las características de calidad son difíciles de definir
y evaluar. Para obtener clasificaciones significativas, se utiliza más de un
evaluador para clasificar la medición de la respuesta. Si los evaluadores
concuerdan, existe la posibilidad de que las calificaciones sean exactas.
Si no hay acuerdo, la utilidad de las calificaciones es limitada.
418
Por ejemplo:
Una institución evaluadora está capacitando a cinco nuevos evaluadores
de la parte escrita de una prueba. La habilidad de los evaluadores para calificar
la prueba debe ser consistente con estándares. Cada evaluador califica quince
reactivos en una escala de cinco puntos (-2, -1, 0, 1, 2)
1 File > Open Worksheet ESSAY.MTW.
Appraiser Sample
Rating Attribute
Simpson
1
2
2
Montgomery
1
2
2
Holmes
1
2
2
Duncan
1
1
2
Hayes
1
2
2
Simpson
2
-1
-1
Montgomery
2
-1
-1
Holmes
2
-1
-1
Duncan
2
-2
-1
Etc.
Etc.
Etc.
Etc.
419
2
3
4
5
6
7
Stat > Quality Tools > Attribute Agreement Analysis.
En Attribute column, seleccionar Rating .
En Samples, seleccionar Sample .
En Appraisers, seleccionar Appraiser .
En Known standard/attribute, seleccionar Attribute .
Seleccionar Categories of the attribute data are ordered y click OK.
420
Los resultados son los siguientes:
Results for: Essay.MTW
Attribute Agreement Analysis for Rating
Each Appraiser vs Standard
Assessment Agreement
Appraiser # Inspected # Matched Percent
95 % CI
Duncan
15
8
53.33 (26.59, 78.73)
Hayes
15
13
86.67 (59.54, 98.34)
Holmes
15
15 100.00 (81.90, 100.00)
Montgomery
15
15 100.00 (81.90, 100.00)
Simpson
15
14
93.33 (68.05, 99.83)
421
Kendall's Correlation Coefficient
Appraiser
Coef
SE Coef
Z
Duncan
0.87506 0.192450 4.49744
Hayes
0.94871 0.192450 4.88016
Holmes
1.00000 0.192450 5.14667
Montgomery 1.00000 0.192450 5.14667
Simpson
0.96629 0.192450 4.97151
Between Appraisers
Assessment Agreement
# Inspected # Matched
15
6
Percent
40.00
P
0.0000
0.0000
0.0000
0.0000
0.0000
95 % CI
(16.34, 67.71)
422
Date of study:
Reported by:
Name of product:
Misc:
Assessment Agreement
Appraiser vs Standard
100
95.0% C I
P ercent
Percent
80
60
40
20
0
Duncan
Hayes
Holmes
Appraiser
Montgomery
Simpson
423
Interpretación:
Se muestran tres tablas de concordancia: Cada evaluador contra el Estándar,
entre evaluadores, y todos los evaluadores contra el estándar.
Se incluyen las estadísticas de Kappa y Kendall en cada una.
En general los estadísticos sugieren un buen acuerdo. El coeficiente de Kendall
entre evaluadores es 0.966317 (p=0.0000). El coeficiente de Kendall para todos
los evaluadores contra el estándar es 0.958012 (p=0.0000).
La tabla de cada evaluador contra el estándar indica que Duncan y Hayes tienen
baja concordancia contra estándar, Holmes y Montgomery concor. en 15 de 15.
La gráfica de evaluadores contra el estándar proporciona una vista de la tabla
de concordancias de cada uno de los evaluadores contra el estándar.
Con base en esto, Duncan, Hayes y Simpson requieren capaciación adicional.
424
Concordancia por Atributos
Ejemplo: comparación pasa no pasa
1. Selecciona un mínimo de 20 unidades del proceso.
Estas unidades deben representar el espectro
completo de la variación del proceso (buenas,
erróneas y en límites).
2. Un inspector “experto” realiza una evaluación de
cada parte, clasificándola como “Buena” o “No
Buena”.
3. Cada persona evaluará las unidades,
independientemente y en orden aleatorio, y las
definirá como “Buenas” o “No Buenas”.
425
GR&R por Atributos - Ejemplo
Legenda de Atributos
G =Bueno
NG = No Bueno
Población Conocida
Muestra #
Atributo
1
G
2
G
3
G
4
G
5
G
6
G
7
G
8
G
9
NG
10
NG
11
G
12
G
13
NG
14
G
15
G
16
G
17
NG
18
G
19
G
20
G
% DEL EVALUADOR
COND. DE PRUEBA:
Acuerdo
Persona #1
#1
G
G
G
G
G
NG
G
G
G
NG
G
G
NG
G
G
G
NG
G
G
G
(1)
% VS. EL ATRIBUTO
#2
G
G
G
G
G
G
G
G
G
NG
G
G
NG
G
G
G
NG
G
G
G
->
(2)
->
G
G
G
G
G
G
G
G
NG
G
G
G
NG
G
G
G
NG
G
G
G
G
G
G
G
G
G
G
G
NG
G
G
G
NG
G
G
G
NG
G
G
G
95.00%
100.00%
90.00%
95.00%
Y
Y
Y
Y
Y
N
Y
Y
N
N
Y
Y
Y
Y
Y
Y
Y
Y
Y
Y
Y=Sí N=No
Y
Y
Y
Y
Y
N
Y
Y
N
N
Y
Y
Y
Y
Y
Y
Y
Y
Y
Y
Esta es la
medida
general de
consistencia
entre los
operadores
y el “experto”.
¡90% es lo
mínimo!
(3)
% DE EFECTIVIDAD DE DISCRIMINACION
->
85.00%
(4)
% DE EFECTIVIDAD DE DISCRIMINACION VS. EL ATRIBUTO
->
85.00%
426
Datos en Minitab
Muestra
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
Atributo
G
G
G
G
G
G
G
G
NG
NG
G
G
NG
G
G
G
NG
G
G
G
Persona 1A
G
G
G
G
G
NG
G
G
G
NG
G
G
NG
G
G
G
NG
G
G
G
Persona 1B
G
G
G
G
G
G
G
G
G
NG
G
G
NG
G
G
G
NG
G
G
G
Persona 2A
G
G
G
G
G
G
G
G
NG
G
G
G
NG
G
G
G
NG
G
G
G
Persona 2B
G
G
G
G
G
G
G
G
NG
G
G
G
NG
G
G
G
NG
G
G
G
427
Instrucciones de Minitab:
1 Stat > Quality Tools > Attribute Agreement Analysis.
2 En Multiple columns, seleccionar Spersona 1A - Persona 2B
3 En Number of Appraisers, 2
4 En Number of Trials, 2
5 En Known standard/attribute, seleccionar Atributo
6 En Graphs seleccionar todo
Click OK.
428
Los resultados se muestran a continuación:
Attribute Agreement Analysis for Persona 1A, Persona 1B,
Persona 2A, Persona 2B
Within Appraisers
Assessment Agreement
Appraiser # Inspected # Matched Percent
95 % CI
1
20
19
95.00 (75.13, 99.87)
2
20
20
100.00 (86.09, 100.00)
# Matched: Appraiser agrees with him/herself across trials.
Fleiss' Kappa Statistics
Appraiser Response
Kappa SE Kappa
Z P(vs > 0)
1
G
0.82684 0.223607 3.69774
0.0001
NG
0.82684 0.223607 3.69774
0.0001
2
G
1.00000 0.223607 4.47214
0.0000
NG
1.00000 0.223607 4.47214
0.0000
Each Appraiser vs Standard
Assessment Agreement
Appraiser # Inspected # Matched Percent
95 % CI
1
20
18
90.00 (68.30, 98.77)
2
20
19
95.00 (75.13, 99.87)
429
Between Appraisers Assessment Agreement
# Inspected # Matched Percent
95 % CI
20
17
85.00 (62.11, 96.79)
# Matched: All appraisers' assessments agree with each other.
Fleiss' Kappa Statistics
Response
Kappa
SE Kappa
G
0.663222 0.0912871
NG
0.663222 0.0912871
Z
7.26524
7.26524
P(vs > 0)
0.0000
0.0000
All Appraisers vs Standard
Assessment Agreement
# Inspected # Matched Percent
95 % CI
20
17
85.00 (62.11, 96.79)
# Matched: All appraisers' assessments agree with
the known standard.
Fleiss' Kappa Statistics
Response
Kappa SE Kappa
Z P(vs > 0)
G
0.792005 0.111803 7.08391
0.0000
NG
0.792005 0.111803 7.08391
0.0000
430
Interpretación de Resultados

% del Evaluador es la consistencia de una persona.

% Evaluador vs Atributo es el acuerdo entre la
evaluación del operador y la del “experto”.

% de Efectividad de Selección es el acuerdo que existe
entre los operadores.

% de Efectividad de Selección vs. el Atributo medida
general de la consistencia entre los operadores y el
acuerdo con el “experto”.
432
Estudio de Repetibilidad y Reproducibilidad de
Atributos - Guías de Aceptabilidad
Porcentaje
De 90% a 100%
Guía
Aceptable
De 80% a 90%
Marginal
Menos de 80%
Inaceptable
433
16. Capacidad de
procesos por atributos
434
Estudios de capacidad por atributos
• Introducción
• Capacidad de procesos con distribución binomial
• Capacidad de procesos con distribución de Poisson
435
Estudios de capacidad por atributos
Distribución binomial
Se usa este tipo de estudio de capacidad de proceso cuando los datos
provienen de una distribución binomial de número de defectivos entre
Un total de elementos totales.
Se utiliza esta distribución si los datos cumplen las condiciones siguientes:
• Cada elemento es resultado de condiciones idénticas
• Cada elemento puede resultar en dos resultados posibles (falla/no falla)
• La probabilidad de éxito o falla es constante para cada elemento
• Los resultados de los elementos son independientes unos de otros
436
Estudios de capacidad por atributos
Distribución binomial
Se obtienen los resultados siguientes:
• Carta de control P para verificar que el proceso esté en control
• Carta de % defectivo acumulado, verifica que la cantidad de
muestras es suficiente para tener un estimado estable del % defectivo
• Histograma de % defectivo, muestra la distribución de los
defectivos de las muestras colectadas
• Gráfica de tasa de defectivos, verifica que el porcentaje de defectivos
no es influenciada por los tamaños de muestra colectados
437
Suponga que se evalúa la responsabilidad del área de ventas
telefónicas de la empresa. Se registran las llamadas no contestadas
por los representantes de Ventas durante los últimos 20 días.
Así como el total de llamadas :
Unavail
Date able Calls
Instrucciones de Minitab:
8/5/96
432 1908
8/6/96
392 1912
1. File > Open worksheet > BPCAPA.MTW
8/7/96
497 1934
2. Stat > Quality tools >
8/8/96
459 1889
Capability analysis > Binomial
8/9/96
433 1922
1. Defectives Unavailable Use sizes in Calls
Etc.
Etc.
Etc.
2. OK
438
Binomial Process Capability Analysis of Unavailable
P C har t
Rate of Defectives
1
26
U C L=0.25552
0.24
% Defective
P r opor tion
0.26
_
P =0.22643
0.22
0.20
LC L=0.19733
1
3
5
7
9 11 13
Sample
La p acumulada
Tiende al 22%.
15
17
24
Z de 0.75 es un
valor muy bajo
22
20
19
1840
1920
2000
Sample Size
Tests performed w ith unequal sample sizes
C umulative % Defective
H istogr am
Tar
8
S ummary S tats
23.5
23.0
22.5
22.0
21.5
5
Test
TEST
from
Test
10
Sample
15
20
% Defectiv e:
Low er C I:
U pper C I:
Target:
P P M Def:
Low er C I:
22.64
22.22
23.07
0.00
226427
222241
U pper C I:
P rocess Z:
Low er C I:
U pper C I:
230654
0.7507
0.7367
0.7646
Fr equency
% Defective
(95.0% confidence)
El proceso
requiere mucha
mejora
6
4
Process Z =
- nomsinv(Pprom)
2
0
0
4
8 12 16 20
% Defective
24
Results for P Chart of Unavailable
1. One point more than 3.00 standard deviations
center line.
Failed at points: 3
439
Estudios de capacidad por atributos
Distribución de Poisson
Se usa este tipo de estudio de capacidad de proceso cuando los datos
provienen de una distribución de Poisson del número de defectos por
unidad de inspección (cuyo tamaño puede variar).
Se utiliza esta distribución si los datos cumplen las condiciones siguientes:
• La tasa de defectos por unidad de espacio o tiempo es la misma en cada
Elemento
• El número de defectos observados en las unidades de inspección
son independientes unos de otros
440
Estudios de capacidad por atributos
Distribución de Poisson
Se obtienen los resultados siguientes:
• Carta de control U para verificar que el proceso esté en control
• Carta de media acumulada de Defectos por Unidad (DPU)
verifica que la cantidad de muestras es suficiente para tener un
estimado estable de la media
• Histograma de DPU, muestra la distribución de los defectos por unidad
de las muestras colectadas
• Gráfica de tasa de defectos (con subgrupos variables) verifica que el
DPU no es influenciada por los tamaños de muestra colectados
441
Suponga que se evalúa la efectividad del proceso de asilamiento en
un cable. Se toman muestras de cable de longitudes aleatorias donde
se prueban con alto voltaje para encontrar debilidades de aislamiento.
Se registran los defectos y la longitud de la muestra:
Weak Spots
Length
Instrucciones de Minitab:
2
132
4
130
1. File > Open worksheet > BPCAPA.MTW
3
120
2. Stat > Quality tools >
1
124
Capability analysis > Binomial
2
138
1. Defects Week spots Use sizes in Lenght OK
5
148
Etc.
Etc.
442
U C har t
Defect Rate
1
0.075
0.075
U C L=0.06904
0.050
DP U
Sample C ount P er Unit
Poisson Capability Analysis of Weak Spots
_
U =0.02652
0.025
0.000
LC L=0
1
11
21
31
41 51 61
Sample
71
81
0.050
0.025
0.000
100
91
120
140
Sample Size
La DPU
acumulada
tiende a 0.0265
Tests performed w ith unequal sample sizes
C umulative DP U
H istogr am
S ummary S tats
0.030
0.020
0.015
0
20
40
60
Sample
80
100
0.0265
0.0237
0.0295
0.0000
0.0753
0.0000
16
Fr equency
(95.0% confidence)
M ean D P U :
Low er C I:
U pper C I:
M in D P U :
M ax D P U :
Targ D P U :
0.025
DP U
Tar
12
8
4
0
0.
La tasa de DPU
no parece ser
afectado por la
Longitud de
cable tomado
0 0 .01 .02 .03 .04 .05 .06 .07
0 0 0 0 0 0 0
DP U
Poisson Capability Analysis of Weak Spots
Test Results for U Chart of Weak Spots
TEST 1. One point more than 3.00 standard deviations
from center line. Test Failed at points: 36
443
17. Capacidad de procesos
444
Capacidad de procesos
• Procesos normales
• Procesos no normales
445
Capacidad de procesos
normales
446
Capacidad de procesos
normales
447
Prueba de normalidad
Es una prueba de hipótesis de una población para determinar si la muestra se extrae de una
población normal, que es la hipótesis nula. La hipótesis alterna es que no es normal.
Se puede hacer por diversos métodos:
1. Método gráfico
Se trata de probar la flamabilidad de una fibra y ver si sigue una distribución normal,
además se quiere observar su valor en el percentll 87avo.
1
2
3
4
5
6
File > Open worksheet FLAMERTD.MTW.
Graph > Probability Plot.
Seleccionar Single, click OK.
En Graph variables,seleccionar Fabric .
Click Scale, y click el Percentile Lines .
En Show percentile lines at Y values, teclear 87 . Click OK en cada cuadro de diálogo.
448
Probability Plot of Fabric
Normal - 95% CI
99
95
90
87
Mean
StDev
N
AD
P-Value
3.573
0.5700
15
0.310
0.517
Percent
80
70
60
50
40
30
20
10
1
4.215
5
2
3
4
Fabric
5
6
Los puntos no salen del intervalo de confianza del 95% y el P value es menor de 0.05
por tanto los datos de la muestra siguen una distribución normal.
El IC del 87% se encuentra entre los valores 3.84295 y 4.58790
449
Los resultados se muestran a continuación
Process Capability of Supp2
LSL
Media
Desviación
estándar
USL
P rocess D ata
LS L
596
Target
*
USL
604
S ample M ean
600.23
S ample N
100
S tD ev (Within)
1.70499
S tD ev (O v erall) 1.87388
W ithin
Ov erall
P otential (Within) C apability
Cp
0.78
C P L 0.83
C P U 0.74
C pk
0.74
O v erall C apability
Pp
PPL
PPU
P pk
C pm
597.0
O bserv ed P erformance
% < LS L 0.00
% > U S L 2.00
% Total
2.00
598.5
E xp. Within P erformance
% < LS L 0.66
% > U S L 1.35
% Total
2.01
600.0
601.5
603.0
604.5
0.71
0.75
0.67
0.67
*
Índice de
capacidad
potencial (Cp)
y real del
proceso (Cpk)
deben ser
mayores a
1.33 para que
el proceso
sea capaz
E xp. O v erall P erformance
% < LS L
1.20
% > U S L 2.21
% Total
3.41
Fracción defectiva
fuera de especificaciones
debe ser menor a 3.4 ppm (0.000 34 %)
454
Capacidad de procesos
No normales
455
Capacidad de procesos para variables no normales
Transformación de Box Cox
Transformación de Box Cox (para datos agrupados en subgrupos
de tamaño n >1 y con valor positivo), identifica la potencia lamda
a la que hay que elevar los datos para que sigan una distribución normal.
Ejemplo:
Se mide la torcedura que tienen los ladrillos en un horno, los datos están
en el archivo TILES.MTW. Se miden 10 ladrillos diarios por 10 días.
456
Etcetera..
Graph > Histogram > Simple
Variable Warping
Histogram of Warping
14
12
10
Frequency
Warping
1.60103
0.84326
3.00679
1.29923
2.24237
2.63579
0.34093
6.96534
3.46645
1.41079
8
6
4
2
0
1
2
3
4
Warping
5
6
7
8
Se observa una distribución no normal
457
Haciendo una prueba de normalidad con:
Stat > Basic statistics > Normality test
Variable Warping
Anderson Darling
Probability Plot of Warping
Normal
99.9
Mean
StDev
N
AD
P-Value
99
Percent
95
90
2.923
1.786
100
1.028
0.010
80
70
60
50
40
30
20
10
5
1
0.1
-4
-2
0
2
4
Warping
6
8
10
Se obtiene un valor P de 0.01 indicando que los datos no son normales.
458
Ahora se transforman los datos por el método de Box Cox:
1 File > Open worksheet TILES.MTW.
2 Seleccionar Stat > Control Charts > Box-Cox Transformation.
3 En Single column, seleccionar Warping . En Subgroup size, 5 .
Click OK.
Box-Cox Plot of Warping
Lower C L
40
Upper C L
Lambda
(using 95.0% confidence)
StDev
30
Estimate
0.39
Lower C L
Upper C L
0.17
0.64
Rounded Value
0.50
20
10
Limit
0
-2
-1
0
1
2
Lambda
3
4
5
459
La tabla de Lambda contiene su valor estimado de 0.50, con un
intervalo de confianza de (0.17 a 0.64) . Este intervalo contiene
valores lamda que se encuentran dentro más menos una sigma de
la línea horizontal, de modo que se puede tomar cualquier valor en
el intervalo. Si lamda es cero, tomar el logaritmo natural de los datos
En este caso el exponente al que hay que elevar los datos es 0.5
o sacar raíz cuadrada.
El análisis con la transformación de raíz cuadrada de los datos es:
1 Stat > Quality tools > Capability analysis > Normal
2 Single column - Warping Subgroup size - 5
Lower spec 0 Upper Spec 8
3 Seleccionar Box-Cox > Box-Cox power transformation
(W = Y**Lambda). Sel. Lambda = 0.5 (raíz cuadrada).
4 En Estimate, seleccionar R-Bar y
sel. Use unbiased constants to calculate overall std. Dev.
460
Process Capability of Warping
Using Box-Cox Transformation With Lambda = 0.5
LS L*
U S L*
transformed data
P rocess Data
LS L
0
Target
*
USL
8
S ample M ean
2.92307
S ample N
100
S tDev (Within)
1.75501
S tDev (O v erall) 1.79048
Within
O v erall
P otential (Within) C apability
Cp
0.89
C P L 1.02
C P U 0.76
C pk 0.76
O v erall C apability
A fter Transformation
LS L*
Target*
U S L*
S ample M ean*
S tDev (Within)*
S tDev (O v erall)*
Pp
PPL
PPU
P pk
C pm
0
*
2.82843
1.62374
0.529153
0.539344
0.0
O bserv ed P erformance
P P M < LS L
0.00
P P M > U S L 20000.00
P P M Total 20000.00
0.4
0.8
E xp. Within P erformance
P P M < LS L* 1075.45
P P M > U S L* 11404.16
P P M Total
12479.61
1.2
1.6
2.0
2.4
0.87
1.00
0.74
0.74
*
2.8
E xp. O v erall P erformance
P P M < LS L* 1303.73
P P M > U S L* 12754.26
P P M Total
14057.99
461
Interpretación:
Un Cpk de 0.76 indica que el proceso no es capaz de cumplir
especificaciones del cliente (0 a 8), debería ser > = 1.33
Considerando el Ppk de 0.74, también dista mucho del valor
requerido de 1.33 mínimo.
462
Transformación de Jonhson (para n>= 1) alterno a Box Cox
Para datos no normales, esta transformación selecciona una función
de tres familias de distribuciones de una variable, que son fácilmente
transformadas a una distribución normal.
Las distribuciones son Sb, Sl y Su, donde B, L y U se refieren
a la variable que se acota, lognormal y no acotada.
Minitab muestra los valores P para las distribuciones original y
transformada para comparación.
No siempre es posible encontrar la función óptima.
463
Para el ejemplo de los ladrillos:
1 File > Open worksheet TILES.MTW.
2 Seleccionar Stat > Quality Tools > Johnson Transformation.
3 En Data are arranged as, seleccionar Single column;
seleccionar Warping.
4 En Store transformed data in, seleccionar Single column; C2 .
5 Click Options. En P-Value to select best fit, poner 0.05.
Click OK en cada cuadro de diálogo.
464
Johnson Transformation for Warping
99.9
N
100
AD
1.028
P-Value 0.010
99
Percent
90
50
10
1
0.1
-5
0
5
Select a T r ansfor mation
P-Value for A D test
P r obability P lot for O r iginal Data
0.6
0.8
0.6
0.4
0.2
0.0
Ref P
0.8
Z Value
(P-Value = 0.005 means <= 0.005)
10
0.2
0.4
0.6
1.0
1.2
P r obability P lot for T r ansfor med Data
99.9
N
100
AD
0.231
P-Value 0.799
99
Percent
90
50
P -V alue for Best F it: 0.798895
Z for Best F it: 0.6
Best Transformation Ty pe: S B
Transformation function equals
0.882908 + 0.987049 * Ln( ( X + 0.132606 ) / ( 9.31101 - X ) )
10
1
0.1
-2
0
2
4
465
Interpretación:
Los datos originales no siguen una distribución normal: P = 0.01
Los datos transformados siguen una distribución normal: P = 0.799
La gráfica de dispersión de P vs Z indica que sobre el rango de 0.25
a 1.25 la función que mejor ajusta es la de Z = 0.6.
La tabla muestra el estimado de los parámetros para la transf.
Selec. y sus valores corresp. P y Z. La función de transformación es:
Y = 0.882908 + 0.987049*ln((X+0.132606)/(9.31101-X))
On X LIE = 0 y X LSE = 8 se tiene:
LIE trans =
-3.3136
LSE Trans = 2.684355
466
La capacidad del proceso con la columna C2 y estos límites es:
1 File > Open worksheet > TILES.MTW
2 Selecc. Stat > Quality Tools > Capability Analysis > Normal.
3 En Data arranged as Single column, poner Warping ,
en Subgroup size, 1
4 En Estimate, seleccionar using moving range lenght n = 2 y
sel. Use unbiased constants to calculate overall std. Dev.
5 En Lower spec, poner -3.3136. En Upper spec, poner 2.68435
Click OK en cada cuadro de diálogo
La gráfica resultante se muestra a continuación:
467
Process Capability of C2
LSL
USL
P rocess D ata
LS L
-3.3136
Target
*
USL
2.68436
S ample M ean
0.011196
S ample N
100
S tD ev (Within)
0.941167
S tD ev (O v erall) 0.997462
W ithin
Ov erall
P otential (Within) C apability
Cp
1.06
C PL
1.18
C P U 0.95
C pk
0.95
O v erall C apability
Pp
PPL
PPU
P pk
C pm
-3
O bserv ed P erformance
P P M < LS L
0.00
P P M > U S L 20000.00
P P M Total
20000.00
-2
E xp. Within P erformance
P P M < LS L
205.72
P P M > U S L 2253.83
P P M Total
2459.55
-1
0
1
2
1.00
1.11
0.89
0.89
*
3
E xp. O v erall P erformance
P P M < LS L
429.18
P P M > U S L 3681.55
P P M Total
4110.73
El Cpk es un poco mayor que con el método de Box Cox
468
Identificación de la función que mejor ajuste los datos
Se puede identificar una funcion de entre 14 tipos parametricos:
Por ejemplo para el caso de los ladrillos:
1 File > Open worksheet > TILES.MTW.
2 Stat > Quality Tools > Individual Distribution Identification.
3 En Data are arranged as, sel. Single column, Warping .
Subgroup size: 1
4 Seleccionar Use all distributions. Click OK.
469
Box-Cox transformation: Lambda = 0.5
Johnson transformation function:
0.882908 + 0.987049 * Ln( ( X + 0.132606 ) / ( 9.31101 - X ) )
Goodness of Fit Test
Distribution
Normal
Box-Cox Transformation
Lognormal
3-Parameter Lognormal
Exponential
2-Parameter Exponential
Weibull
3-Parameter Weibull
Smallest Extreme Value
Largest Extreme Value
Gamma
3-Parameter Gamma
Logistic
Loglogistic
3-Parameter Loglogistic
Johnson Transformation
AD
1.028
0.301
1.477
0.523
5.982
3.892
0.248
0.359
3.410
0.504
0.489
0.547
0.879
1.239
0.692
0.231
P
0.010
0.574
<0.005
*
<0.003
<0.010
>0.250
0.467
<0.010
0.213
0.238
*
0.013
<0.005
*
0.799
LRT P
0.007
0.000
0.225
0.763
0.085
470
Cuando varias distribuciones ajustan los datos, hacer lo siguiente:
Seleccionar la distribucion con el valor mas alto de P, o que se ha usado
antes con estos datos o la que de la capacidad de proceso
más conservadora.
En este caso las distribuciones de Weibull, Weibull 3 parametros y
Máximo valor extremo ajustan bien a los datos (P=>0.25, 0.467 y 0.238)
Las transformaciones de Box Cox y Johnson también proporcionan
un buen ajuste a los datos (P = 0.799 y 0.574).
Use la prueba de razón de verosimilitud (LSR) para comparar si las
distribuciones de 3 parámetros, ajustan mejor que las de 2 parámetros
Si la LRT P es mayor a 0.05 si ajustan mejor en otro caso son iguales.
En este caso específico la distribución Weibull de dos parámetros
tiene el mismo ajuste que la de tres parámetros (LRT = 0.225)
471
A continuación se identificar los parámetros de la distribución Weibull:
ML estimates of distribution Parameters
Distribution
Location Shape
Scale
Normal*
2.92307
1.78597
Box-Cox Transformation*
1.62374
0.53798
Lognormal*
0.84429
0.74444
3-Parameter Lognormal
1.37877
0.41843
Exponential
2.92307
2-Parameter Exponential
2.66788
Weibull
1.69368
3.27812
3-Parameter Weibull
1.50491
2.99693
Smallest Extreme Value
3.86413
1.99241
Largest Extreme Value
2.09575
1.41965
Gamma
2.34280
1.24768
3-Parameter Gamma
2.12768
1.33208
Logistic
2.79590
1.01616
Loglogistic
0.90969
0.42168
3-Parameter Loglogistic
1.30433
0.26997
Johnson Transformation*
0.01120
0.99495
Threshold
-1.40015
0.25518
0.20988
0.08883
-1.09399
472
Probability Plot for Warping
2-P arameter E xponential - 95% C I
99.9
99.9
90
90
50
50
P er cent
P er cent
E xponential - 95% C I
10
1
0.1
0.001
0.100
1.000
0.1
0.001
10.000 100.000
Weibull - 95% C I
0.010 0.100 1.000 10.000
War ping - T hr eshold
3-P arameter Weibull - 95% C I
99.9
99.9
90
90
50
50
P er cent
P er cent
2-P arameter E xponential
A D = 3.892
P -V alue < 0.010
10
War ping
10
1
0.1
0.01
E xponential
A D = 5.982
P -V alue < 0.003
1
0.010
G oodness of F it Test
Weibull
A D = 0.248
P -V alue > 0.250
3-P arameter Weibull
A D = 0.359
P -V alue = 0.467
10
1
0.10
1.00
War ping
10.00
0.1
0.1
1.0
10.0
War ping - T hr eshold
Por lo anterior se seleccionar la Distribución de Weibull de dos
parámetros para el análisis de capacidad con datos no normales
Shape = 1.69368 y Scale = 3.27812
473
Método de Weibull - para distribuciones sesgadas a la derecha
Se calcula ahora la capacidad del proceso con distr. Weibull:
1 File > Open worksheet > TILES.MTW.
2 Stat > Quality Tools > Capability Analysis > Nonnormal.
3 En Data are arranged as, seleccionar Single column,
seleccionar Warping.
4 En Fit data with, seleccionar Distribution, seleccionar Weibull.
5 En Lower spec 0, Upper spec, poner 8 .
6 En Estimate Seleccionar Estimate parameters of distribution
Click OK.
474
Se pueden utilizar otras distribuciones que mejor ajusten a los datos
Process Capability of Warping
Calculations Based on Weibull Distribution Model
LSL
USL
P rocess D ata
LS L
0
Target
*
USL
8
S ample M ean 2.92307
S ample N
100
S hape
1.69368
S cale
3.27812
O v erall C apability
Pp
0.81
PPL
1.03
PPU
0.73
P pk
0.73
E xp. O v erall P erformance
P P M < LS L
0.00
P P M > U S L 10764.54
P P M Total
10764.54
O bserv ed P erformance
P P M < LS L
0.00
P P M > U S L 20000.00
P P M Total
20000.00
0.0
1.5
3.0
4.5
6.0
7.5
Interpretación:
El Ppk es igual a 0.73, el proceso dista mucho de estar por arriba
de la referencia de 1.33
475
18. Cartas de control
ponderadas en el tiempo
476
Cartas de control ponderadas en el tiempo
• Carta de sumas acumuladas
• Carta EWMA
• Carta de promedio móvil
477
Cartas de control especiales
Carta de sumas acumuladas (CuSum)
Se usa para registrar al centro del proceso.Se corre en tándem (una tras otra)
Es más sensible que la gráfica X al movimiento de los pequeños cambios sostenidos
en la media del proceso y al movimiento de separación gradual de la media del proceso.
Es menos sensible que la gráfica X a un desplazamiento grande del centro del proceso.
Se puede aplicar a las X medias o a las Xs individuales
478
Sus parámetros clásicos son h = 4; k = 0.5
Son más eficientes que las cartas de Shewhart para detectar pequeños corrimientos en la
media del proceso (2 sigmas o menos)
Para crear la carta Cusum se colectan m subgrupos de muestras, c/u de tamaño n y se
calcula la media de cada muestra Xi-media. Después se determina Sm o S’m como sigue:
m
Sm   ( X i  0 )...0  media.en.control.estimada
i 1
S 'm 
1
X
m
(X
i 1
i
 0 )... X  desv.es tan dar.de.las.medias
479
Ejemplo: Variaciones de una flecha respecto a una línea de referencia, los datos se
encuentran en el archivo CRANKSH.MTW anexo.
Carta X media
Stat > Control Charts > Variables Charts for Subgroups > Xbar
Seleccionar All observations for a chart are in one column, seleccionar AtoBDist
En Subgroup sizes, poner 5 .
AtoBDist
OK
-0.44025
Xbar Chart of AtoBDist
5
UCL=4.700
4
Sample Mean
3
2
1
_
_
X=0.442
0
5.90038
2.08965
0.09998
2.01594
Etc.
No se observa que el
proceso tenga corrimiento
o esté fuera de control
-1
-2
-3
LCL=-3.817
-4
1
3
5
7
9
11
13
15
Sample
17
19
21
23
25
480
Carta de Sumas acumuladas con Límites Superior e inferior
Stat > Control Charts > Time Weighted Charts > Cusum
Seleccionar All observations for a chart are in one column, seleccionar AtoBDist
En Subgroup sizes, poner 5 . Target 0.0
OK
CUSUM Chart of AtoBDist
10.0
Cumulative Sum
7.5
UCL=5.68
5.0
Los puntos 4-10 estan
fuera de límite superior
de control, el proceso
está fuera de control
2.5
0.0
0
-2.5
-5.0
LCL=-5.68
2
4
6
8
10
12 14
Sample
16
18
20
22
Se tienen corridas por
arriba del límite superior
de control, no visibles en
la carta X media anterior
24
Test Results for CUSUM Chart of AtoBDist
TEST. One point beyond control limits.
Test Failed at points: 4, 5, 6, 7, 8, 9, 10
481
Carta EWMA de promedios móviles ponderados exponencialmente
Monitorea un proceso promediando los datos de tal forma que les da cada vez menos
peso conforme son removidos en el tiempo. Tiene sensibilidad similar a la de la Cusum
Es más sensible que la carta X media a la separación gradual de la media del proceso.
Instrucciones de Minitab:
Stat > Control Charts > Time Weighted Charts > EWMA
Seleccionar All observations for a chart are in one column, seleccionar AtoBDist
En Subgroup sizes, poner 5 . Weight of EWMA 0.2
OK
482
EWMA Chart of AtoBDist
2.0
UCL=1.861
1.5
EWMA
1.0
_
_
X=0.442
0.5
0.0
-0.5
LCL=-0.978
-1.0
1
3
5
7
9
11
13 15
Sample
17
19
21
23
25
Test Results for EWMA Chart of AtoBDist
TEST. One point beyond control limits.
Test Failed at points: 5, 6
483
Carta de promedios móviles
Tiene una sensibilidad intermedia entre las cartas X-R y la Cusum y EWMA
Stat > Control Charts > Time Weighted Charts > Moving average
Seleccionar All observations for a chart are in one column, seleccionar AtoBDist
En Subgroup sizes, poner 5 . Lenght of MA 3
OK
484
Moving Average Chart of AtoBDist
5
4
Moving Average
3
UCL=2.900
2
1
_
_
X=0.442
0
-1
-2
LCL=-2.017
-3
-4
1
3
5
7
9
11
13
15
Sample
17
19
21
23
25
TEST. One point beyond control limits.
Test Failed at points: 5, 6
485