Inferencia Estadística - Diplomado-Manoloula

Download Report

Transcript Inferencia Estadística - Diplomado-Manoloula

Inferencia Estadística
Módulo I
2
Inferencia Estadística
Estimación :
Estimación puntual
Propiedades de los estimadores
Estimación por intervalos para la media, proporción, diferencia de
medias y diferencia de proporciones, usando la distribución normal.
3
Inferencia Estadística
Contraste de Hipótesis






Fundamentos de la contrastación de hipótesis
Formulación de hipótesis. Hipótesis simple y compuesta
Tipos de errores en la contrastación.
Etapas para la contrastación de hipótesis.
Contraste de hipótesis para la media, proporción, diferencia de
medias, y diferencia de proporciones.
Relación entre los intervalos de confianza y la contrastación de
hipótesis.
4
Inferencia Estadística
Estadística
Inferencial
Descriptiva
 Organización de
Datos
 Medidas de
Tendencia,
Posición, variación.
 Representación
gráfica.
Estimación
Puntual
Por
Intervalos
Contraste de
Hipótesis
5
Inferencia Estadística

Métodos mediante los cuales se selecciona
una muestra aleatoria de una población
intentando:

Hallar el verdadero valor del
parámetro desconocido

Decidir si alguna función de la
muestra es igual a algún valor
preconcebido
6
Inferencia Estadística: Conceptos.

Población: Colección de todas las posibles
mediciones que pueden hacerse de una
característica en estudio. (datos o valores).

Muestra: Subconjunto de la población.

Parámetro: Caracterización numérica de la
distribución de la población de manera que
describe, parcial o completamente, la función
de densidad de la característica de interés.
7
Inferencia Estadística: Conceptos.

Estadístico: Cualquier función de variables
aleatorias que forman una muestra aleatoria.

Estimador: función de variables aleatorias
observables (muestra) y quizás otras
constantes conocidas usados para estimar un
valor poblacional (Parámetro).
8
Inferencia Estadística.
Población.
Muestra.
Valores
Muestrales
Inferencia.
Edades. Hab.
Municipio
Libertador.
𝑥
Estimación.
Edad Promedio
Valores Poblacionales
(Parámetros).
µ
9
Inferencia Estadística: Conceptos.
Estimación: Proceso mediante el cual se
utiliza los resultados de una muestra
representativa para estimar el verdadero valor
del parámetro poblacional
Se quiere estimar la edad promedio de los
habitantes del Municipio Libertador del
Estado Mérida.
10
Inferencia Estadística.
Ejemplo:
Edad
Variable en Estudio:_____________________
Habitantes del Municipio Libertador
Universo:____________________________
Las edades de los Habitantes del Mun. Lib
Población:___________________________
Edad del los habitantes de Ejido
Muestra:_____________________________
𝜇 Media Poblacional
Parámetro:___________________________
Estimador:____________________________
𝑋 Media Muestral
11
Inferencia Estadística.
Propiedades de un Estimador:
Suficiente: Incluye toda la información de la muestra.
ᶿ ᶿ
Insesgado: E( )=
Consistencia: A medida que se incrementa la muestra
el estimador se acerca al verdadero valor del
parámetro.
Varianza Mínima.
Inferencia Estadística.
Teorema: Sea
un estimador de ᶿ con
ᶿ
E( )=
base en una muestra
de tamaño n si 𝑛 lim
ᶿ
+00
lim V( )= 0
y
entonces es un estimador
ᶿ
𝑛 +00
consistente de
ᶿ

ᶿ
Inferencia Estadística.
Algunos Estimadores Importantes:
Muestral
Poblacional
𝑋
µ
𝑝
2
𝑆
𝑆
P
2
σ
σ
14
Inferencia Estadística.

Estimación Puntual:
Una estimación puntual
parámetro
de
la
consta de un solo valor
de algún
población
ᶿ
ᶿ
Parámetros Poblacionales
ᶿ
Estimadores
ᶿ
15
Inferencia Estadística.

Ejemplo:
Se quiere estimar el tiempo promedio de reacción ante
un estimulante de pacientes con cáncer en el estado
Mérida para ello se levanto una muestra y se registraron
los tiempos de reacción
2,5 3,6 3,1 4,3 2,9
2,3 2,6 4,1 3,4 3,4
16
Inferencia Estadística.
Estimación por Intervalos:
Es difícil que el estimador insesgado más
eficiente estime con exactitud el verdadero valor
del parámetro poblacional
Determinar un intervalo en el que, en forma probable
Se encuentra el valor del parámetro.
Intervalos de Confianza:
ᶿl< ᶿ<ᶿu
17
Inferencia Estadística.
Estimación por Intervalos:

Supóngase que una tienda mantiene muy buenos
registros respecto al número de unidades de cierto
producto que vende mensualmente. Para la
compañía es muy importante conocer la demanda
promedio ya que con base en esta, se lleva a cabo
el mantenimiento del inventario.
18
Inferencia Estadística.
Estimación por Intervalos:

Suponga que la demanda no se ve afectada por
fluctuaciones En la temporada. La compañía decide
que los últimos 36 meses han sido típicos Con
respecto a la demanda de ese producto, y con base
a estos Datos muestrales el valor calculado de la
media muestral es de 200 unidades
19
Inferencia Estadística.
Estimación por Intervalos:
¿Implica que la demanda media desconocida no sea
mayor de 250 ni menor a 150?
Suponga que la desviación estándar de la media
muestral es de 60 Unidades
20
Inferencia Estadística.
Estimación por Intervalos:
Teorema Central del Límite:
Si 𝑋 es la media de una muestra aleatoria de tamaño n que se
toma de una de una población que se toma con media 𝜇 y varianza
𝜎 2 entonces:
𝑋−𝜇
𝑍=
𝜎
𝑛
𝑁(0,1)
𝑛−
+00
21
Inferencia Estadística.
Intervalos de Confianza para 𝜇 con varianza
conocida:
+
𝜎
𝑋 𝑍1−𝛼
−
2 𝑛
22
Inferencia Estadística.
Estimación por Intervalos:
El consumo de gasolina de los vehículos de una
empresa en litros/día , durante un periodo de 36
días elegidos al azar durante el año 2012, es el
siguiente:
23
Inferencia Estadística.
4105
3997
4018
3984
3960
4040
3954
3985
3982
3985
3990
3975
3980
4036
4050
4042
3900
4035
3970
3970
3978
3990
3980
4048
4035
4020
3998
4017
4065
3990
3978
4026
3984
3980
3909
4044
24
Inferencia Estadística.
Se sabe que el consumo de la empresa sigue
una ley normal cuya varianza es de 1600.
a) Determinar un intervalo para estimar el
consumo medio diario durante el 2012 con un
nivel de confianza del 95% y 99%.
25
Inferencia Estadística.
Promedio
Desviacion
n
Alfa
Alfa/2
1-alfa/2
Z
Error Máximo
LS
LI
4000
40,4756443
36 𝑃 3982,66 < 𝜇 < 4017,33 = 0.99
0,01
0,005
0,995
Con un 99% de confianza se espera
2,57
que el verdadero tiempo promedio se
17,3370676
encuentre en el intervalo calculado
4017,33707
3982,66293
26
Inferencia Estadística.
Calculo del tamaño de muestra:
Teorema: Si se usa 𝑋 como estimación de 𝜇 ,
se puede tener 1 − 𝛼 ∗ 100% de confianza de
que el error no excederá una cantidad
específica 𝜀 cuando el tamaño de la muestra
sea:
2
𝑍1−𝛼 ∗ 𝜎
2
𝑛=
𝜀
27
Inferencia Estadística.
¿Cuál ha de ser el tamaño mínimo de la
muestra para que el error no supere los 10
litros/día con la misma confianza del 99%?
𝜖 = 10
𝑍1−𝛼=2.57
2
𝜎 = 40
2.57 ∗ 40
n=
10
2
= 108
28
Inferencia Estadística.
Intervalos de Confianza para 𝜇 con varianza
desconocida:
𝑋−𝜇
𝑍=
𝑠
𝑛
𝑡1−𝛼/2,𝑛−1
+
𝑠
𝑋 𝑡1−𝛼/2,𝑛−1
−
𝑛
29
Inferencia Estadística.
La puntuación de una muestra de 20 jueces de
gimnasia rítmica, elegidos al azar, para una
misma prueba presentó los siguientes puntajes:
9,6
9,8
9,9
9,8
9,9
9,8
9,9
9,7
9,8
9,9
9,7
9,8
9,9
9,9
9,9
9,7
9,8
9,9
9,8
9,7
30
Inferencia Estadística.
Calcular un intervalo de confianza con un 95% y
99% para la puntuación promedio
+
𝑠
𝑋 𝑡1−𝛼/2,𝑛−1
−
𝑛
Promedio
n
Desv
alfa
alfa/2
1- alfa/2
t
Error Máximo
LS
LI
9,81
20
0,09119095
0,01
0,005
0,995
2,861
0,05833841
9,86833841
9,75166159
𝑃 9.75 < 𝜇 < 9.87 = 0.99
Con un 99% de confianza se espera
que el verdadero tiempo promedio se
encuentre en el intervalo calculado
31
Inferencia Estadística.
Intervalos de confianza para la diferencia de
medias
de
dos
poblaciones
normales
independientes:
𝑋−𝑌
+
2
𝑍1−𝛼/2
2
𝜎
𝜎
+
𝑛𝑥 𝑛𝑦
32
Inferencia Estadística.
Se emplean dos máquinas para llenar botellas de plástico con un
volumen neto de 16 onzas. El proceso de llenado puede suponerse
normal, con desviaciones estándar de σ1=0,015 y σ2=0,015. Ingeniería
de calidad sospecha que ambas máquinas llenan hasta el mismo
volumen neto, sin importar que este volumen sea o no de 16 onzas. Se
toma una muestra aleatoria de la salida de cada máquina.
máquina 1
16,03
16,04
16,05
16,05
16,02
16,01
15,96
15,98
16,02
15,99
máquina 2
16,02
15,97
15,96
16,01
15,99
16,03
16,04
16,02
16,01
16
33
Inferencia Estadística.
Promedio
n
Desv
Var
alfa
alfa/2
1- alfa/2
16,015
10
0,015
0,000225
0,05
0,025
0,975
Promedio
n
Desv
Var
alfa
alfa/2
1- alfa/2
Error
Máximo
LS
LI
0,01314808
0,02314808
-0,01314808
16,005
10
0,015
0,000225
0,05
0,025
0,975
34
Inferencia Estadística.
Intervalos de confianza para la diferencia de
medias
de
dos
poblaciones
normales
independientes: (Varianzas Desconocida pero
se suponen iguales)
𝑋−𝑌
+
𝑆𝑝 =
1
1
𝑡𝛼;𝑛1+𝑛2−2; 𝑆𝑝
+
𝑛𝑥 𝑛𝑦
2
𝑛𝑥 − 1 𝑆 2 𝑥 + 𝑛𝑦 − 1 𝑆 2 𝑦
𝑛𝑥 + 𝑛𝑦 − 2
35
Inferencia Estadística.
Las presiones criticas de dos grupos
independientes de recipientes de distintos vidrios
dan los siguientes valores:
Grupo 1
100
102
96
106
110
110
120
112
112
90
Grupo 2
104
88
100
98
102
92
96
100
96
96
Suponiendo que las dos poblaciones son
normales y de varianzas iguales y
desconocidas, calcular un intervalo de
confianza del 95% para la diferencia de
presiones medias.
36
Inferencia Estadística.
𝑋−𝑌
+
𝑆𝑝 =
𝑡𝛼/2;𝑛𝑖+𝑛2−2;
1
1
𝑆𝑝 ∗
+
𝑛𝑥 𝑛𝑦
𝑛𝑥 − 1 𝑆 2 𝑥 + 𝑛 𝑦 − 1 𝑆 2 𝑦
𝑛𝑥 + 𝑛𝑦 − 2
37
Inferencia Estadística.
Promedio
n
Var
alfa
alfa/2
1- alfa/2
t
105,8
10
78,622222
2
0,05
0,025
0,975
2,1
Promedio
n
Var
alfa
alfa/2
1- alfa/2
t
Sp
Error
Máximo
LS
LI
7,10711693
6,6746385
7
15,274638
6
1,9253614
3
97,2
10
22,4
0,05
0,025
0,975
2,1
38
Inferencia Estadística.
Intervalos de
Proporción:
Confianza
𝑝𝑞
𝑝 𝑁 𝑃;
𝑛
𝑝
+
𝑍1−𝛼/2
𝑝𝑞
𝑛
para
la
39
Inferencia Estadística.
Tomada, al azar, una muestra de 120 estudiantes
de una Universidad, se encontró que 54 de ellos
hablaban inglés.
Halle, con un nivel de confianza del 90%, un
intervalo de confianza para estimar la
proporción de estudiantes que hablan el idioma
inglés entre los estudiantes de esa Universidad.
40
Inferencia Estadística.
41
Inferencia Estadística.
Intervalos de Confianza para la Diferencia de
Proporciones:
𝑝1− 𝑝2
+
𝑍1−𝛼/2
𝑝1 𝑞1 𝑝2 𝑞2
+
𝑛1
𝑛2
42
Inferencia Estadística.
La fracción de productos defectuosos
producidos por dos líneas de producción se
está analizando. Una muestra aleatoria de 1000
unidades de la línea 1 tiene 10 defectuosas, en
tanto que una muestra aleatoria de 1200
unidades de la línea 2 tiene 25 defectuosas.
43
Inferencia Estadística.
Contraste de Hipótesis:
Técnica Estadística la cual se usa para tomar
decisiones sobre la población, se Establecen
Hipótesis sobres los parámetros y luego se
contrastan para aceptar o rechazar dichas
Hipótesis
44
Inferencia Estadística.
Hipótesis Estadística:
Es una suposición concerniente a una o más
distribuciones poblacionales, es decir a uno o
más parámetros de la población.
Esta suposición es considerada una hipótesis
ya que está referida a una situación que puede
ser o no ser verdadera.
45
Inferencia Estadística.
Hipótesis Nula: 𝐻0 :
Nulifica el efecto de la variable en estudio, ausencia de los
efectos de la variable que se investiga.
Hipótesis Alternativa: 𝐻0 :
Variación de los valores que prevalecerían si la variable
que se estudia ejerce algún efecto.
(Pregunta que debe responderse, teoría que debe
probarse.)
46
Inferencia Estadística.
Un proceso manufacturero usado en una fábrica durante los últimos años
da una producción media de 100 unidades por hora, con una desviación
estándar de 8 unidades, se acaba de introducir en el mercado una nueva
máquina para realizar este tipo de producto. Aunque es muy cara
comparada con la que esta en uso, si la media de producción de la nueva
maquina es de más d e150 unidades por hora, su adopción daría bastantes
beneficios. Para decidir si se debiera comprar la nueva máquina, la
gerencia de la fábrica compra 35 de esas máquinas como un experimento.
Establezca la hipótesis nula y la alternativa.
47
Inferencia Estadística.
Espacio paramétrico:
Conjunto de todos los posibles valores que puede asumir
Es una un cierto parámetro poblacional, no conocido,
respecto al cual se hace una cierta hipótesis. Cuando se
plantea una hipótesis lo que se hace es particionar el
espacio paramétrico en dos sub espacios.
48
Inferencia Estadística.
Tipos de Hipótesis:
Hipótesis Simple:
El Sub espacio paramétrico contiene un solo punto
𝜇 = 120
Hipótesis Compuesta:
El Sub espacio paramétrico contiene más de un punto
𝜇 > 120
49
Inferencia Estadística.
Tipos de Errores que se cometen en una formulación
de Hipótesis:
Error Tipo I:Rechazar H0 cuando esta es cierta
Error Tipo I:Aceptar H0 cuando esta es falsa.
No Rechace Ho
Rechace Ho
Ho Cierta Ho Falsa
Correcta
Error Tipo II
Error Tipo I Correcta
50
Inferencia Estadística.
Pasos a Seguir en el contraste de Hipótesis:
1. Formulación de Hipótesis:
𝐻0 : 𝜃 = 𝜃0
𝐻0 : 𝜃 < 𝜃0
𝐻0 : 𝜃 < 𝜃0
𝐻1 : 𝜃 < 𝜃0
𝐻1 : 𝜃 ≥ 𝜃0
𝐻1 : 𝜃 ≠ 𝜃0
51
Inferencia Estadística.
2. Nivel de Significancia:
𝛼
3. Estadístico de Prueba:
𝜃−𝜃
𝑍𝑐 =
𝜎𝜃
3. Estadístico de Prueba:
52
Inferencia Estadística.
4. Regla de Decisión:
Rechazar Ho Ssi:
𝐻0 : 𝜃 = 𝜃0
𝐻1 : 𝜃 < 𝜃0
𝑍𝑐 <𝑍𝛼
53
Inferencia Estadística.
𝐻0 : 𝜃 < 𝜃0
𝐻1 : 𝜃 ≥ 𝜃0
𝑍𝑐 > 𝑍𝛼
54
Inferencia Estadística.
𝐻0 : 𝜃 < 𝜃0
𝐻1 : 𝜃 ≠ 𝜃0
𝑍𝑐 > 𝑍1−𝛼
𝑍𝑐 < 𝑍𝛼
55
Inferencia Estadística.
6. Cálculos.
7. Conclusiones.
56
Inferencia Estadística.
Contraste de Hipótesis para la media
𝜇:
Una muestra aleatoria de 100 muertes registradas en el estado, el año
pasado mostro una vida promedio de 71.8 años. Suponiendo una
desviación estándar poblacional de 8.9 años, ¿Esto parece indicar que la
vida media actual es mayor a 70 años?, Utilice un nivel de significancia de
5%.
57
Inferencia Estadística.
Contraste de Hipótesis para la diferencia de medias:
𝜇1 − 𝜇2 :
Un fabricante de equipo deportivo desarrollo un nuevo sedal para pesca
sintético, que afirma que tiene una resistencia a la rotura de 8Kg con una
desviación de 0,5 Kg. Pruebe la hipótesis de que la resistencia media a la
rotura difiere a la que dice el fabricante, sabiendo que en una muestra
aleatoria de tamaño 50, arrojo una resistencia promedio a la rotura de 7,8
Kg. Use un nivel de significancia de 0.05.
58
Inferencia Estadística.
59
Inferencia Estadística.
Contraste de Hipótesis para la Diferencia de Proporciones:
60
Inferencia Estadística.
61
Inferencia Estadística.
Estimación por Intervalos:
Nivel de Confianza
𝑃 ᶿl< ᶿ<ᶿu
ᶿl ᶿu :
= (1 − α); 0<α<1
Puntos Extremos del Intervalo
Se tiene una Coonfianza de (1-α) de Seleccionar una
variable aleatoria Que produzca un intervalo que contenga
ᶿ
62
Inferencia Estadística.
63

Muestra aleatoria: se considera aleatoria
siempre y cuando cada observación,
medición o individuo de la población tenga la
misma probabilidad de ser seleccionado.
64
¿Censo o Muestreo?
- Costo
- Control Recolección de Información - Calidad
- Rapidez de resultados
- Población muy grande o infinita
- Población muy homogénea
- Proceso de medición destructivo
65

Individuos o Elementos:
Cualquier ente, racional o irracional, objeto o concepto.

Características o Propiedades
Existencia, Modalidad – Categoría (cuantitativa, cualitativa)
Relaciones.

Proceso de Medición
Determinar si un Individuo posee o no cierta característica o si
presenta cierta modalidad en tal característica.
66

Variables:
–

son las características o lo que se estudia de
cada individuo de la muestra. Ej: sexo, edad,
peso, estatura, color de ojos, estado civil,
temperatura, cantidad de nacimientos, presión,
diámetro, ...
Datos:
–
son los valores que toma la variable en cada
caso.
67

Cualitativos: son datos que solo toman valores
asociados a las cualidades o atributos,
clasificándolos en una de varias categorías, es
decir, no son valores numéricos.
–
–
–
–
–
Sexo: f/m.
Hábito de fumar: Fumador/No fumador
Color de ojos: negro, azul, marrón, …
Religión: Católica, Evangélica, …
Estado civil: soltero, casado, divorciado,…
68

Cuantitativos: provienen de variables que
pueden medirse, cuantificarse o expresarse
numéricamente. Ejemplos:
–
–
–
–
–
–
–
Peso
Edad
Estatura
Presión
Humedad
Intensidad de un sismo
Cantidad de hermanos
69

Tipos de variables cuantitativas:
–
–
Discretas: es aquella que solo puede tomar un
número finito o infinito numerable de valores.
Ejemplo: cantidad de hermanos.
Continuas: es la variable que puede tomar
cualquier valor en una escala continua. Ejemplo:
cantidad de líquido contenido en un recipiente.
70
Escalas de medida

Concepto:
Conjunto de valores que puede tomar una
variable, o conjunto de modalidades que
puede presentar una característica.
71
Escalas de medida





Nominal.
Variables Cualitativas
Ordinal.
De Intervalos.
De Razón o Proporción.
Absoluta.
Variables
Cuantitativas
72
Escalas de medida

Escala Nominal: los datos se pueden
agrupar en categorías que no mantienen
una relación de orden entre sí, por lo tanto
no están definidas las operaciones lógicas
(>, <, , ) sino solo las de igualdad o
diferencia.
Ejemplos: color de ojos, sexo, profesión,
estado civil, religión.
73
Escalas de medida

Escala Ordinal: existe un cierto orden o
jerarquía entre las categorías (>, <, , ).
Ejemplos: grados militares, organigrama de
una empresa, escalafón de los
profesores universitarios, grados
de disnea, estadiaje de un tumor,
resultados de estudios de opinión.
(Excelente, Bueno, Regular, Malo)
74
Escalas de medida

Escala de Intervalos: valores numéricos de
las variables y además de las relaciones de
orden (>, <, , ), se pueden establecer
distancias, es decir, tienen sentido las
operaciones de suma y resta.
Propiedades:
–
–
Existe una unidad de medida que se mantiene constante
para todos los valores que toma la variable.
Existe un valor patrón u origen relativo que no significa la
ausencia de valor en la variable.
75
Escalas de medida

Ejemplo: temperatura, nivel de ruido,
movimientos sísmicos.
76
Escalas de medida

Escala de Razón o Proporción: es la más
completa y general de todas las escalas. Se
caracteriza porque los valores de la variable
son números, entre los cuales, además de las
relaciones de orden (>, <, , ) y distancia (+,-),
se pueden establecer múltiplos y proporciones.
Ejemplos: peso, altura, volumen, ingreso, precio
Propiedades:
- Tienen
Poseenunidad
0 absoluto
que significa ausencia de la propiedad.
de medida
77
Escalas de medida

Escala Absoluta: se caracteriza porque los
valores que toma la variable son el resultado
de un conteo y por lo tanto, está constituida
por los enteros positivos y el cero.
Ejemplos: número de hermanos, cantidad de
autos vendidos, cantidad de
accidentes en una intersección,
cantidad de hijos,…
78
Escalas de medida
Escalas Nominal
Ordinal
Intervalos
Razón
Absoluta
X
X
X
X
X
X
X
X
X
X
X
Múltiplos tienen sentido
X
X
Cero absoluto
X
X
X
X
X
X
X
Propiedades
Categoriza
X
Jerarquiza
Diferencias tienen sentido
Operaciones Aritméticas
(Algunas)
Se pueden transformar en
otras del mismo tipo
X
X
79
Datos Univariantes y Multivariantes


Univariantes o unidimensionales: sólo
recogen información sobre una característica
(Ej: edad de los alumnos de una clase).
Bivariantes o bidimensionales: recogen
información sobre dos características de la
población. (Ej: edad y estatura de los
alumnos de una clase).
80
Datos Univariantes y Multivariantes

Multivariantes o pluridimensionales: recogen
información sobre tres ó más características.
(Ej: edad, estatura y peso de los alumnos de
una clase).
81
Estadística - Abusos



Conclusiones erróneas debido a que los datos
son numéricamente insuficientes.
Representaciones gráficas engañosas
(escalas).
Datos muestrales no representativos:
–
–
–
Muestra que no incluye a elementos de toda la población.
Ciertas categorías de personas no responden correctamente.
Respuestas voluntarias (sesgadas).
82
Organización de los datos

Datos cualitativos
Se realiza de acuerdo a las modalidades que
presente la variable en estudio. Mediante un
conteo se determina el número de datos
(Frecuencia) correspondiente a las diferentes
categorías de la variable. Se usa para
cualquier cantidad de datos.
83
Organización de datos cualitativos
Ejemplo: En un estudio sobre las personas que
ejercen cargos directivos en una empresa, se
realizaron 32 entrevistas y se obtuvo la siguiente
información. Variable: Sexo.
F, F, M, M, F, M, F, F, M, F, M,
M, M, M, F, F, M, F, F, F, M, F,
F, M, M, F, F, F, F, F, M, M. .
84
Organización de datos cualitativos
Clasificación del Personal Directivo
de acuerdo al sexo.
Sexo
Personas
Masculino
14
Femenino
18
Total
32
85
Organización de datos cualitativos
Tablas de Doble Entrada o de Contingencia.
Se utilizan para agrupar los datos de acuerdo a
dos características simultáneamente.
... ak
a2
a1
Caracteristica A
Característica B
b1
b2 ...
bk
Totales
xxx
xxx
xxx
xxx
xxx
Totales
86
Organización de datos cualitativos
Datos correspondientes
a Sexo y Profesión de 32
Ejecutivos de Empresa
Profesión Sexo
M
F
Totales
Abogados
3
4
7
Economistas
3
2
5
Educadores
3
1
4
Geógrafos
2
1
3
Ingenieros
2
5
7
Médicos
-
2
2
Sociólogos
1
3
4
Totales
14
18
32
87
Organización de los datos

Datos cuantitativos
Para organizar y agrupar datos de tipo
cuantitativo, discretos o continuos, se utiliza un
procedimiento similar al utilizado con los datos
cualitativos, pero más laborioso.
88
Organización de datos cuantitativos

Una vez que se ha
realizado la
recolección de los
datos, se obtienen
datos en bruto, los
cuales rara vez son
significativos sin una
organización y
tabulación.
89
Organización de datos cuantitativos

Formas de organizar los datos:
–
Distribución de Frecuencias: es un arreglo de los datos
que permite expresar la frecuencia de ocurrencias de las
observaciones en cada una de las clases, mostrando el
patrón de la distribución de manera más significativa.
Clase
Pto. Medio
fi
Fi
fri
FRi
90
Organización de datos cuantitativos

La Distribución de Frecuencias:
–
–
–
Se recomienda su uso cuando se tienen grandes
cantidades de datos (n).
Su construcción requiere, en primer lugar, la
selección de los límites de los intervalos de clase.
Para definir la cantidad de intervalos de clase (k),
se puede usar:


La regla de Sturges: k = 1 + 3.3log(n)
k = n
91
Organización de datos cuantitativos

La Distribución de Frecuencias:
–
–
–
La cantidad de clases no puede ser tan pequeño
(menos de 5) o tan grande (más de 20), que la
verdadera naturaleza de la distribución sea
imposible de visualizar.
La amplitud de todas las clases deberá ser la
misma. Se recomienda que sea impar y que los
puntos medios tengan la misma cantidad de cifras
significativas que los datos en bruto.
Los límites de las clases deben tener una cifras
significativas más que los datos en bruto.
92
Organización de datos cuantitativos

Determinar:
–
–
–
–
Punto medio = (Li+Ls)/2.
Frecuencia absoluta de la clase (fi).
Frecuencia acumulada de la clase (Fi).
Frecuencia relativa de la clase (fri):

–
fri = fi/n
Frecuencia relativa acumulada de la clase (FRi).
93
Organización de datos cuantitativos
Ejemplos de Distribuciones de
Frecuencias
94
Organización de datos cuantitativos

Formas de organizar los datos:
–
–
Arreglo: es la forma más sencilla de organizar los datos en
bruto. Consiste en colocar las observaciones en orden
según su magnitud: ascendente o descendente.
Poco práctica cuando se tiene una gran cantidad de datos.
95
Distribución de Frecuencias
Ejemplo 1:
Se desea determinar cómo varían las estaturas de las mujeres,
al tomar una muestra de 50 trabajadoras de una fábrica de
pantalones.
Los datos obtenidos fueron los siguientes:
1.65
1.65
1.63
1.55
1.64
1.63
1.64
1.69
1.59
1.65
1.65
1.71
1.67
1.66
1.64
1.63
1.68
1.66
1.57
1.65
1.69
1.66
1.58
1.61
1.63
1.67
1.56
1.60
1.68
1.70
1.53
1.59
1.61
1.66
1.62
1.58
1.61
1.62
1.57
1.64
1.60
1.62
1.64
1.72
1.60
1.61
1.63
1.64
1.67
1.62
96
Distribución de Frecuencias

Organice los datos en una distribución de
Frecuencias en intervalos de clases, con
amplitud constante.

Para el calculo de la amplitud, aproxime a
tres decimales, y para el calculo de las
clases aproxime a dos decimales.
97
Distribución de Frecuencias
1.- Se determina el número de intervalos (Sturges)
K = 1 + 3.3 log(50) = 6.6 => tomamos K = 7
2.- Se determina la amplitud del intervalo
A 1.72 – 1.53 0.027
=
=
7
3.- Se determinan los intervalos
Primer intervalo: 1,53 + 0,027 = 1,557
[1,53 – 1,5571)
[1,5571 – 1,5843)
98
Distribución de Frecuencias
No.
Clase
Intervalo
fi
Pto.Medio
Fi
fri
FRi
1
1.53 – 1.55
2
1.54
2
2/50 = 0,04 = 4%
2/50 = 0,04 = 4%
2
1.56 – 1.58
5
1.57
7
5/50 = 0,1 = 10%
7/50 = 0,14 = 14%
3
1.59 – 1.61
9
1.60
16
9/50 = 0,18 = 18%
16/50 = 0,32 = 32%
4
1.62 – 1.64
15
1.63
31
15/50 = 0,3 = 30%
31/50 = 0,62 = 62%
5
1.65 – 1.67
12
1.66
43
12/50=0,24 = 24%
43/50 = 0,86 = 86%
6
1.68 – 1.70
5
1.69
48
5/50 = 0,1 = 10%
48/50 = 0,96 = 96%
7
1.71 – 1.73
2
1.72
50
2/50 = 0,04 = 4%
50/50 = 1 = 100%
Totales
50
100%
99
Distribución de Frecuencias
Clasificación de un grupo de trabajadoras
de la empresa El Pantalón
de acuerdo a sus estaturas (en Mts.)
Estaturas
Nº. Empleadas
Porcentaje
1.53 – 1.55
2
4
1.56 – 1.58
5
10
1.59 – 1.61
9
18
1.62 – 1.64
15
30
1.65 – 1.67
12
24
1.68 – 1.70
5
10
1.71 – 1.73
2
4
Totales
50
100%
Fuente: Registros Empresa El Pantalón
100
Distribución de Frecuencias
Ejemplo 2:
A 40 pacientes de un hospital se les investigó
la variable número de hijos, obteniéndose la
siguiente información:
4
3
2
3
0
7
6
6
5
7
5
6
6
7
7
5
4
7
5
0
2
4
4
6
6
3
6
7
0
4
6
5
6
7
2
6
4
0
5
2
101
Distribución de Frecuencias
Clases
fi
fri
Fi
FRi
0
4
0.100 = 10%
4
0,100 = 10%
1
0
0,000 = 0%
4
0,100 = 10%
2
4
0,100 = 10%
8
0,200 =20%
3
3
0,075 = 7,5%
11
0,275 =27,5%
4
6
0,150 = 15%
17
0,425 = 42,5%
5
6
0,150 = 15%
23
0,575 = 57,5%
6
10
0,250 = 25%
33
0,825 = 82,5%
7
5
0,125 = 12,5%
38
0,950 = 95%
8
2
0,050 = 5%
40
1,000 = 100%
Totales
40
1,000 = 100%
102
Distribución de Frecuencias
Ejercicio:
Los datos que se muestran a continuación
representan las calificaciones de 60 estudiantes
que presentaron la PINA en el año 2010.
a) Construya una distribución de frecuencias.
b) ¿Qué puede concluir de estos datos?
103
Distribución de Frecuencias
Ejercicio:
23
80
52
41
60
34
60
77
10
71
78
67
79
81
64
83
89
17
32
95
75
54
76
82
57
41
78
64
84
69
74
65
25
72
48
74
52
92
80
88
84
63
70
85
98
62
90
80
82
55
81
74
15
85
36
76
67
43
79
61
104
Representación gráfica de los datos


Los gráficos permiten visualizar en forma global
y rápida el comportamiento de los datos.
Para datos cuantitativos agrupados en clases,
comúnmente se utilizan tres tipos de gráficos:
–
–
–
Histogramas.
Polígono de frecuencias.
Ojiva o Polígono de frecuencias acumuladas.
105
Representación gráfica de los datos

Para datos cuantitativos
- Diagrama de puntos
- Diagramas de dispersión
- Curvas
- Pictogramas

Para datos cualitativos
–
–
–
Curvas
Barras
Circulares o de Sectores
- Histogramas.
- Polígono de frecuencias.
- Ojiva o Polígono de
frecuencias acumuladas.
106
Representación gráfica de los datos
Histograma:
107
Representación gráfica de los datos
Histograma y Polígono de Frecuencias
108
Representación gráfica de los datos
Ojiva
109
Representación gráfica de los datos
Barras
110
Representación gráfica de los datos
Curvas
111
Representación gráfica de los datos
Pictogramas
112
Representación gráfica de los datos
Sectores, torta o circular
113
Ejemplos de construcción de
gráficos
114
Medidas de Tendencia Central



Se les conoce también como “Medidas de
Posición”.
Corresponden a valores que generalmente se
ubican en la parte central de un conjunto de
datos.
Forma cómo los datos se pueden condensar en
un solo valor central, alrededor del cual se
distribuyen todos los datos de la muestra.
115
Medidas de Tendencia Central

Las medidas de tendencia central más
importantes son:
–
–
–
Media: Aritmética y Aritmética ponderada.
Mediana.
Moda.
116
Media Aritmética

Es la suma de todas las observaciones
dividida entre el número total de
observaciones.

Expresada de forma más intuitiva, se puede
decir que la media aritmética es la cantidad
total de la variable, distribuida a partes
iguales entre cada observación. (Wikipedia)
117
Media Aritmética

Por ejemplo, si en una habitación hay tres
personas, la media de dinero que tienen en
sus bolsillos sería el resultado de tomar todo
el dinero de los tres y dividirlo a partes
iguales entre cada uno de ellos.
Es decir, la media es una forma de resumir
la información de una distribución (dinero en
el bolsillo) suponiendo que cada observación
(persona) tendría la misma cantidad de la
variable. (Wikipedia)
118
Cálculo de la Media Aritmética

Para datos no agrupados:
n
X 

xi
i 1
n

Para datos agrupados:
k
X 

mi fi
i 1
n
Donde: mi: punto medio de la clase i
fi: frecuencia absoluta de la clase i
119
Mediana


Es el valor que ocupa la posición central de
un conjunto de observaciones, una vez que
han sido ordenados en forma ascendente o
descendente.
Divide al conjunto de datos en dos partes
iguales.
120
Cálculo de la Mediana

Para datos no agrupados:
–
Si n es impar:
posición donde se ubica la mediana es igual a
(n+1)/2.
–
Si n es par:
(n+1)/2 no es entero, por lo tanto la mediana será
igual al promedio de las dos posiciones centrales.
121
Cálculo de la Mediana

Para datos agrupados:
Clase mediana (o medianal) es la que contiene a la
observación que ocupa la posición n/2.
n 1
Md  Lm 
2
 F ( x m 1 )
Cm
f ( xm )
Donde:
Lm: límite inferior de la clase mediana.
F(xm-1): frecuencia acumulada de la clase
anterior a la clase mediana.
f(xm): frecuencia absoluta de la clase mediana.
Cm: amplitud de la clase mediana.
122
Moda



Observación o clase que tiene la mayor
frecuencia en un conjunto de observaciones.
Un conjunto de datos puede ser unimodal,
bimodal o multimodal.
Es la única medida de tendencia central que
se puede determinar para datos de tipo
cualitativo.
123
Cálculo de la Moda

Para datos no agrupados:
es simplemente la observación que más se repite.

Para datos agrupados:
Mo  Lim 
1
1   2
Cm
Donde:
Lim: límite inferior de la clase modal.
1: diferencia entre fi de la clase modal y la anterior.
2: diferencia entre fi de la clase modal y la posterior.
Cm: amplitud de la clase modal (clase de mayor frecuencia).
124
Relación Media - Mediana - Moda.
Cuando los datos son sesgados es mejor emplear la Md
125
Propiedades de la Media



La suma de las diferencias entre la media
muestral y el valor de cada observación es
cero.
La media de una constante es la constante.
Si todas las observaciones xi se multiplican
por una constante a, la X también se debe
multiplicar por ese mismo valor constante.
126
Propiedades de la Media


Si se somete a una variable estadística X a
un cambio de origen y escala, Y = a + bX, la
media aritmética de dicha variable X varía en
la misma proporción.
La media de la suma de dos variables es
igual a la suma de sus medias.
127
Media. Ventajas y desventajas
Ventajas:
 Emplea en su cálculo toda la información
disponible.
 Se expresa en las mismas unidades que la
variable en estudio.
 Es el centro de gravedad de toda la
distribución, representando a todos los valores
observados.
 Es un valor único.
128
Media. Ventajas y desventajas
Ventajas:
 Se trata de un concepto familiar para la
mayoría de las personas.
 Es útil para llevar a cabo procedimientos
estadísticos como la comparación de medias
de varios conjuntos de datos.
129
Media. Ventajas y desventajas
Desventajas:
 Se ve adversamente afectada por valores
extremos, perdiendo representatividad.
 Si el conjunto de datos es muy grande puede
ser tedioso su cálculo manual.
 No se puede calcular para datos cualitativos.
 No se puede calcular para datos que tengan
clases de extremo abierto, tanto superior
como inferior.
130
Mediana. Ventajas y desventajas
Ventajas:
 Fácil de calcular si el número de observaciones
no es muy grande.
 No se ve influenciada por valores extremos, ya
que solo influyen los valores centrales.
 Fácil de entender.
131
Mediana. Ventajas y desventajas
Ventajas:
 Se puede calcular para cualquier tipos de datos
cuantitativos, incluso los datos con clase de
extremo abierto.
 Es la medida de tendencia central más
representativa en el caso de variables que sólo
admiten la escala ordinal.
132
Mediana. Ventajas y desventajas
Desventajas:
 No utiliza en su “cálculo” toda la información
disponible.
 No pondera cada valor por el número de
veces que se ha repetido.
 Hay que ordenar los datos antes de
determinarla.
133
Moda. Ventajas y desventajas
Ventajas:
 No requiere cálculos.
 Puede usarse para datos tanto cuantitativos
como cualitativos.
 Fácil de interpretar.
 No se ve influenciada por valores extremos.
 Se puede calcular en clases de extremo
abierto.
134
Moda. Ventajas y desventajas
Desventajas:
 Para conjuntos pequeños de datos su valor
no tiene casi utilidad, si es que de hecho
existe. Solo tiene significado en el caso de
una gran cantidad de datos.
 No utiliza toda la información disponible.
 No siempre existe, si los datos no se repiten.
135
Moda. Ventajas y desventajas
Desventajas:
 En ocasiones, el azar hace que una sola
observación no representativa sea el valor
más frecuente del conjunto de datos.
 Difícil de interpretar si los datos tiene 3 o
más modas.
136
Medidas de dispersión


También conocidas como Medidas de
variación o variabilidad.
Son valores numéricos que indican o
describen la forma en que las observaciones
están dispersas o diseminadas, con respecto
al valor central.
137
Medidas de dispersión

Son importantes debido a que dos muestras
de observaciones con el mismo valor central
pueden tener una variabilidad muy distinta.
138
Medidas de dispersión




Rango.
Varianza.
Desviación Típica.
Coeficiente de Variación.
139
Medidas de dispersión: Rango
Rango (amplitud o recorrido):
 Está determinado por los dos valores
extremos de los datos muestrales, es
simplemente la diferencia entre la mayor y la
menor observación.
 Es una medida de dispersión absoluta, ya que
depende solamente de los datos y permite
conocer la máxima dispersión.
140
Medidas de dispersión: Rango



Casi no se emplea debido a que depende
únicamente de dos valores.
No proporciona una medida de variabilidad
de las observaciones con respecto al centro
de la distribución.
Notación: R
141
Medidas de dispersión: Varianza



Es un valor numérico que mide el grado de
dispersión relativa, porque depende de la
posición de los datos x1,x2,…,xn con respecto
a la media.
Es el promedio al cuadrado de las
desviaciones de cada observación con
respecto a la media.
Notación: s2, 2, var(X)
142
Medidas de dispersión: Varianza

Si la varianza de un conjunto de observaciones
es grande, se dice que los datos tienen una
mayor variabilidad que un conjunto de datos
que tenga un varianza menor.
 x
n
s 
2
i
x

2
i 1
n
n

s 
2
i 1
n
2
xi
x
2
143
Dispersión: Desviación Típica


Es la raíz cuadrada de la varianza.
Notación: s, .
s 
s
2
144
Dispersión: Coeficiente de Variación



Es una medida de dispersión relativa que
permite comparar el nivel de dispersión de
dos muestras de variables estadísticas
diferentes.
No tiene dimensiones.
Notación: CV
CV 
s
x
 100 %
145
Ventajas y Desventajas del Rango
Ventajas:
 Útil cuando se quiere conocer la extensión
de las variaciones extremas (valor máximo
de la dispersión).
 Fácil de calcular.
146
Ventajas y Desventajas del Rango
Desventajas:
 No es una Medida de Dispersión con
respecto al centro de la distribución.
 Solo emplea dos valores en su cálculo.
 No se puede calcular en distribuciones de
límite de clase abierto.
147
Propiedades de la Varianza
Propiedades:
1. Siempre es mayor o igual a cero y menor
que infinito.
2. La varianza de una constante es cero.
3. Si a una variable X la sometemos a
Y=a+bX, la varianza de Y será Var(Y) =
b2Var(X)
148
Ventajas y Desventajas - Varianza
Ventajas:
 Es útil cuando se compara la variabilidad de
dos o más conjuntos de datos.
 Utiliza toda la información disponible.
Desventajas:
 No proporciona ayuda inmediata cuando se
estudia la dispersión de un solo conjunto de
datos.
 Difícil de interpretar por tener sus unidades
elevadas al cuadrado.
149
Ventajas/Desventajas Desviación Típica
Ventajas:
 Esta expresada en las mismas unidades que
la variable en estudio.
 Utiliza todas las observaciones en su
cálculo.
 Fácil de interpretar.
Desventajas:
 No tiene.
150
Ventajas/Desventajas Coeficiente de Variación
Ventajas:
 Es la única Medida de Dispersión que
permite comparar el nivel de dispersión de
dos muestras de variables diferentes.
 Emplea toda la información disponible en su
cálculo.
 Fácil de calcular.
151
Ventajas/Desventajas Coeficiente de Variación
Desventaja:
 No es una Medida de Dispersión con
respecto al centro de la distribución de los
datos.
152
Medidas de Forma

Son medidas numéricas que permiten
determinar la forma que tiene la curva de los
datos. Por lo tanto, sirven para corroborar lo
que muestran los gráficos.
Medidas
de forma
- Asimetría
Coeficiente de Pearson
Coeficiente de Fisher
- Kurtosis o apuntamiento
153
Medidas de Forma: Asimetría

Permiten estudiar la forma de la curva,
dependiendo de cómo se agrupan los datos.
154
Medidas de Forma: Asimetría
Coeficiente de Asimetría de Pearson:


Fácil de calcular e interpretar.
Cálculo:
ASP 

3 X  Md

s
o Interpretación:
= 0, X=Md Simétrica
ASP
> 0, X>Md Asimétrica Positiva
< 0, X<Md Asimétrica Negativa
155
Medidas de Forma: Asimetría
Coeficiente de Asimetría de Fisher:

No es de fácil cálculo, pero si su interpretación.
 x
n
ASF 
i
 X
Datos NO agrupados
i 1
3
ns
 M
k
ASF 

3
i
x
i 1
ns
3

3
 fi
Datos Agrupados
156
Medidas de Forma: Asimetría
o Interpretación:
= 0, Simétrica
ASF
> 0, Asimétrica Positiva
< 0, Asimétrica Negativa
157
Medidas de Forma: Kurtosis


Miden si los valores de la distribución están
más o menos concentrados alrededor de los
valores medios de la muestra (zona central
de la distribución).
Se definen tres tipos de distribución según
su grado de apuntamiento o Kurtosis.
158
Medidas de Forma: Kurtosis



Mesocúrtica: grado de concentración
medio alrededor de los valores centrales
de la variable.
Leptocúrtica: grado de concentración
elevado.
Platicúrtica: grado de concentración
reducido.
159
Medidas de Forma: Kurtosis
 x
n
CK 
i
 X

i 1
 M
3
4
ns
k
CK 
4
i
 X
i 1
ns
4

4
Datos No Agrupados
 fi
3
Datos Agrupados
160
Medidas de Forma: Kurtosis
CK
Interpretación:
= 0 Mesocúrtica
CK
> 0 Leptocúrtica
< 0 Platicúrtica
161
Referencias:
Wikipedia(http://es.wikipedia.org/wiki/Wikipedia:Portad
a)
 Walpole y Myers. Probabilidad y Estadística. Mc GrawHill.
 Triola, Mario F. Estadística. Pearson.
 Armas, G, Jose, M.(2002). Estadística Sencilla:
Descriptiva. Universidad de Los Andes, Facultad de
Economía, Departamento de Estadística.
 Chao, Lincoln L . 1985. Introducción a la Estadística.
México: Continental.
