ESTADÍSTICA I - PLUTARCO MARTíNEZ BUSTOS

Download Report

Transcript ESTADÍSTICA I - PLUTARCO MARTíNEZ BUSTOS

ESTADÍSTICA DESCRIPTIVA
PLUTARCO MARTÍNEZ BUSTOS
Calendario académico 2015– 1
• Primer seguimiento: del 9 – al 13 de marzo
• Segundo seguimiento: del 13 al 17 de abril
• Tercer seguimiento: del 25 al 29 de mayo
Contenido
Unidad I: Conocimientos Básicos y Generales Sobre Estadística
Descriptiva.
– Estadística.
– Conceptos básicos de Estadística
– Investigación estadística
– Clasificación y aplicación de la estadística.
– Población
– Muestra
– Variables y tipos de variables
– Tabulación de la Información.
– Distribución de frecuencias.
– Aplicaciones en Excel para tabulación de información.
– Representación gráfica de la Información.
– Graficas en Excel.
Contenido
Unidad II. Medidas de Tendencia Central, de Dispersión y de
Forma
– Medidas de Tendencia Central: Media, mediana, moda,
– Medidas de localización: cuartiles, deciles y percentiles.
– Medidas de dispersión: Varianza, desviación típica,
coeficiente de variación.
– Medidas de Forma: Asimetría y curtosis
Unidad III. Relación Entre Variables
– Regresión y correlación. Aplicaciones en Excel
– Coeficiente de correlación de Pearson (r).
– Coeficiente de correlación no paramétricos
Contenido
Unidad IV. Series de tiempo.
– Tendencia.
– Ciclos.
– Estacionalidad.
– Valores aleatorios.
Estadística
Es la ciencia que se ocupa de 1) La recolección,
organización, resumen y análisis de los datos y 2) la
obtención de inferencias a partir de un volumen de datos
cuando se examina solo una parte de estos.
Las personas que realizan esta actividad estadística deben
estar preparadas para interpretar y comunicar los
resultados a los demás, tal como lo demande la situación.
En términos sencillos, se puede decir que los datos son
números, que los números contienen información y que
el propósito de la estadística es investigar y evaluar la
naturaleza y el significado de esa información.
Conceptos Básicos en Estadística
Estadística Descriptiva
Procedimientos empleados para organizar y resumir conjuntos
de observaciones en forma cuantitativa, puede hacerse
mediante tablas y gráficos, estos permiten simplificar la
complejidad de los datos que intervienen en la distribución. Así
mismo se calculan parámetros estadísticos que caracterizan la
distribución. No se hace uso del cálculo de probabilidades y
únicamente se limita a realizar deducciones directamente a
partir de los datos y parámetros obtenidos.
Con este método, se obtienen conclusiones sobre el conjunto de
datos sin que sobrepasen el conjunto de conocimientos que
proporcionan.
Estadística Inferencial
Plantea y resuelve el problema de establecer previsiones y
conclusiones generales sobre una población a partir de la información
contenida en una muestra. Los modelos estadísticos actúan de puente
entre lo observado (muestra) y lo desconocido (población). Su
conclusión y estudio están basado en el cálculo de las probabilidades.
Método y conjunto de técnicas utilizadas para obtener un conjunto de
datos, conclusiones que sobrepasan los límites de los conocimientos
aportados por el conjunto de datos.
Generalmente este proceso se determina mediante el estudio de
muestras.
Conceptos Básicos
Población: Es el conjunto de todos los elementos que cumplen
ciertas propiedades y entre los cuales se desea estudiar un
determinado fenómeno.
Muestra: Es el subconjunto de la población que es estudiado y a
partir de la cual se sacan conclusiones sobre las características de la
población. La muestra debe ser representativa, en el sentido de que
las conclusiones obtenidas deben servir para el total de la población.
Variable: Cada uno de los rasgos o característica de los elementos de
una población y que varían de un individuo a otro (salario, color de
ojos, sexo, número de hijos, etc.)
Conceptos Básicos
Tipos de Variables
Variables cualitativas (o categóricas): Aquellas que no aparecen en forma
numérica, sino como categorías o atributos (sexo, estado civil, color de ojos,
etc.)
Estas pueden agruparse en variables nominales u ordinales.
Variable nominal: Cuando los datos correspondan a una variable cualitativa
que se agrupa sin ninguna jerarquía entre sí, como por ejemplo: nombres de
personas, de establecimientos, raza, grupos sanguíneos, estado civil. Estas
variables no tienen ningún orden inherente a ellas ni un orden de jerarquía.
Variable ordinal: Cuando las categorías o valores que adopte una variable
cualitativa poseen un orden, secuencia o progresión natural esperable, por
ejemplo: grados de desnutrición, respuesta a un tratamiento, nivel
socioeconómico, intensidad de consumo de alcohol, días de la semana,
meses del año, etc.
Conceptos Básicos
Variables cuantitativas: Las que pueden expresarse numéricamente
(temperatura, producción, edad, etc.)
Las Variables cuantitativas se clasifican en variables discretas y variables
continuas
Si entre dos valores determinados existen infinitas posibilidades de
valores, hablaremos de una variable de tipo continuo. Ejemplos de este
tipo de variables son: el peso, la talla, la presión arterial o el nivel de
colesterol, etc.
Si la variable a medir sólo puede adoptar un sólo valor numérico, entero,
con valores intermedios que carecen de sentido, hablaremos de variable
cuantitativa de tipo discreto. Son ejemplos de ellas: el número de hijos, de
unidades vecinales del sector, número de exámenes de laboratorio o de
pacientes atendidos.
Elaboración de una Tabla de Frecuencias –
Datos no Agrupados
Para elaborar una tabla de frecuencias se procede de la siguiente
manera:
• Marca de clase (𝑋𝑖): Son las observaciones
• Frecuencia absoluta (𝑓𝑎): Es el número de veces que se repite cada
observación
• Frecuencia absoluta acumulada (𝐹𝐴): Es la suma sucesiva de la
frecuencia absoluta
• Frecuencia relativa (𝑓𝑟): Es la relación entre la frecuencia absoluta y
el total de observaciones multiplicado por cien. Esto es:
𝑓𝑎
𝑓𝑟 =
∗ 100
𝑛
• Frecuencia relativa acumulada (𝐹𝑅): Es la suma sucesiva de la
frecuencia relativa
Ejemplo 1
Los siguientes datos corresponden al número de
libros leídos por un grupo de 30 alumnos, en un
lapso de 2 años. Elaborar la tabla de distribución
de frecuencias.
3 2 1 4 5 3 2 1 3 1
2 3 5 1 2 2 1 3 4 2
3 4 0 1 2 2 0 1 2 3
Representación Gráfica
Para dar una información general de los datos, se usan
las representaciones gráficas. Las gráficas sirven
visualizar mejor la información, pero nunca sustituyen
al cuadro, tan solo se les debe considerar como
complemento.
Gráfico de frecuencias (Gráfico de barra): En el eje
horizontal se colocan los distintos valores de la variable
Xi y en el eje vertical van los valores de las frecuencias
absolutas o relativas.
Representación Gráfica
Gráfico circular: Es el área del circulo dividido en
sectores o porciones de área correspondiente a la
frecuencia relativa, cada sector circular se encuentra
por la expresión.
𝑓𝑟
𝛼=
∗ 360
100
donde 𝑓𝑟 es la frecuencia relativa.
Ejemplo 2
Los siguientes datos representan los tiempos (redondeados a
minutos) que demoran en ser atendidos 40 clientes de un
banco
13
10
10
13
10
11
10
12
11
9
9
9
9
10
9
9
11
9
13
12
11
15
11
12
10
10
10
11
15
15
12
12
13
13
10
15
11
12
10
11
Elabore la tabla de frecuencias
Realice un gráfico de barras para la frecuencia relativa
Realice un gráfico circular
Que porcentaje de personas demoran en ser mas atendidos
Ejemplo 3
Los siguientes datos representan los ingresos
anuales de 30 familias expresados en millones
de pesos
20
20
22
20
20
21
22
21
21
19
22
19
18
20
22
20
21
21
18
19
20
19
20
22
21
21
22
20
20
21
Elaboración de una Tabla de Frecuencias –
Datos Agrupados
A 40 estudiantes se les pidió que estimen el
número de horas que habrían dedicado
a estudiar la semana pasada (tanto en clase
como fuera de ella), obteniéndose los siguientes
resultados
36
45
30
37
30
52
55
56
47
48
49
58
60
58
39
50
32
60
58
47
35
38
50
58
40
32
65
55
50
35
35
39
54
56
56
58
35
48
47
45
Representación Gráfica
Histograma: Son diagramas de frecuencias
unidimensionales en los cuales en un plano
cartesiano se levantan rectángulos de área
proporcionales a las frecuencias sobre los intervalos
del eje horizontal. en ellos se representan las
frecuencias absolutas y relativa.
Ojiva: La representación gráfica para las frecuencias
absolutas y relativas acumuladas en una variable se
hace a través de una ojiva ascendente. Para ello se
determinan los puntos de intercepción entre cada
valor de la variable y su respectiva frecuencia, luego
se une con trazos rectilíneos
Ejemplo 2
Los siguientes datos corresponden al número de
clientes que acudieron al “CAFÉ INTERNET”
durante 30 días.
15 34 13 20 20 35 30 17 30 32
21 32 22 14 30 36 23 14 20 39
18 24 20 16 31 38 22 13 28 19
Ejemplo 3
La compañía High Performance Bicycle Products de Chapel
Hill, Carolina del Norte, hizo un muestreo de sus registros de
embarque (Tiempo entre la relación de una orden y su
entrega) para ciertos días con los siguientes resultados :
4 12 8 14 11 6 7 13 13 11
11 20 5 19 10 15 24 7 29 6
a. Elabore una tabla de frecuencias
b. Si la compañía desea asegurar que la mitad de sus entregas
se hagan en 9 días o menos, ¿puede determinar, a partir de la
distribución de frecuencias, si han logrado esta meta?
c. Elabore un histograma para la frecuencia relativa y una ojiva
para la frecuencia relativa acumulada
Ejemplo 4
Los resultados siguientes representan las calificaciones
del examen final de un curso de estadística elemental.
23
60
79
32
57
74
52
70
82
36
80
77
81
95
41
65
92
85
55
76
52
10
64
75
78
25
80
98
81
67
41
71
83
54
64
72
88
62
74
43
60
78
89
76
84
48
84
90
15
79
34
67
17
82
69
74
63
80
85
61
Construya una tabla de frecuencias
Realice un histograma para fa y una ojiva para FR
Medidas de Tendencia Central
Las medidas de tendencia central nos permiten determinar
la posición de un valor respecto a un conjunto de datos, el
cual consideramos como representativo para el total de las
observaciones.
Dentro de las medidas de tendencia central tenemos:
Media Aritmética, mediana, moda.
Media Aritmética 𝑿: Es la mas conocida y sencilla de
calcular, de gran estabilidad en el muestreo y sus formulas
admiten tratamientos algebraicos. Su principal desventaja
es el de ser muy sensibles a los cambios que se le haga en
algunos de sus valores, o cuando los valores extremos son
demasiado grandes o pequeños. La media se define como:
Medidas de tendencia Central
𝑥
𝑥=
𝑛
Mediana (Me): Se define como el valor central en la
distribución de los datos. De la mediana se puede decir
que es única, es simple y los valores extremos no tienen
efectos importantes sobre la mediana, lo que si ocurre
con la media.
a. Número impar de observaciones: Si tomamos los
datos originales para calcular la mediana, lo primero que
debemos hacer es ordenar los datos de menor a mayor o
de mayor a menor y luego tomamos el valor central.
Medidas de tendencia Central
b. Número par de observaciones: Cuando el
número de observaciones es par, la mediana es
igual al promedio aritmético de los dos términos
centrales, es decir, el valor resultante de la suma
de las dos observaciones centrales dividida por
dos.
Medidas de tendencia Central
Moda (Mo): Es el valor de la variable que
presenta mayor frecuencia. La moda se puede
hallar en variables cuantitativas y cualitativas.
• Si en un grupo hay dos o varias puntuaciones
con la misma frecuencia y esa frecuencia es la
máxima, la distribución es bimodal o
multimodal, es decir, tiene varias modas
• Cuando todas las puntuaciones de un grupo
tienen la misma frecuencia, no hay moda
Medidas de Posición
Cuando la distribución contiene un número alto
de intervalos o de marca de clases y se requiere
obtener un promedio de una parte de ella, se
puede dividir la distribución en cuatro, diez o
cien partes. En el primer caso se habla de
cuartiles, en el segundo se denomina deciles y
en el último centiles o percentiles.
Medidas de Posición
Cuartiles: son los tres valores que dividen al
conjunto de datos ordenados en cuatro partes
iguales.
• El primer cuartil Q1 se dene como aquel valor de
la variable que supera el 25% de la observaciones
y es superado por el 75% de las observaciones
• El segundo cuartil Q2 (la mediana), es aquel valor
de la variable que supera al 50% y es superado
por el 50%
• El tercer cuartil Q3 es aquel valor de la variable
que supera al 75% y es superado por el 25% de
las observaciones
Medidas de Posición
Deciles: son los nueve valores que dividen al
conjunto de datos ordenados en diez partes
iguales.
Percentiles: Son 99 valores que dividen en cien
partes iguales el conjunto de datos ordenados
en cien partes iguales.
Ejemplos
1. Para el siguiente conjunto de datos
14 17 10 6 8 15 19 11 13 9
Hallar:
a. Q1, Q3
b. D3, D6 y D9
c. P8; P35; P60
Ejemplos
2. Los siguientes datos representan los ingresos
mensuales de 15 persona.
650 670 700 750 800
750 800 850 900 900
650 670 650 670 800
Hallar:
a. Ingreso medio
b. Ingreso central
c. Ingreso que mas se repite
d. Q1, D4; P80
Medidas de dispersión
Son aquella que nos determinan como se
agrupan o se dispersan los datos alrededor de
un promedio (o media). Entre las mas
importantes tenemos: Varianza, desviación
típica o desviación estándar y coeficiente de
variación.
Medidas de dispersión
Varianza: De todas las medidas de dispersión es
la mas importante, mas conocida y usada. Se le
define como la media aritmética de los
cuadrados de las desviaciones respecto a su
media. Esta dada por:
2
𝑥
−
𝑥
𝑖
2
𝑆 =
𝑛−1
Medidas de dispersión
Desviación típica o desviación estándar: Es la raíz
cuadrada de la varianza, y está dada por:
𝑠 = 𝑠2
Coeficiente de variación: En ocasiones nos interesa
comparar la variabilidad de dos series de datos.
Generalmente podemos encontrar que ambas series
están expresadas en diferentes unidades. Puede darse el
caso en que estén expresadas en la misma unidad, pero
nos interesa determinar la variación respecto a una base.
Para resolver el anterior problema se usa
𝑠
𝐶𝑉 = 100
𝑥
Medidas de Distribución
Las medidas de distribución nos permiten
identificar la forma en que se separan o aglomeran
los valores de acuerdo a su representación gráfica.
Estas medidas describen la manera como los datos
tienden a reunirse de acuerdo con la frecuencia
con que se hallen dentro de la información. Su
utilidad radica en la posibilidad de identificar las
características de la distribución sin necesidad de
generar el gráfico. Sus principales medidas son la
Asimetría y la Curtosis.
Asimetría
Esta medida nos permite identificar si los datos
se distribuyen de forma uniforme alrededor de
la Media aritmética. La asimetría presenta tres
estados diferentes, los cuales son:
1. Asimetría positiva cuando 𝑋 > 𝑀𝑒 > 𝑀𝑜
2. Simétrica cuando 𝑋 = 𝑀𝑒 = 𝑀𝑜
3. Asimetría negativa cuando 𝑋 < 𝑀𝑒 < 𝑀𝑜
Asimetría
Coeficiente de Asimetría de Fisher
El Coeficiente de asimetría, se calcula mediante
la siguiente fórmula:
3
𝑥𝑖 − 𝑋
𝐴𝑠 =
𝑛𝑠 3
Si As = 0 la distribución es simétrica.
Si As > 0 La distribución es asimétricamente
positiva.
Si As < 0 La distribución es asimétricamente
negativa
Curtosis
Esta medida determina el grado de
concentración que presentan los valores en la
región central de la distribución
TIPOS DE CURTOSIS
Así puede ser:
Leptocúrtica.- Existe una gran concentración.
Mesocúrtica.- Existe una concentración normal.
Platicúrtica.- Existe una baja concentración.
TIPOS DE CURTOSIS
Coeficiente de Curtosis
Para calcular el coeficiente de Curtosis se utiliza
la ecuación
𝑎=
𝑥𝑖 −𝑋
𝑛𝑠 4
4
Si a < 3 la distribución es platicúrtica
Si a = 3 la distribución es normal o mesocúrtica
Si a > 3 la distribución es leptocúrtica
Ejemplos
Determinar qué tipo de asimetría y curtosis
tienen las siguientes distribuciones
a) 8, 14, 16, 13, 16
b) 6, 9, 9, 12, 12, 12, 15 y 17
Medidas de las relaciones entre variables
En el análisis de los procesos empresariales y económicos
se utilizan a menudo las relaciones entre variables. La
covarianza y la correlación permiten describir
numéricamente una relación lineal.
Covarianza (Cov): Es una medida de la relación lineal
entre dos variables. Un valor positivo indica una relación
lineal directa o creciente y un valor negativo una relación
lineal decreciente. La Cov está dada por
𝐶𝑜𝑣 𝑥, 𝑦 =
𝑥𝑖 − 𝑥 𝑦𝑖 − 𝑦
𝑛−1
Coeficiente de correlación: Nos da una medida de la
relación lineal entre dos variables, nos indica el sentido
como el grado de relación. La covarianza y el coeficiente
de correlación tienen el mismo signo (ambos positivos o
ambos negativos). Esta dado por:
𝐶𝑜𝑣(𝑥, 𝑦)
𝑟=
𝑆𝑥 𝑆𝑦
El coeficiente de correlación va de -1 a +1. Cuanto más
cerca se encuentra r de +1, mas cerca se encuentran los
datos de puntos de una línea recta ascendente que
indican una relación lineal positiva. Cuanto más se
encuentra r de -1, mas cerca se encuentran los datos de
puntos de una línea recta descendente que indican una
relación lineal negativa. Cuando r=0, no existe relación
entre x e y.
Ejemplo
A continuación se presenta una muestra del precio
de la lamina de triple x, y la cantidad vendida, y (en
miles)
Precio por Lamina (x)
Laminas Vendidas (y)
6
80
7
60
8
70
9
40
10
30
Calcule la covarianza y el coeficiente de correlación
Relaciones Lineales
En el análisis de los procesos empresariales y económicos se utiliza a
menudo las relaciones entre variables. Estas relaciones se expresan en
términos matemáticos de la forma siguiente:
𝑦=𝑓 𝑥
Donde f(x) es una función que puede adoptar muchas formas lineales
y no lineales.
En el modelo de regresión lineal simple hay dos variables una
independiente(x) y una dependiente (y) , el cual esta dado por:
𝑦 = 𝑎 + 𝑏𝑥
Con 𝑎 como la ordenada en el origen y 𝑏 la pendiente de la recta. Es
decir la variación que experimenta 𝑦 por cada variación unitaria de 𝑥
Regresión por mínimos cuadrados
La recta de regresión 𝑦 = 𝑎 + 𝑏𝑥
Donde
𝐶𝑜𝑣(𝑥, 𝑦)
𝑏=
𝑠𝑥2
Y
𝑎 = 𝑦 − 𝑏𝑥
Ejemplo
Una empresa fija un precio distinto para un sistema de
DVD en ocho regiones del país. Los siguientes datos
muestran los precios (x) y el número de unidades
vendidas (y) (en miles de dólares)
Precio
5.5
6.0
6.5
6.0
5.0
6.5
4.5
5.0
Ventas 420
380
350
400
440
380
450
420
a. Encuentre la covarianza y el coeficiente de correlación
b. Encuentre los valores de a y b para la recta de
regresión
c. Estime la venta para un precio de 7.0
d. Represente los datos en un grafico de dispersión
Ejemplo
Un profesor intenta mostrar a sus estudiantes la importancia de los
exámenes cortos, aun cuando el 90% de la calificación final esté
determinada por los exámenes parciales. Él cree que cuanta más
alta son las calificaciones de los exámenes cortos, más alta será la
calificación final. Seleccionó una muestra aleatoria de 15
estudiantes de su clase con los siguientes datos:
Promedio de exámenes cortos 59 92 72 90 95 87 89 77 76 65 97 42 94 62 91
Promedio Final
65 84 77 80 77 81 80 84 80 69 83 40 78 65 90
1. Establezca la variable dependiente (Y) y la variable independiente
(X). Utilizando el método de mínimos cuadrados estime los
parámetros del modelo de regresión
2. Estime la nota promedio final para una nota promedio de
exámenes cortos de 80
3. Dibuje un diagrama de dispersión para estos datos y trace la
recta de regresión
Bibliografía
• Lind D, Marchal W. y Wathen S. Estadística
aplicada a los negocios y la economía. Mcgraw
Hill 2005.
• Levin R. Rubin D. Estadística para
administracíon y economía. Pearson. 2004
• Martin F. Introducción a la estadística
económica y empresarial. Ac editorial 2004
• Walpole y Myers. Probabilidad y Estadística.
Pearson ediciones. Sexta edición