clase estadistica MEH 2011

Download Report

Transcript clase estadistica MEH 2011

ESTADISTICA DESCRIPTIVA
ANGELICA RAMOS LOPEZ
ING. DE ALIMENTOS
" El poder se nutre de la información
y el conocimiento".
• La Estadística Descriptiva nace de la necesidad de
extraer y sumir la información relevante contenida en
grandes volúmenes de datos.
• Esta necesidad está motivada por la incapacidad de la
mente humana para comprender la información contenida
en conjuntos grandes de datos por la mera visión de
listados de dichos datos.
• Conjunto de métodos y técnicas que permiten
recopilar, presentar, analizar y tomar decisiones
respecto de un conjunto de datos.
• Es una ciencia que nos proporciona un conjunto
de métodos y técnicas que nos permite
recolectar, clasificar, analizar, presentar y
describir datos en forma adecuada a fin de tomar
decisiones frente a una incertidumbre o predecir
o afirmar algo de la población en estudio.
POBLACION
Es el conjunto de todos los
elementos (personas, animales,
plantas,
objetos,
etc.)
que
contienen una o más características
observables. Cada elemento de una
población de le denomina unidad
estadística o unidad análisis.
MUESTRA
Es una parte representativa o
subconjunto representativo
de la población. Al número
de elementos de la muestra
se le denomina tamaño de la
muestra y al procedimiento
de obtener la muestra se le
llama muestreo.
PARÁMETRO
Es una medida descriptiva que
resume alguna característica de
la población.
DATOS
Son valores recopilados de cualquier
número
de
observaciones
relacionadas sobre una o más
características de una población o
de una muestra.
FUENTES DE DATOS
Son los registros existentes y/o
métodos (encuestas, estudios
experimentales, etc.) que sirven
para obtener información con
fines de trabajo estadístico.
VARIABLES
Son
características
definidas
sobre
las
unidades de análisis que
conforman una población
y que pueden tomar
diferentes valores. Todas
las variables tienen una
escala de registro llamada
unidad de medida.
DEFINICIÓN DE VARIABLE.
VARIABLE
Característica de interés de los miembros de una
población que toma distintos valores.
CUALITATIVAS
CUANTITATIVAS
Sus valores
corresponden a
conceptos, atributos o
cualidades no son
medibles
Son medibles, sus valores
corresponden a números reales
DISCRETAS
CONTINUAS
Sólo toman
algunos valores
reales.
Toman infinitos valores
de un intervalo de
números reales.
7
EJEMPLO Nº1: Responda a las siguientes cuestiones sobre el
tipo de variable cuando clasificamos a los alumnos de una
clase:
1. La variable deporte que practican es: 4. La variable peso es:
(a) Cualitativa
(b) Discreta
(a) Cualitativa (b) Discreta
(c) Continua
(c) Continua
2. La variable número de hermanos es: 5. La variable color de su pelo
es:
(a) Cualitativa
(b) Discreta (c)
Continua
(a) Cualitativa (b) Discreta
(c) Continua
3. La variable Tiempo que ven
televisión en una semana es:
(a) Cualitativa
(b) Discreta (c)
Continua
6. La variable altura es:
(a) Cualitativa (b) Discreta
(c) Continua
Datos sin agrupar
Datos agrupados
Tablas de frecuencias
Medidas de tendencia central,
Medidas de dispersión, gráficos.
• Es una técnica estadística para organizar datos
en clases y cada una se les aplica la frecuencia
correspondiente.
• Sirve para visualizar y organizar los datos.
• Facilita la comprensión
contenida en la muestra.
de
la
información
Frecuencia absoluta
Tabla para datos cualitativos
Nivel educacional
i
Basica
ni
fi
%fi
10
0.303
30.3
Media
11
0.333
33.3
Universitaria
12
0.363
36.3
Total
33
1
100
Frecuencia
acumulada
Tabla para datos cuantitativos discretos
Número de
cargas
familiares
ni
fi
%fi
Ni
Fi
%Fi
0
15
0.357
35.7
15
0.357
25.7
1
17
0.404
40.4
32
0.761
76.1
2
10
0.238
23.8
42
1
100
Total
42
1
100
Frecuencia
11
relativa
ORGANIZACIÓN Y PRESENTACIÓN DE
DATOS
Representación tabular de la información
de variables de tipo categórico
3º)
• Cuando la variable es de tipo
categórico,
la
organización
y
presentación de los datos se hace de la
siguiente manera:
4º)
1º) Se determina el número de clases que
la variable está tomando.
Se obtienen las frecuencias
relativas (fi) para cada clase, las
cuales están definidas por el
cociente , donde n es el número
total de datos.
Se obtienen las frecuencias
relativas porcentuales (%) para
cada clase, las cuales son las
frecuencias relativas multiplicadas
por 100.
2º) Se obtienen las frecuencias absolutas
(ni) para cada clase, las cuales son el 5º) Se obtienen las frecuencias
acumuladas (Ni) para cada clase,
número de veces que se presenta cada
la cual es igual a la suma de las
clase.
frecuencias absolutas de los datos
anteriores.
FRECUENCIA RELATIVA
FRECUENCIA ABSOLUTA
ACUMULADA
Donde N, es el tamaño de la muestra
Ni  ni  ni 1
FRECUENCIA RELATIVA
PORCENTUAL
% fi  f i 100%
FRECUENCIA RELATIVA
ACUMULADA
FRECUENCIA ACUMULADA
PORCENTUAL
Fi  f i  f i 1
%Fi  Fi 100%
Ejemplo 3.1
• Se ha realizado un estudio del numero de
empleados de 15 fiambrerías de una zona de
Buenos Aires con los siguientes resultados:
4; 5; 4; 3; 3; 6; 4; 5; 3; 3; 4; 5; 3; 6.
• Construir la tabla estadística empleando
frecuencias absolutas simples y acumuladas y,
también, frecuencias relativas en porcentaje,
simples y acumuladas.
Nº
empleados
por tienda
Frecuencia
absoluta
simple (ni)
Frecuencia
absoluta
acumulada
(Ni)
Frecuencia relativa
simple en % (%fi)
Frecuencia
relativa
acumulada
en % (%Fi)
3
5
5
33,3
4
4
9
5
3
12
5/ 15 = 0.33(x 100) =
33.3%
4/15 = 0.26 (x 100) =
26.6%
3/15 = 0.2 (x 100) = 20%
6
3
15
3/15 = 0.2 (x 100) = 20%
100
60
80
Se han tomado las ventas en miles de soles de 40
supermercados de nuestro país correspondiente al mes de
Octubre del año pasado. Los resultados fueron:
168
168
158
156
160
158
163
174
168
149
171
165
175
160
170
173
175
161
165
172
160
162
150
168
165 154 163 165 168
166 163 159 178 169
167 164 162 165 163
168.
a) Identifique la variable y su tipo, así como la población y
la muestra.
b) Construya la tabla de distribución de frecuencias de la
información obtenida.
• La tabla siguiente (incompleta) resume las notas obtenidas por 80
alumnos de un instituto en selectividad. Responder:
1. El número de Suspendidos es:
(a) 20
(b) 30
(c) 40
2. El número de sobresalientes es:
(a) 10
(b) 12
(c) 14
3. La proporción de Notables es:
(a) 0.20 (b) 0.25
(c) 16
4. La suma de las frecuencias absolutas fi es:
(a) 100
(b) 80
(c) Otro valor
VARIABLES
Cualitativa
Discreta
Gráfico DE BARRAS
Continua
• Histograma
• Polígono de
frecuencias.
OJIVA
GRAFICO CIRCULAR
• es una representación gráfica mediante
rectángulos
adyacentes donde en el eje horizontal se representan los
intervalos de clase y en el eje vertical se representa los
valores de las frecuencias (absolutas o relativas).
• El histograma se construye dibujando barras contiguas
que tienen como base la amplitud de cada intervalo y
como alturas las frecuencias respectivas.
1. HISTOGRAMA . Variable NOTAS.
9
8
frecuencia absoluta
7
6
5
4
3
2
1
0
3.8 - 4.2
4.2 - 4.6
4.6 - 5.0
intervalos de clase
5.0 - 5.4
5.4 – 5.8
• Para la construcción de un polígono de frecuencias, se
marcan los puntos medios de cada uno los intervalos en
la parte superior de cada barra del histograma de
frecuencias, los cuales se unen con segmentos de recta.
2. POLÍGONO DE FRECUENCIAS. VARIABLE NOTAS
9
8
4.4
Frecuencia absoluta
7
6
4.0
5.2
5
4.8
4
3
2
5.6
1
0
0
0
marcas de clase
• Una grafica similar al polígono de frecuencias es la ojiva,
pero esta se obtiene de aplicar parcialmente la misma
técnica a una distribución acumulativa y de igual manera
que estas, existen las ojivas mayor que y menor que.
• Una gráfica de distribución de frecuencias acumuladas es
llamada una ojiva. Se trazan los límites reales superiores
contra las frecuencias acumuladas.
3. OJIVA. Variable Notas
FRECUENCIA ACUMULADA
30
25
24
25
20
19
15
14
10
5
6
0
4,2
4,6
5
5,4
LIMITE SUPERIOR INTERVALO DE CLASE
5,8
Gráficos Variable Cualitativa.
Gráfico de Barra "Año de Ingreso"
n
2
8
5
10
25
%f
8
32
20
40
100
12
10
8
n
Ingreso
1999
2000
2001
2002
6
4
2
0
1999
2000
2001
Categorías
Gráfico barras
1999
8%
2002
40%
2000
32%
2001
20%
Gráfico circular
2002
Gráficos variable discreta
n
1
3
8
3
4
3
3
25
8
12%
%f
4
12
32
12
16
12
12
100
2
4%
N
1
4
12
15
19
22
25
%F
4
16
48
60
76
88
100
35
Gráfico de BARRAS
30
25
20
%
Ramos
2
3
4
5
6
7
8
15
10
5
0
2
3
4
5
6
7
8
6
7
8
Ramos
3
12%
7
12%
30
OJIVA
25
6
16%
4
32%
N
20
15
10
5
12%
Gráfico Circular
5
0
2
3
4
5
ramos
MEDIDAS DE
TENDENCIA CENTRAL
MEDIDAS DE
DISPERSION
MEDIDAS DE
POSICION
• MODA
• MEDIANA
• MEDIA (GEOMETRICA)
• MEDIA (ARITMETICA)
• RANGO
• DESVIACION MEDIA
• VARIANZA Y DESVIACION
ESTANDAR
• COEFICIENTE DE VARIACION
• DECILES
• CUARTILES
• PERCENTILES
• Son estadísticos que proporcionan valores
representativos de la muestra, de tal manera que
todos los datos muéstrales caen en torno a estos
valores.
• Son valores de la variable que están situados en
el centro o alrededor del punto medio de un
conjunto de datos. Este valor también se le
denomina indicador estadístico o estadístico o
estadígrafo.
• La media aritmética de una variable se define
como la suma ponderada de los valores de la
variable por sus frecuencias relativas y lo
denotaremos por y se calcula mediante la
expresión:
Xi representa el valor de la variable o en su caso la marca de
clase.
a) Para datos cuantitativos no agrupados
donde x es el valor del dato no agrupado, n es el total de
los datos y
el símbolo Σ significa sumar.
b) Para datos cuantitativos agrupados
donde xi es la marca de clase del intervalo i, n es el total
de los datos y el símbolo Σ significa sumar los productos
entre paréntesis.
VENTAJAS Y DESVENTAJAS DE LA MEDIA
ARITMETICA
• Ventajas de la media
aritmética
a) Es una medida que tiene en
cuenta toda la información
suministrada.
b) Es la más estable de las
medidas de tendencia
central.
c) Puede ser utilizada como
dato
para
análisis
estadísticos posteriores.
• Desventajas de la media
aritmética
• No es conveniente utilizarla
cuando
los
datos
se
aglomeran en los extremos
del conjunto de datos
ordenados habiendo poca
información en las partes
centrales de la distribución.
• Los datos están fuertemente
sesgados. En este caso se
prefiere utilizar la mediana.
Se han tomado las ventas en miles de soles de 40
supermercados de nuestro país correspondiente al mes
de Octubre del año pasado. Los resultados fueron:
168 160 168 175 175 160 165 154 163 165
168 168 158 149 160 161 162 166 163 159
178 169 158 163 171 170 165 150 167 164
162 165 163 156 174 165 173 172 168 168.
Obtener la media aritmética de dichos resultados.
• En una clase de 10 alumnos se han registrado las
siguientes las calificaciones: 6 alumnos un 5, 3 alumnos
un 7 y un alumno un 9. Obtener la nota media.
• es el valor central de la variable, es decir, supuesta la muestra
ordenada en orden creciente o decreciente, el valor que divide
en dos partes la muestra.
• Para calcular la mediana debemos tener en cuenta si la
variable es discreta o continua.
• Cálculo de la mediana en el caso discreto: Tendremos en
cuenta el tamaño de la muestra.
• Si n es impar, hay un término central, el término
será el valor de la mediana.
que
• Si n es par, hay dos términos centrales, la mediana será la
media de esos dos valores
• Ejemplo
N par
N impar
1,4,6,7,8,9,12,16,20, 24,25,27
n=12
1,4,6,7,8,9,12,16,20, 24,25,27,30
n=13
Términos centrales el 6º y 7º 9
y 12
Término central el 7º , 12
Me=12
Me=
• Cálculo de la mediana en el caso continúo:
• Si la variable es continua, la tabla vendrá en intervalos,
por lo que se calcula de la siguiente forma:
• Nos vamos a apoyar en un gráfico de un histograma de
frecuencias acumuladas. De donde la mediana vale:
donde ai es la amplitud del intervalo.
• Supongamos los pesos de un grupo de 50 personas
se distribuyen de la siguiente forma:
Li-1
Li
Ni
Ni
45
55
6
6
55
65
10
16
65
75
19
35
75
85
11
46
85
95
4
50
• Como el tamaño de la muestra es n=50, buscamos el
intervalo en el que la frecuencia acumulada es mayor que
50/2=25, que en este caso es el 3º y aplicamos la fórmula
anterior. Luego la mediana será
•
Me=
VENTAJAS Y DESVENTAJAS DE LA MEDIANA
MUESTRAL
• Ventajas de la mediana
muestral
• Desventajas
de
mediana muestral
• La mediana se utiliza
cuando los datos están
fuertemente sesgados.
• Es una medida que no
tiene en cuenta los valores
que toman las variables en
los extremos de los datos
ordenados en la muestra.
• No está afecta a los valores
extremos de los datos.
• Se utiliza también en las
variables
categóricas
ordinales.
la
• es un valor o medida de tendencia central en una muestra
de datos de variables tanto categóricas como
cuantitativas que se repite con mayor frecuencia, y se
representa por el símbolo Mo. Si el conjunto de datos
tiene una moda se llama unimodal, si tiene dos modas
se llama bimodal, y al conjunto de datos que tiene más
de dos modas se llama multimodal.
a) Para
datos
categóricos
(o
cualitativos)
nominales
u
ordinales:
Se
determina
la
categoría (o las
categorías) que
más se repite (o
repiten).
• b)
Para
datos
cuantitativos
no
agrupados
y
cuantitativos
discretos
agrupados:
Se
determina el valor (o
los
valores)
del
conjunto de datos que
más se repite (o
repiten).
c) Para
datos
cuantitativos
continuos
agrupados:
Cuando
la
información se
encuentra
agrupada
en
intervalos
de
igual tamaño la
moda se calcula
con la siguiente
expresión.
Ejemplo:
A pesar que el
valor 444.44 no
es un dato real de
la
información
asumimos
ese
parámetro
como el de mayor
ocurrencia.
VENTAJAS Y DESVENTAJAS DE LA MODA
MUESTRAL
• Ventajas de la moda
muestral
• Desventajas de la moda
muestral
a) Se puede calcular tanto
para datos categóricos
como
para
los
cuantitativos.
• Es
muy
difícil
de
interpretar o comparar
cuando la distribución es
multimodal.
b) No está afectada por los
valores extremos de los
datos ordenados.
• Las medidas de dispersión indican que tan lejos o tan
cerca se encuentran unos datos de otros en una
distribución de frecuencia. La medida representativa mas
utilizada para analizar la dispersión de datos es la media.
Las más importantes son:
•
•
•
•
•
Rango
La desviación media
La desviación típica o estándar
El coeficiente de variación
La varianza.
• Es la medida de dispersión que indica la distancia entre el
valor mayor y menor en un grupo de datos.
• Se denota como R. Realmente no es una medida muy
significativa e la mayoría de los casos, pero
indudablemente es muy fácil de calcular.
R = Xmax – Xmin
Xmax, Xmin son el máximo y el mínimo valor de
la variable X, respectivamente.
• La desviación media,
mide la distancia
absoluta
promedio
entre cada uno de
los datos, y el
parámetro
que
caracteriza
la
información.
Usualmente
se
considera
la
desviación
media
con respecto a la
media aritmética:
• es una medida de variación que mide la dispersión
cuadrática de los datos con respecto a la media
aritmética, y se representa por el símbolo s2. Su unidad
de medida es el cuadrado de la unidad de medida
utilizada para medir los datos.
• es la raíz cuadrada de la varianza muestral, y se
representa por la letra s; es decir:
• Es la más completa entre las medidas de dispersión
porque interviene la unidad de medida que se usa para
medir los datos y el número total de ellos.
• Es una medida de dispersión relativa que proporciona una
estimación de la magnitud de la desviación estándar
respecto a la magnitud de la media, y generalmente está
expresado en porcentaje, y se representa por las letras CV.
Matemáticamente, esto se expresa por:
• Es útil para comparar distribuciones con unidades de
medida diferentes para ver así cuál de ellas es más
variable.
• Una desventaja del coeficiente de variación es que deja de
ser útil cuando la media muestral es un valor cercano a
cero.
• El peso medio de los alumnos de una clase es 58,2kg y
su desviación típica 4kg. Por otra parte la altura media es
de 175cm, y su desviación típica es de 5cm. Calcular el
coeficiente de variación y comparar la dispersión de
ambos grupos.