Diapositiva 1 - WilliamTeneda

Download Report

Transcript Diapositiva 1 - WilliamTeneda

Medidas de la tendencia central y de la dispersión
Tendencia central
Dispersión
Datos no agrupados
Datos no agrupados
Recorrido
Media aritmética
Mediana
Desviación media absoluta
Moda
Varianza y desviación típica
Media aritmética ponderada
Percentiles
Media geométrica
Datos agrupados
Datos agrupados
Percentiles
Media aritmética
Varianza y desviación típica
Mediana
Moda
Conceptos relacionados
Teorema
Chebyshev
de
Regla empírica
Sesgo
Coeficiente
variación
de
Medidas de la tendencia central y
de la dispersión
Las medidas de tendencia central ttienen como objetivo el
sintetizar los datos en un valor representativo, las medidas de
dispersión nos dicen hasta que punto estas medidas de
tendencia central son representativas como síntesis de la
información. Las medidas de dispersión cuantifican la
separación, la dispersión, la variabilidad de los valores de la
distribución respecto al valor central. Distinguimos entre
medidas de dispersión absolutas, que no son comparables
entre diferentes muestras y las relativas que nos permitirán
comparar varias muestras.
Al describir grupos de observaciones,
con frecuencia es conveniente resumir
la información con un solo número.
Este número que, para tal fin, suele
situarse hacia el centro de la
distribución de datos se denomina
medida o parámetro de tendencia
central o de centralización.
MEDIA ARITMETICA
Es el valor resultante
que se obtiene al
dividir la sumatoria
de un conjunto de
datos sobre el
número total de
datos. Solo es
aplicable para el
tratamiento de datos
cuantitativos.
Ejemplo
Los pesos de seis amigos
son: 84, 91, 72, 68, 87 y 78
kg. Hallar el peso medio.
MEDIANA
Ejemplo:
Mediana (Me): Valor que
divide una serie de datos
en dos partes iguales. La
cantidad de datos que
queda por debajo y por
arriba de la mediana son
iguales.
Encontrar la mediana para los siguientes
datos:
41234221553
SOLUCIÓN
1: Ordenar los datos.
11222334455
2: Localizar el valor que divide en dos parte
iguales el número de datos.
11222334455
La mediana es 3, dejando 5 datos a cada lado.
MODA
La moda es el valor que se presenta
con mayor frecuencia en un conjunto
de datos. a una distribucion que tiene
una sola moda se le denomina
unimodal, si tiene dos datos que se
repiten igualmente, se le conoce como
bimodal, y si tiene tres o mas modas
se le conoce como multimodal. si
ningun dato se repite, entonces no
tiene moda.
ejemplo: “hallar la moda del siguiente
conjunto de datos.”
14,15,16,18,5,7,5,9,15,5.
se ordenan: 5,5,5,7,9,14,15,15,16,18.
la moda es igual a 5..
MEDIA ARITMETICA
PONDERADA
Tiene en cuenta la importancia
relativa de las observaciones, es
superior a la media aritmética simple
MEDIA
GOMETRICA
En matemáticas y
estadística, la media
geométrica de una
cantidad arbitraria de
números (digamos n
números) es la raíz nésima del producto de
todos los números.
Por ejemplo, la media
geométrica de 2 y 18 es
DATOS AGRUPADOS
En la mayor parte de casos tenemos un
número grande de datos y tomamos en
cuenta que en estos casos generalmente los
datos son resumidos en una tabla de
frecuencia. La fórmula para el cálculo
cuando se trata de datos agrupados es
diferente a la de los no agrupados.
MEDIA
ARITMETICA
La media
aritmética es
igual a la división
de la sumatoria
del producto de
las clases por la
frecuencia sobre
el número de
datos.
Si los datos vienen agrupados
en una tabla de frecuencias, la
expresión de la media es:
MEDIANA
En el ámbito de la estadística, una
mediana es el valor de la variable
que deja el mismo número de datos
antes y después que él, una vez
ordenados estos.
EJEMPLO
Las calificaciones en la asignatura de
Matemáticas de 39 alumnos de una clase viene
dada por la siguiente tabla:
Calificaciones 1 2 3 4 5 6 7 8 9 Número de
alumnos 2 2 4 5 8 9 3 4 2
Se halla las frecuencias absolutas acumuladas
.Asociada a la mediana para n impar, se obtiene
.
Ni-1< n/2 < Ni = N19 < 19.5 < N20
Me = 5 puntos, la mitad de la clase ha obtenido
un 5 o menos, y la otra mitad un 5 o más.
MEDIDAS DE
DISPERSIÓN
Se llaman medidas de dispersión aquellas que permiten retratar la distancia de los
valores de la variable a un cierto valor central, o que permiten identificar la
concentración de los datos en un cierto sector del recorrido de la variable. Se trata de
coeficiente para variables cuantitativas.
La dispersión es importante
porque:
Proporciona información adicional que permite juzgar la
confiabilidad de la medida de tendencia central. Si los datos
se encuentran ampliamente dispersos, la posición central es
menos representativa de los datos.
Ya que existen problemas característicos para
datos ampliamente dispersos, debemos ser capaces
de distinguir que presentan esa dispersión antes de
abordar esos problemas.
Datos no agrupados
Datos no agrupados es el
conjunto de observaciones
que se presentan en su
forma original tal y como
fueron recolectados, para
obtener información
directamente de ellos.
Ejemplo:
5,7,2,15,2,6,12,5,5,20,10.
numero de personas que
ayudaron a una causa.
EL RANGO O RECORRIDO
( R ):
Es la medida de
variabilidad más
fácil de calcular.
Para datos finitos o
sin agrupar, el
rango se define
como la diferencia
entre el valor más
alto (Xn ó Xmax.) y
el mas bajo (X1 ó
Xmin) en un
conjunto de datos.
Rango para datos
no agrupados;
R = Xmáx.-Xmín =
Xn-X1
Ejemplo:
Se tienen las edades
de cinco estudiantes universitarios de 1er año,
a saber: 18,23, 27,34 y 25., para calcular la
media aritmética (promedio de las edades, se
tiene que:
R = Xn-X1 ) = 34-18 = 16
años
Desviación media absoluta
La desviación media es la media de las diferencias en valor
absoluto de los valores a la media.
Este valor estadístico no es de mucha utilidad en estadística
debido a que no es fácil manipular dicha función al no ser
derivable.
Siendo más formales, la desviación media debería llamarse
desviación absoluta respecto a la media, para evitar confusiones
con otra medida de dispersión, la desviación absoluta respecto a
la mediana, DM, cuya fórmula es la misma, sustituyendo la
media aritmética por la mediana M. Pero tal precisión no es
relevante, porque la desviación absoluta respecto a la mediana es
de uso todavía menos frecuente.
Ejemplo: Desviación media para datos no agrupados
Tres alumnos son sometidos a una competencia para probar sus conocimientos en 10 materias diferentes, cada
una sustentada con 10 preguntas. La idea del concurso es encontrar al alumno más idóneo para representar al
colegio en un torneo a nivel nacional.
El número de preguntas buenas por materia se muestra a continuación:
Materia
Carlos
Pedro
Juan
1
2
7
5
2
9
2
6
3
10
2
5
4
2
6
5
5
3
6
5
6
1
3
5
7
9
6
4
8
9
7
5
9
1
6
6
10
4
5
4
SOLUCIÓN
Lo primero que analizaremos es la media de los puntajes para cada uno de los alumnos, con el fin de
determinar el alumno con mayor promedio de preguntas buenas.
Las medias para los resultados de los alumnos coinciden: los tres alumnos tienen responden en promedio 5
preguntas correctas por prueba. ¿Cuál sería entonces el indicador diferenciador entre los alumnos?.
Complementemos el análisis anterior calculando la desviación media:
Carlos muestra una desviación media de 3,9 indicando que los datos se alejan en promedio de la media en 3,9
preguntas buenas. Pedro disminuye su variación (2,9), siendo Juan el que menos variación presenta con 0,9
preguntas tanto por arriba como por debajo de la media aritmética. Se recomienda al colegio elegir como
ganador en este caso a Juan, presenta resultados más constantes que los otros dos alumnos, Juan en promedio
acierta 5 preguntas buenas con una variación muy baja (rondando entre 4 y 6).
CENTILES O PERCENTILES
Los percentiles son, tal vez, las medidas más
utilizadas para propósitos de ubicación o
clasificación de las personas cuando atienden
características tales como peso, estatura, etc. Los
percentiles son ciertos números que dividen la
sucesión de datos ordenados en cien partes
porcentualmente iguales. Estos son los 99 valores
que dividen en cien partes iguales el conjunto de
datos ordenados. Los percentiles (P1, P2,... P99),
leídos primer percentil,..., percentil 99.
DATOS AGRUPADOS
En la mayor parte de casos tenemos un
número grande de datos y tomamos en
cuenta que en estos casos generalmente los
datos son resumidos en una tabla de
frecuencia. La fórmula para el cálculo
cuando se trata de datos agrupados es
diferente a la de los no agrupados.
PERCENTILES:
Son 99 valores que dividen en cien partes iguales el conjunto de
datos ordenados.
Para datos agrupados los deciles se calculan mediante la fórmula.
k= 1,2,3,... 9
Donde:
Lk = Límite real inferior de la clase del decil k
n = Número de datos
Fk = Frecuencia acumulada de la clase que antecede a la clase del decil k.
fk = Frecuencia de la clase del decil k
c = Longitud del intervalo de la clase del decil k
EJEMPLO.- Determinación del primer cuartil, el séptimo decil y el 30 percentil, de la
siguiente tabla:
Como son datos agrupados, se utiliza la fórmula
Salarios
No. De
(I. De Clases)
Empleados (f1)
200-299
85
85
300-299
90
175
400-499
120
295
500-599
70
365
600-699
62
427
700-800
36
463
Como son datos agrupados, se utiliza la fórmula
Siendo
fa
Varianza
El cuadrado de la desviación estándar recibe el nombre de
varianza y se representa por . La suma de los cuadrados de
los desvíos de la totalidad de las observaciones, respecto de la
media aritmética de la distribución, es menor que la suma de
los cuadrados de los desvíos respecto de cualquier otro valor
que no sea la media aritmética.
El coeficiente
variación:
de
Para comparar la dispersión de variables que aparecen en
unidades diferentes (metros, kilos, etc.) o que corresponden a
poblaciones extremadamente desiguales, es necesario disponer de
una medida de variabilidad que no dependa de las unidades o del
tamaño de los datos. Este coeficiente únicamente sirve para
comparar las dispersiones de variables correspondientes a escalas
de razón.
Para comparar la dispersión de variables que aparecen en unidades diferentes (metros,
kilos, etc.) o que corresponden a poblaciones extremadamente desiguales, es necesario
disponer de una medida de variabilidad que no dependa de las unidades o del tamaño
de los datos. Este coeficiente únicamente sirve para comparar las dispersiones de
variables correspondientes a escalas de razón.
Teorema de Chebyshev: Para un conjunto cualquiera de
observaciones (muestra o población), la proporción mínima
de los valores que se encuentran dentro de k desviaciones
estándares desde la media es al menos 1 - 1/k2, donde k es una
constante mayor que 1.
Regla empírica: Para una distribución de
frecuencias simétrica de campana,
aproximadamente
68%
de
las
observaciones estará a más y menos una
desviación estándar desde la media,
aproximadamente
95%
de
tales
observaciones se encontrará a más y
menos dos desviaciones estándares de la
misma; y prácticamente todas las
observaciones (99,7%) se hallarán a más y
menos tres desviaciones con respecto a la
media.
SESGO
No todas las distribuciones son normales, algunas están sesgadas a
la izquierda o a la derecha, en ambos casos la moda es, por
definición aquella observación que ocurre con más frecuencia .por
consiguiente esta en el pico de la distribución ,por su propia
naturaleza la media aritmética resulta afectada, sobre todo, por
observaciones extremas, así pues, está desviada a la dirección del
sesgo más que la mediana, que queda situada en algún punto entre
la media aritmética y moda.
El coeficiente de variación
Para comparar la dispersión de variables que aparecen en
unidades diferentes (metros, kilos, etc.) o que corresponden a
poblaciones extremadamente desiguales, es necesario disponer
de una medida de variabilidad que no dependa de las unidades
o del tamaño de los datos. Este coeficiente únicamente sirve
para comparar las dispersiones de variables correspondientes a
escalas de razón.
Una manera de construir una medida de variabilidad que
cumpla los requisitos anteriores es el llamado coeficiente de
variación
(las barras del denominador representan el valor absoluto, es
decir, indican que debe prescindirse de la unidad de medida de
la media). A menor coeficiente de variación consideraremos
que la distribución de la variable medida es más homogénea.
Ejemplo: Una distribución tiene x = 140 y σ = 28.28 y
otra x = 150 y σ = 25. ¿Cuál de las dos presenta mayor
dispersión?