estadistica 2 - guiasdeapoyo.net

Download Report

Transcript estadistica 2 - guiasdeapoyo.net

Estadística…
¿Para que nos sirve…?
•La
estadística se utiliza como tecnología al servicio de las
ciencias donde la variabilidad y la incertidumbre forman
parte de su naturaleza.
•La
•La
ciencia por lo general se ocupa de fenómenos
observables.
ciencia se desarrolla observando hechos, formulando
leyes que los explican y realizando experimentos para validar
o rechazar dichas leyes.
Definición:
Es la rama de la matemática que comprende métodos
y técnicas que se emplean en la recolección,
ordenamiento, resumen, análisis, interpretación y
comunicación de conjuntos de datos.
Descriptiva: Sistematización, recogida, ordenación
y presentación de los datos referentes a un
fenómeno que presenta variabilidad o incertidumbre
para su estudio metódico.
Probabilidad: con objeto de deducir las leyes que rigen
esos fenómenos.
Inferencia: poder de esa forma hacer previsiones
sobre los mismos, tomar decisiones u obtener
conclusiones.
Pasos de un estudio estadístico
Plantear
hipótesis
Diseñar
experimento
Obtener
conclusiones
Recoger datos
y analizarlos

Plantear hipótesis sobre una población
 Los fumadores tienen “más bajas” laborales que los no fumadores
 ¿En qué sentido? ¿Mayor número? ¿Tiempo medio?

Decidir qué datos recoger (diseño de experimentos)

Qué individuos pertenecerán al estudio (muestras)
 Fumadores y no fumadores en edad laboral.
 Criterios de exclusión ¿Cómo se eligen? ¿Descartamos los que padecen enfermedades
crónicas?

Qué datos recoger de los mismos (variables)
 Número de bajas
 Tiempo de duración de cada baja
 ¿Sexo? ¿Sector laboral? ¿Otros factores?

Recoger los datos (muestreo)

¿Estratificado? ¿Sistemáticamente?

Describir (resumir) los datos obtenidos
 tiempo medio de baja en fumadores y no (estadísticos)
 % de bajas por fumadores y sexo (frecuencias), gráficos,...

Realizar una inferencia sobre la población
 Los fumadores están de baja al menos 10 días/año más de media que los no fumadores.

Cuantificar la confianza en la inferencia

Nivel de confianza del 95%

Significación del contraste: p=2%
Población y Muestra:
• Población: Es un conjunto cuyos
elementos poseen alguna
característica común que se quiere
estudiar, ya sea de individuos, de
animales, de objetos, de medidas, de
producciones, de acontecimientos o de
sucesos. La población puede ser finita
o infinita.
• Muestra: subconjunto de la población
al que tenemos acceso y sobre el que
realmente asemos las observaciones
( mediciones).
Debería ser “representativo”
– Esta formado por miembros
“seleccionados” de la población
(individuos, unidades experimentales).
Muestreo
• En estadística un muestreo es la
técnica para la selección de una
muestra a partir de una población.
• Al elegir una muestra, se espera
que sus propiedades sean
extrapoladles a la población. Este
proceso permite ahorrar recursos,
obteniendo resultados parecidos
que si se realizase un estudio de
toda la población.
Técnicas de muestreo
Muestreo probabilístico: son todos aquellos métodos para los que puede calcularse la
probabilidad de extracción de cualquiera de las muestras posibles.
-Sin reposición de los elementos.
-Con reposición de los elementos.
*Sistemático: Se utiliza cuando el universo es de gran tamaño o ha de extenderse en el
tiempo.
*Estratificado: Consiste en la división previa de la población de estudio en grupos o
clases que se suponen homogéneos respecto a característica a estudiar. A cada uno
de estos estratos se le asignaría una cuota que determinaría el número de miembros
del mismo que compondrán la muestra. (agrupados en estratos)
Muestreo por conglomerados: Cuando la población se encuentra dividida, de manera
natural, en grupos que se suponen que contienen toda la variabilidad de la
población, es decir, la representan fielmente respecto a la característica a elegir,
pueden seleccionarse sólo algunos de estos grupos o conglomerados para la
realización del estudio.
Variables


Una variable es una característica observable que varía
entre los diferentes individuos de una población. La
información que disponemos de cada individuo es resumida
en variables.
En los individuos de la población humana, de uno a otro es
variable:
– El grupo sanguíneo
 {A, B, AB, O}  Var. Cualitativa
– Su nivel de felicidad “declarado”
 {Deprimido, Ni fu ni fa, Muy Feliz}  Var. Ordinal
– El número de hijos
 {0,1,2,3,...}  Var. Numérica discreta
– La altura
 {1’62 ; 1’74; ...}  Var. Numérica continua
Tipos de variables

Cualitativas: son aquellas cuando las observaciones realizadas se
refieren a un atributo (no son numéricas), por ej: sexo,
nacionalidad, profesión. Si sus valores (modalidades) no se
pueden asociar naturalmente a un número (no se pueden hacer
operaciones algebraicas con ellos)
– Nominales: Si sus valores no se pueden ordenar
 Sexo, Grupo Sanguíneo, Religión, Nacionalidad, Fumar
(Sí/No)
– Ordinales: Si sus valores se pueden ordenar
 Mejoría a un tratamiento, Grado de satisfacción, Intensidad
del dolor

Cuantitativas: son aquellas en que cada observación tiene un
valor expresado por un numero real, por ej: peso, temperatura,
salario. (tiene sentido hacer operaciones algebraicas con ellos)
– Discretas: Si toma valores enteros
 Número de hijos, Número de cigarrillos, Num. de
“cumpleaños”.
– Continuas: Si entre dos valores, son posibles infinitos valores
intermedios.
 Altura, Presión intraocular, Dosis de medicamento
administrado, edad, peso, estatura.

Los posibles valores de una variable suelen denominarse
modalidades.

Las modalidades pueden agruparse en clases (intervalos)
– Edades:

Menos de 20 años, de 20 a 50 años, más de 50 años
– Hijos:


Menos de 3 hijos, De 3 a 5, 6 o más hijos
Las modalidades/clases deben forman un sistema exhaustivo y
excluyente
– Exhaustivo: No podemos olvidar ningún posible valor de la
variable
– Mal: ¿Cuál es su color del pelo: (Rubio, Moreno)?
– Bien: ¿Cuál es su grupo sanguíneo?
– Excluyente: Nadie puede presentar dos valores
simultáneos de la variable

Estudio sobre el ocio
– Mal: De los siguientes, qué le gusta: (deporte, cine)
– Bien: Le gusta el deporte: (Sí, No)
– Bien: Le gusta el cine: (Sí, No)
– Mal: Cuántos hijos tiene: (Ninguno, Menos de 5, Más de 2)
Presentación de datos
Género
Hombre
Frec
.
4
7
6
5
4
3
2
1
Mujer
6
0
Hombre
Mujer
Las tablas de frecuencias y las representaciones gráficas son dos maneras
equivalentes de presentar la información. Las dos exponen ordenadamente la
información recogida en una muestra.
Clasificación de las variables (tipos de escala)




Escala nominal: etiquetas simples, solo permite identificar el objeto en
estudio. Ej: código de barras, Rut, patente.
Escala ordinal: mediciones en que que existe un orden implícito, admite
grados de calidad.
Escala intervalar: considera no solo la información, permite el orden,
permite también cuantificar las diferencias entre los individuos que
pertenecen a clases o categorías distintas. (En esta escala no existe el
cero absoluto)
Escala de razón: considera todas las cualidades de la escala anterior,
pero si existe el cero absoluto. Ej : escalas de medición ‘’KM’’
Tabulación de datos






Frecuencia [f]: numero de veces que se repite un dato (también se le
denomina frecuencia absoluta)
Frecuencia acumulada [Fac]: es la que se obtiene sumando ordenadamente
las frecuencias absolutas hasta la que ocupa la ultima posición
Frecuencia relativa [Fr]: es el cuociente entre la frecuencia absoluta de uno
de los valores de la variable y el total de datos, expresado en tanto
porciento
Frecuencia relativa acumulada [Frac] es la que se obtiene sumando
ordenadamente la frecuencia relativa hasta la que ocupa la ultima posición.
Marca de clase: se define como el promedio de lados extremo de un
intervalo.
Datos a Granel: datos dispersos, datos sueltos
Tablas de frecuencia
Sexo del encuestado
Frecuencia
Válidos
Porcentaje
Porcentaje
válido
Hombre
636
41,9
41,9
Mujer
881
58,1
58,1
Total
1517
100,0
100,0
Número de hijos
Frecuencia
Válidos
Nivel de felicidad
Frecuencia
Válidos
Total
Porcentaje
acumulado
Porcentaje
acumulado
0
419
27,6
27,8
27,8
1
255
16,8
16,9
44,7
2
375
24,7
24,9
69,5
3
215
14,2
14,2
83,8
4
127
8,4
8,4
92,2
5
54
3,6
3,6
95,8
6
24
1,6
1,6
97,3
Muy feliz
467
30,8
31,1
31,1
7
23
1,5
1,5
98,9
Bastante feliz
872
57,5
58,0
89,0
Ocho o más
17
1,1
1,1
100,0
No demas iado feliz
165
10,9
11,0
100,0
1509
99,5
100,0
1504
99,1
100,0
13
,9
8
,5
1517
100,0
1517
100,0
Total
Perdidos
Porcentaje
Porcentaje
válido
Porcentaje
Porcentaje
válido
No contesta
Total
Perdidos
Total
No contesta
Medidas de tendencia central

TRES MEDIDAS SE USAN PARA DESCRIBIR EL “CENTRO” O
“LOCALIZACION” DE UN CONJUNTO DE DATOS.

‘’LA MODA’’

‘’LA MEDIANA’’

‘’LA MEDIA’’ (PROMEDIO)
-LA MEDIA GEOMETRICA
-LA MEDIA ARMONICA
La Moda

Interpreta el significado de centro como el valor que ocurre con mayor frecuencia.
(el que mas se repite)
Se define o
calcula:
• La moda puede no ser única
La Mediana

La mediana identifica el valor central de los valores provenientes de una
muestra. La mediana es entonces una medida de centralidad. La mitad de
los valores de la ‘’muestra’’ serán mas grandes que la mediana y la otra
mitad serán mas pequeños.
Se calcula:
-Si ‘’N’’ es
impar:
(Donde ‘’Me’’ sera la mediana)
-Si ‘’N’’ es
par:
La Media

Media aritmética: es el valor obtenido sumando las observaciones
y dividiendo esta suma por el número de observaciones que hay en el
grupo. La media resume en un valor las características de una variable
teniendo en cuenta a todos los casos. Solamente puede utilizarse con
variables cuantitativas
Se calcula:
-Donde ‘’xi’’ es la marca de clase

Media geométrica: La media geométrica de N observaciones es la
raíz de índice N del producto de todas las observaciones. La
representaremos por G.
-Se calcula:
(No interfieren valores o medidas negativas)
•La media geométrica de un conjunto de observaciones es la raíz n ésima de su producto. El cálculo
de la media geométrica exige que todas las observaciones sean positivas.

Media armónica: La media armónica de N observaciones es la inversa
de la media de las inversas de las observaciones y la denotaremos por H.
-Se calcula:
Desviaciones
Desviación media: Si calculamos la suma de los errores absolutos y la
dividimos por el tamaño de la muestra, es decir, calculamos el promedio
de los ‘’errores absolutos’’, obtenemos una medida de dispersión
conocida con el nombre de “DESVIACION MEDIA” (D.M)
 Errores absolutos: ignora el signo
de cada desvío (+/-).
•En general si disponemos del conjunto de valores x1 ,x 2……………….x n , la
desviación
media para estos valores se define por:
Desviación estándar: La desviación estándar resulta ser la
distancia que se obtiene entre un dato observado o medido y la
media de los mismos.
Es decir:
Gráficos estadísticos

Los gráficos son medios
popularizados y a menudo los
más convenientes para
presentar datos, se emplean
para tener una representación
visual de la totalidad de la
información. Los gráficos
estadísticos presentan los
datos en forma de dibujo de tal
modo que se pueda percibir
fácilmente los hechos
esenciales y compararlos con
otros.
Tipos de gráficos estadísticos









Barra
Línea
Circulares
Áreas
Cartogramas
Mixtos
Histogramas
Dispersogramas
Pictogramas
Gráficos de barras verticales

Representan valores usando trazos verticales,
aislados o no unos de otros, según la variable a
graficar sea discreta o continua. Pueden usarse para
representar:
O una serie
O dos o mas
series(también llamado
de barras comparativas)
Gráficos de barras horizontales

Representan valores discretos a base de trazos
horizontales, aislados unos de otros. Se utilizan cuando
los textos correspondientes a cada categoría son muy
extensos.
O para una serie
O para mas o dos
series
Gráficos de barras
proporcionales

Se usan cuando lo que se busca es resaltar la
representación de los porcentajes de los datos que
componen un total.
Las barras pueden ser:
 Verticales
Horizontales
Gráficos de barras comparativas

Se utilizan para comparar dos o más series, para
comparar valores entre categorías.
Las barras pueden ser:
 Verticales
 horizontales
Gráficos de barras apiladas

Se usan para mostrar las relaciones entre dos o mas
series con el total.
Las barras pueden ser:
verticales
horizontales
Gráficos de líneas

En este tipo de gráfico se representan los valores de los
datos en dos ejes cartesianos ortogonales entre sí.
Se pueden usar para representar:
una serie
dos o más series

Estos gráficos se utilizan para representar valores con
grandes incrementos entre sí.
Gráficos circulares

Estos gráficos nos permiten ver la distribución interna de
los datos que representan un hecho, en forma de
porcentajes sobre un total. Se suele separar el sector
correspondiente al mayor o menor valor, según lo que se
desee destacar.
Se pueden ser:
En dos dimensiones
En tres dimensiones
Gráficos de Áreas

En estos tipos de gráficos se busca mostrar la tendencia
de la información generalmente en un período de
tiempo.
Pueden ser:
Para representar una serie
Para representar dos o más series
En dos dimensiones
En tres dimensiones.
Cartogramas

Estos tipos de gráficos se utilizan para mostrar datos
sobre una base geográfica. La densidad de datos se
puede marcar por círculos, sombreado, rayado o color.
Gráficos Mixtos

En estos tipos de gráficos se representan dos o más
series de datos, cada una con un tipo diferente de
gráfico. Son gráficos más vistosos y se usan para
resaltar las diferencias entre las series.
Pueden ser:
en dos dimensiones
en tres dimensiones.
(polígono de frecuencia)
Histogramas

Estos tipos de gráficos se utilizan para representa
distribuciones de frecuencias. Algún software específico
para estadística grafican la curva de gauss superpuesta
con el histograma.
Los dispersogramas

Son gráficos que se construyen sobre dos ejes
ortogonales de coordenadas, llamados cartesianos,
cada punto corresponde a un par de valores de datos x
e y de un mismo elemento suceso.
Pictogramas

Los pictogramas son gráficos similares a los gráficos de barras,
pero empleando un dibujo en una determinada escala para
expresar la unidad de medida de los datos. Generalmente este
dibujo debe cortarse para representar los datos.

Es común ver gráficos de barras donde las barras se reemplazan
por dibujos a diferentes escalas con el único fin de hacer más
vistoso el gráfico, estos tipos de gráficos no constituyen un
pictograma.
Pueden ser:
En dos dimensiones
En tres dimensiones.
Las ojivas en estadística


La ojiva es una gráficas asociada a la distribución de frecuencias, es decir
que en ella se permite ver cuántas observaciones se encuentran por encima
o debajo de ciertos valores, en lugar de solo exhibir los números asignados
a cada intervalo.
La ojiva apropiada para información que presente frecuencias mayores que
el dato que se está comparando tendrá una pendiente negativa (hacia abajo
y a la derecha) y en cambio la que se asigna a valores menores, tendrá una
pendiente positiva.
Diagramas Integrales

Se realizan a partir de las frecuencias acumuladas. Indican, para cada
valor de la variable, la cantidad (frecuencia) de individuos que
poseen un valor inferior o igual al mismo. Se pasan de los
diferenciales a los integrales por integración y a la inversa por
derivación.