CUANTITATIVA_II - Métodos de Investigación Interdisciplinaria

Transcript CUANTITATIVA_II - Métodos de Investigación Interdisciplinaria

SEMINARIO MÉTODOS INTERDISCIPLINARIOS DOCTORADO INTER-INSTITUCIONAL EN CIENCIAS AMBIENTALES Coordinadores: Carlos E. López, UTP Elkin Salcedo, Univalle Silvio Carvajal, Unicauca 2012

MÉTODOS DE INVESTIGACIÓN CUANTITATIVA INTRODUCCIÓN A LA ESTADÍSTICA INFERENCIAL

SILVIO M. CARVAJAL V.

PROFESOR UNIVERSIDAD DEL CAUCA FACULTAD DE CIENCIAS NATURALES EXACTAS Y DE LA EDUCACIÓN GRUPO DE INVESTIGACIÓN EN TOXICOLOGÍA GENÉTICA Y CITOGENÉTICA 2 2012

2. INTRODUCCIÓN A LA ESTADÍSTICA INFERENCIAL 2.1 La Distribución Normal 2.2 Intervalos de Confianza, Niveles de Confianza, el Coeficiente de confianza Z.

2.3 Aplicación del coeficiente Z: El Coeficiente Z como prueba de significancia estadística: Distribución muestral de medias y de proporciones, El Error Estándar, Errores en la prueba de Hipótesis (Tipo I y Tipo II), Nivel de Significancia.

2.4 Pruebas paramétricas y no paramétricas de significancia estadística. 3

2.1 DISTRIBUCIÓN NORMAL .

Si la función de densidad (o Curva de frecuencias) de una variable cuantitativa continua, se adapta a la CURVA NORMAL O CAMPANA DE GAUS.

Johann Carl Friedrich Gauss

astrónomo y físico alemán (Gauß) ▶ ?

/ i ( 30 de abril de 1777 , Brunswick – 23 de febrero de 1855 , Göttingen ), fue un matemático ,

CAMPANA DE GAUS: Forma Simétrica, unimodal y mesocúrtica

Media = Mediana = Moda.

La probabilidad de un intervalo

área

bajo la función de densidad.

coincide con el

Función de densidad (V. Continuas

) Generalización del histograma con frecuencias relativas para variables continuas.

2.2 AREAS BAJO LA CURVA NORMAL

DISTRIBUCIÓN NORMAL DE UNA SERIE REAL DE DATOS ¿La PRESIÓN SANGUINEA (Diastólica) de los varones adultos, se ajusta a la Distribución Normal?.

38 La Curva de frecuencias es unimodal y simétrica.

Media, mediana y moda aproximadamente iguales En el intervalo: Media ± 1 Desv. Típica, hay aproximadamente 38 personas (67,8 % que se aproxima al 68%, propio de la curva mesocúrtica). 6

PRUEBA DE BONDADAD DE AJUSTE A LA DISTRIBUCIÓN NORMAL

Las frecuencias absolutas Observadas (No. de personas) en los diferentes intervalos, se ajustan a la frecuencia absolutas Esperadas en la DN?. PRUEBA DE Chi Cuadrado: = ∑ (O – E) 2 / E

HIPÓTESIS: H 0 : O = E (En la DN) H 1 : O ≠ E (En la DN)

RESULTADOS: Con el programa estadístico SPSS No significativo (p > 0,05). Se acepta la H 0 y se concluye que los datos de la presión sanguínea diastólica se ajustan a la DN.

2.3 APLICACIÓN DELCOEFICIENTE Z (Coeficiente de Confianza): • VALOR TIPIFICADO: ¿A cuantas desviaciones típicas de la Media Aritmética (89,3 mmHg), se halla una persona con presión sanguínea diastólica de 100 mm Hg?.

= 0,97 En algunos análisis multivariados (Ej. Análisis de “Cluster”), es necesario que las variables estén en una misma escala de medida.

Rta. 100 mm Hg se Halla a 0,97 desviaciones típicas.

0,97

es el VALOR TIPIFICADO de 100 mm Hg ¿Cómo unificar variables tan distintas como peso (Kg), estatura (cm), edad (Años), [Colesterol] (mg/ml)…etc.?

VALORES TIPIFICADOS O ESTANDARIZADOS Z = 0 1 10

• PROPORCIÓN DE INDIVIDUOS EN UN DETERMINADO INTERVALO DE LA CURVA NORMAL.

¿En la muestra, qué proporción de varones tienen una presión sanguínea diastólica ≥ 100 mm Hg?

16,6% Z: 0 0,97

Valor tipificado de 100:

= 0,97 A Z = 0.97 le corresponde un área bajo la curva normal de 0,1660. Rta. En la muestra, el 16,6 % de los varones tiene una presión diastólica

mm Hg?

≥ 100

Áreas bajo la CN.

Tabla de una cola (o Unilateral).

A Z = 0.97 le corresponde un área bajo la curva normal de 0,1660. Rta. El 16,6 % de los varones tiene una presión diastólica

≥ 100 mm Hg?

Para Z positivo.

Para Z negativo

Z COMO PRUEBA DE SIGNIFICANCIA ESTADÍSTICA

¿Cuántas muestras de tamaño

, se pueden obtener de una población de tamaño

, si el muestreo es sin remplazo (No repetir) y no importa el orden?

EJEMPLO: Población: N = 100 Muestra: n = 10 13

Tanto la distribución muetral de medias como la de proporciones, se ajustan a la CN (Teorema del Límite Central).

Las Medias (Var, Cuantitativa) y las Proporciones (Var. Cualitativa), aunque salgan de muestras provenientes de la misma Población,

NO SERÁN IGUALES

. Muestran variación.

¿Cómo cuantificar la VARIABLIDAD de una Distribución de Medias y de una Distribución de Proporciones?.

ERROR TÍPICO : Es la Variabilidad promedio de medias y proporciones muestrales, respecto de la media y de la Proporción poblacional.

σ x

= Desviación promedio de MEDIAS Aritmétcas MUESTRALES respecto de la MEDIA POBLACIONAL

σ p

= Desviación promedio de PROPORCIONES MUESTRALES respecto de la PROPORCIÓN POBLACIONAL 15

Relación entre ET y tamaño de la muestra (n).

Entre más pequeño sea el tamaño de las muestra (n), un mayor número de muestras de podrán obtener de una población y, en consecuencia, mayor será su variabilidad promedio respecto de la media poblacional. A mayor tamaño de la muestra, menor error típico .

En una muestra de tamaño tan grande como la población (censo), ¿Cuál es el erro típico? 16

ERROR TÍPICO Y LA CURVA NORMAL

Como la Distribución de Medias y proporciones Muestrales se ajustan a la DN, entonces se cumple: En consecuencia, tano la media como la proporción muestral, se pueden tipificar 17

TIPIFICACIÓN DE UNA MEDIA MUESTRAL En una población de presión sanguínea normal, el promedio (µ) de la presión diastólica es 80 mm Hg. De una población de pintores de carros se tomó una muestra aleatoria de n=100 trabajadores, se les registró la presión con los siguientes resultados: Media aritmética: 90 mm Hg Desviación típica: 10 mm Hg Error típico: = 1 mm Hg ¿A cuantos errores típicos se halla la media de los pintores (90 mmHg), respecto de la media de la población con presión sanguínea normal (80 mmHg?.

Z = (90 – 80) / 1 = 10

¡Se hallan a 10 errores típicos!

NIVEL DE SIGNIFICANCIA EN PROBLEMAS BILATERALES: α (Hipotesis:

H 0 : µ A = µ. H 1 : µ A ≠ µ)

Las Medias y Proporciones Muestrales que se hallen dentro del Intervalo de Confianza del 95% (Es decir Z < 1,96 o Z > -1,96), pertenecen a Muestras representativas o típicas de la Población (Esto para muestras grandes: n >30) En ese caso, las diferencias observadas son NO significativas.

Las Medias y Proporciones Muestrales que se hallen por fuera de tal intervalo, se asume que pertenecen a muestras atipicas la población.

En ese caso, la DIFERENCIA de OBSERVADA SE CONSIDERA SIGNIFICATIVA ESTADISTICAMENTE

Cuando el

de una media o proporción muestral, se halla en el AREA DE SIGNIFICANCIA, se concluye que la muestra NO PERTENECE a la población objeto de estudio.

NO OBSTANTE, AUN EXISTE UNA PEQUENA PROBABILIDAD (≤ 0,05 o 5%) DE QUE DICHA MUESTRA SI PERTENEZCA A TAL POBLACION.

!ES DECIR QUE LA CONCLUSION INICIAL PUEDE ESTAR ERRADA!.

A ESTA PROBABILIDAD DE ERROR (p ≤ 0,05), SE LE LLAMA NIVEL DE

SIGNIFICANCIA. OjO: Es probable cometer este error cuando

se rechaza la H 0 (Se niega Igualdad y se declara diferencia significativa)

. La MAXIMA probabilidad de error aceptada para

rechazar a la H 0 , es del 5% (o 0,05).

NIVEL DE SIGNIFICANCIA EN PROBLEMAS UNILATERALES: α (Hipotesis:

H 0 : µ A = µ. H 1 : µ A > µ o H 1 : µ A < µ)

NIVEL DE SIGNIFICANCIA ( α) y SIGNIFICANCIA ESTADÍSTICA (p):

DOS COLAS O BILATERAL: (Hipotesis:

H 0 : µ A = µ. H 1 : µ A ≠ µ)

NIVEL DE SIGNIFICANCIA ( α) y SIGNIFICANCIA ESTADÍSTICA (p): UNA COLA O UNILATERAL:

(Hipotesis:

H 0 H 1 : µ A < µ) : µ A = µ. H 1 : µ A > µ o

α 23

PRUEBA DE SIGNIFICANCIA: t de “Student”.

químico inglés William Sealey Gosset. 1876-1937), (Desarrollada en 1899 por el

En muestras pequeñas (< 30), la variabilidad de los datos respecto de su media, es mayor que el esperado en la CN ideal. En consecuencia, la distribución t es más ancha y más plana en el centro (PLATOCURTICA), que la distribución normal.

Curva Normal En consecuencia, para cubrir los mismos intervalos de la CN, es necesrio incrementar el numero de errores que se suman y se restan. Es decir, incrementar el valor tipificado (Z) n -1= 15 Este nuevo valor tipificado (

t) se llama

t de “Student” y su magnitud depende del tamaño de la muestra. A menor tamaño

mayor magnitud

PROBLEMA UNILATERAL

La concentración máxima permitida de una sustancia tóxica en el agua potable, es de µ = 1,5 ppm . Al analizar el agua de un acueducto ( n = 100 repeticiones ) se obtuvieron los siguientes resultados: con una s = 1,8 ppm.

Media = 1,6 ppm ¿La concentración del tóxico es mayor a la máxima permitida?.

Hipótesis: H 0 : µ = 1,5 ppm H 1 : µ > 1,5 ppm

Z = (1,6 – 1,5) / (1,8 / √100) = 0,55

Diferencia NO SIGNIFICATIVA (P>0.05)

. Se acepta la H 0 y se concluye que la concentración del agua del acueducto, no supera la concentración máxima permitida.

TIPOS DE ERROR AL SOMETER A PRUEBA LA H 0

La hipótesis que se somete a prueba es la Hipótesis Nula (H 0 ).

Si la Hipótesis Nula (H 0 ), se RECHAZA (la prueba la declara falsa), es posible cometer error tipo I (Falsear la verdad). La probabilidad de cometer error tipo I es el nivel de significancia.

Si la Hipótesis Nula (H 0 ), se ACEPTA (la prueba la declara verdadera), es posible cometer error tipo II (Pasar por verdad algo falso). 27

ERROR TIPO I

Hipótesis: H 0 : X = µ A H 1 : X ≠ µ A Zx X

La media muestral TIPIFICADA (z) se halla en el área de significancia, por lo tanto se RECHAZA la H0 y se concluye que tal muestra debe provenir o representar a una población con un PROMEDIO MAYOR (Población B).

No obstante, la conclusión anterior puede estar ERRADA, ya que tal media muestral tipificada aún se halla cobijada por la curva de la población A, y PUEDE PERTENECER A ESTA.

ERROR TIPO II

Hipótesis: H 0 : X = µ A H 1 : X ≠ µ A

Zx La media muestral TIPIFICADA (Z) se halla en el área de

NO significancia

, por lo tanto se ACEPTA la H 0 y se concluye que tal muestra proviene o representar a la población A. (No difiere significativamente de A).

No obstante, la conclusión anterior puede estar ERRADA, ya que tal media muestral tipificada, aún se halla cobijada por la curva de la POBLACIÓN B, y PUEDE PERTENECER A ESTA. 29

POTENCIA DE LA PRUEBA.-

Poder que tiene la prueba estadística, para declarar como significativa una determinada diferencia.

¿Cómo incrementar el poder de una prueba de significancia estadística?.

En el problema anterior, para que la diferencia observada (0,1 ppm) sea significativa (p ≤ 0,05). ¿Qué tamaño de muestra debería emplearse?. 0,1 (1,8) 2

A MAYOR TAMAÑO DE LA MUESTRA, MAYOR PODER O POTENCIA DE LA PRUEBA DE SIGNIFICANCIA ESTADÍSTICA

TAMAÑOS DE MUESTRA (Ver documento sobre tamaño de muestra): UNA MUESTRA: Media aritmética Proporción DOS MUESTRAS: 31

2.4 PRUEBAS DE SIGNIFICANCIA ESTADISTICA

PARAMÉTRICAS: se basan en los parámetros de la curva normal (µ, σ ), y para su aplicación exigen que los datos cumplan con ciertos requisitos, así: • Distribución normal. (SPSS: Pruebas de Kolmogorov-Smirnov y Shapiro-Wilk) • Homogeneidad de varianzas (SPSS: Prueba de Levene). • Independencia de datos. (SPSS: Prueba de rachas).

Entre las pruebas paramétricas están: Pruebas Z, t, ANOVA, Correlación de Pearson, Regresión.

PRUEBAS NO PARAMÉTRICAS.- Pruebas de distribución libre.

Wilcoxon, U de Mann Whitney, H de Kruskal – Wallis, Friedman, McNemar, Signos, Q de Cochran , Chi cuadrado, Correlación de Spearman, etc.