Transcript Slide 1

Unidad V. Estadística Parte III Estadísitica inferencial; testeo de hipótesis Introducción a la Estadística Dr. Felipe Orihuela-Espina

25/04/2020 INAOE 1

Estadística inferencial  “

If your experiment needs statistics, you ought to have done a better experiment.

” Lord Sir Ernest Rutherford of Nelson Neo Zelandés / Británico, 1871-1937 Padre de la física nuclear Descubridor del protón Nobel de Química 1908 25/04/2020 INAOE 2

Contenidos 1.

Contraste o Testeo de Hipótesis

2.

Errores de tipo I y tipo II.

3.

1.

2.

p-valor Especificidad, sensitividad, ROC

Tests estadísticos básicos

4.

Intervalos de confianza

5.

Un anotador vs multiples anotadores

1.

Intra-rater and inter-rater score 25/04/2020 INAOE 3

Lecturas recomendadas  Dean, A and Voss, D. Design and Analysis of Experiments. Springer (1999)  DeGroot, M- H. y Schervish, M.-J. Probability and Statistics. 4a Ed. 2012 Cap 9  Martin Bland “An introduction to Medical Statistics” Oxford Medical Publications, 3rd Edition (2000) 405pgs  Prueba de hipótesis  Wayne, WD (2008) Bioestadística para el análisis de las ciencias de la salud. Wiley , 4ª Edición (en español). Cap 7 25/04/2020 INAOE 4

Lecturas recomendadas  Intervalos de confianza:  Altman et al Eds. (2000) “Statistics with Confidence: Confidence intervals and statistical guidelines”, 2nd Edition, Wiley  Efectivamente, un libro completo sólo sobre intervalos de confianza  Desafortunadamente no tengo acceso al libro   http://www.wiley.com/WileyCDA/WileyTitle/productCd-0727913751,descCd tableOfContents.html

 Gardner MJ y Altman DG (1986) “Confidence intervals rather than P values: estimation rather than hypothesis testing ” BMJ 292:746-750   >1200 citas (Google scholar) No tiene desperdicio…  duPrel , JB et al (2009) “Confidence Interval or P-Value?” Deutsches Ärzteblatt International; 106(19): 335–9  Loftus GR y Masson ME (1994) “Using confidence intervals in within subjects designs“ Psychonomic Bulletin &Review 1(4):476-490 25/04/2020 INAOE 5

Lecturas recomendadas 

Anotadores:

 Gwet , KL (2008) “Computing inter-rater reliability and its variance in the presence of high agreement” British Journal of Mathematical and Statistical Psychology 61:29-48  Bland JM y Altman DG (1986) “Statistical methods for assessing agreement between two methods of clinical measurement ” Lancet 327(8476):307-310  Banerjee M (1999) “Beyond Kappa: A review of interrater agreement measures ” The Canadian Journal of Statistics 27(1):3-23 25/04/2020 INAOE 6

Lecturas recomendadas 

Otros recursos:

 http://www.mathtrench.com/contents/Statistics  +1000 problemas resueltos incluyendo:  Estadística descriptiva  Distribuciones de probabilidad  Estadística no paramétrica  Estadística inferencial    Correlaciones y regresiones Prueba de hipótesis Intervalos de confianza  Requiere registrarse pero es gratuito 25/04/2020 INAOE 7

CONTRASTE O TESTEO DE HIPÓTESIS

Citas sobre la significancia estadística  [BlandM1996] “

Acceptance of statistics, though gratifying to the medical statistician, may even have gone too far. More than once I have told a colleague that he did not need me to prove that his difference existed, as anyone could see it, only to be told in turn that without the magic p-value he could not have his paper published.

”  [Nicholls in KatzR2001] “

In general, however, null hypothesis significance testing tells us little of what we need to know and is inherently misleading. We should be less enthusiastic about insisting on its use.”

Citas sobre la significancia estadística  [Falk in KatzR2001] “

information that scientists need, neither do they solve the crucial questions that they are characteristically believed to answer. The one answer that they do give is not a question that we have asked.

Significance tests do not provide the

 [DuPrelJB2009] “Unfortunately, statistical significance is often thought to be equivalent to clinical relevance. Many research workers, readers, and journals ignore findings which are potentially clinically useful only because they are not statistically significant. At this point, we can criticize the practice of some scientific journals of preferably publishing significant results [...] ("publication bias").

” 25/04/2020 INAOE 10

Citas sobre la significancia estadística  [GardnerMJ1986, co authored by Altman] “...the use of statistics in medical journals has increased tremendously. One unfortunate consequence has been a shift in emphasis away from the basic results towards an undue concentration on hypothesis testing. In this approach data are examined in relation to a statistical "null" hypothesis, and the practice has led to the mistaken belief that studies should aim at obtaining "statistical significance”. [...] The excessive use of hypothesis testing at the expense of other ways of assessing results has reached such a degree that levels of significance are often quoted alone in the main text and abstracts of papers, with no mention of actual concentrations, proportions, etc, or their differences. The implication of hypothesis testing- that there can always be a simple "yes" or "no" answer as the fundamental result from a medical study-is clearly false and used in this way hypothesis testing is of limited value.” 25/04/2020 INAOE 11

Prueba de hipótesis 25/04/2020 INAOE 12

Prueba de hipótesis  Considerado el padre de la estadística inferencial  Creador de ANOVA entre otros  Trabajo principalmente en Cambridge y UCL, fue miembro de la Royal Society  Reemplazó a Pearson en su cátedra en UCL  Cómo buen genio trabajo en otros campos: matemáticas, biología evolutiva, genética, etc  De hecho, también es el padre de la genética poblacional , que describe los fenómenos evolutivos en función de la variación y distribución de la frecuencia alélica  También descubrió la utilidad del uso de los cuadrados latinos para mejorar significativamente los métodos agrícolas Sir Ronald Aylmer Fisher (1890-1962) Británico Una biografía y algunos enlaces: http://www-history.mcs.st-andrews.ac.uk/Biographies/Fisher.html

25/04/2020 INAOE 13

Prueba de hipótesis 

El

método científico

1.

2.

3.

4.

en breve

Observación de un fenómeno físico Emisión o postulación de una explicación plausible del fenómeno que pueda explicar las observaciones hipótesis o Experimentción alterando las condiciones y midiendo/observando el fenómeno en condiciones cambiantes Confirmación o refutación la hipótesis en la evidencia (observaciones) recogida en el experimento basada 1.

Si se confirma se obtiene una tesis o teoría científica.

25/04/2020 INAOE 14

Prueba de hipótesis 

Fenómeno

 En la filosofía de Immanuel Kant , lo que es objeto de la experiencia sensible .

 [ Real Academia Española de la Lengua]  “In philosophy, any object, fact, or occurrence perceived or observed . In general, phenomena are the objects of the senses ( sounds) as contrasted with what is apprehended by the intellect.”  [Enciclopedia británica]

e.g.,

sights and  Un evento observable  [American Heritage Dictionary of the English Language]  Un fenómeno es cualquier ocurrencia o evento observable    … directamente o mediante instrumentación.

O incluso ¡ indirectamente ! mediante la observación de sus consecuencias https://en.wikipedia.org/wiki/Phenomenon 25/04/2020 INAOE 15

Prueba de hipótesis 

Hipótesis

(o

conjetura

)  Una hipótesis es una explicación propuesta para un fenómeno  [https://en.wikipedia.org/wiki/Hypothesis]  Una hipótesis es una suposición de algo posible o imposible que se establece provisionalmente como báse de una investigación que puede confirmar o negar la validez de aquella.

 [Real Academia Española de la Lengua]  Una hipótesis es una proposición consistente con las observaciones, pero que no ha sido verificada ni refutada.

 [http://mathworld.wolfram.com/Hypothesis.html] 25/04/2020 INAOE 16

Prueba de hipótesis 

Hipótesis

 Existen 2 tipos de hipótesis:  De investigación o científica  Estadística  Ambos tipos de hipótesis están relacionadas.

25/04/2020 INAOE 17

Prueba de hipótesis 

Hipótesis de investigación

o

científica

La hipótesis de investigación es una afirmación sobre la asociación o relación esperada  entre variables.

…por ende, una hipótesis bien definida indica al menos, implícita o explícitamente, las variables independientes y las dependientes, y preferiblemente también las controladas.

 Es la conjetura que motiva la investigación [WayneWD2008] 25/04/2020 INAOE 18

Prueba de hipótesis 

Hipótesis de investigación

 o

científica

La hipótesis científica debe ser falseable o refutable  …esto implica que se pueden diseñar experimentos que en el caso arrojar resultados distintos a los predichos, negarían la hipótesis puesta a prueba  Puede ser refutable de forma directa o indirecta.

 Falsabilidad (refutabilidad ) es la propiedad que tendrá una proposición universal si existe al menos un enunciado lógicamente posible que se deduzca de ella  que pueda demostrarse falso mediante observación empírica . Si ni siquiera es posible imaginar un enunciado empíricamente comprobable que contradiga la proposición original, entonces tal proposición no será falsable.

La falsabilidad es un pilar del método científico 25/04/2020 INAOE 19

Prueba de hipótesis 

Hipótesis de investigación

o

científica

La hipótesis científica debe ser operacional  …esto implica que este formulada claramente, sin ambigüedades , de modo que a partir de ella se pueda efectuar la deducción, estableciendo claramente (i) la relación de las variables, (ii) las implicaciones de las relaciones establecidas y (iii) la descripción clara de los índices que han de utilizarse.

25/04/2020 INAOE 20

Prueba de hipótesis 

Hipótesis de investigación

o

científica

A menudo se expresan en forma de afirmaciones de tipo

Si-entonces

.

 Ejemplos:  Si se ingiere una aspirina, entonces  el dolor disminuye Si fumar causa cáncer de pulmón, de desarrollo de la enfermedad.

entonces aquellos individuos que fuman deben tener una frecuencia más alta  Lectura recomendada:  http://www.eumed.net/rev/cccss/04/rcb2.htm

 MUY recomendada y está en español  http://www.sciencebuddies.org/blog/2010/02/a-strong hypothesis.php

 Algunos consejos sobre como formular una hipótesis 25/04/2020 INAOE 21

Prueba de hipótesis 

Ejercicio

 : Un trabajador de una piscifactoría observa el siguiente fenómeno: Las truchas arcoíris tienen más liendres en verano cuando el nivel del agua baja. ¿Cuál de estas dos hipótesis está mejor formulada?

a) “El nivel o altura del agua afecta a la cantidad de liendres padecidas por la trucha arcoíris”  b) “La trucha arcoíris padece más liendres en condiciones de niveles de agua baja por que el agua contiene menos oxígeno” Solución: La segunda es la correcta; establece los participantes (las truchas), las variables independientes (oxígeno en el agua) y dependientes (número de liendres) e indica el efecto predicho (aumento del número de liendres como consecuencia de una disminución del oxígeno).

La primera no es falseable; no se puede diseñar un experimento que la confirme ya que no explica el porqué ocurre el fenómeno observado y carece de variables establecidas y controladas. Observa que el nivel o altura del agua, no es una variable, sino parte del fenómeno observado.

Ejemplo modificado de: [http://explorable.com/how-to-write-a-hypothesis INAOE 22

Prueba de hipótesis 

Ejercicio

: Indica si las siguientes hipótesis están bien o mal formuladas y por qué:

 a) “Nuestro universo está rodeado por otro universo mayor, con el que no tenemos contacto”  b) “Las plantas infectadas de insectos áfidos expuestas a catarinas/mariquitas presentarán menos insectos áfidos tras una semana en comparación con plantas infectadas que no sean expuestas a catarinas/mariquitas”  c) “Las catarinas/mariquitas son un buen pesticida natural para tratar plantas afectadas por insectos áfidos” Ejemplo de: [http://www.sciencebuddies.org/blog/2010/02/a-strong-hypothesis.php] 25/04/2020 INAOE 23

Prueba de hipótesis  Solución:  a)

Mal formulada

. Independientemente o no de si es cierta, la hipótesis es inherentemente no falseable; no hay ninguna medición/observación con la que podamos demostrar o refutarla. Esto es una especulación, no una hipótesis.

 b)

Bien formulada

insectos . Indica la variable independiente (exposición a catarinas/mariquitas), la variable dependiente (número de áfidos), y predice el efecto (la exposición reduce el número de áfidos). Es más incluso da una dirección para el experimento (la capacidad de la catarina/mariquita de atacar la infección en una semana)  c)

Mal formulada

. Contiene ambigüedades; “son un buen pesticida natural” demasiado vago. Además carece de una indicación clara de cómo se va a medir el efecto.

Ejemplo de: [http://www.sciencebuddies.org/blog/2010/02/a-strong-hypothesis.php] 25/04/2020 INAOE 24

Prueba de hipótesis 

Hipótesis estadística

 Una hipótesis estadística es una proposición o supuesto acerca de una o más poblaciones [WayneWD2008]  La hipótesis estadística se formula como parte de una prueba de hipótesis estadístico .

o test 25/04/2020 INAOE 25

Prueba de hipótesis 

Hipótesis estadística

 Un hipótesis estadística es

simple

si su formulación sólo requiere de igualdades .

 Ejemplos: a=0, a=b=c, a+b=c  Un hipótesis estadística es

compuesta

formulación requiere de desigualdades si su (distinto de, mayor que, menor que, etc)  Ejemplos: a ≠ 0, a>0, a

de un lado dos lados

(distinto de) (mayor/menor) o

de

25/04/2020 INAOE 26

Prueba de hipótesis 

¿Qué es un test estadístico o prueba de hipótesis?

 Es un mecanismo para determinar si hay suficiente evidencia para rechazar o aceptar una conjetura .

 El test estadístico se utiliza para aceptar o rechazar hipótesis estadísticas  La

prueba de hipótesis

es el uso de la estadística para determinar la probabilidad que una determinada hipótesis es cierta. [http://mathworld.wolfram.com/HypothesisTesting.

html] 25/04/2020 INAOE 27

Prueba de hipótesis 

Prueba de hipótesis:

 El propósito de la prueba de hipótesis es:  …ayudar al investigador a [WayneWD2008] tomar una decisión acerca de la población mediante el examen de una muestra.  … decidir si un parámetro cualquiera yace en un subconjunto del espacio de parámetros, o en su complemento [DeGroot MH 2012, Cap 9]  ...

tomar una decisión con base en las muestras sobre si rechazar ciertas restricciones se cumplen en el modelo asumido. [UrielE2012]  La prueba de hipótesis siempre es sobre parámetros de población [UrielE2012] 25/04/2020 INAOE 28

Prueba de hipótesis 

Prueba de hipótesis:

 Un test estadístico es una función definida sobre una muestra aleatoria, y por ende es una variable aleatoria 25/04/2020 INAOE 29

Prueba de hipótesis 

El test estadístico se utiliza para aceptar o rechazar hipótesis estadísticas.

Siempre

consta de 2 hipótesis:

Hipótesis nula

relación entre las variables; las diferencias son debidas al azar  Ejemplo: H 0 : μ 1 = (H μ 2 0 ): No hay diferencias o 

Hipótesis alternativa

 Ejemplo: H a : μ 1  μ 2 (H a o H 1 ): Existe una diferencia o relación genuina entre las variables

Prueba de hipótesis 

Hipótesis nula y alternativa

:

 Ejemplo:  Pregunta de investigación: ¿Son los hombres más altos que las mujeres?

 Hipótesis nula : No hay diferencia en la altura entre géneros  Hipótesis alternativa : Hay una diferencia en la altura debida al género 25/04/2020 Figure de: [genderedinnovations.stanford.edu] INAOE 31

Prueba de hipótesis 

Hipótesis nula y alternativa

:

 En principio; tanto la hipótesis nula como la alternativa pueden ser simples o compuestas  …pero es más común:  Hipótesis nula → simple  Hipótesis alternativa → compuesta 25/04/2020 INAOE 32

Prueba de hipótesis 

Proceso de prueba de hipótesis

(informal)

1.

Definir las hipótesis nula y alternativa 2.

3.

4.

5.

Tomar datos Elegir la prueba estadística apropiada Calcular el valor del test (score -t,F, χ 2 ) Decidir si rechazar o no la hipótesis nula basándose alguna regla de decisión * Salvo el paso 2 que corresponde a la siguente unidad

Prueba de hipótesis 

Proceso de prueba de hipótesis

(informal)

1.

Definir las hipótesis nula y alternativa 2.

3.

4.

5.

Tomar datos Elegir la prueba estadística apropiada Calcular el valor del test (score -t,F, χ 2 ) Decidir si rechazar o no la hipótesis nula basándose alguna regla de decisión

Prueba de hipótesis 

De la hipótesis de investigación a la hipótesis estadística.

 Intuitivo:

Ciencia Estadística Azar Hipótesis nula Hipótesis científica Hipótesis alternativa

25/04/2020 INAOE 35

Prueba de hipótesis 

De la hipótesis de investigación a la hipótesis estadística.

  Ejemplo: Supongamos un experimento para determinar el efecto de 2 metodologías de enseñanza.

 El primer método implica clases con un profesor y seminarios, el segundo involucra únicamente las clases con el profesor.

 Hipótesis de investigación : “Si los estudiantes asisten a seminarios, además de tomar las clases con un profesor, su rendimiento mejora” Fuente: [https://statistics.laerd.com/statistical-guides/hypothesis-testing.php] 25/04/2020 INAOE 36

Prueba de hipótesis 

De la hipótesis de investigación a la hipótesis estadística.

  Ejemplo (continuación): Definimos las distribuciones que se van a comparar:  Distribución 1 (sin seminarios) : Grupo de n alumnos que asisten a clases con un profesor pero no toman seminarios  Distribución 2 (con seminarios) además toman seminarios : Grupo de n alumnos que asisten a clases con un profesor y 25/04/2020 INAOE 37

Prueba de hipótesis 

De la hipótesis de investigación a la hipótesis estadística.

  Ejemplo (continuación): Finalmente, re estadísticas: expresamos la hipótesis de investigación en términos de las hipótesis  Hipótesis nula : Tomar seminarios no mejora el rendimiento de los estudiantes  Hipótesis alternativa : Tomar seminarios tiene un efecto positivo en el rendimiento de los estudiantes.

25/04/2020 INAOE 38

Prueba de hipótesis 

¡Cuidado!

 Imprecisión común : A la hipótesis estadística alternativa , muy a menudo se refieren a ella como hipótesis de investigación  Rechazar la respalda la hipótesis nula y aceptar la hipótesis alternativa no necesariamente hipótesis de investigación .

 Incluso cuando una investigación/es hipótesis se acepta cómo válida bajo una investigación, puede llegar a ser refutada por otra/s  Lectura recomendada:  http://statisticalsage.wordpress.com/2011/0 9/21/difficult-concepts-research hypotheses-vs-statistical-hypotheses/ 25/04/2020 INAOE 39

Prueba de hipótesis 

Del análisis de regresión a la prueba estadística.

 Un modelo de regresión expresa una asociación entre variables  La prueba estadística nos indica si la asociación entre variables es genuina o debida al azar 25/04/2020 INAOE 40

Prueba de hipótesis 

Del análisis de regresión a la prueba estadística.

 Ya sabemos:  El GLM se puede escribir como:  …y en particular, un modelo lineal aditivo simple 25/04/2020 INAOE 41

Prueba de hipótesis 

Del análisis de regresión a la prueba estadística.

 En el modelo regresivo el grado y dirección de la asociación viene dada por los coeficientes de regresión β i .

 Si β i =0 entonces no hay una relación entre la variable independiente Xi y la independiete Y.

 … en caso contrario, hay una relación (más fuerte o más débil es otra cuestión) 25/04/2020 INAOE 42

Del análisis de regresión a la prueba estadística.

 Queremos saber si la asociación expresada por el modelo regresivo es genuina  …en otras palabras, si para la población representada por la muestra, ocurre que el β i ≠0  Por tanto:  Hipótesis nula: H 0 : β i =0  Hipótesis alternativa: H a : β i ≠0 (no hay relación) (existe una relación genuina)  El coeficiente de intersección β 0 no importa… 25/04/2020 INAOE 43

Prueba de hipótesis 

Del análisis de regresión a la prueba estadística.

 En el contexto de un modelo de regresión, la hipótesis nula siempre es simple (sólo usa el operador igualdad). [UrielE2012]  Ejemplos:     H 0 : β 1 =0 H 0 : β 1 + β 2 =0 H 0 : β 1 = β 2 =0 H 0 : β 2 + β 3 =1 25/04/2020 INAOE 44

Prueba de hipótesis 

Del análisis de regresión a la prueba estadística.

 En el contexto de un modelo de regresión, la hipótesis alternativa siempre es compuesta. [UrielE2012]  Ejemplos:    H 0 : β 1 ≠ 0 H 0 : β 1 < 0 H 0 : β 1 > 0 (de dos lados) (de un lado) (de un lado) 25/04/2020 INAOE 45

Prueba de hipótesis Hypothesis Test for the Slope of a Regression Line (Ejemplo con una prueba t) Este video utiliza algunos conceptos que aún no hemos visto pero que veremos en breve.

Video: 10:46 mins Largo pero merece la pena.

http://www.youtube.com/watch?v=q_ma0FtFp04 25/04/2020 INAOE 46

Prueba de hipótesis 

Del análisis de regresión a la prueba estadística.

 Observaciones finales:  Cada vez que aplicamos una prueba estadística, de forma implícita estamos asumiendo un modelo  …aunque a menudo esto es transparente  El modelo general lineal puede ser utilizado para implementar un amplio rango de test estadísticos [Friston KJ et al 1995, HBM, 2:189:210] 25/04/2020 INAOE 47

ERRORES DE TIPO I Y TIPO II

25/04/2020 INAOE 48

Nivel de significancia ( α) y poder estadístico (1-β)  

Recuerda:

1.

2.

3.

4.

5.

Proceso de prueba de hipótesis

(informal)

Definir las hipótesis nula y alternativa Tomar datos Elegir la prueba estadística apropiada Calcular el valor del test (score -t,F, χ 2 ) Decidir si rechazar o no la hipótesis nula basándose alguna

regla de decisión

Nivel de significancia ( α) y poder estadístico (1-β) 

En prueba de hipótesis podemos cometer 2 tipos de errores:

Errores de Tipo I

o de

Tipo

α : Rechazar la hipótesis nula cuando esta es cierta. Falso positivo .

Errores de Tipo II

o de

Tipo

β : No rechazar la hipótesis nula cuando esta es falsa. Falso negativo .

¡No confundir esta β con los coeficientes de la INAOE 50

Nivel de significancia ( α) y poder estadístico (1-β) 25/04/2020 [Figuras de: joanakompa.com] INAOE 51

Nivel de significancia ( α) y poder estadístico (1-β) 

Implementación de la regla de decisión

:

 Es difícil minimizar ambos errores a la vez.

 A menudo (prueba de hipótesis clásica) se elige un

nivel de significancia

determinado ( elección de α ) que indica la tolerancia aceptada a los errores de Tipo I .

 Ejemplo: α=5% significa que el investigador está dispuesto a rechazar la hipótesis nula H 0 cuando esta es cierta el 5% de las veces.

25/04/2020 INAOE 52

Nivel de significancia ( α) y poder estadístico (1-β) 

Implementación de la regla de decisión

:

 Una vez elegido el nivel de significancia ( α ) este se traduce al llamado valor crítico

c

.

 Puede haber más de un valor crítico si la hipótesis es compuesta de dos lados.

 El valor crítico c en una muestra es el umbral contra el que se compara el resultado del test estadístico para determinar si se rechaza o acepta la hipótesis nula .

 Cada prueba estadística produce un tipo de score o valor que se compara contra el valor crítico.

25/04/2020 INAOE 53

Nivel de significancia ( α) y poder estadístico (1-β) 

Implementación de la regla de decisión

:

 La regla de decisión consiste simplemente en la comparación del resultado de la prueba estadística contra el valor crítico

c

:   Si s≥c ⇒ rechazar H 0 sino (s

Nivel de significancia ( α) y poder estadístico (1-β) 25/04/2020 [Figuras de: www.statstodo.com] INAOE 55

Implementación de la regla de decisión

:

 ¿Por qué decimos “ en lugar de “

aceptar no rechazar

la hipótesis nula” la hipótesis nula”?

   Si la hipótesis nula es rechazada con la evidencia de la muestra, esta es una conclusión robusta. Recuerda que hemos fijado un nivel de significancia ( α ).

Sin embargo, aceptar la hipótesis nula es una conclusión débil ya que no conocemos la probabilidad de no rechazar la hipótesis nula; en otras palabras, no conocemos, o no hemos fijado, la probabilidad de cometer errores de Tipo II ( β ).

Por tanto, no es que aceptemos la hipótesis nula, sino que no tenemos evidencia suficiente como para rechazarla.

25/04/2020 INAOE 56

Nivel de significancia ( α) y poder estadístico (1-β)

Decisión \ Realidad

Aceptar H 0 ; Rechazar H a

H 0 verdadera / H a falsa

Correcto ( p=1-α ) Rechazar H 0 ; Aceptar H a Error de Tipo I (p=α)

H 0 falsa / H a verdadera

Error de Tipo II (β) Correcto (1-β)  En el proceso de prueba de hipótesis la parte más subjetiva es la determinación a priori de nivel de significancia ( α )  La probabilidad de cometer errores de tipo I se puede decrementar alterando el nivel de significancia  ( α) Desafortunadamente, esto conlleva el incremento del riesgo de cometer errores de tipo II, y viceversa

Nivel de significancia ( α) y poder estadístico (1-β)  La decisión sobre el nivel de significancia estadístico no debe ser arbitraria sino basada en el tipo de error que queramos reducir.

 Los valores del nivel de significancia más comunes son 5%, 1% y 0.1%  A veces, la prueba estadística se expresa de forma condicional a varios niveles de significancia.

25/04/2020 INAOE Figura de: [http://www.psycho.uni-duesseldorf.de/aap/projects/gpower/reference/reference_manual_02.html] 58

Significancia estadística 

“La

significancia estadística

de un resultado es la probabilidad de que la relación observada , por ejemplo entre variables, o que una diferencia por ejemplo entre medias entre dos muestras ocurrió por azar , y que en la población de donde se obtuvieron las muestras tal relación o diferencia es inexistente” [http://www.statsoft.com/textbook/element ary-statistics-concepts/]

Significancia estadística 

p-valor

 El p-valor es el resultado cuantitativo de una prueba hipótesis  La prueba de hipótesis da como resultado un valor o score que se “traduce” a una probabilidad, el p valor  Intuitivo:  El valor p, o p-valor (o si se me permite el anglicismo, p-value) representa la probabilidad de error que conlleva aceptar nuestros resultados como válidos.

25/04/2020 INAOE 60

Significancia estadística 

p-valor

 Formal  El p-valor es la probabilidad de que una variable X normalizda (Z) adquiera un valor mayor o igual al valor observado normalizado (z observada ) puramente por azar [http://mathworld.wolfram.com/P Value.html] 25/04/2020 INAOE 61

Significancia estadística 

p-valor

 Regla de decisión :  La hipótesis nula se rechaza si: α≥p  Cuanto más pequeño el p-valor, más fuerte es la evidencia contra la hipótesis nula .

25/04/2020 INAOE 62

Significancia estadística 

p-valor

 El p-valor permite reconocer aquellos descubrimientos dignos de mención estadísticamente hablando. Cuanto menor es el p valor, menor es la posibilidad de la hipótesis nula; que no haya diferencia entre los grupos de tratamiento [DuPrelJB2009]  El p valor representa un índice decreciente de fiabilidad de un resultado […]. Cuánto mayor es el p-valor, menos podemos confiar en que la relación observada entre variables en la muestra sea indicativa de una posible relación en la población [http://www.statsoft.com/textbook/elementary-statistics concepts/]  Sin importar el p-valor; 

¡¡¡NO SE PUEDE CONCLUIR NADA SOBRE EL TAMAÑO DEL EFECTO!!!

Para eso se requieren los intervalos de confianza

Significancia estadística 

Proceso de prueba de hipótesis 1.

2.

(formal; más o menos) 

Formular

la hipótesis nula y la hipótesis alternativa La hipótesis nula a menudo implica que las observaciones son el resultado del azar  La hipótesis alternativa representan un fenómeno real combinado con un componente de variación al azar a menudo implica que las observaciones

Identificar

una prueba estadística que permita evaluar si la hipótesis nula es cierta.

3.

Calcular

el p-valor

4.

Comparar

( α ) .

1.

2.

el p-valor con un umbral de significancia aceptable Si p< α ⇒ la prueba es positiva, y se dice que la observación del fenómeno es estadísticamente significativa (se rechaza la hipótesis nula) Si p> α ⇒ la prueba es negativa, y se dice que la observación del fenómeno no es estadísticamente significativa (no se puede rechazar la hipótesis nula) Fuente: [http://mathworld.wolfram.com/HypothesisTesting.html] 25/04/2020 INAOE 64

Poder estadístico 

Función de potencia

 Informal:  La

función de potencia

de una prueba de hipótesis indica la probabilidad de rechazar la hipótesis nula en función del valor real del parámetro sobre el que se ha definido la hipótesis.

 Ejemplo:  Si la hipótesis nula está definida sobre la media (H 0 : μ =0), la función de potencia de un test estadístico es la probabilidad de rechazar H 0 dado que la media es μ .

25/04/2020 INAOE 65

Poder estadístico 

Función de potencia

 Formal:  Sea S un espacio de muestra y X una muestra X=(X 1 ,…,X n ) ∈S  Sea una partición de S formada por los subconjuntos disjuntos S  0 y S 1 tal que: S 0 es el conjunto que contiene los valores de X para los cuales se acepta la hipótesis nula  S 1 es el conjunto que contiene los valores de X para los cuales se rechaza la hipótesis nula, a.k.a.

región crítica .

25/04/2020 INAOE 66

Poder estadístico 

Función de potencia

 Formal:  Sea un test estadístico cualquiera δ, y sea θ ∈Ω parámetro sobre el que se ha definido el test  Al conjunto Ω se le llama el espacio de parámetro el  Sea Ω 1 , Ω 2 , una partición de Ω  Observa que como Ω 1 , Ω 2 forman una partición de Ω, eso significa que son disjuntos y por tanto, θ sólo puede pertenecer a Ω 1 o Ω 2 pero no a los dos.

 Sean las hipótesis de la prueba de hipótesis:   H 0 : θ∈Ω 0 H a : θ∈Ω 1 25/04/2020 INAOE 67

Poder estadístico 

Función de potencia

 Formal (continuación):  Se llama

función de potencia

a la función: 25/04/2020 INAOE 68

Poder estadístico 

Función de potencia

 Dada la función de potencia:  Φ(θ|δ) es la probabilidad de rechazar la hipótesis nula H 0 .

 1-Φ(θ|δ) nula H 0 .

es la probabilidad de aceptar la hipótesis 25/04/2020 INAOE 69

Poder estadístico 

Función de potencia

 Idealmente:    ∀θ∈Ω 0 ∀θ∈Ω 1 ⇒ Φ(θ|δ)=0 ⇒ Φ(θ|δ)=1 Si esto ocurriese, entonces indistintamente del valor de θ, el test δ llegaría a la decisión correcta con probabilidad 1 . ¡No habría error!

 Ahora podemos redefinir los tipos de errores en términos de la función de potencia.

25/04/2020 INAOE 70

Poder estadístico 

Función de potencia

 La probabilidad de error de Tipo I del test es por tanto: 25/04/2020 INAOE 71

Poder estadístico 

Función de potencia

 La probabilidad de error de Tipo II del test es por tanto: 25/04/2020 INAOE 72

Función de potencia

 Si la hipótesis nula es simple (θ=θ el error de Tipo I, 0 ), puede determinarse  Si la hipótesis alternativa es simple (θ=θ determinarse el error de Tipo II, 1 ), puede  Lo primero es común, lo segundo no tanto…  …de aquí que normalmente fijemos el nivel de significancia α diseñar la regla de decisión que, manteniendo este nivel de significancia, conlleve el menor riesgo de tipo II (test uniformemente más potente) y  Para saber más:  http://www.uv.es/ceaces/tex1t/6%20para/potencia/CHIPOTES.ht

m 25/04/2020 INAOE 73

Poder estadístico 

Lecturas recomendadas:

  De Groot 2012 Cap 9 http://people.stern.nyu.edu/churvich/Regress/Han douts/Chapt6.pdf

 La que tiene el lenguaje más llano sin sacrificar exactitud  http://www.uv.es/ceaces/tex1t/6%20para/potencia /CHIPOTES.htm

 En español; Este es más formal  https://onlinecourses.science.psu.edu/stat414/no de/305  Contiene 3 ejercicios resueltos y una explicación más visual 25/04/2020 INAOE 74

Poder estadístico  Algunas cosas que afectan al poder estadístico de una prueba de hipótesis:     Tamaño del efecto  Cuanto mayor sea el tamaño del efecto que se desea detectar, mayor será la probabilidad de obtener hallazgos significativos y, por lo tanto, mayor será el poder estadístico.

Tamaño de la muestra  Cuanto mayor sea el tamaño muestral, mayor será la potencia estadística de un estudio. Es por ello que en los estudios con muestras muy grandes se detectan como significativas diferencias poco relevantes (overpowering), y en los estudios con muestras menores es más fácil obtener resultados falsamente negativos. Variabilidad de la respuesta  Cuanto mayor sea la variabilidad en la respuesta, más difícil será detectar diferencias entre los grupos que se comparan y menor será el poder estadístico de la investigación. Es por tanto recomendable estudiar grupos lo más homogéneos posibles. Nivel de significancia  Si se disminuye el valor de α también se disminuye el poder de la prueba. Es decir, si disminuimos la probabilidad de cometer un error de tipo I aumentamos simultáneamente la probabilidad de un error de tipo II 25/04/2020 Estas las volveremos a ver en más detalle en la próxima unidad cuando veamos cálculo de poder estadístico 75

Poder estadístico 

…pero también

    Direccionalidad o tipo de hipótesis Independencia de las muestras (pareamiento) Paramétricas vs no paramétricas Número de factores del modelo  …estas si las veremos ahora… 25/04/2020 INAOE 76

Tipo de hipótesis / Direccionalidad 

Direccionalidad

Pruebas de una cola

: La hipótesis alternativa es de un lado. Se utilizan es testeo de hipótesis direccional  Hipótesis alternativa: Hay una diferencia entre las variables y anticipamos la dirección de esa diferencia   H a : μ 1 < μ 2 H a : μ 1 > μ 2 

Pruebas de dos colas

: La hipótesis alternativa es de dos lados. Se utilizan es testeo de hipótesis no direccional   Hipótesis alternativa: Hay una diferencia entre las variables pero no anticipamos la dirección de esa diferencia H a : μ 1  μ 2 [Figuras de: http://www.mathsrevision.net/alevel/pages.php?page=64]

Tipo de hipótesis / Direccionalidad 

Direccionalidad

:

 Ejemplo:  Pregunta de investigación: ¿Son los hombres más altos que las mujeres?

 Hipótesis nula : No hay diferencia en la altura entre géneros  Hipótesis alternativa de una cola : Los hombres son más altos que las mujeres.

 Hipótesis alternativa de dos colas : Un género es más alto que el otro 25/04/2020 Figure de: [genderedinnovations.stanford.edu] INAOE 78

Tipo de hipótesis / Direccionalidad 

Direccionalidad

:  Las pruebas de una cola ofrecen un mayor poder estadístico para detectar un efecto  Elegir pruebas de una cola con el único propósito de obtener una mayor significancia no es apropiado dirección!

; ¡podrías perder la diferencia en la otra  Elegir pruebas de una cola tras haber ejecutado una prueba de dos colas que no rechazó la hipótesis nula no es apropiado.

Prueba de dos cola Prueba de una cola Fuente: [http://www.ats.ucla.edu/stat/mult_pkg/faq/general/tail_tests.htm] Figura de: [http://www.psycho.uni-duesseldorf.de/aap/projects/gpower/reference/reference_manual_02.html]

Pareamiento 

Independencia de las observaciones

Pareada

: Existe una relación biyectiva entre las observaciones de las variables. Cada observación en una variable tiene su “par” en la otra variable.

 Si las observaciones de un grupo se reorganizan, entonces también deben reorganizarse de forma análoga las observaciones de la otra variable.

 Ejemplos:  Experimentos de bloque aleatorizados con dos unidades por bloque  Estudios con controles emparejados de forma indivdual  Experimentos de tipo intra-sujeto con repetidas observaciones sobre el mismo individuo 

No pareada

: No hay correspondencia entre las observaciones de las variables.

 Las observaciones en una variable pueden reorganizarse de forma independiente una de la otra.

Pareamiento 

Independencia de las observaciones

 El pareado o emparejamiento es una estrategia de diseño, no de análisis ; el emparejamiento ocurre durante la colecta de datos. El emparejamiento reduce el sesgo e incrementa la precisión [DinovI2005] 25/04/2020 INAOE 81

Pareamiento 

Ejemplo de datos pareados

N conjuntos de gemelos para saber si el 1er nacido es más agresivo que el segundo

Pareja de gemelos

1 2 3 … N

Puntaje de Agresividad 1er nacido

86 71 77 … 87

2do nacido

88 77 76 … 72 Ejemplo adaptado de [DinovI2005] Figura de: [www.trinity.edu]

Pruebas paramétricas y no-paramétricas 

Pruebas paramétricas

: Asumen una determinada distribución de la variable en la población sobre la que se pretende generalizar. Normalmente, Gaussiana.

Pruebas no paramétricas

: No presuponen una distribución de las variables en la población.

 Eso significa que es libre en términos de la distribución, pero NO significa que esté libre de toda presunción.

 Las pruebas no paramétricas observan el rango ordenado de los valores de las observaciones.

 Las pruebas paramétricas tiene más poder estadístico que las no 315:364] paramétricas, y por ende deben ser usadas mientras sea posible [GreenhalghT 1997 BMJ

Analisis de 1 factor, 2 factores, …N-factores  El diseño experimental puede ser de 1 factor, de 2 factores,…, de N-factores  Puede entenderse (con cautela) como responder a una pregunta de investigación, a dos preguntas de investigación, o en general a

n

preguntas de investigación a la vez  Mientras más factores más difícil es el análisis y menor es el poder estadístico de la prueba   

Análisis de un factor

mide la significancia sobre...acertaste! ...un sólo factor

Analisis de dos factores

mide la significancia sobre dos factores a la vez Etc … Aunque ya lo mencionamos al principio de la unidad al definir las variables independientes, aún no hemos definido formalmente que es un factor.

ANÁLISIS ROC

25/04/2020 INAOE 85

Análisis ROC 

A partir de la tabla de contingencia* de los errores podemos definir 4 desenlaces básicos:

    TP: Verdaderos positivos TN: Verdaderos negativos FP: Falsos positivos FN: Falsos negativos

Decisión \ Realidad H 0 verdadera / H a falsa H 0 falsa / H a verdadera

Aceptar H 0 ; Rechazar H a

TN FN

*Observa la similitud con la tabla de confusión de un clasificador 25/04/2020 Rechazar INAOE H 0 ; Aceptar H a

FP TP

86

Análisis ROC 25/04/2020

Decisión \ Realidad H 0 verdadera / H a falsa

Aceptar H 0 ; Rechazar H a

TN Total

Rechazar

Negativos

; Aceptar

Total FP

H a INAOE

H 0 falsa / H a verdadera FN TP

87

Análisis ROC 

Decidir que tan bueno o malo (el rendimiento) de nuestro estimador o prueba a la vista de la tabla de contingencia es “difícil”…

 …en el sentido que hay 4 valores que tener en cuenta a la vez 

…para aliviar esta situación, se han desarrollado algunos conceptos que de alguna forma resumen relaciones entre estos 4 desenlaces básicos .

25/04/2020 INAOE 88

Análisis ROC 

Algunas derivaciones de la tabla de contingencia

:

Sensitividad

o Recuerdo (Recall)*

de Verdaderos Positivos (TPR)

: o

Ratio Total Positivos

*El término Recuerdo o Recall está prácticamente restringido al área de aprendizaje máquina 25/04/2020 INAOE 89

Análisis ROC 

Algunas derivaciones de la tabla de contingencia

:

Especificidad

o

Ratio de Verdaderos Negativos (TNR)

: INAOE

Total Negativos

90 25/04/2020

Análisis ROC 

Algunas derivaciones de la tabla de contingencia

:

Ratio de Falsos Positivos (FPR)

:

Total Negativos

INAOE 25/04/2020 91

Análisis ROC 

Algunas derivaciones de la tabla de contingencia

:

 Observa que: 25/04/2020 INAOE 92

Análisis ROC 

Algunas derivaciones de la tabla de contingencia

:

Exactitud (Accuracy)

: 25/04/2020

Total Positivos Total Negativos

INAOE 93

Análisis ROC 

Algunas derivaciones de la tabla de contingencia

:

Valor Predictivo Positivo (PPV) Precisión

: o 25/04/2020 INAOE 94

Algunas derivaciones de la tabla de contingencia

:

 Valor predictivo negativo :  NPV = TN/(TN+FN)  Ratio de falsos descubrimientos :  RFD=FP/(FP+TP)  F-Measure :  F=2*(Precisión*Recuerdo)/(Precisión+Recuerdo) 25/04/2020 INAOE 95

Análisis ROC  Análisis ROC (del inglés “receiver operating characteristic ”)  El análisis ROC o curva ROC es una gráfica de dispersión que resume la relación de los errores de alguna prueba estadística o un estimador  La gráfica de dispersión presenta la relación entre el ratio de falsos positivos (FPR=1-Especificidad) y el ratio de verdaderos positivos (TPR=Sensitividad).

25/04/2020 INAOE Figura de: [csb.stanford.edu] 96

Análisis ROC  Intuitivamente; un punto en el espacio ROC es mejor que otro si está situado hacia el noroeste del segundo (es decir, tiene un mayor TPR, y un menor FPR, o ambos) [Fawcett T2006] 25/04/2020 Figura de: [FawcettT2006] INAOE 97

Análisis ROC  La curva ROC estadística (estimador, test, etc ,…) de una  …es la representación de 1 ϕ(θ|δ)  …se construye variando el umbral de discriminación (nivel de significancia).

 …a veces se resume/describe mediante el valor del área bajo la curva 25/04/2020 INAOE Figura de: [http://en.wikipedia.org/wiki/File:Receiver_Operating_Characteristic.png] 98

Análisis ROC 25/04/2020 INAOE Figura de: [http://en.wikipedia.org/wiki/File:Receiver_Operating_Characteristic.png] 99

Análisis ROC 25/04/2020 Figura de: [www-psych.stanford.edu] INAOE 100

Ejemplo:

Análisis ROC 25/04/2020 Figura de: [gim.unmc.edu] INAOE 101

Análisis ROC  La curva ROC le da igual importancia a ambos tipos de error (Tipo I y Tipo II) y muestra cómo varían conjuntamente según cambia el criterio para una diferencia dada entre las medias de las dos hipótesis.  Lecturas MUY recomendadas:  CE Metz (1978) “Basic principles of ROC analysis” Seminars in nuclear medicine, 8(4):283-298  >3000 citas (Google scholar)  Fawcett , T (2006) “An introduction to ROC analysis” Pattern Recognition Letters 27:861 –874  >3000 citas (Google scholar) 25/04/2020 INAOE 102

LAS PRUEBAS ESTADÍSTICAS BÁSICAS

¿Qué prueba debo aplicar?

 

Recuerda:

1.

2.

3.

4.

5.

Proceso de prueba de hipótesis

(informal)

Definir las hipótesis nula y alternativa Tomar datos Elegir la prueba estadística apropiada Calcular el valor del test (score -t,F, χ 2 ) Decidir si rechazar o no la hipótesis nula basándose alguna regla de decisión

Del valor z al p-valor 

Ya sabemos:

 El valor z representa el valor estandarizado de una observación; es decir cuantas desviaciones estándar se encuentra la observación a la derecha (z>0) o izquierda (z<0) de su media (poblacional).

25/04/2020 INAOE 105

Del valor z al p-valor 

La distribución normal estandarizada (media 0 y desviación estándar 1) se usa en varias pruebas de hipótesis.

El valor acumulada normal es el equivalente al valor

z p

sobre la función de distribución sobre la función de densidad de probabilidad normal

25/04/2020 INAOE Animación de: [http://www.statsoft.com/textbook/distribution-tables/] 106

Del valor z al p-valor 

El

p

valor para un determinado valor z es básicamente:

Por tanto para calcular

p

basta con tomar la integral bajo la curva en

z

.

25/04/2020 INAOE 107

El

t

-test

Hipótesis Requisitos Suposiciones / Supuestos Resultado

Diferencia entre las medias de las muestras Variables numéricas Existen versiones para una y dos variables Existen versiones para datos pareados y no pareados • Distribución normal (o para ser exactos la t de Student con df grados de libertad) • Media y desviación estándar independientes • Varianzas iguales • Tamaño de las muestras alto (>30) Valor t  La prueba estadística

t

para una muestra compara entre una distribución muestreada y una asumida, mientras que la prueba de dos muestras compara las muestras de dos variables.

El valor t 

Sea el valor estimado del parámetro

β

en algún modelo estadístico. El

valor t estadística t

o es cualquier cantidad de la forma:

Donde es la media muestral y SE el error estándar muestral

25/04/2020 INAOE 109

El valor t Figura de: [http://en.wikipedia.org/wiki/Standard_score] 25/04/2020 INAOE 110

Del valor t al p-valor 

El p valor es el área bajo la curva mayor que el valor t.

 Por tanto, calcular el p-valor exacto requiere resolver una integral 25/04/2020 INAOE Animación de: [http://www.statsoft.com/textbook/distribution-tables/] 111

Del valor t al p-valor 

…alternativamente y aceptando un margen de error, se pueden consultar tablas precalculadas

 

Aquí tienes un par de calculadoras del p valor

 Calculadora: http://www.danielsoper.com/statcalc3/calc.aspx?i

d=8  Calculadora: http://www.graphpad.com/quickcalcs/pvalue1.cfm

25/04/2020 INAOE 112

1 1 2 3 4 Selecciona la direccionalidad acorde a tu hipótesis alternativa Busca la columna acorde al nivel de significancia escogido Selecciona la fila acorde a los grados de libertad Encuentra tu valor t en la intersección de fila y columna 3 Del valor

t

al p-valor 2 4 25/04/2020 INAOE 113

La prueba de Mann-Whitney U o Wilcoxon Rank-sum

Hipótesis Requisitos Suposiciones / Supuestos

Desplazamiento en la localización. Evalúa si una o dos muestras de observaciones independientes tiende a producir valores más grandes/pequeños que la otra Ordinales o Continuos • Muestreo aleatorio • Independencia intra-muestral • Independencia mutua entre las muestras • La escala de medida debe ser al menos ordinal • Las distribuciones de las variables deben coincidir excepto por sus medianas • Tamaño de la muestra grande (al menos 42 observaciones para la aproximación z) • Datos no pareados

Resultados

  Valor z Cuando los datos son ordinales, la prueba de Mann-Whitney paramétrica más conocida.

U es quizás la prueba no Para datos pareados se debe utilizar la prueba de los rangos con signo de Wilcoxon.

25/04/2020 INAOE 114

Del valor z al p-valor  El valor z es una medida de desviación sobre la media.

 Una observación cuyo valor z sea 2.5 significa que está a 2.5 desviaciones estándar de la muestra.

 Observa que es fácil eliminar outliers usando el valor z; basta con eliminar las observaciones con z>3.

 El p valor es el área bajo la curva mayor que el valor z.

 Por tanto, calcular el p-valor exacto requiere resolver una integral  …alternativamente y aceptando un margen de error, se pueden consultar tablas precalculadas  . Aquí tienes un par de calculadoras del p-valor  Calculadora: http://faculty.vassar.edu/lowry/ch6apx.html

 Calculadora: http://www.graphpad.com/quickcalcs/pvalue1.cfm

 Valores z (positivos o negativos) pequeños; o sea, cercanos a la media, están asociados a valores p grandes. De forma análoga; Valores z (positivos o negativos) grandes; o sea, lejanos a la media, en las colas de la distribución, están asociados a valores p pequeños.

25/04/2020 INAOE 115

La prueba F

Hipótesis Requisitos Suposiciones / Supuestos Resultados

Diferencia en el valor de la varianza Variables numéricas • • Distribución normal Varianzas homogéneas (Homoscedascity) • Independencia de las observaciones Valor F  La prueba F está diseñada para comparar si las varianzas de dos poblaciones son iguales. Para ello, se calcula el ratio de estas varianzas; que si son iguales debe ser cercano a 1.

25/04/2020 INAOE 116

Del valor F al p-valor 

El p valor es el área bajo la curva mayor que el valor F.

 Por tanto, calcular el p-valor exacto requiere resolver una integral 25/04/2020 INAOE Animación de: [http://www.statsoft.com/textbook/distribution-tables/] 117

Del valor F al p-valor 

…alternativamente y aceptando un margen de error, se pueden consultar tablas precalculadas

.

Aquí tienes un par de calculadoras del p valor

 Calculadora : http://www.danielsoper.com/statcalc3/calc.aspx?i

d=7  Calculadora: http://www.graphpad.com/quickcalcs/pvalue1.cfm

25/04/2020 INAOE 118

Análisis de varianza (ANOVA) univariable

Hipótesis Requisitos Suposiciones / Supuestos Resultados

Diferencia en el valor de la varianza para más de 2 grupos Variables numéricas • • Distribución normal Varianzas homogéneas (Homocedasticidad) • Independencia de las observaciones Valor F    ANOVA es como una prueba F para múltiples grupos ANOVA no es uno, sino varios modelos.

Sobre la necesidad de homocedasticidad:  http://blog.minitab.com/blog/statistics-and-quality-data analysis/dont-be-a-victim-of-statistical hippopotomonstrosesquipedaliophobia 25/04/2020 INAOE 119

Prueba χ 2 sobre tabla de contingencia

Hipótesis Requisitos Suposiciones / Supuestos Resultados

Diferencias entre la distribución de frecuencias determinada por la tabla de contingencia comparada con una tabla de contingencia esperada Categóricas • Distribución χ 2 • Tamaño de la muestra grande (>30) • Independencia de las observaciones • Otros (Más de 5 observaciones por celda de la tabla de contingencia, sin celdas con valor 0, corrección de Yates) Valor χ 2   Los efectos en una tabla de contingencia se definen cómo relaciones entre la variable representada en las filas y la variable representada en las columnas: léase, son los niveles de la variable en las filas distribuidas de forma diferencial sobre los valores de la variable representada en las columnas.

Un resultado significativo en esta prueba de hipótesis indica que la interpretación de las frecuencias de las celdas de las tablas está garantizada. Por el contrario, un rsultado no significativo indica que la distribución de frecuencias de la tabla de contingencia puede ser debido al azar [http://www.psychstat.missouristate.edu/introbook/sbk28m.htm] 25/04/2020 INAOE 120

Del valor χ 2 al p-valor 

Efectivamente….resolviendo al integral

25/04/2020 INAOE Animación de: [http://www.statsoft.com/textbook/distribution-tables/] 121

Del valor χ 2 al p-valor 

… alternativamente y aceptando un margen de error, se pueden consultar tablas precalculadas

.

Aquí tienes una calculadora del p-valor

 Calculadora: http://www.graphpad.com/quickcalcs/pvalue1.

cfm 25/04/2020 INAOE 122

Otras pruebas estadísticas populares y útiles         

Prueba de normalidad de Shapiro-Wilk:

distribución normal Prueba si la muestra proviene de una

Prueba de Anderson-Darling

: Detecta la desviación de una muestra de una determinada distribución (incluyendo la distribución normal para la cual, esta prueba se considera una de las más potentes)

Prueba de Kolmogorov-Smirnov:

Prueba no paramétrica de que las muestras provienen de la misma distribución (o comparación contra una referencia). Puede también ser usada como prueba de bondad de ajuste en una regresión.

Prueba de Kruskall-Wallis

: Similar a ANOVA pero para datos no paramétricos

Prueba T de Welch

: Compara diferencias entre las medias de dos variables independientes

Prueba exacta de Fisher

: Similar a χ 2 para tablas de contingencia de tamaño 2x2

Prueba de McNemar

: Similar a χ 2 para tablas de contingencia de tamaño 2x2 con observaciones dependientes (paredas)

Prueba de Friedman

: Versión no paramétrica de ANOVA

Variantes de ANOVA

: (1/2) factores ANOVA (entre/intra) sujetos, ANCOVA (Análisis de Covarianza), MANOVA ( versíón multivariable de ANOVA), MANCOVA, 25/04/2020 INAOE 123

¿Qué prueba debo aplicar?

 

Recuerda:

1.

2.

3.

4.

5.

Proceso de prueba de hipótesis

(informal)

Definir las hipótesis nula y alternativa Tomar datos Elegir la prueba estadística apropiada Calcular el valor del test (score -t,F, χ 2 ) Decidir si rechazar o no la hipótesis nula basándose alguna regla de decisión 25/04/2020 INAOE 124

¿Qué prueba debo aplicar?

 La selección de la prueba estadística apropiada depende de varios aspectos de los datos y del diseño experimental:    Tamaño de la muestra (pequeño <30; grande >30) Independencia de las observaciones (pareadas o no) Número de grupos (variables) que van a ser comparados  Tipos de las variables (categóricas, ordinales, discretas, etc)   Distribución/es asumida/s Tipo de hipótesis alternativa (una cola, dos colas).

25/04/2020 INAOE

¿Qué prueba debo aplicar?

25/04/2020 INAOE Fuente: [http://dc281.4shared.com/doc/HRgHf_KM/preview001.png] 126

¿Qué prueba debo aplicar?

25/04/2020 INAOE Fuente: [http://dc281.4shared.com/doc/HRgHf_KM/preview001.png] 127

¿Qué prueba debo aplicar?

Parametric 25/04/2020 Fuente: [www.sigmazone.com] INAOE 128

¿Qué prueba debo aplicar?

Non-Parametric 25/04/2020 Fuente: [www.sigmazone.com] INAOE 129

¿Qué prueba debo aplicar?

Variable independiente Número Tipo

1 población N/A 2 poblaciones independientes 2 categorías 3 o más poblaciones … categóricas … 1 1 … 1 1

Variable dependiente Número Tipo

Continuas normal Normal 1 Non-normal Categórica Normal …

Prueba

t-test de una muestra t-test de dos muestras Mann Whitney, Wilcoxon rank sum test χ 2 test, prueba exacta de Fisher ANOVA de un factor … Media Media Mediana Proporción Medias …

Estadística observada

25/04/2020 Puedes encontrar tablas más completas en: • http://www.ats.ucla.edu/stat/mult_pkg/whatstat/choosestat.html

• http://bama.ua.edu/~jleeper/627/choosestat.html

• http://www.bmj.com/content/315/7104/364/T1.expansion.html

INTERVALOS DE CONFIANZA

Intervalos de confianza  Lecturas recomendadas:  Altman et al Eds. (2000) “Statistics with Confidence: Confidence intervals and statistical guidelines”, 2nd Edition, Wiley  Efectivamente, un libro completo sólo sobre intervalos de confianza  Desafortunadamente no tengo acceso al libro   http://www.wiley.com/WileyCDA/WileyTitle/productCd-0727913751,descCd tableOfContents.html

 Gardner MJ y Altman DG (1986) “Confidence intervals rather than P values: estimation rather than hypothesis testing ” BMJ 292:746-750   >1200 citas (Google scholar) No tiene desperdicio…  duPrel , JB et al (2009) “Confidence Interval or P-Value?” Deutsches Ärzteblatt International; 106(19): 335–9  Loftus GR y Masson ME (1994) “Using confidence intervals in within subjects designs“ Psychonomic Bulletin &Review 1(4):476-490 25/04/2020 INAOE 132

Intervalos de confianza 

Intervalos de confianza

 Rango de valores que

probablemente

incluye al parámetro real de la población deseado (media, mediana, etc) [DuPrelJB2009]  Indican un rango plausible para el valor real relacionado a la medida del punto estimado a partir de la muestra.

 [http://www.stats.gla.ac.uk/steps/glossary/confiden ce_intervals.html] 25/04/2020 INAOE 133

Intervalos de confianza 

Intervalos de confianza

:  Ventajas intuitivas:  Un intervalo de confianza representa alejarse de establecer un valor único de valores para un estimador, para ofrecer a cambio un rango plausible para la población. [GardnerMJ1986]  En un experimento real, no obtenemos la media poblacional sino sólo su estimado. Por tanto, tener alguna forma de determinar que fe le tenemos al estimado es conveniente [LoftusGR1994]  …efectivamente, el error estándar va en esta dirección; no en vano:  “The standard error of the sample statistic, [...] is a recognition that a sample is most unlikely to determine the population value exactly. In fact, if a further sample is taken in identical circumstances almost certainly it will produce a different estimate of the same population value. The sample statistic is therefore imprecise, and the standard error is a measure of this imprecision. By itself the standard error has limited meaning, but it can be used to produce a confidence interval, which does have a useful interpretation.” [GardnerMJ1986] 25/04/2020 INAOE 134

Intervalos de confianza 

Intervalos de confianza

 El

nivel de confianza

es el valor de probabilidad 1 α asociado a un intervalo de confianza.

 Un nivel de confianza del

k%

significa que el intervalo de confianza cubriría al valor real en

k

de cada 100 estudios que se llevasen a cabo  Un intervalo de confianza calculado al k% se interpeta como que tenemos una seguridad al

k%

de que el valor real del parámetro está contenido en el intervalo  Un nivel de confianza frecuentemente usado es el 95%  …pero obviamente podemos utilizar otros; 99%, 99.99% 25/04/2020 INAOE 135

Intervalos de confianza 

Límites de confianza

:

 Los

límites de confianza

son los valores superior e inferior que delimitan al rango del intervalo de confianza  Los valores fuera de los intervalos de confianza no son imposibles; no se excluyen,  …simplemente son improbables.

25/04/2020 INAOE 136

Intervalos de confianza 

Límites de confianza

:

 La forma exacta de calcular los límites de confianza varía dependiendo:  del parámetro estimado (obviamente),  del diseño experimental (within-/between- subjects), y  de si se hace sobre una muestra o sobre diferencias entre otras cosas…  …no obstante, hay un estándar  principio común : sumar y restar al estimador algún múltiplo del error No veremos todas las posibilidades, sólo algunas… 25/04/2020 INAOE 137

Intervalos de confianza 

Límites de confianza

:

 Intervalo de confianza para la media para una sóla muestra con muestras grandes: 25/04/2020 Doble cola…  La distribución Z es la distribución normal estándar INAOE 138

Intervalos de confianza 

Límites de confianza

:

 Intervalo de confianza para la media para una sóla muestra con muestras pequeñas (si se asume normalidad): Doble cola… 25/04/2020  Se utiliza la distribución

t

con n-1 grados de libertad asociado a una confianza 100(1 α )% No es un error; es el nivel de significancia completo 139

Intervalos de confianza 

Límites de confianza

:

 Intervalo de confianza para la diferencia entre medias para dos muestras no pareadas (si se asume normalidad): Error estándar de la diferencia  …donde: 25/04/2020 Desviación estándar de la diferencia INAOE 140

Intervalos de confianza 

Límites de confianza

:  Puedes encontrar algunos otros casos de cómo calcular los intervalos de confianza en:  Gardner MJ y Altman DG (1986) “Confidence intervals rather than P values: estimation rather than hypothesis testing ” BMJ 292:746-750  Loftus GR y Masson ME (1994) “Using confidence intervals in within subjects designs“ Psychonomic Bulletin &Review 1(4):476-490  Newcombe RG (1998) “Two-sided confidence intervals for the single proportion: comparison of seven methods ” Statistics in Medicine 17:857-872  Morris JA y Gardner MJ (1988) “Calculating confidence intervals for relative risks (odds ratios) and standardised ratios and rates ” BMJ 296:1313-1316  Kragten , J (1994) “Calculating Standard Deviations and Confidence Intervals with a Universally Applicable Spreadsheet Technique ” Analyst 119:2161-2165  Brookmeyer R y Crowley 38:29-41 J “A confidence interval for the median survival time” Biometrics  Mehta CR et al (1985) “Computing an exact confidence interval for the common odds ratio in several 2 ×2 contingency tables” Journal of the American Statistical Association 80(392):969 973 25/04/2020 INAOE 141

Intervalos de confianza 

Intervalos de confianza

 Los intervalos de confianza permiten hacer afirmaciones sobre:  la dirección de un posible efecto,  el tamaño del efecto,  y la presencia de un resultado estadísticamente significativo ( significancia )  Intervalos de confianza:  …más estrechos , representan una mayor confianza los resultados  … más amplios parámetro.

, indican que se debieran tomar más muestras antes de hacer alguna afirmación sobre el en 25/04/2020 INAOE 142

Intervalos de confianza 

Intervalos de confianza

 Dependen fuertemente del tamaño de la muestra y el nivel de confianza requerido de los grupos de estudio  Tamaños de muestras más grandes conllevan intervalos de confianza más estrechos  Desviaciones estándar más grandes implican mayor incertidumbre, y en consecuencia mayores intervalos de confianza 25/04/2020 INAOE 143

Intervalos de confianza 

Intervalos de confianza

 Los intervalos de confianza pueden complementar , e incluso sustituir , a los mecanismos tradicionales de prueba de hipótesis [LoftusGR1994] 25/04/2020 INAOE 144

Intervalos de confianza y p-valores  En contraste con los p-valores, los intervalos de confianza indican la dirección del efecto estudiado. [DuPrelJB2009]  Pequeñas diferencias sin interés pueden ser estadisticamente significativas dado un tamaño de muestra lo suficientemente grande, mientras que efectos clínicamente importantes pueden no alcanzar la significancia estadística simplemente por un tamaño de muestra pequeño. [GardnerMJ1986]  En contraste con los intervalos de confianza, los p-valores indican la diferencia con respecto a un umbral estadístico previamente definido α.

25/04/2020 INAOE 145

Intervalos de confianza 

Ejercicio

 Datos: : Dos farmacéuticas comercializan sus marcas de Ibuprofeno. Queremos saber si alguna de las marcas tiene una concentración más alta de Ibuprofeno en sus tabletas con un nivel de significancia del 5%, y si esta es significativa cuál tiene la concentración más alta.

Indolorex

n=36 Media muestral x1=358 mg Desviación estándar muestral s1= 10 mg

IbuGenérico

n=35 Media muestral x2=345 mg Desviación estándar muestral s2= 14 mg   Nota 1: La solución “original” en la fuente (mathtrench) es correcta pero confusa; utiliza intervalos de confianza basados en z, pero usa el valor

t

para la regla de decisión. Aquí lo resolveremos utilizando sólo la distribución

t

, lo que lleva a pequeñas diferencias numéricas.

Nota 2: En este ejercicio se requiere el uso de tablas precalculadas ( http://easycalculation.com/statistics/t-distribution-critical-value-table.php

) o de una calculadora de la distribución t en línea ( http://stattrek.com/online-calculator/t distribution.aspx

¡Ojo! es 1-tail).

Problema modificado de: INAOE 146

Intervalos de confianza 

Solución

:  Básicamente nos están pidiendo un prueba de hipótesis de si hay una diferencia entre las medias:  H 0 : μ 1 =μ 2  H a : μ 1 ≠μ 2  Asumiendo distribuciones normales (ambos n>30 y ninguna indicación contraria), podemos utilizar un simple t test de dos colas  Observa que en la solución “original” el usa directamente la distribución z.

 Si el nivel de significancia α=5% entonces buscamos el intervalo de confianza al 95% 25/04/2020 INAOE 147

Intervalos de confianza 

Solución

:  1) Buscamos el

valor crítico

para la regla de decisión :  Extraemos el valor de un 95% n 1 +n 2 y libertad ):

t

asociado para nivel de confianza al considerando 2 colas (con -2=69 grados de  t= 1.9950

25/04/2020 Valor t obtenido de la tabla: http://easycalculation.com/statistics/t-distribution critical-value-table.php

INAOE 148

Intervalos de confianza 

Solución

:

 2) Calculamos el valor

t

de la diferencia 25/04/2020 INAOE 149

Intervalos de confianza 

Solución

:

 3) Para saber si rechazamos o no la hipótesis nula, simplemente comparamos nuestro valor t con el valor crítico para ver si cae dentro del intervalo de confianza (regla de decisión) 150 25/04/2020 INAOE

Intervalos de confianza 

Solución

:

 4) Aún falta indicar cuál marca tiene más concentración de Ibuprofeno. Para ello, calculamos los intervalos de confianza. Para lo cual necesitamos el SE diff : 25/04/2020 INAOE 151

Intervalos de confianza 

Solución

:

 5) Ahora ya podemos calcular el intervalo de confianza al 95%: 25/04/2020 INAOE 152

Intervalos de confianza 

Solución

:

 6) Finalmente, para saber cual de las medias es mayor observamos los intervalos de confianza:  Como en este caso los límites del intervalo de  confianza ambos son positivos eso significa que μ 1 >μ 2 .

En otras palabras; Indolorex tiene una concentración de Ibuprofeno mayor que Ibugenérico bajo un nivel de significancia del 5%.

25/04/2020 INAOE 153

ANOTADORES

25/04/2020 INAOE 154

Anotadores  Lecturas recomendadas:  Gwet , KL (2008) “Computing inter-rater reliability and its variance in the presence of high agreement” British Journal of Mathematical and Statistical Psychology 61:29-48  Bland JM y Altman DG (1986) “Statistical methods for assessing agreement between two methods of clinical measurement ” Lancet 327(8476):307-310  Banerjee M (1999) “Beyond Kappa: A review of interrater agreement measures” The Canadian Journal of Statistics 27(1):3-23  Bartko JJ (1966) “The intraclass correlation coefficient as a measure of reliability” Psychological Reports 19:3-11  López de Ullibarri Galparsoro I, Pita Fernández, S. (1999) “Medidas de concordancia: el índice de Kappa” Cad Atención Primaria 6:169-171  Rousson , V et al (2002) “Assessing intrarater, interrater and test–retest reliability of continuous measurements” Statist. Med. 21:3431–3446  Kottner J (2011) “Guidelines for Reporting Reliability and Agreement Studies (GRRAS) were proposed” Journal of Clinical Epidemiology 64:96-106  Stemler, Steven E. (2004). A comparison of consensus, consistency, and measurement approaches to estimating interrater reliability.

Practical Assessment, Research & Evaluation

, 9(4)  http://pareonline.net/getvn.asp?v=9&n=4 25/04/2020 INAOE 155

Anotadores 

Hasta ahora:

 Cada variable aleatoria en cada observación tenía un valor único…  Había una única medición  En otras palabras, era observada por un sólo

anotador

u

observador

(sensor, experto, métrica, etc…)  Este anotador u observador único se supone “infalible”, sin error 25/04/2020 INAOE 156

Anotadores 

En condiciones reales, los observadores u anotadores no son infalibles

 La diferencias pueden surgir por diferentes razones:  Variaciones en el procedimiento experimental  Variaciones en la interpretación  Variaciones en la presentación  Si no se conoce la verdad absoluta (

ground truth

), y los anotadores no son infalibles, en estas circunstancias es conveniente tener múltiples anotadores.

25/04/2020 INAOE 157

Anotadores 

Anotador

  A.k.a. observador, examinador, explorador En inglés: annotator, rater, scorer, judges, observer, tagger, coder  Cualquier sensor, experto, técnica de medición, métrica, etc… que obtiene una medición de una variable aleatoria [definición propia].

25/04/2020 INAOE 158

Anotadores  Hay discrepancias entre anotadores  Diferentes observadores califican o evalúan de forma distinta el mismo objeto   ¿Cómo conciliar las anotaciones si estas difieren?

Concordancia (

reliability

o

agreement

): Consistencia entre las decisiones  Hay incongruencias intra-anotador  El mismo observador presentado dos veces con el mismo objeto no siempre evalúa de la misma forma   ¿Cómo puedo saber que tanto fiarme de una anotador?

Fiabilidad ((test-retest) Reliability y Repeatibility entre medidas repetidas sobre un mismo objeto en condiciones similares ): Variación 25/04/2020 INAOE 159

Anotadores 

Sesgo entre observadores

 Se habla de sesgo entre observadores cuando un un observador da de forma consistente valores mayores(menores) que otro [ López de Ullibarri 1999] 25/04/2020 INAOE 160

Anotadores 

Concordancia

entre anotadores

Grado de acuerdo entre observadores  La concordancia puede implicar el acuerdo:   Con una escala “oficial” Con otros anotadores 25/04/2020 INAOE 161

Anotadores 

Concordancia

 El plot de Bland y Altman presenta el promedio de las (dos) evaluaciones en el eje de abscisa contra la diferencia entre (dos) anotadores en cada observación, la diferencia media y los límites de acuerdo sobre el eje de ordenadas.

 Permite observar no sólo la concordancia en general sino el grado de acuerdo en relación al valor “real” supuesto (la media de las evaluaciones)  Ejemplo: Dos anotadores pueden tener una alta concordancia en valores pequeños y tener desacuerdo en valores grandes Fuente: [Bland y Altman, 1986, Lancet] 25/04/2020 INAOE Figura de: [http://en.wikipedia.org/wiki/File:Bland-Altman-Plot.gif] 162

Anotadores 

Fiabilidad

intra-observador

Grado de concordancia demostrado al repetirse una medición en condiciones idénticas a cargo del mismo observador.

 Grado en que pueden reproducirse los resultados obtenidos por un procedimiento de medición.

Definición de: [http://htaglossary.net/fiabilidad+intra-observador+%28n.f.%29] 25/04/2020 INAOE 163

Anotadores 

Fiabilidad

 La fiabilidad no implica validez 25/04/2020 INAOE Figura de: [http://en.wikipedia.org/wiki/Reliability_%28statistics%29] 164

Anotadores  Sin entrar en detalles, estadísticas para evaluar la concordancia y fiabilidad intra- y entre-anotadores:  Probabilidad conjunta de acuerdo  La más simple; Número de veces que cada valor se asigna por cada anotador dividido por el número total de evaluaciones  Sólo para datos categóricos  No considera el acuerdo por azar  Kappa de Cohen  MUY popular  Sólo sirve para 2 anotadores y variables categóricas  Kappa de Fleiss  Extensión de la Kappa de Cohen a n anotadores     Correlación inter-anotador Coeficiente de correlación de concordancia Correlación intraclase Alpha de Krippendorff  Muy general  Permite n anotadores, variables de cualquier tipo (categóricas, ordinales, discretas, de intervalos, de ratio)  Robusta a pequeñas muestras, diseños desbalanceados, 25/04/2020 INAOE 165

GRACIAS, ¿PREGUNTAS?

25/04/2020 INAOE 166