Transcript Slide 1
Unidad V. Estadística Parte III Estadísitica inferencial; testeo de hipótesis Introducción a la Estadística Dr. Felipe Orihuela-Espina
25/04/2020 INAOE 1
Estadística inferencial “
If your experiment needs statistics, you ought to have done a better experiment.
” Lord Sir Ernest Rutherford of Nelson Neo Zelandés / Británico, 1871-1937 Padre de la física nuclear Descubridor del protón Nobel de Química 1908 25/04/2020 INAOE 2
Contenidos 1.
Contraste o Testeo de Hipótesis
2.
Errores de tipo I y tipo II.
3.
1.
2.
p-valor Especificidad, sensitividad, ROC
Tests estadísticos básicos
4.
Intervalos de confianza
5.
Un anotador vs multiples anotadores
1.
Intra-rater and inter-rater score 25/04/2020 INAOE 3
Lecturas recomendadas Dean, A and Voss, D. Design and Analysis of Experiments. Springer (1999) DeGroot, M- H. y Schervish, M.-J. Probability and Statistics. 4a Ed. 2012 Cap 9 Martin Bland “An introduction to Medical Statistics” Oxford Medical Publications, 3rd Edition (2000) 405pgs Prueba de hipótesis Wayne, WD (2008) Bioestadística para el análisis de las ciencias de la salud. Wiley , 4ª Edición (en español). Cap 7 25/04/2020 INAOE 4
Lecturas recomendadas Intervalos de confianza: Altman et al Eds. (2000) “Statistics with Confidence: Confidence intervals and statistical guidelines”, 2nd Edition, Wiley Efectivamente, un libro completo sólo sobre intervalos de confianza Desafortunadamente no tengo acceso al libro http://www.wiley.com/WileyCDA/WileyTitle/productCd-0727913751,descCd tableOfContents.html
Gardner MJ y Altman DG (1986) “Confidence intervals rather than P values: estimation rather than hypothesis testing ” BMJ 292:746-750 >1200 citas (Google scholar) No tiene desperdicio… duPrel , JB et al (2009) “Confidence Interval or P-Value?” Deutsches Ärzteblatt International; 106(19): 335–9 Loftus GR y Masson ME (1994) “Using confidence intervals in within subjects designs“ Psychonomic Bulletin &Review 1(4):476-490 25/04/2020 INAOE 5
Lecturas recomendadas
Anotadores:
Gwet , KL (2008) “Computing inter-rater reliability and its variance in the presence of high agreement” British Journal of Mathematical and Statistical Psychology 61:29-48 Bland JM y Altman DG (1986) “Statistical methods for assessing agreement between two methods of clinical measurement ” Lancet 327(8476):307-310 Banerjee M (1999) “Beyond Kappa: A review of interrater agreement measures ” The Canadian Journal of Statistics 27(1):3-23 25/04/2020 INAOE 6
Lecturas recomendadas
Otros recursos:
http://www.mathtrench.com/contents/Statistics +1000 problemas resueltos incluyendo: Estadística descriptiva Distribuciones de probabilidad Estadística no paramétrica Estadística inferencial Correlaciones y regresiones Prueba de hipótesis Intervalos de confianza Requiere registrarse pero es gratuito 25/04/2020 INAOE 7
CONTRASTE O TESTEO DE HIPÓTESIS
Citas sobre la significancia estadística [BlandM1996] “
Acceptance of statistics, though gratifying to the medical statistician, may even have gone too far. More than once I have told a colleague that he did not need me to prove that his difference existed, as anyone could see it, only to be told in turn that without the magic p-value he could not have his paper published.
” [Nicholls in KatzR2001] “
In general, however, null hypothesis significance testing tells us little of what we need to know and is inherently misleading. We should be less enthusiastic about insisting on its use.”
Citas sobre la significancia estadística [Falk in KatzR2001] “
information that scientists need, neither do they solve the crucial questions that they are characteristically believed to answer. The one answer that they do give is not a question that we have asked.
”
Significance tests do not provide the
[DuPrelJB2009] “Unfortunately, statistical significance is often thought to be equivalent to clinical relevance. Many research workers, readers, and journals ignore findings which are potentially clinically useful only because they are not statistically significant. At this point, we can criticize the practice of some scientific journals of preferably publishing significant results [...] ("publication bias").
” 25/04/2020 INAOE 10
Citas sobre la significancia estadística [GardnerMJ1986, co authored by Altman] “...the use of statistics in medical journals has increased tremendously. One unfortunate consequence has been a shift in emphasis away from the basic results towards an undue concentration on hypothesis testing. In this approach data are examined in relation to a statistical "null" hypothesis, and the practice has led to the mistaken belief that studies should aim at obtaining "statistical significance”. [...] The excessive use of hypothesis testing at the expense of other ways of assessing results has reached such a degree that levels of significance are often quoted alone in the main text and abstracts of papers, with no mention of actual concentrations, proportions, etc, or their differences. The implication of hypothesis testing- that there can always be a simple "yes" or "no" answer as the fundamental result from a medical study-is clearly false and used in this way hypothesis testing is of limited value.” 25/04/2020 INAOE 11
Prueba de hipótesis 25/04/2020 INAOE 12
Prueba de hipótesis Considerado el padre de la estadística inferencial Creador de ANOVA entre otros Trabajo principalmente en Cambridge y UCL, fue miembro de la Royal Society Reemplazó a Pearson en su cátedra en UCL Cómo buen genio trabajo en otros campos: matemáticas, biología evolutiva, genética, etc De hecho, también es el padre de la genética poblacional , que describe los fenómenos evolutivos en función de la variación y distribución de la frecuencia alélica También descubrió la utilidad del uso de los cuadrados latinos para mejorar significativamente los métodos agrícolas Sir Ronald Aylmer Fisher (1890-1962) Británico Una biografía y algunos enlaces: http://www-history.mcs.st-andrews.ac.uk/Biographies/Fisher.html
25/04/2020 INAOE 13
Prueba de hipótesis
El
método científico
1.
2.
3.
4.
en breve
Observación de un fenómeno físico Emisión o postulación de una explicación plausible del fenómeno que pueda explicar las observaciones hipótesis o Experimentción alterando las condiciones y midiendo/observando el fenómeno en condiciones cambiantes Confirmación o refutación la hipótesis en la evidencia (observaciones) recogida en el experimento basada 1.
Si se confirma se obtiene una tesis o teoría científica.
25/04/2020 INAOE 14
Prueba de hipótesis
Fenómeno
En la filosofía de Immanuel Kant , lo que es objeto de la experiencia sensible .
[ Real Academia Española de la Lengua] “In philosophy, any object, fact, or occurrence perceived or observed . In general, phenomena are the objects of the senses ( sounds) as contrasted with what is apprehended by the intellect.” [Enciclopedia británica]
e.g.,
sights and Un evento observable [American Heritage Dictionary of the English Language] Un fenómeno es cualquier ocurrencia o evento observable … directamente o mediante instrumentación.
O incluso ¡ indirectamente ! mediante la observación de sus consecuencias https://en.wikipedia.org/wiki/Phenomenon 25/04/2020 INAOE 15
Prueba de hipótesis
Hipótesis
(o
conjetura
) Una hipótesis es una explicación propuesta para un fenómeno [https://en.wikipedia.org/wiki/Hypothesis] Una hipótesis es una suposición de algo posible o imposible que se establece provisionalmente como báse de una investigación que puede confirmar o negar la validez de aquella.
[Real Academia Española de la Lengua] Una hipótesis es una proposición consistente con las observaciones, pero que no ha sido verificada ni refutada.
[http://mathworld.wolfram.com/Hypothesis.html] 25/04/2020 INAOE 16
Prueba de hipótesis
Hipótesis
Existen 2 tipos de hipótesis: De investigación o científica Estadística Ambos tipos de hipótesis están relacionadas.
25/04/2020 INAOE 17
Prueba de hipótesis
Hipótesis de investigación
o
científica
La hipótesis de investigación es una afirmación sobre la asociación o relación esperada entre variables.
…por ende, una hipótesis bien definida indica al menos, implícita o explícitamente, las variables independientes y las dependientes, y preferiblemente también las controladas.
Es la conjetura que motiva la investigación [WayneWD2008] 25/04/2020 INAOE 18
Prueba de hipótesis
Hipótesis de investigación
o
científica
La hipótesis científica debe ser falseable o refutable …esto implica que se pueden diseñar experimentos que en el caso arrojar resultados distintos a los predichos, negarían la hipótesis puesta a prueba Puede ser refutable de forma directa o indirecta.
Falsabilidad (refutabilidad ) es la propiedad que tendrá una proposición universal si existe al menos un enunciado lógicamente posible que se deduzca de ella que pueda demostrarse falso mediante observación empírica . Si ni siquiera es posible imaginar un enunciado empíricamente comprobable que contradiga la proposición original, entonces tal proposición no será falsable.
La falsabilidad es un pilar del método científico 25/04/2020 INAOE 19
Prueba de hipótesis
Hipótesis de investigación
o
científica
La hipótesis científica debe ser operacional …esto implica que este formulada claramente, sin ambigüedades , de modo que a partir de ella se pueda efectuar la deducción, estableciendo claramente (i) la relación de las variables, (ii) las implicaciones de las relaciones establecidas y (iii) la descripción clara de los índices que han de utilizarse.
25/04/2020 INAOE 20
Prueba de hipótesis
Hipótesis de investigación
o
científica
A menudo se expresan en forma de afirmaciones de tipo
Si-entonces
.
Ejemplos: Si se ingiere una aspirina, entonces el dolor disminuye Si fumar causa cáncer de pulmón, de desarrollo de la enfermedad.
entonces aquellos individuos que fuman deben tener una frecuencia más alta Lectura recomendada: http://www.eumed.net/rev/cccss/04/rcb2.htm
MUY recomendada y está en español http://www.sciencebuddies.org/blog/2010/02/a-strong hypothesis.php
Algunos consejos sobre como formular una hipótesis 25/04/2020 INAOE 21
Prueba de hipótesis
Ejercicio
: Un trabajador de una piscifactoría observa el siguiente fenómeno: Las truchas arcoíris tienen más liendres en verano cuando el nivel del agua baja. ¿Cuál de estas dos hipótesis está mejor formulada?
a) “El nivel o altura del agua afecta a la cantidad de liendres padecidas por la trucha arcoíris” b) “La trucha arcoíris padece más liendres en condiciones de niveles de agua baja por que el agua contiene menos oxígeno” Solución: La segunda es la correcta; establece los participantes (las truchas), las variables independientes (oxígeno en el agua) y dependientes (número de liendres) e indica el efecto predicho (aumento del número de liendres como consecuencia de una disminución del oxígeno).
La primera no es falseable; no se puede diseñar un experimento que la confirme ya que no explica el porqué ocurre el fenómeno observado y carece de variables establecidas y controladas. Observa que el nivel o altura del agua, no es una variable, sino parte del fenómeno observado.
Ejemplo modificado de: [http://explorable.com/how-to-write-a-hypothesis INAOE 22
Prueba de hipótesis
Ejercicio
: Indica si las siguientes hipótesis están bien o mal formuladas y por qué:
a) “Nuestro universo está rodeado por otro universo mayor, con el que no tenemos contacto” b) “Las plantas infectadas de insectos áfidos expuestas a catarinas/mariquitas presentarán menos insectos áfidos tras una semana en comparación con plantas infectadas que no sean expuestas a catarinas/mariquitas” c) “Las catarinas/mariquitas son un buen pesticida natural para tratar plantas afectadas por insectos áfidos” Ejemplo de: [http://www.sciencebuddies.org/blog/2010/02/a-strong-hypothesis.php] 25/04/2020 INAOE 23
Prueba de hipótesis Solución: a)
Mal formulada
. Independientemente o no de si es cierta, la hipótesis es inherentemente no falseable; no hay ninguna medición/observación con la que podamos demostrar o refutarla. Esto es una especulación, no una hipótesis.
b)
Bien formulada
insectos . Indica la variable independiente (exposición a catarinas/mariquitas), la variable dependiente (número de áfidos), y predice el efecto (la exposición reduce el número de áfidos). Es más incluso da una dirección para el experimento (la capacidad de la catarina/mariquita de atacar la infección en una semana) c)
Mal formulada
. Contiene ambigüedades; “son un buen pesticida natural” demasiado vago. Además carece de una indicación clara de cómo se va a medir el efecto.
Ejemplo de: [http://www.sciencebuddies.org/blog/2010/02/a-strong-hypothesis.php] 25/04/2020 INAOE 24
Prueba de hipótesis
Hipótesis estadística
Una hipótesis estadística es una proposición o supuesto acerca de una o más poblaciones [WayneWD2008] La hipótesis estadística se formula como parte de una prueba de hipótesis estadístico .
o test 25/04/2020 INAOE 25
Prueba de hipótesis
Hipótesis estadística
Un hipótesis estadística es
simple
si su formulación sólo requiere de igualdades .
Ejemplos: a=0, a=b=c, a+b=c Un hipótesis estadística es
compuesta
formulación requiere de desigualdades si su (distinto de, mayor que, menor que, etc) Ejemplos: a ≠ 0, a>0, a
de un lado dos lados
(distinto de) (mayor/menor) o
de
25/04/2020 INAOE 26
Prueba de hipótesis
¿Qué es un test estadístico o prueba de hipótesis?
Es un mecanismo para determinar si hay suficiente evidencia para rechazar o aceptar una conjetura .
El test estadístico se utiliza para aceptar o rechazar hipótesis estadísticas La
prueba de hipótesis
es el uso de la estadística para determinar la probabilidad que una determinada hipótesis es cierta. [http://mathworld.wolfram.com/HypothesisTesting.
html] 25/04/2020 INAOE 27
Prueba de hipótesis
Prueba de hipótesis:
El propósito de la prueba de hipótesis es: …ayudar al investigador a [WayneWD2008] tomar una decisión acerca de la población mediante el examen de una muestra. … decidir si un parámetro cualquiera yace en un subconjunto del espacio de parámetros, o en su complemento [DeGroot MH 2012, Cap 9] ...
tomar una decisión con base en las muestras sobre si rechazar ciertas restricciones se cumplen en el modelo asumido. [UrielE2012] La prueba de hipótesis siempre es sobre parámetros de población [UrielE2012] 25/04/2020 INAOE 28
Prueba de hipótesis
Prueba de hipótesis:
Un test estadístico es una función definida sobre una muestra aleatoria, y por ende es una variable aleatoria 25/04/2020 INAOE 29
Prueba de hipótesis
El test estadístico se utiliza para aceptar o rechazar hipótesis estadísticas.
Siempre
consta de 2 hipótesis:
Hipótesis nula
relación entre las variables; las diferencias son debidas al azar Ejemplo: H 0 : μ 1 = (H μ 2 0 ): No hay diferencias o
Hipótesis alternativa
Ejemplo: H a : μ 1 μ 2 (H a o H 1 ): Existe una diferencia o relación genuina entre las variables
Prueba de hipótesis
Hipótesis nula y alternativa
:
Ejemplo: Pregunta de investigación: ¿Son los hombres más altos que las mujeres?
Hipótesis nula : No hay diferencia en la altura entre géneros Hipótesis alternativa : Hay una diferencia en la altura debida al género 25/04/2020 Figure de: [genderedinnovations.stanford.edu] INAOE 31
Prueba de hipótesis
Hipótesis nula y alternativa
:
En principio; tanto la hipótesis nula como la alternativa pueden ser simples o compuestas …pero es más común: Hipótesis nula → simple Hipótesis alternativa → compuesta 25/04/2020 INAOE 32
Prueba de hipótesis
Proceso de prueba de hipótesis
(informal)
1.
Definir las hipótesis nula y alternativa 2.
3.
4.
5.
Tomar datos Elegir la prueba estadística apropiada Calcular el valor del test (score -t,F, χ 2 ) Decidir si rechazar o no la hipótesis nula basándose alguna regla de decisión * Salvo el paso 2 que corresponde a la siguente unidad
Prueba de hipótesis
Proceso de prueba de hipótesis
(informal)
1.
Definir las hipótesis nula y alternativa 2.
3.
4.
5.
Tomar datos Elegir la prueba estadística apropiada Calcular el valor del test (score -t,F, χ 2 ) Decidir si rechazar o no la hipótesis nula basándose alguna regla de decisión
Prueba de hipótesis
De la hipótesis de investigación a la hipótesis estadística.
Intuitivo:
Ciencia Estadística Azar Hipótesis nula Hipótesis científica Hipótesis alternativa
25/04/2020 INAOE 35
Prueba de hipótesis
De la hipótesis de investigación a la hipótesis estadística.
Ejemplo: Supongamos un experimento para determinar el efecto de 2 metodologías de enseñanza.
El primer método implica clases con un profesor y seminarios, el segundo involucra únicamente las clases con el profesor.
Hipótesis de investigación : “Si los estudiantes asisten a seminarios, además de tomar las clases con un profesor, su rendimiento mejora” Fuente: [https://statistics.laerd.com/statistical-guides/hypothesis-testing.php] 25/04/2020 INAOE 36
Prueba de hipótesis
De la hipótesis de investigación a la hipótesis estadística.
Ejemplo (continuación): Definimos las distribuciones que se van a comparar: Distribución 1 (sin seminarios) : Grupo de n alumnos que asisten a clases con un profesor pero no toman seminarios Distribución 2 (con seminarios) además toman seminarios : Grupo de n alumnos que asisten a clases con un profesor y 25/04/2020 INAOE 37
Prueba de hipótesis
De la hipótesis de investigación a la hipótesis estadística.
Ejemplo (continuación): Finalmente, re estadísticas: expresamos la hipótesis de investigación en términos de las hipótesis Hipótesis nula : Tomar seminarios no mejora el rendimiento de los estudiantes Hipótesis alternativa : Tomar seminarios tiene un efecto positivo en el rendimiento de los estudiantes.
25/04/2020 INAOE 38
Prueba de hipótesis
¡Cuidado!
Imprecisión común : A la hipótesis estadística alternativa , muy a menudo se refieren a ella como hipótesis de investigación Rechazar la respalda la hipótesis nula y aceptar la hipótesis alternativa no necesariamente hipótesis de investigación .
Incluso cuando una investigación/es hipótesis se acepta cómo válida bajo una investigación, puede llegar a ser refutada por otra/s Lectura recomendada: http://statisticalsage.wordpress.com/2011/0 9/21/difficult-concepts-research hypotheses-vs-statistical-hypotheses/ 25/04/2020 INAOE 39
Prueba de hipótesis
Del análisis de regresión a la prueba estadística.
Un modelo de regresión expresa una asociación entre variables La prueba estadística nos indica si la asociación entre variables es genuina o debida al azar 25/04/2020 INAOE 40
Prueba de hipótesis
Del análisis de regresión a la prueba estadística.
Ya sabemos: El GLM se puede escribir como: …y en particular, un modelo lineal aditivo simple 25/04/2020 INAOE 41
Prueba de hipótesis
Del análisis de regresión a la prueba estadística.
En el modelo regresivo el grado y dirección de la asociación viene dada por los coeficientes de regresión β i .
Si β i =0 entonces no hay una relación entre la variable independiente Xi y la independiete Y.
… en caso contrario, hay una relación (más fuerte o más débil es otra cuestión) 25/04/2020 INAOE 42
Del análisis de regresión a la prueba estadística.
Queremos saber si la asociación expresada por el modelo regresivo es genuina …en otras palabras, si para la población representada por la muestra, ocurre que el β i ≠0 Por tanto: Hipótesis nula: H 0 : β i =0 Hipótesis alternativa: H a : β i ≠0 (no hay relación) (existe una relación genuina) El coeficiente de intersección β 0 no importa… 25/04/2020 INAOE 43
Prueba de hipótesis
Del análisis de regresión a la prueba estadística.
En el contexto de un modelo de regresión, la hipótesis nula siempre es simple (sólo usa el operador igualdad). [UrielE2012] Ejemplos: H 0 : β 1 =0 H 0 : β 1 + β 2 =0 H 0 : β 1 = β 2 =0 H 0 : β 2 + β 3 =1 25/04/2020 INAOE 44
Prueba de hipótesis
Del análisis de regresión a la prueba estadística.
En el contexto de un modelo de regresión, la hipótesis alternativa siempre es compuesta. [UrielE2012] Ejemplos: H 0 : β 1 ≠ 0 H 0 : β 1 < 0 H 0 : β 1 > 0 (de dos lados) (de un lado) (de un lado) 25/04/2020 INAOE 45
Prueba de hipótesis Hypothesis Test for the Slope of a Regression Line (Ejemplo con una prueba t) Este video utiliza algunos conceptos que aún no hemos visto pero que veremos en breve.
Video: 10:46 mins Largo pero merece la pena.
http://www.youtube.com/watch?v=q_ma0FtFp04 25/04/2020 INAOE 46
Prueba de hipótesis
Del análisis de regresión a la prueba estadística.
Observaciones finales: Cada vez que aplicamos una prueba estadística, de forma implícita estamos asumiendo un modelo …aunque a menudo esto es transparente El modelo general lineal puede ser utilizado para implementar un amplio rango de test estadísticos [Friston KJ et al 1995, HBM, 2:189:210] 25/04/2020 INAOE 47
ERRORES DE TIPO I Y TIPO II
25/04/2020 INAOE 48
Nivel de significancia ( α) y poder estadístico (1-β)
Recuerda:
1.
2.
3.
4.
5.
Proceso de prueba de hipótesis
(informal)
Definir las hipótesis nula y alternativa Tomar datos Elegir la prueba estadística apropiada Calcular el valor del test (score -t,F, χ 2 ) Decidir si rechazar o no la hipótesis nula basándose alguna
regla de decisión
Nivel de significancia ( α) y poder estadístico (1-β)
En prueba de hipótesis podemos cometer 2 tipos de errores:
Errores de Tipo I
o de
Tipo
α : Rechazar la hipótesis nula cuando esta es cierta. Falso positivo .
Errores de Tipo II
o de
Tipo
β : No rechazar la hipótesis nula cuando esta es falsa. Falso negativo .
¡No confundir esta β con los coeficientes de la INAOE 50
Nivel de significancia ( α) y poder estadístico (1-β) 25/04/2020 [Figuras de: joanakompa.com] INAOE 51
Nivel de significancia ( α) y poder estadístico (1-β)
Implementación de la regla de decisión
:
Es difícil minimizar ambos errores a la vez.
A menudo (prueba de hipótesis clásica) se elige un
nivel de significancia
determinado ( elección de α ) que indica la tolerancia aceptada a los errores de Tipo I .
Ejemplo: α=5% significa que el investigador está dispuesto a rechazar la hipótesis nula H 0 cuando esta es cierta el 5% de las veces.
25/04/2020 INAOE 52
Nivel de significancia ( α) y poder estadístico (1-β)
Implementación de la regla de decisión
:
Una vez elegido el nivel de significancia ( α ) este se traduce al llamado valor crítico
c
.
Puede haber más de un valor crítico si la hipótesis es compuesta de dos lados.
El valor crítico c en una muestra es el umbral contra el que se compara el resultado del test estadístico para determinar si se rechaza o acepta la hipótesis nula .
Cada prueba estadística produce un tipo de score o valor que se compara contra el valor crítico.
25/04/2020 INAOE 53
Nivel de significancia ( α) y poder estadístico (1-β)
Implementación de la regla de decisión
:
La regla de decisión consiste simplemente en la comparación del resultado de la prueba estadística contra el valor crítico
c
: Si s≥c ⇒ rechazar H 0 sino (s Nivel de significancia ( α) y poder estadístico (1-β) 25/04/2020 [Figuras de: www.statstodo.com] INAOE 55 ¿Por qué decimos “ en lugar de “ aceptar no rechazar la hipótesis nula” la hipótesis nula”? Si la hipótesis nula es rechazada con la evidencia de la muestra, esta es una conclusión robusta. Recuerda que hemos fijado un nivel de significancia ( α ). Sin embargo, aceptar la hipótesis nula es una conclusión débil ya que no conocemos la probabilidad de no rechazar la hipótesis nula; en otras palabras, no conocemos, o no hemos fijado, la probabilidad de cometer errores de Tipo II ( β ). Por tanto, no es que aceptemos la hipótesis nula, sino que no tenemos evidencia suficiente como para rechazarla. 25/04/2020 INAOE 56 Nivel de significancia ( α) y poder estadístico (1-β) Decisión \ Realidad Aceptar H 0 ; Rechazar H a H 0 verdadera / H a falsa Correcto ( p=1-α ) Rechazar H 0 ; Aceptar H a Error de Tipo I (p=α) H 0 falsa / H a verdadera Error de Tipo II (β) Correcto (1-β) En el proceso de prueba de hipótesis la parte más subjetiva es la determinación a priori de nivel de significancia ( α ) La probabilidad de cometer errores de tipo I se puede decrementar alterando el nivel de significancia ( α) Desafortunadamente, esto conlleva el incremento del riesgo de cometer errores de tipo II, y viceversa Nivel de significancia ( α) y poder estadístico (1-β) La decisión sobre el nivel de significancia estadístico no debe ser arbitraria sino basada en el tipo de error que queramos reducir. Los valores del nivel de significancia más comunes son 5%, 1% y 0.1% A veces, la prueba estadística se expresa de forma condicional a varios niveles de significancia. 25/04/2020 INAOE Figura de: [http://www.psycho.uni-duesseldorf.de/aap/projects/gpower/reference/reference_manual_02.html] 58 Significancia estadística Significancia estadística El p-valor es el resultado cuantitativo de una prueba hipótesis La prueba de hipótesis da como resultado un valor o score que se “traduce” a una probabilidad, el p valor Intuitivo: El valor p, o p-valor (o si se me permite el anglicismo, p-value) representa la probabilidad de error que conlleva aceptar nuestros resultados como válidos. 25/04/2020 INAOE 60 Significancia estadística Formal El p-valor es la probabilidad de que una variable X normalizda (Z) adquiera un valor mayor o igual al valor observado normalizado (z observada ) puramente por azar [http://mathworld.wolfram.com/P Value.html] 25/04/2020 INAOE 61 Significancia estadística Regla de decisión : La hipótesis nula se rechaza si: α≥p Cuanto más pequeño el p-valor, más fuerte es la evidencia contra la hipótesis nula . 25/04/2020 INAOE 62 Significancia estadística p-valor El p-valor permite reconocer aquellos descubrimientos dignos de mención estadísticamente hablando. Cuanto menor es el p valor, menor es la posibilidad de la hipótesis nula; que no haya diferencia entre los grupos de tratamiento [DuPrelJB2009] El p valor representa un índice decreciente de fiabilidad de un resultado […]. Cuánto mayor es el p-valor, menos podemos confiar en que la relación observada entre variables en la muestra sea indicativa de una posible relación en la población [http://www.statsoft.com/textbook/elementary-statistics concepts/] Sin importar el p-valor; ¡¡¡NO SE PUEDE CONCLUIR NADA SOBRE EL TAMAÑO DEL EFECTO!!! Para eso se requieren los intervalos de confianza Significancia estadística Proceso de prueba de hipótesis 1. 2. (formal; más o menos) Formular la hipótesis nula y la hipótesis alternativa La hipótesis nula a menudo implica que las observaciones son el resultado del azar La hipótesis alternativa representan un fenómeno real combinado con un componente de variación al azar a menudo implica que las observaciones Identificar una prueba estadística que permita evaluar si la hipótesis nula es cierta. 3. Calcular el p-valor 4. Comparar ( α ) . 1. 2. el p-valor con un umbral de significancia aceptable Si p< α ⇒ la prueba es positiva, y se dice que la observación del fenómeno es estadísticamente significativa (se rechaza la hipótesis nula) Si p> α ⇒ la prueba es negativa, y se dice que la observación del fenómeno no es estadísticamente significativa (no se puede rechazar la hipótesis nula) Fuente: [http://mathworld.wolfram.com/HypothesisTesting.html] 25/04/2020 INAOE 64 Poder estadístico Informal: La función de potencia de una prueba de hipótesis indica la probabilidad de rechazar la hipótesis nula en función del valor real del parámetro sobre el que se ha definido la hipótesis. Ejemplo: Si la hipótesis nula está definida sobre la media (H 0 : μ =0), la función de potencia de un test estadístico es la probabilidad de rechazar H 0 dado que la media es μ . 25/04/2020 INAOE 65 Poder estadístico Formal: Sea S un espacio de muestra y X una muestra X=(X 1 ,…,X n ) ∈S Sea una partición de S formada por los subconjuntos disjuntos S 0 y S 1 tal que: S 0 es el conjunto que contiene los valores de X para los cuales se acepta la hipótesis nula S 1 es el conjunto que contiene los valores de X para los cuales se rechaza la hipótesis nula, a.k.a. región crítica . 25/04/2020 INAOE 66 Poder estadístico Formal: Sea un test estadístico cualquiera δ, y sea θ ∈Ω parámetro sobre el que se ha definido el test Al conjunto Ω se le llama el espacio de parámetro el Sea Ω 1 , Ω 2 , una partición de Ω Observa que como Ω 1 , Ω 2 forman una partición de Ω, eso significa que son disjuntos y por tanto, θ sólo puede pertenecer a Ω 1 o Ω 2 pero no a los dos. Sean las hipótesis de la prueba de hipótesis: H 0 : θ∈Ω 0 H a : θ∈Ω 1 25/04/2020 INAOE 67 Poder estadístico Formal (continuación): Se llama función de potencia a la función: 25/04/2020 INAOE 68 Poder estadístico Dada la función de potencia: Φ(θ|δ) es la probabilidad de rechazar la hipótesis nula H 0 . 1-Φ(θ|δ) nula H 0 . es la probabilidad de aceptar la hipótesis 25/04/2020 INAOE 69 Poder estadístico Idealmente: ∀θ∈Ω 0 ∀θ∈Ω 1 ⇒ Φ(θ|δ)=0 ⇒ Φ(θ|δ)=1 Si esto ocurriese, entonces indistintamente del valor de θ, el test δ llegaría a la decisión correcta con probabilidad 1 . ¡No habría error! Ahora podemos redefinir los tipos de errores en términos de la función de potencia. 25/04/2020 INAOE 70 Poder estadístico La probabilidad de error de Tipo I del test es por tanto: 25/04/2020 INAOE 71 Poder estadístico La probabilidad de error de Tipo II del test es por tanto: 25/04/2020 INAOE 72 Función de potencia Si la hipótesis nula es simple (θ=θ el error de Tipo I, 0 ), puede determinarse Si la hipótesis alternativa es simple (θ=θ determinarse el error de Tipo II, 1 ), puede Lo primero es común, lo segundo no tanto… …de aquí que normalmente fijemos el nivel de significancia α diseñar la regla de decisión que, manteniendo este nivel de significancia, conlleve el menor riesgo de tipo II (test uniformemente más potente) y Para saber más: http://www.uv.es/ceaces/tex1t/6%20para/potencia/CHIPOTES.ht m 25/04/2020 INAOE 73 Poder estadístico De Groot 2012 Cap 9 http://people.stern.nyu.edu/churvich/Regress/Han douts/Chapt6.pdf La que tiene el lenguaje más llano sin sacrificar exactitud http://www.uv.es/ceaces/tex1t/6%20para/potencia /CHIPOTES.htm En español; Este es más formal https://onlinecourses.science.psu.edu/stat414/no de/305 Contiene 3 ejercicios resueltos y una explicación más visual 25/04/2020 INAOE 74 Poder estadístico Algunas cosas que afectan al poder estadístico de una prueba de hipótesis: Tamaño del efecto Cuanto mayor sea el tamaño del efecto que se desea detectar, mayor será la probabilidad de obtener hallazgos significativos y, por lo tanto, mayor será el poder estadístico. Tamaño de la muestra Cuanto mayor sea el tamaño muestral, mayor será la potencia estadística de un estudio. Es por ello que en los estudios con muestras muy grandes se detectan como significativas diferencias poco relevantes (overpowering), y en los estudios con muestras menores es más fácil obtener resultados falsamente negativos. Variabilidad de la respuesta Cuanto mayor sea la variabilidad en la respuesta, más difícil será detectar diferencias entre los grupos que se comparan y menor será el poder estadístico de la investigación. Es por tanto recomendable estudiar grupos lo más homogéneos posibles. Nivel de significancia Si se disminuye el valor de α también se disminuye el poder de la prueba. Es decir, si disminuimos la probabilidad de cometer un error de tipo I aumentamos simultáneamente la probabilidad de un error de tipo II 25/04/2020 Estas las volveremos a ver en más detalle en la próxima unidad cuando veamos cálculo de poder estadístico 75 Poder estadístico Direccionalidad o tipo de hipótesis Independencia de las muestras (pareamiento) Paramétricas vs no paramétricas Número de factores del modelo …estas si las veremos ahora… 25/04/2020 INAOE 76 Tipo de hipótesis / Direccionalidad Direccionalidad Pruebas de una cola : La hipótesis alternativa es de un lado. Se utilizan es testeo de hipótesis direccional Hipótesis alternativa: Hay una diferencia entre las variables y anticipamos la dirección de esa diferencia H a : μ 1 < μ 2 H a : μ 1 > μ 2 Pruebas de dos colas : La hipótesis alternativa es de dos lados. Se utilizan es testeo de hipótesis no direccional Hipótesis alternativa: Hay una diferencia entre las variables pero no anticipamos la dirección de esa diferencia H a : μ 1 μ 2 [Figuras de: http://www.mathsrevision.net/alevel/pages.php?page=64] Tipo de hipótesis / Direccionalidad Ejemplo: Pregunta de investigación: ¿Son los hombres más altos que las mujeres? Hipótesis nula : No hay diferencia en la altura entre géneros Hipótesis alternativa de una cola : Los hombres son más altos que las mujeres. Hipótesis alternativa de dos colas : Un género es más alto que el otro 25/04/2020 Figure de: [genderedinnovations.stanford.edu] INAOE 78 Tipo de hipótesis / Direccionalidad Direccionalidad : Las pruebas de una cola ofrecen un mayor poder estadístico para detectar un efecto Elegir pruebas de una cola con el único propósito de obtener una mayor significancia no es apropiado dirección! ; ¡podrías perder la diferencia en la otra Elegir pruebas de una cola tras haber ejecutado una prueba de dos colas que no rechazó la hipótesis nula no es apropiado. Prueba de dos cola Prueba de una cola Fuente: [http://www.ats.ucla.edu/stat/mult_pkg/faq/general/tail_tests.htm] Figura de: [http://www.psycho.uni-duesseldorf.de/aap/projects/gpower/reference/reference_manual_02.html] Pareamiento Independencia de las observaciones Pareada : Existe una relación biyectiva entre las observaciones de las variables. Cada observación en una variable tiene su “par” en la otra variable. Si las observaciones de un grupo se reorganizan, entonces también deben reorganizarse de forma análoga las observaciones de la otra variable. Ejemplos: Experimentos de bloque aleatorizados con dos unidades por bloque Estudios con controles emparejados de forma indivdual Experimentos de tipo intra-sujeto con repetidas observaciones sobre el mismo individuo No pareada : No hay correspondencia entre las observaciones de las variables. Las observaciones en una variable pueden reorganizarse de forma independiente una de la otra. Pareamiento El pareado o emparejamiento es una estrategia de diseño, no de análisis ; el emparejamiento ocurre durante la colecta de datos. El emparejamiento reduce el sesgo e incrementa la precisión [DinovI2005] 25/04/2020 INAOE 81 Pareamiento Pareja de gemelos 1 2 3 … N Puntaje de Agresividad 1er nacido 86 71 77 … 87 2do nacido 88 77 76 … 72 Ejemplo adaptado de [DinovI2005] Figura de: [www.trinity.edu] Pruebas paramétricas y no-paramétricas Pruebas paramétricas : Asumen una determinada distribución de la variable en la población sobre la que se pretende generalizar. Normalmente, Gaussiana. Pruebas no paramétricas : No presuponen una distribución de las variables en la población. Eso significa que es libre en términos de la distribución, pero NO significa que esté libre de toda presunción. Las pruebas no paramétricas observan el rango ordenado de los valores de las observaciones. Las pruebas paramétricas tiene más poder estadístico que las no 315:364] paramétricas, y por ende deben ser usadas mientras sea posible [GreenhalghT 1997 BMJ Analisis de 1 factor, 2 factores, …N-factores El diseño experimental puede ser de 1 factor, de 2 factores,…, de N-factores Puede entenderse (con cautela) como responder a una pregunta de investigación, a dos preguntas de investigación, o en general a n preguntas de investigación a la vez Mientras más factores más difícil es el análisis y menor es el poder estadístico de la prueba Análisis de un factor mide la significancia sobre...acertaste! ...un sólo factor Analisis de dos factores mide la significancia sobre dos factores a la vez Etc … Aunque ya lo mencionamos al principio de la unidad al definir las variables independientes, aún no hemos definido formalmente que es un factor. 25/04/2020 INAOE 85 Análisis ROC TP: Verdaderos positivos TN: Verdaderos negativos FP: Falsos positivos FN: Falsos negativos Decisión \ Realidad H 0 verdadera / H a falsa H 0 falsa / H a verdadera Aceptar H 0 ; Rechazar H a TN FN *Observa la similitud con la tabla de confusión de un clasificador 25/04/2020 Rechazar INAOE H 0 ; Aceptar H a FP TP 86 Análisis ROC 25/04/2020 Decisión \ Realidad H 0 verdadera / H a falsa Aceptar H 0 ; Rechazar H a TN Total Rechazar Negativos ; Aceptar Total FP H a INAOE H 0 falsa / H a verdadera FN TP 87 Análisis ROC …en el sentido que hay 4 valores que tener en cuenta a la vez 25/04/2020 INAOE 88 Análisis ROC Sensitividad o Recuerdo (Recall)* de Verdaderos Positivos (TPR) : o Ratio Total Positivos *El término Recuerdo o Recall está prácticamente restringido al área de aprendizaje máquina 25/04/2020 INAOE 89 Análisis ROC Especificidad o Ratio de Verdaderos Negativos (TNR) : INAOE Total Negativos 90 25/04/2020 Análisis ROC Ratio de Falsos Positivos (FPR) : Total Negativos INAOE 25/04/2020 91 Análisis ROC Observa que: 25/04/2020 INAOE 92 Análisis ROC Exactitud (Accuracy) : 25/04/2020 Total Positivos Total Negativos INAOE 93 Análisis ROC Valor Predictivo Positivo (PPV) Precisión : o 25/04/2020 INAOE 94 Valor predictivo negativo : NPV = TN/(TN+FN) Ratio de falsos descubrimientos : RFD=FP/(FP+TP) F-Measure : F=2*(Precisión*Recuerdo)/(Precisión+Recuerdo) 25/04/2020 INAOE 95 Análisis ROC Análisis ROC (del inglés “receiver operating characteristic ”) El análisis ROC o curva ROC es una gráfica de dispersión que resume la relación de los errores de alguna prueba estadística o un estimador La gráfica de dispersión presenta la relación entre el ratio de falsos positivos (FPR=1-Especificidad) y el ratio de verdaderos positivos (TPR=Sensitividad). 25/04/2020 INAOE Figura de: [csb.stanford.edu] 96 Análisis ROC Intuitivamente; un punto en el espacio ROC es mejor que otro si está situado hacia el noroeste del segundo (es decir, tiene un mayor TPR, y un menor FPR, o ambos) [Fawcett T2006] 25/04/2020 Figura de: [FawcettT2006] INAOE 97 Análisis ROC La curva ROC estadística (estimador, test, etc ,…) de una …es la representación de 1 ϕ(θ|δ) …se construye variando el umbral de discriminación (nivel de significancia). …a veces se resume/describe mediante el valor del área bajo la curva 25/04/2020 INAOE Figura de: [http://en.wikipedia.org/wiki/File:Receiver_Operating_Characteristic.png] 98 Análisis ROC 25/04/2020 INAOE Figura de: [http://en.wikipedia.org/wiki/File:Receiver_Operating_Characteristic.png] 99 Análisis ROC 25/04/2020 Figura de: [www-psych.stanford.edu] INAOE 100 Análisis ROC 25/04/2020 Figura de: [gim.unmc.edu] INAOE 101 Análisis ROC La curva ROC le da igual importancia a ambos tipos de error (Tipo I y Tipo II) y muestra cómo varían conjuntamente según cambia el criterio para una diferencia dada entre las medias de las dos hipótesis. Lecturas MUY recomendadas: CE Metz (1978) “Basic principles of ROC analysis” Seminars in nuclear medicine, 8(4):283-298 >3000 citas (Google scholar) Fawcett , T (2006) “An introduction to ROC analysis” Pattern Recognition Letters 27:861 –874 >3000 citas (Google scholar) 25/04/2020 INAOE 102 ¿Qué prueba debo aplicar? 1. 2. 3. 4. 5. Definir las hipótesis nula y alternativa Tomar datos Elegir la prueba estadística apropiada Calcular el valor del test (score -t,F, χ 2 ) Decidir si rechazar o no la hipótesis nula basándose alguna regla de decisión Del valor z al p-valor El valor z representa el valor estandarizado de una observación; es decir cuantas desviaciones estándar se encuentra la observación a la derecha (z>0) o izquierda (z<0) de su media (poblacional). 25/04/2020 INAOE 105 Del valor z al p-valor z p 25/04/2020 INAOE Animación de: [http://www.statsoft.com/textbook/distribution-tables/] 106 Del valor z al p-valor p p z 25/04/2020 INAOE 107 El t -test Hipótesis Requisitos Suposiciones / Supuestos Resultado Diferencia entre las medias de las muestras Variables numéricas Existen versiones para una y dos variables Existen versiones para datos pareados y no pareados • Distribución normal (o para ser exactos la t de Student con df grados de libertad) • Media y desviación estándar independientes • Varianzas iguales • Tamaño de las muestras alto (>30) Valor t La prueba estadística t para una muestra compara entre una distribución muestreada y una asumida, mientras que la prueba de dos muestras compara las muestras de dos variables. El valor t β 25/04/2020 INAOE 109 El valor t Figura de: [http://en.wikipedia.org/wiki/Standard_score] 25/04/2020 INAOE 110 Del valor t al p-valor Por tanto, calcular el p-valor exacto requiere resolver una integral 25/04/2020 INAOE Animación de: [http://www.statsoft.com/textbook/distribution-tables/] 111 Del valor t al p-valor Calculadora: http://www.danielsoper.com/statcalc3/calc.aspx?i d=8 Calculadora: http://www.graphpad.com/quickcalcs/pvalue1.cfm 25/04/2020 INAOE 112 1 1 2 3 4 Selecciona la direccionalidad acorde a tu hipótesis alternativa Busca la columna acorde al nivel de significancia escogido Selecciona la fila acorde a los grados de libertad Encuentra tu valor t en la intersección de fila y columna 3 Del valor t al p-valor 2 4 25/04/2020 INAOE 113 La prueba de Mann-Whitney U o Wilcoxon Rank-sum Hipótesis Requisitos Suposiciones / Supuestos Desplazamiento en la localización. Evalúa si una o dos muestras de observaciones independientes tiende a producir valores más grandes/pequeños que la otra Ordinales o Continuos • Muestreo aleatorio • Independencia intra-muestral • Independencia mutua entre las muestras • La escala de medida debe ser al menos ordinal • Las distribuciones de las variables deben coincidir excepto por sus medianas • Tamaño de la muestra grande (al menos 42 observaciones para la aproximación z) • Datos no pareados Resultados Valor z Cuando los datos son ordinales, la prueba de Mann-Whitney paramétrica más conocida. U es quizás la prueba no Para datos pareados se debe utilizar la prueba de los rangos con signo de Wilcoxon. 25/04/2020 INAOE 114 Del valor z al p-valor El valor z es una medida de desviación sobre la media. Una observación cuyo valor z sea 2.5 significa que está a 2.5 desviaciones estándar de la muestra. Observa que es fácil eliminar outliers usando el valor z; basta con eliminar las observaciones con z>3. El p valor es el área bajo la curva mayor que el valor z. Por tanto, calcular el p-valor exacto requiere resolver una integral …alternativamente y aceptando un margen de error, se pueden consultar tablas precalculadas . Aquí tienes un par de calculadoras del p-valor Calculadora: http://faculty.vassar.edu/lowry/ch6apx.html Calculadora: http://www.graphpad.com/quickcalcs/pvalue1.cfm Valores z (positivos o negativos) pequeños; o sea, cercanos a la media, están asociados a valores p grandes. De forma análoga; Valores z (positivos o negativos) grandes; o sea, lejanos a la media, en las colas de la distribución, están asociados a valores p pequeños. 25/04/2020 INAOE 115 La prueba F Hipótesis Requisitos Suposiciones / Supuestos Resultados Diferencia en el valor de la varianza Variables numéricas • • Distribución normal Varianzas homogéneas (Homoscedascity) • Independencia de las observaciones Valor F La prueba F está diseñada para comparar si las varianzas de dos poblaciones son iguales. Para ello, se calcula el ratio de estas varianzas; que si son iguales debe ser cercano a 1. 25/04/2020 INAOE 116 Del valor F al p-valor Por tanto, calcular el p-valor exacto requiere resolver una integral 25/04/2020 INAOE Animación de: [http://www.statsoft.com/textbook/distribution-tables/] 117 Del valor F al p-valor Calculadora : http://www.danielsoper.com/statcalc3/calc.aspx?i d=7 Calculadora: http://www.graphpad.com/quickcalcs/pvalue1.cfm 25/04/2020 INAOE 118 Análisis de varianza (ANOVA) univariable Hipótesis Requisitos Suposiciones / Supuestos Resultados Diferencia en el valor de la varianza para más de 2 grupos Variables numéricas • • Distribución normal Varianzas homogéneas (Homocedasticidad) • Independencia de las observaciones Valor F ANOVA es como una prueba F para múltiples grupos ANOVA no es uno, sino varios modelos. Sobre la necesidad de homocedasticidad: http://blog.minitab.com/blog/statistics-and-quality-data analysis/dont-be-a-victim-of-statistical hippopotomonstrosesquipedaliophobia 25/04/2020 INAOE 119 Prueba χ 2 sobre tabla de contingencia Hipótesis Requisitos Suposiciones / Supuestos Resultados Diferencias entre la distribución de frecuencias determinada por la tabla de contingencia comparada con una tabla de contingencia esperada Categóricas • Distribución χ 2 • Tamaño de la muestra grande (>30) • Independencia de las observaciones • Otros (Más de 5 observaciones por celda de la tabla de contingencia, sin celdas con valor 0, corrección de Yates) Valor χ 2 Los efectos en una tabla de contingencia se definen cómo relaciones entre la variable representada en las filas y la variable representada en las columnas: léase, son los niveles de la variable en las filas distribuidas de forma diferencial sobre los valores de la variable representada en las columnas. Un resultado significativo en esta prueba de hipótesis indica que la interpretación de las frecuencias de las celdas de las tablas está garantizada. Por el contrario, un rsultado no significativo indica que la distribución de frecuencias de la tabla de contingencia puede ser debido al azar [http://www.psychstat.missouristate.edu/introbook/sbk28m.htm] 25/04/2020 INAOE 120 Del valor χ 2 al p-valor 25/04/2020 INAOE Animación de: [http://www.statsoft.com/textbook/distribution-tables/] 121 Del valor χ 2 al p-valor Calculadora: http://www.graphpad.com/quickcalcs/pvalue1. cfm 25/04/2020 INAOE 122 Otras pruebas estadísticas populares y útiles Prueba de normalidad de Shapiro-Wilk: distribución normal Prueba si la muestra proviene de una Prueba de Anderson-Darling : Detecta la desviación de una muestra de una determinada distribución (incluyendo la distribución normal para la cual, esta prueba se considera una de las más potentes) Prueba de Kolmogorov-Smirnov: Prueba no paramétrica de que las muestras provienen de la misma distribución (o comparación contra una referencia). Puede también ser usada como prueba de bondad de ajuste en una regresión. Prueba de Kruskall-Wallis : Similar a ANOVA pero para datos no paramétricos Prueba T de Welch : Compara diferencias entre las medias de dos variables independientes Prueba exacta de Fisher : Similar a χ 2 para tablas de contingencia de tamaño 2x2 Prueba de McNemar : Similar a χ 2 para tablas de contingencia de tamaño 2x2 con observaciones dependientes (paredas) Prueba de Friedman : Versión no paramétrica de ANOVA Variantes de ANOVA : (1/2) factores ANOVA (entre/intra) sujetos, ANCOVA (Análisis de Covarianza), MANOVA ( versíón multivariable de ANOVA), MANCOVA, 25/04/2020 INAOE 123 ¿Qué prueba debo aplicar? 1. 2. 3. 4. 5. Definir las hipótesis nula y alternativa Tomar datos Elegir la prueba estadística apropiada Calcular el valor del test (score -t,F, χ 2 ) Decidir si rechazar o no la hipótesis nula basándose alguna regla de decisión 25/04/2020 INAOE 124 ¿Qué prueba debo aplicar? La selección de la prueba estadística apropiada depende de varios aspectos de los datos y del diseño experimental: Tamaño de la muestra (pequeño <30; grande >30) Independencia de las observaciones (pareadas o no) Número de grupos (variables) que van a ser comparados Tipos de las variables (categóricas, ordinales, discretas, etc) Distribución/es asumida/s Tipo de hipótesis alternativa (una cola, dos colas). 25/04/2020 INAOE ¿Qué prueba debo aplicar? 25/04/2020 INAOE Fuente: [http://dc281.4shared.com/doc/HRgHf_KM/preview001.png] 126 ¿Qué prueba debo aplicar? 25/04/2020 INAOE Fuente: [http://dc281.4shared.com/doc/HRgHf_KM/preview001.png] 127 ¿Qué prueba debo aplicar? Parametric 25/04/2020 Fuente: [www.sigmazone.com] INAOE 128 ¿Qué prueba debo aplicar? Non-Parametric 25/04/2020 Fuente: [www.sigmazone.com] INAOE 129 ¿Qué prueba debo aplicar? Variable independiente Número Tipo 1 población N/A 2 poblaciones independientes 2 categorías 3 o más poblaciones … categóricas … 1 1 … 1 1 Variable dependiente Número Tipo Continuas normal Normal 1 Non-normal Categórica Normal … Prueba t-test de una muestra t-test de dos muestras Mann Whitney, Wilcoxon rank sum test χ 2 test, prueba exacta de Fisher ANOVA de un factor … Media Media Mediana Proporción Medias … Estadística observada 25/04/2020 Puedes encontrar tablas más completas en: • http://www.ats.ucla.edu/stat/mult_pkg/whatstat/choosestat.html • http://bama.ua.edu/~jleeper/627/choosestat.html • http://www.bmj.com/content/315/7104/364/T1.expansion.html Intervalos de confianza Lecturas recomendadas: Altman et al Eds. (2000) “Statistics with Confidence: Confidence intervals and statistical guidelines”, 2nd Edition, Wiley Efectivamente, un libro completo sólo sobre intervalos de confianza Desafortunadamente no tengo acceso al libro http://www.wiley.com/WileyCDA/WileyTitle/productCd-0727913751,descCd tableOfContents.html Gardner MJ y Altman DG (1986) “Confidence intervals rather than P values: estimation rather than hypothesis testing ” BMJ 292:746-750 >1200 citas (Google scholar) No tiene desperdicio… duPrel , JB et al (2009) “Confidence Interval or P-Value?” Deutsches Ärzteblatt International; 106(19): 335–9 Loftus GR y Masson ME (1994) “Using confidence intervals in within subjects designs“ Psychonomic Bulletin &Review 1(4):476-490 25/04/2020 INAOE 132 Intervalos de confianza Rango de valores que probablemente incluye al parámetro real de la población deseado (media, mediana, etc) [DuPrelJB2009] Indican un rango plausible para el valor real relacionado a la medida del punto estimado a partir de la muestra. [http://www.stats.gla.ac.uk/steps/glossary/confiden ce_intervals.html] 25/04/2020 INAOE 133 Intervalos de confianza Intervalos de confianza : Ventajas intuitivas: Un intervalo de confianza representa alejarse de establecer un valor único de valores para un estimador, para ofrecer a cambio un rango plausible para la población. [GardnerMJ1986] En un experimento real, no obtenemos la media poblacional sino sólo su estimado. Por tanto, tener alguna forma de determinar que fe le tenemos al estimado es conveniente [LoftusGR1994] …efectivamente, el error estándar va en esta dirección; no en vano: “The standard error of the sample statistic, [...] is a recognition that a sample is most unlikely to determine the population value exactly. In fact, if a further sample is taken in identical circumstances almost certainly it will produce a different estimate of the same population value. The sample statistic is therefore imprecise, and the standard error is a measure of this imprecision. By itself the standard error has limited meaning, but it can be used to produce a confidence interval, which does have a useful interpretation.” [GardnerMJ1986] 25/04/2020 INAOE 134 Intervalos de confianza El nivel de confianza es el valor de probabilidad 1 α asociado a un intervalo de confianza. Un nivel de confianza del k% significa que el intervalo de confianza cubriría al valor real en k de cada 100 estudios que se llevasen a cabo Un intervalo de confianza calculado al k% se interpeta como que tenemos una seguridad al k% de que el valor real del parámetro está contenido en el intervalo Un nivel de confianza frecuentemente usado es el 95% …pero obviamente podemos utilizar otros; 99%, 99.99% 25/04/2020 INAOE 135 Intervalos de confianza Los límites de confianza son los valores superior e inferior que delimitan al rango del intervalo de confianza Los valores fuera de los intervalos de confianza no son imposibles; no se excluyen, …simplemente son improbables. 25/04/2020 INAOE 136 Intervalos de confianza La forma exacta de calcular los límites de confianza varía dependiendo: del parámetro estimado (obviamente), del diseño experimental (within-/between- subjects), y de si se hace sobre una muestra o sobre diferencias entre otras cosas… …no obstante, hay un estándar principio común : sumar y restar al estimador algún múltiplo del error No veremos todas las posibilidades, sólo algunas… 25/04/2020 INAOE 137 Intervalos de confianza Intervalo de confianza para la media para una sóla muestra con muestras grandes: 25/04/2020 Doble cola… La distribución Z es la distribución normal estándar INAOE 138 Intervalos de confianza Intervalo de confianza para la media para una sóla muestra con muestras pequeñas (si se asume normalidad): Doble cola… 25/04/2020 Se utiliza la distribución t con n-1 grados de libertad asociado a una confianza 100(1 α )% No es un error; es el nivel de significancia completo 139 Intervalos de confianza Intervalo de confianza para la diferencia entre medias para dos muestras no pareadas (si se asume normalidad): Error estándar de la diferencia …donde: 25/04/2020 Desviación estándar de la diferencia INAOE 140 Intervalos de confianza Límites de confianza : Puedes encontrar algunos otros casos de cómo calcular los intervalos de confianza en: Gardner MJ y Altman DG (1986) “Confidence intervals rather than P values: estimation rather than hypothesis testing ” BMJ 292:746-750 Loftus GR y Masson ME (1994) “Using confidence intervals in within subjects designs“ Psychonomic Bulletin &Review 1(4):476-490 Newcombe RG (1998) “Two-sided confidence intervals for the single proportion: comparison of seven methods ” Statistics in Medicine 17:857-872 Morris JA y Gardner MJ (1988) “Calculating confidence intervals for relative risks (odds ratios) and standardised ratios and rates ” BMJ 296:1313-1316 Kragten , J (1994) “Calculating Standard Deviations and Confidence Intervals with a Universally Applicable Spreadsheet Technique ” Analyst 119:2161-2165 Brookmeyer R y Crowley 38:29-41 J “A confidence interval for the median survival time” Biometrics Mehta CR et al (1985) “Computing an exact confidence interval for the common odds ratio in several 2 ×2 contingency tables” Journal of the American Statistical Association 80(392):969 973 25/04/2020 INAOE 141 Intervalos de confianza Los intervalos de confianza permiten hacer afirmaciones sobre: la dirección de un posible efecto, el tamaño del efecto, y la presencia de un resultado estadísticamente significativo ( significancia ) Intervalos de confianza: …más estrechos , representan una mayor confianza los resultados … más amplios parámetro. , indican que se debieran tomar más muestras antes de hacer alguna afirmación sobre el en 25/04/2020 INAOE 142 Intervalos de confianza Dependen fuertemente del tamaño de la muestra y el nivel de confianza requerido de los grupos de estudio Tamaños de muestras más grandes conllevan intervalos de confianza más estrechos Desviaciones estándar más grandes implican mayor incertidumbre, y en consecuencia mayores intervalos de confianza 25/04/2020 INAOE 143 Intervalos de confianza Los intervalos de confianza pueden complementar , e incluso sustituir , a los mecanismos tradicionales de prueba de hipótesis [LoftusGR1994] 25/04/2020 INAOE 144 Intervalos de confianza y p-valores En contraste con los p-valores, los intervalos de confianza indican la dirección del efecto estudiado. [DuPrelJB2009] Pequeñas diferencias sin interés pueden ser estadisticamente significativas dado un tamaño de muestra lo suficientemente grande, mientras que efectos clínicamente importantes pueden no alcanzar la significancia estadística simplemente por un tamaño de muestra pequeño. [GardnerMJ1986] En contraste con los intervalos de confianza, los p-valores indican la diferencia con respecto a un umbral estadístico previamente definido α. 25/04/2020 INAOE 145 Intervalos de confianza Ejercicio Datos: : Dos farmacéuticas comercializan sus marcas de Ibuprofeno. Queremos saber si alguna de las marcas tiene una concentración más alta de Ibuprofeno en sus tabletas con un nivel de significancia del 5%, y si esta es significativa cuál tiene la concentración más alta. Indolorex n=36 Media muestral x1=358 mg Desviación estándar muestral s1= 10 mg IbuGenérico n=35 Media muestral x2=345 mg Desviación estándar muestral s2= 14 mg Nota 1: La solución “original” en la fuente (mathtrench) es correcta pero confusa; utiliza intervalos de confianza basados en z, pero usa el valor t para la regla de decisión. Aquí lo resolveremos utilizando sólo la distribución t , lo que lleva a pequeñas diferencias numéricas. Nota 2: En este ejercicio se requiere el uso de tablas precalculadas ( http://easycalculation.com/statistics/t-distribution-critical-value-table.php ) o de una calculadora de la distribución t en línea ( http://stattrek.com/online-calculator/t distribution.aspx ¡Ojo! es 1-tail). Problema modificado de: INAOE 146 Intervalos de confianza Solución : Básicamente nos están pidiendo un prueba de hipótesis de si hay una diferencia entre las medias: H 0 : μ 1 =μ 2 H a : μ 1 ≠μ 2 Asumiendo distribuciones normales (ambos n>30 y ninguna indicación contraria), podemos utilizar un simple t test de dos colas Observa que en la solución “original” el usa directamente la distribución z. Si el nivel de significancia α=5% entonces buscamos el intervalo de confianza al 95% 25/04/2020 INAOE 147 Intervalos de confianza Solución : 1) Buscamos el valor crítico para la regla de decisión : Extraemos el valor de un 95% n 1 +n 2 y libertad ): t asociado para nivel de confianza al considerando 2 colas (con -2=69 grados de t= 1.9950 25/04/2020 Valor t obtenido de la tabla: http://easycalculation.com/statistics/t-distribution critical-value-table.php INAOE 148 Intervalos de confianza 2) Calculamos el valor t de la diferencia 25/04/2020 INAOE 149 Intervalos de confianza 3) Para saber si rechazamos o no la hipótesis nula, simplemente comparamos nuestro valor t con el valor crítico para ver si cae dentro del intervalo de confianza (regla de decisión) 150 25/04/2020 INAOE Intervalos de confianza 4) Aún falta indicar cuál marca tiene más concentración de Ibuprofeno. Para ello, calculamos los intervalos de confianza. Para lo cual necesitamos el SE diff : 25/04/2020 INAOE 151 Intervalos de confianza 5) Ahora ya podemos calcular el intervalo de confianza al 95%: 25/04/2020 INAOE 152 Intervalos de confianza 6) Finalmente, para saber cual de las medias es mayor observamos los intervalos de confianza: Como en este caso los límites del intervalo de confianza ambos son positivos eso significa que μ 1 >μ 2 . En otras palabras; Indolorex tiene una concentración de Ibuprofeno mayor que Ibugenérico bajo un nivel de significancia del 5%. 25/04/2020 INAOE 153 25/04/2020 INAOE 154 Anotadores Lecturas recomendadas: Gwet , KL (2008) “Computing inter-rater reliability and its variance in the presence of high agreement” British Journal of Mathematical and Statistical Psychology 61:29-48 Bland JM y Altman DG (1986) “Statistical methods for assessing agreement between two methods of clinical measurement ” Lancet 327(8476):307-310 Banerjee M (1999) “Beyond Kappa: A review of interrater agreement measures” The Canadian Journal of Statistics 27(1):3-23 Bartko JJ (1966) “The intraclass correlation coefficient as a measure of reliability” Psychological Reports 19:3-11 López de Ullibarri Galparsoro I, Pita Fernández, S. (1999) “Medidas de concordancia: el índice de Kappa” Cad Atención Primaria 6:169-171 Rousson , V et al (2002) “Assessing intrarater, interrater and test–retest reliability of continuous measurements” Statist. Med. 21:3431–3446 Kottner J (2011) “Guidelines for Reporting Reliability and Agreement Studies (GRRAS) were proposed” Journal of Clinical Epidemiology 64:96-106 Stemler, Steven E. (2004). A comparison of consensus, consistency, and measurement approaches to estimating interrater reliability. Practical Assessment, Research & Evaluation , 9(4) http://pareonline.net/getvn.asp?v=9&n=4 25/04/2020 INAOE 155 Anotadores Cada variable aleatoria en cada observación tenía un valor único… Había una única medición En otras palabras, era observada por un sólo anotador u observador (sensor, experto, métrica, etc…) Este anotador u observador único se supone “infalible”, sin error 25/04/2020 INAOE 156 Anotadores La diferencias pueden surgir por diferentes razones: Variaciones en el procedimiento experimental Variaciones en la interpretación Variaciones en la presentación Si no se conoce la verdad absoluta ( ground truth ), y los anotadores no son infalibles, en estas circunstancias es conveniente tener múltiples anotadores. 25/04/2020 INAOE 157 Anotadores A.k.a. observador, examinador, explorador En inglés: annotator, rater, scorer, judges, observer, tagger, coder Cualquier sensor, experto, técnica de medición, métrica, etc… que obtiene una medición de una variable aleatoria [definición propia]. 25/04/2020 INAOE 158 Anotadores Hay discrepancias entre anotadores Diferentes observadores califican o evalúan de forma distinta el mismo objeto ¿Cómo conciliar las anotaciones si estas difieren? Concordancia ( reliability o agreement ): Consistencia entre las decisiones Hay incongruencias intra-anotador El mismo observador presentado dos veces con el mismo objeto no siempre evalúa de la misma forma ¿Cómo puedo saber que tanto fiarme de una anotador? Fiabilidad ((test-retest) Reliability y Repeatibility entre medidas repetidas sobre un mismo objeto en condiciones similares ): Variación 25/04/2020 INAOE 159 Anotadores Se habla de sesgo entre observadores cuando un un observador da de forma consistente valores mayores(menores) que otro [ López de Ullibarri 1999] 25/04/2020 INAOE 160 Anotadores Grado de acuerdo entre observadores La concordancia puede implicar el acuerdo: Con una escala “oficial” Con otros anotadores 25/04/2020 INAOE 161 Anotadores Concordancia El plot de Bland y Altman presenta el promedio de las (dos) evaluaciones en el eje de abscisa contra la diferencia entre (dos) anotadores en cada observación, la diferencia media y los límites de acuerdo sobre el eje de ordenadas. Permite observar no sólo la concordancia en general sino el grado de acuerdo en relación al valor “real” supuesto (la media de las evaluaciones) Ejemplo: Dos anotadores pueden tener una alta concordancia en valores pequeños y tener desacuerdo en valores grandes Fuente: [Bland y Altman, 1986, Lancet] 25/04/2020 INAOE Figura de: [http://en.wikipedia.org/wiki/File:Bland-Altman-Plot.gif] 162 Anotadores Grado de concordancia demostrado al repetirse una medición en condiciones idénticas a cargo del mismo observador. Grado en que pueden reproducirse los resultados obtenidos por un procedimiento de medición. Definición de: [http://htaglossary.net/fiabilidad+intra-observador+%28n.f.%29] 25/04/2020 INAOE 163 Anotadores La fiabilidad no implica validez 25/04/2020 INAOE Figura de: [http://en.wikipedia.org/wiki/Reliability_%28statistics%29] 164 Anotadores Sin entrar en detalles, estadísticas para evaluar la concordancia y fiabilidad intra- y entre-anotadores: Probabilidad conjunta de acuerdo La más simple; Número de veces que cada valor se asigna por cada anotador dividido por el número total de evaluaciones Sólo para datos categóricos No considera el acuerdo por azar Kappa de Cohen MUY popular Sólo sirve para 2 anotadores y variables categóricas Kappa de Fleiss Extensión de la Kappa de Cohen a n anotadores Correlación inter-anotador Coeficiente de correlación de concordancia Correlación intraclase Alpha de Krippendorff Muy general Permite n anotadores, variables de cualquier tipo (categóricas, ordinales, discretas, de intervalos, de ratio) Robusta a pequeñas muestras, diseños desbalanceados, 25/04/2020 INAOE 165 25/04/2020 INAOE 166Implementación de la regla de decisión
:
“La
significancia estadística
de un resultado es la probabilidad de que la relación observada , por ejemplo entre variables, o que una diferencia por ejemplo entre medias entre dos muestras ocurrió por azar , y que en la población de donde se obtuvieron las muestras tal relación o diferencia es inexistente” [http://www.statsoft.com/textbook/element ary-statistics-concepts/]
p-valor
p-valor
p-valor
Función de potencia
Función de potencia
Función de potencia
Función de potencia
Función de potencia
Función de potencia
Función de potencia
Función de potencia
Lecturas recomendadas:
…pero también
Direccionalidad
:
Independencia de las observaciones
Ejemplo de datos pareados
N conjuntos de gemelos para saber si el 1er nacido es más agresivo que el segundo
ANÁLISIS ROC
A partir de la tabla de contingencia* de los errores podemos definir 4 desenlaces básicos:
Decidir que tan bueno o malo (el rendimiento) de nuestro estimador o prueba a la vista de la tabla de contingencia es “difícil”…
…para aliviar esta situación, se han desarrollado algunos conceptos que de alguna forma resumen relaciones entre estos 4 desenlaces básicos .
Algunas derivaciones de la tabla de contingencia
:
Algunas derivaciones de la tabla de contingencia
:
Algunas derivaciones de la tabla de contingencia
:
Algunas derivaciones de la tabla de contingencia
:
Algunas derivaciones de la tabla de contingencia
:
Algunas derivaciones de la tabla de contingencia
:
Algunas derivaciones de la tabla de contingencia
:
Ejemplo:
LAS PRUEBAS ESTADÍSTICAS BÁSICAS
Recuerda:
Proceso de prueba de hipótesis
(informal)
Ya sabemos:
La distribución normal estandarizada (media 0 y desviación estándar 1) se usa en varias pruebas de hipótesis.
El valor acumulada normal es el equivalente al valor
sobre la función de distribución sobre la función de densidad de probabilidad normal
El
valor para un determinado valor z es básicamente:
Por tanto para calcular
basta con tomar la integral bajo la curva en
.
Sea el valor estimado del parámetro
en algún modelo estadístico. El
valor t estadística t
o es cualquier cantidad de la forma:
Donde es la media muestral y SE el error estándar muestral
El p valor es el área bajo la curva mayor que el valor t.
…alternativamente y aceptando un margen de error, se pueden consultar tablas precalculadas
Aquí tienes un par de calculadoras del p valor
El p valor es el área bajo la curva mayor que el valor F.
…alternativamente y aceptando un margen de error, se pueden consultar tablas precalculadas
.
Aquí tienes un par de calculadoras del p valor
Efectivamente….resolviendo al integral
… alternativamente y aceptando un margen de error, se pueden consultar tablas precalculadas
.
Aquí tienes una calculadora del p-valor
Recuerda:
Proceso de prueba de hipótesis
(informal)
INTERVALOS DE CONFIANZA
Intervalos de confianza
Intervalos de confianza
Límites de confianza
:
Límites de confianza
:
Límites de confianza
:
Límites de confianza
:
Límites de confianza
:
Intervalos de confianza
Intervalos de confianza
Intervalos de confianza
Solución
:
Solución
:
Solución
:
Solución
:
Solución
:
ANOTADORES
Hasta ahora:
En condiciones reales, los observadores u anotadores no son infalibles
Anotador
Sesgo entre observadores
Concordancia
entre anotadores
Fiabilidad
intra-observador
Fiabilidad
GRACIAS, ¿PREGUNTAS?