Clase-3-confiabilidad-validez-y-ensamblaje-AA

Download Report

Transcript Clase-3-confiabilidad-validez-y-ensamblaje-AA

Confiabilidad, Validez y Ensamblaje

Andrea Abarzúa.

Confiabilidad

  

Qué es Cosas que limitan la confiabilidad Cómo se estima la confiabilidad

Qué es la confiablidad

  

La confiabilidad tiene que ver con el error propio de “el hecho” de medir.

A mayor confiabilidad, menor error en la estimación de puntajes de los evaluados.

Si podemos estimar la varianza error de una medida, podemos estimar su confiabilidad (más adelante en esta presentación).

Qué es la confiablidad

Confiable pero no válido Confiable y válido

Entonces…

 

Nuestra confiabilidad le pone un techo a nuestra validez… Un test no puede ser válido si no es confiable

Limitaciones para la confiabilidad

Número de ítems de una escala (no olvidar la profecía de Spearman-Brown)

Variabilidad del grupo examinado

Limitación de tiempo

Métodos para estimar la confiabilidad

 

Métodos empíricos

Formas paralelas

Test-retest Métodos basados en la aplicación única de un test

Bipartición

Consistencia interna

Métodos para estimar la consistencia entre jueces

Una mirada a los índices de consistencia interna

 

Basta con sólo una aplicación Son difíciles de lograr cuando medimos cosas diversas

Validez

1.

2.

3.

4.

5.

6.

Definiciones Fuentes de amenaza a la validez Procedimientos para mejorar y reunir evidencia sobre la validez Categorías de evidencia sobre validez Presentación de Resultados y Validez Estándares referidos a la validez en sistemas de medición

1. Definiciones

Definición tradicional

 La prueba o evaluación mide aquello que se propone medir, es una característica propia del test 

Definición actualizada

  Involucra la interpretación de los resultados para un propósito en particular o uso (ya que un puntaje puede ser utilizado válidamente para un uso, pero no para otro) Es un asunto de “grados”.

Definiciones

Validez es el grado en el cual la evidencia y teoría fundamenta las interpretaciones o inferencias que se hacen a partir de los puntajes o resultados de una prueba y las decisiones que se basan en ellos.

“Validez es un un juicio evaluativo integrado sobre el grado en que la evidencia empírica y la teoría fundamentan la adecuación de las inferencias y acciones basadas en los puntajes o resultados de una prueba u otros modos de evaluación”

(Messick, 1989, p. 13)

Por lo tanto:

   

Validez no es una característica de la prueba en sí sino de la interpretación, las inferencias y decisiones que se toman a partir de sus resultados.

El juicio sobre la validez de las interpretaciones requiere considerar el contexto y uso de los resultados, un mismo test puede dar origen a interpretaciones válidas en un contexto y menos válidas en otro.

La pregunta por la validez no se responde dicotómicamente, es un continuo algunas inferencias tienen mayor fundamento que otras.

La validación es un proceso de acumulación de evidencia sobre lo apropiado de las inferencias

2. Amenazas a la validez

Fuentes de amenaza a la validez (Koretz, 2008) :

Sub-representación del dominio: vacíos al cubrir el dominio: La prueba se concibe como una muestra del dominio evaluado y como tal existe el riesgo que no sea representativa de este, que haya aspectos relevantes excluidos, amenazando las inferencias que se realizan a partir de este “muestreo” inapropiado.

Varianza irrelevante para el dominio evaluado Evaluar algo ajeno a lo que se busca evaluar: : los sujetos varían en su desempeño por factores irrelevantes para el constructo que se quiere evaluar (construct irrelevant variance).

Usos y consecuencias que amenazan validez: por ejemplo entrenamiento o “trampas”

Procedimientos para incrementar la validez de la medición y reunir evidencia sobre ella

  

Antes y durante la elaboración (Haladyna, 1999) Evidencia sobre validez Presentación de resultados

Procedimientos

    

Definición del dominio y especificaciones de la prueba

    

Messick: “permite delimitar la frontera de lo que es evaluado” Generalmente se define contenido y habilidades Definición sobre aquello que aportará dificultad a las preguntas, es decir, en qué consiste “ser más hábil” en el dominio especificado.

El tipo de contextos y características de los ítemes El balance requerido entre las sub-dimensiones del dominio Entrenamiento, selección de los elaboradores y procedimientos apropiados de desarrollo de preguntas y tareas.

Revisión cuidadosa de errores de construcción (habilidad escasa y entrenable)

Lista de chequeo o verificación para cada pregunta, juicio global.

Clasificación de los ítemes y monitoreo de la “cobertura” de las especificaciones durante la producción.

Importancia de cada una de las preguntas en un contexto de altas consecuencias y creciente presión por transparencia.

Conocimiento de datos y procedimientos Aplicación de conceptos y procedimientos Resolución de problemas Números y Operaciones Formas y espacio Álgebra Datos y Azar

Ejemplo PISA 2003

Dimensión de contenido

Matemáticas : cantidad, formas y espacio, cambio y relaciones, incertidumbre Lectura : textos continuos y discontinuos

 

Dimensión de Proceso

Matemáticas: reproducción, conexiones, reflexión Lectura : extraer información, interpretar textos, reflexionar y evaluar

Dimensión de situación o contexto

Matemáticas: situaciones auténticas personales, educacionales u ocupacionales, situaciones públicas o de interés comunitario, situaciones científicas .

Lectura : textos personales, públicos, ocupacionales, educacionales

Balance buscado

Por ejemplo NAEP especifica que para grados inferiores predominarán textos narrativos, mientras que para estudiantes mayores el % de textos argumentativos e informativos pesa más.

Cada pregunta importa: la parte se interpreta como el todo

Cada pregunta importa: la parte se interpreta como el todo

Cada pregunta importa: la parte se interpreta como el todo

Cada pregunta importa: la parte se interpreta como el todo

Tipos de evidencia acerca de la validez

     Evidencia basada en el contenido del test Evidencia basada en los procesos de respuesta Evidencia basada en la relación con otras variables Evidencia basada en la estructura interna del test Evidencia basada en las consecuencias de la medición (validez consecuencial)

Evidencia basada en el contenido

Juicio experto sobre el contenido del test y el grado en que este es representativo del dominio que busca evaluar Se juzga la medida en que el test en su conjunto y cada uno de sus ítemes “cubre” apropiadamente el dominio, y la medida en que se evita exitosamente la “contaminación” con aspectos ajenos al dominio.

Herramientas: -Clasificación de las preguntas (antes de la prueba piloto), es posible comparar clasificaciones según distintos jueces y reunir evidencia sobre la consistencia de sus clasificaciones.

-Verificación de alineamiento entre preguntas y definiciones del dominio (juicio analítico y de conjunto). ¿pertenece o no?

-Revisión de “sensibilidad” (para reducir varianza debida a elementos ajenos) y confusiones frecuentes. Riesgo de insipidez.

Item Juez 1 1 2 Números/ procedimiento rutinario Datos y azar/resolución problemas 3 Juez 2 Juez 3 Números/ procedimiento rutinario Datos y azar/procedimiento rutinario Números/ procedimiento rutinario Datos y azar/--- Nota: problema de formulación

Evidencia basada en procesos de respuesta

Procedimientos:

Registro de preguntas durante la aplicación experimental o piloto.

Revisión por parte de los sujetos: argumentos a favor de respuestas (correctas/incorrectas).

Pensamiento en voz alta: entrevista para describir los procesos utilizados al responder al ítem*.

Evidencia basada en la relación con otras variables

Evidencia de validez predictiva

Evidencia sobre validez convergente y discriminante: correlación con otros tests que miden el mismo constructo y con otros tests que miden diferentes constructos.

Se debe obtener evidencia de ambos, se espera mayores correlaciones con tests que miden el mismo constructo que con los que miden constructos* diferentes.

Correlaciones SIMCE-PSU

Evidencia basada en la estructura interna del test

Medida en la cual los ítemes o tareas del test se relacionan del modo esperado con el constructo

Análisis factorial

Evidencia basada en las consecuencias y usos del test

Análisis de consecuencias esperadas y no esperadas, para verificar si se cumplen los propósitos que motivaron la creación del test

Diferentes consecuencias para distintos grupos

Entrevistas

Registros de decisiones basadas en los resultados

Actualmente

Estudios de validez de sistemas de rendición de cuentas

“-Does the accountability system pick the right schools for rewards, sanctions and intervention?

- Does the accountability system do what it is intended to do?

To what degree are the intended actions ocurring in relation to the application of rewards, sanctions and interventions?

( A Framework for examining validity in state accountability systems, CCSSO, 2004)

Estándares asociados a validez de las mediciones

Ejemplo ETS: Proveer evidencia de los estudios que apoyan la validez de las inferencias basadas en la prueba.

Difundir una clara definición del constructo que se está evaluando: habilidades, conocimiento, el propósito de la evaluación, la interpretación adecuada de los puntajes o resultados, y la población objetivo de la prueba.

-Corregir los efectos de inadecuada cobertura o representación del constructo y reducir las fuentes de varianza no relacionadas con este.

-Advertir sobre posibles interpretaciones inadecuadas de los resultados.

Validez y presentación de los resultados Algunos problemas frecuentes:

Listados de resultados (rankings)

Presentación de tablas que inducen a comparaciones inapropiadas sin las advertencias y reglas de interpretación correspondientes:

   Subescalas de distinto nivel de dificultad y número de ítemes, Presentación de datos de años sucesivos sin equiparación de pruebas Ausencia de información sobre significancia de las diferencias.

¿Se cumplen estos estándares de medición?

¿Cuán frecuente es que se presente evidencia que apoye la validez de las interpretaciones?

Lo más frecuente: revisiones de contenido

Estudios de validez predictiva

Lo menos: correlaciones con tests que evalúan el mismo dominio y distintos dominios.

Ensamblaje: orientaciones básicas

  

La cantidad de preguntas por eje debe acercarse lo más posible a lo planificado inicialmente.

Dentro de cada forma, las preguntas se distribuyen por ejes y bloques de preguntas, es decir, si hay dos o tres ejes, las preguntas van agrupadas por su pertenencia el eje. En caso de introducir en las formas preguntas ligadas a un mismo estímulo éstas no debe ser idealmente más de tres y un máximo cuatro en una misma forma. Esto implica que si frente a un mismo estímulo se tienen construidas 6 preguntas, se pondrá un estímulo y tres preguntas en una forma, y el mismo estímulo con otras tres preguntas en otra forma. Por ejemplo, preguntas que orientadas a la comprensión de un mismo texto; preguntas orientadas a resolver un tipo de problema matemático; preguntas dirigidas a conocer la percepción o valoración de un mismo fenómeno o sujeto, entre otras formas de agrupación posibles.

Sugerencias para ítems comunes o anclaje (pruebas con equating)

   

Debe corresponde a una “mini prueba”, que refleje las especificaciones de la prueba total Deben incluir un número suficiente de ítems(reglas sugeridas: 20% de la prueba total, al menos 10-12 ítems?) Los ítems deben ocupar la misma o aproximadamente la misma posición en las formas que se comparan (evitar que aparezcan al final de las pruebas) Los ítems deben poseer parámetros adecuados:

 

Ni excesivamente fáciles ni difíciles No pueden tener baja capacidad discriminativa

Se debe verificar si sus parámetros varían en el tiempo

Evaluar el riesgo que produzca la sobreexposición a estos ítems