Aspectos psicométricos básicos - UEE UABC

Transcript Aspectos psicométricos básicos - UEE UABC

Universidad Autónoma de Baja California Instituto de Investigación y Desarrollo Educativo Aspectos psicométricos básicos de la evaluación del aprendizaje Resumen del libro Popham, J. (1990). Modern Educational Measurement. A Practitioner’s Perspective. MA. Allyn and Bacon.

Luís Ángel Contreras Niño Febrero de 2003

Propósitos de la evaluación del aprendizaje

Diferentes propósitos educativos requieren diferentes pruebas educativas y diferentes usos de esas pruebas: cuando una prueba no empata con sus propósitos las inferencias erróneas se multiplican vertiginosamente

Aplicaciones actuales de los tests

Evaluar individuos para decidir aspectos instruccionales o vocacionales (orientación a determinar el estatus) Evaluar programas Catalizar la instrucción (orientación a mejorar la instrucción)

Evaluación referida a una norma y evaluación referida a un criterio

La principal distinción entre ambos tipos de tests depende de la manera en que interpretamos la ejecución ante el test de un examinado En un test referido a una norma interpretamos la ejecución de un examinado, en relación a las ejecuciones de otros que también respondieron la prueba

Test referido a una norma

En este caso, interpretamos los puntajes de un individuo en relación al grupo normativo Así, podemos decir que el puntaje se encuentra arriba, abajo o dentro de la norma o promedio. Es decir, cómo es la ejecución comparada con la normal Se trata de una interpretación relativa

Test criterial

Se emplea para determinar el estatus que tiene un individuo con respecto a un criterio o dominio evaluativo bien definido El dominio evaluativo típico son conocimientos o habilidades Un test criterial nos permite conocer lo que un examinado puede hacer o no Su característica distintiva es la claridad con que describe lo que mide

Dos distinciones basicas entre pruebas criteriales y normativas

Un test normativo mide categorias de competencias de los examinados que son típicamente generales Un test criterial típicamente se enfoca en dominios específicos de la conducta del examinado Test normativo Test criterial

Dos distinciones basicas entre pruebas criteriales y normativas

Una segunda distinción se refiere a la interpretación de los puntajes brutos obtenidos en la prueba En un test normativo se elaboran tablas normativas de tal manera que se pueda encontrar con facilidad el equivalente percentil de cada puntaje bruto Ejemplo: Juan contestó bien 37 ítems de 60. En la tabla ese puntaje es equivalente al rango percentil 63. Por lo tanto, el puntaje de Juan es igual o mejor que la ejecución del 63% de los examinados del grupo normativo Así, la interpretación es completamente relativa

Dos distinciones basicas entre pruebas criteriales y normativas

En un test criterial, Juan contestó bien 20 preguntas de 25. Dado que queremos saber qué tan bien logró el dominio conductual definido por el test, reportamos que obtuvo un puntaje de 80% de respuestas correctas En este caso, la interpretación es absoluta pues describe el estatus del examinado en relación con el dominio total

Relación entre la estrategia de medición y la misión del test 1. Selección de alumnos.

Para esta misión tenemos dos escenarios: Escenario con cuotas fijas Escenario con requisitos de habilidad

Relación entre la estrategia de medición y la misión del test

Escenario con cuotas fijas

(solo hay 100 lugares y demandan servicio 500 aspirantes). Aquí se requiere sortear a los aspirantes de acuerdo con sus habilidades relativas; por lo tanto, se necesita un test referido a una norma En este caso un test criterial no es útil: Si 150 aspirantes obtienen esencialmente los mismos puntajes altos, ¿cómo seleccionamos a los 100 mejores?

En cambio, los tests normativos están diseñados para detectar la variabilidad de los puntajes de los examinados, a fin de discriminar entre ellos a los mejores

Relación entre la estrategia de medición y la misión del test

Escenario con requisitos de habilidad.

Aquí no se requiere saber quién es el mejor o el peor, sino quién está calificado; se quiere reflejar el dominio con precisión. Por lo tanto se requiere un test criterial.

Un test normativo no sería útil en este caso: ¿te dejarías operar por un cirujano que recibió su título porque obtuvo el percentil 75 de entre una clase de incompetentes?

En cambio un test criterial se orienta a detectar a los candidatos que despliegan las habilidades que son requisito para tal ejercicio profesional; es decir, que reflejan el dominio del campo de conocimientos que mide el test

Relación entre la estrategia de medición y la misión del test

2. Evaluación de programas.

Al estimar el mérito de un programa instruccional es preferible emplear un test criterial Los tests normativos, por ser más bien generales, usualmente no tienen correspondencia con los aspectos curriculares de los programas evaluados; además, ofrecen pocos indicadores para el mejoramiento instruccional

Relación entre la estrategia de medición y la misión del test

3. Diagnóstico y diseño instruccional Para apoyar la elaboración de secuencias instruccionales apropiadas o para descubrir las carencias de habilidades a fin de proporcionar instrucción remedial a ciertos estudiantes, los tests criteriales son definitivamente superiores a la normativos; pues en tales casos, los profesores están menos interesados en la posición que tiene un estudiante respecto a otros

Relación entre la estrategia de medición y la misión del test

4. Asignación de recursos a gran escala Cuando se trata de decidir como distribuir recursos financieros o humanos a gran escala, enfatizar ciertas áreas de formación o comparar estudiantes de diferentes áreas geográficas, curriculares u otras, la estimación de un amplio espectro de los logros académicos de los estudiantes, aunque no esté muy bien definido, es lo más indicado. Cuando se tiene necesidad de un nivel tan general de información, un test referido a una norma resultaría de mayor utilidad.

Evaluando la calidad de un test

Los énfasis recientes en la calidad educativa, en la noción de asumir la responsabilidad y el incremento del impacto social de la evaluación del aprendizaje, obligan cada vez más a los educadores a estar interesados e informados en los elementos técnicos que definen la calidad de una pueba educativa Existen siete factores que son de primera importancia para decidir si un test es apropiado:

Evaluando la calidad de un test

1. Descripción de la conducta medida

Al evaluar, se pretende determinar el nivel de un examinado respecto a un foco particular (no podemos medir todo en una sola ocasión) Por ello, el test debe incluir una descripción de las habilidades, aptitudes y actitudes del examinado que se

pretende

medir La descripción puede ser breve (enunciado de un objetivo conductual) o muy detallada (especificaciones de ítems)

Evaluando la calidad de un test

2. Número de Ítems por conducta medida

¿Cuántos ítems debe incluir la prueba?

Un factor clave a considerar es la importancia de la decisión involucrada.

Si se quiere hacer una estimación general de la ejecución del examinado, en general se requieren pocos ítems. Si se quiere diagnosticar habilidades particulares, en conjunto se necesitan bastantes reactivos

Evaluando la calidad de un test

2. Número de Ítems por conducta medida

Si el examen tiene alto impacto (las consecuencias de su aplicación afectarán de manera importante la vida de los examinados, profesores o directivos escolares), usualmente serán necesarios muchos más reactivos que si se trata de un examen parcial de un curso.

Como regla práctica, podría decirse que deberían emplearse 10 ítems por conducta medida cuando se toma una decisión educativa razonablemente importante. Tal número podría elevarse a 20 ítems o más si el examen es de gran impacto y disminuir a unos 5 reactivos cuando el impacto sea menor.

Evaluando la calidad de un test

3. Alcance de la medida

Se refiere a la amplitud del atributo que mide el test.

Puede ser muy restringido (objetivo conductual, lo cual resulta fácil de enseñar pero puede resultar muy puntual para ser útil: objetivitis) o ser muy amplio (Ej. el conocimiento, lo cual resulta difícil de definir y medir) A mayor espectro de contenido a evaluar, menos precisa la descripción conductual y será necesario un mayor número de ítems La determinación del alcance de la medida es una operación de juicios

Evaluando la calidad de un test

4. Confiabilidad

Se refiere a la consistencia con la que una prueba mide lo que se supone que mide La consistencia de la medida puede ser en el tiempo, en cuyo caso nos referimos a ella como el

índice de estabilidad

. Aquí, los alumnos son examinados tras un período de tiempo para ver qué tan comparables son los puntajes individuales en las dos ocasiones (operación denominada test retest; si el coeficiente de correlación es alto, digamos 0.80 ó 0.90, podemos tener la seguridad de que los examinados obtienen puntajes comparables en el test aún cuando se administre en tiempos diferentes)

Evaluando la calidad de un test

4. Confiabilidad

Dado el alto costo que implica y otras dificultades asociadas, pocas pruebas realizan estudios de estabilidad. En algunos casos aplican retests a muestras de estudiantes Tanto en los tests normativos como es los criteriales la estabilidad de la prueba aumenta a medida que se incrementa el número de ítems

Evaluando la calidad de un test

4. Confiabilidad Una segunda forma de confiabilidad es emplear formas alternas; es decir, administramos dos formas del mismo test y correlacionamos los puntajes obtenidos por cada examinado en las dos formas de la prueba. El resultado es llamado coeficiente de confiabilidad de formas alternas Cabe señalar que las dos formas deben ser equivalentes en cuanto a su contenido, su dificultad y su discriminación, entre otros aspectos Satisfacer esta forma de confiabilidad puede ser importante por razones de seguridad del examen

Evaluando la calidad de un test

4. Confiabilidad

Para crear retos de una dificultad equivalente, se puede emplear un sistema de puntajes escalares Se trata de un procedimiento estadístico, post facto, de igualación de formas de examen.

En un sistema escalar de 500 a 1000, un alumno necesita para pasar 800 puntos en un examen de 75 ítems. En una versión muy difícil del test, un puntaje de 55 ítems correctos puede ser igual al puntaje escalar de 800. En una forma muy fácil, se necesita un puntaje de 60 ítems correctos para lograr un puntaje escalar de 800 y lograr pasar.

Evaluando la calidad de un test

4. Confiabilidad

Otra forma de confiabilidad es la consistencia interna, misma que indica la consistencia individual de los ítems del test; Sirve para determinar la medida en la que los ítems individuales están funcionando más o menos de la misma manera; es decir, si son homogéneos Una técnica consiste en dividir la prueba en dos partes iguales, digamos reactivos pares y nones. Los dos subtests se correlacionan. El coeficiente de correlación resultante es una estimación del grado en que las mitades del test están cumpliendo su función de manera consistente

Evaluando la calidad de un test

4. Confiabilidad

Otra medida de confiabilidad, que no se centra en la consistencia de los puntajes de un grupo de examinados es el error estándar de medida Se trata de proporcionar un índice de la precisión o consistencia de la ejecución en el test de un individuo Refleja la variabilidad que tendrían los puntajes del examinado si el test se le administrara una y otra vez Con ello queremos establecer una banda de confianza en la cual pueda ser encontrado, con cierta probabilidad, el puntaje verdadero Por ejemplo, con este índice podríamos hacer la interpretación de que el puntaje 37 de un examinado miente, más o menos, un error estándar de medida de su puntaje verdadero

Evaluando la calidad de un test

5. Validez

Es la medida en la que un test mide lo que dice que mide Técnicamente, es más apropiado hablar de validez de la inferencia que hacemos basada en los resultados del test Cuando determinamos la validez, nuestro foco es la evidencia que soporta la inferencia basada en los puntajes obtenidos en el test Existen tres tipos de evidencias complementarias de validez: la relacionada con el contenido, la relacionada con el criterio (predictiva y concurrente) y la relacionada con el constructo

Evaluando la calidad de un test

5. Validez

Evidencia de validez relacionada con el contenido Demuestra el grado en el que la muestra de ítems del test es representativa de un universo definido o dominio de contenido (¿el test cubre el contenido que se supone que cubre?

La clave para asegurarla es el juicio humano: Expertos en contenido definen el universo de contenido que el test representa (muestra) Después, expertos independientes juzgan la representatividad del contenido

Evaluando la calidad de un test

5. Validez

Puesto que los tests normativos cubren el contenido de manera general, para usar la prueba de manera efectiva es suficiente detectar el nivel del examinado en relación con el grupo normativo En cambio, los tests criteriales realizan un esfuerzo muy importante para asegurar la relevancia y una adecuada cobertura del contenido El uso de los juicios de expertos se complementa con procedimientos empíricos para asegurar la evidencia de validez de contenido

Evaluando la calidad de un test

5. Validez

Universo de contenido

Pobre cobertura de contenido Buena cobertura de contenido

Evaluando la calidad de un test

5. Validez Evidencia de validez relacionada con el criterio Demuestra en qué medida los puntajes en el test de un examinado nos permiten inferir la ejecución que tendrá en una variable criterio (por ejemplo, las calificaciones que obtendrá en la universidad- el criterio ) Existen dos tipo de evidencias: predictiva y concurrente Los estudios de validez predictiva requieren que ocurra un intervalo de tiempo considerable (por ejemplo, para correlacionar los resultados del examen de admisión y el promedio de calificaciones obtenidas por el examinado durante el primer semestre de la carrera, es necesario esperar 6 u 8 meses al menos)

Evaluando la calidad de un test

5. Validez En los estudios de validez concurrente tal intervalo de tiempo no ocurre Por ejemplo, aplicamos el examen de admisión a la universidad a los alumnos que recién terminaron el primer semestre de la carrera, el mismo día en que se da a conocer el promedio de calificaciones que obtuvieron Aunque el test fue diseñado para egresados del bachillerato y no para estudiantes universitarios, los coeficientes de correlación resultantes entre los puntajes en el test de los examinados y su promedio de calificaciones en el primer semestre, nos proporcionan alguna evidencia relacionada con el criterio Se denomina concurrente por que ambas medidas ocurren aproximadamente en el mismo tiempo

Evaluando la calidad de un test

5. Validez

En ambos casos, la calidad del estudio de validación depende del tipo de variables criterio que se emplean. Las más utilizadas son el promedio de calificaciones que el test pretende predecir, los resultados obtenidos en otras pruebas que miden el mismo atributo u otro que permite predecirlo, las estimaciones de la ejecución que realizan profesores, supervisores y otros; así como productos permanentes que testifican la ejecución

Evaluando la calidad de un test

5. Validez

Dado que la principal misión de los tests normativos es distinguir entre los examinados a fin de que puedan efectuarse comparaciones significativas, la evidencia de validez criterial es el tipo de datos de validación más útil para propósitos de predicción En cambio, puesto que casi siempre los tests criteriales se orientan a determinar lo que el estudiante puede hacer ahora, no a predecir su ejecución futura en otros escenarios, muy pocas veces se enfatiza la obtención de este tipo de evidencias de validez

Evaluando la calidad de un test

5. Validez Evidencia de validez relacionada con el constructo

Se enfoca en los puntajes en el test como una medida de la característica psicológica de interés: el constructo (construcción teórica) Primero, el diseñador de la prueba concibe la existencia de un constructo hipotético (ej. inteligencia social), basado en investigación previa Después, desarrolla un test que se supone mide este constructo, el Test de Inteligencia Social (TIS) Se dice que altos puntajes en el TIS indican que el examinado tiene inteligencia social

Evaluando la calidad de un test

5. Validez Para reunir evidencia relacionada con el constructo efectuamos una investigación en la cual predecimos que si el TIS hace lo que se supone, los examinados que gozan de popularidad, que ocupan puestos de elección y tienen otros rasgos semejantes, obtendrán puntajes más altos en el TIS, que quienes rehuyen los eventos sociales, son conflictivos y presentan otros comportamientos similares.

Si logramos obtener puntajes en el TIS de ambos grupos y encontramos que la hipótesis se confirmó, tenemos evidencia no solo sobre la validez de las inferencias basadas en el TIS, sino también acerca de la legitimidad del constructo mismo

Evaluando la calidad de un test

5. Validez

En un solo estudio no es posible obtener evidencia satisfactoria de la validez del constructo; se requiere la acumulación de evidencias de diferentes estudios de investigación Existen tres tipos de estudios de validación de constructos: estudios de intervención, estudios sobre poblaciones diferenciales y estudios de medidas relacionadas

Evaluando la calidad de un test

5. Validez Estudios de intervención

Pretenden mostrar que los examinados responden diferente a la medida trás recibir algún tratamiento Quien recibe un tratamiento debe comportarse mejor o peor (según sea el caso), que quien no lo recibe Por ejemplo, a 50 examinados les informamos que el resultado del test es crucial para su permanencia en la escuela y a otros 50 les decimos que se trata de un mero trámite, sin consecuencias para ellos. A continuación aplicamos nuestro recién elaborado

test de ansiedad ante los exámenes

(constructo para el que nos interesa reunir evidencia de validez)

Evaluando la calidad de un test

5. Validez Estudios de población diferencial

En ellos se hacen esfuerzos por mostrar que individuos que representan a distintas poblaciones obtienen puntajes diferentes en la medida Aquí, se pretende determinar si quienes tienen más de lo que se supone es el constructo, obtienen un puntaje mayor en el test, que quienes no lo tienen o lo poseen en menor medida Ejemplo: se diseño un cuestionario para medir la preocupación de las personas por la calidad de su piel. El test se aplica a 500 jóvenes de ambos sexos que tienen acné y a residentes de un asilo de ancianos, quienes tienen al menos 60 años de edad Nuestra predicción es que los adolescentes tendrán un puntaje más alto (reflejarán más preocupación) que los ancianos

Evaluando la calidad de un test

5. Validez Estudios de medidas relacionadas

Aquí, las correlaciones positivas o negativas dependen de las medidas en el test y en otras medidas atingentes Ejemplo: podemos predecir que los puntajes en nuestro nuevo test de solución de problemas estarán correlacionados negativamente con los puntajes de un test de rigidez mental Cabe señalar que no se trata de predecir la ejecución en otro test o en un criterio, el foco es el constructo (sus atributos y las posibles relaciones que tiene con otros atributos)

Evaluando la calidad de un test

5. Validez

Una validación ideal de un test incluye acumular evidencias de distintos tipos, incluidas las tres categorías tradicionales antes descritas La evidencia de validez (junto con la confiabilidad) es el indicador más importante de la calidad de un test La confiabilidad es una condición necesaria para la validez de la prueba, pero no es una condición suficiente, como hemos visto

Evaluando la calidad de un test

6. Datos comparativos La calidad y la cantidad de datos comparativos (normativos) permiten efectuar interpretaciones apropiadas de la ejecución de los examinados Los datos comparativos constituyen el marco referencial interpretativo clave en los tests normativos Cuando decimos que Luis obtuvo un puntaje en el percentil 47, queremos decir que su puntaje excede o es igual al 47% de los examinados en el grupo normativo Un buen test normativo debe estar acompañado por datos comparativos actuales, amplios y ensamblados de manera cuidadosa

Evaluando la calidad de un test

7. Ausencia de sesgo

Actualmente resultan particularmente importantes las serias desigualdades que puede ocasionar el uso inadecuado de los tests Los ítems del test pueden ofender o penalizar a un examinado con antecedentes socioeconómicos, culturales, de género u otros, que los pongan en desventaja respecto a otros examinados Existen dos aproximaciones para detectar problemas de sesgo: basadas en juicios y empíricas

Evaluando la calidad de un test

7. Ausencia de sesgo

Esencialmente, las técnicas de juicios para detectar sesgo en la prueba se basan en paneles formados con individuos similares a los examinados que pueden ser sesgados por los ítems, a quienes se les pide buscar que las preguntas: No ofendan a cierto grupo (que los retrate de manera esterotipada) No los penalice injustamente (que los examinados tengan una ejecución más deficiente aún cuando posean la misma habilidad que se está midiendo)

Evaluando la calidad de un test

Otras consideraciones

Además de los siete factores de primer orden mencionados, es posible atender otros: La facilidad de la administración La facilidad para calificar las respuestas El costo del desarrollo, aplicación y evaluación del instrumento La calidad de las evidencias documentales que acompañan a la prueba Entre otras más que es posible identificar

Nociones de estadística

Al evaluar un test, es obvio que necesitamos tener una buena idea acerca de las ejecuciones de los estudiantes en él Con miles, cientos o incluso un puñado de ejecuciones ante el test reportadas individualmente, es casi imposible obtener conclusiones significativas a partir de los puntajes brutos obtenidos por los examinados Para atender este problema, contamos con los esquemas descriptivos aportados por la estadística

Nociones de estadística

Distribuciones de frecuencia Los examinados obtienen todo tipo de puntajes, a pesar de que por efectos de la instrucción cabría esperar más estabilidad en los resultados del examen Así, los puntajes en el examen tienden a distribuirse de manera normal, lo cual significa que la mayor parte de los puntajes se agrupan en una zona intermedia, en la cual la ejecución es la típica, tiene una frecuencia mayor, es el promedio o la ejecución normal de los examinados Antes y después de dicha zona se encuentran otras dos zonas, primero una de baja frecuencia y posteriormente una de alta frecuencia

Nociones de estadística

Distribuciones de frecuencia

Lo anterior se conoce como distribución normal de frecuencias y es la manera en que se distribuyen la mayor parte de las características humanas, como la estatura, el color del pelo, la inteligencia, etc.

Su representación gráfica es la curva de distribución normal de frecuencias o campana de Gauss. Su apariencia es la siguiente:

Nociones de estadística

Curva de distribución normal de frecuencias

75 60 30 15 0 30 60

Puntajes en el test

Nociones de estadística

Indicadores de tendencia central

Los puntajes en la prueba tienden a centrarse Los tres indicadores de tendencia central son: La

media

, el promedio aritmético de todos los puntajes de la distribución. Por ello, es una medida muy representativa Se calcula mediante la fórmula: X = n X

Nociones de estadística

Indicadores de tendencia central

mediana

, es el punto que divide los puntajes en dos partes iguales A diferencia de la media, no se ve afectada por puntajes muy altos o muy bajos (a los cuales trata como un puntaje más) Sin embargo, falla en reflejar el impacto de cada puntaje en la distribución La

moda

, que es el puntaje que ocurre más frecuentemente Una distribución puede ser bimodal o trimodal

Nociones de estadística

En una distribución normal se encuentran sobre el mismo puntaje la media, mediana y moda

75 60 30 15 0 30 60

Puntajes en el test

Nociones de estadística

Indicadores de variabilidad

Las medidas de variabilidad nos indican cómo se dispersan los puntajes; qué tan variables son

X=38.2

Nociones de estadística

Indicadores de variabilidad

El índice más fácil de calcular es el

rango

. se obtiene restando el puntaje más bajo del más alto: X - X b Sin embargo su simplicidad es su única virtud. Como solo hay dos puntajes, si uno de ellos es muy alto o bajo, el rango resultante puede conducir a conclusiones erróneas acerca de la variabilidad

Nociones de estadística

Indicadores de variabilidad

Otro índice que resuelve esos problemas es la

desviación estándar

; es decir, el promedio de la variabilidad de los puntajes del examen En esencia, la desviación estándar nos indica la distancia promedio respecto a la media de cada uno de los puntajes en una distribución

Desviación estándar

75 60 30 15 0 10 20 30 40 50 60

X=43 X=9 X=54

Nociones de estadística

Indicadores de variabilidad Así, Para determinar la desviación de un puntaje se resta la media de la distribución del puntaje: x = X - X Sin embargo, obtener la desviación promedio o estándar de todas las desviaciones no puede hacerse mediante el promedio directo (el resultado sería 0, pues se cancelan las desviaciones positivas y negativas ); Por ello se emplea la fórmula:

Nociones de estadística

Indicadores de variabilidad Fórmula de la desviación estándar s = M x 2 n Mientras más dispersos estén los puntajes, mayor será la desviación estándar. Por esta razón, su uso es tan relevante para efectos comparativos, en el caso de los tests normativos

Nociones de estadística

Indicadores de relación ¿Los examinados que obtienen puntajes altos en una prueba de selección tienden a lograr buenas calificaciones cuando ingresan a la escuela que los selecciona?

Aquí se trata de determinar en que medida están relacionadas dos variables La medida para determinarlo es un coeficiente de correlación. El más común es el de Pearson, mismo que establece que la correlación r , es igual a la raíz cuadrada del cociente de la sumatoria de los productos cruzados de las desviaciones, entre el producto de las dos sumatorias de las desviaciones cuadradas, correspondientes a las variables relacionadas

Nociones de estadística

Indicadores de relación

Es decir:

M xy r =

Gráficamente, la relación puede representarse de la siguiente manera:

Correlación entre los puntajes en el examen de admisión y el promedio de calificaciones en el primer semestre

10 8 6 4 2 0 11 31 49 59 77

Planeación de la prueba

Especificar lo que el test debe medir La habilidad para construir pruebas de alta calidad es clave en el contexto educativo Como todo proceso educativo, los tests deben ser planeados; mientras más importante sea su impacto, requiere de una planeación más sistemática La planeación de una prueba enfrenta restricciones prácticas importantes que afectan su administración y calificación: ¿qué tan largo será el test? ¿se dispone de un lector óptico para calificar las pruebas? ¿se puede controlar la seguridad del test o será necesario contar con versiones diferentes cada vez que se aplique? ¿los examinados tendrán una cantidad finita de tiempo para completar la prueba? ¿Podrán emplear diccionario o calculadora?

Planeación de la prueba

Especificar lo que el test debe medir Existen diferentes esquemas de evaluación: Pruebas de lápiz y papel o por computadora, observación de los examinados en acción, como demostraciones y pruebas orales, productos permanentes, etc.

Entre ellas, las pruebas de lápiz y papel han sido uno de los esquemas preferidos por los diseñadores de tests, principalmente por las ventajas que ofrecen para atender restricciones como las antes mencionadas No obstante, aún entre los de lápiz y papel existen muchas opciones: respuesta alterna, relación de columnas, opción múltiple, ensayo, etc.

Planeación de la prueba

Especificar lo que el test debe medir

En este contexto, lo que se requiere primero es tener una buena idea del atributo que se desea medir Teniendo clara esa idea, se deben revisar los posibles esquemas evaluativos para detectar los que satisfacen mejor las necesidades,sin apresurar la decisión La siguiente tarea es crear un conjunto de especificaciónes que normen tanto la generación del test, como de sus ítems

Planeación de la prueba

Especificaciones para los tests normativos

A diferencia de los tests criteriales, los normativos requieren información descriptiva más general, pues su interés principal son los contrastes relativos entre los examinados, más que lo que estos son capaces o no de hacer Por ello, las especificaciones de una prueba normativa usualmente se denominan

especificaciones estructura del test

tabla de

Normalmente, la tabla de especificaciones es una tabla de doble entrada en la cual una dimensión está representada por el contenido que cubre el test y la otra dimensión los tipos de conducta del examinado que serán evaluados

Tabla de especificaciones

Contenido Tópico 1 Tópico 2 Tópico 3 Tópico 4

Comprensión

Aplicación 2 4 3 2 3 2 3 5 Analisis 2 2 3 4 - La tabla es útil para evitar que de manera inadvertida se sobreenfaticen o subenfaticen ciertos aspectos de contenido

Desde luego es posible añadir otras dimensiones adicionales al contenido y la conducta, a fin de balancear los ítems en aspectos tales como el sexo, el tipo de ítem y otros que se consideren relevantes

Contenido Tópico 1 Subtópico 1.1

Subtópico 1.2

Tópico 2 Subtópico 2.1

Subtópico 2.2

Comprensión

12 7 5 4

2 2

Aplicación 8 3 5 8 3 5 Tolal 20 10 10 12 5 7

Planeación de la prueba

Especificaciones para los tests criteriales

Como ya se dijo, en el caso de los test criteriales las especificaciones son bastante detalladas. Se requiere especificar lo que el examinado es capaz de hacer en relación a un dominio de conducta determinado Si el test criterial medirá más de un dominio, se deberá crear un conjunto de especificaciones por cada dominio evaluado. El procedimiento para la especificación de ítems es el siguiente:

Planeación de la prueba

Especificaciones para los tests criteriales Descripción general de la conducta a evaluar Diseñar un ítem muestra que refleje las dos clases de atributos siguientes: Delimitar, mediante afirmaciones, los atributos de los estímulos que serán presentados a los examinados Delimitar, mediante afirmaciones, los atributos de la respuesta que el examinado selecciona o explicar los estándares que servirán para juzgar las respuestas construidas Especificación adicional, mediante anexos, de contenidos elegibles u otros aspectos relevantes para los estímulos y respuestas involucrados

Planeación de la prueba

Especificaciones para los tests

Las especificaciones de ítems tienen dos propósitos: Comunicar a los usuarios de los resultados del test qué es lo que el ítem mide, a fin de que se aclare el significado de las calificaciones para propósitos instruccionales y para evaluar la efectividad de los programas Comunicar a los elaboradores de ítems detalles que les permitan generar ítems efectivos Cabe señalar que las especificaciones de reactivos deben ser elaboradas antes de redactar los ítems

Elaboración de reactivos

Elaboración de Ítems Todos los tipos de ítems solicitan al examinado seleccionar una respuesta o que construya una respuesta Los principales tipos de ítem de respuesta seleccionada son los de respuesta alterna, opción múltiple y relación de columnas Los principales tipos de ítem de respuesta construida son los de respuesta breve y los de ensayo La escritura de ítems enfrenta cinco dificultades generales:

Elaboración de reactivos

Elaboración de Ítems Instrucciones confusas (exigen mucha atención e intuición al examinado; lo mejor: elaborarlas y probarlas antes) Afirmaciones ambiguas (el examinado puede tener incorrecta la respuesta aún cuando sabe. Ejemplo: al referir, aclarar el referente) Pistas no intencionales (se dan pistas al examinado que no sabe, de modo que acierta la respuesta correcta) Sintaxis compleja (falta de unidad y uso de demasiadas cláusulas, lo que dificulta la comprensión: emplear menos los "el que", "el cual", "quien") Vocabulario difícil (uso de terminología polisilábica e hipersofisticada que dificulta la comprensión. Redactar simple)

Elaboración de reactivos

Ítems de respuesta alterna Proporciona dos respuestas y pide al examinado elegir una (si-no, faso-verdadero, etc.) Su uso más común es para identificar la corrección de afirmaciones factuales y definiciones Su uso más importante es para observar en qué medida el estudiante tiene dominio de un área, indicado por su éxito al juzgar la verdad o falsedad de proposiciones relacionadas con tal área Ventaja: cubre bien el contenido Desventaja: resulta fácil de adivinar Recomendación: tratar de no dar pistas

Elaboración de reactivos

Ítems de relación de columnas

Solicita al examinado que haga corresponder correctamente dos listas, una de premisas y otra de respuestas, que están relacionadas de alguna manera (lógica, cronológica, teórica, etc.) Ventaja: su forma compacta permite un buen muestreo de contenido en poco espacio Desventaja: se restringe a asociaciones Recomendación: hacer las listas homogéneas en contenido, cortas y desiguales en número

Elaboración de reactivos

Ítems de opción múltiple

Solicita al examinado, mediante una pregunta o una afirmación incompleta llamada base, elegir la respuesta correcta o la mejor opción entre 4 ó 5 que se ofrecen (distractores) Ventajas: es el tipo de reactivo más flexible, pues se puede emplear para medir aprendizajes cognitivos y afectivos, tanto simples como complejos; es difícil adivinar y las respuestas a los distractores permiten rastrear errores en la comprensión Desventaja: el examinado selecciona la respuesta correcta, no la produce; así, es difícil que sintetice su pensamiento, muestre su creatividad, etc.

Desarrollos adicionales: multiítem de base común, opción múltiple justificada, opción mejorada, etc.

Elaboración de reactivos

Ítems de respuesta construida

Hay habilidades, como la expresión oral, que no se pueden evaluar de manera válida con ítems de respuesta seleccionada Hay dos tipos de respuesta construida: en la que el examinado construye un producto (la conducta deja una huella) o en la que emite una respuesta (la conducta es evanescente y, por tanto debe registrarse) Al comparar los tests de respuesta seleccionada con los de respuesta construida, estos presentan las siguientes características:

Elaboración de reactivos

Ítems de respuesta construida

Aunque son difíciles de calificar, miden mejor la habilidad para sintetizar ideas, la originalidad, la redacción y otros aprendizajes complejos Se requiere menos tiempo para elaborar los ítems, pero más para calificar las respuestas Animan al estudiante a considerar aspectos más amplios del contenido Sin embargo, si ambos tipos de examen satisfacen el propósito de la evaluación, por razones prácticas casi siempre será elegido el de respuesta seleccionada

Elaboración de reactivos

Ítems de respuesta breve

Piden al examinado proporcionar una palabra o frase en respuesta a una pregunta directa o para completar una afirmación incompleta Ventaja: el examinado construye su respuesta, en particular en relación al conocimiento de información factual Desventaja: difícil de calificar, debido a la variedad de posibles respuestas Recomendación: es mejor una pregunta directa, que una afirmación incompleta

Elaboración de reactivos

Ítems de ensayo

Es el tipo más común de respuesta construida Se puede estructurar para obligar al examinado a producir una respuesta muy corta, restringiendo la forma y el contenido de la respuesta o limitando el espacio para responder, con lo cual se mejora la confiabilidad al calificar Ventaja: es la mejor estrategia para evaluar el aprendizaje complejo Desventajas: mucho tiempo y poca confiabilidad al calificar y muestreo pobre de contenido Recomendación: establecer explícitamente la tarea del examinado y el valor de cada pregunta

Análisis de reactivos

Técnicas para mejorar los ítems

Basadas en juicios. Estrategia a priori para estimar el mérito de un ítem. Expertos en contenido, psicometría y otros se enfocan en la pregunta a fin de detectar fallas Prueba empírica. Se enfoca en datos derivados de las respuestas de los examinados a los ítems, con el mismo fin Ambos tipos de análisis son necesarios Usualmente las técnicas de juicios anteceden a las empíricas Los tests de gran escala enfatizan la prueba empírica, principalmente los normativos

Análisis de reactivos

Aplicaciones normativas y criteriales

Los tests normativos emplean más los métodos empíricos, pues queremos determinar diferencias entre los examinados para contrastar sus ejecuciones. Así, el refinamiento de los ítems solo puede realizarse observando cómo contribuyen a detectar diferencias entre los examinados Con los tests criteriales nos esforzamos por describir con precisión el dominio medido y luego aseguramos que los ítems son congruentes con dicha descripción, lo cual solo puede hacerse mediante juicios humanos

Análisis de reactivos

Mejoramiento de ítems mediante juicios

Existen varias fuentes de datos derivados de juicios Los redactores de los ítems, quienes tras diseñarlos pueden revisarlos, después de un tiempo prudente Paneles de jueces independientes, sin interés en los ítems y expertos en el contenido, revisan y mejoran los ítems Los propios examinados reportan ítems ambiguos, engañosos, difíciles, fáciles, instrucciones confusas, tiempo insuficiente, etc., inmediatamente después de contestar el examen y solo en situaciones donde no se penalice su ejecución

Análisis de reactivos

¿Qué deben buscar los jueces?

Si el ítem es congruente con su especificación (más fácil en los normativos) Si no contiene determinantes específicos y otras fallas de redacción técnica (pistas, ambigüedades, etc.) La corrección del contenido Si el ítem y el test presentan sesgo cultural, socioeconómico, de género u otro

Análisis de reactivos

Mejoramiento de ítems mediante prueba empírica

El ítem análisis tradicional, particularmente útil para los tests normativos, incluye tres técnicas:

Indice de dificultad

: P , que es la proporción de examinados que contestaron bien el ítem: P = C / T El valor de P debe considerarse en relación con la probabilidad de responder bien el ítem al azar (opción múltiple 4 = .25; binarios = .50)

Análisis de reactivos

Interpretación del valor P

¿Un ítem con valor P=.80 es fácil?

¿Un ítem con valor P=.20 es difícil?

La facilidad o dificultad del ítem están relacionados con el programa instruccional En un examen de aptitud verbal aplicado a un grupo poco familiarizado con su contenido, tiene sentido considerar un ítem con un alto valor de P como difícil; pero existen situaciones diferentes: Con un profesor hábil, ¿Un ítem con P=.95 significa que es fácil o que los examinado, bien enseñados, lo contestaron correctamente?

Con un profesor deficiente, dicho ítem, con P=.45 ¿no tenemos incluso más razón para creer que el item no es fácil?

Análisis de reactivos

Índice de discriminación

Para un test normativo, el indicador más poderoso de la calidad de un ítem es el índice de discriminación Nos indica qué tan frecuentemente responden bien al ítem quienes obtuvieron buena calificación total en el examen; es decir, si discrimina entre los que saben y los que no saben Se trata de establecer una correlación biserial entre una variable contínua (calificación total en la prueba) y la variable dicotómica de la ejecución al ítem (correcto o incorrecto) El índice de discriminación le pone una bandera al ítem que indica que puede tener alguna falla

Análisis de reactivos

Procedimiento para calcular el índice de discriminación

Ordenar los exámenes de mayor a menor puntaje total Dividir los exámenes en grupo alto (27%), grupo bajo (27%) y grupo medio (se elimina para el análisis) Calcular el valor P para los grupos alto y bajo Se resta el P bajo del P alto, para obtener el índice de discriminación del ítem: D = P a - Pb Existe una relación estrecha entre P y D. Si P=1.0 ----> D=0 (D= 1.0 - 1.0 = 0). Lo mismo sucede si P = 0. Por lo tanto, si la dificultad es media, la discriminación es alta (D = 1.0 - 0 = 1.0)

Análisis de reactivos

Análisis de distractores

Cuando un ítem necesita revisión (ejemplo: P = .50; D = -.33), es necesario un análisis más profundo para detectar la falla En los ítems de opción múltiple se puede analizar cómo respondieron a los distractores los grupos alto y bajo Ejemplo:

Análisis de reactivos

Análisis de distractores

P=.50; D=-.33

A B C Grupo alto (16) Grupo bajo (15) 2 4 5 10 0 0

Principal problema da pistas a los que no saben: Revisar No sirve Hacer más atractiva

Omisión

8 0 1 1

Atráe a los que saben revisar

Análisis de reactivos

Ítem análisis para tests criteriales

En un test criterial esperamos que por efecto de la instrucción todos los examinados respondan bien en el examen, por lo que habrá un bajo índice de discriminación Por ello, se requiere un esquema diferente. Existen dos alternativas: La

diferencia pretest-postest

se calcula la discriminación: , en la que se administra la prueba al mismo grupo antes y después de la instrucción y

dpp =

post -

pre

+1.0

-1.0

Postest Pretest Ddpp Tendencia sin instrucción

Análisis de reactivos

Ítem análisis para tests criteriales

Si el ítem es sensible a la instrucción, discrimina (detecta la diferencia entre la ejecución antes y después de la instrucción) Desventaja: Hay que esperar que termine la instrucción La solución es la

Diferencia entre el grupo instruido y no instruido

, donde se aplica el test a dos grupos (instruido y no instruido) y se calcula la discriminación basada en las diferencias entre ambos:

gin =

i -

n Test +1.0

Instruidos Ddgin No instruidos -1.0

Estandarización de la prueba

Ensamble, administración y calificación de la prueba

Los aspectos prácticos que rodean al test revisten una gran importancia Aparte de los aspectos estrictamente técnicos considerados, una mala administración de la prueba puede ocasionar respuestas poco significativas por parte del examinado y, por ello, problemas de validez y confiabilidad Entre los principales factores a considerar, de naturaleza administrativa están:

Estandarización de la prueba

Ensamble, administración y calificación de la prueba

Las instrucciones del test (propósito de la prueba, tiempo permitido, formato de la mejor opción, forma de registrar la respuesta, indicaciones sobre la adivinación, etc.) Administración del test (escenario, seguridad entrenamiento a los aplicadores, etc.) Calificación de la prueba (calificación manual, calificación automática, corrección por adivinación, pesos diferenciales, formato de registro, etc)

Estandarización de la prueba

Establecimiento de estándares y puntos de corte Un estándar es una medida del nivel de ejecución del examinado que es adecuado para algún propósito (¿qué tan bueno es lo suficientemente bueno?) Un estándar general produce tranquilidad; uno específico: terror En los test de gran escala y de alto impacto, si el estándar es alto los errores tienen consecuencias desastrosas y duraderas; si es bajo, la sociedad pierde, se devaluan los diplomas, etc.

El establecimiento de estándares requiere del juicio humano, pero ello no lo hace arbitrario

Estandarización de la prueba

Ensamble, administración y calificación de la prueba

Establecer estándares es un proceso: lo haremos, cometeremos errores con seguridad y los corregiremos, hasta contar con unos realistas y apropiados Pero ¡ojo!, es más fácil ajustar los estándares hacia arriba que hacia abajo; de igual modo, ponerlos después de aplicar la prueba, que antes Los principales factores a considerar al establecer estándares son:

Estandarización de la prueba

Ensamble, administración y calificación de la prueba

Análisis del contexto de la decisión (¿qué pasa si el examinado falla en lograr el estándar? depende de de la magnitud de la decisión y de consideraciones contextuales: En el salón no queremos falsos dominadores: estándares altos Para dar un diploma o ingresar a otro ciclo, no queremos no dominadores: estándares bajos Para el caso de los exámenes normativos, es difícil poner estándares debido a su esquema descriptivo vago; por ello, se requiere consultar los datos derivados de la aplicación de los ítems (grupos contrastados)

No dominadores Dominadores

Estándar alto Instrucción No dominadores Dominadores

Estándar bajo No dominadores Dominadores Certificación

Instrucción Estándar bajo Estándar alto Certificación No dominadores Dominadores