Transcript Descargar presentación
Slide 1
Análisis estadístico
en la elaboración de exámenes
Slide 2
EL OBJETIVO
Explicar los estándares de calidad en la elaboración
de exámenes según los Estándares para la
Evaluación Educativa y Psicológica (AERA, APA,
NCME; 2014).
Facilitar la comprensión de los requisitos que ACLES
exige en su solicitud en los apartados 9 y 10:
Características del examen y Control de Calidad.
Slide 3
El taller - 1ª parte
Trataremos la parte más teórica:
• Evidencias de validez: contenido, proceso
de respuesta, estructura interna, relación
con otras variables y consecuencias
• Fiabilidad
Slide 4
El taller - 2ª parte
Trataremos una parte más aplicada.
Exposición de las fases del análisis:
• Pilotaje.
• Post-convocatoria.
Descripción de los conceptos estadísticos
basados en teoría clásica de test.
Programas estadísticos que podemos emplear.
Slide 5
El taller - 3ª parte
En la última parte del taller repasaremos juntos
el modelo ACLES (puntos 9 y 10) para resolver
posibles dudas:
• Características del examen
• Control de calidad
Slide 6
Primera parte
Slide 7
VALIDEZ
“We have found the following adjectives attached to validity in
discussions of conceptualization and mesurement: a priori,
apparent, assumption, common-sense, conceptual, concurrent,
congruent, consensual, consequential, construct, content,
convergent, criterion related, curricular, definitional, differential,
discriminant, empirical, face, factorial, incremental, instrumental,
intrisic, linguistic, logical, nomological, postdictive, practical,
pragmatic, predictive, rational, response, sampling, status,
subtantive, theorical, and trait.” (Adcock & Collier, p.530, 2001).
Slide 8
VALIDEZ
“Grado en que la teoría y los datos disponibles
apoyan la interpretación de las puntuaciones
de un test para un uso concreto”. (pág.161, Medición en
Ciencias Sociales y de la Salud).
Slide 9
Estándares para la Evaluación
Educativa
Estándares de 2014
La validez puede estar basada en evidencias según …
El contenido del test
El proceso de respuesta
La estructura interna
La relación con otras variables
Las consecuencias de la evaluación
La fiabilidad
La equidad
Slide 10
Contenido
Ámbito: temas, tareas, expresión, formato de los
ítems, instrucciones para la administración y
puntuación del test.
Las pruebas son de tipo teórico, lógico y empírico.
• Revisión bibliográfica.
• Opinión de las personas interesadas:
− Expertos del constructo a evaluar.
− Población diana.
Slide 11
Contenido
Consideraciones generales sobre escritura de
ítems:
• Definición clara y precisa del constructo a medir.
• Número aproximado y formato de los ítems.
• Confeccionar el doble o triple de ítems.
• Representación relevante.
Slide 12
Contenido
ítems de elección múltiple, las alternativas:
• Homogéneas en longitud y relevancia.
• Evitar negaciones dobles.
• Evitar reiteraciones innecesarias.
• Si se utilizan cifras, presentarlas ordenadas.
• Evitar usar “todas las anteriores”.
• La ubicación de la alternativa correcta se ha de
establecer al azar.
Slide 13
Proceso de respuesta
Para mejorar el proceso: conocer qué factores
influyen, cómo detectar posibles procesos
inadecuados, y cómo introducir las correcciones
que podamos.
Factores que influyen en el proceso de respuesta:
• Contenido de los ítems
• Instrucciones para contestar el cuestionario
• Longitud del cuestionario
Slide 14
Proceso de respuesta
Metodología:
• Observar que hacen las personas al responder.
• Preguntar a las personas.
• Análisis empírico de las respuestas:
– Detección de patrones anómalos.
Resultados:
Mucha variabilidad en el proceso de respuesta, conlleva
una revisión del formato del test.
Slide 15
Estructura Interna
¿Mide nuestro test un constructo coherente o se
trata simplemente de un conjunto de ítems no
relacionados?
Para estudiarla:
• Estudios de dimensionalidad (AFE, AFC).
• Funcionamiento diferencial de los ítems
(DIF).
Slide 16
Consecuencias de la aplicación
del test
• Demostrar que las consecuencias de la
avaluación coinciden con las consecuencies
previstas
• Indagar sobre la existencia de posibles
consecuencias no previstas
– debidas a infrarepresentación del constructo
– debidas a incluir aspectos irrelevantes
Slide 17
Relación con otras variables
El objetivo es establecer si las relaciones
observadas entre las puntuaciones en el test y
otras variables externas relevantes son
consistentes con la interpretación propuesta
para las puntuaciones.
Evidencia convergente, discriminante o referida
a un criterio.
Slide 18
Relación con otras variables
Variables externas relevantes:
• Otras medidas del mismo constructo
obtenidas con diferentes tests.
• Medidas de constructos diferentes pero que
se insertan en el mismo modelo teórico.
• Algún tipo de variable que pretendamos
predecir a partir de las puntuaciones en el
test.
Slide 19
FIABILIDAD
“ Grado en que una medida es consistente en
diferentes aplicaciones del mismo
instrumento de medida”.
(pág.161, Medición en Ciencias Sociales y de la Salud).
Slide 20
FIABILIDAD
Confianza
Coherencia
Reproductibilidad
Seguridad
Precisión
Slide 21
¿Cómo estudiar la fiabilidad?
• Teoría clásica de test.
• Teoría de respuesta al ítem.
• Teoría de la generalizabilidad.
Slide 22
Estrategias
Estrategia
Aplicaciones
Paso de tiempo
entre aplicaciones
Estadísticos
Test-retest
Dos aplicaciones
Sí
Correlación:
Pearson
Spearman
Kappa de Cohen
T. Paralelas
Una aplicación
No necesaria
Igual que en Test-retest
Consistencia
interna
Una aplicación
No necesaria
Homogeneidad y
consistencia:
Spearman-Brown
Glutman-Flanegan
Alfa de Cronbach
Slide 23
Consistencia Interna
Slide 24
EQUIDAD
•
•
•
•
•
•
Ausencia de sesgo.
Tratamiento equitativo durante el proceso.
Igualdad en la exposición de los resultados.
Derechos y responsabilidades de los examinados.
Background de los examinandos.
Atención a los discapacitados.
Slide 25
Segunda parte
Slide 26
Pilotaje – parte cualitativa
¿Qué vamos a evaluar? ¿A quién vamos a evaluar?
Tabla de especificaciones para la creación de ítems.
(Crear más de los necesarios).
– Tipologías
– Número
– Nivel
Revisión por parte de expertos que no han elaborado
los ítems.
Slide 27
Pilotaje
“No puede olvidarse que el objetivo esencial es
conseguir una muestra de ítems relevante para
cada uno de los componentes del constructo,
asegurar que cada componente esté bien
representado por los ítems elaborados y en la
proporción adecuada en función de su
importancia dentro de la definición adoptada.”
(Desarrollo y revisión de estudios instrumentales, Carretero-Dios y Perez)
Slide 28
Pilotaje – recogida de datos
¿Cuántos alumnos necesito? (Muestra)
- Número de ítems/ejercicios.
- Número de niveles implicados.
- Tiempo para llevarlo a cabo.
- Población disponible.
¿Necesitamos crear paquetes?
Slide 29
Pilotaje – recogida de datos
Características de los paquetes:
• 20 % ítems de anclaje (comunes).
• Misma distribución de ítems.
– Tipología.
– Dificultad.
Slide 30
Pilotaje – recogida de datos
Condiciones de aplicación:
• Instrucciones.
• Condiciones del aula.
• Recogida de datos.
Muestra:
• Alumnos del nivel inmediatamente inferior y
superior.
• 300 alumnos o 5-10 alumnos por ítem.
Slide 31
Pilotaje – análisis cuantitativo
Control de calidad:
• Análisis descriptivo ítem de anclaje por paquete.
• Análisis gráfico del comportamiento.
Análisis de ítems: dificultad, discriminación, distractores.
Análisis de validez y fiabilidad:
• Evidencias de validez (basadas en las cinco
evidencias).
• Fiabilidad (consistencia interna).
Slide 32
Dificultad
• Es la proporción de estudiantes que contestan
correctamente a la pregunta.
• Por su interpretacion podría denominarse índice de
éxito.
• ¿Qué valores toma el índice de dificultad?
Ejemplo:
Una muestra de 130 alumnos si un ítem lo responden
correctamente 80. 0,6153
Slide 33
Dificultad
Valor
0.81 – 1.00
0.61 – 0.80
0.41 – 0.60
0.21 – 0.40
0.00 – 0.20
Calidad
Muy fácil
Fácil
Moderada
Difícil
Muy difícil
Slide 34
Discriminación
• Coeficiente de discriminación.
• Correlación biserial.
• Índice de discriminación.
Dividir la muestra en 3 grupos:
27% (Pa), 46%, 27% (Pb).
Discriminación= Pa – Pb
(Pa: Proporción de respuestas correctas del 27% de los alumnos con mejor
nota.)
(Pa: Proporción de respuestas correctas del 27% de los alumnos con peor nota.)
Slide 35
Discriminación
1
0
-1
• (Pa) contestaron correctamente
• (Pb) contestaron incorrectamente
• (Pa) y (Pb) contestaron por igual
• (Pa) contestaron incorrectamente
• (Pb) contestaron correctamente
Slide 36
Discriminación
Valor
> 0.39
0.31 – 0.39
0.20 – 0.30
0.00 – 0.19
Calidad
Excelente
Buena
Regular
Pobre
Negativo
Pésima
Recomendación
Conservar
Posibilidades de mejorar
Necesita ser revisado
Descartar o revisar en
profundidad
Descartar definitivamente
Tabla. Poder de dsicriminación (valor D).
Ebel y Frisbie (1986)
Slide 37
Análisis de distractores
• Consiste en estudiar las respuestas a las
alternativas incorrectas.
• Al aumentar el número de alternativas, se
reduce la probabilidad de aciertos al azar. El
número óptimo de alternativas sería 3 (Grier,
1976).
Slide 38
Correlación
• Relación entre dos variables cuantitativas.
• Toma valores entre -1 y +1:
– Negativo: a mayor valor de una variable, menor
valor de la otra.
– Positivo: a mayor valor de la variable, mayor valor
de la otra.
Slide 39
Correlación
Slide 40
Correlación
Slide 41
Post análisis – cuantitativo
Análisis descriptivo (media, desviación estándar,
cuartiles, gráficos):
• De los ejercicios.
• Del global.
Análisis de validez y fiabilidad:
• Evidencias de validez (contenido, proceso de
respuesta, estructura interna, consecuencias y
relación con otras variables).
• Fiabilidad (consistencia interna).
Slide 42
Programas informáticos
• Comerciales: SPSS, SAS, STATA
BILOG, WINSTEP, PARSCALE
• Gratuitos:
TAP
(www.ohio.edu/people/brooksg/software.htm)
R (R-commander) www.rcommander.com
OpenOffice
Slide 43
Tercera parte
Slide 44
SOLICITUD PUNTO 9
Slide 45
SOLICITUD PUNTO 10
Slide 46
Muchas gracias por su atención.
Rebeca García-Rueda
[email protected]
Análisis estadístico
en la elaboración de exámenes
Slide 2
EL OBJETIVO
Explicar los estándares de calidad en la elaboración
de exámenes según los Estándares para la
Evaluación Educativa y Psicológica (AERA, APA,
NCME; 2014).
Facilitar la comprensión de los requisitos que ACLES
exige en su solicitud en los apartados 9 y 10:
Características del examen y Control de Calidad.
Slide 3
El taller - 1ª parte
Trataremos la parte más teórica:
• Evidencias de validez: contenido, proceso
de respuesta, estructura interna, relación
con otras variables y consecuencias
• Fiabilidad
Slide 4
El taller - 2ª parte
Trataremos una parte más aplicada.
Exposición de las fases del análisis:
• Pilotaje.
• Post-convocatoria.
Descripción de los conceptos estadísticos
basados en teoría clásica de test.
Programas estadísticos que podemos emplear.
Slide 5
El taller - 3ª parte
En la última parte del taller repasaremos juntos
el modelo ACLES (puntos 9 y 10) para resolver
posibles dudas:
• Características del examen
• Control de calidad
Slide 6
Primera parte
Slide 7
VALIDEZ
“We have found the following adjectives attached to validity in
discussions of conceptualization and mesurement: a priori,
apparent, assumption, common-sense, conceptual, concurrent,
congruent, consensual, consequential, construct, content,
convergent, criterion related, curricular, definitional, differential,
discriminant, empirical, face, factorial, incremental, instrumental,
intrisic, linguistic, logical, nomological, postdictive, practical,
pragmatic, predictive, rational, response, sampling, status,
subtantive, theorical, and trait.” (Adcock & Collier, p.530, 2001).
Slide 8
VALIDEZ
“Grado en que la teoría y los datos disponibles
apoyan la interpretación de las puntuaciones
de un test para un uso concreto”. (pág.161, Medición en
Ciencias Sociales y de la Salud).
Slide 9
Estándares para la Evaluación
Educativa
Estándares de 2014
La validez puede estar basada en evidencias según …
El contenido del test
El proceso de respuesta
La estructura interna
La relación con otras variables
Las consecuencias de la evaluación
La fiabilidad
La equidad
Slide 10
Contenido
Ámbito: temas, tareas, expresión, formato de los
ítems, instrucciones para la administración y
puntuación del test.
Las pruebas son de tipo teórico, lógico y empírico.
• Revisión bibliográfica.
• Opinión de las personas interesadas:
− Expertos del constructo a evaluar.
− Población diana.
Slide 11
Contenido
Consideraciones generales sobre escritura de
ítems:
• Definición clara y precisa del constructo a medir.
• Número aproximado y formato de los ítems.
• Confeccionar el doble o triple de ítems.
• Representación relevante.
Slide 12
Contenido
ítems de elección múltiple, las alternativas:
• Homogéneas en longitud y relevancia.
• Evitar negaciones dobles.
• Evitar reiteraciones innecesarias.
• Si se utilizan cifras, presentarlas ordenadas.
• Evitar usar “todas las anteriores”.
• La ubicación de la alternativa correcta se ha de
establecer al azar.
Slide 13
Proceso de respuesta
Para mejorar el proceso: conocer qué factores
influyen, cómo detectar posibles procesos
inadecuados, y cómo introducir las correcciones
que podamos.
Factores que influyen en el proceso de respuesta:
• Contenido de los ítems
• Instrucciones para contestar el cuestionario
• Longitud del cuestionario
Slide 14
Proceso de respuesta
Metodología:
• Observar que hacen las personas al responder.
• Preguntar a las personas.
• Análisis empírico de las respuestas:
– Detección de patrones anómalos.
Resultados:
Mucha variabilidad en el proceso de respuesta, conlleva
una revisión del formato del test.
Slide 15
Estructura Interna
¿Mide nuestro test un constructo coherente o se
trata simplemente de un conjunto de ítems no
relacionados?
Para estudiarla:
• Estudios de dimensionalidad (AFE, AFC).
• Funcionamiento diferencial de los ítems
(DIF).
Slide 16
Consecuencias de la aplicación
del test
• Demostrar que las consecuencias de la
avaluación coinciden con las consecuencies
previstas
• Indagar sobre la existencia de posibles
consecuencias no previstas
– debidas a infrarepresentación del constructo
– debidas a incluir aspectos irrelevantes
Slide 17
Relación con otras variables
El objetivo es establecer si las relaciones
observadas entre las puntuaciones en el test y
otras variables externas relevantes son
consistentes con la interpretación propuesta
para las puntuaciones.
Evidencia convergente, discriminante o referida
a un criterio.
Slide 18
Relación con otras variables
Variables externas relevantes:
• Otras medidas del mismo constructo
obtenidas con diferentes tests.
• Medidas de constructos diferentes pero que
se insertan en el mismo modelo teórico.
• Algún tipo de variable que pretendamos
predecir a partir de las puntuaciones en el
test.
Slide 19
FIABILIDAD
“ Grado en que una medida es consistente en
diferentes aplicaciones del mismo
instrumento de medida”.
(pág.161, Medición en Ciencias Sociales y de la Salud).
Slide 20
FIABILIDAD
Confianza
Coherencia
Reproductibilidad
Seguridad
Precisión
Slide 21
¿Cómo estudiar la fiabilidad?
• Teoría clásica de test.
• Teoría de respuesta al ítem.
• Teoría de la generalizabilidad.
Slide 22
Estrategias
Estrategia
Aplicaciones
Paso de tiempo
entre aplicaciones
Estadísticos
Test-retest
Dos aplicaciones
Sí
Correlación:
Pearson
Spearman
Kappa de Cohen
T. Paralelas
Una aplicación
No necesaria
Igual que en Test-retest
Consistencia
interna
Una aplicación
No necesaria
Homogeneidad y
consistencia:
Spearman-Brown
Glutman-Flanegan
Alfa de Cronbach
Slide 23
Consistencia Interna
Slide 24
EQUIDAD
•
•
•
•
•
•
Ausencia de sesgo.
Tratamiento equitativo durante el proceso.
Igualdad en la exposición de los resultados.
Derechos y responsabilidades de los examinados.
Background de los examinandos.
Atención a los discapacitados.
Slide 25
Segunda parte
Slide 26
Pilotaje – parte cualitativa
¿Qué vamos a evaluar? ¿A quién vamos a evaluar?
Tabla de especificaciones para la creación de ítems.
(Crear más de los necesarios).
– Tipologías
– Número
– Nivel
Revisión por parte de expertos que no han elaborado
los ítems.
Slide 27
Pilotaje
“No puede olvidarse que el objetivo esencial es
conseguir una muestra de ítems relevante para
cada uno de los componentes del constructo,
asegurar que cada componente esté bien
representado por los ítems elaborados y en la
proporción adecuada en función de su
importancia dentro de la definición adoptada.”
(Desarrollo y revisión de estudios instrumentales, Carretero-Dios y Perez)
Slide 28
Pilotaje – recogida de datos
¿Cuántos alumnos necesito? (Muestra)
- Número de ítems/ejercicios.
- Número de niveles implicados.
- Tiempo para llevarlo a cabo.
- Población disponible.
¿Necesitamos crear paquetes?
Slide 29
Pilotaje – recogida de datos
Características de los paquetes:
• 20 % ítems de anclaje (comunes).
• Misma distribución de ítems.
– Tipología.
– Dificultad.
Slide 30
Pilotaje – recogida de datos
Condiciones de aplicación:
• Instrucciones.
• Condiciones del aula.
• Recogida de datos.
Muestra:
• Alumnos del nivel inmediatamente inferior y
superior.
• 300 alumnos o 5-10 alumnos por ítem.
Slide 31
Pilotaje – análisis cuantitativo
Control de calidad:
• Análisis descriptivo ítem de anclaje por paquete.
• Análisis gráfico del comportamiento.
Análisis de ítems: dificultad, discriminación, distractores.
Análisis de validez y fiabilidad:
• Evidencias de validez (basadas en las cinco
evidencias).
• Fiabilidad (consistencia interna).
Slide 32
Dificultad
• Es la proporción de estudiantes que contestan
correctamente a la pregunta.
• Por su interpretacion podría denominarse índice de
éxito.
• ¿Qué valores toma el índice de dificultad?
Ejemplo:
Una muestra de 130 alumnos si un ítem lo responden
correctamente 80. 0,6153
Slide 33
Dificultad
Valor
0.81 – 1.00
0.61 – 0.80
0.41 – 0.60
0.21 – 0.40
0.00 – 0.20
Calidad
Muy fácil
Fácil
Moderada
Difícil
Muy difícil
Slide 34
Discriminación
• Coeficiente de discriminación.
• Correlación biserial.
• Índice de discriminación.
Dividir la muestra en 3 grupos:
27% (Pa), 46%, 27% (Pb).
Discriminación= Pa – Pb
(Pa: Proporción de respuestas correctas del 27% de los alumnos con mejor
nota.)
(Pa: Proporción de respuestas correctas del 27% de los alumnos con peor nota.)
Slide 35
Discriminación
1
0
-1
• (Pa) contestaron correctamente
• (Pb) contestaron incorrectamente
• (Pa) y (Pb) contestaron por igual
• (Pa) contestaron incorrectamente
• (Pb) contestaron correctamente
Slide 36
Discriminación
Valor
> 0.39
0.31 – 0.39
0.20 – 0.30
0.00 – 0.19
Calidad
Excelente
Buena
Regular
Pobre
Negativo
Pésima
Recomendación
Conservar
Posibilidades de mejorar
Necesita ser revisado
Descartar o revisar en
profundidad
Descartar definitivamente
Tabla. Poder de dsicriminación (valor D).
Ebel y Frisbie (1986)
Slide 37
Análisis de distractores
• Consiste en estudiar las respuestas a las
alternativas incorrectas.
• Al aumentar el número de alternativas, se
reduce la probabilidad de aciertos al azar. El
número óptimo de alternativas sería 3 (Grier,
1976).
Slide 38
Correlación
• Relación entre dos variables cuantitativas.
• Toma valores entre -1 y +1:
– Negativo: a mayor valor de una variable, menor
valor de la otra.
– Positivo: a mayor valor de la variable, mayor valor
de la otra.
Slide 39
Correlación
Slide 40
Correlación
Slide 41
Post análisis – cuantitativo
Análisis descriptivo (media, desviación estándar,
cuartiles, gráficos):
• De los ejercicios.
• Del global.
Análisis de validez y fiabilidad:
• Evidencias de validez (contenido, proceso de
respuesta, estructura interna, consecuencias y
relación con otras variables).
• Fiabilidad (consistencia interna).
Slide 42
Programas informáticos
• Comerciales: SPSS, SAS, STATA
BILOG, WINSTEP, PARSCALE
• Gratuitos:
TAP
(www.ohio.edu/people/brooksg/software.htm)
R (R-commander) www.rcommander.com
OpenOffice
Slide 43
Tercera parte
Slide 44
SOLICITUD PUNTO 9
Slide 45
SOLICITUD PUNTO 10
Slide 46
Muchas gracias por su atención.
Rebeca García-Rueda
[email protected]