David Rutkowski y Leslie Rutkowski

Este artículo fue traducido al español por Andrés Strello.

La edición 2018 del Programa para la Evaluación Internacional de Alumnos (PISA, por su nombre en inglés) incluyó a cerca de 80 sistemas educacionales de todos los continentes, excluyendo la Antártica. Los participantes incluyeron a todos los países de la OCDE – representando así a los países más ricos del mundo – y a varios recién llegados, tales como Bielorrusia, cuyo PIB per cápita se encuentra muy por debajo del promedio de la OCDE. Esta heterogeneidad en los sistemas educativos participantes trae desafíos en cuanto la decisión de qué es lo que debería ser medido y cómo medirlo de una forma comparable.

La prueba PISA es muy difícil para algunos países

En esta entrada, damos un vistazo al problema de tener un conjunto tan diverso de economías medidas bajo una sola evaluación. En otras palabras, mostraremos cómo una prueba que fue desarrollada para medir sistemas educacionales ricos y con altos recursos puede resultar demasiado difícil para sistemas con menos recursos. Basándonos en análisis empíricos donde contrastamos la dificultad de los ítems en la prueba de ciencias en PISA 2015  con las competencias de los examinados en varios de los sistemas educativos participantes, encontramos que largos segmentos de la distribución de competencia en países con bajo rendimiento son medidos por ningún o pocos ítems.

De hecho, descubrimos que actualmente PISA está diseñada solamente con un número pequeño de preguntas que pueden ser usadas para medir de forma significativa los niveles de rendimiento más bajos. Una consecuencia de una prueba demasiado difícil es que la precisión  de la medición es de peor calidad para estos participantes, con respecto a los sistemas educativos adecuados con PISA.

La Figura 1 muestra la distribución de la competencia estandarizada a través de los sistemas educacionales participando en PISA 2015 en ciencias. Para resaltar las diferencias de distribución entre los sistemas educativos, las medias que bajen la mitad de una desviación estándar respecto la media de PISA en ciencias están marcadas en negro. Las distribuciones en gris muestran medias que se ubican a más de una desviación estándar del promedio de PISA.

Figura 1. Distribución empírica de competencias por sistema educacional

La figura 2 muestra la distribución de la ubicación de los ítems (o dificultad), en la misma escala que el rendimiento (representados en la figura 1). La figura 2 exhibe una alta concentración de ítems centradas alrededor del cero, con una mucha menor representación de ítems alejados del centro. Esto sugiere que los sistemas educativos que difieren significativamente del cero van a ser medidos por una menor cantidad de ítems.

Figura 2. Distribución empírica de dificultad de los ítems en PISA 2015 en ciencias.

En otro trabajo, demostramos que, en varios países de bajo rendimiento, a más de la mitad de la población no le son entregados ítems destinados a medir sus niveles de habilidad. En otras palabras, la prueba PISA no está midiendo a los países de bajo rendimiento de forma correcta. Sin embargo, a medida que PISA vaya moviéndose a un diseño adaptativo, tenemos la esperanza de que estos problemas sean aminorados en futuros ciclos. Además, sostenemos que se debería adoptar un marco ampliado para los países de bajo rendimiento.

Ni siquiera sabemos si PISA mide el mismo constructo en los países de bajo rendimiento

Otro problema que hemos descubierto en nuestro trabajo es que las herramientas estadísticas para determinar si los ítems funcionan de forma equivalente entre países son incapaces de detectar ítems con bajo ajuste en países de bajo rendimiento. Todos estos problemas adquieren mayor importancia cuando reconocemos que el número de países participantes aumentan con cada ciclo de la PISA. Claramente, hay mucho trabajo por hacer para entender el grado en que las pruebas internacionales se adecúan a su propósito; sin embargo, nuestras investigaciones recientes llaman la atención en la cuestión de la capacidad de aplicar una evaluación de “talla única” dentro de un mundo heterogéneo.