Rolf Vegar Olsen & Sigrid Blömeke

Este artículo fue traducido al español por Ana María Mejía Rodríguez.

La mayoría de las pruebas internacionales a gran escala (ILSA, por sus siglas en inglés) se repiten a intervalos regulares. PISA se realiza cada tres años, TIMSS cada cuatro años, y PIRLS se realiza a intervalos de cinco años. De esta manera es posible hacer comparaciones dentro de un mismo país a lo largo del tiempo, con el objetivo de descubrir patrones o tendencias y predecir el desarrollo futuro. Las puntuaciones de desempeño están vinculadas en el tiempo al tener un número relativamente grande de preguntas que se repiten entre prueba y prueba. Esto permite anclar los resultados de pruebas subsiguientes con los resultados de pruebas anteriores. Además, secciones de los mismos cuestionarios de contexto se repiten a lo largo del tiempo para también descubrir cambios en el contexto de aprendizaje, la demografía, etc.

La posibilidad de comparar sistemas educativos en el tiempo supera uno de los desafíos de las comparaciones entre países (véase blog anterior): las comparaciones a través del tiempo son hechas dentro del mismo sistema, y diferencias culturales ocultas u otras diferencias no observadas pueden considerarse tomadas en cuenta.

La Figura 1 da un ejemplo en el que se muestran en una sola imagen todos los resultados de rendimiento promedio de Noruega en las encuestas PIRLS, PISA y TIMSS a lo largo de 20 años, de 1995 a 2015.

Figura 1: Resultados de rendimiento de los estudiantes noruegos en tres ILSAs, en tres dominios, para tres poblaciones de estudiantes en el período 1995-2015. Tenga cuidado de no interpretar diferencias entre líneas, ya que en gran medida no tienen sentido (ver texto).

Los tres estudios incluidos cubren tres dominios definidos de manera amplia. La figura ilustra las series de tiempo para lectura con líneas rojas; matemáticas, con líneas azules; y ciencias, con líneas verdes. La figura también captura tres poblaciones diferentes. Las líneas de tendencia para los jóvenes de 15 años se muestran en las líneas sólidas; los alumnos de 8°, con líneas discontinuas; y los de 4 °, con líneas punteadas. Los tres estudios reportan los resultados de desempeño en una escala en la cual el promedio internacional en el primer año de la serie se fija en 500 (y una desviación estándar se fija en 100). Y aquí está la obvia debilidad de la figura: Incluso si todos los estudios hacen uso de lo que parece ser la misma escala, no se pueden hacer comparaciones directas entre las líneas de la figura. Los estudios no están formalmente vinculados entre sí, y el promedio internacional refleja una composición diferente de países para cada uno de los estudios (por ejemplo, los países de la OCDE participan en PISA, pero sólo algunos de ellos en TIMSS y PIRLS). Sin embargo, una interpretación más holística de las características de la figura revela un rasgo bastante consistente del desarrollo de los estudiantes noruegos en ese período:

  • En la primera mitad del período se produjo un enorme descenso en el rendimiento, independientemente del dominio o de la edad de los estudiantes. Para algunas materias y estudios, la disminución fue cercana a 40 puntos en la escala (o 0.4 de una desviación estándar). Otra forma de plantear el mismo hallazgo es que los estudiantes que comenzaron su escolarización a mediados o finales de los años 90, por algunas razones, tuvieron un rendimiento mucho peor que las cohortes anteriores de estudiantes.
  • Hay una tendencia de mejora casi igualmente fuerte en la última mitad del período de 20 años, a pesar de que se ha duplicado el número de estudiantes de origen inmigrante durante este período. En particular, la mejora para los estudiantes de 4° compensa en gran medida la disminución en el período inicial, pero los estudiantes de 8° todavía están un poco rezagados en 2015 en comparación con 1995.

Esta figura, y las complejidades de los resultados que representa, fueron usados en una evaluación de una reforma educativa en Noruega. Esta reforma fue denominada como la «promoción del conocimiento», para reflejar el hecho de que una de las principales ambiciones de la nueva política era mejorar el rendimiento de los estudiantes, de todas las edades y en muchos dominios, mediante el refuerzo de la adquisición de conocimientos básicos y la definición clara de los resultados del aprendizaje. Se organizó una gran evaluación basada en la investigación, pero ninguno de estos estudios pudo abordar la cuestión de si se había logrado esta ambición principal de la reforma. Afortunadamente, los datos de los estudios internacionales estaban disponibles y pudieron utilizarse para describir cómo habían cambiado los resultados del aprendizaje de los estudiantes en los últimos 20 años. Un análisis más detallado de uno de estos cambios (TIMSS 8° de matemáticas de 2003 a 2015) mostró que los factores más importantes relacionados con el cambio positivo fueron un mejor entorno de aprendizaje y un mejor clima escolar.

El ejemplo anterior ilustra la utilidad potencial de las series de tiempo reportadas por las pruebas internacionales a gran escala. No es de extrañar que en los reportes nacionales e internacionales de estas pruebas se haga cada vez más hincapié en las series de tendencias. Además, el diseño de series de tiempo da pie a otras formas de analizar los datos, además de la mera descripción de tendencias o patrones dentro de un mismo país. Las características a nivel sistema pueden estudiarse mediante los denominados análisis de diferencias en diferencias, en los que cambios en un predictor (por ejemplo, un cambio en el tamaño del aula) están relacionados con cambios en un resultado (por ejemplo, el rendimiento en matemáticas) a nivel país. Estos análisis se benefician de las mismas ventajas metodológicas que los análisis de datos de panel, en los que los individuos son observados repetidamente.

About the author(s)