Por Christian Bokhove

Este artículo fue traducido al español por Andrés Christiansen.

En las últimas décadas se ha dispuesto de cada vez más datos sobre educación, incluidos los procedentes de las Evaluaciones Internacionales en Gran Escala (ILSA), donde la Organización de Cooperación y Desarrollo Económicos (OCDE) y la Asociación Internacional para la Evaluación del Rendimiento Educativo (IEA) desempeñan un papel fundamental en la difusión de los resultados de las ILSA y sus bases de datos internacionales. La proliferación de las ILSA nos ha brindado oportunidades únicas de comparar internacionalmente las jurisdicciones en una gama de temas de relevancia educativa. La mayoría de las ILSA hacen públicas sus bases de datos y las acompañan de manuales técnicos detallados para ayudar a analizarlos. Esa transparencia se ve empañada en cierta medida por los conocimientos especializados necesarios para realizar análisis más avanzados. Sin embargo, es importante que se realicen estudios independientes, no sólo por parte de la OCDE y la IEA, para que podamos beneficiarnos plenamente de la riqueza de los datos.

Un desafío en el análisis de los datos en general y ciertamente también en el análisis de los datos secundarios de las ILSA, radica en la transparencia sobre cómo se procesan y analizan los datos. Hay una enorme cantidad de los llamados «grados de libertad de los investigadores» en el análisis de los datos secundarios. Para empezar, simplemente la elección del conjunto de datos. Para mi campo, la educación matemática secundaria, puedo analizar a los jóvenes de 15 años en PISA y a los estudiantes de octavo grado en TIMSS. Cada uno de ellos tiene su propia variable de rendimiento y dependiendo de lo que te interese puedes elegir uno sobre el otro. Luego están los cuestionarios de contexto y las escalas asociadas. Otro grado de libertad. Podría ser lógico que todos los investigadores sigan las «mejores prácticas» para atender el «diseño de muestreo complejo» de las ILSA y, por ejemplo, utilicen pesos, valores plausibles y técnicas de remuestreo, pero sabemos que no siempre es así. E incluso si se utilizan, hay variaciones en, por ejemplo, los pesos que se utilizan.

Entonces los investigadores eligen un enfoque analítico, que va desde las estadísticas descriptivas relativamente simples hasta la modelización avanzada de ecuaciones estructurales de múltiples niveles. Aquí se hacen más elecciones, por ejemplo, sobre el centrado de las variables. O sobre el tratamiento de los datos que faltan; puede ser muy importante que los datos se excluyan o se imputen con una imputación única o múltiple. Por último, también hay numerosos programas informáticos que pueden utilizarse, algunos más fácilmente o a menor costo que otros. Todos ellos pueden utilizar técnicas de estimación ligeramente diferentes. Estoy seguro de que hay incluso más «grados de libertad» pero en conjunto es una lista extensa de cosas por las que los analistas podrían tomar diferentes decisiones.

Por eso es que, en mi opinión, es tan importante registrar estas elecciones de forma transparente. Un buen primer paso sería simplemente informar sobre esto en informes y artículos. Aún mejor sería si los códigos de análisis estuvieran disponibles para que estos puedan ser replicados. Esto también facilitaría su aplicación a nuevos datos una vez publicados. 

About the author(s)