从数字到意义的比较:介绍
Rolf V. Olsen 和 Sigrid Blömeke
本博文由叶王琼翻译。
在许多国家,大规模国际评估研究(ILSA)被视为监测教育质量的重要来源。这些研究的结果经常被政策文件引用,并且经常被用作政治辩论中的证据或反驳。因此,在过去20年左右的时间里,ILSA确立了自己作为强大的知识来源的地位。在这四篇系列博文中,我们将介绍和讨论这些研究获得这一地位的两个主要原因:它们支持从两个比较的角度来解释研究结果——教育系统之间的比较和同一系统内的比较。在第四篇也是最后一篇文章中,我们将辨别并讨论这两种比较角度给未来ILSA带来的一些挑战。
量化教育
因为我们试图捕捉的现象是无法直接观察到的,所以很难衡量教育的质量。通常我们感兴趣的是推断人的心理特征——学生在学校学习的积极性如何,教师对工作环境的满意度如何,学生阅读的熟练程度如何,等等。这些属性无法直接观察或测量。我们没有“阅读水平标尺”或者某种即刻报告数值的电子传感器。相反,我们必须依靠间接的方法,使用一个人的一次或(通常)几次的观察值来确定刻度值。幸运的是,实体理论与测试理论(或“心理测量学”)的合作为我们提供了强大的工具,可以为社会和心理领域中的此类现象开发可靠且有效的度量或指标。
然而,即使测量方法在实体理论和心理测量质量上有良好的锚定,数值本身通常也很难解释,例如:
•一个系统可以接受的成就水平是多少?
•在欺凌等级中,什么值需要我们注意?
•什么数值,可以让我们得出结论,比如说,回归系数、相关系数、两组间差异等等,具有实质性意义。
国际比较提供了一个参考框架
对这类问题的回答在很大程度上是规范性的或政治性的,因为我们不仅缺乏推论此类答案的实质性理论,而且我们在规范性上也可能存在分歧。因此,有人可以规定阈值并尝试为其添加含义。 但是,在政治上决定或规定的阈值也需要支持。ILSA通过允许比较,为这种支持提供了几种创建更合理基础的方法。
对比较、标准或规范的选择也不是中立的活动。相反,它构成了对数据进行解释的论证核心或保证。下面的博客文章将讨论与其他国家的比较如何有助于解释来自ILSA的数据,以及为什么这种比较可能具有欺骗性和方法上的缺陷。