Rolf V. Olsen und Sigrid Blömeke

Dieser Blog wurde von Laura Zieger ins Deutsche übersetzt.

Groß angelegte internationale Vergleichsstudien (International large-scale assessments; ILSA) gelten in vielen Ländern als wichtige Quellen für die Überwachung der Bildungsqualität. Die Ergebnisse der Studien werden häufig in politischen Dokumenten zitiert und regelmäßig als Argumente in politischen Debatten verwendet. Seit etwa 20 Jahren haben sich ILSAs damit als diskursbestimmende Wissensquellen etabliert. In dieser Reihe von vier Blogbeiträgen werden wir zwei der Hauptgründe vorstellen, warum diese Studien diese Position erreicht haben, und diese erörtern: Sie unterstützen die Interpretation der Ergebnisse aus zwei vergleichenden Perspektiven – Vergleiche zwischen Bildungssystemen und Vergleiche innerhalb eines Systems im Zeitverlauf. Im vierten und letzten Beitrag werden wir einige der Herausforderungen für diese beiden vergleichenden Perspektiven für zukünftige ILSAs identifizieren und diskutieren.

Quantifizierung von Bildung

Die Messung von Qualitäten in der Bildung ist schwierig, da die Phänomene, die wir zu erfassen versuchen, nicht direkt beobachtbar sind. Normalerweise sind wir daran interessiert, Rückschlüsse auf psychologische Eigenschaften von Personen zu ziehen – wie motiviert sind Schüler, in der Schule zu lernen, wie zufrieden sind die Lehrer mit ihrem Arbeitsumfeld, oder wie kompetent sind die Schülerinnen und Schüler beim Lesen, um nur einige zu nennen. Diese Eigenschaften können nicht direkt beobachtet oder gemessen werden. Wir haben keinen „Leseleistungsmaßstab“ oder irgendeinen elektronischen Sensor, der sofort einen Wert auf einer Skala ausgeben kann. Stattdessen sind wir auf indirekte Verfahren angewiesen, bei denen eine oder (meist) mehrere Beobachtungen einer Person verwendet werden, um Zahlen auf einer Skala zu ermitteln. Glücklicherweise liefert uns inhaltliche Theorie in Zusammenarbeit mit Testtheorie (oder „Psychometrie“) mächtige Werkzeuge, um zuverlässige und valide Messungen oder Indikatoren für solche Phänomene im sozialen und psychologischen Bereich zu entwickeln.

Selbst wenn die Messungen eine gute Verankerung in der substantiellen Theorie und gute psychometrische Qualitäten aufweisen, sind die Zahlenwerte selbst dennoch meist schwer zu interpretieren, wie durch folgende Fragen veranschaulicht wird:

  • Was ist ein akzeptables Leistungsniveau für ein System?
  • Welcher Wert auf einer Mobbing-Skala gibt Anlass zu Sorge?
  • Bei welchen Werten sollten wir zu dem Schluss kommen, dass ein Regressionskoeffizient, Korrelationskoeffizient, Differenz zwischen zwei Gruppen usw. substantiell aussagekräftig ist?

Internationale Vergleiche liefern einen Bezugsrahmen

Antworten auf solche Fragen sind weitgehend normativ oder politisch, weil es uns nicht nur an einer substantiellen Theorie zur Ableitung solcher Antworten mangelt, sondern wir auch normativ anderer Meinung sein können: Jemand kann also einfach Schwellenwerte festlegen und versuchen, ihnen eine Bedeutung zu geben. Politisch beschlossene oder vorgeschriebene Schwellenwerte bedürfen jedoch auch einer Untermauerung und Kontextualisierung, und ILSAs bieten hierfür durch Vergleiche mehrere Ansatzpunkte.

Die Wahl eines Vergleichs, eines Kriteriums oder einer Norm ist ebenfalls keine neutrale Tätigkeit. Vielmehr bildet sie den argumentativen Kern oder den Grund für die Interpretationen der Daten. In den folgenden Blogbeiträgen wird diskutiert, wie Vergleiche mit anderen Ländern die Interpretation von Daten aus ILSAs erleichtern, aber auch, warum solche Vergleiche irreführend und methodisch fehlerhaft sein können.