Rolf Vegar Olsen & Sigrid Blömeke

Dieser Blog wurde von Laura Zieger ins Deutsche übersetzt.

Die meisten der groß angelegten internationalen Vergleichsstudien (international large-scale assessments; ILSA) werden in regelmäßigen Abständen wiederholt. PISA wird alle drei Jahre, TIMSS alle vier Jahre und PIRLS alle fünf Jahre durchgeführt. Dies ermöglicht Vergleiche innerhalb der Länder im Zeitverlauf, welche das Ziel haben, Muster oder Trends aufzudecken und die zukünftige Entwicklung vorherzusagen. Die Leistungswerte von verschiedenen Zeitpunkten werden verknüpft, indem eine relativ große Anzahl von Testfragen wiederholt wird. Dadurch ist es möglich, nachfolgende Testergebnisse mit den vorherigen in Relation zu setzen. Darüber hinaus werden Abschnitte derselben Hintergrundfragebögen im Laufe der Zeit wiederholt, um auch Veränderungen im Lernkontext, in der Demographie usw. zu erfassen.

Die Möglichkeit, Bildungssysteme im Zeitablauf zu vergleichen, bewältigt eine der Herausforderungen, die bei Vergleichen zwischen Ländern entsteht (siehe LINK zum vorherigen Blog): Zeitvergleiche werden innerhalb desselben Systems durchgeführt, und versteckte kulturelle oder andere nicht beobachtete Unterschiede können dadurch als kontrolliert angesehen werden.

Abbildung 1 zeigt ein Beispiel dafür, wie alle durchschnittlichen Leistungsergebnisse für Norwegen in PIRLS, PISA und TIMSS über einen Zeitraum von 20 Jahren zwischen 1995 und 2015 in einem Bild zusammengefasst werden.

Abbildung 1: Leistungswerte der norwegische Schüler in drei ILSAs, in drei Fächern für drei Schülerpopulationen im Zeitraum 1995-2015. Achten Sie darauf, die Differenzen der Linien nicht zu interpretieren – sie sind weitgehend bedeutungslos (siehe Text).

Die drei benutzten Studien decken drei breit definierte Fächer ab. Die Abbildung veranschaulicht die Abfolge der Leistung in Lesen mit roten Linien, in Mathematik mit blauen Linien und in den Naturwissenschaften mit grünen Linien. Die Figur erfasst dabei auch drei verschiedene Populationen. Die Trendlinien für die 15-Jährigen werden durch durchgezogene Linien dargestellt, für Achtklässler durch gestrichelte Linien und für Viertklässler durch gepunktete Linien. Alle drei Studien berichten über die Leistungsergebnisse auf einer Skala, bei der der internationale Durchschnitt im ersten Jahr der Studie auf 500 (und eine Standardabweichung auf 100) gesetzt wird. Und hier ist die offensichtliche Schwäche der Abbildung: Auch wenn alle Studien die scheinbar gleiche Skala verwenden, können direkte Vergleiche der Linien in der Abbildung nicht durchgeführt werden. Die Studien sind nicht formal miteinander verknüpft, und der internationale Durchschnitt spiegelt eine unterschiedliche Zusammensetzung der Länder für jede der Studien wider (z.B. nehmen alle OECD-Länder an PISA teil, aber nur ein Teil davon an TIMSS und PIRLS). Dennoch zeigt eine ganzheitlichere Interpretation der Merkmale in der Abbildung ein ziemlich konsistentes Bild der Entwicklung norwegischer Schüler in dieser Zeit:

  • In der ersten Hälfte des Zeitraums gab es einen enormen Leistungsrückgang, unabhängig davon, um welche Domäne oder welches Alter es sich handelt. Für einige Fächer und Studien lag der Rückgang bei fast 40 Punkten auf der Skala (oder 0,4 einer Standardabweichung). Eine weitere Möglichkeit das gleiche Ergebnis zu kommunizieren, ist, dass Schüler, die ihre Schulzeit Mitte bis Ende der 90er Jahre begannen, aus irgendwelchen Gründen viel schlechter abschneiden als die vorherigen Gruppen von Schülern.
  • In der zweiten Hälfte des 20-jährigen Zeitraums gibt es einen fast genauso starken Trend der Verbesserung – trotz einer Verdoppelung der Zahl an Schülern mit Migrationshintergrund in diesem Zeitraum. Insbesondere die Verbesserung der Viertklässler gleicht den Rückgang in der Anfangszeit weitgehend aus, aber die Achtklässler hinken 2015 im Vergleich zu 1995 noch etwas hinterher.

Diese Abbildung und die Komplexität der Ergebnisse, welche dadurch dargestellt werden, wurden bei der Auswertung einer Bildungsreform in Norwegen verwendet. Diese Reform wurde als „Wissensförderung“ bezeichnet, um zu zeigen, dass die Verbesserung der Leistungen der Schüler aller Altersgruppen und zahlreicher Fächer durch die Stärkung der Aneignung von Grundkenntnissen und einer klaren Definition von Lernzielen eines der Hauptziele der neuen Politik war. Es wurde eine große forschungsbasierte Auswertung durchgeführt, aber keine dieser Studien ist genau auf die Frage eingegangen, ob dieses Hauptziel der Reform erreicht wurde oder nicht. Glücklicherweise konnten die verfügbaren Daten aus den internationalen Studien verwendet werden, um zu beschreiben, wie sich die Lernergebnisse der Schüler in den letzten 20 Jahren verändert haben. Eine detailliertere Analyse einer dieser Veränderungen (TIMSS 8. Klasse Mathematik von 2003 bis 2015) ergab, dass die wichtigsten Faktoren im Zusammenhang mit der positiven Veränderung ein verbessertes Lernumfeld und Schulklima waren.

Das gerade genannte Beispiel veranschaulicht den potenziellen Nutzen der Zeitreihen, die von groß angelegte internationale Vergleichsstudien berichtet wurden. Es überrascht nicht, dass die Trendreihen der Studien zunehmend in der nationalen und internationalen Berichterstattung hervorgehoben werden. Darüber hinaus eröffnet das Zeitreihendesign andere Möglichkeiten die Daten zu analysieren, als nur Trends oder Muster innerhalb von Ländern zu beschreiben. Merkmale auf Systemebene können durch so genannte „Differences-in-Differences“ Analysen untersucht werden, bei denen Änderungen eines Prädiktors (z.B. eine Änderung der Klassenzimmergröße) mit Änderungen eines Ergebnisses (z.B. Mathematikleistung) auf Länderebene in Beziehung gesetzt werden. Solche Analysen profitieren von den gleichen methodischen Vorteilen wie Panelanalysen, bei denen Einzelpersonen wiederholt beobachtet werden.

About the author(s)