David Rutkowski und Leslie Rutkowski

Dieser Blog wurde von Laura Zieger ins Deutsche übersetzt.

Das Programm zur internationalen Schülerbewertung (Programme for International Student Achievement; PISA) umfasste 2018 fast 80 Teilnehmer auf Systemebene aus allen Kontinenten, außer der Antarktis. Zu den Teilnehmern gehören alle OECD-Länder, die zu den reichsten Ländern der Welt zählen, sowie eine Reihe von Neueinsteigern, wie zum Beispiel Weißrussland, dessen Pro-Kopf-BIP deutlich unter dem OECD-Durchschnitt liegt. Eine solch heterogene Mischung an teilnehmenden Bildungssystemen stellt die Entscheidung, was gemessen werden soll und wie man es auf vergleichbare Weise messen kann, vor Herausforderungen.

Der PISA-Test ist für viele Länder zu schwierig

In diesem Beitrag wollen wir Ihnen einen Einblick in das Problem geben, dass dadurch entsteht, dass so viele Wirtschaftssysteme den gleichen Test benutzen. Mit anderen Worten, wir werden zeigen, wie ein Test, der entwickelt wurde, um wohlhabende und gut ausgestattete Bildungssysteme zu messen, für Systeme mit geringeren Ressourcen zu schwierig sein kann. Mithilfe einer empirischen Analyse der Schwierigkeit der naturwissenschaftlichen Fragen in PISA 2015, welche auf die Kompetenzen der Schüler abgebildet wurden, haben wir festgestellt, dass große Teile der Kompetenzverteilung in Ländern mit geringen Leistungen durch wenige oder gar keine Items gemessen werden. Tatsächlich stellten wir fest, dass PISA derzeit so konzipiert ist, dass nur eine kleine Anzahl an Fragen die geringeren Leistungsniveaus sinnvoll messen kann. Eine Folge eines übermäßig schwierigen Tests ist, dass die Messgenauigkeit bei diesen Teilnehmern schlechter ist als bei Bildungssystemen, auf die PISA ausgerichtet ist.   

Abbildung 1 zeigt die standardisierten Kompetenzverteilungen der an PISA 2015 teilnehmenden Bildungssysteme (in Naturwissenschaft). Um die Verteilungsunterschiede zwischen diesen Bildungssystemen hervorzuheben, sind die bei denen der Mittelwert innerhalb einer halben Standardabweichung des Mittelwertes in Naturwissenschaft in PISA liegt, schwarz markiert. Grau markierte Verteilungen bedeuten, dass sie mehr als eine halbe Standardabweichung vom PISA-Durchschnitt entfernt liegen.

Abbildung 1. Empirische Kompetenzverteilungen nach Bildungssystemen

Abbildung 2 zeigt die Verteilung der Schwierigkeit der Fragen, welche auf der gleichen Skala wie die Leistung liegt (dargestellt in Abbildung 1). Abbildung 2 zeigt eine hohe Konzentration von Items, die um Null zentriert sind, mit einer weitaus geringeren Dichte weiter weg von diesem Mittelpunkt, was darauf hindeutet, dass Bildungssysteme, die sich aussagekräftig von Null unterscheiden, durch weniger Items gemessen werden.

Abbildung 2. Empirische Itemschwierigkeitsverteilung für Naturwissenschaft in PISA 2015.

In anderen Arbeiten haben wir gezeigt, dass in einigen Ländern mit geringen Leistungen mehr als die Hälfte der Population keine Fragen erhalten, die ihr Fähigkeitsniveaus messen. Mit anderen Worten, PISA misst die Systeme mit geringer Leistung nicht gut. Wir hoffen jedoch, dass diese Probleme im Zuge der Umstellung von PISA auf ein adaptives Design in künftigen Zyklen verbessert werden können. Wir bringen weiterführend vor, dass das Rahmenkonzept auf Länder mit schwachen Leistungen erweitert werden sollte.

Wir wissen nicht einmal, ob PISA dasselbe Konstrukt in Ländern mit niedriger Leistung misst

Ein weiteres Problem, das wir in unserer Arbeit aufgedeckt haben, ist, dass die statistischen Instrumente, die zur Bestimmung der Gleichwertigkeit der Items in allen Ländern verwendet werden, nicht in der Lage sind, schlecht passende Items in Ländern mit geringer Leistung zu erkennen. All diese Fragen gewinnen an Bedeutung, wenn wir erkennen, dass die Zahl der teilnehmenden Länder mit jedem PISA-Zyklus steigt. Natürlich gibt es noch viel zu tun, um zu verstehen, inwieweit internationale Tests für ihren Zweck geeignet sind; unsere jüngsten Untersuchungen stellen jedoch in Frage, dass ein Test in dieser heterogenen Welt ausreicht.

About the author(s)

David Rutkowski

David Rutkowski is an Associate Professor with a joint appointment in Educational Policy and Educational Inquiry at Indiana University. His research is focused in the area of educational policy and educational measurement with specific emphasis on international large-scale assessment. Specifically, how large-scale assessments are used within policy debates, the impact of background questionnaire quality on achievement results, and achievement estimation in heterogeneous populations.

Leslie Rutkowski

Leslie Rutkowski is Associate Professor of Inquiry Methodology at Indiana University. She earned her PhD in Educational Psychology, specializing in Statistics and Measurement, from the University of Illinois at Urbana-Champaign. Leslie’s research is in the area of international large-scale assessment. Her interests include latent variable modeling and examining methods for comparing heterogeneous populations in international surveys.