PISA tut sich schwer mit der Messung aller Teilnehmer
David Rutkowski und Leslie Rutkowski
Dieser Blog wurde von Laura Zieger ins Deutsche übersetzt.
Das Programm zur internationalen Schülerbewertung (Programme for International Student Achievement; PISA) umfasste 2018 fast 80 Teilnehmer auf Systemebene aus allen Kontinenten, außer der Antarktis. Zu den Teilnehmern gehören alle OECD-Länder, die zu den reichsten Ländern der Welt zählen, sowie eine Reihe von Neueinsteigern, wie zum Beispiel Weißrussland, dessen Pro-Kopf-BIP deutlich unter dem OECD-Durchschnitt liegt. Eine solch heterogene Mischung an teilnehmenden Bildungssystemen stellt die Entscheidung, was gemessen werden soll und wie man es auf vergleichbare Weise messen kann, vor Herausforderungen.
Der PISA-Test ist für viele Länder zu schwierig
In diesem Beitrag wollen wir Ihnen einen Einblick in das Problem geben, dass dadurch entsteht, dass so viele Wirtschaftssysteme den gleichen Test benutzen. Mit anderen Worten, wir werden zeigen, wie ein Test, der entwickelt wurde, um wohlhabende und gut ausgestattete Bildungssysteme zu messen, für Systeme mit geringeren Ressourcen zu schwierig sein kann. Mithilfe einer empirischen Analyse der Schwierigkeit der naturwissenschaftlichen Fragen in PISA 2015, welche auf die Kompetenzen der Schüler abgebildet wurden, haben wir festgestellt, dass große Teile der Kompetenzverteilung in Ländern mit geringen Leistungen durch wenige oder gar keine Items gemessen werden. Tatsächlich stellten wir fest, dass PISA derzeit so konzipiert ist, dass nur eine kleine Anzahl an Fragen die geringeren Leistungsniveaus sinnvoll messen kann. Eine Folge eines übermäßig schwierigen Tests ist, dass die Messgenauigkeit bei diesen Teilnehmern schlechter ist als bei Bildungssystemen, auf die PISA ausgerichtet ist.
Abbildung 1 zeigt die standardisierten Kompetenzverteilungen der an PISA 2015 teilnehmenden Bildungssysteme (in Naturwissenschaft). Um die Verteilungsunterschiede zwischen diesen Bildungssystemen hervorzuheben, sind die bei denen der Mittelwert innerhalb einer halben Standardabweichung des Mittelwertes in Naturwissenschaft in PISA liegt, schwarz markiert. Grau markierte Verteilungen bedeuten, dass sie mehr als eine halbe Standardabweichung vom PISA-Durchschnitt entfernt liegen.

Abbildung 2 zeigt die Verteilung der Schwierigkeit der Fragen, welche auf der gleichen Skala wie die Leistung liegt (dargestellt in Abbildung 1). Abbildung 2 zeigt eine hohe Konzentration von Items, die um Null zentriert sind, mit einer weitaus geringeren Dichte weiter weg von diesem Mittelpunkt, was darauf hindeutet, dass Bildungssysteme, die sich aussagekräftig von Null unterscheiden, durch weniger Items gemessen werden.

In anderen Arbeiten haben wir gezeigt, dass in einigen Ländern mit geringen Leistungen mehr als die Hälfte der Population keine Fragen erhalten, die ihr Fähigkeitsniveaus messen. Mit anderen Worten, PISA misst die Systeme mit geringer Leistung nicht gut. Wir hoffen jedoch, dass diese Probleme im Zuge der Umstellung von PISA auf ein adaptives Design in künftigen Zyklen verbessert werden können. Wir bringen weiterführend vor, dass das Rahmenkonzept auf Länder mit schwachen Leistungen erweitert werden sollte.
Wir wissen nicht einmal, ob PISA dasselbe Konstrukt in Ländern mit niedriger Leistung misst
Ein weiteres Problem, das wir in unserer Arbeit aufgedeckt haben, ist, dass die statistischen Instrumente, die zur Bestimmung der Gleichwertigkeit der Items in allen Ländern verwendet werden, nicht in der Lage sind, schlecht passende Items in Ländern mit geringer Leistung zu erkennen. All diese Fragen gewinnen an Bedeutung, wenn wir erkennen, dass die Zahl der teilnehmenden Länder mit jedem PISA-Zyklus steigt. Natürlich gibt es noch viel zu tun, um zu verstehen, inwieweit internationale Tests für ihren Zweck geeignet sind; unsere jüngsten Untersuchungen stellen jedoch in Frage, dass ein Test in dieser heterogenen Welt ausreicht.