Werden geschlechtsspezifische Unterschiede in den PISA-Studie durch die Methodik beeinflusst?
Laura Zieger & John Jerrim
Dieser Blog wurde von Laura Zieger ins Deutsche übersetzt.
PISA misst die Mathematik-, Lese- und Naturwissenschaftsleistung von 15-Jährigen und hat sich zu einem leistungsstarken Instrument in der Politik entwickelt, da die Ergebnisse länderübergreifend und im Zeitverlauf verglichen werden können. Abgesehen von den Ergebnissen selbst besteht auch ein großes Interesse an den Leistungsunterschieden zwischen Jungen und Mädchen.
Was die meisten Menschen über PISA nicht wissen, ist, dass nicht jedes Kind in allen drei Fächern direkt getestet wird. Es beantworten etwa 60 % der Schülerinnen und Schüler nur in zwei der drei Fächer Fragen. Dennoch wird jedem Kind ein Leistungswert in Mathematik, Lesen und Naturwissenschaften zugewiesen.
Um für alle Schülerinnen und Schülern ein Testergebnis zu vergeben, werden Vorhersagen auf Basis der Fächer, in denen die Kinder tatsächlich Fragen beantwortet haben, und ihren Hintergrundmerkmalen – einschließlich des Geschlechts – berechnet. Dies wird in der akademischen Literatur als „Conditioning“ bezeichnet und gilt als unerlässlich, um geschlechtsspezifische Leistungsunterschiede korrekt zu schätzen. In der Tat argumentieren Psychometriker, dass Geschlechtsunterschiede tendenziell unterschätzt werden, wenn Conditioning nicht stattfindet.
Wie wirkt sich Conditioning in der Realität auf die geschlechtsspezifischen Unterschiede in PISA aus?
Theoretisch sollten wir, sobald das Geschlecht in das Conditioning-Modell einbezogen wird, den Leistungsunterschied zwischen Jungen und Mädchen richtig einschätzen. Aber Theorie und Realität können unterschiedliche Dinge sein. Aus diesem Grund haben wir das in PISA 2012 verwendete Conditioning-Modell untersucht. Im Rahmen dieses Projekts haben wir drei alternative Versionen der Ergebnisse der Schülerinnen und Schüler in jedem der PISA-Fächer berechnet. Im ersten Modell basieren die Ergebnisse für alle Schüler nur auf den Testantworten in den verschiedenen Fächern (kein „Conditioning“; M0). Im zweiten Modell verwendeten wir die Antworten auf die PISA-Testfragen und alle Hintergrundvariablen (vollständiges Conditioning; M1). Im letzten Modell wurden die Testantworten nur mit einer Teilmenge der Hintergrundvariablen (Geschlecht, Klasse, sozioökonomischer Index für Mütter und Väter und IDs der Testhefte) kombiniert, um die Sensitivität der Ergebnisse zu testen (Conditioning auf Teilmenge; M2).
Die Abbildung unten zeigt den geschlechtsspezifischen Unterschied beim Lesen unter Verwendung von Modell M0 (kein Conditioning – Kreis), M1 (vollständiges Conditioning – Dreieck) und M2 (Conditioning auf Teilmenge – Raute). Wir erwarten einen großen Unterschied zwischen keinem Conditioning und den beiden Versionen von Conditioning, während M1 und M2 sehr ähnlich sein sollten. Und in der Tat zeigen bei den meisten Ländern das Dreieck (M1) und die Raute (M2) in die gleiche Richtung, und bei etwa einem Drittel der Länder liegen sie sogar übereinander. Dies deutet darauf hin, dass die geschlechtsspezifischen Unterschiede in den meisten Ländern nicht von der genauen Spezifikation des Conditioning-Modells (nach Einbeziehung des Geschlechts) abhängen, wobei potenziell geringfügige positive oder negative Schwankungen zu erwarten sind, wenn mehr Variablen einbezogen werden. Dennoch gibt es für einige einzelne Länder einige wichtige Unterschiede bei den Ergebnissen (die etwas schwierig zu erklären sind). Zum Beispiel sind in Australien, Israel, Frankreich, Polen, Slowenien und Norwegen die geschätzten geschlechtsspezifischen Unterschiede von M0 und M2 ähnlich. Dennoch gibt es einen großen Sprung in der Größenordnung der geschlechtsspezifischen Unterschiede in M1.

Was bedeutet das?
Unsere Untersuchungen führten zu zwei Schlussfolgerungen für die geschlechtsspezifischen Unterschiede: Erstens werden die geschlechtsspezifischen Unterschiede zu einer weniger verzerrten Schätzung vergrößert, sobald das Geschlecht in das Conditioning-Modell einbezogen wird. Zweitens sollte die genaue Spezifikation der einbezogenen Hintergrundvariablen theoretisch keine Rolle spielen, solange das Geschlecht benutzt wird. Während dies für die Mehrheit der Länder gilt, zeigt unsere Forschung jedoch, dass es in einigen Länder heikle Auswirkungen auf die Geschlechterunterschiede gibt, welche sich auch in Veränderungen in der Rangfolge dieser Länder widerspiegeln.
Zusammenfassend können wir sagen, dass es in Bezug auf die geschlechtsspezifischen Unterschiede von Bedeutung ist, ob und welche Hintergrundvariablen bei der Berechnung der Leistungswerte der Studierenden verwendet werden.