Freiheitsgrade der Forschenden: einige Bemerkungen zur Sekundäranalyse
Christian Bokhove
Dieser Blog wurde von Laura Zieger ins Deutsche übersetzt.
In den letzten Jahrzehnten sind immer mehr Bildungsdaten verfügbar geworden, darunter auch die aus groß angelegten internationalen Vergleichsstudien (International large-scale assessments; ILSA), wobei die ‚Organisation für wirtschaftliche Zusammenarbeit und Entwicklung‘ (OECD) und die ‚International Association for the Evaluation of Educational Achievement‘ (IEA) eine Schlüsselrolle bei der Dissemination der Ergebnisse dieser ILSAs und ihrer internationalen Datenbanken spielen. Diese Zunahme von ILSAs hat uns einzigartige Möglichkeiten eröffnet, die Regelungen von unterschiedlichen bildungsrelevanten Themen international zu vergleichen. Die meisten ILSAs veröffentlichen ihre Daten auf öffentlichen Websites und oft einhergehend mit detaillierten, technischen Handbüchern, um Analysten bei der Analyse dieser Daten zu helfen. Diese Transparenz ist großartig, aber auch etwas beeinträchtigt durch das Fachwissen, das für weitergehende Analysen erforderlich ist. Es ist jedoch wichtig, dass auch unabhängige Analysen, also nicht nur von der OECD und der IEA, durchgeführt werden, damit wir den vollen Nutzen aus den reichhaltigen Daten ziehen können.
Eine Herausforderung bei der Datenanalyse im Allgemeinen und sicherlich auch bei der Analyse von ILSA-Sekundärdaten besteht in der Transparenz darüber, wie die Daten verarbeitet und analysiert werden. Bei der Analyse von Sekundärdaten gibt es eine enorme Anzahl von so genannten „Freiheitsgraden der Forscher“. Am Anfang schon die Wahl des ILSA-Datensatzes. In meinen Bereich, dem Mathematikunterricht in der Sekundarstufe, kann ich mir 15-Jährige in PISA und Achtklässler in TIMSS ansehen. Diese haben jeweils eigene Leistungsvariablen und je nachdem, was einen interessiert, sollte der eine oder der andere gewählt werden. Dann gibt es die Kontextfragebögen und die dazugehörigen Skalen. Die ILSA-Hersteller stellen diese Skalen manchmal bereits her, aber manchmal würden wir gerne unsere eigenen Skalen erstellen. Ein weiterer Freiheitsgrad. Es mag logisch sein, dass alle Forscher den „besten Praktiken“ folgen, wenn es darum geht, ILSAs „komplexes Stichprobendesign“ zu berücksichtigen und zum Beispiel Gewichte, plausible Werte und Resampling-Techniken zu verwenden, aber wir wissen, dass dies nicht immer der Fall ist. Und selbst wenn sie verwendet werden, gibt es Variationen, wenn zum Beispiel Gewichte verwendet werden.
Dann wählen die Forscher einen analytischen Ansatz, der von relativ einfachen deskriptiven Statistiken bis hin zur fortgeschrittenen mehrstufigen Strukturgleichungsmodellierung reicht. Hier werden weitere Entscheidungen getroffen, zum Beispiel darüber, ob die Variablen zentriert werden. Oder beim Umgang mit fehlenden Werten; es kann einen großen Unterschied machen, ob Daten ausgeschlossen werden oder mithilfe von Einfach- oder Mehrfachimputation imputiert werden. Schließlich gibt es auch zahlreiche Softwarepakete, die verwendet werden können; einige sind einfacher oder kostengünstiger verfügbar als andere. Sie alle können leicht unterschiedliche Schätzverfahren verwenden. Ich bin sicher, dass es noch mehr „Freiheitsgrade“ gibt, aber alles in allem ist es eine umfangreiche Liste von Dingen, für die die Analysten unterschiedliche Entscheidungen treffen können.
Deshalb ist es meiner Meinung nach so wichtig, diese Entscheidungen transparent aufzuzeichnen. Ein guter erster Schritt wäre es einfach, darüber in Analyseberichten und Artikeln zu berichten. Noch besser wäre es, wenn Analyseskripte und -code zur Verfügung gestellt werden, damit Analysen repliziert werden können. Das würde es auch einfacher machen, sie dann auf neue Daten anzuwenden, wenn diese veröffentlicht werden.