Rolf V. Olsen en Sigrid Blömeke

Deze blog is vertaald naar het Nederlands door Emilie Franck.

Grootschalige internationale toetsen (GIT) worden in veel landen beschouwd als cruciale tools om de onderwijskwaliteit te bewaken. De resultaten van deze studies worden onder andere vaak geciteerd in beleidsdocumenten en worden regelmatig gebruikt ter onderbouwing in politieke debatten. GIT’s hebben met andere woorden de afgelopen twintig jaar heel wat aanzien gewonnen en zich bewezen als krachtige kennisbronnen. In een reeks van vier blog-posts bespreken we twee van de belangrijkste redenen die het toenemende aanzien van GIT’s kunnen verklaren: deze ondersteunen de interpretatie van de bevindingen vanuit twee comparatieve perspectieven – vergelijkingen tussen onderwijssystemen en vergelijking binnen één onderwijssysteem doorheen de tijd. In de vierde en laatste blog bespreken we de uitdagingen  waarmee deze twee vergelijkende perspectieven zullen worden geconfronteerd in toekomstige GIT’s.

Onderwijs kwantificering

Het meten van onderwijskwaliteit is moeilijk omdat dit niet direct waarneembaar of meetbaar is. Vaak zijn we namelijk geïnteresseerd in het trekken van conclusies omtrent de psychologische eigenschappen van personen – bv. hoe gemotiveerd zijn leerlingen om te leren, hoe tevreden zijn leraren met hun werkomgeving, of hoe bekwaam zijn leerlingen in het lezen. Deze eigenschappen kunnen niet direct worden waargenomen of gemeten. We hebben immers geen “leesvaardigheid-meter” of elektronische sensor, die onmiddellijk een waarde op een schaal kan rapporteren. In plaats daarvan moeten we gebruik maken van indirecte procedures waarbij één of (meestal) meerdere waarnemingen van een persoon worden gebruikt om een waarde op een schaal te bekomen. Gelukkig biedt de vakinhoudelijke theorie in combinatie met de testtheorie (of “psychometrie”) ons krachtige instrumenten om betrouwbare en valide metingen of indicatoren van dergelijke verschijnselen op sociaal en psychologisch gebied te ontwikkelen.

Maar, zelfs als deze maatstaven stevig geworteld zijn in de vakinhoudelijke theorie en de nodige psychometrische kwaliteit bezitten, zijn de numerieke waarden meestal moeilijk te interpreteren, bv. door middel van vragen zoals:

  • Wat is een aanvaardbaar prestatieniveau voor een onderwijssysteem?
  • Welke waarde op een pest-schaal is verontrustend?
  • Bij welke waarden moeten we concluderen dat een regressiecoëfficiënt, een correlatiecoëfficiënt of het verschil tussen twee groepen inhoudelijk betekenisvol is?

Internationale vergelijkingen zorgen voor een referentiekader

Antwoorden op dergelijke vragen zijn grotendeels normatief of politiek van aard, omdat het ons niet alleen ontbreekt aan vakinhoudelijke theorieën voor het bekomen van dit soort antwoorden, maar ook omdat we het op normatief vlak oneens kunnen zijn: Iemand kan dus gewoon drempels vaststellen en proberen er betekenis aan te geven. Maar ook politiek vastgestelde of vastgelegde drempels hebben onderbouwing nodig en GIT’s bieden deze onderbouwing door op verschillende manieren vergelijkingen mogelijk te maken.

De keuze voor een vergelijkingspunt, een criterium of een norm, is evenmin een neutrale activiteit. Het vormt veeleer de argumentatieve kern of rechtvaardiging voor de interpretatie van de gegevens. In de volgende blogposts wordt besproken hoe vergelijkingen met andere landen de interpretatie van gegevens uit GIT’s kunnen helpen, maar ook waarom dergelijke vergelijkingen misleidend en methodologisch onjuist kunnen zijn. 

About the author(s)