Kunnen eindtoetsen (voorheen de ‘citotoets’) valide zijn?

Ben Wilbrink september 2020

[Gebaseerd op een heel, heel lange twitterdraad. Desondanks: het is vooral heel erg telegramstijl, waardoor allerlei toelichtingen en toevoegingen achterwege zijn gebleven. De vele links zijn bedoeld om te gebruiken: neem kennis van wat erachter zit, zonder alles ook te lezen (dat neemt jaren in beslag). Stel gerust vragen. Hier en daar is het natuurlijk geen onbekende materie, maar wat ik heb proberen te doen is de discussie over die eindtoetsen uit de gangbare kokers te trekken. Tenslotte heb ik een halve eeuw onderwijsonderzoek achter de kiezen, en moet ik in staat zijn door de psychometrische bomen het bos van eerlijk onderwijs te zien. Of zoiets.]

========================================================

Komaan, ik moet eens aan de slag.
Vraag van de dag: kunnen eindtoetsen (voorheen de ‘citotoets’) valide zijn?

Dit is niet zomaar een vraag over de belangrijkste kwaliteit van eindtoetsen primair onderwijs. De vakliteratuur put zich uit in beslommeringen en berekeningen over hoe valide eindtoetsen zijn, en men neemt als het ware stilzwijgend aan dat zoiets een zinvolle onderneming is, dat validiteit er altijd wel is, zij het soms iets minder, dan weer iets meer. Deze blog breekt daar radicaal mee, de uitgangsstelling is dat het niet mogelijk is om in deze specifieke situatie op betekenisvolle wijze enige validiteit van eindtoetsen te bepalen. Of die oefening is gelukt? Beoordeel het zelf. Een hint: die eindtoetsen zijn van andere belanghebbende partijen dan de leerlingen en hun ouders zelf. Dat alleen al geeft te denken. Ik help een handje bij dat denken.


Validiteit is een open begrip, maar heeft wel een strak omschreven betekenis, vastgelegd in de Richtlijnen van het NIP (1988) en de Standards van APA AERA NCME (2014). Om een indruk te krijgen van wat er met validiteit zoal aan de orde is, zie bijv. (de bibliotheek over validiteit is zeer uitgebreid) van Sireci en Parker onlinelibrary.wiley.com/doi/abs/10.111… Dit abstract nodigt uit om ook het artikel zelf te lezen. Dat kan, kijk even wat er zoal in staat: sci-hub.tw/10.1111/j.1745…

Validiteit is niet een kenmerk van een toets, maar karakteriseert het gebruik ervan, in dit geval: de toewijzing van leerlingen aan schooltypen. (zie 1e kolom van Sireci & Parker). Veronderstel even, for the sake of argument, dat de eindtoets bepalend is voor die toewijzing. Tot zover klassieke stof, u vertrouwt er vast op dat het met validiteit wel goed zit. Hm, it depends.
Mijn vermoeden (in deze draad te onderzoeken) is dat validiteit van de eindtoetsen niet kan worden bepaald. Om een waaier van redenen rond de kernvraag Van wie is het onderwijs? Of, anders gezegd: validiteit van eindtoetsen is alleen te bepalen onder een reeks restricties en vooronderstellingen die het probleem versmallen tot een trivialiteit die vooral het huidige onderwijsstelsel bevestigt. Bijv.: zitten leerlingen na x jaar in het voorspelde onderwijstype? 

For English followers: this thread is about scholastic aptitude tests at the end of Dutch primary education; can they be called valid for for allocating pupils/students to one of six different types of secondary education—schools, not tracks, see

https://en.wikipedia.org/wiki/Education_in_the_Netherlands

Wat valt er te verwachten van dit kritische onderzoekje? Er zit een sterke analogie in, vermoed ik, met de thematiek van selectie voor numerus-fixusstudies; ik mocht voor de Cie-Drenth in 1997 dit overzicht van de publieke discussie 1972-1997 schrijven: http://benwilbrink.nl/publicaties/97OpsommingDrenth.htm Het rapport van de Cie, Gewogen loting gewogen:  archief06.archiefweb.eu/archives/archi…

Laten we eerst vaststellen dat ons stelsel van vo nog sterk de 19e eeuwse trekken van standsonderwijs heeft, zie matthijssen ‘Klasse-onderwijs’ (dbnl.org/tekst/matt023k…), en dat eindtoetsen daar dus voor selecteren (Bourdieu et Passeron 1970 ‘La reproduction’ Éléments pour une théorie du système d’enseignement. Zie bijv. sci-hub.tw/10.1177/053901…)

Waarom is die laatste constatering van belang? In de mate waarin eindtoetsen selecteren voor schooltypen die zich nog steeds laten karakteriseren als mede door ‘stand’ bepaald, bedienen ze leerlingen ongelijk = discriminatoir. Ze bevestigen standsverschillen. Niet valide dus. 

Mogelijke tegenwerping: ‘Maar ons onderwijs is toch meritocratisch? Bij gelijke capaciteiten zijn kansen toch ongeveer gelijk?’ De ongelijkheid zit hem nu juist in gelegenheid om gelijke capaciteiten te verwerven. Meritocratie: benwilbrink.nl/publicaties/97… Ook: Paul de Beer, Maisha van Pinxteren (Red.) (2016). ‘Meritocratie: Op weg naar een nieuwe klassensamenleving?’ Amsterdam University Press. Open access  http://nl.aup.nl/books/9789462983397-meritocratie.html. Een meritocratie is een dystopie, zoals de bedenker van de term, Michael Young 1957, uitstekend heeft beschreven.

Publiek onderwijs is er niet zomaar voor iedereen: er wordt voor geselecteerd. Is dat wel een eerlijke manier om dat kennelijk schaarse goed ‘onderwijs’ te verdelen? Meritocratie speelt in de kaart van bevoorrechte leerlingen. Is het onderwijs vooral van hoogopgeleide ouders? Sociologen zeggen dan dat onderwijs een positioneel goed is: kinderen van hoger opgeleide ouders kunnen zich proberen te onderscheiden van de overigen. Hun ouders zullen het oneerlijke onderwijsstelsel dat dit mogelijk maakt koste wat kost verdedigen. #onderwijsbeleid_is_oorlog

Beter geformuleerd: onderwijs geeft toegang tot schaarse begeerlijke maatschappelijke posities. Onderwijs heeft een signalerende functie, zegt econoom Bryan Caplan in zijn rijkelijk onthutsende ‘The case against education: Why the Education System Is a Waste of Time and Money’. Caplan contrasteert de volgens hem dominante signalerende functie met menselijk-kapitaaltheorie. Dus: het bewijs dat je een prestatie kunt leveren waar je later weinig aan hebt, versus het verwerven van maatschappelijk relevante kennis die rendeert voor individu en samenleving. 

Hoe zit het dan met de inhoud van eindtoetsen? Wat ‘toetsen’ zij, of wat ‘signaleren’ zij? Oppervlakkig bezien toetsen zij rekenen en taal. Maar ze zijn niet ‘curriculum aligned’ (scholen hebben verschillende curricula). Deze ‘scholastic aptitude tests’ testen intelligentie. Laat ik dat verduidelijken. De eindtoetsen hangen ergens tussen tests (intelligentie) en examens (in lijn met het curriculum). Dat is wel een validiteitsprobleem: op tests mag men NIET specifiek zijn voorbereid, op examens moet men juist WEL specifiek zijn voorbereid, en dat sluit elkaar uit. Over dat onderscheid tussen tests en toetsen zie: benwilbrink.nl/publicaties/86… (en dat komt terug in hoofdstuk 8 van de Richtlijnen van het NIP, 1988). Voorzover die eindtoetsen examens zijn die selectief toegang geven tot vervolgonderwijs, is de validiteit bedreigd omdat andere variabelen mede bepalend zijn. Hier uitgelegd: benwilbrink.nl/publicaties/77… Waar andere variabelen medebepalend zijn weten we dus niet goed wat we aan het meten zijn, en dat is een vrij ernstig gebrek voor eindtoetsen die voorspellend moeten werken.
Aha, uren studie zijn van belang, het advies van de leerkracht neemt dat wèl mee. Ik laat in deze draad het advies er buiten, maar hier wil ik toch opmerken dat het advies van de school sterk is bepaald door leerlingvolgsystemen, dat zijn ook scholastic aptitude tests. Helaas. Vrijwel alles wat hier wordt geschreven over eindtoetsen, geldt dus ook voor de schooladviezen. 

Laten we de ideeën van ‘signaling and sorting’ (Caplan en.wikipedia.org/wiki/The_Case_…) versus menselijk kapitaal (Becker nber.org/books/beck94-1) eens toepassen op eindtoetsen. Zij zijn ongetwijfeld een mix van beide.Een ingewikkelde mix ook, omdat de toetsen zelfs op de nuttige kennis van taal en rekenen (menselijk kapitaal) zo zijn ontworpen dat er op verschillen in die kennis kan worden geselecteerd (signaling and sorting). Dankzij een wetenschap in dienst van machthebbers: psychometrie. Dat laatste is onaardig geformuleerd; het slaat dan ook terug op de vraag ‘Van wie is het onderwijs?’. Kijk naar eindtoetsen die als hakmessen in een sorteermachine worden ingezet: die toetsen ‘zijn niet van’ leerlingen en hun ouders, zij hebben niets in te brengen. Terecht? 

Ik gebruik een onderscheid van Cronbach & Gleser (1957/1965 ‘Psychological tests and personnel decisions’ journals.uchicago.edu/doi/abs/10.108…): institutionele beslissingen, ten bate van instellingen zoals scholen, vs individuele beslissingen, ten bate van individuen zoals in adviesrelaties.U voelt hem misschien al aankomen: de vraag of leerlingen er zijn voor het onderwijs (institutioneel selecteren) of dat het onderwijs er is voor de leerlingen (individueel adviseren). Een onderscheid dat Co van Calcar en Siebe Soutendijk in de 60er jaren ook maakten, geloof ik. (Kindzwakke scholen, geen schoolzwakke kinderen)

Zonder glashelder antwoord hierop hangt validiteit van eindtoetsen in de lucht.
Ter inspiratie: Thorbecke vond ouders prima in staat zèlf te beslissen hun zoon naar zijn nieuwe HBS te sturen. Een paar jaar later lobbyden leraren met succes voor een toelatingsexamen. So it goes. 

Een dienstmededeling om het voor vandaag een beetje af te sluiten:
Op de lat staan in ieder geval nog:
– het zetten van grensscores (wanneer mag je dan nog net naar het vwo?)
– Als het allemaal niet valide is, wat dan wel? Is het niet één groot spel van afspraken? Wie maakt ze? 

– Er zijn alternatieven voor die cultuur van altijd maar benadrukken, vergroten, en testen van verschillen tussen leerlingen (oa het 2-sigma experiment van Bloom).
– Het is wel duidelijk dat (goed) onderwijs een schaars goed is. Hoe verdelen we dat eerlijk? (Theory of justice) – Mogelijke tegenwerpingen. ‘Ja maar, er zijn nu eenmaal grote verschillen tussen leerlingen’ Tegenvragen: waarom is dat zo; als er verschillen zijn, zijn die relevant bij de overgang naar vo? Wat telt uiteindelijk: bereikbaar scholingsniveau, of de daarvoor benodigde tijd? 

Grensscores, cesuren, zak-slaaggrenzen, drempels.

Karakteristiek voor het gebruik van toetsen is dat ze ook grensscores hebben: voor een ‘voldoende’, om toegelaten te worden, om behandeling A ofwel juist behandeling B te krijgen. Bijvoorbeeld bij eindtoetsen: grensscore tussen havo ofwel vwo. Ik wil wat langer stilstaan bij de vraag of beslissingen met een puntje verschil rond zo’n drempel wel valide zijn. De antwoorden geven een idee voor de richting waarin antwoorden te zoeken zijn op de vraag wat te doen met eindtoetsen waarvan we geen validiteit kunnen bepalen. A. D. de Groot, initiatiefnemer voor het Cito, auteur van ‘Vijven en zessen’, verantwoordelijk voor de Amsterdamse Schooltoets (1967 geloof ik; voorloper van de ‘citotoets’), deze A.D. zoals hij in de wandelgangen werd genoemd, zat met de handen in het haar over zak-slaaggrenzen. Want, schreef hij in 1972 in een bundel over selektie (helaas niet in de samenvatting ervan, zoals gegeven in zijn ‘Academie en forum’), iemand afwijzen, laten overdoen of laten zitten op een puntje verschil, dat is inhoudelijk op geen enkele manier te verdedigen. Hij signaleerde het probleem dat zo’n beslissing niet valide is, maar had er geen oplossing voor. Het probleem is zeer ernstig, al was het maar omdat validiteit nu juist bij uitstek het criterium voor kwaliteit van toetsen en tests is. Zijn toetsen met drempelbeslissingen dan alleen al daarom niet valide? Dat lijkt een te sterke conclusie, maar waarom zou dat zo zijn? 

Het probleem is ook zeer ernstig omdat juist rond die drempels, op dat ene puntje verschil, zich veel beroeps- en ook rechtszaken afspelen. Beroepszaken: Job Cohen 1981 ‘Studierechten in het wetenschappelijk onderwijs’ (scans beschikbaar:  benwilbrink.nl/projecten/toet…. ) Hoge Raad (maar terugverwezen naar Hof Arnhem) eindexamen Frans https://benwilbrink.wordpress.com/2017/09/20/examenonrecht-en-effet/

Het zal niet verbazen dat dit drempelprobleem al eens eerder is gesignaleerd, en van een oplossing voorzien. Waar komen we dan terecht: bij Francis Y. Edgeworth (1888). ‘The statistics of examinations’ http://www.jstor.org/stable/2339898 Op een puntje verschil niet aangenomen bij de Civil Service; is dat oneerlijk? Nee, zegt Edgeworth. En daar heeft hij goede argumenten voor. Kijk, zegt hij, zo’n examen is een steekproef, en daar kun je ook best een beetje pech of geluk bij hebben. Kandidaten kunnen dat weten, en hebben het ook zelf een beetje in de hand: zorg voor goede voorbereiding. 

Eerlijk en valide, is dat hetzelfde of zijn dat toch verschillende zaken? Het is mij om het even; vermeldenswaard is dat De Groot eerlijkheid of billijkheid als extra criterium heeft voorgesteld in 1970, als belangrijkste criterium ook voor toetsen, het artikel is hier beschikbaar: benwilbrink.nl/publicaties/70…

Naar mijn bescheiden mening zijn de twee belangrijkste Nederlandse publicaties over toetsen, beide in 1970, beide uit dezelfde UvA-afdeling, en qua onderwerop eigenlijk nauw verbonden hoewel niet naar elkaar verwijzend: van A.D. de Groot en R. van Naerssen. Surprise. 

Voor De Groot 1970 zijn toetsen billijk als ze door leerlingen doeltreffend zijn voor te bereiden. Ze moeten gaan over de stof die is voorgeschreven of behandeld, niet daarbuiten. ‘Curriculum-aligned’ heet dat bij de buren. De Groot vult verder in waar Edgeworth al op hintte. 

Met het ten onrechte in vergetelheid geraakte pleidooi van De Groot kan men het eens zijn, of niet. Zijn collega Van Naerssen heeft in 1970 een wiskundig model ontworpen dat handen en voeten geeft aan dat ‘doeltreffend kunnen voorbereiden’, zie hier voor zijn rede uit 1970: benwilbrink.nl/publicaties/70…

Hebben we nu een oplossing voor de vraag hoe we ‘dat ene puntje tekort’ moeten zien? In zekere zin een criterium voor wat ‘doeltreffend kunnen voorbereiden’ is: de leerling moet het risico van zakken of slagen zelf kunnen dragen. Leerkrachten hebben daar de zorg voor. Een oplossing voor dat probleem van grensscores is dan, in lijn met Edgeworth, De Groot, en Van Naerssen: het gaat om spelregels waar iedereen zich naar moet gedragen, ook leraren, zij hebben te zorgen voor billijke toetsen, doeltreffend voor te bereiden toetsen. #spelregels Die spelregels zijn deels ethiek (billijke toetsen), deels politiek (overgangsregelingen, examenregelingen). En dat is een radicale transformatie van wat in de testliteratuur validiteit heet. En dat is niet vrijblijvend: het recht ziet op de billijkheid (Job Cohen, 1981; Henk van Berkel 2019 en 2017 https://www.nvexamens.nl/wp-content/uploads/2017/12/Henk-van-Berkel.pdf). Uit de eis van billijkheid volgt onmiddellijk dat de grens onvoldoende-voldoende nooit bepaald mag worden als een vaststaand percentage. Wanneer alle leerlingen een extra inspanning plegen, moet dat tot uitdrukking kunnen komen in hogere scores. Ha, en omgekeerd ook! Ai ai. Hoe gaat dat bij de Centrale Eindtoets van het Cito/CvTE? De scores zijn gestandaardiseerd, tussen 500 en 550, zoveel is na enig zoeken wel duidelijk. Maar mij blijft onduidelijk of het zo is dat het gemiddelde in beginsel altijd op 335 wordt gezet. Leerlingen en scholen spelen tegen de bureaucratie van het CvTE (College voor Toetsen en Examens) (ik neem aan dat het voor de andere eindtoetsen in deze markt niet anders is). Kunnen zij dat winnen? Dat hangt ervan af: gaat het om beperkte aantallen plaatsen, of om geschiktheid? 

We komen nu bij de vraag of een test voor plaatsing in één van 8 typen brugklas (zoek. .nl/stcrt-2018-250…), een door-en-door traditioneel onderwijsstelsel, geworteld in de 19e eeuw, of zo’n test valide kan zijn. Of we kunnen weten/onderzoeken of er sprake kan zijn van validiteit.Stel nu eens dat het onderwijs in het vmbo kwalitatief onder de maat is, vergeleken met dat in het avo. En dat het juist kinderen van laagopgeleide ouders zijn die in het vmbo terechtkomen, kinderen van hoogopgeleide ouders in het avo. Dan zou er sprake zijn van discriminatie. 

Want hoe we kwaliteit ook definiëren, het kan niet zo zijn dat afkomst mede bepalend is voor de kwaliteit van het onderwijs dat wordt aangeboden. Toch? Dat zou in strijd zijn met de Grondwet art. 1, maar ik kan me vergissen, ik ben tenslotte geen jurist. denederlandsegrondwet.nl/id/vi7pkisz82r…

art. 1: ‘in gelijke gevallen gelijk behandeld’.
De eerste versie hiervan dateert van 1798, en lijkt veel duidelijker geformuleerd:
“Alle Leden der Maatschappij hebben, zonder onderscheiding van geboorte, bezitting, stand, of rang, eene gelijke aanspraak op derzelver voordeelen.” Juristen zullen onmiddellijk tegenwerpen dat gevallen zelden gelijk zijn, en dat dan verschillende behandeling gerechtvaardigd is naar de mate van de verschillen. Maar dus niet iedere verschillende behandeling, en het aanbieden van kwalitatief minder onderwijs lijkt ongepast. Als onderwijs in het vmbo kwalitatief minder is dan dat in het avo, dan zouden eindtoetsen instrumenten zijn die discriminerend werken. Einde van discussie over validiteit.

Dus: kan het kloppen dat de kwaliteit van het onderwijs in het vmbo onderdoet voor dat in het avo? Daar zijn wel aanwijzingen voor. Veel ouders zien hun kinderen liever in het avo dan in het vmbo, is dat onredelijk? Opleidingen in het vmbo leveren een lager ‘lifetime’ arbeidsinkomen op, daar heb je het al. Menselijk kapitaal. Fascinerende cijfers in dit CBS rapport: Marieke Rensman: ‘Menselijk kapitaal in cijfers’ CBS, hoofdstuk 8 uit ‘De Nederlandse economie 2011’ cbs.nl/-/media/import… Hoe belangrijk is dat menselijk kapitaal voor onze economie? “In 2009 bedroeg de waarde van het menselijk kapitaal in Nederland 6,7 biljoen euro.” “De omvang van menselijk kapitaal is veel groter dan dat van het niet-financieel en financieel vermogen, oftewel het nationaal vermogen.” Ik vermeld dit maar even, want het CPB vertikt het om kosten van onderwijs als investeringen te beschouwen, maar dat zijn ze dus in hoge mate! 

Een meer directe aanwijzing dat het niet goed zit met de kwaliteit van het onderwijs in het vmbo volgt uit een OECD-studie over kwaliteit van wiskundeonderwijs in OECD-landen:
Jill Barshay (2016). ‘Is it better to teach pure math instead of applied math? OECD study of 64 countries and regions finds significant rich-poor divide on math instruction’ hechingerreport.org/pure-math-bett…
OECD (2016). ‘Equations and Inequalities. Making Mathematics Accessible to All’ https://read.oecd-ilibrary.org/education/equations-and-inequalities_9789264258495-en#page1

Een quote daaruit: “While education systems have generally done well in providing equitable access to the QUANTITY of mathematics education […] the data show large differences in the QUALITY of learning experiences between social groups.
While disadvantaged students tend to learn simple facts and figures and are exposed to simple applied mathematics problems, their privileged counterparts experience mathematics instruction that help them think like a mathematician, develop deep understanding and advanced mathematical reasoning skills.” 

Er valt meer over te zeggen, maar laat ik het bot samenvatten met woorden van Vincent Icke, dat het vmbo het mag doen met raadseltjesrekenen, waar het avo serieus wiskundeonderwijs krijgt.
De kwaliteit van het onderwijs in het vmbo schiet tekort, dus ook de eindtoets-validiteit. 

De voorgaande tekst is qua lengte wat uit de hand gelopen. Begrijp eruit dat ontwikkelaars van eindtoetsen de dure plicht hebben de validiteit van gebruik van hun toetsen zorgvuldig te onderzoeken, en zeker ook mogelijk discriminatoir gebruik te signaleren.  #eerlijk_onderwijs 

Als er in dit vmbo-casus sprake is van discriminatie (of dat zo is, moet blijken uit toetsing door de rechter), dan kan gebrek aan validiteit van eindtoetsen niet worden gecompenseerd door dekking van de politiek. Discriminatie blijft discriminatie, en dat is niet aanvaardbaar. 

Laten we nu het algemene geval bekijken, voor twee behandelingen of schooltypen, A en B. Experimenteel onderwijsonderzoek gaat vaak over de vraag of A ‘beter’ is dan B, zo ja, dan blijft A.
Let op. Wat de eindtoets doet is iets ingewikkelds: leerlingen toedelen aan A òf aan B. De veronderstelling is kennelijk (stilzwijgend) dat sommige leerlingen het beter doen in A dan in B, en dat andere leerlingen het ‘beter’ doen in B dan in A, en dat de eindtoets dat kan voorspellen. Bij de buren heet dat de veronderstelling van een Aptitude Treatment Interaction (ATI). Lee J. Cronbach en Richard E. Snow onderzochten grondig wat daarover bekend is (uit Amerikaans onderwijsonderzoek, dat wel.) in hun 1977 ‘Aptitudes and Instructional Methods. A Handbook for Research on Interaction’ (voor een uur te leen in archive.org/details/aptitu…)
Enkele quotes: 

“We once hoped tat instructional methods might be found whose outcomes correlate very little with general ability. This does not appear to be a viable hope. (…)
The pervasive correlations of general ability with learning rate or outcomes in education limits the power of ATI findings to reduce individual differences.” (p. 500)

Bij een dubbelblind experiment zal het resultaat ongetwijfeld zijn dat in A de prestaties sterk correleren met eindtoetsscores, maar eveneens in B zal dat het geval zijn (regressielijnen zijn beide stijgend) Hm. Impasse? 

In het onderwijs is de correlatie tussen intelligentie en studieresultaten typisch ca. 0,7. Er is geen reden dat conditie A hierin verschilt van B, dus in ons gedachte-experiment zijn beide regressielijnen parallel, is er dus GEEN interactie, mogelijk wel een constant verschil. Bij een constant verschil, laten we zeggen dat de regressie voor conditie A een constante boven die van B ligt, levert A voor alle leerlingen het beste resultaat. De eindtoets zou alle leerlingen dan aan A moeten toewijzen. Dat zien we dus niet gebeuren. Wat is hier aan de hand? Misschien zie ik iets over het hoofd? Stel dat in conditie A de totale studietijd begrensd is, en dat er een groep is die tegen die grens aanloopt en daardoor lagere prestaties boekt. Maakt dat iets uit? Alleen als resultaten dan lager worden dan in B het geval zou zijn. Maar wat hebben we dan voor wonderlijke situatie? Vergelijk het met eindexamens, waar de toegemeten tijd ruim genoeg is zodat iedereen het werk binnen die tijd kan afronden; zou dat niet het geval zijn, dan verandert dat de prestatietoets in een kromme intelligentietest. Datzelfde kan ook met instructie- en zelfstudietijd: daar onhandige beperkingen aan stellen geeft leerlingen ongelijke kansen om goed te presteren. In dit eenvoudige gedachte-experiment vinden we dus dat het niet waarschijnlijk is dat een intelligentietest of eindtoets gebruikt kan worden om een rationele toedeling van leerlingen aan verschillende schooltypen te onderbouwen. In dit opzicht kan de eindtoets niet valide zijn. 

Verder met het gedachte-experiment. In de bereikte impasse komt de politiek langs en die zegt, na ampel beraad en advies van vele raden: we gaan die eindtoets toch gebruiken om leerlingen over A zowel als B te verdelen, omdat beide maatschappelijk noodzakelijk zijn. Dan komt de aap uit de mouw, er zijn andere belangen. Dat verandert de situatie radicaal: de politiek bepaalt een numerus fixus voor het aantrekkelijkste schooltype — in ons gedachte-experiment is gebleken dat dat type A was.
En de politiek zegt dat intelligentie bepalend is voor de toelating tot A. Wat hebben we dan: #meritocratie In een tweet eerder deze avond kwam een tabel langs die mooi laat zien hoe groot de overlap in ‘prestaties’ kan zijn, tussen de diverse opleidingstypen: https://twitter.com/ReMeij/status/1307370222014418949/photo/1
In de 90er jaren kon Nederland zien hoe prestaties in de basisvorming ook zo’n grote overlap hadden. Ik wil die uitkomst van meritocratie vanavond niet laten bungelen. Een meritocratie is een walgelijke, een dystopische samenleving, zoals Michael Young in 1957 schetste. En wel hierom: zie Michael J. Sandel 2020 ‘The tyranny of merit’. athenaeum.nl/boek/?authorti… (vertaald)

Dit is een goed moment om door te verwijzen naar een artikel over intelligentie, waar inderdaad nog wel iets meer over gezegd zou moeten worden: van12tot18.nl/intelligentie-…
[Wim van den Broeck bekritiseerde het: threadreaderapp.com/thread/1271064… ; mijn dupliek: benwilbrink.wordpress.com/2020/06/12/dup…]

Over het op rationele wijze (besliskundig) bepalen van grenzen tussen zakken/slagen zie het meer technische artikel in het TOR benwilbrink.nl/publicaties/80… vooral de paragraaf ‘Verbinding met het werk van Cronbach en Snow (1977)’ en Figuur 5.

Leuk hoor, die analyse op twee behandelingen/schooltypen A en B. Maar de eindtoetsen gaan over acht schooltypen, noem ze maar A, B, C, D, E, F, G en H. Ik heb die eindtoetsen gekenmerkt als type intelligentietests (SAT’s bij de buren). Die intelligentie moet wel heel veel werk doen! Hoe kan het bestaan dat leerlingen in acht verschillende schooltypen worden geplaatst op basis van slechts een enkele variabele? Er moeten dan zeven reële interacties intelligentie-studieresultaten zijn. En dat de toetsen voor die ene variabele dan ook nog ‘valide’ heten? Ik ben mij niet bewust van het bestaan van literatuur die dit bizarre casus analyseert. Iedere tip is welkom.

Ik zal zelf deze witte vlek op de toetskaart moeten verkennen. Ik ga gebruik maken van de analogie met selectie voor numerus-fixusstudies, ook een plaatsingsprobleem. In het hoger onderwijs is het mogelijk om opleidingen te rangordenen naar de mate waarin zij intellectueel minder of juist meer veeleisend zijn. Pedagogiek is in NL (maar ook in de VS) minder veeleisend, en staat ook ergens onderaan in status. Ruimtevaarttechniek is veeleisend. De VS kent een sterke hiërarchie tussen universiteiten. Wie wat beter kijkt, ziet dat die hiërarchie mede berust op de aard van aangeboden opleidingen: vooral pedagogiek (‘education’), of juist vooral techniek (bv. MIT). Er wordt in de VS volop geselecteerd, hoe gaat dat? Zie Rebecca Zwick (2017). ‘Who Gets In? Strategies for Fair and Effective College Admissions’ Info: hup.harvard.edu/catalog.php?is…
Interview: ets.org/research/polic…
Dit boek geeft weer hoe men in de VS over selectie denkt, in het bijzonder ook bij het Cito van de VS: Educational Testing Service. 

Who Gets In? — Rebecca ZwickOn the disputed topic of U.S. college admissions, everyone agrees that this high-stakes competition is unfair. But few agree on what a fair process would be. Stressing transparency in evaluating appli…http://www.hup.harvard.edu/catalog.php?isbn=9780674971912Selectieve tests in de VS zijn scholastic aptitude tests, zoals de SAT (van de College Board) en de ACT (act.org, ceo is Marten Roorda, voorheen ceo Cito eu.press-citizen.com/story/news/loc…)
En ja, het Cito, en de NL testpsychologie en psychometrie, zijn sterk georiënteerd op de VS. 

Roorda takes the helm at ACT

Al dat gedoe met tests suggereert dat alles dan ook draait om die tests. Maar zo gaat het niet. Men kiest eerst vooral zelf voor pedagogie, of ruimtevaarttechniek (zelf-selectie), en om dat te realiseren wacht er misschien een selectieve toelating (selectie-aan-de-poort).
Zo gaat het ook ongeveer bij onze 12-jarigen, toch? Op dit punt aanbeland zou ik graag een paar grote thema’s tegelijk behandelen, maar ja, dat kan dus niet. Stel vast dat er een reeks van 8 schooltypen is, in volgorde van intellectuele eisen die er gesteld worden (dalen, of klimmend), en een eindtoets/intelligentietest. Laten we inspiratie voor een vruchtbaar begin van de analyse halen uit wat Sandel zegt aan het slot van het interview dat Trouw (19 sept.) met hem had trouw.nl/religie-filoso…:
“De hoogopgeleide elites in de VS, maar ook in Nederland en de rest van Europa] waren zich niet bewust 

Filosoof Michael Sandel ontrafelt de populistische opstand: ‘Arbeiders beseffen dat de elite op hen neerkijkt’

van de belediging die besloten lag in hun meritocratische model, namelijk dat wie niet omhoog klimt, dat aan zichzelf te wijten heeft. Ze zagen niet hoe neerbuigend ze waren.”
Ons vo volgt het meritocratisch model: het ‘beste’ onderwijs is voorbehouden aan de ‘intelligentsten’! Grote thema’s zijn in ieder geval:
– onderwijs is kennelijk een schaars goed (maar dat zou het niet moeten zijn?)
– hoe kan dit schaarse goed eerlijk worden verdeeld?
– wat valt er te leren van meer dan 40 jaar gewogen loting voor numerus-fixusstudies?

 – wat is ‘intelligentie’ eigenlijk? Persoonlijke verdienste? Of het geluk van waar je wieg heeft gestaan?
– het bo slaagt niet in het beperkt houden van milieu-bepaalde verschillen
– voor dit falen van het bo worden de leerlingen gestraft met oneerlijke kansen op vo — vo in 8 typen, dat is te gek. Waarom is dat zo, hoe anders?

– eindtoetsen kunnen in deze constellatie van tekortschietende condities alleen maar valide worden genoemd door al die onvolkomenheden als onveranderlijke gegevenheden te beschouwen.

Maar zo kan het dus niet. Ik zou misschien het best verder kunnen gaan met de laatste stelling als uitgangspunt, en dan kort aanstippen op welke manieren zoal een selectie op basis van intelligentie/eindtoetsen oneerlijk/discriminerend is. Dikke boeken kan ik altijd nog schrijven. Ha ha. 

U vermoedde het mogelijk al: deze draad is een riskant avontuur waarin de stelling dat validiteit van eindtoetsen zich niet laat bepalen leidt tot een aantal voor mij nieuwe inzichten.

  • Zoals de vergelijking van selectie van 12-jarigen met die bij numerus-fixusstudies.
  • Zoals de stelling dat kwalitatief ondermaats wiskunde-onderwijs in het vmbo, samen met oververtegenwoordiging van kinderen van laagopgeleide ouders in dat vmbo, de toewijzing van kinderen aan vmbo-scholen mogelijk discriminerend is.
  • Zoals de stelling dat selectie voor vo-schooltypen sterke trekken heeft van selectie voor telkens beperkt aantal plaatsen (numerus-fixus), die veel ‘geschikte’ kandidaten afwijst, te veel dus.
  • Zoals het inzicht dat eindtoetsen problematisch bungelen tussen examens en tests: wel of juist niet doeltreffend voor te bereiden. 
  • Laat ik toch even aanhaken op dat ‘bungelen’, want daardoor gaan allerlei extra storende variabelen een rol spelen en raakt uit het zicht wat validiteit dan nog is. Storende variabelen, dat levert ‘construct-irrelevant variance’ op. Het zijn er heel wat, ook los van dat ‘bungelen’: zie tabel 1 ‘A Taxonomy … Systematic Errors …’ in Thomas M. Haladyna & Steven M. Downing (2005). Construct-Irrelevant Variance in High-Stakes Testing. Educational Measurement: Issues and Practice sci-hub.tw/10.1111/j.1745… Dit artikel bespaart mij weer een hoop schrijfwerk.
  • Ik moet daar toch dringend iets aan toevoegen, en wel dat ‘intelligentie’ zelf een optelsom is van ‘construct-irrelevancy’: het is immers niet een aangeboren stabiele persoonlijkheidstrek, maar mede resultaat van onderwijs. benwilbrink.wordpress.com/2020/05/24/int… Afijn, ik verwees er al naar.

Ik wil even terug naar de kernvraag: ‘van wie is het onderwijs’, waar is het allemaal goed voor? Als u een ultiem criterium voor maatschappelijk relevant onderwijs mag kiezen, wat zou dat zijn? Waar kan het aan worden afgemeten? Het mag ook een proxy zijn, een sterke indicator. 

Ik stel voor: laten we menselijk kapitaal nemen als (proxy)variabele waar het uiteindelijk bij het onderwijs om draait. Vat het breed op: ook gezondheid. En neem het zowel in maatschappelijke zin, als individueel. Bas Jacobs over menselijk kapitaal: personal.eur.nl/bjacobs/rendem…

We kwamen menselijk kapitaal eerder al tegen als het belangrijkste kapitaal in de (economische) samenleving. Meer ervan is beter. Onderwijs is de belangrijkste producent van menselijk kapitaal. Hamvraag: is er nog aanzienlijke ‘reserve’ in wat het onderwijs kan produceren? Die vraag doet denken aan die andere vraag, na de oorlog vaak gesteld, ‘wat is de reserve aan intellect in Nederland’? Want die reserve moet het onderwijs dan aanboren. Maar dit terzijde, want deze draad gaat over validiteit, if any, van eindtoetsen: wat moeten ze voorspellen? 

Velen, ook A.D. de Groot, hebben opgemerkt dat in het onderwijs niets zo goed voorspelt als recente prestaties. Er is in het onderwijs een groot vertrouwen in resultaten uit het verleden als voorspeller van de toekomst. Maar pas op: dit gaat over verschillen tussen leerlingen. Wat hebben we hier te pakken: het mechanisme dat verschillen tussen leerlingen in stand houdt. Ongelijkheid troef, hoe groter de ongelijkheid, des te beter de voorspellingen. Voorzover verschillen tussen leerlingen SES-bepaald zijn, reproduceert onderwijs verschillen in SES. Het geschetste mechanisme is rampzalig voor eerlijk onderwijs, maar dus ook voor wat het onderwijs aan menselijk kapitaal produceert. Wat eindtoetsen zouden moeten doen, is voorspellen wat opbrengsten in termen van menselijk kapitaal zijn, bij gegeven schooltypen. Kunnen ze dat? Laten we wel wezen, het gaat bij deze 12-jarigen om beslissingen die mede bepalend zijn voor hun verdere leven. Het is van de gekke om die beslissingen zo kortzichtig te nemen als nu in feite gebeurt. Toch is dat wat we doen: beslissen op de korte klap, voor de lange termijn. 

Een voorbeeld van wat ik bedoel. Selectie voor geneeskunde. Velen zijn van mening dat dat goed kan op basis van eindexamencijfers, want kandidaten met hogere cijfers blijken betere resultaten in het eerste of tweede jaar van de studie geneeskunde te halen. Goed argument? Als u ‘ja’ zegt, bent u in gezelschap van een aantal promovendi die zich beijverd hebben om dat verband weer eens opnieuw aan te tonen. U kunt ook ‘nee’ zeggen, want eindexamencijfers zeggen weinig of niets over later een goede arts zijn. En dat laatste klopt waarschijnlijk. Uiteindelijk gaat het om een goede arts zijn, niet of meer of minder tijd voor de studie nodig is.

Dat selectie op het criterium van beroepsuitoefening lastig of onmogelijk is, is geen argument om dan maar op verwacht studiesucces te selecteren. (Kan het niet zoals het moet … ) 

Nederland heeft een belangrijk en boeiend onderwijsexperiment achter de rug: meer dan 40 jaar gewogen loting voor numerus-fixusstudies. Dat ging gepaard met de nodige maatschappelijke discussie over wat eerlijk is, zie mijn rapportage voor de Cie-Drenth benwilbrink.nl/publicaties/97… ‘Kan het niet zoals het moet, dan moet het maar zoals het kan’ is te kort door de bocht: er zijn altijd alternatieve mogelijkheden voor het verdelen van schaarste. Zie bijvoorbeeld: Jon Elster (1992). ‘Local justice. How institutions allocate scarce goods and necessary burdens’ Cambridge UP. 

Tegenwerping: Je zegt toch dat die eindtoetsen (als ‘scholastic aptitude tests’) intelligentietests zijn? En intelligentie voorspelt toch succes in het leven, en dus ook menselijk kapitaal?
Klopt. Maar daar zijn een paar probleempjes mee, een drietal: 

1) Eindtoetsen zijn beroerde intelligentietests omdat ze niet als zodanig zijn ontworpen. Ze testen op intelligentie, maar we weten niet hoe dan precies, dus leerlingen worden onderworpen aan willekeur. Alweer: beroerde of in het geheel geen validiteit. 

2) Het kan zomaar zijn dat achtergrondvariabelen zoals sociaal-economische achtergrond betere voorspellers van succes in het leven zijn, en van menselijk kapitaal. En wel in deze zin dat intelligentietests daar geen voorspellende waarde aan toe kunnen voegen. 

3) Intelligentie is niet aangeboren, maar vooral een resultaat van onderwijs. Ieder jaar extra onderwijs voegt intelligentie toe. Het is ook een heel erg schools ding, bewust zo gekozen door Alfred Binet, rond 1900. We moeten het dus niet buiten die schoolse context gebruiken. 

Het laatste is dan weer een variant op: succes in school is niet hetzelfde als succes in de samenleving (breed opgevat).
Succes in school hebben is wat we intelligentie noemen; voor succes in de samenleving is bijvoorbeeld het hebben professionele expertise van belang. Dat neemt niet weg: in onze ongelijke samenleving is het onderwijs poortwachter voor schaarse maatschappelijke posities. Het verband tussen intelligentie en maatschappelijk succes is dus een self-fulfilling prophecy: zo is het bedoeld te functioneren. #onderwijsbeleid_is_oorlog 

Linksom of rechtsom kunnen we er niet omheen dat die selectie van 12-jarigen een groot maatschappelijk onrecht is, een onrecht dat mede in stand wordt gehouden door eindtoetsen die belanghebbenden graag ‘objectief’ noemen, alsof ze geen toedekkende rol in een kwaad drama spelen. I

k wil hier de ontdekkingsreis afsluiten.Ik heb laten zien dat de vraag naar validiteit van eindtoetsen niet los mag worden gezien van de schoolse en maatschappelijke context waarin die toetsen worden gebruikt om belangrijke beslissingen OVER (niet VAN) leerlingen te legitimeren. 

Ik heb eerder over problemen rond eindtoetsen geschreven, en over de kwaadaardige nadruk op verschillen tussen leerlingen waar zij stilzwijgend van uitgaan. ik geef een aantal links. 

– Talent: aangeboren of aangeleerd? Dat maakt nogal uit voor onderwijs! komenskypost.nl/?p=2971
– Advies en eindtoets — beide eufemismen — Wat is ervan te vinden? komenskypost.nl/?p=4849
– Over maantjes, sterretjes en zonnetjes en veel meer. https://komenskypost.nl/?p=4883

– De rode draad is het thema ‘eerlijk onderwijs’ komenskypost.nl/?p=4110
– Jubileumboek 50 jaar Cito – Mantel der liefde benwilbrink.wordpress.com/2019/10/07/jub…
– [een literatuurbestand over aansluiting bo-vo: benwilbrink.nl/literature/aan… ]

PM Dit is nog een heel ruwe tekst, waarin sommige belangrijke inzichten wat onhandig zijn geformuleerd. Ik zal er nog wel eens op terugkomen met een betere uitwerking van de pareltjes in deze molshoop, mogelijk voor een publicatie.

Gelijke kansen, of eerlijk onderwijs?

[Toegevoegd 20 oktober 2020; Twitter draadje https://twitter.com/benwilbrink/status/1317863786485788672 ]

Wanneer houden die onderwijskansen eigenlijk op? Over ongelijke kansen gesproken: wij selecteren 12-jarigen naar ongelijke-kansen-onderwijs: beroepsonderwijs of algemeen vormend. Als we het nu eens zo blijven benoemen, dan is minder makkelijk om ervoor weg te duiken.

De drogreden die we vaak, zij het meestal impliciet, te horen krijgen: het basisonderwijs geeft gelijke kansen, dus die selectie van 12-jarigen is volkomen terecht. Maar dat slaat natuurlijk nergens op. Zie Sandel: https://benwilbrink.wordpress.com/2020/10/07/annotaties-bij-sandel-2020-the-tyranny-of-meritocracy/

Ik kan het ook anders, korter, duidelijk maken. We jammeren wat af over oneerlijke kansen bij het advies van de school, in vergelijking met uitslagen van de eindtoets. Maar het gaat toch om de ongelijkheid inherent in die beslissingen zèlf: wie mag naar havo, wie moet naar mavo.

Ho ho, krijg ik te horen: ‘het gaat om gelijke kansen bij gelijke capaciteiten’. Wat zijn dan die capaciteiten? Wanneer zijn ze gelijk? Geven ‘meer’ capaciteiten rechten die anderen niet hebben? Ooit een ‘capaciteit’ gevangen, gezien, gewogen, onderzocht?

capaciteiten ~ talenten ~ intelligentie ~ vermogens ~ expertise ~ kennis ~ beheersing. Geleerd op school, geleerd buiten school, of aangeboren? Nog in ontwikkeling, of al uitontwikkeld? Hoe gunstig waren omstandigheden (inclusief school!), hoe gunstig zijn ze in de toekomst?

Tja, het is complex, maar we kunnen toch met elkaar afspreken hoe we ermee omgaan, ook al schiet onze kennis tekort? Ja, dat kan. Maar wie zijn dan de betrokken partijen, en hoe bepalen zij hun onderlinge invloed, in overeenstemming met het belang dat zij erbij hebben?

Kijk, daar heb je dan al gauw een batterij filosofen voor nodig, over wat rechtvaardig is, en alles wat daar mogelijk uit volgt, ten goede, of ten kwade. John Rawls. Amartya Sen, Martha Nussbaum. Dat het om kinderen gaat maakt het niet eenvoudiger; kunnen zij achteraf oordelen?

De lastige knoop wordt natuurlijk doorgehakt door de politiek, in meerder of mindere mate beïnvloed door tradities en gewoonten. Kortom, we kunnen onmogelijk zeggen dat die selectie van 12-jarigen een zaak is van eerlijke kansen, voor de kinderen is het eerder gestolde willekeur.

Gelijke kansen, wat zijn dat? [draadje

Dat hangt ervan af. Ik heb de indruk dat we in NL het Amerikaanse begrip ‘equal opportunity’ hebben overgenomen: gelijke kansen bij gelijke capaciteiten. Maar dat is een meritocratisch begrip. Zie Sandel ‘The tyranny of merit’ p. 224 de par. ‘Beyond equality of opportunity’.

De Nederlandse discussie over gelijke kansen, zoals bijv. door de Inspectie, gaat over dat meritocratische begrip: gelijke kansen bij gelijke capaciteiten. Maar die capaciteiten zijn stromannen: ze bestaan immers niet als bij de geboorte al vastgelegde kennis/vermogens.

Dat betekent dat de vervolgvraag moet zijn: wat zijn gelijke kansen op het verwerven van die capaciteiten? Voor het antwoord daarop moeten we niet kijken naar wat ‘gelijk’ is, maar naar wat ‘ongelijk’ is. Al die nadruk op ‘gelijke kansen’ leidt tot wegkijken van ongelijkheid.

Daarom pleit ik voor in de discussie inwisselen van die misleidende ‘gelijke kansen’-retoriek voor EERLIJKE kansen. Wat dat zijn, dat weet ik ook niet, maar het is bitter noodzakelijk daar maatschappelijk over te discussiëren. https://van12tot18.nl/op-weg-naar-eerlijk-onderwijs

meer literatuur

Niki De Bondt, Vincent Donche & Peter Van Petegem (2020). Are contextual rather than personal factors at the basis of an anti-school culture? A Bayesian analysis of differences in intelligence, overexcitability, and learning patterns between (former) lower and higher-track students. Social Psychology of Education. Abstract: https://link.springer.com/article/10.1007/s11218-020-09597-5

2 thoughts on “Kunnen eindtoetsen (voorheen de ‘citotoets’) valide zijn?

  1. Pingback: Annotaties bij Sandel (2020) ‘The tyranny of meritocracy’ | Fair schooling & assessment

  2. Pingback: Jubileumboek 50 jaar Cito – Mantel der liefde | Fair schooling & assessment

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Google photo

You are commenting using your Google account. Log Out /  Change )

Twitter picture

You are commenting using your Twitter account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s