Ben Wilbrink september 2020
[Gebaseerd op een heel, heel lange twitterdraad. Desondanks: het is vooral heel erg telegramstijl, waardoor allerlei toelichtingen en toevoegingen achterwege zijn gebleven. De vele links zijn bedoeld om te gebruiken: neem kennis van wat erachter zit, zonder alles ook te lezen (dat neemt jaren in beslag). Stel gerust vragen. Hier en daar is het natuurlijk geen onbekende materie, maar wat ik heb proberen te doen is de discussie over die eindtoetsen uit de gangbare kokers te trekken. Tenslotte heb ik een halve eeuw onderwijsonderzoek achter de kiezen, en moet ik in staat zijn door de psychometrische bomen het bos van eerlijk onderwijs te zien. Of zoiets.]
========================================================
Komaan, ik moet eens aan de slag.
Vraag van de dag: kunnen eindtoetsen (voorheen de ‘citotoets’) valide zijn?
Dit is niet zomaar een vraag over de belangrijkste kwaliteit van eindtoetsen primair onderwijs. De vakliteratuur put zich uit in beslommeringen en berekeningen over hoe valide eindtoetsen zijn, en men neemt als het ware stilzwijgend aan dat zoiets een zinvolle onderneming is, dat validiteit er altijd wel is, zij het soms iets minder, dan weer iets meer. Deze blog breekt daar radicaal mee, de uitgangsstelling is dat het niet mogelijk is om in deze specifieke situatie op betekenisvolle wijze enige validiteit van eindtoetsen te bepalen. Of die oefening is gelukt? Beoordeel het zelf. Een hint: die eindtoetsen zijn van andere belanghebbende partijen dan de leerlingen en hun ouders zelf. Dat alleen al geeft te denken. Ik help een handje bij dat denken.
Validiteit is een open begrip, maar heeft wel een strak omschreven betekenis, vastgelegd in de Richtlijnen van het NIP (1988) en de Standards van APA AERA NCME (2014). Om een indruk te krijgen van wat er met validiteit zoal aan de orde is, zie bijv. (de bibliotheek over validiteit is zeer uitgebreid) van Sireci en Parker onlinelibrary.wiley.com/doi/abs/10.111… Dit abstract nodigt uit om ook het artikel zelf te lezen. Dat kan, kijk even wat er zoal in staat: sci-hub.tw/10.1111/j.1745…
Validiteit is niet een kenmerk van een toets, maar karakteriseert het gebruik ervan, in dit geval: de toewijzing van leerlingen aan schooltypen. (zie 1e kolom van Sireci & Parker). Veronderstel even, for the sake of argument, dat de eindtoets bepalend is voor die toewijzing. Tot zover klassieke stof, u vertrouwt er vast op dat het met validiteit wel goed zit. Hm, it depends.
Mijn vermoeden (in deze draad te onderzoeken) is dat validiteit van de eindtoetsen niet kan worden bepaald. Om een waaier van redenen rond de kernvraag Van wie is het onderwijs? Of, anders gezegd: validiteit van eindtoetsen is alleen te bepalen onder een reeks restricties en vooronderstellingen die het probleem versmallen tot een trivialiteit die vooral het huidige onderwijsstelsel bevestigt. Bijv.: zitten leerlingen na x jaar in het voorspelde onderwijstype?
For English followers: this thread is about scholastic aptitude tests at the end of Dutch primary education; can they be called valid for for allocating pupils/students to one of six different types of secondary education—schools, not tracks, see

https://en.wikipedia.org/wiki/Education_in_the_Netherlands
Wat valt er te verwachten van dit kritische onderzoekje? Er zit een sterke analogie in, vermoed ik, met de thematiek van selectie voor numerus-fixusstudies; ik mocht voor de Cie-Drenth in 1997 dit overzicht van de publieke discussie 1972-1997 schrijven: http://benwilbrink.nl/publicaties/97OpsommingDrenth.htm Het rapport van de Cie, Gewogen loting gewogen: archief06.archiefweb.eu/archives/archi…
Laten we eerst vaststellen dat ons stelsel van vo nog sterk de 19e eeuwse trekken van standsonderwijs heeft, zie matthijssen ‘Klasse-onderwijs’ (dbnl.org/tekst/matt023k…), en dat eindtoetsen daar dus voor selecteren (Bourdieu et Passeron 1970 ‘La reproduction’ Éléments pour une théorie du système d’enseignement. Zie bijv. sci-hub.tw/10.1177/053901…)
Waarom is die laatste constatering van belang? In de mate waarin eindtoetsen selecteren voor schooltypen die zich nog steeds laten karakteriseren als mede door ‘stand’ bepaald, bedienen ze leerlingen ongelijk = discriminatoir. Ze bevestigen standsverschillen. Niet valide dus.
Mogelijke tegenwerping: ‘Maar ons onderwijs is toch meritocratisch? Bij gelijke capaciteiten zijn kansen toch ongeveer gelijk?’ De ongelijkheid zit hem nu juist in gelegenheid om gelijke capaciteiten te verwerven. Meritocratie: benwilbrink.nl/publicaties/97… Ook: Paul de Beer, Maisha van Pinxteren (Red.) (2016). ‘Meritocratie: Op weg naar een nieuwe klassensamenleving?’ Amsterdam University Press. Open access http://nl.aup.nl/books/9789462983397-meritocratie.html. Een meritocratie is een dystopie, zoals de bedenker van de term, Michael Young 1957, uitstekend heeft beschreven.
Publiek onderwijs is er niet zomaar voor iedereen: er wordt voor geselecteerd. Is dat wel een eerlijke manier om dat kennelijk schaarse goed ‘onderwijs’ te verdelen? Meritocratie speelt in de kaart van bevoorrechte leerlingen. Is het onderwijs vooral van hoogopgeleide ouders? Sociologen zeggen dan dat onderwijs een positioneel goed is: kinderen van hoger opgeleide ouders kunnen zich proberen te onderscheiden van de overigen. Hun ouders zullen het oneerlijke onderwijsstelsel dat dit mogelijk maakt koste wat kost verdedigen. #onderwijsbeleid_is_oorlog
Beter geformuleerd: onderwijs geeft toegang tot schaarse begeerlijke maatschappelijke posities. Onderwijs heeft een signalerende functie, zegt econoom Bryan Caplan in zijn rijkelijk onthutsende ‘The case against education: Why the Education System Is a Waste of Time and Money’. Caplan contrasteert de volgens hem dominante signalerende functie met menselijk-kapitaaltheorie. Dus: het bewijs dat je een prestatie kunt leveren waar je later weinig aan hebt, versus het verwerven van maatschappelijk relevante kennis die rendeert voor individu en samenleving.
Hoe zit het dan met de inhoud van eindtoetsen? Wat ‘toetsen’ zij, of wat ‘signaleren’ zij? Oppervlakkig bezien toetsen zij rekenen en taal. Maar ze zijn niet ‘curriculum aligned’ (scholen hebben verschillende curricula). Deze ‘scholastic aptitude tests’ testen intelligentie. Laat ik dat verduidelijken. De eindtoetsen hangen ergens tussen tests (intelligentie) en examens (in lijn met het curriculum). Dat is wel een validiteitsprobleem: op tests mag men NIET specifiek zijn voorbereid, op examens moet men juist WEL specifiek zijn voorbereid, en dat sluit elkaar uit. Over dat onderscheid tussen tests en toetsen zie: benwilbrink.nl/publicaties/86… (en dat komt terug in hoofdstuk 8 van de Richtlijnen van het NIP, 1988
). Voorzover die eindtoetsen examens zijn die selectief toegang geven tot vervolgonderwijs, is de validiteit bedreigd omdat andere variabelen mede bepalend zijn. Hier uitgelegd: benwilbrink.nl/publicaties/77… Waar andere variabelen medebepalend zijn weten we dus niet goed wat we aan het meten zijn, en dat is een vrij ernstig gebrek voor eindtoetsen die voorspellend moeten werken.
Aha, uren studie zijn van belang, het advies van de leerkracht neemt dat wèl mee. Ik laat in deze draad het advies er buiten, maar hier wil ik toch opmerken dat het advies van de school sterk is bepaald door leerlingvolgsystemen, dat zijn ook scholastic aptitude tests. Helaas. Vrijwel alles wat hier wordt geschreven over eindtoetsen, geldt dus ook voor de schooladviezen.
Laten we de ideeën van ‘signaling and sorting’ (Caplan en.wikipedia.org/wiki/The_Case_…) versus menselijk kapitaal (Becker nber.org/books/beck94-1) eens toepassen op eindtoetsen. Zij zijn ongetwijfeld een mix van beide.Een ingewikkelde mix ook, omdat de toetsen zelfs op de nuttige kennis van taal en rekenen (menselijk kapitaal) zo zijn ontworpen dat er op verschillen in die kennis kan worden geselecteerd (signaling and sorting). Dankzij een wetenschap in dienst van machthebbers: psychometrie. Dat laatste is onaardig geformuleerd; het slaat dan ook terug op de vraag ‘Van wie is het onderwijs?’. Kijk naar eindtoetsen die als hakmessen in een sorteermachine worden ingezet: die toetsen ‘zijn niet van’ leerlingen en hun ouders, zij hebben niets in te brengen. Terecht?
Ik gebruik een onderscheid van Cronbach & Gleser (1957/1965 ‘Psychological tests and personnel decisions’ journals.uchicago.edu/doi/abs/10.108…): institutionele beslissingen, ten bate van instellingen zoals scholen, vs individuele beslissingen, ten bate van individuen zoals in adviesrelaties.U voelt hem misschien al aankomen: de vraag of leerlingen er zijn voor het onderwijs (institutioneel selecteren) of dat het onderwijs er is voor de leerlingen (individueel adviseren). Een onderscheid dat Co van Calcar en Siebe Soutendijk in de 60er jaren ook maakten, geloof ik. (Kindzwakke scholen, geen schoolzwakke kinderen)
Zonder glashelder antwoord hierop hangt validiteit van eindtoetsen in de lucht.
Ter inspiratie: Thorbecke vond ouders prima in staat zèlf te beslissen hun zoon naar zijn nieuwe HBS te sturen. Een paar jaar later lobbyden leraren met succes voor een toelatingsexamen. So it goes.
Een dienstmededeling om het voor vandaag een beetje af te sluiten:
Op de lat staan in ieder geval nog:
– het zetten van grensscores (wanneer mag je dan nog net naar het vwo?)
– Als het allemaal niet valide is, wat dan wel? Is het niet één groot spel van afspraken? Wie maakt ze?
– Er zijn alternatieven voor die cultuur van altijd maar benadrukken, vergroten, en testen van verschillen tussen leerlingen (oa het 2-sigma experiment van Bloom).
– Het is wel duidelijk dat (goed) onderwijs een schaars goed is. Hoe verdelen we dat eerlijk? (Theory of justice) – Mogelijke tegenwerpingen. ‘Ja maar, er zijn nu eenmaal grote verschillen tussen leerlingen’ Tegenvragen: waarom is dat zo; als er verschillen zijn, zijn die relevant bij de overgang naar vo? Wat telt uiteindelijk: bereikbaar scholingsniveau, of de daarvoor benodigde tijd?
Grensscores, cesuren, zak-slaaggrenzen, drempels.
Karakteristiek voor het gebruik van toetsen is dat ze ook grensscores hebben: voor een ‘voldoende’, om toegelaten te worden, om behandeling A ofwel juist behandeling B te krijgen. Bijvoorbeeld bij eindtoetsen: grensscore tussen havo ofwel vwo. Ik wil wat langer stilstaan bij de vraag of beslissingen met een puntje verschil rond zo’n drempel wel valide zijn. De antwoorden geven een idee voor de richting waarin antwoorden te zoeken zijn op de vraag wat te doen met eindtoetsen waarvan we geen validiteit kunnen bepalen. A. D. de Groot, initiatiefnemer voor het Cito, auteur van ‘Vijven en zessen’, verantwoordelijk voor de Amsterdamse Schooltoets (1967 geloof ik; voorloper van de ‘citotoets’), deze A.D. zoals hij in de wandelgangen werd genoemd, zat met de handen in het haar over zak-slaaggrenzen. Want, schreef hij in 1972 in een bundel over selektie (helaas niet in de samenvatting ervan, zoals gegeven in zijn ‘Academie en forum’), iemand afwijzen, laten overdoen of laten zitten op een puntje verschil, dat is inhoudelijk op geen enkele manier te verdedigen. Hij signaleerde het probleem dat zo’n beslissing niet valide is, maar had er geen oplossing voor. Het probleem is zeer ernstig, al was het maar omdat validiteit nu juist bij uitstek het criterium voor kwaliteit van toetsen en tests is. Zijn toetsen met drempelbeslissingen dan alleen al daarom niet valide? Dat lijkt een te sterke conclusie, maar waarom zou dat zo zijn?
Het probleem is ook zeer ernstig omdat juist rond die drempels, op dat ene puntje verschil, zich veel beroeps- en ook rechtszaken afspelen. Beroepszaken: Job Cohen 1981 ‘Studierechten in het wetenschappelijk onderwijs’ (scans beschikbaar: benwilbrink.nl/projecten/toet…. ) Hoge Raad (maar terugverwezen naar Hof Den Bosch) eindexamen Frans https://benwilbrink.wordpress.com/2017/09/20/examenonrecht-en-effet/
Het zal niet verbazen dat dit drempelprobleem al eens eerder is gesignaleerd, en van een oplossing voorzien. Waar komen we dan terecht: bij Francis Y. Edgeworth (1888). ‘The statistics of examinations’ http://www.jstor.org/stable/2339898 Op een puntje verschil niet aangenomen bij de Civil Service; is dat oneerlijk? Nee, zegt Edgeworth. En daar heeft hij goede argumenten voor. Kijk, zegt hij, zo’n examen is een steekproef, en daar kun je ook best een beetje pech of geluk bij hebben. Kandidaten kunnen dat weten, en hebben het ook zelf een beetje in de hand: zorg voor goede voorbereiding.
Eerlijk en valide, is dat hetzelfde of zijn dat toch verschillende zaken? Het is mij om het even; vermeldenswaard is dat De Groot eerlijkheid of billijkheid als extra criterium heeft voorgesteld in 1970, als belangrijkste criterium ook voor toetsen, het artikel is hier beschikbaar: benwilbrink.nl/publicaties/70…
Naar mijn bescheiden mening zijn de twee belangrijkste Nederlandse publicaties over toetsen, beide in 1970, beide uit dezelfde UvA-afdeling, en qua onderwerp eigenlijk nauw verbonden hoewel niet naar elkaar verwijzend: van A.D. de Groot en R. van Naerssen. Surprise.
Voor De Groot 1970 zijn toetsen billijk als ze door leerlingen doeltreffend zijn voor te bereiden. Ze moeten gaan over de stof die is voorgeschreven of behandeld, niet daarbuiten. ‘Curriculum-aligned’ heet dat bij de buren. De Groot vult verder in waar Edgeworth al op hintte.
Met het ten onrechte in vergetelheid geraakte pleidooi van De Groot kan men het eens zijn, of niet. Zijn collega Van Naerssen heeft in 1970 een wiskundig model ontworpen dat handen en voeten geeft aan dat ‘doeltreffend kunnen voorbereiden’, zie hier voor zijn rede uit 1970: benwilbrink.nl/publicaties/70…
‘Een puntje tekort’ mag op zich niet onder alle omstandigheden doorslaggevend zijn. Leerlingen zijn zelden gelijk, en als er bijzondere omstandigheden zijn dan worden die uiteraard in de besluitvorming betrokken: het professionaliteitsbeginsel (in vele beroepscodes en ethische codes vastgelegd). Willem Hofstee geeft er een uitgebreide beschouwing over waar het gaat om psychologische tests, maar eindtoetsen zijn in dit opzicht ook psychologische tests. Ik citeer de conclusie van Hofstee in zijn geheel:
Commissie-Hofstee (1990). Toepasbaarheid van psychologische tests bij allochtonen. Rapport van de testscreeningscommissie ingesteld door het LBR in overleg met het NIP. LBR-reeks #11, Stichting Roodboek LBR = Landelijk Bureau Racismebestrijding. (Rapport met de bevindingen per test.)
Hofstee’s rede bij de aanbieding van het rapport is gepubliceerd in De Psycholoog, juni 1990, 291-294 : Toepasbaarheid van psychologische tests bij allochtonen.
“Conclusie:
De functie van de voorgaande algemene beschouwing over het professionaliteitsbeginsel is deze, dat invulling werd gegeven aan de twintig keer weerkerende conclusie van de TSC dat de toepasbaarheid van een psychologische test bij allochtonen ‘sterk beperkt’ is. Die uitdrukking betekent niet eenvoudig ‘minder van hetzelfde’. Hij betekent dat testafname en -interpretatie dienen te zijn ingebed in een proces van professionele oordeelsvorming. De algemene wending van de beschouwing diende om aan te geven dat deze aanbeveling niet uitzonderlijk is, en dat hier geen uitzonderlijke status voor allochtonen ten opzichte van psychologische tests werd bepleit. De noodzaak van verbijzondering geldt in principe bij ieder individu.
In die zin is het dubieuze gehalte van psychologische tests in verband met allochtonen een geluk bij een ongeluk. Het bevat een aansporing ernst te maken met het elementair beginsel dat mensen recht hebben op een individuele benadering in aangelegenheden die voor hen van groot belang zijn. Het probleem van testgebruik bij allochtonen is geen geïsoleerd of technisch probleem. Ieder mens bevindt zich van tijd tot tijd in een vergelijkbare situatie.“
Hebben we nu een oplossing voor de vraag hoe we ‘dat ene puntje tekort’ moeten zien? In zekere zin een criterium voor wat ‘doeltreffend kunnen voorbereiden’ is: de leerling moet het risico van zakken of slagen zelf kunnen dragen. Leerkrachten hebben daar de zorg voor. Een oplossing voor dat probleem van grensscores is dan, in lijn met Edgeworth, De Groot, en Van Naerssen: het gaat om spelregels waar iedereen zich naar moet gedragen, ook leraren, zij hebben te zorgen voor billijke toetsen, doeltreffend voor te bereiden toetsen. #spelregels Die spelregels zijn deels ethiek (billijke toetsen), deels politiek (overgangsregelingen, examenregelingen). En dat is een radicale transformatie van wat in de testliteratuur validiteit heet. En dat is niet vrijblijvend: het recht ziet op de billijkheid (Job Cohen, 1981; Henk van Berkel 2019 en 2017 https://www.nvexamens.nl/wp-content/uploads/2017/12/Henk-van-Berkel.pdf). Uit de eis van billijkheid volgt onmiddellijk dat de grens onvoldoende-voldoende nooit bepaald mag worden als een vaststaand percentage. Wanneer alle leerlingen een extra inspanning plegen, moet dat tot uitdrukking kunnen komen in hogere scores. Ha, en omgekeerd ook! Ai ai. Hoe gaat dat bij de Centrale Eindtoets van het Cito/CvTE? De scores zijn gestandaardiseerd, tussen 500 en 550, zoveel is na enig zoeken wel duidelijk. Maar mij blijft onduidelijk of het zo is dat het gemiddelde in beginsel altijd op 335 wordt gezet. Leerlingen en scholen spelen tegen de bureaucratie van het CvTE (College voor Toetsen en Examens) (ik neem aan dat het voor de andere eindtoetsen in deze markt niet anders is). Kunnen zij dat winnen? Dat hangt ervan af: gaat het om beperkte aantallen plaatsen, of om geschiktheid?
We komen nu bij de vraag of een test voor plaatsing in één van 8 typen brugklas (zoek. .nl/stcrt-2018-250…), een door-en-door traditioneel onderwijsstelsel, geworteld in de 19e eeuw, of zo’n test valide kan zijn. Of we kunnen weten/onderzoeken of er sprake kan zijn van validiteit.Stel nu eens dat het onderwijs in het vmbo kwalitatief onder de maat is, vergeleken met dat in het avo. En dat het juist kinderen van laagopgeleide ouders zijn die in het vmbo terechtkomen, kinderen van hoogopgeleide ouders in het avo. Dan zou er sprake zijn van discriminatie.
Want hoe we kwaliteit ook definiëren, het kan niet zo zijn dat afkomst mede bepalend is voor de kwaliteit van het onderwijs dat wordt aangeboden. Toch? Dat zou in strijd zijn met de Grondwet art. 1, maar ik kan me vergissen, ik ben tenslotte geen jurist. denederlandsegrondwet.nl/id/vi7pkisz82r…
art. 1: ‘in gelijke gevallen gelijk behandeld’.
De eerste versie hiervan dateert van 1798, en lijkt veel duidelijker geformuleerd:
“Alle Leden der Maatschappij hebben, zonder onderscheiding van geboorte, bezitting, stand, of rang, eene gelijke aanspraak op derzelver voordeelen.” Juristen zullen onmiddellijk tegenwerpen dat gevallen zelden gelijk zijn, en dat dan verschillende behandeling gerechtvaardigd is naar de mate van de verschillen. Maar dus niet iedere verschillende behandeling, en het aanbieden van kwalitatief minder onderwijs lijkt ongepast. Als onderwijs in het vmbo kwalitatief minder is dan dat in het avo, dan zouden eindtoetsen instrumenten zijn die discriminerend werken. Einde van discussie over validiteit.
Dus: kan het kloppen dat de kwaliteit van het onderwijs in het vmbo onderdoet voor dat in het avo? Daar zijn wel aanwijzingen voor. Veel ouders zien hun kinderen liever in het avo dan in het vmbo, is dat onredelijk? Opleidingen in het vmbo leveren een lager ‘lifetime’ arbeidsinkomen op, daar heb je het al. Menselijk kapitaal. Fascinerende cijfers in dit CBS rapport: Marieke Rensman: ‘Menselijk kapitaal in cijfers’ CBS, hoofdstuk 8 uit ‘De Nederlandse economie 2011’ cbs.nl/-/media/import… Hoe belangrijk is dat menselijk kapitaal voor onze economie? “In 2009 bedroeg de waarde van het menselijk kapitaal in Nederland 6,7 biljoen euro.” “De omvang van menselijk kapitaal is veel groter dan dat van het niet-financieel en financieel vermogen, oftewel het nationaal vermogen.” Ik vermeld dit maar even, want het CPB vertikt het om kosten van onderwijs als investeringen te beschouwen, maar dat zijn ze dus in hoge mate!
Een meer directe aanwijzing dat het niet goed zit met de kwaliteit van het onderwijs in het vmbo volgt uit een OECD-studie over kwaliteit van wiskundeonderwijs in OECD-landen:
Jill Barshay (2016). ‘Is it better to teach pure math instead of applied math? OECD study of 64 countries and regions finds significant rich-poor divide on math instruction’ hechingerreport.org/pure-math-bett…
OECD (2016). ‘Equations and Inequalities. Making Mathematics Accessible to All’ https://read.oecd-ilibrary.org/education/equations-and-inequalities_9789264258495-en#page1
Een quote daaruit: “While education systems have generally done well in providing equitable access to the QUANTITY of mathematics education […] the data show large differences in the QUALITY of learning experiences between social groups.
While disadvantaged students tend to learn simple facts and figures and are exposed to simple applied mathematics problems, their privileged counterparts experience mathematics instruction that help them think like a mathematician, develop deep understanding and advanced mathematical reasoning skills.”
Er valt meer over te zeggen, maar laat ik het bot samenvatten met woorden van Vincent Icke, dat het vmbo het mag doen met raadseltjesrekenen, waar het avo serieus wiskundeonderwijs krijgt.
De kwaliteit van het onderwijs in het vmbo schiet tekort, dus ook de eindtoets-validiteit.
De voorgaande tekst is qua lengte wat uit de hand gelopen. Begrijp eruit dat ontwikkelaars van eindtoetsen de dure plicht hebben de validiteit van gebruik van hun toetsen zorgvuldig te onderzoeken, en zeker ook mogelijk discriminatoir gebruik te signaleren. #eerlijk_onderwijs
Als er in dit vmbo-casus sprake is van discriminatie (of dat zo is, moet blijken uit toetsing door de rechter), dan kan gebrek aan validiteit van eindtoetsen niet worden gecompenseerd door dekking van de politiek. Discriminatie blijft discriminatie, en dat is niet aanvaardbaar.
Laten we nu het algemene geval bekijken, voor twee behandelingen of schooltypen, A en B. Experimenteel onderwijsonderzoek gaat vaak over de vraag of A ‘beter’ is dan B, zo ja, dan blijft A.
Let op. Wat de eindtoets doet is iets ingewikkelds: leerlingen toedelen aan A òf aan B. De veronderstelling is kennelijk (stilzwijgend) dat sommige leerlingen het beter doen in A dan in B, en dat andere leerlingen het ‘beter’ doen in B dan in A, en dat de eindtoets dat kan voorspellen. Bij de buren heet dat de veronderstelling van een Aptitude Treatment Interaction (ATI). Lee J. Cronbach en Richard E. Snow onderzochten grondig wat daarover bekend is (uit Amerikaans onderwijsonderzoek, dat wel.) in hun 1977 ‘Aptitudes and Instructional Methods. A Handbook for Research on Interaction’ (voor een uur te leen in archive.org/details/aptitu…)
Enkele quotes:
“We once hoped tat instructional methods might be found whose outcomes correlate very little with general ability. This does not appear to be a viable hope. (…)
The pervasive correlations of general ability with learning rate or outcomes in education limits the power of ATI findings to reduce individual differences.” (p. 500)
Bij een dubbelblind experiment zal het resultaat ongetwijfeld zijn dat in A de prestaties sterk correleren met eindtoetsscores, maar eveneens in B zal dat het geval zijn (regressielijnen zijn beide stijgend) Hm. Impasse?
In het onderwijs is de correlatie tussen intelligentie en studieresultaten typisch ca. 0,7. Er is geen reden dat conditie A hierin verschilt van B, dus in ons gedachte-experiment zijn beide regressielijnen parallel, is er dus GEEN interactie, mogelijk wel een constant verschil. Bij een constant verschil, laten we zeggen dat de regressie voor conditie A een constante boven die van B ligt, levert A voor alle leerlingen het beste resultaat. De eindtoets zou alle leerlingen dan aan A moeten toewijzen. Dat zien we dus niet gebeuren. Wat is hier aan de hand? Misschien zie ik iets over het hoofd? Stel dat in conditie A de totale studietijd begrensd is, en dat er een groep is die tegen die grens aanloopt en daardoor lagere prestaties boekt. Maakt dat iets uit? Alleen als resultaten dan lager worden dan in B het geval zou zijn. Maar wat hebben we dan voor wonderlijke situatie? Vergelijk het met eindexamens, waar de toegemeten tijd ruim genoeg is zodat iedereen het werk binnen die tijd kan afronden; zou dat niet het geval zijn, dan verandert dat de prestatietoets in een kromme intelligentietest. Datzelfde kan ook met instructie- en zelfstudietijd: daar onhandige beperkingen aan stellen geeft leerlingen ongelijke kansen om goed te presteren. In dit eenvoudige gedachte-experiment vinden we dus dat het niet waarschijnlijk is dat een intelligentietest of eindtoets gebruikt kan worden om een rationele toedeling van leerlingen aan verschillende schooltypen te onderbouwen. In dit opzicht kan de eindtoets niet valide zijn.
Verder met het gedachte-experiment. In de bereikte impasse komt de politiek langs en die zegt, na ampel beraad en advies van vele raden: we gaan die eindtoets toch gebruiken om leerlingen over A zowel als B te verdelen, omdat beide maatschappelijk noodzakelijk zijn. Dan komt de aap uit de mouw, er zijn andere belangen. Dat verandert de situatie radicaal: de politiek bepaalt een numerus fixus voor het aantrekkelijkste schooltype — in ons gedachte-experiment is gebleken dat dat type A was.
En de politiek zegt dat intelligentie bepalend is voor de toelating tot A. Wat hebben we dan: #meritocratie In een tweet eerder deze avond kwam een tabel langs die mooi laat zien hoe groot de overlap in ‘prestaties’ kan zijn, tussen de diverse opleidingstypen: https://twitter.com/ReMeij/status/1307370222014418949/photo/1
In de 90er jaren kon Nederland zien hoe prestaties in de basisvorming ook zo’n grote overlap hadden. Ik wil die uitkomst van meritocratie vanavond niet laten bungelen. Een meritocratie is een walgelijke, een dystopische samenleving, zoals Michael Young in 1957 schetste. En wel hierom: zie Michael J. Sandel 2020 ‘The tyranny of merit’. athenaeum.nl/boek/?authorti… (vertaald)
Dit is een goed moment om door te verwijzen naar een artikel over intelligentie, waar inderdaad nog wel iets meer over gezegd zou moeten worden: van12tot18.nl/intelligentie-…
[Wim van den Broeck bekritiseerde het: threadreaderapp.com/thread/1271064… ; mijn dupliek: benwilbrink.wordpress.com/2020/06/12/dup…]

Over het op rationele wijze (besliskundig) bepalen van grenzen tussen zakken/slagen zie het meer technische artikel in het TOR benwilbrink.nl/publicaties/80… vooral de paragraaf ‘Verbinding met het werk van Cronbach en Snow (1977)’ en Figuur 5.
Leuk hoor, die analyse op twee behandelingen/schooltypen A en B. Maar de eindtoetsen gaan over acht schooltypen, noem ze maar A, B, C, D, E, F, G en H. Ik heb die eindtoetsen gekenmerkt als type intelligentietests (SAT’s bij de buren). Die intelligentie moet wel heel veel werk doen! Hoe kan het bestaan dat leerlingen in acht verschillende schooltypen worden geplaatst op basis van slechts een enkele variabele? Er moeten dan zeven reële interacties intelligentie-studieresultaten zijn. En dat de toetsen voor die ene variabele dan ook nog ‘valide’ heten? Ik ben mij niet bewust van het bestaan van literatuur die dit bizarre casus analyseert. Iedere tip is welkom.
Ik zal zelf deze witte vlek op de toetskaart moeten verkennen. Ik ga gebruik maken van de analogie met selectie voor numerus-fixusstudies, ook een plaatsingsprobleem. In het hoger onderwijs is het mogelijk om opleidingen te rangordenen naar de mate waarin zij intellectueel minder of juist meer veeleisend zijn. Pedagogiek is in NL (maar ook in de VS) minder veeleisend, en staat ook ergens onderaan in status. Ruimtevaarttechniek is veeleisend. De VS kent een sterke hiërarchie tussen universiteiten. Wie wat beter kijkt, ziet dat die hiërarchie mede berust op de aard van aangeboden opleidingen: vooral pedagogiek (‘education’), of juist vooral techniek (bv. MIT). Er wordt in de VS volop geselecteerd, hoe gaat dat? Zie Rebecca Zwick (2017). ‘Who Gets In? Strategies for Fair and Effective College Admissions’ Info: hup.harvard.edu/catalog.php?is…
Interview: ets.org/research/polic…
Dit boek geeft weer hoe men in de VS over selectie denkt, in het bijzonder ook bij het Cito van de VS: Educational Testing Service.
Selectieve tests in de VS zijn scholastic aptitude tests, zoals de SAT (van de College Board) en de ACT (act.org, ceo is Marten Roorda, voorheen ceo Cito eu.press-citizen.com/story/news/loc…)
En ja, het Cito, en de NL testpsychologie en psychometrie, zijn sterk georiënteerd op de VS.

Al dat gedoe met tests suggereert dat alles dan ook draait om die tests. Maar zo gaat het niet. Men kiest eerst vooral zelf voor pedagogie, of ruimtevaarttechniek (zelf-selectie), en om dat te realiseren wacht er misschien een selectieve toelating (selectie-aan-de-poort).
Zo gaat het ook ongeveer bij onze 12-jarigen, toch? Op dit punt aanbeland zou ik graag een paar grote thema’s tegelijk behandelen, maar ja, dat kan dus niet. Stel vast dat er een reeks van 8 schooltypen is, in volgorde van intellectuele eisen die er gesteld worden (dalen, of klimmend), en een eindtoets/intelligentietest. Laten we inspiratie voor een vruchtbaar begin van de analyse halen uit wat Sandel zegt aan het slot van het interview dat Trouw (19 sept.) met hem had trouw.nl/religie-filoso…:
“De hoogopgeleide elites in de VS, maar ook in Nederland en de rest van Europa] waren zich niet bewust
van de belediging die besloten lag in hun meritocratische model, namelijk dat wie niet omhoog klimt, dat aan zichzelf te wijten heeft. Ze zagen niet hoe neerbuigend ze waren.”
Ons vo volgt het meritocratisch model: het ‘beste’ onderwijs is voorbehouden aan de ‘intelligentsten’! Grote thema’s zijn in ieder geval:
– onderwijs is kennelijk een schaars goed (maar dat zou het niet moeten zijn?)
– hoe kan dit schaarse goed eerlijk worden verdeeld?
– wat valt er te leren van meer dan 40 jaar gewogen loting voor numerus-fixusstudies?
– wat is ‘intelligentie’ eigenlijk? Persoonlijke verdienste? Of het geluk van waar je wieg heeft gestaan?
– het bo slaagt niet in het beperkt houden van milieu-bepaalde verschillen
– voor dit falen van het bo worden de leerlingen gestraft met oneerlijke kansen op vo — vo in 8 typen, dat is te gek. Waarom is dat zo, hoe anders?
– eindtoetsen kunnen in deze constellatie van tekortschietende condities alleen maar valide worden genoemd door al die onvolkomenheden als onveranderlijke gegevenheden te beschouwen.
Maar zo kan het dus niet. Ik zou misschien het best verder kunnen gaan met de laatste stelling als uitgangspunt, en dan kort aanstippen op welke manieren zoal een selectie op basis van intelligentie/eindtoetsen oneerlijk/discriminerend is. Dikke boeken kan ik altijd nog schrijven. Ha ha.
U vermoedde het mogelijk al: deze draad is een riskant avontuur waarin de stelling dat validiteit van eindtoetsen zich niet laat bepalen leidt tot een aantal voor mij nieuwe inzichten.
- Zoals de vergelijking van selectie van 12-jarigen met die bij numerus-fixusstudies.
- Zoals de stelling dat kwalitatief ondermaats wiskunde-onderwijs in het vmbo, samen met oververtegenwoordiging van kinderen van laagopgeleide ouders in dat vmbo, de toewijzing van kinderen aan vmbo-scholen mogelijk discriminerend is.
- Zoals de stelling dat selectie voor vo-schooltypen sterke trekken heeft van selectie voor telkens beperkt aantal plaatsen (numerus-fixus), die veel ‘geschikte’ kandidaten afwijst, te veel dus.
- Zoals het inzicht dat eindtoetsen problematisch bungelen tussen examens en tests: wel of juist niet doeltreffend voor te bereiden.
- Laat ik toch even aanhaken op dat ‘bungelen’, want daardoor gaan allerlei extra storende variabelen een rol spelen en raakt uit het zicht wat validiteit dan nog is. Storende variabelen, dat levert ‘construct-irrelevant variance’ op. Het zijn er heel wat, ook los van dat ‘bungelen’: zie tabel 1 ‘A Taxonomy … Systematic Errors …’ in Thomas M. Haladyna & Steven M. Downing (2005). Construct-Irrelevant Variance in High-Stakes Testing. Educational Measurement: Issues and Practice sci-hub.tw/10.1111/j.1745… Dit artikel bespaart mij weer een hoop schrijfwerk.
- Ik moet daar toch dringend iets aan toevoegen, en wel dat ‘intelligentie’ zelf een optelsom is van ‘construct-irrelevancy’: het is immers niet een aangeboren stabiele persoonlijkheidstrek, maar mede resultaat van onderwijs. benwilbrink.wordpress.com/2020/05/24/int… Afijn, ik verwees er al naar.
Ik wil even terug naar de kernvraag: ‘van wie is het onderwijs’, waar is het allemaal goed voor? Als u een ultiem criterium voor maatschappelijk relevant onderwijs mag kiezen, wat zou dat zijn? Waar kan het aan worden afgemeten? Het mag ook een proxy zijn, een sterke indicator.
Ik stel voor: laten we menselijk kapitaal nemen als (proxy)variabele waar het uiteindelijk bij het onderwijs om draait. Vat het breed op: ook gezondheid. En neem het zowel in maatschappelijke zin, als individueel. Bas Jacobs over menselijk kapitaal: personal.eur.nl/bjacobs/rendem…
We kwamen menselijk kapitaal eerder al tegen als het belangrijkste kapitaal in de (economische) samenleving. Meer ervan is beter. Onderwijs is de belangrijkste producent van menselijk kapitaal. Hamvraag: is er nog aanzienlijke ‘reserve’ in wat het onderwijs kan produceren? Die vraag doet denken aan die andere vraag, na de oorlog vaak gesteld, ‘wat is de reserve aan intellect in Nederland’? Want die reserve moet het onderwijs dan aanboren. Maar dit terzijde, want deze draad gaat over validiteit, if any, van eindtoetsen: wat moeten ze voorspellen?
Velen, ook A.D. de Groot, hebben opgemerkt dat in het onderwijs niets zo goed voorspelt als recente prestaties. Er is in het onderwijs een groot vertrouwen in resultaten uit het verleden als voorspeller van de toekomst. Maar pas op: dit gaat over verschillen tussen leerlingen. Wat hebben we hier te pakken: het mechanisme dat verschillen tussen leerlingen in stand houdt. Ongelijkheid troef, hoe groter de ongelijkheid, des te beter de voorspellingen. Voorzover verschillen tussen leerlingen SES-bepaald zijn, reproduceert onderwijs verschillen in SES. Het geschetste mechanisme is rampzalig voor eerlijk onderwijs, maar dus ook voor wat het onderwijs aan menselijk kapitaal produceert. Wat eindtoetsen zouden moeten doen, is voorspellen wat opbrengsten in termen van menselijk kapitaal zijn, bij gegeven schooltypen. Kunnen ze dat? Laten we wel wezen, het gaat bij deze 12-jarigen om beslissingen die mede bepalend zijn voor hun verdere leven. Het is van de gekke om die beslissingen zo kortzichtig te nemen als nu in feite gebeurt. Toch is dat wat we doen: beslissen op de korte klap, voor de lange termijn.
Een voorbeeld van wat ik bedoel. Selectie voor geneeskunde. Velen zijn van mening dat dat goed kan op basis van eindexamencijfers, want kandidaten met hogere cijfers blijken betere resultaten in het eerste of tweede jaar van de studie geneeskunde te halen. Goed argument? Als u ‘ja’ zegt, bent u in gezelschap van een aantal promovendi die zich beijverd hebben om dat verband weer eens opnieuw aan te tonen. U kunt ook ‘nee’ zeggen, want eindexamencijfers zeggen weinig of niets over later een goede arts zijn. En dat laatste klopt waarschijnlijk. Uiteindelijk gaat het om een goede arts zijn, niet of meer of minder tijd voor de studie nodig is.
Dat selectie op het criterium van beroepsuitoefening lastig of onmogelijk is, is geen argument om dan maar op verwacht studiesucces te selecteren. (Kan het niet zoals het moet … )
Nederland heeft een belangrijk en boeiend onderwijsexperiment achter de rug: meer dan 40 jaar gewogen loting voor numerus-fixusstudies. Dat ging gepaard met de nodige maatschappelijke discussie over wat eerlijk is, zie mijn rapportage voor de Cie-Drenth benwilbrink.nl/publicaties/97… ‘Kan het niet zoals het moet, dan moet het maar zoals het kan’ is te kort door de bocht: er zijn altijd alternatieve mogelijkheden voor het verdelen van schaarste. Zie bijvoorbeeld: Jon Elster (1992). ‘Local justice. How institutions allocate scarce goods and necessary burdens’ Cambridge UP.
Tegenwerping: Je zegt toch dat die eindtoetsen (als ‘scholastic aptitude tests’) intelligentietests zijn? En intelligentie voorspelt toch succes in het leven, en dus ook menselijk kapitaal?
Klopt. Maar daar zijn een paar probleempjes mee, een drietal:
1) Eindtoetsen zijn beroerde intelligentietests omdat ze niet als zodanig zijn ontworpen. Ze testen op intelligentie, maar we weten niet hoe dan precies, dus leerlingen worden onderworpen aan willekeur. Alweer: beroerde of in het geheel geen validiteit.
2) Het kan zomaar zijn dat achtergrondvariabelen zoals sociaal-economische achtergrond betere voorspellers van succes in het leven zijn, en van menselijk kapitaal. En wel in deze zin dat intelligentietests daar geen voorspellende waarde aan toe kunnen voegen.
3) Intelligentie is niet aangeboren, maar vooral een resultaat van onderwijs. Ieder jaar extra onderwijs voegt intelligentie toe. Het is ook een heel erg schools ding, bewust zo gekozen door Alfred Binet, rond 1900. We moeten het dus niet buiten die schoolse context gebruiken.
Het laatste is dan weer een variant op: succes in school is niet hetzelfde als succes in de samenleving (breed opgevat).
Succes in school hebben is wat we intelligentie noemen; voor succes in de samenleving is bijvoorbeeld het hebben professionele expertise van belang. Dat neemt niet weg: in onze ongelijke samenleving is het onderwijs poortwachter voor schaarse maatschappelijke posities. Het verband tussen intelligentie en maatschappelijk succes is dus een self-fulfilling prophecy: zo is het bedoeld te functioneren. #onderwijsbeleid_is_oorlog
Linksom of rechtsom kunnen we er niet omheen dat die selectie van 12-jarigen een groot maatschappelijk onrecht is, een onrecht dat mede in stand wordt gehouden door eindtoetsen die belanghebbenden graag ‘objectief’ noemen, alsof ze geen toedekkende rol in een kwaad drama spelen. I
k wil hier de ontdekkingsreis afsluiten.Ik heb laten zien dat de vraag naar validiteit van eindtoetsen niet los mag worden gezien van de schoolse en maatschappelijke context waarin die toetsen worden gebruikt om belangrijke beslissingen OVER (niet VAN) leerlingen te legitimeren.
Ik heb eerder over problemen rond eindtoetsen geschreven, en over de kwaadaardige nadruk op verschillen tussen leerlingen waar zij stilzwijgend van uitgaan. ik geef een aantal links.
– Talent: aangeboren of aangeleerd? Dat maakt nogal uit voor onderwijs! komenskypost.nl/?p=2971
– Advies en eindtoets — beide eufemismen — Wat is ervan te vinden? komenskypost.nl/?p=4849
– Over maantjes, sterretjes en zonnetjes en veel meer. https://komenskypost.nl/?p=4883
– De rode draad is het thema ‘eerlijk onderwijs’ komenskypost.nl/?p=4110
– Jubileumboek 50 jaar Cito – Mantel der liefde benwilbrink.wordpress.com/2019/10/07/jub…
– [een literatuurbestand over aansluiting bo-vo: benwilbrink.nl/literature/aan… ]
PM Dit is nog een heel ruwe tekst, waarin sommige belangrijke inzichten wat onhandig zijn geformuleerd. Ik zal er nog wel eens op terugkomen met een betere uitwerking van de pareltjes in deze molshoop, mogelijk voor een publicatie.
Gelijke kansen, of eerlijk onderwijs?
[Toegevoegd 20 oktober 2020; Twitter draadje https://twitter.com/benwilbrink/status/1317863786485788672 ]
Wanneer houden die onderwijskansen eigenlijk op? Over ongelijke kansen gesproken: wij selecteren 12-jarigen naar ongelijke-kansen-onderwijs: beroepsonderwijs of algemeen vormend. Als we het nu eens zo blijven benoemen, dan is minder makkelijk om ervoor weg te duiken.
De drogreden die we vaak, zij het meestal impliciet, te horen krijgen: het basisonderwijs geeft gelijke kansen, dus die selectie van 12-jarigen is volkomen terecht. Maar dat slaat natuurlijk nergens op. Zie Sandel: https://benwilbrink.wordpress.com/2020/10/07/annotaties-bij-sandel-2020-the-tyranny-of-meritocracy/
Ik kan het ook anders, korter, duidelijk maken. We jammeren wat af over oneerlijke kansen bij het advies van de school, in vergelijking met uitslagen van de eindtoets. Maar het gaat toch om de ongelijkheid inherent in die beslissingen zèlf: wie mag naar havo, wie moet naar mavo.
Ho ho, krijg ik te horen: ‘het gaat om gelijke kansen bij gelijke capaciteiten’. Wat zijn dan die capaciteiten? Wanneer zijn ze gelijk? Geven ‘meer’ capaciteiten rechten die anderen niet hebben? Ooit een ‘capaciteit’ gevangen, gezien, gewogen, onderzocht?
capaciteiten ~ talenten ~ intelligentie ~ vermogens ~ expertise ~ kennis ~ beheersing. Geleerd op school, geleerd buiten school, of aangeboren? Nog in ontwikkeling, of al uitontwikkeld? Hoe gunstig waren omstandigheden (inclusief school!), hoe gunstig zijn ze in de toekomst?
Tja, het is complex, maar we kunnen toch met elkaar afspreken hoe we ermee omgaan, ook al schiet onze kennis tekort? Ja, dat kan. Maar wie zijn dan de betrokken partijen, en hoe bepalen zij hun onderlinge invloed, in overeenstemming met het belang dat zij erbij hebben?
Kijk, daar heb je dan al gauw een batterij filosofen voor nodig, over wat rechtvaardig is, en alles wat daar mogelijk uit volgt, ten goede, of ten kwade. John Rawls. Amartya Sen, Martha Nussbaum. Dat het om kinderen gaat maakt het niet eenvoudiger; kunnen zij achteraf oordelen?
De lastige knoop wordt natuurlijk doorgehakt door de politiek, in meerder of mindere mate beïnvloed door tradities en gewoonten. Kortom, we kunnen onmogelijk zeggen dat die selectie van 12-jarigen een zaak is van eerlijke kansen, voor de kinderen is het eerder gestolde willekeur.
Gelijke kansen, wat zijn dat? [draadje
Dat hangt ervan af. Ik heb de indruk dat we in NL het Amerikaanse begrip ‘equal opportunity’ hebben overgenomen: gelijke kansen bij gelijke capaciteiten. Maar dat is een meritocratisch begrip. Zie Sandel ‘The tyranny of merit’ p. 224 de par. ‘Beyond equality of opportunity’.
De Nederlandse discussie over gelijke kansen, zoals bijv. door de Inspectie, gaat over dat meritocratische begrip: gelijke kansen bij gelijke capaciteiten. Maar die capaciteiten zijn stromannen: ze bestaan immers niet als bij de geboorte al vastgelegde kennis/vermogens.
Dat betekent dat de vervolgvraag moet zijn: wat zijn gelijke kansen op het verwerven van die capaciteiten? Voor het antwoord daarop moeten we niet kijken naar wat ‘gelijk’ is, maar naar wat ‘ongelijk’ is. Al die nadruk op ‘gelijke kansen’ leidt tot wegkijken van ongelijkheid.
Daarom pleit ik voor in de discussie inwisselen van die misleidende ‘gelijke kansen’-retoriek voor EERLIJKE kansen. Wat dat zijn, dat weet ik ook niet, maar het is bitter noodzakelijk daar maatschappelijk over te discussiëren. https://van12tot18.nl/op-weg-naar-eerlijk-onderwijs
Probleem bij het meeste onderzoek naar eerlijke kansen in het onderwijs. Het onderwijs is door-en-door oneerlijk, zowel het stelsel, als de cultuur in het onderwijs; ieder onderzoek is noodzakelijkerwijs beperkt tot een enkel aspect, zegt dus in feite niets over effect van de onderzochte ingreep op eerlijke kansen. Al die beperkte onderzoeken bij elkaar optellen is niet de oplossing, omdat nooit het dynamische geheel is onderzocht.
Voorbeeld bij uitstek is de overgang van basisonderwijs naar voortgezet onderwijs: zijn die eindtoetsen valide?
Lee Cronbach wees er in 1957 op (ja ja, alles is al heel lang bekend, alleen niet in het onderwijsveld zelf) dat dergelijke tests niet bevrijdend werken, maar juist het bestaande mogelijk oneerlijke stelsel bevestigen en versterken. https://benwilbrink.wordpress.com/2020/09/24/kunnen-eindtoetsen-voorheen-de-citotoets-valide-zijn (validiteit=kwaliteit)
Onderwijs is het land van paradoxen. We proberen die selectie van 12-jarigen eerlijker te maken met gestandaardiseerde toetsen, maar die toetsen bevestigen juist het oneerlijke stelsel en de oneerlijke cultuur. Wat is dan goede analyse van wat eerlijk vs oneerlijk onderwijs is?
meer literatuur
Niki De Bondt, Vincent Donche & Peter Van Petegem (2020). Are contextual rather than personal factors at the basis of an anti-school culture? A Bayesian analysis of differences in intelligence, overexcitability, and learning patterns between (former) lower and higher-track students. Social Psychology of Education. Abstract: https://link.springer.com/article/10.1007/s11218-020-09597-5
George F. Madaus (1983?). Minimum competency testing for certification: The evolution and evaluation of test validity. Ch. 2, pp 21-61, in George F.Madaus & Daniel L. Stufflebeam: The courts, validity, and minimum competency testing. Kluwer-Nijhoff Publishing. $ only Preview and references: https://link.springer.com/chapter/10.1007/978-94-017-5364-7_2
Hans van der Vleugel, Willem K. B. Hofstee, Henk van Dijk, Henk Groen, Janke Cohen-Schotanus (1973). Begripsvalidatie van een studietoets. Nederlands Tijdschrift voor de Psychologie, 1973, 28, 237-347. Zie ook http://benwilbrink.nl/literature/validity.htm#VHDGC voor een gedeeltelijke transcriptie. Van belang in verband met de stelling dat bij beschouwing van de validiteit van eindtoetsen de aard van het stelsel van middelbaar onderwijs niet buiten beschouwing kan blijven is de laatste alinea in het artikel: “Tot slot zij vermeld dat op een bespreking in de Werkgroep Meet-methoden als kritiek op de gedachte van begripsvalidatie van toetsen (zoals uiteengezet in Hofstee 1971) naar voren kwam, dat de onderzoeksprocedure meer slaat op het onderwijs in kwestie dan op de toets (P.J. Drenth, mondeling). Inderdaad lopen in het bovenstaande deze zaken door elkaar. Als herformulering zou dan ook gegeven kunnen worden, dat beoordelingsgegevens als invalshoek worden gebruikt om uitspraken te doen over het onderwijsstelsel als geheel. Toetsvalidatie, zo opgevat, is een variant van de indirekte of “averechtse” systeem-diagnostiek (Hofstee 1969).” [Hofstee (1969). Individuele verschillen, en averechtse toepassing. Ned. Tijdschr. Psychol., 24, 482-493] [Hofstee (1971). Begripsvalidatie van studietoetsen: een aanbeveling. Ned. Tijdschr. Psychol., 26, 491-500, herdrukt in P. J. van Strien (Red.) (1976). Personeelsselectie in discussie. Meppel: Boom. 121-140 ]
Linda Sturman (2003). Teaching to the test: science or intuition? Educational Research, 45, 261-273. https://sci-hub.se/10.1080/0013188032000137256
Lloyd G. Humphreys, David Lubinski, and Grace Yao (1993). Utility of Predicting Group Membership and the Role of Spatial Visualization in Becoming an Engineer, Physical Scientist, or Artist. Journal of Applied Psychology, 78, 250-261. https://tinyurl.com/y5tbh37g
tekst op p. 250: “The Standards for Educational and Psychological Testing (American Educational Research Association [AERA1, American Psychological Association, & National Council on Measurement in Education, 1985) discusses criterion-related evidence and lists specific standards solely in terms of relations between individual differences on predictor tests and in criterion performance. Consider, for example, the following quotation that was presented by the authors as the central question in criterion-related validation: “How accurately can criterion performance be predicted from scores on the tests?” (p. 11). It is not obvious to us, however, that this is the only question or always the most important question. We argue that the prediction of group membership also is a desirable criterion for consideration in predictive validation. To illustrate the importance of predicting group membership, we exemplify how spatial ability tests are useful in predicting group membership in various engineering and physical science educational/occupational categories. This empirical demonstration not only reveals the usefulness of this methodology but also has implications for identifying individuals, at both the undergraduate and graduate level, with exceptional talent for and commitment to engineering and physical science disciplines, the second objective of this article. Before proceeding, however, a brief review of the traditional form of predictive validation is necessary to point out its distinctiveness from the group membership approach. Regressions of criterion performance on predictors may be considered the “classic” approach. Although this approach has much to offer, it also has numerous problems associated with it, as illustrated in the discussion in Standards (AERA, 1985) concerning the evaluation of criteria documents. Research in both civilian occupations and military assignments, extending over many years, points clearly to two concerns: First, any one criterion measure contains a substantial quantity of unique variance, and a composite of several measures of performance having widely varying methods variance components is likely to be the most valid (Carroll, 1985; Humphreys, 1985; Lubinski & Dawis, 1992). A second problem with the classic approach to predictive validation arises from the instability of individual differences in performance over successive occasions of measurement during training, from training to performance on the job, and over occasions on the job. Hulin, Henry, and Noon (1990) have recently reviewed this literature, which led to the following question: How many different time periods between testing on predictors and obtaining criterion measures are required in studies of predictive validity? We really do not know. “
C. L. Hulin, R. A. Henry & S. L. Noon (990). Adding a dimension: Time as a factor in the generalizability of predictor relationships. Psychological Bulletin, 107, 328-340. https://tinyurl.com/yymyngts
Frederick Mosteller, Richard J. Light and Jason A. Sachs (1996). Sustained inquiry in education: lessons from skill grouping and class size. Harvard Educational Review, 66, 797-842. https://tinyurl.com/yyak8k3q Indrukwekkend artikel. Skill grouping (ipv ability grouping want dat suggereert een onwrikbare eigenschap): research ontbreekt voornamelijk, en wat er is levert geen eenduidige resultaten.
H. Blok, & W. E. Saris (1980). Relevante variabelen bij het doorverwijzen na de lagere school; een structureel model. Tijdschrift voor Onderwijsresearch, 5, 63- . https://tinyurl.com/y27h9zpa p. 78: “Uit het feit dat de score op de Cito-toets een uiterst klein effect heeft op de plaatsing, menen wij te kunnen afleiden dat plaatsingscommissies geen beslissingen baseren op de toetsscore alleen. Via het tweede advies oefent de Cito-score nog enige indirecte invloed uit op de plaatsing, maar ook dit effect (.016) is zeer gering. Blijkbaar voegt de toetsscore nauwelijks nog iets toe aan de informatie over schoolprestaties en voorspelde toetsscore die reeds in de adviezen en de aanmelding verwerkt zijn. Als gevolg daarvan concluderen wij dat de invloed van de score op de toets tijdens de LO-VO overgang verwaarloosbaar klein is. Dit betekent niet dat de toets zelf geen invloed heeft op de LO-VO overgang. Want van de door de leerkracht verwachte score op de toets blijkt een grotere invloed uit te gaan. Via dit direct effect van predictie op advies 1 heeft de Cito-toets een invloed op de uiteindelijke plaatsing die niet verwaarloosd kan worden (.228). Het merkwaardige feit doet zich dus voor dat de toets wel enige invloed heeft op de overgang, niet via de behaalde maar via de verwachte score.”<li>Het eerste advies van de school is dus beïnvloed door wat men denkt dat de Cito-toets aan cognitieve vaardigheden toetst. b.w.<li>p. 78: “Tot slot merken wij op dat de invloed van schoolprestaties gedurende de gehele overgang erg groot is. Zowel de beslissingen van onderwijzers als van ouders als van toelatingscommissies blijken voor het grootste deel direct dan wel indirect gebaseerd te zijn op de schoolprestaties van leerlingen. Alleen in het eerste advies en de aanmelding is nog ruimte aanwezig voor directe effecten van andere variabelen. Over de identiteit van deze variabelen levert ons onderzoek geen aanwijzing op. Het lijkt echter niet onwaarschijnlijk dat het gaat om kwaliteiten als ijver, motivatie, doorzettingsvermogen en de eigen wens van de leerling.”
Henk Blok en Hildo Wesdorp (1979). De schooltoets na twaalf jaar. Deel I: Een evaluatie van de op de leerling gerichte functies: selectie voor het V.O., advisering aan de ouders en opsporing van reserve aan talent. Paedagogische Studiën, 56, 335-347. https://tinyurl.com/yy8ykz26
Henk Blok en Hildo Wesdorp (1979). De schooltoets na twaalf jaar. Deel II: Een evaluatie van de op het onderwijs gerichte functies: analyse van de stand van het onderwijs, concretisering van doelstellingen en beïnvloeding van het lager onderwijs.. Paedagogische Studiën, 56, 388-396. https://tinyurl.com/yyb5dgrf
Lisette Swart, Wiljan van den Berge en Derk Visser (2019). De waarde van eindtoetsen in het primair onderwijs. CPB Policy brief. https://www.cpb.nl/sites/default/files/omnidownload/CPB-policy-brief-2019-03-de-waarde-van-eindtoetsen.pdf Er is heel wat over getwitterd, op 3 en 4 april. Het CPB slaagt erin een rapport te schrijven over de waarde van advies en eindtoets in de voorspelling van vo-trajecten zonder het woord ‘validiteit’ te schrijven. Dat vind ik toch knap. Het geeft aan dat het rapport amateuristische trekjes heeft. <p>Het rapport babbelt maar voort, er komt van alles en nog wat aan de orde, maar er zit geen samenhang in. Een behoorlijk theoretisch kader ontbreekt, de onderzoekers doen maar wat, met de data die toevallig beschikbaar zijn. Testpsychologische kennis ontbreekt totaal. Een vergelijking met het Utrechtse onderzoek (zie NRC vandaag) zou een en ander duidelijker kunnen doen uitkomen, maar ik heb dat Utrechtse onderzoek nog niet gezien (artikel in het aprilnummer van De Psycholoog, heb ik nog niet op mijn deurmat aangetroffen. Komt nog wel).
Kimberley Lek (2020). Teacher knows best? On the (dis)dvantages of teacher judgments and test results, and how to optimally combine them. Thesis. https://www.cito.nl/kennis-en-innovatie/kennisbank/proefschrift-teachers-knows-best-kimberley-lek-2020
Kimberley Lek & Rens van de Schoot (2019). Wie weet het beter, de docent of de centrale eindtoets? De Psycholoog. Lees online: https://www.tijdschriftdepsycholoog.nl/wetenschap/wie-weet-het-beter-de-docent-of-de-centrale-eindtoets/ (Voor annotaties en een gedachtewisseling met Rens van de Schoot zie http://www.benwilbrink.nl/literature/aansluitingbovo.htm#Lek_Schoot)
Geert Driessen (2005). De totstandkoming van de adviezen voortgezet onderwijs: invloeden van thuis en school. Pedagogiek, 25, 279-298. https://www.researchgate.net/publication/47682245_De_totstandkoming_van_de_adviezen_voortgezet_onderwijs_invloeden_van_thuis_en_school
Geert Driessen (2006). Het advies voortgezet onderwijs: is de overadvisering over? Mens en Maatschappij, 81, 5-23. https://www.aup.nl/journal-downloads/mens-en-maatschappij/vol_81_no_1_-_het_advies_voortgezet_onderwijs.pdf
G. Driessen, J. Doesborgh, G. Ledoux, M. Overmaat, J. Roeleveld en I. van der Veen (2006). Van basis- naar voortgezet onderwijs. Voorbereiding, advisering en effecten. ITS/SCO-Kohnstamm Instituut. https://repository.ubn.ru.nl/handle/2066/211591
Egbert Warries (1972). De invloed van een toetsprogramma. Pedagogische Studiën, 49, 73-82. https://tinyurl.com/y6rkrqht
D. J. Bos (1973). De Amsterdamse schooltoets en de differentiatie van brugklasleerlingen. Paedagogische Studiën, 50, 62-69. https://tinyurl.com/y6eug4oq
D. J. Bos (1974). Schoolkeuze-adviezen. Resultatencontrole na vijf jaar. Universiteit van Amsterdam (proefschrift). Den Haag: Mouton. [Jan Bos was medewerker van A. D. de Groot op het R.I.T.P. Het gaat om onderzoek naar schooladviezen uit enkele jaren voordat de Amsterdamse schooltoets werd ingezet. Conclusies zijn ondoorzichtig geformuleerd. 50% van de adviezen komt overeen met het resultaat na vijf jaar, maar wat betekent dat precies? ]
M. Groen (1967). De voorspelbaarheid van schoolcarrières in het voortgezet onderwijs. Groningen: Wolters. [Enkele longitudinale studies van vijftiger-jaren groepen; proefschrift, promotor A. D. de Groot; gebruikt o.a. Cronbach & Gleser (1965) als methodologische basis]
<a name=”Vedder_92″></a><p><br><hr><p class=’lit’>
Paul Vedder (1992). Het Cito-Leerlingvolgsysteem. Spelen met oogkleppen op. Pedagogische Studiën, 69, 284-290. https://tinyurl.com/y3m95dco
T. Kuiper (1930). Maatschappelijk milieu, algemene intelligentie en de selectie voor het middelbaar onderwijs. Mensch en Maatschappij, september 1930. Ook als no. 13 in de Mededelingen van het Nutsseminarium voor Paedagogiek aan de Universiteit van Amsterdam. Herdrukt in Pedagogische Studiën, 1974 (51), 23-27. https://tinyurl.com/yxrw4lr9
Herman Wieberdink en Heleen Kuster (6 juni 2011). Cito bepaalt niet wat goed onderwijs is. De Volkskrant https://www.volkskrant.nl/columns-opinie/cito-bepaalt-niet-wat-goed-onderwijs-is~b6644387/ Zie ook mijn blog (ook al staat mijn naam er niet boven) https://www.beteronderwijsnederland.nl/blogs/2011/06/cito-bepaalt-niet-wat-goed-onderwijs-is/
Matthijs Warrens, Monique Dijks, Erik Fleur en Hanke Korpershoek (17 juni 2019). Schooladvies: de leerkracht weet het beter. Didactief https://didactiefonline.nl/artikel/schooladvies-de-leerkracht-weet-het-beter (gebaseerd op empirische gegevens (via DUO) van meer dan honderdduizend leerlingen) Maar ja, of leerlingen na enkele jaren op de voorspelde plek zitten, of niet, is op zich niet doorslaggevend voor de vraag naar de validiteit van advies en/of eindtoets, daar gaat juist mijn betoog over.
M. A. Dijks, M. J. Warrens, E. Fleur, H. Korpershoek, I. J. M. Wichgers, en R. J. Bosker (2020). The predictive power of track recommendations in Dutch secondary education. Pedagogische Studiën. http://www.pedagogischestudien.nl/download?type=document&identifier=718914
Livingston, Samuel A., & Lewis, Charles (1995). Estimating the consistency and accuracy of classifications based on test scores. Journal of Educational Measurement, 32, 179-196. http://www.ets.org/Media/Research/pdf/RR-93-48.pdf [Dit gaat over sorteren in meerdere categorieën, op basis van scores op een enkele (samengestelde) test. Het artikel laat het ambacht van de psychometrici zien: er kan fijn aan worden gerekend, maar hoe zinnig het allemaal is blijft onduidelijk. Het probleem is dat de categorieën geen natuurlijke categorieën zijn, maar een willekeurige indeling op een continuum van testscores]
Hillel J. Einhorn & Robin M. Hogarth (1978). Confidence in judgment: persistence of the illusion of validity. Psychological Review, 85, 395-416. https://tinyurl.com/y4ph8q7y [Dat artikel komt uit een psychologisch toptijdschrift. Het is moeilijk leesbaar en vooronderstelt veel kennis. Probeer eens wat artikelen die het citeren (1613 stuks!) https://tinyurl.com/y4tejoyt Nog beter is dat ik een keer probeer het in 2 of 3 blogs te vertalen naar onderwijs.]
“Kamer verbaasd over uitkomsten CITO-onderzoek” NRC 19 februari 1996. https://www.nrc.nl/nieuws/1996/02/19/kamer-verbaasd-over-uitkomsten-cito-onderzoek-7299732-a114062 “Een kwart van de Mavo-leerlingen scoorde vorig schooljaar ten minste zo goed als de gemiddelde VWO’er. Ook bleek dat één op de tien leerlingen in het voorbereidend beroepsonderwijs de helft van de VWO-leerlingen in absolute schoolprestaties voorbijstreeft.”
Wubby Luyendijk (26 februari 1996). CITO-toets basisvorming is ‘reinste volksverlakkerij’ NRC https://www.nrc.nl/nieuws/1996/02/26/cito-toets-basisvorming-is-reinste-volksverlakkerij-7300584-a274453 “Op het VWO leer je in de basisvorming bij Nederlands niets wat je niet al geleerd hebt op de basisschool, is het oordeel van dr. H. van den Bergh van de Universiteit Utrecht.”
‘Wat moet citotoets aantonen: kennis of begrip?’ Door Xandra van Gelder en Mergreet Vermeulen opgetekend in de Volkskrant, 3 februari 2001. Een grappig twistgesprek uit 2001, dat tegelijk ook het falen laat zien van een overgewaardeerde (want zogenaamd ‘objectieve’) test. https://twitter.com/benwilbrink/status/1340317813764976641
(10-2-2020). Kamerbrief rondom eindtoetsing en schooladviezen. https://www.tweedekamer.nl/kamerstukken/brieven_regering/detail?id=2020Z24560&did=2020D51534 “Met deze brief informeer ik u over drie zaken rondom de eindtoets en de overgang van primair onderwijs (po) naar voortgezet onderwijs (vo). In het eerste deel van deze brief ga ik in op het wegvallen van de eindtoets in 2020 en de inzet om de eindtoets dit schooljaar door te laten gaan. Het tweede deel zoomt in op de governance rondom de eindtoetsen. Afgelopen jaar zijn de checks and balances in het huidige stelsel versterkt. Tot slot licht ik in het derde deel van de brief enkele onderdelen bij het Wetsvoorstel doorstroomtoetsen po toe, waaronder een toelichting op de uitvoeringstoets van het amendement-Bisschop.”
Camilla Addey ,Bryan Maddox &Bruno D. Zumbo (2020). Assembled validity: rethinking Kane’s argument-based approach in the context of International Large-Scale Assessments (ILSAs). Assessment in Education: Principles, Policy & Practice, Volume 27, Issue 6 https://doi.org/10.1080/0969594X.2020.1843136
Herman van Boxtel, Ronald Engelen, Anja de Wijs (2011). Wetenschappelijke verantwoording van de Eindtoets Basisonderwijs 2010. Cito. online: https://www.beteronderwijsnederland.nl/wp-content/uploads/2013/04/cito_wetenschappelijke_verantwoording_eindtoets.pdf
Notitie sjabloon
Cor Sluijter(2014). Selectie bij overgangen in het onderwijs. Een beknopte literatuurstudie https://www.onderwijsraad.nl/binaries/onderwijsraad/documenten/rapporten/2014/03/03/studie-selectie-bij-overgangen-in-het-onderwijs/Studie-Selectie-bij-overgangen-in-het-onderwijs-een-beknopte-literatuurstudie-1.7.pdf
Vervolg (januari 2022): ‘Het begrip ‘validiteit’ ijdel gebruikt bij advies en eindtoets? Yes! ‘ https://benwilbrink.wordpress.com/2022/01/
Pingback: Annotaties bij Sandel (2020) ‘The tyranny of meritocracy’ | Fair schooling & assessment
Pingback: Jubileumboek 50 jaar Cito – Mantel der liefde | Fair schooling & assessment
Pingback: Bijdrage aan advies dat de Onderwijsraad voorbereidt over differentiatie | Fair schooling & assessment
Pingback: Examenonrecht ‘en effet’ | Fair schooling & assessment
Pingback: ‘Gelijke kansen?’ Spreek liever over ‘eerlijke kansen’ – KomenskyPost