Toetsvragen ontwerpen. Een draadje met springende punten

Toetsvragen ontwerpen

Vandaag blijkt mijn hoofd te staan naar toetsvragen als onderwerp, mijn zonden, en vooral die van anderen. Het ontwerpen van toetsvragen, bij de buren heet dat ‘item writing’, door mij wel vertaald met ‘toetsvragen schrijven’: Aula 809 benwilbrink.nl/publicaties/83…

Mijn zonde bij het uitbrengen van dit boekje was dat ik deze aanpak van het ontwerpen van toetsvragen niet empirisch had getoetst op een paar honderd of liefst nog meer universitaire docenten. Uiteindelijk stapte de redactie van deze HO-reeks over dat bezwaar heen. Gelukkig.

Mijn verdediging was uiteraard dat ik mij met deze praktische aanpak van het ontwerpen van toetsvragen keerde tegen tradities die evenmin op behoorlijke empirische toetsing berustten. Integendeel. Toetsvragen ontwerpen werd alom als een KUNST beschouwd. No kidding. Nog steeds.

Dienstmededeling. Het boek is van 1983, en door opheffing van het COWO stopte iedere vorm van doorontwikkeling abrupt. In de jaren ’00 wel weer opgepakt: benwilbrink.nl/projecten/toet… met boeiende nieuwe ideeën, maar een afgeronde tweede editie ligt boven mijn macht. Het is te groot.

Maar de toetsvragen-kunstenaar krijgt toch hulp van Benjamin Bloom c.s., de ‘cognitieve taxonomie’ voor toetsvragen? Het probleem daarmee is dat validiteit van het gebruik van de taxonomie twijfelachtig is. Het inzicht van vandaag is immers de kennis van morgen!

En het is pseudo-psychologie hè! Leraren kunnen niet in de hoofden van hun leerlingen kijken of wat zich daar bevindt of afspeelt gewoon kennis is, of inzicht, of het vermogen om de kennis ook toe te passen (handboek piloot kennen ≠ vliegtuig besturen).

Die taxonomie heeft het onderwijs schade berokkend (een nieuwe editie heeft het belang van kennis als de basis van alles benadrukt, een belangrijke correctie depauw.edu/files/resource…). Het blijft pseudo-psychologie, die tot allerlei verschrikkelijke piramides verleidt.

Heel dat gedoe met wat er in het hoofd zou gebeuren, is gekoppeld aan het idee dat onderwijs doelstellingen nodig heeft. Wat leidt tot ergerlijke toetsmatrijzen van inhouden versus categorieën van de taxonomie. 

Vandaar dat mijn boek begon met doelstellingen overboord te zetten.

Herken in die toetsmatrijzendogmatiek de bureaucratische terreur die het in feite is. Het is allemaal goed bedoeld – pun intended – maar het werkt vreselijk uit. Dit soort onderwijs-‘vernieuwing’ vloeit uit de pennen van onderzoekers met een generieke blik op het onderwijs:

‘hé, wacht even, al dat toetsen is eigenlijk psychologie, waarom gebruiken we onze testpsychologie (intelligentie-testerij, goudmijn voor psychologen begin 20e eeuw) niet om het onderiwijs te vernieuwen?’ Heel handig, want de onderzoeker kent de inhoud van schoolse vakken niet.

En als hij/zij die wel goed kent, ontbreekt het te vaak aan methodologisch inzicht in onderzoek. Afijn, Lee Shulman schreef er een klassiek betoog over fisica.uniud.it/URDF/masterDid… Anders gezegd: zadel leerkracht niet op met het idee dat het noodzakelijk zou zijn kennis te hebben van wat zich in het hoofd van leerlingen afspeelt. 

De taxonomie van Bloom c.s. was ooit een breuk met het behaviorisme. Misschien nodig op dat moment: 1956. Het is nu 2022 hè!

De ervaren leraar staat boven de behandelde stof en is goed in staat toetsvragen te ontwerpen. Vooral zonder Bloom, piramides, of andere flauwekul. 

Natuurlijk, er zijn tal van randvoorwaarden voor de kwaliteit, maar dat is toch een onderwerp apart, zie: benwilbrink.nl/projecten/toet…

Een minder zichtbaar probleem met schema’s zoals van Bloom c.s. is dat ze vooral NA het gegeven onderwijs uit de kast worden getrokken om te helpen bij het ontwerpen van toetsvragen. Dat is een probleem, omdat de toets daarmee niet meer in lijn is met het gegeven onderwijs.

Een voorbeeld. Het opgegeven handboek behandelt verschillende vormen van afasie in verhalende stijl, met definities ook. 

Bij het ontwerpen van tentamenvragen wil de adviseur casus van afasie presenteren, met de opgave deze te benoemen. Goed idee, vinden de docenten. Maar … .

Op dat moment ontdekken zij het dat het net van de persen gerolde Handboek niet voorbereidt op de opgaven die de docenten eigenlijk willen gebruiken in het tentamen over dat Handboek. Niet handig. 

Docenten kunnen dus wel hulp gebruiken bij het afstemmen van onderwijs en toets.

Het idee is nu dat er een beschrijving van de leerstof nodig is: wat zijn de belangrijke begrippen, hun onderlinge relaties, hoe moeten leerlingen de kennis ervan beschikbaar hebben — bij het lezen van nieuwe teksten bijvoorbeeld (analyse, referentie). Epistemologie, kennisleer.

Iedereen kent het wel in de vorm van ‘concept maps’, of begripsmatige schema’s zoals dat in de 70er en 80er jaren werd genoemd (Breuker, Mirande, Elshout-Mohr, publicaties over schematiseren als studiehulp). Een voorbeeld uit ‘Toetsvragen ontwerpen’:

Image

Onderscheiden naar aard van de kennis gaat het bij vrijwel alle leerstof altijd wel over (1) begrippen, (2) relaties tussen begrippen [bijv. natuurwetten], (3) probleemoplossen [wendbaarheid in de methodologie van het vak], en (4) tekstbegrip [‘problem solving on the fly’]

De volgorde is een voorwaardelijke, er zit een opbouw van beheersing in. Ieder in een eigen hoofdstuk behandeld. 

(1) en (2) zullen niet verrassen. De kort karakteristiek die ik hier geef voor (3) probleemoplossen is een nieuw inzicht van vanavond dat nog om uitwerking vraagt.

De behandeling in het boek berust op de cognitieve psychologie van vooral Allen Newell [‘producties’], en blijft als zodanig nogal abstract. Ieder vak heeft zo zijn eigen methodologie, die laat zich goed combineren met het abstracte frame van Newell. Vermoed ik. Patenteren, Ben!

Het proto-type van probleemoplossen is zoals dat in de wiskunde gebeurt. De proto-typische publicatie is Polya’s 1957: ‘How to solve it’. Onderwijsvernieuwers dwepen er graag mee, het is ook voor de #rekentoets [eindexamens vo] gebruikt. Misbruikt, want zo simpel is het niet.

Het toeval wil dat de genoemde Allen Newell student was van Polya, en er door zijn onderzoek naar probleemoplossen, samen met Herbert Simon, buitengewoon op was gespitst om ook het probleemoplossen van Polya theoretisch te kunnen duiden. Wat hem niet lukte. Maar dit terzijde.

Aula 809 1983 behandelt probleemoplossen in hoofdstuk 7, NA het hoofdstuk 6. over het ontwerpen van vragen bij teksten, kunstmatig opgedeeld in analytische vragen [relaties BINNEN de tekst] en refrentiële vragen [relaties met kennis BUITEN de tekst]. Duh, je bedoelt tekstbegrip!

Of het om tekstbegrip gaat, laat ik maar even terzijde. Het springende punt is dat analyse en referentie natuurlijk niet anders zijn dan een vorm van probleemoplossen. De volgorde moet dus zijn: eerst probleemoplossen behandelen, pas daarna wat het is om tekst te begrijpen.

Teksten zijn er allereerst om redelijk vlot gelezen te kunnen worden. Het analyseren van het geschrevene, en dat verbinden met met het al bekende [inferentie], moet vrijwel autonoom kunnen verlopen, zonder ‘nadenken’. Vandaar dat ik ‘problem solving on the fly’ heb genoemd.

Vrijwel autonoom: dat is een eis die gesteld mag worden aan de expert. Zoals de advocaat die een rechterlijke uitspraak leest. In het onderwijs zijn de studenten net op weg om expert te worden: analyse en referentie zullen mogelijk expliciet geoefend moeten worden.

Oké, daar laat ik het bij wat ‘epistemologisch’ uiteenleggen van de leerstof betreft. 

Het boeiende van het opzetten van twitterdraadjes zoals deze is dat het best wel vaak tot nieuwe inzichten leidt, zoals in het bovenstaande is gebleken. 

Ik ga hierna verder over keuzevragen.

Laat ik daar dan vast op vooruit lopen door deze korte hadleiding aan te bieden, uit een project voor Algemene Taalwetenschap (UvA), destijds een tentamen voor meer dan 1000 studenten. benwilbrink.nl/publicaties/92…… 

Wordt vervolgd

Maar eerst wil ik voorkomen dat er misverstanden groeien over wat tekstbegrip in deze context is. Het is geen freischwebende Intelligenz maar strikt 100% en volledig KENNIS-GEBONDEN. Allereerst domein-specifieke kennis dus.

Het is mij een raadsel wat het vak Nederlands met tekstbegrip heeft te maken. Daniel Willingham legt het opmeerdere plaatsen ook glashelder uit. Is het nodig een verwijzing te geven? U kent de literatuur toch wel een beetje? 

Het onderwerp nodigt uit tot nieuwe draadjes.

Om het voor nu even af te ronden: tekstbegrip gaat over de relaties die de lezer spontaan of anderszins kan leggen op basis van kennis van het onderwerp. Wat in de cognitieve psychologie van Allen Newell ‘producties’ heten. (bij E. Thorndike S-R banden)

Production System Models of Learning and Development

Dan heb je een doorwrocht boek geschreven over het ontwerpen van toetsvragen, en word je als raadgever teruggeworpen op de very basics. De meerkeuze-toetsen die leraren/docenten zelf ontwerpen hebben vaak enorme gebreken, die tegelijk eenvoudig zijn te verhelpen.

Daar ben je dan wel druk mee. Een korte cursus voor een heel team ziet er dan zo uit: iedereen levert een aantal zelf ontworpen vragen in, die door de anderen kritisch worden besproken. Onder het motto: breek ze tot de grond toe af, bouw ze opnieuw op.

En ik maar proberen dat in goede banen te leiden. 

Basale ontwerpfouten: vier alternatieven aanbieden (drie is altijd beter); veel te lange teksten in de alternatieven; kokervisie op wat het juiste alternatief zou zijn (andere zijn vaak ook verdedigbaar); dubbelzinnigheid.

Een voorbeeld kan helpen. Ik ben een decennium druk geweest om te helpen verhinderen dat de #rekentoets onderdeel van de eindexamens vo zou worden / blijven. Het was een sport om de gebreken in vrijwel alle context-opgaven aan te geven. Zodra er items vrij werden geven, want het was allemaal heel geheimzinnig rondom die toetsen. Surveillerende docenten mochten niet meekijken wat de vragen waren, laat staan daar foto’s van maken. WOB-verzoeken werden vanwege staatsbelang afgewezen. Compleet oorlog dus. Afijn, zie benwilbrink.nl/projecten/cito… Komisch.

Die webpagina is een demonstratie van hoe dat gaat: ontworpen keuzevragen tot de grond toe afbreken. Ik was in de gelegenheid mijn vroegere collega’s van het Kohnstamm Instituut ervan te overtuigen dat deze toetsen ernstig problematisch waren. Maar ik slaagde daar niet in.

De stemming was vergoelijkend voor de ontwerpers van die rampzalige vragen. Mijn collega’s dachten mee met die ontwerpers. Zo erg is het allemaal toch niet? Perfecte toetsen bestaan niet.

Het springende punt is nu juist: De ontwerper moet kunnen denken vanuit de positie van de leerling / student die de toets moet maken, en zich erop moet voorbereiden, niet te vergeten.>> De ontwerper die zich dat voortdurend realiseert, is in een veel betere ‘ontwerppositie’.

Ik geef een paar voorbeelden. De naïeve ontwerper vindt lange teksten in de alternatieven geen probleem, want de leerling die de stof beheerst gaat meteen voor het juiste alternatief, hoeft de andere niet eens te lezen. Toch? 

Nee dus. Zo werkt het niet. Keuzevragen dwingen ook de andere alternatieven (noem ze nooit AFLEIDERS!) te bestuderen, en dan pas het meest juiste (brrr) te kiezen. Ziet u nu waarom het misdadig is om alternatieven met ingewikkelde constructies te gebruiken? Of alternatieven die puur onzin zijn, of omkeringen van wat juist is?

Leerlingen mogen bij een toets uiteraard never ever worden AFGELEID. Laat staan bij een examen. Proberen om leerlingen in de war te brengen, bij toetsen waar veel van afhangt, is niet alleen onprofessioneel, het gaat over grenzen van rechtmatigheid heen.

Een deel van het fiasco van de #rekentoets is ongetwijfeld te wijten aan het onvermogen van de ontwerpers van de toetsen en de opgaven om te denken vanuit de positie van de leerlingen. De toetsen en cijfergeving moesten keer op keer worden herzien, tot de wal het schip keerde.

Leerlingen bij het maken van toetsen ‘afleiden’, op welke manier dan ook, is een ernstige inbreuk op de toetsorde. Een College van Beroeps voor Examens zal klachten erover altijd serieus nemen. Toetsvragen ontwerpen die inherent ‘afleiden’ — meerkeuzevragen — is onethisch.

Zoals strikvragen dat vanzelfsprekend ook zijn. (Toch bezondigen ontwerpers zich er vaak aan, bijvoorbeeld door een item moeilijker te maken door te vragen om het omgekeerde of complement van de uitkomst van de berekening: dat is uitlokking om die laatste stap te vergeten)

De wortels van het toetsen met keuzevragen liggen ongetwijfeld in begin 20e eeuw in de VS, in de enorme onderwijsmarkt die daar openlag voor ontwikkelaars van intelligentietests en vorderingentoetsen. Bedenk dat, en houd uzelf voor dat keuzetoetsen niet thuis horen in onderwijs.

Is er enig redelijk argument of excuus om leerlingen lastig te vallen met proefwerken en examens met meerkeuzevragen? U denkt misschien ‘Ja, ons propedeuse-tentamen wordt door 1000 studenten gemaakt, hoe moeten we dat anders nakijken?’

Tegenvraag: wat heeft een tentamen voor 1000 jongelui nog met ONDERWIJS te maken? 

Zo’n tentamen is toch vooral onderdeel van een afrekencultuur, een bureaucratisch monster? 

Breek het tot de grond toe af, en bouw het weer op. 

Wat nu als het slechts marginaal wordt nagekeken?

In beginsel krijgt iedereen daar een ‘pass’ voor. Tenzij uit de marginale toetsing blijkt dat een student het onvoldoende heeft voorbereid. Het tentamen is een laatste leer-activiteit, zeg maar. Het sluit zo nauw mogelijk aan op de leerstof en wat daarvan beheerst moet zijn.

Ontwerp de toets op de leerling die de stof behoorlijk heeft bestudeerd en geoefend. Er is geen enkele noodzaak om briljante studenten te bedienen met extra moeilijke vragen zodat zij excellent kunnen scoren waar anderen maar zesjes halen. Stop met die gekte.

Voor de talen bestaan onze centrale eindexamens uit eindeloze reeksen stukjes tekst met daar tekstbegrip-vragen over. Waarom is dat? Is Nederland daar beter mee af dan met proefvertalingen? 

Ho ho, denkt u. Proefvertalingen zijn vreselijk lastig na te kijken, leraren zijn het zelden met elkaar eens over de waardering van die proefvertalingen. Daarom zijn we er toch mee gestopt? Meerkeuzetoetsen zijn objectief, en een geweldige vooruitgang op die subjectieve oordelen van schriftelijk werk. Toch? Of bespeur ik een spoortje van twijfel?

Ik heb ooit de bijna volledige staf van het Cito, onder aanvoering van de directeur destijds, Solberg, mogen uitleggen dat meerkeuzevragen net zo subjectief zijn als open vragen. Dat was me een spektakel op de ORD 1977, want de directeur was razend. benwilbrink.nl/publicaties/77…

De achtergrond is dat De Groot en Van Naerssen in de 60er jaren een sterke ideologie in Nederland hadden geplant dat de enige goede toetsen meerkeuzetoetsen zijn, want die zijn objectief. Het Cito vermarktte dat. 

Wim Hofstee kalmeerde de zaak door na de woedende opmerkingen

van Solberg en Wesdorp droogjes op te merken dat wat Wilbrink hier beweerde, dat keuzevragen even subjectief als open vragen, toch een geweldige eye-opener is. 

En inderdaad, in de VS spreekt men over keuzevragen over ‘frozen subjectivity’: de subjectiviteit van de ontwerper.

Afijn, ik kreeg jaren later te horen dat mijn rechtstreekse aanval op de dogmatiek van de objectieve keuzetoets het Cito wel heeft geholpen om de eindexamens vo vorm te geven, want het zou toch een ramp zijn geworden die allemaal als meerkeuzetoetsen te geven.

Waar ik het beslist ook over moet hebben, daarmee sluit ik de draad af: de schandvlek dat het onderwijs er maar niet in slaag paal en perk te stellen aan deze gekkigheid, dat leerlingen bij meerkeuzetoetsen de opdracht krijgen, als ze het antwoord niet weten, dat dan te RADEN.

Het is een probleem dat onzichtbaar blijft totdat iemand het onder woorden brengt. Het is van de zotte om hele generaties jongeren te leren dat het oké is er een slag naar te slaan, wanneer je iets niet weet. Waar is het onderwijs dan mee bezig? Jongeren handicaps meegeven?

Ooit was het nog zo dat je een keuzevraag open liet, als je het antwoord niet wist. De Army Alpha was een intelligentietest, in 1917 gebruikt om razendsnel een leger op de been te brengen om een eind aan de Wereldoorlog te maken. Jongeren waren gretig om in het leger te gaan, en ontdekten al snel dat ze hun kansen verbeteren door op die test toch maar bij vragen die ze konden beantwoorden, een van de alternatieven aan te kruisen. En zo is het gekomen dat testpsychologen dan maar iedereen instrueerden om te raden, om ongelijkheid te voorkomen.

Diezelfde testpsychologen hebben de verwarring groter gemaakt, door de illusie te wekken dat voor het raden kan worden gecorrigeerd met een handige formule. Kijk er De Groot en Van Naerssen, 1969, ‘Studietoetsen’, maar op na.

Dat is natuurlijk onzin, niemand weet of en hoe Marie-José heeft geraden op haar rekentoets. Voor grote groepen is het raden wel statistisch te schatten, maar daar heeft Marie-José niets aan hè! En het gaat om Mari-José, niet om de groep.

Als er om goede redenen toch keuzetoetsen gegeven worden, pak het probleem dan direct aan, en geef een halve bonuspunt voor iedere keuzevraag die NIET is beantwoord. Maak er driekwart bonuspunt van bij tweekeuzevragen, anders blijft het voor leerlingen aan te raden te raden.

Ik stip hier nog een verwant probleem aan. Taal is dubbelzinnig. Het is voor leerlingen vaak ook gissen wat de ontwerper van de vraag precis heeft bedoeld, of hoe een alternatief precies opgevat moet worden. ‘Beschrijft de aarde een cirkelvormige baan rond de zon?’ Wat denkt u?

Voor de #rekentoets deed zich het probleem voor dat briljante wiskunde-leerlingen geen perfecte score op de rekentoets konden halen. Rekenen op niveau groep 8 hè! Het CvTE had zich kapot moeten schamen, en onmiddellijk ingrepen. Maar zo werkt de toets-bureaucratie niet.

Omdat er bij keuzevragen alleen maar kruisjes gezet kunnen worden, is er een probleem voor de leerling die de dubbelzinnigheid ziet. Hé, de baan van de aarde is toch ellipsvormig? Bedoelt de ontwerper van de vraag dat dan ook? 

Mijn advies, bij ‘high stakes’ examens:

Geef bij twijfel een schriftelijke toelichting op het alternatief dat je hebt aangekruist. Lever dat papier in bij de surveillant, en laat die surveillant teken voor ontvangst ervan. Dan heb je achteraf een been om op te staan. Ga in beroep.

Want het staat vast dat er altijd meer manieren zijn om een keuzevraag goed te beantwoorden, dan de ontwerpers ervan hebben voorzien. 

Ik kan eraan toevoegen dat dit probleem vaker juist díe leerlingen treft die meer dan alleen de opgegeven leerstof bestuderen.

END

Stel vragen bij wat duister lijkt. Geef een ‘like’ bij iets dat je bijzonder treft. Plunder mijn website voor meer informatie. 

Gedeelten van ‘Toetsvragen schrijven’ zijn wel herzien, niet alleen wat het Nederlands betreft. Maak er gebruik van: 

benwilbrink.nl/projecten/toet…

PS 

De baan van de Aarde om de Zon is niet ellipsvormig, slechts bij benadering. 

Pas bij het ontwerpen op met ‘universal quantifiers’ zoals ‘nooit’, ‘alle’. Ook wiskundige functies zijn in deze zin universele quantoren. 

Reden om contexten in wiskundeopgaven te VERBIEDEN.

Rangordenen en cijfergeven,  kan dat ook samengaan?  Een draadje

“In 1883 keerde men de cijfers om. Nu betekende 5 zeer goed, 4 goed, 3 voldoende, 2 onvoldoende, en 1 slecht.” [Fortgens, 1965, ‘Zeshonderd jaar Stedelijk Gymnasium Middelburg’ blz. 60]  Dit soort regelgeving blijft me verbazen. Het heeft wel consequenties hè!

Nu zou je denken: goed dat deze school kennelijk al vroeg werkte met cijfers, in plaats van rangorde van de leerlingen. Maar dat is te snel geconcludeerd. Cijfers zijn een vernieuwing, maar deze school gebruikt ze om er ouderwets mee te rangordenen.

Dit gymnasium kende een ‘Klein Examen’: een maandelijkse oploop van alle klassen in de vergadering van curatoren en leraren, om vorderingen, gedrag en vlijt door te nemen. Op basis daarvan werden leerlingen op een nieuwe rangorde geplaatst. Zij waren op komen draven in de oude.

Duh. Toch? Rector Dokkum stelde deze archaïsche toestand ter discussie. In 1917 nog! Maar curatoren wilden er niet zomaar van af. O ja, dit circus ging gepaard met een tsunami aan proefwerken, iedere maand opnieuw, om cijfers over de ‘vorderingen’ te leveren. [blz. 68-69]

Overigens ben ik oud genoeg om zelf nog aan den lijve te hebben meegemaakt hoe mijn klas werd gerangordend aan de hand van de behaalde cijfers. Je rangorde werd vermeld in het het rapport dat driemaal per jaar mee naar huis moest voor een handtekening van vaders. 1e klas LO.

Het oude rangordenen in het onderwijs gebeurde op basis van behaalde punten (aantal gemaakte fouten, slechte punten voor gedrag of vlijt). Cijfers waren een nieuwigheid die de punten niet vervingen, maar ze vertaalden naar een pseudo-objectieve schaal, van 1 tot 5 bijvoorbeeld.

Wij zijn gewend dat het uiteindelijk om de cijfers gaat, maar er is kennelijk een lange overgangsperiode geweest waarin scholen het oude systeem van rangordenen niet los konden laten, ondanks de overgang van een puntenstelsel naar cijfergeven. Zie ook benwilbrink.nl/publicaties/97…

“Nu betekende 5 zeer goed, 4 goed, 3 voldoende, 2 onvoldoende, en 1 slecht.” Daar zit een zekere logica in? Evenveel ruimte onder de voldoende, als erboven. Consequentie van deze manier van denken: veel onvoldoendes geven, en veel zittenblijven is ‘normaal’. Een onderwijsramp.

Want wat gebeurt er? Een omkering: omdat er ‘onder’ de voldoende nog zoveel ruimte is, moet die ook worden gevuld. Het wordt ineens gek om proefwerken te geven waar alleen maar voldoendes of beter uit rollen. Dat cijfergeven brengt een eigen, negatieve, dynamiek mee. Stop ermee.

Een ander probleem, waar ook A.D. de Groot, en zeer veel anderen, op wezen: die cijfers blijven zelf nog steeds RANGcijfers. Omdat we collectief in de pseudo-objectiviteitsval trappen, zijn we die cijfers gaan optellen, middelen, wat niet al (Klein Examen in Middelburg).

Maar dat slaat natuurlijk nergens op. Zeker, we kunnen afspreken dat die cijfers opgeteld en gemiddeld mogen worden. Maar dat is niet meer dan een spelregel hè! De afstanden tussen die cijfers zijn niet ‘gelijk’, en dat is wel een voorwaarde wil dat middelen zinvol zijn.

Vanuit het perspectief van de leerlingen verandert er ook veel bij de introductie van cijfers. Door de gekkigheid van de de grens tussen voldoende en onvoldoende komen leerlingen in de positie dat ze het systeem kunnen ‘gamen’. Een nipte voldoende is immers al goed genoeg.

Negatieve krachten versterken elkaar in cijferstelsels. Leerlingen komen als collectief tegenover hun leraren, ook als collectief, te staan. Interessant hoor, lees maar: benwilbrink.nl/publicaties/92… (maakt gebruik van Coleman’s ‘Foundations of social theory.’) ‘Vijven en zessen’ 2.0.

Onderwijsonderzoekers zijn zich nauwelijks of helemaal niet bewust van wat dit doet met conclusies uit onderzoeken waarin studieresultaten een rol spelen. Studieresultaten zijn niet altijd wat ze lijken te zijn, zeg maar. Dubin & Taveggia wezen er al eens op in de 60er jaren:

Als het lukt om onderwijs echt te verbeteren, maar het systeem van beoordelen van studenten blijft onaangetast, dan zullen studenten zich de winst van de verbetering proberen toe te eigenen: gemeten resultaten blijven ongeveer gelijk, studenten meten zich meer vrije tijd toe.

Al die cijferstelsels, ook het angelsaksische A B C D F, komen op hetzelfde neer, al zijn er wel verschillen in aard van de onbedoelde neveneffecten. Alle cijferstelsels zijn pseudo-objectieve schalen van inhoudelijke oordelen (goed/fout) naar waarderingen (slecht, uitstekend).

Het oude stelsel van rangordenen was in deze zin nog zuiver van aard: in wezen telde het aantallen fouten in opgegeven werk. Er was uiteindelijk ook wel een waardering: de beste leerlingen kregen aan het eind van het jaar een prijsboek. Het humanisme verving lijfstraffen door beloningen. Het probleem was: als alleen de beste leerlingen/studenten worden beloond, dan werkt dat niet bepaald motiverend voor leerlingen die weten nooit die beste te zullen zijn. Dit probleem is vele eeuwen lang wel erkend, maar er kwam nooit een oplossing voor.

Ook de rangorde zèlf was niet echt bevredigend. De ‘beste’ zijn is niet hetzelfde in een groepje van 5, of van 100. Enzovoort. In de eeuw van de statistieken, de 19e eeuw, kwam een soort standaardisatie van de rangorde in zwang, bij de Franse Agrégation: de cijferschaal. Mijn bron was dit boek: André Chervel (1993). Histoire de l’Agrégation. Contribution à l’histoire de la culture scolaire. Paris: INRP Editions Kime. Bespreking: persee.fr/doc/refor_0988…

Bij het cijfergeven waarmee heel ons onderwijs zo is bezwangerd, blijft veel te veel aandacht hangen bij de cijfers, de waarderingen. Die cijfers zijn immers zo relatief als wat, duivels elastisch. Terwijl de inhoudelijke oordelen die eronder liggen: díe zijn de core business .

Leg meer de nadruk op het inhoudelijk oordelen, dan komt men vanzelf bij wat elders wel formatief toetsen heet. Ik heb zelf een lichte voorkeur om het ‘integer toetsen’ te noemen, een nuance verschillend van ‘eerlijk onderwijs’. Zie deze vingeroefening: benwilbrink.nl/publicaties/04…

Bespreking ‘De tirannie van de verdienste’ vervolg 2

Na tal van omtrekkende bewegingen, nodig om mij een theoretisch kader te scheppen waar Sandel dat zelf heeft nagelaten, is het tijd om terug te keren naar het boek zelf.  Geef mij even de tijd om het boek voor een derde keer snel door te nemen. Dan wordt dit een nieuwe draad.

Zoals dat gaat met draadjes: ze groeien al lezende en denkende aan.  Ik stuit op p. 122 (Engelse editie) op een belangrijke uitspraak van Sandel: 

“The meritocratic ideal is not a remedy for inequality; it is a justification of inequality.”

Ik ben het met dat laatste hartgrondig eens. Ik zal er nog op terugkomen bij het begrip ‘gelijke kansen’ (is dat komen overwaaien uit de VS?), want dat is evident een politieke rechtvaardiging voor een overigens sterk ongelijke samenleving. ‘Gelijke kansen bij gelijke capaciteiten’ is nog erger, maar dat wist u al?

Maar mijn punt is: met deze stelling over wat het meritocratisch ideaal zou zijn zit Sandel wel op een ander spoor dan Amartya Sen. 

Immers, bij Sen draagt een verdienstelijke daad bij aan het algemeen belang (‘the common good’ in de Engelse titel van het boek).  De beloning ervoor is in harmonie met het algemeen belang, met wat wij in onze samenleving een eerlijke verdeling vinden van de algemene middelen, de ‘commons’. Een andere manier van belonen, zoals ‘winner takes all’, is in conflict met de verdienstelijkheid van de daad.  

Voor het idee van een ‘ideale’ meritocratie volg ik Amartya Sen.  Sandel presenteert hier als ‘ideaal’ een banale opvatting die voorbij gaat aan opvattingen over eerlijke verdeling van lasten en lusten in de samenleving—die overigens ook banaal kunnen zijn, zoals in de VS. In het voorgaande hoofdstuk is Sandel overigens wel uitvoerig ingegaan op theorieën van Hayek (econoom) en Rawls (filosoof) over de ‘goede samenleving’ en hoe daaraan bij te dragen.

Even een uitstapje naar meritocratie in China: Cynthia J. Brokaw 1991 ‘The ledgers of merit and demerit’ https://press.princeton.edu/books/hardcover/9780691637181/the-ledgers-of-merit-and-demerit. Dit heeft uiteraard ook te maken met de Chinese examenhel https://yalebooks.yale.edu/book/9780300026399/chinas-examination-hell/

Meritocratie tegenover aristocratie plaatsen is trouwens ook niet bepaald subtiel. In de wereld van de aristocratie speelde rang en verdienste altijd al een grote rol. Zie bijvoorbeeld Jay M. Smith  (1996). The culture of merit. Nobility, royal service, and the making of absolute monarchy in France, 1600-1789. https://www.press.umich.edu/9817,   open access: https://babel.hathitrust.org/cgi/pt?id=mdp.39015038129261.

En wat vinden we van Aristoteles: “Aristotle talked about ‘natural’ rulers and ‘natural’ slaves: some people were designed to rule, some to obey, and that was just the way things were.” [Wooldridge, p. 28, in The aristocracy of talent.  How meritocracy made the modern world

Het idee van de door God gewilde standensamenleving vinden we in Europa begin 19e eeuw wijd verspreid.  Jefferson, geciteerd in Sandel p) 160: Nature had not vested talent exclusively in the wealthy but had “scattered [it] with equal hand” among all ranks of society. (..) “Twenty of the best geniuses will be raked from the rubbish annually and be instructed, at the public expense.”

Jefferson beschikte niet over de term ‘meritocratie’, maar had het volgens Sandel over ‘natuurlijke aristocratie’ van talent en deugd.  

Sandel ziet hier al de 2 problemen van een tirannieke meritocratie: het legitimeert ongelijkheid, en denigreert de verliezers (‘the rubbish’).

Ik neem nu hoofdstuk 6 ‘The sorting machine’ door.  Heerlijk.  In tegenstelling tot de stof in eerdere hoofdstukken, hoef ik me hier bepaald niet doorheen te worstelen: ik ben er door-en-door mee vertrouwd.  Zie bijvoorbeeld een artikel dat ik mocht schrijven voor Van12tot18: https://www.van12tot18.nl/op-weg-naar-eerlijk-onderwijs. In English, a twin-blog: ‘Fair schooling — take-off’ https://benwilbrink.wordpress.com/2018/08/23/fair-schooling-take-off/.

Het hoofdstuk ‘The sorting machine’ gaat over Amerikaans hoger onderwijs, en dan vooral de selectie voor top-instellingen als Harvard, Yale, Princeton, M.I.T.

Tegenstanders van onze eigen gewogen loting voor geneeskunde wijzen graag naar de VS waar het wel lukt om uitbundig te selecteren https://www.nrc.nl/nieuws/1995/03/30/wat-elders-kan-kan-hier-ook-7262099-a195990 [betaalmuur], maar dat onderwijsstelsel zit echt anders in elkaar dan het onze. En wat de doorsnee hoogleraar evemin beseft, is dat Nederlandse testpsychologen uitstekende relaties hebben met de testpsychologen van bijvoorbeeld Educational Testing Service, waar de Scholastic Aptitude Test https://en.wikipedia.org/wiki/SAT wordt geproduceerd.

De tirannie van verdienste zoals Sandel die beschrijft bij de toelating tot het Amerikaanse hoger onderwijs, moeten we in Nederland zoeken bij de toelating van 12-jarigen tot het voortgezet onderwijs. Jawel, de eindtoets, het schaduwonderwijs, de strijd om op het categorale gymnasium te komen.

Waar in de VS voor 18-jarigen de SAT en ACT de tirannieke instrumenten zijn, zijn dat in ons land vooral het advies en de eindtoets voor 12-jarigen, zie https://benwilbrink.wordpress.com/2022/03/30/gestandaardiseerde-toetsen-verminderen-zij-ongelijkheid/ 

En jawel, in sommige regio’s zoals Amsterdam is het ook dringen voor populaire scholen (meest categorale gymnasia).  Beschamende wachtrijen voor inschrijving zijn vervangen door loting voor scholen van opgegeven voorkeur.  Zie http://benwilbrink.nl/projecten/loten_scholen.htm (niet actueel bijgewerkt). 

De systematiek van het Nederlandse onderwijsstelsel is dus dat examens toelaatbaarheid geven tot vervolgonderwijs.  Iedere aantasting daarvan, zoals selectie voor numerus fixusstudies, brengt stress voor kandidaten mee, en is vooral ook een aantasting van dat stelsel zelf. 

De verschillen tussen het Amerikaanse en het Nederlandse onderwijs zijn fundamenteel, maar voor de leerlingen maakt het niet zo gek veel uit: in beide stelsel is er sprake van voortdurende selectie/tirannie, vanaf Kindergarten / groep 1; vanaf klas 1 / groep 3. De VS is alleen extremer, zeker voor de elite-kinderen waar het bij Sandel vooral over gaat.

Het gaat in meritocratisch opzicht fout bij de eindtoets, zie het uitvoerige proefschrift van Karen Heij 2021 Van de kat en de bel. Tellen en vertellen met de eindtoets basisonderwijs https://karenheij.bijzonderboeken.nl. In grote lijnen geldt dan natuurlijk hetzelfde voor het advies van de school.  Beide vormen het topje van de tirannie van het selectieve onderwijs in Nederland.

Het is geen geheim dat ik van mening ben (zie mijn 1997 ‘Assessment’) dat de ‘core business’ van het onderwijs sinds eeuwen onveranderd is: leerlingen rangordenen.  Zelfbenoemde toetsdeskundigen zijn volop meegegaan in dat ‘frame’: toetsen zouden de verschillen tussen leerlingen moeten laten zien. 

En dat is een sterke aanjager van de ‘tirannie van verdienste’. De individuele leerling kan die wedstrijd winnen, maar ‘de leerlingen’ als categorie kunnen dat niet: als prestaties over de hele linie verbeteren, worden de normen aangepast. ‘Grading on the curve’ heet dat wel.  

Zo heeft het Cito jaren geleden de normen voor zijn leerlingvolgsysteem LVS moeten aanpassen (‘updaten’), tot grote schrik van ouders.  https://wij-leren.nl/cito-normering.php. Tja, leraren weten steeds beter hoe hun leerlingen op die toetsen voor te bereiden.   

Het fenomeen is bepaald niet beperkt tot leerlingvolgsystemen: het doet zich voor bij vrijwel alle beoordelen in het onderwijs.  James Coleman (ja díe, van ‘Equality of Educational Opportunity’) ontwikkelde een methodologie om  het empirisch te bestuderen, zie http://benwilbrink.nl/publicaties/92ColemanApplicationECER.htm waar de methode is toegepast op een dataset met gegevens over tentamenresultaten, verwachtingen, en tijdbesteding. Dit onderzoek gaat over studenten (UvA, 80er jaren).  Als zij over de hele breedte beter presteren, passen docenten hun cijfers aan. Het omgekeerde kan natuurlijk ook; interessant, denk dat eens door. Kijk, zegt Coleman: het is een voortdurende onderhandeling tussen die partijen.

Je kunt ook zeggen: studenten en docenten hebben elkaar, als partijen, in een houdgreep.  Niemand kan zich eraan ontworstelen, tenzij door dit traditionele belonen van prestaties te doorbreken. En dat kan dus, zoals Benjamin Bloom in het 2-sigma experiment heeft laten zien: https://benwilbrink.wordpress.com/2018/09/28/benjamin-s-bloom-human-characteristics-and-school-learning/ Michaela School is ook een voorbeeld? Ja toch? [Katharine Birbalsingh (Ed.) The power of culture.  https://www.athenaeum.nl/boek/?authortitle=birbalsingh-katharine/michaela-the-power-of-culture–9781912906215.]

Sandel verwijst naar de bekende literatuur over testen en over ongelijkheid in de VS.  Maar hij zag deze over het hoofd:  Rebecca Zwick 2017 ‘Who Gets In? Strategies for Fair and Effective College Admissions’  http://www.hup.harvard.edu/catalog.php?isbn=9780674971912 Interview met Zwick: https://www.ets.org/research/policy_research_reports/focus_on_rd/issue8 

Zwick besteedt in hoofdstuk 7 ‘Casting lots for college’ ook aandacht aan de gewogen loting in Nederland, maar is daarover niet goed ingelicht. Zie deze draad, die ik ook aan Rebecca Zwick heb gestuurd, en waarvoor zij mij heeft bedankt: https://twitter.com/benwilbrink/status/946490297948753920

Sandel schrijft uitgebreid over loten, ik kom erop terug.

Sandel wijst op een bijzonder boek: Lauren A. Rivera 2015 ‘Pedigree. How elite students get elite jobs’ https://press.princeton.edu/books/paperback/9780691169279/pedigree. Zij heeft op Joris Luyendijk-achtige wijze ‘inside’ informatie gekregen over die selectieprocessen, die mijn somberste verwachtingen qua ‘tirannie’ overtreffen. 

Voor de kinderen van de elite is de wereld ingrijpend veranderd.  Ooit was afkomst voldoende, gingen alle deuren voor je open.  In de 19e eeuw moest je echt wat kennen en kunnen; dat vond de elite geen punt, hun kinderen zouden de competitie met twee vingers in de neus winnen.  De wereld bleef echter veranderen: onderwijsdeelname groeide en groeide.  Elitekinderen konden echt wel worden weggespeeld door ‘new kids on the block’.  Voor elitekinderen dreigde neerwaartse mobiliteit, terwijl kinderen van het soepie in de opwaartse lift zaten. 

Ik schreef met Jaap Dronkers een studie over die groeiende deelname aan hoger onderwijs, in opdracht van de ARO (AdviesRaad Onderwijs en OCW: http://benwilbrink.nl/publicaties/93DilemmasOCenW.htm. We voorspelden dat die groei nog zou doorzetten. Weinig konden we vermoeden hoe spectaculair die groei uitpakte.

Ook in de VS groeide deelname ‘sky high’.  Publieke universiteiten aan de Westkust gingen ook selecteren aan de poort, en behoren nu tot de meest selectieve van de VS.  Door het eigenaardige onderwijsstelsel van de VS, dat geen stelsel is maar een zooitje ongeregeld privaat, was het onvermijdelijke gevolg dat iedereen bij wijze van spreken naar dezelfde universiteiten met hoge status wilden, en daar zijn er maar een paar van.  Vandaar de krankzinnige situatie van bijv. Harvard en MIT  die maar 4% van de kandidaten toelaten.  En dat terwijl 30% van de Amerikaanse instellingen met 4-jarig ‘college’ vrij toegankelijk zijn.  Vanuit het perspectief van de tirannie van verdienste heeft de VS iets fout gedaan of nagelaten wat in Nederland met zijn gelijkgeschakeld hoger onderwijs ‘vanzelf’ beter ging.

Ik heb wel eens gehoord dat onderwijsminister Ronald Plasterk bij een bezoek aan zijn Amerikaanse collega te horen kreeg dat deze stinkend jaloers was op de Nederlandse situatie waar examens toelaatbaarheid geven, en enkele numerus fixusstudies een gewogen loting in plaats van een krankzinnige competitie om schaarse plekken.  #anecdote

Wanneer iedereen doctorandus wordt, moeten elitekinderen zich echt van de doctorandussen gaan onderscheiden, nietwaar? En zich gaan uitsloven met allerlei extra’s.  ‘University colleges’. Niet in Leiden studeren, maar in Oxford of aan M.I.T.  Promoveren aan Harvard.  Dat is ook tirannie van de verdienste, voor die elitekinderen zelf, en voor de de overigen die straks te lijden hebben onder de arrogantie van de elite. 

Jaap Dronkers had als socioloog speciale belangstelling voor de positie van elitekinderen in de wereld.  Dat komt ook terug in onze studie van 1993 over dilemma’s van de groei. De thematiek is waarschijnlijk van alle tijden. Er is een groot project geweest over ‘varkenscycli’ op de markt voor academici, waar Hartmut Titze uitvoerig verslag van heeft gedaan: (1990). ‘Der Akademiker-Zyklus. Historische Untersuchungen über die Wiederkehr von überfüllung und Mangel in akademischen Karrieren’   https://tinyurl.com/4karb35y Het boek is zeldzaam, maar zie een artikel uit 1999: https://www.pedocs.de/volltexte/2012/5941/pdf/ZfPaed_1999_1_Titze_Wie_waechst_Bildungssystem.pdf.

Super-selectie gaat samen met super-collegegelden.  Financiële tirannie zeg maar. Een grondige studie, die anno 2022 alleen maar relevanter zal zijn: Charles T. Clotfelter 1996 ‘Buying the best. Cost escalation in elite higher education’ https://press.princeton.edu/books/paperback/9780691601366/buying-the-best Dollartirannie. 

Voor opwaartse mobiliteit is ruimte nodig aan de top.  Maar die is steeds schaarser—de tirannie wordt ernstiger. De Engelse situatie is beschreven door Erszébet Bukodi en John H. Goldthorpe in hun 2019 ‘Social Mobility and Education in Britain’ https://www.cambridge.org/core/books/social-mobility-in-britain/627D360586EB5560997D2ACF78961D76 Daaruit de Conclusions: sci-hub.se/10.1017/9781108567404.012.

Wie geboeid is geraakt door de krankzinnigheid van toelating tot Amerikaanse elite-universiteiten, zie het ook door Sandel genoemde boek: Jerome Karabel 2005) ‘The chosen. The hidden history of admission and exclusion at Harvard, Yale, and Princeton’ http://www.houghtonmifflinbooks.com. In The Washington Post http://www.washingtonpost.com/wp-dyn/content/discussion/2005/10/31/DI2005103100369_pf.html een discussie met Karabel. Het boek is ook digitaal te leen bij https://archive.org/details/chosen00jero_0 De crux geeft Karabel in de laatste bladzijden 555-7 ‘The dark side of meritocracy’.  Eigenlijk het betoog van Michael Sandel in een notendop. 

Is al die selectie-gekkigheid uniek voor toelating tot elite-universiteiten?  Nee hoor.  Er is altijd al kwaadwillig of naïef gebruik gemaakt van tests.  Aanrader: F. Allan Hanson 1993 ‘Testing testing. Social consequences of the examined life’ Over heksenproeven leugendetectors, en ander test-ongerief. open access http://publishing.cdlib.org/ucpressebooks/view?docId=ft4m3nb2h2;brand=ucpress.

Nu dan een bruggetje van examineren naar loten, het tweede grote onderwerp in dit hoofdstuk 6 van Sandel. 

Wat mensen en politici (geintje) zich niet altijd realiseren: een test of examen is geen meting maar een steekproef. En de uitslag van een steekproef van iets zo complex als iemands verdienste/merit kan wild fluctueren.  Hoe wild: daar geeft een binomiaalverdeling een goede indruk van: wie de stof voor 60% beheerst, krijgt een resultaat dat op een willekeurig punt onder de binomiaalverdeling (.6, n) ligt, n= aantal vragen https://www.wolframalpha.com/input?i=binomial+distribution+100+0.6 [klik op de URL om de volledige afbeelding op te halen, en om de kansverdeling voor andere situaties te genereren]

Figuur 1. Binomiaalverdeling, toets 20 vragen, ‘ware’ beheersing is bekend verondersteld en is 60%.

Voor echt grote aantallen vragen is de normaalverdeling of Gauss-verdeling een goede benadering voor de binomiaalverdeling.  De benaming ‘normaalverdeling’ leidt tot tal van misverstanden, er is niets in deze verdeling dat normatief is of noodzakelijk is. Afijn, ander verhaal.

Het gaat mij niet om de technische details (zie daarvoor mijn SPA-project, in het Engels: http://benwilbrink.nl/projecten/spa_project.htm), maar om de spreiding van de scores.

Laat ik een aansprekend voorbeeld geven.  Stel dat een examen van 20 vragen de toelating tot de Civil Service bepaalt, waarvoor een score van tenminste 12 (60%) nodig is.  Voor een kandidaat die 60% van de examenstof beheerst, is de kans op succes dan 50%. Een lotingskans, eigenlijk !!! Hier is echt niets geheimzinnigs aan, er is geen nieuws onder de zon.  Grondlegger van de wiskundige statistiek Francis Y. Edgeworth heeft het in 1888 al eens glashelder uitgelegd, aan de hand van examens voor de Engelse Civil Service, zie voor een citaat: http://www.benwilbrink.nl/projecten/loten_nf.htm#Edgeworth.

Oké, we zijn het bruggetje over. 

Sandel draagt loten voor als mogelijkheid om de enorme druk op kandidaten voor scherp selecterende instellingen (Harvard, Yale, Princeton etc) wat weg te nemen, en vooral om zo aan betrokkenen duidelijk te maken dat toelating niet puur ‘eigen verdienste’ is.  Dat lijkt me prima. Toch? 

In deze extreme gevallen, die echt niet representatief zijn voor toelating tot hoger onderwijs in de VS, wordt zo’n 4% van de gegadigden toegelaten.  Het is geen gekke gedachte dat al deze toegelatenen zich ongeveer op de aftestgrens bevinden, evenals vele afgewezenen.  Dat is al loting

Adriaan de Groot worstelde ook met het probleem dat de ene kandidaat op het randje slaagt voor bijvoorbeeld het eindexamen, terwijl een andere kandidaat met een half puntje te weinig een heel jaar moet overdoen, terwijl het evident is dat er geen verschil in prestatie is. 

Beslissen over slagen of zakken is op en dichtbij de aftestgrens niet valide, en dat terwijl validiteit kwaliteitseis #1 is voor zwaarwegende beslissingen.  De Groot had geen oplossing voor de paradox. Maar Edgeworth ging hem al voor, en loste het probeem op:  erken openlijk dat het in feite een loterij is.

Toch had De Groot die analyse in 1970 al wel gemaakt:  toetsen hebben een relatief grote toevalsfactor, daarom is het de dure plicht van docenten ervoor te zorgen dat leerlingen het risico kunnen dragen. Zij moeten zich doeltreffend kunnen voorbereiden. http://benwilbrink.nl/publicaties/70degroot.htm.

Bij loten voor de toelating tot Harvard enzovoort zal de enorme druk op elitekinderen dus blijven bestaan: zij moeten nog steeds vechten om te gaan behoren tot de groep die mee gaat voor de loting.  Zij zullen dus ook ‘eigen verdienste’ blijven claimen, ondanks hun evidente ‘luck of the draw’.

Terug dan naar eigen land, naar de gewogen loting voor numerus fixusstudies zoals die in een geweldig onderwijsexperiment bijna een halve eeuw heeft bestaan.  Tot Jet Bussemaker om mij onbekende maar ongetwijfeld super-obscure redenen iedere vorm van loting bij wet liet verbieden.  

Godzijdank is de Tweede Kamer op deze schreden teruggekeerd. https://www.tweedekamer.nl/kamerstukken/detail?id=2020Z02571&did=2020D05383

Godzijdank: want loten is bij uitstek eerlijk in specifieke (dus niet in alle) situaties waarin schaarste verdeeld moet worden. Gewogen loting was in 1975  tenslotte ook kamerbreed aangenomen. Wist u dat nog?

Deze loting is door niet de minsten publiekelijk belachelijk gemaakt. Een heel mooie vind ik wel deze door Vincent Icke, die niet eerst tot 10 had geteld voordat hij dit noteerde voor een groot publiek.  Ook omdat de thematiek van de tirannie van verdienste er mooi in terugkomt.

Vincent Icke (5 februari 2000). ‘Amerikaanse toestanden’  NRC Handelsblad. [niet online te vinden; ik heb het knipsel]  “De lakmoesproef voor het onoverbrugbare verschil tussen de VS en Nederland is het loten voor academische opleidingen. Als ik aan gene zijde om een sappig verhaal verlegen zit, vertel ik wat er hier gebeurde met een meisje dat voornamelijk tienen haalde op haar vwo-examen en medicijnen wilde gaan studeren.  Hilariteit en ongeloof als ik het vertel: loten!  Dat is een afkorting voor malloten, een verwijzing naar de politici die vinden dat sufferds evenveel waard zijn als bollebozen.”  

Wat Icke even over het hoofd zag: om mee te mogen loten moet je wel het passende eindexamen gehaald hebben.  Dat is zoals het in Nederland wettelijk is geregeld: je bent dan toelaatbaar tot het hoger onderwijs.  Die toelaatbaarheid is niet geclausuleerd, tenzij voor de gekozen studie wettelijk selectie-aan-de-poort is toegestaan.  En dat laatste is sinds de Wet van Jet ook voor numerus fixusstudies het geval.  

Mijn eigen positie hierin is gelijk aan die van destijds (1974) CRWO: (ongewogen) loten. Zie http://benwilbrink.nl/publicaties/74HetLotCRWO_OvO.htm. [CRWO: de gezamenlijke universitaire centra voor onderzoek van het wetenschappelijk onderwijs]

Er zijn tal van argumenten voor te bedenken, en die komen in het maatschappelijk debat van de 60er jaren tot 1997 ook voor, zoals ik heb mogen samenvatten voor de Commissie-Drenth in 1997 http://benwilbrink.nl/publicaties/97OpsommingDrenth.htm.

Mijn principiële argument voor loten is dat de systematiek van ons onderwijsstelsel gelijke rechten op toelating tot hoger onderwijs geeft aan examen-geslaagden. Een numerus fixus voor geneeskunde is een flagrante inbreuk op dat recht, daar was destijds dus een machtigingswet voor nodig om het voor geneeskunde anders te mogen regelen. Ik zag en zie geen enkele reden waarom het blote (politieke) feit van een numerus fixus ertoe zou moeten leiden dat toelatingskansen ongelijk over gegadigden verdeeld moeten worden.

Subsidiair komt daar nog bij dat selecteren op eindexamencijfers of een extra selectietoets voor de betreffende opleiding nauwelijks extra ‘rendement’ oplevert — als dat al een valide argument zou kunnen zijn, wat het voor publiek onderwijs niet is. 

De genoemde argumenten zijn nu niet bepaald technische argumenten van de examen-expert.  Iedere betrokkene kan dat toch ook zelf wel bedenken.  Niet iedereen is een Vincent Icke, zeg maar. 

De Tweede Kamer moest in 1975 beslissen over de methode van getalsbeperking voor numerus fixusstudies, maar was scherp verdeeld: ‘links’ wilde loten (staatssecretaris Ger Klein had daar het wetsvoorstel voor ingediend), ‘rechts’ wilde selecteren op eindexamencijfers.  De patstelling werd doorbroken door het amendement-Vermaat voor een gewogen loting. Een uniek compromis! 

Iedere maatregel voor de toegankelijkheid van onderwijs zal belangrijke effecten hebben.  De kunst voor zowel politici als selectie-experts is ervoor te zorgen dat de effecten per saldo positief zijn.  Alles meegerekend. Daar valt ook veel over op te merken, een andere keer dan.

Wat ik nog graag kwijt wil: wat is de taak van de selectie-expert bij vraagstukken over toegankelijkheid van onderwijs?  Is dat om uit te leggen hoeveel extra rendement met een selectieve toets valt te behalen?  Meerdere proefschriften met een dergelijk tunnelvisie zijn recent verdedigd.

Of moet de expert beginnen heel de situatie in kaart te brengen, om veilig te stellen dat het expert-advies geen onvoorziene brokken gaat maken?  Natuurlijk moet dat. Iemand die zich laat voorstaan op selectie-technische expertise gaat toch geen maatregelen voorstellen die in strijd zijn met de wet, in strijd met het recht? Nou ja.

Hoe het Nederlandse onderwijsstelsel juridisch in elkaar steekt, en hoe het in feite (on)eerlijk functioneert, dat doet ertoe.

O ja, Vincent Icke zag over het hoofd dat loten juist rationeel kan zijn.  Zoals in situaties waarin men probeert marginale verschillen tegen hoge kosten ‘betekenisvol’ te maken, door eindeloos te blijven delibereren en onderzoeken, of testen.Zie Neil  Duxbury (1999).  Random justice : on lotteries and legal decision-making https://tinyurl.com/2p8ddr5t.

Bespreking ‘De tirannie van de verdienste’ vervolg

Voor een goed begrip van Sandel’s ‘The tyranny of the meritocracy’ is het nuttig een diepte-investering te doen in bv. De Beer v Pinxteren red. ‘Meritocratie: Op weg naar een nieuwe klassensamenleving?’ Nederlands, helaas. Maar wel open access https://library.oapen.org/handle/20.500.12657/32684

Aantekeningen. Allereerst bij de opening van Paul de Beer. De redacteuren hebben ervoor gekozen om aan te sluiten bij de dystopie van Michael Young (1958), en van meritocratisering te spreken als het belang van IQ toeneemt ten opzichte van. andere factoren voor maatschappelijk succes.

Dat is een riskante keuze. Het lokt tal van misverstanden uit over intelligentie als een vaststaand kenmerk van individuen waarin zij kunnen verschillen van anderen.  En dat gaat dus ook onmiddellijk  mis, op blz. 11-12.  De Beer waarschuwt dat (verschillen in) IQ niet volledig erfelijk zijn, maar iets van tussen de 50 en 80% (variantie).  Research op basis van technieken die met het menselijk genoom werken, komt evenwel iets anders uit: beneden de 5%.  (zie bv. publicaties/twitter van Erik Turkheimer).  Vergeet idiote claims van Plomin (‘Blueprint’).

Bovenaan blz. 12 realiseert De Beer zich kennelijk niet dat erfelijkheid van IQ iets anders is dan erven van je ouders.  Erfelijkheid van IQ is GEGEVEN de genen die van pa en ma zijn gekregen: gegeven het ‘random’ proces van meiose dat genen opnieuw combineert: https://nl.wikipedia.org/wiki/Meiose_(voortplanting). Wie zelf twee of meer kinderen op de wereld heeft gezet, weet dat: ze verschillen toch wel sterk van elkaar.

De onderzoekliteratuur over erfelijkheid van verschillen in intelligentie gaat over de genen van de kinderen, niet over die van de ouders.  

Paige Harden geeft op p. 118 de verdeling van lichaamslengte in de bevolking, en die van kinderen binnen gezinnen—die is bijna even breed! Kathryn Paige Harden (2021). The Genetic Lottery: Why DNA Matters for Social Equality https://press.princeton.edu/books/hardcover/9780691190808/the-genetic-lottery.

Oké, bij lichaamslengte is ook nog wat omgeving/’nurture’ inbegrepen.  

Het punt:  genetische erfelijkheid (h^2) van verschillen in IQ is nihil, zeker waar het gaat om mobiliteit tussen maatschappelijke klassen. Dat sociologisch onderzoek vaak voorbij gaat aan h^2 van IQ: no problem. 

Waarom is dit van belang?  Die hoge erfelijkheid zoals in ondertussen verouderd gedragsgenetisch onderzoek geclaimd (h^2: 50-80%) doet niets om ons van de ‘folk psychology’ van aangeboren ‘intelligentie’ of ‘talent’  (hèt excuus voor slechte onderwijsresultaten), af te helpen. 

Met het vertrekpunt in een IQ dat deels genetisch bepaald zou zijn, graaft de redactie valkuilen voor zichzelf.  Zie bv. onderstaand citaat.  

244 Paul de Beer en Jan Van ZiJl

Hoe vaak hoor je niet van ouders dat hun zoon of dochter slechte cijfers haalt op school doordat het kind te lui of te gemakzuchtig is? Aanzienlijk vaker dan dat ouders erkennen dat hun kind gewoon niet slim genoeg is voor, bijvoorbeeld, de havo. Voor veel ouders is de havo tegenwoordig de scherprechter tussen de kans op maatschappelijk succes en op maatschap-pelijk  falen.  Blijkbaar  is  het  voor  ouders  gemakkelijker  de  oorzaak  van  minder presteren van hun kinderen in gebrek aan inzet en doorzettings-vermogen  te  zoeken  dan  te  erkennen  dat  het  er  qua  intelligentie  bij  hun  kind gewoon niet in zit.

Terwijl toch al in de 60er jaren oa Van Calcar ervoor pleitte om het niet meer over schoolzwakke kinderen, maar kindzwakke scholen te  hebben.

Wat ik wel kwalijk vind is dat de redactie kritiekloos achter modieuze BS zoals ‘niet-cognitieve vaardigheden’ en pseudo-psycholoog Paul Touch aan hobbelt.  (p. 246).  Terwijl in dit boek een kritische blik op het permanent selecterende onderwijs volkomen lijkt te ontbreken. 

Het boek is oppervlakkig waar het gaat over verschillen tussen leerlingen.  Ook enig besef van de mechanismen waardoor het onderwijs die verschillen juist vergroot lijkt afwezig.  Dat zijn toch wel gebreken in een boek over meritocratie, hoor.  Geen van de auteurs is psycholoog.

In plaats van dat ongelijke kansen creërende onderwijs kritisch op de korrel te nemen, doen redacteuren de aanbeveling kinderen die ouderlijke ondersteuning missen huiswerkklassen, bijlessen, typecursussen te geven. Nou zeg.  Dat is wel schrikken. (p. 245).

Die kinderen moeten ook maar mee gaan doen in de tirannnieke meritocratische ratrace?  In plaats van ze goed onderwijs te geven (zonder die permanente vernedering)?   

Het wordt tijd om eens wat preciezer naar dat begrip ‘verdienste’ (‘merit’) te gaan kijken. 

Ik ga verder met Kenneth Arrow, Samual Bowles & Steven Durlauf (2000). ‘Meritocracy and Economic Inequality’ https://press.princeton.edu/books/paperback/9780691004686/meritocracy-and-economic-inequality O, sorry, deze paperback kost een vermogen. Maar het hoofdstuk van Amartya Sen is online: https://tinyurl.com/2p8at8zp

Wat opvalt bij diagonaal doornemen van het boek: veel auteurs halen ‘erfelijkheid van verschillen in IQ’ erbij, en hebben het dan over h^2 van 50 tot 70%.  Maar dat is oude gedragsgenetica.  Onderzoek op basis van het genoom komt niet verder dan 5 tot 10% https://twitter.com/ent3c/status/1358455103217352704

Dat is wel spectaculair hoor!  Al minstens sinds Galton hebben psychologen de wereld voor de gek gehouden met claims van idioot hoge genetische bepaaldheid van intelligentie.  Ik noem dat een ‘self-serving bias’.  Niet meer door goddelijke ordening, maar door genen uitverkoren. 

En dat is wel een belangrijk onderdeel van de ‘tirannie van verdienste’ (Sandel), de superioriteit, ‘we are the champions’.  Maar dat blijkt dus gebakken lucht te zijn.   

Het zijn niet de genen, maar het is het nest waarin je geboren bent.  Niet je verdienste, maar je afkomst! 

Een kort en toegankelijk stuk: Eric Turkheimer (August 22 | 2019). The Shiny–and Potentially Dangerous—New Tool for Predicting Human Behavior. https://leaps.org/the-shiny-and-potentially-dangerous-new-tool-for-predicting-human-behavior/particle-4

Hard core genetisch onderzoek verwijst veel bijdragen in de Arrow e.a. bundel naar het museum voor oudheden. 

Terug naar Amartya Sen, ‘Merit and Justice’, online: https://tinyurl.com/2p8at8zp

Dit is een verrassend stuk, het heeft zo te zien geen enkel raakvlak met Michael Sandel. Sen analyseert het begrip ‘merit’ langs economische lijnen. 

“The general idea of merit must be conditional on what we consider good activities.” Of ‘right actions’. 

Een ‘juiste daad’ draagt bij aan de ‘good society’, de ‘rechtvaardige samenleving’.  Sen begint met daden, niet met personen.  En hij gaat het niet over onderwijs hebben. Welke daden ‘goed’ zijn, hangt af van wat de (economische) gevolgen zijn, en hoe die in onze cultuur worden gewaardeerd.  Zwaar ‘contingent’ dus, absolute verdienste bestaat niet.  

Of drs ‘Cum Laude’ iets gaat bijdragen aan de samenleving moeten we nog maar afwachten; 

Wat is een rechtvaardige samenleving?  Als prominente theorie noemt Sen het werk van John  Rawls ‘A theory of justice’.  Zijn eigen theorie, ‘The idea of justice’, verscheen in 2009 https://www.hup.harvard.edu/catalog.php?isbn=9780674060470.  Oké, zo’n theorie geeft houvast om daden op verdienste te beoordelen.  

“… meritocracy is just an extension of a general system of rewarding merit, and elements of such a system clearly have been present in one form or another throughout human history.” 

Adrian Wooldridge nam het op zich om dat laatste uit te werken: https://www.volkskrant.nl/columns-opinie/adrian-wooldridge-neemt-het-op-voor-de-meritocratie-het-overdreven-linkse-streven-naar-gelijkheid-is-onmogelijk-te-realiseren~b4d12e95/

Economen vinden de gevolgen van daden van belang, maar niet iedereen is econoom.  Vaak vinden we daden intrinsiek verdienstelijk, of ‘gepast’. ‘Fatsoen moet je doen’.  Jammer dat niet iedereen er hetzelfde onder verstaat als wat MP Balkenende eronder verstaat.  Sen heeft het er verder niet over. 

Maar later in zijn analyse komt het terug in de zin van de verdienstelijke eigenschap, of persoon: 

“… conventional notions of “meritocracy” often attach the label of merit to people rather than actions.” 

‘Iemand met erkende talenten zien we dan als verdienstelijk persoon.’ 

Oók als drs. Cum Laude zijn talenten niet inzet voor ‘goede daden’.  Sen stipt op blz. 12-13 even aan dat sommige talenten mogelijk aangeboren zijn  (maar zie de eerdere tweets over IQ), en dat we vandaar zomaar het moeras van discriminatie en racisme in kunnen wandelen. Genoteerd. 

Ook Michael Young (1958) ‘The rise of the meritocracy, 1870-2033’ gebruikt het idee van de verdienstelijke persoon. Verdienste is daar de som van persoonlijke kenmerken ‘intelligentie’ en ‘inspanning’.  (Sen, blz. 7).  Ieder idee van aan uitkomsten gebonden verdienste is afwezig. En ja, dat geldt ook voor het boek van Sandel, waarin de frase ‘talent en inspanning’ in meerdere varianten om de haverklap terugkomt.

Sen sluit af met de waarschuwing dat huidige opvattingen over meritocratie inderdaad zijn losgezongen van de idee dat het moet gaan over ‘goede daden’, niet over mensen of talenten die op zich verdienstelijk zouden zijn. En denk eraan: opbrengsten van de daden moeten eerlijk worden verdeeld.

Lees het hoofdstuk nog eens met bovenstaande samenvatting in gedachten.  De taal van Sen is bepaald niet soepel, maar zijn boodschap loont de moeite.  Het is geen visie op meritocratie zoals bijv. Sandel brengt, maar een verheldering van begrippen. Ik vond het verrassend. Ik had graag in later werk van Sen zijn verdere denken over ‘merit’ genoteerd, een andere keer dan maar.

Wat vertelt de analyse van Sen ons over al dat belonen/cijfergeven/selecteren in het onderwijs? Het onderwijs beloont voortdurend kennis en dus kenmerken van leerlingen. Leerlingen verrichten geen maatschappelijke daden die meer of minder verdienstelijk kunnen zijn. Eens?

Het bovenstaande is een weergave van een Twitterdraad van 18 april 2022:

Voor het eerste deel van deze bespreking zie de voorafgaande blog:

Bespreking van ‘De tirannie van de verdienste’, Michael Sandel

Bespreking van Michael Sandel ‘De tirannie van de verdienste’ Over de toekomst van de democratie’. Dat is dan een onhandige vertaling van ‘The tyranny of merit. What’s become of the common good?’.   https://www.athenaeum.nl/zoek?b=&q=michael+sandel Het is een moeilijk boek om te bespreken, maar ik wil wel een poging wagen. 

Sandel herhaalt met dit boek de waarschuwing van Michael Young uit 1958 [The rise of the meritocracy 1870-2033. An essay on education and equality. https://newsroom.didactiefonline.nl/uploads/PDF/michael_young_the_rise_of_the_meritocracy_classbookfi.pdf ] dat scherpe selectie op verdienste op termijn leidt tot een brisante kloof tussen laag- en hoogopgeleiden.

Het idee van erkennen en belonen van verdienste is historische gezien altijd wel aanwezig geweest, ook al was afkomst bepalend voor de machtsverhoudingen in de samenleving.  Na het lezen van Sandel weet je weer: dat is dus nog steeds zo in onze Westerse samenleving.  

In Cambridge, 19e eeuw, konden studenten van eenvoudige komaf een vaste baan verdienen door de ‘Mathematical Tripos’ (wiskunde-examen) te winnen. Wat weinigen weten: in Leuven 16e eeuw ook, in competitieve examens.  In het vroege Europese onderwijs was straffen en belonen aan de orde van de dag.  De humanisten, de naam zegt het al, maakten het onderwijs menselijker door aan belonen de voorkeur te geven boven straffen.  De beloning kreeg vaak de vorm van een prijsboek voor de beste presterende leerlingen.  Pedagogen hadden wel door dat die beloning alleen motiverend werkt voor wie reëel kans had de prijs te winnen, en voor de overigen vooral demotiverend werkt.  Een kloof dus tussen winners en verliezers.  Een alternatief is nooit gevonden.  Over die Westerse cultuur van vergelijkende beoordeling:  http://benwilbrink.nl/publicaties/97AssessmentStEE.htm

Was dat vroeger een ‘tirannie van verdienste’?  Nou, nee, laten we het niet overdrijven.  Het punt van Sandel (en Michael Young) is juist dat wij recent met ons onderwijs en vooral onze test-verslaving de kloof tussen winners en verliezers verbreed, verdiept, en verhard hebben.

We hebben het zien gebeuren: de opkomst van Trump, Brexit.  Michael Young zag tot zijn verbijstering hoe Tony Blair de idee van een meritocratie oppakte als een ideaal: 2001 ‘Down with meritocracy’ https://www.theguardian.com/politics/2001/jun/29/comment

Het bovenstaande is weergave van een Twitterdraadje draadje 17 maart 2022 https://twitter.com/benwilbrink/status/1504413675997868033

[Een tweede Twitterdraad op 20 maart: ]

Thema: ‘nieuwe erfelijkheid’. Ooit was bepalend wie je vader was.  De 19e eeuw wisselde dat in voor wat je beheerste/presteerde.  In de 21e eeuw bepalen je ouders wat je gaat presteren. 

Grondgedachte: neem eens aan dat selectieve examens, toetsen en tests eerlijk zijn bij een ‘level playing field’. Wanneer aanzienlijke groepen deelnemers schaduwonderwijs of specifieke coaching blijken te krijgen, zijn deze examens enz. ondeugdelijk, niet valide, discriminerend.

Die grondgedacht komt uit de testpsychologie, hij is niet van Michael Sandel.  Testpsychologie of niet, het is evident dat examens enz., waarvan kandidaten weten dat anderen zich er op oneigenlijke wijze op hebben voorbereid (kapitaal van thuis), als oneerlijk worden ervaren.  

Michael Young (‘The rise of the meritocracy 1870 – 2033. An essay on education and equality’, 1958) hing zijn satire op aan permanente selectie op IQ zodat de samenleving uiteenvalt in twee groepen tegenover elkaar. In 2033 komen de onderdrukte ‘dommen’ uiteindelijk in opstand.

Bij Young zijn het de erfelijk bepaalde verschillen in IQ die tot een maatschappelijke kloof leiden.  Voor zijn satire is dat best een goed idee, maar het heeft weinig met de werkelijkheid van verschillen in IQ te maken. Maar dat is stof voor een andere draad. 

Bij Young is uiteindelijk de ene erfelijkheid (‘Wie je vader is bepaalt je maatschappelijke positie’) ingeruild voor de andere erfelijkheid (‘Hoe intelligent je ouders zijn bepaalt tot welke groep je behoort’). Dat is geen winst, dat vernietigt uiteindelijk de samenleving. 

Wat Sandel schetst is een nieuwe erfelijkheid die berust op sociaal, cultureel en economisch kapitaal van de ouders.  Meer Bourdieu en Passeron, zeg maar.  Waarbij publiek onderwijs en zijn examens, toetsen en tests steeds meer een pseudo-meritocratie blijken. 

Immers, de kapitaalkrachtige klasse blijkt in staat om tot eigen voordeel dat publieke onderwijs en zijn toetsmomenten te omzeilen of naar eigen hand te zetten.  #Onderwijsbeleid_is_oorlog.  De kapitaalkrachtige klasse bepaalt bovendien zelf het onderwijsbeleid, nietwaar?

Ik heb de indruk dat de strijd over het instellen van examens in Engeland beter is gedocumenteerd dan diezelfde strijd in Nederland.

De Engelse elite ontkwam er uiteindelijk niet aan, en dacht aanvankelijk dat het eigen kroost die competitie met gemak zou winnen. Dat liep anders.

Want het aantal plaatsen aan de top is beperkt, en er kwamen new kids on the block. 

Opwaartse mobiliteit maakt de concurrentie scherper. Bij een sterke groei van de economie, zoals in de vorige eeuw, is er ruimte voor die opwaartse mobiliteit, voor emancipatie via onderwijs.

Maar die groei is eruit.  Tegenover opwaartse mobiliteit moet dan ongeveer evenveel neerwaartse mobiliteit staan.  De competitie wordt harder. 

Voor een actuele Engelse analyse zie Bukodi & Goldthorpe ‘Social Mobility and Education in Britain’ (Conclusion) https://sci-hub.se/10.1017/9781108567404.012

Wat wel groeide, al eeuwen, en steeds sterker de laatste decennia: de deelname aan hoger onderwijs. Ik maakte met Jaap Dronkers een analyse van dit fenomeen, voor OCW:  http://benwilbrink.nl/publicaties/93DilemmasOCenW.htm.

Die analyse mist een conclusie (het geld was op, vandaar). Over mechanismen achter die groei. Is die groei wel economisch verantwoord (geen overscholing)?  Is het verborgen werkloosheid?  Ontstaat het (mede) omdat kinderen uit de maatschappelijke bovenlaag zich willen onderscheiden van het soepie door bijzondere opleidingen (universiteitscolleges, buitenlands)?

Een zinnetje als dit zegt alles: “… individuals are constantly in competition to obtain the best paid jobs, with an upward pressure in the education system whereby individuals attempt to become as highly educated as possible.” Thijs Bol 2015 https://thijsbol.com/wp-content/uploads/2015/09/Bol-2015-AS.pdf pdf. 

De analyse van Thijs Bol is sterker dan de mijne, hij heeft ook een uitgebreide (internationale) dataset bij zijn analyse kunnen gebruiken. 

Hoewel hij het niet expliciet over hoger versus lager opgeleiden heeft, is zijn analyse zeker relevant voor die kloof. 

Lees het citaat nog eens terug.  Het is een omineuze tekst voor de bovenliggende klassen:  er moet stevig in de kids worden geïnvesteerd, en zij zullen er zelf hard aan moeten trekken, om een even hoge positie te garanderen als die van hun ouders. Onder stoom en kokend water.  

Aan het eind van de onderwijsloopbaan hebben sommige winnaars van de langdurige competitie hun plek veroverd dankzij kapitaal van thuis.  Omdat het een competitie om schaarse posities is, hebben zij anderen verdrongen, anderen die de extra middelen van thuis niet hadden. 

Of dit ‘eerlijk’ mag heten, daar kunnen heel wat bomen over worden opgezet, maar het het begin en het eind van het gelul is dat het niet eerlijk is.  

Toch zullen de bevoorrechte winnaars de overtuiging hebben dat zij met al hun bloed, zweet en tranen de winst hebben ‘verdiend’.

Over dat laatste is veel gefilosofeerd door oa Sen, Rawls, Nussbaum, en Sandel, maar empirisch onderzoek is er minder. Voor mij zijn ‘critical incidents’ zoals Hillary Clinton’s ‘deplorables’-uitspraak (over Trump-aanhangers), wat haar de verkiezingen deed verliezen, overtuigend genoeg.

Voor wie belangstelling heeft voor de draai van standen/afkomst als allesbepalend, naar examens/verdienste, voor Duitse landen eind 18e eeuw – 1940, zie Hartmut Titze 1998 http://www.quakri.de/2_forschung/2c_publikationen/Texte/1998%20a%20Der%20Siegeszug%20der%20Bildungselektion.pdf of  zijn magistrale 1990: ‘Der Akademikerzyklus’. Vandenhoeck & Ruprecht. tinyurl.com/2u4k48z8

Het bovenstaande is de weergave van een twitterdraad op 20 maart 2022:

============================================================

Een derde Twitterdraad van 18 april, als opvolgende blog:

Gestandaardiseerde toetsen: verminderen zij ongelijkheid? 

Twitterdraadje 29 maart 2022

1 Herman van de Werfhorst

Another piece of evidence that standardized tests are predictive of less inequality. It’s time for the critics to come up with evidence rather than anecdotes.

1.0 Michael Bishop (retweet door Herman)

MIT is reinstating standardized tests as part of their admission evaluation because (1) including standardized testing significantly improves their prediction accuracy of performance, and (2) other factors tend to be more SES-restrictive.

Source:

We are reinstating our SAT/ACT requirement for future admissions cycles

Within our office, we have a dedicated research and analysis team that continuously studies our processes, outcomes, and criteria to make sure we remain mission-driven and student-centered. During the pandemic, we redoubled our efforts to understand how we can best evaluate academic readiness for all students, particularly those most impacted by its attendant disruptions. To briefly summarize a great deal of careful research:  

  • our ability to accurately predict student academic success at MIT⁠02 is significantly improved by considering standardized testing — especially in mathematics — alongside other factors 
  •  – some standardized exams besides the SAT/ACT can help us evaluate readiness, but access to these other exams is generally more socioeconomically restricted⁠03 relative to the SAT/ACT
    • as a result, not having SATs/ACT scores to consider tends to raise socioeconomic barriers to demonstrating readiness for our education,⁠04 relative to having them, given these other inequalities


====================================================================

1.1 Gisbert van Ginkel

Maar de inzet van zulke tests tast potentieel wel het hele onderwijs systeem aan: https://hepg.org/hep-home/books/collateral-damage#

1.2 Herman

1. wat is de counterfactual van toetsen? 2. NCLB was niet gericht op toetsen voor schoolloopbanen maar enkel voor school-level accountability. Geen goed voorbeeld vrees ik.

1.3 Gisbert

SAT/ACT is geen high stakes testing? Weet niet de details van gebruik in de VS. Zodra het vergelijkend gebruikt wordt tussen scholen heb je al een probleem denk ik.

1.4 Herman

Ik dacht dat je verwees naar no child left behind. SAT zeker wel high stakes, en MIT ging juist daar weer naar terug ivm kansengelijkheid. Dat was de aanleiding voor deze discussie.

1.5 Gisbert

Snap ik, maar als individuele instituten dit doen (efficientiedruk, selectie) dan kan het op systeemniveau nog steeds een nefaste terugslag hebben. Meer kansgelijk (miscchien) maar ook alles een stap terug mogelijk.

1.6 Herman

Het wordt een beetje ingewikkeld/complex voor twitter; maar je opmerking hypothetiseert dat er een trade-off is tussen efficientie en kansengelijkheid; daarvoor bestaat ook weinig bewijs…

1.7 De terugslag die Berliner en Nichols noemen gaat zoals ik zei niet zozeer over kansgelijkheid, maar uitkomsten over de hele linie…

1.8 Gisbert

Dus ‘efficient voorspellen’ per instituut van studiesucces door high stakes testing (via SAT/ACT want MINDER kansongelijk dan andere vormen) kan over de hele linie tot versmalling, teaching to the test leiden.

1.9 Gisbert

Stellen ‘we willen dit alleen beperken tot discussie over (minimale) kansongelijkgheid’, terwijl je instrumenten inzet waar zorgen over zijn bij systeembreed gebruik – dan negeer je mogelijk een prisoner’s dilemma. Lijkt me in ieder geval dan wat te smal genomen.

= = = = = 

1.10 Gisbert

Niet alleen kansengelijkheid. 1) ze willen succes vooraf voorspellen, 2) gegeven dat doel zien ze SAT/ACT als minder gevoelig voor SES invloeden vs andere instrumenten. Maar moet je succes vooraf willen voorspellen op deze manier? Is uitkomst SAT/ACT zelf niet erg SES gevoelig?

1.5 Gisbert

================================================================

2. Mieke van Houtte

MIT is toch een van meest prestigieuze instituten ter wereld, niet? Hoe zit het met preselectie/zelfselectie in dat soort instituten in de VS?

3. Herman

ik zou toch echt meer overtuigd zijn van goede studies die het tegendeel laten zien…

4. Ben

Ik heb het bericht van MIT diagonaal doorgekeken.  Ze doen maar wat.

5. Mieke

Studies genoeg toch wereldwijd die tonen dat (high-stakes) testing de sociale ongelijkheid reproduceert en versterkt, en ingaan op de onderliggende mechanismen?

6. Herman

welke? Ik ben oprecht geinteresseerd in zulke studies want het is een belangrijke claim. (NB de NCLB is misschien minder geschikt als case omdat toetsen daar niet ging over schoolloopbanen van individuele leerlingen).

7. Mieke

Een snelle zoektocht op WoS of Google Scholar levert al heel wat op? Vooral uitkijken naar onderzoek naar gevolgen of neveneffecten van (high-stakes) testing zoals segregatie, ‘practices of division’, etc. Onderzoek in VS, maar ook UK. Check ook boeken en boekhoofdstukken.

7.1 NN

In US-context werden # kanttekeningen geplaatst o.m. door 

Knoester, M. & W. Au (2017): Standardized testing and school segregation: like tinder for fire? Race Ethnicity and Education, 20 (1): 1-14.

7.2 Herman

maar sorry dit is geen empirische studie naar het effect van standardized testing. Een duiding in de bredere context van testen en school choice. Mag allemaal, maar ik zoek een empirische studie…

= = = =

7.3 Orhan Agirdag  (in antoord op Mieke)

Ik vond de zaak al beslecht in jullie paper met wijlen Dronkers: áls je moet selecteren, dan is een selectie op duidelijke criteria beter. Maar vaak is selectie te vroeg en niet-functioneel.

= = = =

8. Herman (in antoord op Mieke)

Eeh ik dacht dat jij claims wilde onderbouwen..? Anyway, ik zie nog steeds geen empirische studie die het gebruik van standardized tests voor individuele leerwegen gepaard laten gaan met een versterking van ongelijkheid of segregatie.

9. Ben

Het antwoord is toch eenvoudig?  Gestandaardiseerde tests zijn een een bijzondere vorm van het vergelijkenderwijs beoordelen zoals dat altijd al in het onderwijs op alle niveaus gebeurde.  Ergo: hoogstwaarschijnlijk vergroten ze ongelijkheid #Bourdieu_Passeron

10. Maar laten we jouw stelling dat gestandaardiseerde tests eerlijker zijn schil voor schil afpellen.  

Om te beginnen: de oude citotoets 

Jaap Dronkers: advies voorspelt beter dan toets, maar toets is eerlijker. 

Ben Wilbrink:  De wereld op zijn kop.

11. Het is iets ingewikkelder dan de dialoog Jaap – Ben (op Twitter) suggereert.  

Bijvoorbeeld.  Wat bedoelen we nou precies met ‘de citotoets eerlijker’?  Voordat je het weet, zijn we 5 dissertaties verder.  (De 1e is er al: Karen Heij https://karenheij.bijzonderboeken.nl )

11.1 Herman

De vraag is: wat is de counterfactual van geen centrale toetsing? Loopbanen zijn het gevolg van preferenties, objectieve maten, en subjectieve maten. Je betwijfelt het objectieve karakter, dat mag, maar een toets lijkt me altijd toch objectiever dan een leraaroordeel.

11.2 Ben

Neem het meest eenvoudige geval.  Is een meerkeuzevraag over X ‘objectiever’ dan een open vraag over X?  

Dat is alleen zo in de sterke ideologie van A.D. de Groot en R.F. van Naerssen, 1969, en het kindje van A.D.: het Cito. 

Mijn favoriete paper 1977: http://benwilbrink.nl/publicaties/77KeuzevragenORD.htm

= = = =

12. Ben https://twitter.com/benwilbrink/status/1508770526570983424

Context van de citotoets/eindtoets is een 19e-eeuws naar standsverschillen geleed voortgezet onderwijs. Nog niet zolang geleden was dat expliciet ook voor het lager onderwijs zo.  Binnen dat oneerlijke stelsel functioneert de eindtoets als stelselbevestigend.  Willen we dat?

12.1 Gisbert

+ evidentie dat het leren in zekere zin belemmert (niet bevordert) – https://nepc.colorado.edu/sites/default/files/EPSL-0211-126-EPRU.pdf

quote Berliner: “suggest that high-stakes tests and high school graduation exams may tend to inhibit the academic achievement of students, not foster their academic growth (see Table 1). 

Although test scores on state-administered tests usually increase after high-stakes testing policies are implemented, the evidence presented here suggests that in these instances students are learning the content of the state-administered test and perhaps little else. This learning does not, however, appear to have any meaningful carryover effect.”

12.2 Ben

Absoluut.  Het stuurt het leren (washback of backwash effect, feedforward).  Dat hoeft niet negatief uit te werken (interessante bijdragen van A.D. de Groot, en Robert van Naerssen, in 1970, een jaar na hun toetsen-boek), maar doet het meestal wel.

= = = =

13. Herman

De vraag is: wat is de counterfactual van geen centrale toetsing? Loopbanen zijn het gevolg van preferenties, objectieve maten, en subjectieve maten. Je betwijfelt het objectieve karakter, dat mag, maar een toets lijkt me altijd toch objectiever dan een leraaroordeel. 

14. Herman

Dus, een of andere functie van P, O en S. Mijn hypothese, die voor zover ik overzie regelmatig steun vindt, is dat P belangrijker wordt als O niet bestaat. Ongelijkheid naar SES is, vermoed ik, het sterkst in P, dan S, en dan O. W.b. S versus O zijn er studies in Dld >

14.1. Ben

Neem het meest eenvoudige geval.  Is een meerkeuzevraag over X ‘objectiever’ dan een open vraag over X?  

Dat is alleen zo in de sterke ideologie van A.D. de Groot en R.F. van Naerssen, 1969, en het kindje van A.D.: het Cito. 

Mijn favoriete paper 1977: http://benwilbrink.nl/publicaties/77KeuzevragenORD.htm

= = = =

15. Herman 

 > over bindend advies versus geen bindend advies. Resultaat: bindend advies biedt gelijkere kansen. Sorry S versus P is het duitse debat: laten we ouders hun preferenties volgen of doen we er een bindend (subjectief) oordeel van de leraar bij?

16. Herman

Dan over je opmerking over legitimering van een systeem. Die legitimering van een ongelijk systeem heeft geen objectieve toets nodig. Zie wederom Duitsland. Den Heij duidt enkel het bredere debat; geen empirische studie naar het ongelijkheidsbevorderende (?) effect.

17. Herman

Ik denk zeker dat vroege selectie ongelijkheid in de hand werkt; daarover geen misverstand. Met alle negatieve gevolgen tav de ‘meritocratie’ (tussen aanhalingstekens). De hypothese is: zijn objectieve(re) maatstaven gelijkheidsbevorderend? (verkleinen de SES slope in loopbanen?)

18. Ben

Ik begrijp dat je het zo (SES, slope) wilt operationaliseren, daar heb ik geen moeite mee.  Maar ‘objectievere maatstaven’ is veel te kort door de bocht.  

Michael Sandel (Tirannie) illustreert perfect wat in de VS de oneerlijkheid is van SAT/ACT tests voor toegang tot top-unis.

19. Ben

De Eindtoets Basisonderwijs is ongelijkheid bevorderend.  Ouders die het zich kunnen veroorloven kopen schaduwonderwijs en eindtoets-training in.  

De Eindtoets heet ten onrechte ‘toets’; het is een test onder vooronderstelling dat niemand voorkennis heeft.  Dat klopt dus niet.

20. Ben

Er is nog een ernsitiger probleem met die Eindtoets: zijn validiteit is onbekend, want nooit onderzocht.  En laat validiteit nou net het enige kwaliteits-criterium zijn dat er toe doet voor deze test in deze situatie.  

No problem, roep het van de daken. Maar het Cito roept niet.

21, 22. Ben

De Cotan keurt de Eindtoets, als het goed is.  De richtlijnen die de Cotan daarbij hateert zijn de Amerikaanse ‘Standards’.  

Standard 1.3: “If validity for some common or likely interpretation for a given use has not been evaluated, or if such an interpretation is inconsistent with available evidence, that fact should be made clear and potential users should be strongly cautioned about making unsupported interpretations.” 

De validiteit van de Eindtoets (v/h citotoets) is onbekend omdat het experiment praktisch en ethisch niet uitvoerbaar is. Zie # 30 hierbeneden, citaat uit Meester & De Leeuw.

= = = =

23 Herman (antwoord op 19. Ben)

dit is toch echt dan je hypothese: met eindtoets meer ongelijkheid dan zonder eindtoets. En die hypothese wordt juist vaak verworpen? bijv ook onderwijsinspectie toen de eindtoets verlaat werd, 2015. Ongelijkheid (naar SES) nam toe.

24. Ben

Ja, de eindtoets voegt ongelijkheid toe. 

Of de Amsterdamse Schooltoets dat ook deed, dat weet ik niet.  Dat was een totaal andere situatie.  Al heeft de eindtoets in grote trekken dezelfde opzet als die 60er jaren toets, de voorloper van de citotoets. https://rjh.ub.rug.nl/sogi/issue/view/2845

24.1 Herman

maar mijn punt is juist dat ik maar geen steun kan vinden voor die hypothese in de literatuur. En voor het tegendeel wel!

24.2 Ben

Je bedoelt: er is empirisch onderzoek dat mijn meer analytische argumenten weerspreekt?  Geef me dan één zo’n onderzoek, dan hebben we een concreet casus om het verder te analyseren.

= = = = = 

25. Ben

AD de Groot, dé methodoloog in de 60er jaren https://dbnl.org/titels/titel.php?id=groo004meth01…, knutselde de Amsterdamse Schooltoets in elkaar, ijkte die aan de oordelen van de schoolhoofden over hun leerlingen, en hupsakee, klaar ermee. Zie voor dit opmerkelijke historische feit https://karenheij.bijzonderboeken.nl 

26. Ben

Voor een overzicht van de worsteling van A.D. de Groot met het ontwerp van deze toets bij de overgang naar het VHMO ) zie Karen Heij, paragraaf 4.8 en 4.9.  Vergis u niet, tot de dag van vandaag zijn de eindtoetsen bijna klonen van die vroege Amsterdamse toets.

26.1. Ben 

En dat is met alle gestandaardiseerde toetsen in meerdere of mindere mate het geval: ze hangen van de compromissen aan elkaar, zijn dus allesbehalve ‘objectief’.  Zoals de onmogelijkheid om aan te sluiten op de specifieke curricula van afnemende scholen. #not_curriculum_aligned

= = = = =

27 Herman 

Ik weet het. Het interessante is dat we beide gelijk kunnen hebben Ben. Het is een toets die validiteit ontbeert maar toch tot grotere kansengelijkheid leidt dan wanneer die toets er niet was geweest.

27.1 Ben

Validiteit onbekend.  

Daar is die kansengelijkheid weer.  Dat concept is toch een probleem hoor. 

Op enig moment moeten we het dan ook over het onderwijs gaan hebben, de cultuur daarvan, de permanente selectieve druk op leerlingen, restverschijnsel van vroeger eeuwen?

= = = =

28. Herman

En de bevinding dat leraaradvies beter voorspelt dan de toets (CPB tijdje geleden) is er in principe ook mee verenigbaar: het advies kan dezelfde bias hebben als waar leerlingen in het VO mee te maken krijgen tav sociaal milieu, taal, etc.

29. Ben

Ja, maar waarom noem je het ‘bias’?

29.1 Ben

Welke gegevens mogen worden gebruikt om te voorspellen?  Veel beschikbare gegevens zijn discriminerend, maar voorspellen wel, die vallen dus af. 

Wie beslist? Ouders willen gegevens meenemen die anderen niet mogen gebruiken.  Dat speelt juist bij adviseren ipv beslissen. 

29.2 Ben

Maar zo eenvoudig is het niet.  Op basis van bijvoorbeeld leeftijd, sexe, of etniciteit mag er niet worden beslist, maar die zogenaamd ‘objectieve’ eindtoets blijkt ‘scheef’ (‘biased’) te zijn t.o.v. die variabelen.  Er is geen ‘level playing field’. (Hofstee; Doornbos)

29.3 Ben

Wim Hofstee (1990). Toepasbaarheid van psychologische tests bij allochtonen. [professionaliteitsbeginsel] zie citaat in https://benwilbrink.wordpress.com/2017/09/20/examenonrecht-en-effet/ 

Wim Meijnen (2013).  ‘Opstaan tegen zittenblijven: Om moe van te worden’   Pedagogische  Studiën  (90) 89-96   https://pedagogischestudien.nl/download?type=document&identifier=617289 

= = = =

30. Ben 

Het volgende artikel van Meester en De Leeuw ‘De regressie van intelligentiescores op schoolloopbaanvariabelen’ stipt ook even aan dat onderzoek naar validiteit van adviezen/toetsen voor 12 jarigen onhaalbaar is. TOR https://objects.library.uu.nl/reader/index.php?obj=1874-208778&lan=en#page//67/64/19/67641961831776166295366098112515682646.jpg/mode/1up

31. Herman

maar dat is een kritiek op vroege selectie, en die deel ik. Maar wederom: wat is de counterfactual? Niet ‘late selectie’, niet ‘ouders verliezen hun preferenties’, maar ‘geen toets’.

32. Ben

Ik begrijp je vraag niet, sorry.

33. Herman

Critici op centrale toetsing wijzen op onwenselijke neveneffecten zoals inkopen van bijles. Alsof preferenties dan een grotere rol gaan spelen/groter effect hebben. Dat lijkt me betwistbaar. De counterfactual is niet dat ouders hun P aanpassen,maar dat er geen O is als tegenwicht

34. Herman

Als je zegt dat ons stelsel (of elk onderwijsstelsel dat in beginsel selecteert en sorteert) ongelijkheden met zich mee brengt, eens. De vraag is dan ook hoe die ongelijkheid (ietwat) het hoofd kan worden geboden zonder efficientie te verliezen – laten we zeggen totale skill set.

34. herman

Moment van selectie lijkt me zeker een issue om dan over na te denken, zie mijn papers… Maar binnen het stelsel waarin we zo vroeg selecteren is het met toetsen minder SES-biased dan zonder.

35. Ben

Dit blijft een probleem.  Validiteit van de eindtoets is een onbekende grootheid.  

Dat geldt overigens op dezelfde manier voor het advies van de school.  

Discussie over wat beter is, advies of toets, is echt flauwekul.  Tot 25% van de lln is laaggeletterd, dàt is ongelijkheid.

36. Herman

En daar ben ik het helemaal mee eens.

= = = =

37. Ben (antwoord op 33. Herman)

Ik heb voortdurend moeite met je taalgebruik.  Jouw sociologische benadering strook niet met mijn insteek vanuit testpsychologie/onderwijsresearch. 

Bijles en testtraining invalideren de eindtoets, zo simpel is dat.  Onder deze omstandigheden discrimineert de toets.

38. Herman

maar dan is je hypothese: een objectieve toets zonder bijles leidt tot lagere SES ongelijkheden dan een objectieve toets met bijles. Dat geloof ik gelijk. 

39. Herman

maar de vraag is: als er geen toets is, neemt bijles dan af? Het moet gezegd, onze PISA studie toonde wel iets van dien aard: grotere SES-gaps in bijles in landen met een centraal eindexamen. https://journals.sagepub.com/doi/10.1177/0020715220984500

39.1 Ben

Bedankt.

 = = = =

39.2 Gisbert

Dat zou aansluiten bij het argument dat ik probeerde te maken, en ook bij die eerdere bron van Berliner.

= = = =

39.3 Mieke

Daarom dat het zo belangrijk is rekening te houden met brede context, neveneffecten… Toetsen gebeurt niet in een vacuum.

= = = =

40. Ben (antwoord op 36. Herman)

Nuttig, zo’n discussie.  Helpt me voor een reactie op Meijer en Sijtsma in De Psycholoog. En in de voorbereiding op een bespreking van Sandel in een boekenclubje van oude rotten waar ik het voortouw voor neem.  Sandel is vooral politicologisch/filosofisch over meritocratie.

41. Ben

Heel mijn professionele leven bezig met de thematiek van over-de-top-meritocratie.  Zoals het debat over selectie voor NL numerus fixusstudies. 

Of letterlijk, voor de Onderwijsraad, 1997: Terugblik op toegankelijkheid: Meritocratie in perspectief.  http://benwilbrink.nl/publicaties/97MeritocratieORaad.htm

42. Ben

Het grappige/treurige van die laatste analytische oefening is dat op allerlei momenten in het onderwijs waar beslissingen op basis van ‘verdienste’ eerlijk zouden worden gevonden, dat echt niet is geslaagd.  Oneerlijkheid die niet een gevolg is van meritocratie.

43. Ben https://twitter.com/benwilbrink/status/1508919919592845322

Deze dialoog tussen een socioloog en een psycholoog is er een tussen twee paradigma’s.  Opmerkelijk verschil is dat de sociologie eerlijke toelating tot onderwijs bestudeert, en de psycholoog daar direct onderdeel van is: A.D. de Groot ontwikkelde het prototype van de eindtoets.

44. Ben

De psycholoog is bij ontwerp en gebruik van test of toets gebonden aan een specifieke beroepscode, de APA AERA NCME Standards (ook de Cotan hanteert deze als zijn richtlijnen).  De Groot was zich daar ook van bewust, zie zijn Methodologie 8.2 Validiteit https://dbnl.org/tekst/groo004meth01_01/groo004meth01_01_0027.php

45 Ben

Bij conflicten over examens doen advocaten onderwijsrecht er goed aan om van deze Standards gebruik te maken in rechtszaken. In NL zou dat een novum worden, in de VS is het gebruikelijk.  

Het zou fijn zijn als sociologen bij onderzoek over toetsen ook eens die Standards opslaan.

46. Ben

Want niet alleen van de Nederlandse Eindtoets Basisonderwijs (inclusief  zijn concurrenten, trouwens) is validiteit onbekend, dat is ook het geval voor bijvoorbeeld PISA.  Hier is het een open vraag wat de PISA test eigenlijk meet, wat betekenen resultaten dan voor een land?

================================================================

47 Jelmer Evers

Mooie gesprek 

@HermanWerfhorst

 en 

@benwilbrink

 over nut/noodzaak eindtoetsen/eindexamens tov ongelijkheid in het onderwijs

48. Ben

Dankjewel. Er valt nog veel aan scherpte te winnen.  Dat is ook nodig, om schertsbeleid te voorkomen.

49. Jelmer

Ik lees met interesse mee in ieder geval 🙂

50. Ben

Herman, is het een idee dat ik van de draad een blog maak?  Zonder verdere redactionele  ingrepen.  Want threadreaderapp verwerkt geen dialogen.

51. Debbie Dussel

graag!

52. De hele (ingewikkelde) draad nu beschikbaar als blog: 

‘Gestandaardiseerde toetsen. Verminderen zij ongelijkheid?’

53. Herman

Voor mensen als Hanushek en Woessmann meet PISA belangrijke Life skills die economische groei voorspellen…

54. Ben

Zij geloven Andreas Schleicher (baas van PISA) op zijn woord, en beschouwen de test als een variabele waarmee iedereen zijn ding mag doen.  Ik word er helemaal gek van.  Voor de Hanushek’s van deze wereld is construct validiteit van PISA van belang: ook die moet bewezen worden.

55. Ben

https://testingstandards.net/open-access-files.html…

Standard 1.12

If the rationale for score interpretation for a given use depends on premises about the psychological processes or cognitive operations of test takers, then theoretical or empirical evidence in support of those premises should be provided.

56. Ben

via @RichardPPhelps 

57. Ben

In dat artikel ook info over de selectieratio van MIT: ca 4% van de gegadigden wordt toegelaten.  Dat is geen foutje, het vier!  

Laat niemand ooit nog spreken over inzet van SAT/ACT resultaten bij MIT als ‘ongelijkheid verminderend’.

58. Ben

MIT investeert een kapitaal in de jaarlijkse schifting van die enorme aantallen.  

Kennen we zoiets in Nederland ook?   Niet in publiek onderwijs. Wel bij de NPA (politie). Evaluatie van die selectie, in 1990:  Wilbrink ea. http://benwilbrink.nl/publicaties/90SelectieNPA.htm

59. Ben

Waarom mag de Nederlandse Politieacademie wel selecteren, waar dat voor publiek hoger onderwijs niet mag (tenzij anders wettelijk geregeld)?  

De NPA is een bedrijfsopleiding van Buitenlandse Zaken.  

Heldere selectie voor een bedrijf is GEEN model voor publiek onderwijs.

60. Ben

Op selectie in en voor publiek onderwijs zien internationale verdragen over de rechten van kinderen (verdragen gaan boven nationale wetgeving). 

Selectie voor bedrijven is uiteraard ook begrensd door het recht. Ik geef een voorbeeld dat zich bij de selectie voor de NPA voordeed.

61. Ben

De psychologische tests werkten ongelijk voor mannen en vrouwen.  In die situatie konden de psychologen van de NPA geen selectie-adviezen geven zonder te discrimineren.  Dat probleem was alleen op te lossen door de minister, Ien Dales, quota te laten vaststellen. Zo geschiedde.

62. Ben

Discriminatie ligt al gauw op de loer, overal waar sprake is van selectie, of ook van zelf-selectie (vergeet die niet!).  In de VS is dat altijd al een heftige problematiek geweest.  Waar problemen niet technisch oplosbaar zijn, moeten bestuurders verantwoordelijkheid nemen.

63. Ben

Ha, ik heb mijn ‘Zwick’ teruggevonden, voor antwoorden op vele vragen over hoe dat in de VS gaat.  

Rebecca Zwick (2017). ‘Who Gets In? Strategies for Fair and Effective College Admissions’  Harvard University Press. http://hup.harvard.edu/catalog.php?isbn=9780674971912

interview: https://ets.org/research/policy_research_reports/focus_on_rd/issue8

64. Ben 

 “The SAT Isn’t What’s Unfair

By Kathryn Paige Harden” 

https://theatlantic.com/ideas/archive/2022/04/mit-admissions-reinstates-sat-act-tests/629455/… via 

@RichardPPhelps

65. Ben

I do not understand this.  After all, MIT admits just 4% of its applicants.   What is MIT talking about?  

I have not seen detailed MIT-analyses anywhere.  I suspect none are coming. 

Rebecca Zwick ‘Who gets in’ has no entries on MIT or secrecy.

66. Ben

On secrecy in admissions: 

Patricia Conley (1995). The allocation of college admissions. in Jon Elster: ‘Local justice in America’ (p. 25-80). 

& (1996). Local Justice in the Allocation of College Admissions: A Statistical Study of Beliefs Versus Practice https://link.springer.com/article/10.1007/BF02197250 

67. Ben 

Another one:

Rachel Toor (2001).  ‘Admissions confidential. An insider’s account of the elite college selection process.’  St Martin’s Press. Free to borrow: https://archive.org/details/admissionsconfid00rach

NB:

Conley 1995 excerpt: https://muse.jhu.edu/chapter/1545142/pdf#info_wrap

Conley 1996 pdf https://sci-hub.se/10.1007/bf02197250

Numerus Fixus, snoeihard debat aflevering 2. Discriminatie

 

Technocratisch optimaal selecteren = discrimineren. 

1. Pak van alle een jaar of wat  geleden ingestroomde studenten alle persoonlijke gegevens die je krijgen kunt, verzamel ook gegevens over studieduur tot slagen, met welke cijfers.

2. Gebruik technieken uit de Kunstmatige Intelligentie om een algoritme te vinden dat de beste voorspelling van succes-data op basis van input-data oplevert.  

3. Vul het beschikbare aantal plaatsen (de NF) van bovenaf: eerst de kandidaten met de gunstigste voorspelling, enz. 

4. Het is 2022, en we weten nu echt allemaal heel goed dat de algoritmische procedure 1-2-3 gegarandeerd discriminerend werkt.  We hebben er immers alle beschikbare data voor gebruikt, dus ook geslacht, leeftijd, postcode ouders, gezondheid, SES ouders, enzovoort enzoverder.   

5. Wisten we een halve eeuw geleden ook al dat deze werkwijze discriminerend is? Ja, wis en waarachtig.  Althans, sommigen wisten dat beter dan anderen. 

Staatssecretaris Ger Klein van onderwijs had het als speerpunt in zijn betoog voor loten. A.D. de Groot hield er rekening mee. 

6. Wim Hofstee had kritiek op het voorstel van De Groot (‘Selektie voor en in het hoger onderwijs’) om te selecteren voor NF-studies, maar wees er nadrukkelijk op dat De Groot heel verstandig allerlei met studiesucces samenhangende gegevens NIET meenam in zijn voorstel voor selectie. 

Wim Hofstee in De Groene  https://benwilbrink.wordpress.com/2021/03/17/alle-geslaagden-zijn-geschikt-hofstee-vs-de-groot-over-selectie-1972/4. Rationele selectiemethoden. Uit oogpunt van maatschappelijke progressie moge dit een twijfelachtig of ondergeschikt punt lijken, maar dat is het niet. Nog altijd wordt een zee van subjectieve willekeur en paternalisme verstopt in selectieve mondelinge tentamens, interviews, referenties, eindexamencijfers, vragenlijsten, projectietests: vooral de toelating tot het HBO is vaak op zeer ondoorzichtige wijze geregeld, en de buitenlandse folklore op het punt van selectiemethoden is al even bedroevend. De Groot is hier op z’n best: hij veegt met één korzelige klap de hele mikmak van tafel. En inderdaad, als er iets is waar “de geleerden het over eens zijn” – om een uitdrukking uit De Groot’s Minimale methodologie (1) te gebruiken – dan is het wel over de onbetamelijkheid van dit soort fratsen in althans de onderwijsselectie. Een consequentie die De Groot niet trekt, maar dat wil ik dan wel doen, is een aanbeveling om zulke dingen bij de wet te verbieden, net als kwakzalverij.

7. Waar moeten we dan aan denken?  Kijk eens naar CBS-statistieken voor de cohorten 1961 en 1962. Die zijn uitgesplitst naar gekozen studie, geslacht, eindexamencijfers, leeftijd, factoren die studiesucces ‘beïnvloeden’:  https://historisch.cbs.nl/detail.php?id=394806168 en https://historisch.cbs.nl/detail.php?id=394806177

8. Uit de CBS-tabellen volgt dat een meedogenloze selectie bij de NF geneeskunde (als voorbeeld)  gericht op het hoogste studierendement voorrang geeft aan jonge mannelijke bêta-gymnasiasten met de hoogste cijfers.  Precies ook de categorie die het bij wis/natk uitstekend doet. 

9. De selectie voor de NF geneeskunde is tamelijk scherp, laten we zeggen dat de NF voor ca. 50% plek biedt.  Kleine verschillen in gemiddelden voor cijfers van bijv mannen versus vrouwen kunnen leiden tot buitenproportioneel ongelijke toelating, zie bijv. http://benwilbrink.nl/publicaties/94SeksepartijdigheidSVO.htm

10. Het omgekeerde is ook mogelijk: positieve discriminatie. Onderwijsminister Pais was daar kampioen in, met een voorstel om diverse groepen voorrang te geven bij de NF. Ik rekende het destijds door: http://benwilbrink.nl/publicaties/80KansberekeningenCOWO.htm Mannen met magere cijfers hebben geen schijn van kans.

11. Pais zag in dat zijn voorstel onhaalbaar was, en trok het in voordat het als wetsvoorstel naar de Kamer ging.  Ook Van Kemenade & Raa wijdden er een uitvoerige studie aan (Intermediair). Transcriptie:  https://benwilbrink.wordpress.com/2021/03/05/alle-geslaagden-zijn-geschikt-van-kemenade-raa-pais-positieve-discriminatie-1981/… Positieve discriminatie vrouwen valt negatief uit!

12. In 1975 stonden links en rechts in de Kamer tegenover elkaar: loten versus selecteren op examencijfers.  Het voorstel van Ger Klein was loten, omdat selectie op die cijfers discriminerend uit zou pakken voor vrouwen.  Zij behaalden destijds immers lagere cijfers dan mannen. 

13. Selectie op examencijfers discrimineert vrouwen, maar ook snelle leerlingen, leerlingen van wie de ouders geen bijlessen kunnen betalen, of een jaar vwo om er bij het examen sterker voor te staan. Klein verwijt Ginjaar-Maas (VVD) geen oog te hebben voor deze discriminatie.

14. De Kamer komt er zo niet uit.  Vermaas (ARP) werkt een aanvankelijk idee om loten en selectie te mengen uit tot het amendement voor de gewogen loting.  Dat nam Klein over, en werd kamerbreed gesteund.  Deze gewogen loting hield in enigerlei vorm meer dan 40 jaar stand. Wow.

werking van die cijfers blijft, ook al is ze verzacht.

15. Die gewogen loting is best ingewikkeld.  Hoe werkt die uit ? Zie http://benwilbrink.nl/publicaties/75GewogenLotingCOWO.htm  Examencijfers spelen er een belangrijke rol in, de gewogen loting is dan wel een breed gedragen compromis, maar de discriminerende werking van die cijfers blijft, ook al is ze verzacht. 

16. De wetgever die discrimineert. So it goes. Zoals de wetgever wel vaker rare regels stelt die niet door de beugel kunnen.   Met de discriminatie van vrouwen zou het anders lopen dan Ger Klein vreesde:  zij liepen in op de mannen, en streefden ze in cijfers stevig voorbij!

17. Ik heb dit draadje https://twitter.com/benwilbrink/status/1501582236193275906 ook uitgewerkt omdat ik vermoed dat een vergelijkbare discriminatie-thematiek werkzaam is bij de manier waarop voor 12-jarigen wordt omgegaan met hun scores op de Eindtoets Basisonderwijs.  Einde mededeling.  

Ik moet dit niet laten bungelen. Het schaduwonderwijs in het basisonderwijs is zo omvangrijk, dat de Eindtoets de ‘gewone’ leerlingen ronduit discrimineert. Zie ook https://benwilbrink.wordpress.com/2022/03/06/kokervisie-in-psychologenland-over-50-jaar-de-citotoets/

Selecteren bij de NF: verlies verlies voor iedereen, houd er toch mee op.

Numerus Fixus (NF) en toelating.  Debat erover moet maar eens snoeihard worden gevoerd.  Zoals: 

1. De systematiek van ons onderwijsstelsel, in sterke tegenstelling tot dat in de VS, is dat examens vwo toelaatbaarheid geven tot universitair onderwijs.  

2. Een NF maakt daar inbreuk op omdat dan per definitie niet iedereen die dat wil, zijn toelaatbaarheid gehonoreerd krijgt. 

3. De NF effectueren door selectie, zoals dat sinds Bussemaker wettelijk is voorgeschreven, is een schending van de wet, van de systematiek, van het recht.

4. De enige aanvaardbare mogelijkheid, binnen de systematiek van het onderwijsstelsel en dus van de wet, is om het schaarse aantal plaatsen te verdelen onder de belangstellenden door loten met gelijke kansen.  Moet ik dat nog uitleggen? Oké, ga ik doen. 

5. Ik neem de NF voor geneeskunde als voorbeeld.  Decanen en hoogleraren willen van de gelegenheid die de NF biedt, gebruik maken om de ‘besten’ uit de gegadigden te kunnen selecteren.  Geef ze eens ongelijk, nietwaar?  Toch moeten ze gestopt worden in deze hebzucht. Eens? 

6. Immers, de NF is op zich al een inbreuk op de wettelijke systematiek dat het eindexamen vwo toelaatbaarheid geeft tot het wetenschappelijk onderwijs.  Geneeskundigen willen DAARBOVENOP ook nog eens bepaalde gegadigden voorrang geven boven anderen.  Dat is NOGMAALS een inbreuk.

7. Herkent u daar iets in?  Waar staat in het recht geschreven (of ongeschreven) dat een NF óók recht op een bijzonder privilege geeft om gegadigden te selecteren op welke kwaliteiten dan ook?  Een privilege, want andere opleidingen mogen niet selecteren-aan-de-poort.

8. Dit lijkt verdraaid veel op wat in het bestuursrecht ‘détournement de pouvoir’ heet, een bevoegdheid (om aantallen te reduceren tot dat van de NF) gebruiken voor een doel (rendement van de opleiding verbeteren) waartoe die bevoegdheid NIET is gegeven. 

9. Als iets eruitziet als een eend, kwaakt als een eend, zich gedraagt als een eend,  dan is het een eend. Toch?  

10. Ergo, voor een NF selecteren op welke persoonlijke kwaliteiten dan ook, anders dan behaald hebben van een relevant examen,  is een schending van het recht. 

11. Probleempje: de wetgever heeft het behaagd om desalniettemin bij wet vast te leggen dat deze rechtsovertreders het recht mogen overtreden. 

12. Ik ben geen jurist, maar het lijkt mij dat een zaak aanspannen tegen een afwijzende selectiebeslissing van een selecterende NF-opleiding een goede kans van slagen heeft.  

13. Immers, de wetgever is inconsistent geweest, heeft reparatiewetgeving gemaakt die in strijd is met de wet die ons onderwijsstelsel regelt, waarin het behalen van het vwo-examen toelaatbaarheid geeft tot het wetenschappelijk onderwijs. 

[Voor NF in het hbo: naar analogie].

Job, want vind jij hiervan? @JobCohen 

Loten met gelijke kansen vormt geen verdere aantasting van die toelaatbaarheid dan strikt nodig is voor het effectueren van de NF.  

Er zijn uiteraard meer argumenten voor loten dan alleen juridische.  Literatuurbak: benwilbrink.nl/projecten/loten_nf.htm

Kokervisie in psychologenland: over (50 jaar) ‘de citotoets’  

Bijna een jaar geleden verdedigde Karen Heij haar proefschrift ‘Van de kat en de bel. Tellen en vertellen met de eindtoets basisonderwijs‘.  Over een halve eeuw ‘citotoets’ eigenlijk. Haal het op, want Karen heeft het online beschikbaar gesteld https://karenheij.bijzonderboeken.nl 

De discussie over de Eindtoets Basisonderwijs, opvolger van de ‘de cito’, moet nog op gang komen.  Maar nu is er dan in het vaktijdschrift ‘De Psycholoog’ een serieuze repliek verschenen op de studie van Karen Heij. De redactie heeft de kritische bespreking door Rob Meijer en Klaas Sijtsma, met het antwoord van Karen Heij, vrij toegankelijk gemaakt. 

De Psycholoog, Forum, maart 2022: https://www.tijdschriftdepsycholoog.nl/artikelen/de-eindtoets-basisonderwijs-heeft-het-gedaan/ 

Van mij mag u de zure kritiek van beide hoogleraren overslaan, maar lees in ieder geval het inspirerende verhaal van Karen Heij.  Ik vind het geweldig zoals Karen hier de gelegenheid te baat neemt om samen te vatten wat er grondig mis is aan de manier waarop we nu al zolang deze toets van 12-jarigen gebruiken.  

‘Disclosure’.  Zoals Karen in haar voorwoord aangeeft, heb ik haar op psychometrisch terrein met raad en daad terzijde gestaan.  Ik zal dat hier ook doen.  Ik voel me ook aangesproken door de kritiek van de beide hoogleraren.  Laat ik meteen vaststellen dat de beide hoogleraren niet lijken te begrijpen dat het proefschrift van Karen Heij gaat over hoe de Eindtoets in het onderwijsveld wordt gebruikt, niet over de toets zelf.  Dat laatste is een belangrijk verschil, het zal in deze blog voortdurend aan de orde zijn.  

De situatie rond de eindtoetsen voor 12-jarigen is complex, er zijn naast de eindtoets van het Cito meerdere concurrerende aanbieders.  Ook de relatie tussen schooladvies en eindtoetsresultaat is ingewikkeld en voortdurend aan politek gestuurde verandering onderhevig.  Daar gaat de discussie niet over, maar voor de helderheid wil ik het hier wel aangestipt hebben.  

De repliek van Rob Meijer en Klaas Sijtsma, in vol psychometrisch/methodologisch ornaat, geeft treffend en en scherp aan wat mijns inziens het kernprobleem is met de standaard-toetserij in ons onderwijs, al dan niet via Cito.  En dat is dat de toetsontwikkelaars het niet hun verantwoordelijkheid vinden hoe die toetsen worden gebruikt, daar trekken zij hun handen vanaf.  

Meijer en Sijtsma drukken het zelf kernachtig uit in dit citaat, en daar wil ik het in deze blog verder dus over hebben:

“Mensen kunnen de Eindtoets gebruiken op een manier waar je van alles van kunt vinden, maar dat is een kwestie van beleid en politiek.” 

Dit staat haaks op alles wat er in de wereld van test- en toetspsychologie de laatste halve eeuw is uitgedokterd over kwaliteitsstandaarden.  

Herinnert u zich nog deze tweet van destijds Cito CEO Marten Roorda? 

“Voor alle duidelijkheid #Cito is geen partij bij vaststelling van inhoud Rekentoets en typen opgaven. Cito voert de richtlijnen van CvE uit.”

Ik grijp terug op dit ‘critical incident’ uit 2013 omdat het de ernst van de zaak zo verpletterend duidelijk maakt.  Het Cito en het CvTE hebben destijds staatssecretaris Sander Dekker van onderwijs publiekelijk bezworen dat de rekentoets valide is.  

Publiekelijk: tijdens een Algemeen Overleg van de onderwijscommissie uit de Tweede Kamer.  

Validiteit: dat is het ultieme kwaliteitscriterium voor toetsen en tests, ik kom daar nog uitvoerig over te schrijven. 

Verpletterend: Het heeft zo’n 10 jaar geduurd voordat het bewindspersonen onontkoombaar duidelijk was dat de rekentoets bij de eindexamens in het vo (en mbo) gestopt moest worden vanwege volstrekte ondeugdelijkheid.  Het tegenovergestelde van validiteit.  De totale kosten van dit fiasco bedragen volgens mededeling van Sander Dekker zelf, tijdens mogelijk hetzelfde Algemeen Overleg, een half miljard euro.  Belastinggeld.  Voeg daar het leed van 10 jaargangen leerlingen aan toe. Alleen vwo-ers hadden geen moeite met die rekentoets.  Anderen moesten vrezen op die toets mogelijk voor hun examen te zakken.  Dit zijn inktzwarte bladzijden in de recente geschiedenis van het Cito, het CvTE, de SLO en de Inspectie, allen intensief betrokken bij de ontwikkeling van de rekentoetsen.

Terug naar de Eindtoets.   Zoals het citaat van Meijer en Sijtsma aangeeft, koppelen zij de toets zelf los van het gebruik ervan. Is dat terecht?  Dat is de hamvraag.  

Er zijn psychologische tests in de handel die voor van alles en nog wat gebruikt kunnen worden, zoals intelligentietests.  Als de overheid een bestaande IQ-test wil gebruiken bij de toelating tot onderwijs, moet zij aannemelijk maken (onderzoeken) dat dit gebruik van de test valide is.  Anders dan Meijer en Sijtsma stellen is er een legitieme validiteitskwestie bij het gebruik van de test.  

De Eindtoets Basisonderwijs is, anders dan een IQ-test, ontwikkeld voor één specifiek doel:  betere beslissingen bij de overgang van basis- naar voortgezet onderwijs.  De ontwikkelaar (Cito) is hier de verantwoordelijke om toets en zijn gebruik te valideren. 

Een voorbeeld van een ontwikkeling die direct de validiteit van het gebruik van de Eindtoets bedreigt is het almaar groeiende schaduwonderwijs. Gebruik van de Eindtoets bij de overgang naar het vo  bevoordeelt steeds sterker de kinderen van ouders die investeren in schaduwonderwijs.  De ‘Standards’ (zie hierbeneden) noemen ‘coaching’ als bedreiging voor validiteit van toetsgebruik; welnu, schaduwonderwijs is een vorm van ‘coaching’. 

‘validiteit’ is het sleutelwoord

 A.D. de Groot heeft een nog steeds bruikbare paragraaf 8.2 over validiteit geschreven in zijn 1961  ‘Methodologie’ https://dbnl.org/tekst/groo004meth01_01/groo004meth01_01_0027.php Jammer dat hij aan de overgang basis- voortgezet onderwijs geen aandacht schonk. Maar best aardig om eens in te bladeren.  De grondlegger van het Cito wist heel goed onder woorden te brengen wat de belangrijkste eisen voor tests en toetsen zijn.  In een artikel uit 1970 scherpte hij zijn eisen verder aan; helaas was dat een parel voor de zwijnen, ‘zijn’ Cito had er geen enkele boodschap aan.  Ik heb het artikel hier beschikbaar gemaakt.  

Some badly needed non-statistical concepts in applied psychometrics.

http://benwilbrink.nl/publicaties/70degroot.htm 

Waar vindt u als ouder, leraar, bestuurder houvast voor deze kwaliteitseisen?  In Nederland is de Commissie Testaangelegenheden (Cotan) (Nederlands Instituut voor Psychologen, NIP) de instantie die tests en gestandaardiseerde toetsen keurt.  (uitzonderingen daargelaten, en juist voor de aanbieders van eindtoetsen schrijft de overheid uitzonderingen voor). 

De richtlijnen die de Cotan daarbij aanhoudt zijn de Amerikaanse Standards for Educational and Psychological Testing 2014 

https://www.testingstandards.net/open-access-files.html

Zie het uitvoerige deel over ‘validity’.  Dit is een wereld-standaard.  Merk op dat validiteit gaat over gebruik van toetsen.  Waar Meijer en Sijtsma hun verantwoordelijkheid voor het gebruik van toetsen wegwuiven naar beleid en politiek, is het gebruik van toetsen in de ‘Standards‘ juist de kern van de zaak.  

Moet ik nog melden dat ‘Van de kat en de bel‘ gaat over het gebruik van de Eindtoets Basisonderwijs?  En niet over de Eindtoets zelf?  

Laat de Nederlandse psychologische professie ophouden met uitventen van kokervisies zoals is gedaan door Meijer en Sijtsma.  Kokervisies maken het onderwijs kapot.  Wat doet een halve eeuw ‘citotoets’ met het basisonderwijs, denkt u?  Deze vraag wordt zelden gesteld, ook al nodigde A.D. de Groot al in 1966 uit om dergelijke vragen te stellen: ‘Wie bindt de kat de bel aan?’

Oké, ik verwees naar de ‘Standards’ voor de eisen, internationaal en in NL, aan toetsgebruik, ook juridisch afdwingbaar.  Maar die Standards gaan niet specifiek over de situatie van onze overgang basis- voortgezet onderwijs. Ik sla wat piketpaaltjes om het glashelder te maken.

Eerste piketpaaltje. De ‘Standards’ wijzen voortdurend op de noodzaak om empirisch te onderbouwen dat het gebruik van toetsen de bedoelde consequenties heeft, en geen andere.  Lees daar niet te snel overheen: empirisch onderbouwen betekent dat er experimenteel onderzoek nodig is, volledig analoog aan wat er nodig is om aan te tonen dat nieuwe medicijnen, vaccins, of behandelingen werkzaam zijn en geen ernstige ongewenste bijwerkingen hebben.  ‘Meten is weten’ is hier echt een gepasseerd station.  Het gaat om RCT’s, Randomized Controlled Trials https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6235704/ 

2de piketpaaltje: onderwijs is geen bedrijf. Selectie voor onderwijstrajecten is echt een ander domein dan selectie door werkgevers op de arbeidsmarkt.  Hoewel ook werkgevers gebonden zijn aan wet en regelgeving, en fatsoen, gaat het bij selectie in het onderwijs om veel meer. 

Onderwijskansen van kinderen en jongeren zijn beschermd door internationale verdragen die Nederland heeft onderschreven.  Dit internationaal recht gaat boven nationaal recht (zoals na de Urgenda-zaak eindelijk breder bekend is).  Dit is ook zaak voor toetsontwikkelaars, dus. 

Het kan niet zo zijn dat het voor valideren van het gebruik van de Eindtoets volstaat een dubbelblind-experiment te doen met bijvoorbeeld bereikt onderwijsniveau als doelvariabele, dat zou een bedrijfsmodel-benadering zijn.  Maar zelfs zo’n minimaal ingevuld experiment/RCT is om ethische en praktische redenen volstrekt onuitvoerbaar.  U mag hieruit concluderen dat gebruik van de Amsterdamse Schooltoets, zijn opvolger ‘de Citotoets’, de huidige Eindtoets, en de komende ‘doorstroomtoets’ nooit is gevalideerd.  Validiteit onbekend

Zeker, er zijn publicaties (oa Margo Jansen, Cito, 70er jaren) die laten zien dat ‘de citotoets’ ongeveer net zo goed ‘voorspelt’ als het advies van hoofdonderwijzers. Maar dat haalt je de koekoek. Dit zijn correlaties, geen RCT’s.  Het is één grote ‘self-fulfilling prophecy’. 

Margo G. H. Jansen (1979). De voorspellende waarde van de eindtoets basisonderwijs. 

Voor een indruk van hoe er gerommeld wordt, in plaats van een RCT op te zetten, zie: 

J. W. Oosterbaan (1973).  De Amsterdamse schooltoets 1969 in relatie tot enige conclusies van ’Het Verborgen Talent’ Sociologische Gids, 20 #2, 88-97 open access https://rjh.ub.rug.nl/sogi/issue/view/2845 

Voor een overzicht van de worsteling van A.D. de Groot met een toets bij de overgang naar het VHMO (Voorbereidend Hoger en Middelbaar Onderwijs), de Amsterdamse Schooltoets, zie Karen Heij, paragraaf 4.8 en 4.9.  Vergis u niet, deze Schooltoets was de voorloper van de vrijwel identieke ‘citotoets’, en tot de dag van vandaag zijn de eindtoetsen bijna klonen van die vroege Amsterdamse toets.  Was die Amsterdamse toets onafhankelijk van de adviezen van de hoofdonderwijzers, dacht u?  Dat is dan fout gedacht.  De scores op de Amsterdamse toets werden gelijkgeschakeld aan de adviezen van de hoofdonderwijzers.  Zo ver dus wat betreft het idee dat de eindtoets een ‘onafhankelijk oordeel’ zou geven, niet belast door enige subjectiviteit waaronder de oordelen van de hoofdonderwijzers zouden lijden.  Dat de eindtoetsen ‘objectieve instrumenten’ zouden zijn, is een ‘urban legend.’ Word wakker.  Bind de kat de bel aan. 

Dat validiteit van beslissingen die mede op een Eindtoets zijn gebaseerd onbekend is, moet alle betrokkenen klip en klaar worden meegedeeld:   

Standard 1.3 

If validity for some common or likely interpretation for a given use has not been evaluated, or if such aninterpretation is inconsistent with available evidence, that fact should be made clear and potential users should be strongly cautioned about making unsupported interpretations.” 

Hebt u ooit van Cito, CvTE, Inspectie, de school van uw kind, uw Kamerlid, zo’n waarschuwing gehad?

Is er een oplossing, dan?  Nee, niet zolang de maatschappelijke bovenlaag vast blijft houden aan het standenonderwijs zoals we datzo evident tenminste sinds de Hogere Burgerschool HBS van Thorbecke hebben.  En Thorbecke had dan nog een noodverband:  laat niet de school, maar de ouders beslissen over toegang tot de HBS. 

Wie de onderwijsgeschiedenis kent, weet dat die ‘open school’-gedachte van Thorbecke maar vijf jaar stand hield:  leraren van die nieuwe HBS wilden selectie-aan-de-poort, en die kregen ze.  Want Thorbecke was geen minister meer, maar had als Minister-President andere zaken aan zijn hoofd.  Heeft die selectie-aan-de-poort van de HBS geholpen?  Nee hoor. Posthumus verzamelde cijfers over het zittenblijven in de HBS, en schreef daar een felle aanklacht over in De Gids van 1940. Ieder jaar weer bleef bijna een kwart van de leerlingen zitten, of verdween van school.  Ook in de eerste klas, terwijl er toch een scherpe toelatingsselectie was gehouden. 

https://www.dbnl.org/tekst/_gid001194001_01/_gid001194001_01_0040.php

Alles wat problematisch is aan de Eindtoets, is dat mogelijk ook voor het advies dat leerlingen meekrijgen van de school.  Met dit verschil dat de leerkracht in groep 8 bovendien heel veel belangrijke informatie heeft over de leerling en relevante omstandigheden. 

Ik zou zeggen: investeer in de kwaliteit van de schooladvisering, zodat ouders daar meer steun aan hebben.  En nogmaals: waarom ouders niet de beslissende stem geven?  Ik hoor uit sociologische hoek al roepen: dat bevoordeelt goed gebekte ouders.  Maar is dat onvermijdelijk zo?

De belangrijke kwestie is uiteraard:  wat is kwaliteit bij de schooladvisering?  Werk dat uit, onderzoek het.  Cruciaal is in ieder geval dat leerkrachten hun verantwoordelijkheid nemen, ophouden zich te verschuilen achter discriminerende ideeën over intelligentie en aanleg.

Want ja, dat is de ijzeren ‘wetmatigheid van Posthumus’: zolang leerkrachten het voor het eigen zeggen hebben: zij zien altijd wel leerlingen die het relatief minder goed doen dan anderen, huppekee, weg ermee.  Maar dat kan zo niet langer.  Bind de kat de bel aan. 

En ja, dat is de ijzeren ‘wetmatigheid van Posthumus’: zolang leerkrachten het voor het eigen zeggen hebben: zij zien altijd wel leerlingen die het relatief minder goed doen dan anderen, huppekee, weg ermee.  Maar dat kan zo niet langer.  Bind de kat de bel aan. 

================

Dit is een ‘long read’ voor een breed publiek, op basis waarvan ik een meer technisch dupliek op Meijer en Sijtsma zal schrijven, voor de Forum-rubriek van De Psycholoog.  

Alle geslaagden zijn geschikt. Gewogen loting, gaan we dat weer doen?

Omdat de Kamer zich eindelijk lijkt te gaan afvragen of het met de selectie voor numerus fixusstudies wel goed gaat, schrijf ik een draadje over de gewogen loting, een gouden compromis uit onze parlementaire geschiedenis. 

We schrijven 1975.  In de Tweede Kamer is aan de orde de behandeling  van het wetsontwerp Verlenging en wijziging van de Machtigingswet inschrijving studenten (12 929). In de Handelingen van 13 maart pagina 3486-3519: https://repository.overheid.nl/frbr/sgd/19741975/0000199036/1/pdf/SGD_19741975_0000475.pdf… 

De behandeling gaat nog dagen door: 

18 maart 3523-3572 https://repository.overheid.nl/frbr/sgd/19741975/0000199037/1/pdf/SGD_19741975_0000476.pdf… 

en 19 maart 3573-3588 https://repository.overheid.nl/frbr/sgd/19741975/0000199038/1/pdf/SGD_19741975_0000477.pdf… 

Zoals verwacht, is de Kamer perfect verdeeld: links (Kolthoff, PvdA) steunt het voorstel van staatssecretaris Klein (PvdA) voor integrale loting, rechts (Ginjaar-Maas, VVD) wil selecteren.

Woordvoerder voor ARP, CHU en KVP is de heer Vermaat (ARP). Vermaat heeft bij de opening van het debat het compromis al in de aanbieding, zie blz. 3492, maar nog niet met de verhoudingsgetallen die zo’n 40 jaar bepalend gaan zijn voor de toelating tot NF-studies als geneeskunde.

Op loten kom ik nog terug.  Het is de VVD die mij destijds oprecht verbaasde.  De numerus fixus was immers niet ingesteld omdat er te weinig ‘geschikte’ studenten zich voor de studie aanmeldden, maar omdat er door te weinig co-assistentplaatsen ontoelaatbare opstoppingen in de studie ontstonden: studenten (olv Bomhof) waren naar de rechter gestapt. Van het ene op het andere moment moest er aan de poort worden geloot (DS70 minister van onderwijs De Brauw kon niet anders). 

Geneeskunde in die dagen was bepaald geen intellectueel uitdagende studie.

(40 jaar gewogen loting heeft dat veranderd, ik geloof niet dat ook maar iemand in de Kamer van 1975 dat op het netvlies had, maar dit terzijde).  Wie voldoende zitvlees (lees: rijke ouders) had, kon de studie altijd aan. Dat is het feit: iedereen was per definitie en in feite geschikt.  En dan gaat de liberale partij in het Parlement voor vergelijkende selectie.  Voor wie zich herinnert hoe Thorbecke de toelating tot zijn nieuwe HBS had geregeld, is dat echt verbazend.  Thorbecke vond ouders wijs genoeg om dat zelf te beslissen. Kijk, dat is liberaal.

Voor de loting (iedereen gelijke kansen) van de Brauw werd al snel een uitzondering gemaakt voor wie tenminste een 7,5 stond voor het eindexamen, de ‘7,5-regeling’. Vinden we daar wat van?  ‘De tirannie van verdienste’ van Sandel al gelezen?  Wáár in de stenen tafelen van Mozes staat geschreven dat hoge eindexamencijfers een persoonlijke verdienste zijn waar rechten aan zijn te ontlenen?  

Het Nederlandse onderwijsstelsel is bij wet zo ingericht dat eindexamens vwo toelaatbaarheid geven tot wetenschappelijk onderwijs.  Een NF is een ernstige inbreuk daarop, vandaar dat er een Machtigingswet nodig was om voor NF-studies daar uitzonderingen op te maken.  Een loting met gelijke kansen voor iedereen dus, zoals het eerste voorstel ook luidde.  De 7,5-regeling misbruikte een noodregeling om inbreuk te maken op de systematiek van ons onderwijsstelsel.  Ik heb nooit begrepen waarom het parlement daar in de vroege 70er jaren mee heeft kunnen instemmen.  Deze meritocratische beer brak nog een keer los, in 1995, toen een kandidate met >9 gemiddeld drie keer was uitgeloot.  Dat vonden de sociaaldemocraten op 

dat moment wel het toppunt van onrechtvaardigheid.  De Commissie-Drenth moest maar eens een alternatief ontwerpen. Wat de Commissie deed, onder druk van MP Kok en onderwijsminister Ritzen.  Zijn er in NL ooit onafhankelijke commissies geweest? 

Deze incidentenpolitiek was voor iedereen onbevredigend, er was een regeling voor de lange termijn nodig.  Staatssecretaris Ger Klein (mede-inititiatiefnemer Nieuw Links, tot 1972 dagelijks bestuur PvdA en hoogleraar Delf ) kondigde in 1974 een voorstel voor integraal loten aan. 

Klein lichtte zijn voorstel overal in het land toe, en in de pers. Klein benadrukte dat selecteren op eindexamencijfers oneerlijk is, en discriminerend naar meisjes.  Hij woog dat laatste zwaar.  En inderdaad, CBS-cijfers van de 60er jaren laten voor meisjes lagere cijfers zien.

Dat laatste is wel heel opmerkelijk, want het is nu al heel lang zo dat meisjes betere examenresultaten behalen dan jongens: bet beeld is sinds 1975 in dat opzicht sterk gekanteld.  En omdat in 1975 de gewogen loting werd ingevoerd,  zien we nu dat geneeskunde daar diepgaand door is beïnvloed.  Wederom: geen Kamerlid die dit destijds kon bevroeden.  

Bij de zeer uitvoerigen behandeling in de Tweede Kamer was Kees Kolthoff woordvoerder wetenschappelijk onderwijs van de PvdA.  Hij was mede-oprichter van de StudentenVakBeweging SVB, lid van Nieuw Links, bestuurder van de PvdA, hoofd van het Centrum voor Onderzoek van het Wetenschappelijk Onderwijs (COWO), Universiteit van Amsterdam (opgericht op initiatief van A.D. de Groot). Disclosure: Kees was mijn baas. Hoofden en medewerkers van deze onderwijsresearchcentra kenden elkaar goed.

Voorjaar 1974 kwamen deze centra met een gemeenschappelijk standpunt over de toelating tot NF-studies, waarvan Hans van der Vleugel en uw dienaar de schrijvers waren: http://benwilbrink.nl/publicaties/74HetLotCRWO_OvO.htm Nou, dat heeft heel wat gesodemieter opgeleverd zeg! Vooral in elitekrant NRC.

Ik schets even wie de deelnemers aan het debat in de media waren, in die jaren juist voorafgaand aan 1975.  Ik zal wel partijdig zijn, kijk er maar doorheen dan. Dat waren allereerst de hoofden van die universitaire onderwijsresearchcentra.  U moet zich realiseren dat er een enorm overlegcircuit was over deze wetgeving; iedere universiteit moest zijn standpunt bepalen.  Naar buiten toe manifesteerden zich vooral Wynand Wijnen en Ben Wilbrink (het COWO had even geen hoofd, Kees Kolthoff zat in de Kamer).  Wynand was juist gepromoveerd bij Willem Hofstee.  Hofstee had zich al in 1969 sterk geprofileerd op het punt van selectie. Hij volgde op in de leerstoel van Kouwer, persoonlijkheidspsychologie, zeg maar alles wat met testen en selectie te maken heeft. De tweede beroepsgroep die zich sterk uitsprak over selectie was dus die van de psychologie, verdeeld in wie in de specifieke NF-situatie selectie niet opportuun vonden (Hofstee, Mellenbergh), of juist wel (A.D. de Groot, Wiegersma).  Jonge garde tegenover de oude, in de media breed uitgemeten door de gardisten zelf. Een gemengd beeld dus.

Ik noem de onderwijsonderzoekers en psychologen de professionals, wat zij inderdaad ook waren. Tegneover de professionals stelden zich hoogleraren op die meenden het beter te weten. Dat leverde veel spektakel op, zoals bij bioloog Bakker in de NRC, 1000+ steunbetuigingen.

Ik moet eerlijk zeggen dat ik van hoogleraren als Bakker zelden een goed argument heb gehoord. Uitzondering is antropoloog Köbben. Wat moet ik ermee wanneer een astrofysicus het smalend over de dommigheid van loten heeft? Gemeenschappelijk aan al deze hooggeleerde tegenspraak is dat zij hun stukken onderschrijven als hoogleraar.  Kijk, daar heb ik geen enkel respect voor.  Wie zich beroept op zijn leeropdracht, en dan een lulverhaal houdt dat daar geen enkele directe relatie mee heeft, kom op zeg.  Maar goed, Kamerleden zaten er maar mee in de maag. 

Klein telde zijn knopen, en stemde in met deze gewogen loting.  En zo werd de gewogen loting kamerbreed gesteund.  Kamerbreed mensen.  Ik was er zelf niet blij mee, Klein ook niet, maar dit was het haalbare.  Technische info: http://benwilbrink.nl/publicaties/75GewogenLotingCOWO.htm 

In een autobiografisch boekje gaat Klein niet echt op deze geschiedenis in.  Ik sprak hem in de 90er jaren nog eens in een opgewekt telefoongesprek.  Helaas heb ik daar geen notities van gemaakt.  

Willem Hofstee is gefascineerd geraakt door die gewogen loting als compromis. 

A.D. de Groot gaf toe dat het voor het studierendement vooral lood om oud ijzer is.  Vraag me niet waar hij dat precies schreef, ergens in de discussie eind 70er jaren.  Je kunt het op een bierviltje uitrekenen.  

Maar dan blijft dus alleen het argument van ‘verdienste’ belonen. 

Dit argument is een soort ‘détournement de pouvoir’ is, misbruik van de bevoegdheid om een numerus fixus in te stellen door dan meteenvoor deze specifieke NF-studies maar een nieuw stelselelement in te voeren: dat hogere eindexamencijfers bijzondere rechten geven.  

Wie dat bepleit, begeeft zich op glad ijs.  Dat werd wel vaak toegegeven in de zin dat het voor iemand met een ‘6’ gem. best wel eens belangrijk en gerechtvaardigd kan zijn om voorrang te krijgen op iemand met ‘9’, maar ten principale de morele kwestie stellen, dat is zeldzaam.

Toch was er juist in de VS een indrukwekkend boek over ‘het rechtvaardige’ uitgekomen, John Rawls, A theory of justice.  In plaats van met poeren-pummel-argumenten had de discussie op het geraffineerde niveau van Rawls gevoerd kunnen worden.  

Er was ongetwijfeld ook een literatuur over het eerlijk verdelen van schaarse goederen.  Triage in situaties waarin de medische zorg wordt overspoeld.  

Ik begrijp dus niet zo goed waarom simpele sollicitatiemodellen van leken in zo sterke mate het publieke debat konden bepalen.

Willem Hofstee bracht het vaak scherp onder woorden.  Wie denk je dat je bent, om te oordelen dat de ene kandidaat die schaarse plek meer ‘verdiend’ heeft dan de andere? Hoe kun je dat weten? Het is een godsoordeel. Democratische besluitvorming maakt het daarmee nog niet eerlijk.

Publicaties van John Rawls, maar ook van Amartya Sen, Marta Nussbaum, en in Nederland Ingrid Robeyns, hebben ons meer ervan bewust gemaakt dat wat we in het leven bereiken niet vooral het resultaat is van eigen verdienste.  En dat falen niet vooral verwijtbare nalatigheid is. 

Gewogen loting als compromis – weging van onderlinge belangen zeg maar – is dat een breder toepasbaar model?  Willem Hofstee probeerde dat uit.  (1983). The Case for Compromise in Educational Selection and Grading. In Anderson & Helmick. http://www.benwilbrink.nl/publicaties/83hofstee_compromise.htm (met zijn fiat).

Hofstee, W. K. B., & Kiers, H. A. L. (1997). Een algemeen model voor loting en selectie bij numerus clausus. Tijdschrift voor Onderwijsresearch, 22, 81-85. open access https://objects.library.uu.nl/reader/index.php?obj=1874-214717&lan=en#page//93/89/88/9389882632695962532623394110813737976.jpg/mode/1up

Kiers, H. A. L., & W. K. B. Hofstee (1997). Gewogen loting in combinatie met rechtstreekse toelating vanaf examencijfer 8. Tijdschrift voor Onderwijsresearch, 22, 298-301.  open access https://objects.library.uu.nl/reader/index.php?obj=1874-214717&lan=en#page//66/24/60/66246005228405537138791507410661877524.jpg/mode/1up

“Naar aanleiding van de decentrale selectieprocedure voor psychologie RUG heb ik me afgevraagd wat voor motivatiebrief ik destijds zou hebben geschreven (met de kennis van nu). Van harte aanbevolen als voorbeeldbrief voor aspirant-psychologiestudenten.” http://www.benwilbrink.nl/projecten/loten_nf.htm#Hofstee_2011

De gewogen loting is zelf ook gewogen: 

Drenth (voorz.) (1997). ‘Gewogen loting gewogen. Advies van de Commissie Toelating Numerus Fixusopleidingen’. Sdu

Click to access gewogen-loting-gewogen.pdf

Gegevens over examencijfers, gekozen studie, en rendement cohorten 1961 en 1962

 waarover Klein waarschijnlijk kon beschikken, met dank aan het CBS voor de URLs: 

https://historisch.cbs.nl/detail.php?id=394806168… en 

https://historisch.cbs.nl/detail.php?id=394806177…

Voor generaties 1948-50 vindt het CBS hopelijk ook nog online het rapport.

Statistiek van het hoger onderwijs. Studie-rendement van de kandidaatsstudie van enige na-oorlogse generaties (1948-1950). Centraal Bureau voor de Statistiek. Uitgeversmaatschappij De Haan, Zeist, 1958. 

Waanzinnig interessant voor idioten zoals ik. Ik heb het rapport van 41 blz. Gelukkig, Henk, van het CBS, heeft voor mij deze scan van statistiek van het  rapport gevonden: https://historisch.cbs.nl/detail.php?id=394884162

Die oude statistieken zijn verdomde relevant voor het evalueren van de toelating via gewogen loting tot bijvoorbeeld geneeskunde. Als er een grote verschuiving is opgetreden, zou dat wel eens door de gewogen loting veroorzaakt kunnen zijn. Zijn er grote verschuivingen? Ja,

In de 60er jaren gingen jongens en meisjes met hoge eindexamencijfers natuurkunde studeren, bepaald niet geneeskunde.  Wat doet het met geneeskundige zorg in Nederland, wat kost het ons aan onbenut technisch vernuft, nu die slimme rakkers gelokt worden door geneeskunde?  In mijn literatuurbestand over alles wat met loten en NF te maken heeft, zijn daar wel enkele publicaties van economen over te vinden: 

http://www.benwilbrink.nl/projecten/loten_nf.htm