Ontwikkel een model voor toetsen (SPA Dutch intro)

Toetsen zijn aan de orde van de dag, in het onderwijs, in de media. Er valt op allerlei manieren van alles over te zeggen, maar de basis is toch wel hoe die toetsen zelf te beschrijven, als het kan in kwantitatieve dus wiskundige termen. Algebraïseren heet dat ook wel. Hoe zouden we dat kunnen aanpakken? Ik probeer het hier zo eenvoudig mogelijk uit te werken. Hoe algebraïseren we wat er gebeurt bij het toetsen van beheersing? 

Er moet natuurlijk een wiskundig model zijn op te stellen, want we hebben er wel voor gezorgd dat de toets kwantiteiten oplevert, zoals ‘aantal goed’. 

Het Nederlandse reken- en wiskundeonderwijs is vergeven van de opgaven in contexten. Welnu we hebben hier een mooie contextopgave wiskunde, laten we die eens aanpakken. Als u denkt dat ik ergens een rare sprong maak, laat het weten (reageer onder de blog). Een aantal eerste overwegingen, of aanwijzingen, puntsgewijs:

1) de beheersing van de stof moet in het model voorkomen, noem deze ‘p’. 
2) een toets is geen meting, maar een steekproef; of eigenlijk: evenveel steekproeven als er bijvoorbeeld vragen in de toets zijn, noem dit aantal ‘n’. 

Probeer niet meteen een formule op te stellen, maar beredeneer wat een acceptabel model zou kunnen zijn. 

Een derde aanwijzing. 
(3) De toets is een steekproef. Aha, veronderstel dat het een steekproef is uit een grote verzameling van vragen die geschikt zijn voor opname in een toets. 
(4) De beheersing van de stof, ‘p’, definiëren we als de proportie vragen ‘goed’ als ALLE vragen uit die grote verzameling van vragen gemaakt zouden zijn. 
(5) Ha ha, dat kan toch niet. Jawel, we kunnen het denken, als gedachtenexperiment. 

Maar lopen we met (5) uiteindelijk niet ergens vast? Want ‘p’ kunnen we dan toch nooit weten? Dat klopt, maar we kunnen wel informatie over ‘p’ krijgen, door te toetsen hè! Dus hou vol, we komen er wel. Leraren wiskunde onder u moeten nu kunnen weten wat een passend model is. 

Oké dan, een eerste model met die ‘n’ en ‘p’ voor toetsen is: voor iedere volgende vraag in de toets is de kans dat de leerling die goed kan maken gelijk aan ‘p’.
Breid het gedachtenexperiment verder uit: stel u voor dat die leerling heel veel van die steekproeftoetsen aflegt. 

Zijn de scores op die toetsen dan allemaal gelijk? Bijvoorbeeld gelijk aan ‘p’ maal ‘n’? Nee, natuurlijk niet, het zijn allemaal nieuwe steekproeven. De scoreverdeling voor al die steekproeven kennen we wel uit de literatuur: de binomiaalverdeling. Kies bijvoorbeeld beheersing p = 0,6 en aantal toetsvragen n = 20, dan geeft WolframAlpha de scoreverdeling, klik:  http://www.wolframalpha.com/input/?i=binomial+distribution+20+0.6 Tegenwoordig kan deze gratis app ook voor hogere waarden van n berekenen en plotten. Speel er mee, verander de waarde van de beheersing ‘p’, en het aantal vragen in de toets ‘n’. Denk eraan: dit is een gedachtenexperiment met ‘p’ en ‘n’.

Een andere app (er zijn er vast meer te vinden) die eenvoudiger is maar wel handige grafieken print: https://homepage.stat.uiowa.edu/~mbognar/applets/bin.html

Het gedachtenexperiment kan concreter: niet een zeer groot aantal toetsen gemaakt door dezelfde leerling met beheersing ‘p’, maar door een een zeer groot aantal leerlingen die, mirabele dictu, allemaal dezelfde beheersing ‘p’ hebben: Bi(80, 0.6), dezelfde plot als hierboven. 

Deze plot van Bi(80, 0.6) geeft te denken. Hoe we het ook wenden of keren, alle deelnemers aan de toets hebben dezelfde beheersing van de stof, ‘p’, maar hun toetsscores hebben een verdraaid grote spreiding. En toch is dit een toets met een stevig aantal vragen: steekproef 80. 

Had u dat verwacht? Dat de scores zo’n grote spreiding zouden laten zien, terwijl alle leerlingen DEZELFDE stofbeheersing ‘p’ hebben? 
Eigenlijk had ik tevoren aan u moeten vragen: maak eens een schets van de afwijkingen van de verwachte score die, in dit geval, 48 is. 

De app van Malt Bognar rekent ook uit wat bijvoorbeeld de kans is bij Bi(80, 0.6) dat de score op 48 uitkomt: 0,09 (figuur links); of dat de eindscore <= 48 is: (figuur rechts): 0,54 . Enzovoort. 

We kunnen er dus aan (laten) rekenen.

Maar simuleren kan ook. Daarvoor kunnen we terecht bij Geogebra https://www.geogebra.org/m/qkucpmmn (klik op de URL)

We hebben echt wel heel veel aan alleen al dit eenvoudige model. Een onverwacht voorbeeld is een bericht op 25 april 2024 https://www.volkskrant.nl/nieuws-achtergrond/praktijkonderwijs-en-vmbo-kampen-met-forse-daling-leerlingenaantallen-doorstroomtoets-lijkt-oorzaak~b250799c/ dat het vmbo substantieel minder leerlingen aangemeld heeft gekregen dan in het voorgaande jaar. Ik vermoed zomaar dat dit veel of alles heeft te maken met de nieuwe doorstroomtoets voor de overgang van po naar vo, met de nieuwe wetgeving die scholen verplicht om een evetueel hoger advies op basis van die toets over te nemen. De wetgever heeft zich niet gerealiseerd dat hiermee een aanzienlijke kwantitatieve verschuiving in de doorstroom naar het vo ontstaat. Aangenomen dat het advies van de school correspondeert met de relevante beheersing ‘p’, gaan bijna de helft van de leerlingen op een doorstroomtoets een HOGERE score krijgen, in de meeste gevallen zelfs zoveel hoger dat er ook een hoger ‘advies’ uitkomt. De doorstroomtoetsen werken dus als een loterij, met tientallen procenten ‘winnaars’ die in het vo op een jhoger niveau gaan instromen dan de school voor ogen had. Daar moet niemand blij mee zijn. Nou ja, het punt is hier: iedereen met enig inzicht in het steekproefkarakter van toetsen had dit probleem kunnen zien aankomen. Begrijpt u?

Terug naar: We kunnen er dus aan (laten) rekenen. Maar daar hebben we niet veel aan, want wat ‘p’ is dat kunnen we niet weten. Wat we wèl weten is dat bij een gegeven ‘p’=0,6 niet alle toetsscores even waarschijnlijk zijn. 
Aha, daar kunnen we gebruik van maken. 

Maar dan wel in omgekeerde zin: wat kunnen we weten over ‘p’ wanneer een leerling 48 goed scoort op een toets van 80 vragen? Immers, niet alle mogelijke waarden van ‘p’ zijn even waarschijnlijk. 
Die verschillende waarschijnlijkheden zijn te berekenen, de plot is beta verdeeld. 

Image

Deze plot (Woilfram) is geen kansverdeling, maar een aannemelijkheidsverdeling, of kortweg aannemelijkheid. De verticale schaal is bepaald door het maximum van de verdeling op 1 te stellen. Overigens is het een betadichtheid. Zie de app van WolframAlpha: https://www.wolframalpha.com/input?i=beta+distribution+49+33 beta distribution 49 33 – Wolfram|Alpha

Bij de score van 48 op de toets hoort de bovenstaande aannemelijkheid: in het gebied onder de curve ligt de ‘ware’ beheersing van de leerling met score 48. 
Hoe weten we dat dit een betadichtheid is: uit de literatuur (bijvoorbeeld Novick & Jackson ‘Statistical methods’). 

Maak u geen zorgen. De curve is te construeren door voor verschillende waarden van ‘p’ de binomiaalverdeling Bi(80, p) te genereren, en dan na te gaan wat de proportionele kans is op precies de score 48. Het is even een werkje, maar de computer doet het zonder sputteren. 

De app van Wolfram kan voor de beta ook wat grotere waarden van de parameters a en b (alfa en beta) aan, speel er wat mee.
Hek ik al aangegeven wat die a en b voorstellen?
a = aantal goed + 1
b = aantal fout + 1
In het voorbeeld dus a = 48+1, b = 32+1, toets van n = 80 vragen. 

Kunnen we de aannemelijkheid ook simuleren? Ja, . De app van Geogebra https://www.geogebra.org/m/qkucpmmn is hiervoor te gebruiken. (Geogebra is beperkt tot maximaal 50 vragen in de toets, jammer) Dat gaat als volgt, voor een toets van 40 vragen waarop een leerling 24 goed heeft gescoord: zet de waarde van ‘a’ op 24, de waarde van ‘b’ op 25. Schuif dan de waarde van ‘p’ op 0, en schuif langzaam naar ‘p’ = 1. Let op ‘Number between 24 and 25 = … . De aantallen nemen eerst toe, daarna af; de verdeling is ruw omdat we simuleren, maar er is prima een betaverdeling op te passen. Eigenlijk zouden we liefst proporties zien van scores die gelijk zijn aan 24, maar maar aantallen plotten komt op hetzelfde neer. De verdeling zelf wordt niet geplot, daar moet maatwerk-programmatuur voor worden gemaakt (SPA_likelihood).

Met de constructie van de aannemelijkheid hebben we het gedachtenexperiment verlaten: het gaat nu om statistische berekeningen uitgaande van een concreet waargenomen resultaat — 48 goed uit 80.
De plot geeft een precies beeld van welke waarden van ‘p’ hoe aannemelijk zijn. 

Dat is fijn, maar is dat alles wat we eraan hebben? Nee.
Het aardige is nu dat deze aannemelijkheid het mogelijk maakt een kwantitatieve voorspelling te doen van de score die behaald kan worden op een onmiddellijke herkansing op bijvoorbeeld weer een toets van 80 vragen. 

Door herhaaldelijk een willekeurig punt onder de aannemelijkheid te kiezen en voor de corresponderende waarde van ‘p’ de score op 80 vragen te berekenen of te simuleren.
De resulterende verdeling is de betabinomiaal https://www.wolframalpha.com/input?i=betabinomial+distribution+%5B49%2C+33%2C+80%5D

Image

Geschrokken van de grote spreiding? !!!

Dat deze voorspellende verdeling een betabinomiaal is, weten we ook weer uit de theorie, en is overigens ook via simulatie te controleren.  Die simulatie kan niet zomaar met bestaande programmatuur, want er moeten random waarden voor beheersing ‘p’ worden getrokken uit de oppervlakte onder de betaverdeling, voor iedere getrokken ‘p’ wordt een binomiaalscore gesimuleerd. Plot op basis van al die gesimuleerde scores de voorspellende toetsscoreverdeling. Hiervoor is maatwerk-programmatuur nodig. Dit is wat de SPA-applets zouden moeten doen, zie https://benwilbrink.nl/projecten/spa_predictor.htm .

SPA-project

Voor al het hierboven behandelde zie voor meer details het SPA-project https://benwilbrink.nl/projecten/spa_project.htm

Dat project is is helaas onaf, terwijl de JAVA-applets in dit project niet meer compatibel zijn met huidige JAVA-versies. (Mijn oude Macs draaien er nog wel goed op …. ). 
Ooit ben ik in 1978 gestart met dit soort toets- en examenmodellen: https://benwilbrink.nl/publicaties/78StudiestrategieCOWO.htm

Wie de standaard-literatuur over toetsen een beetje kent, is nu misschien totaal in verwarring geraakt. Het bovenstaande is immers een totaal andere benadering dan in ‘mainstream’ psychometrische literatuur is te vinden. 
Er valt dan ook nog veel meer over te zeggen, zie SPA. 

Een dingetje dat ik hier nog wel moet aanstippen: in mijn uiteenzetting gaat het voortdurend over één enkele leerling/student die een toets aflegt, niet over hele klassen (proefwerken) of jaargroepen (centrale examens). Dat is een bewuste keuze. Leerlingen hebben er recht op. 

Een gevolg van deze keuze is dat in het geschetste wiskundige model geen melding is gemaakt van verschillen in moeilijkheid van de vragen in de heel grote (denkbare) vragenverzameling. Moeilijkheid is immers niet gedefinieerd voor modellen voor N=1. Intrigerend? Zeker. 

Het heeft alles te maken met een besliskundige benadering met de leerling als primaire beslisser, NIET de leraar. En dat hangt weer samen met de kwaliteitseis voor toetsen en examens: ze moeten door leerlingen doeltreffend zijn voor te bereiden. (De Groot 1970 https://benwilbrink.nl/publicaties/70degroot.htm )

verwijzingen met annotaties, vooral eigen publicaties op de behandelde thematiek

Francis Y. Edgeworth (1888). The statistics of examinations. Journal of the Royal Statistical Society, 51, 599-635. https://www.jstor.org/stable/2339898 [Een cruciaal inzicht was zeker in de 19e eeuw al aanwezig: een toets of examen was geen exacte meting maar behept met toevalligheden omdat het altijd maar een steekproef is. “A public examination is already a sort of lottery of the graduated species which I have been describing: one in which the chances are not equal, but are better for the more deserving; increasing with the real merit of the candidates up to a degree of probability which amounts to certainty. It is a species of sortition infinitely preferable to the ancient method of casting lots for honours and offices.

Lee J. Cronbach & Goldine C. Gleser (1957/1965 2nd). Psychological tests and personnel decisions. University of Illinois Press. abstract: https://psycnet.apa.org/record/1965-10191-000 [Verkent test- en selectiemodellen op besliskundige leest. Met een belangrijke bijdrage van Robert van Naerssen in de 2e editie, over besliskundige selectie van chauffeurs in het Nederlandse leger, een samenvatting van zijn promotieonderzoek over dit onderwerp.]

Adriaan D. de Groot & Robert F. van Naerssen (Red.) (1969). Studietoetsen construeren, afnemen, analyseren. Mouton.  (ebook inhoud/chapters alleen deel 1: https://www.degruyter.com/document/doi/10.1515/9783111559728/html ) [Dit invloedrijke standaardwerk is sterk ideologisch gekleurd. Het is van belang om daar eindelijk eens goed aandacht aan te besteden omdat hedendaagse toetspraktijken (van Cito tot uitgevers tot toetshandleidingen voor leerkrachten) de psychometrische ideologie nog steeds volgen. Beide redacteuren komen in publicaties in het erop volgende jaar tot inzichten die haaks staan op deze psychometrische mainstream. Voor een begin van een kritische analyse van het boek, zie mijn blog ‘Studietoetsen van De Groot & Van Naerssen, na 40 jaar: een beschouwing’: https://benwilbrink.nl/projecten/studietoetsen_40_jaar.htm]

A. D. de Groot (1970). Some badly needed non-statistical concepts in applied psychometrics. Nederlands Tijdschrift voor de Psychologie http://www.benwilbrink.nl/publicaties/70degroot.htm [De Groot zet de leerling/student voorop: toetsen en examens moeten door hun doeltreffend zijn voor te bereiden. Dat betekent dus ook, maar dat is mijn interpretatie, dat mainstream psychometrische benaderingen zoals in De Groot & Van Naerssen (1960) niet meer kunnen voldoen]

R. F. van Naerssen (1970). Over optimaal studeren en tentamens combineren. Openbare les. http://www.benwilbrink.nl/publicaties/70vNaerssenLes.htm [Van Naerssen paste een besliskundige benadering toe. Zoals de titel al aangeeft, plaatste ook hij de leerling/student nu voorop: wat is het voor die leerling/student om optimaal te studeren / zich doeltreffend voor te bereiden?]

Dick Tromp & Ben Wilbrink (1977). Het meten van studietijd. In: Congresboek Onderwijs Research Dagen 1977, p. 186-189. https://benwilbrink.nl/publicaties/77StudietijdORD.htm [Een toets of examen is een steekproef van wat de leerling/student op dat moment kan presteren. Het gaat niet om een stabiel kenmerk van de persoon, maar om een momentopname die afhangt van tal van omstandigheden. Het paper reduceert die ‘omstandigheden’ tot een overzichtelijk aantal: voorkennis, streefniveau, en tijdbesteding van de leerling. Deze omstandigheden zijn kwantificeerbaar, en dan is er een causaal padmodel beschikbaar dat de verbanden kwantificeert. Ik noem dit paper hier omdat we ons altijd moeten realiseren dat getoetste studieresultaten direct afhangen van factoren die we meestal NIET tegelijk vaststellen. Zonder gegevens over tijdbesteding weten we niet goed wat toetsresultaten betekenen.]

Ben Wilbrink (1978). Studiestrategieën. Examenregeling deel A. Amsterdam: COWO (docentenkursusboek 9). https://benwilbrink.nl//publicaties/78StudiestrategieCOWO.htm [Een wel heel grondige docentenkursus, uitgaande van wat voor studenten optimale stratieën zijn in de voorbereiding op tentamens. Hier komen het binomiale model voor de toets, het beta model voor de aannemelijkheid, en het betabinomiale model voor de voorspellende toetsscoreverdeling gegeven een resultaat op een proeftoets (‘mock assessment’) uitvoerig aan de orde. Omdat dit in 1978 onontgonnen terrein was, is de behandeling van deze zienswijze op toetsen nogal moeizaam, maar er volgen toch al belangrijke inzichten uit voort. Heel dit werk is geïnspireerd op de tentamenmodellen van Van Naerssen, waarvan ik eindelijk het grote belang inzag. Een deel B is er nooit gekomen (maar zie Ben Wilbrink (1979). Universitaire examenregeling): het COWO werd in de eerste grote bezuinigingsoperatie van het universitair onderwijs door het CvB-Cammelbeeck opgeheven. Dit kursusboek laat in ieder geval zien dat het betabinomiale model belangrijke toepassingen heeft. Ook al gaan docenten hier niet zelf actief mee aan de slag, zal het ze toch meer inzicht geven in wat er bij tentamens en examens speelt. Het was de bedoeling een en ander om te werken tot een (analytisch) proefschrift onder begeleiding van Wim Hofstee, maar dat is om tal van redenen niet gelukt. Het SPA-model https://benwilbrink.nl/projecten/spa_project.htm is de vrucht van alle inspanningen, maar dat strandde bijna op de eindstreep op softwareproblemen van JAVA]

Ben Wilbrink (1979). Toetsen. Amsterdam: COWO (docentenkursusboek 10). https://benwilbrink.nl/publicaties/79toetsen.cowo.htm [Hierin hoofdstuk 8. Interpretatie van toetsresultaten. Dit hoofdstuk behandelt het betabinomiaal model. De paragrafen zijn: 8.1 Beheersing van de leerstof; 8.2 Wat valt er over de toetsscore te zeggen als de ware beheersing gegeven is? {binomiaal model}; 8.3 Wat kan de student over zijn eigen ware beheersing zeggen voorafgaand aan de toets? {beta model aannemelijkheid}; 8.4 Hoe kan de student zijn toetsscore voorspellen? {betabinomiaal als voorspellende toetsscoreverdeling}; 8.5 Wat kan de docent zeggen over de ware beheersing van de student, gezien zijn toetsscore?; 8.6 Gemiddelde, standaarddeviatie, en nog enkele begrippen. {ook voor de binomiaal, beta, en betabinomiaal}; 8.7 Wegstrijken van toevalligheden in de scoreverdeling. {‘smoothing’ door een betabinomiaal te passen op de frequentieverdeling van ruwe scores voor de toets}; 8.8 Wat kan de docent zeggen over de ware beheersing van de groep studenten, gezien de testscores? {dat wordt dus een betaverdeling}; 8.9 Wat kan de docent zeggen over de ware beheersing van een enkele student, nu ook een groepssresultaat bekend is?; 8.10 Denk aan de veronderstellingen bij het gegeven model! Ik moet zeggen dat ik totaal vergeten was dat deze cursus ook dit wiskundige model behandelde. Het is allemaal wat stug, omdat er in die tijd nog met primitieve programmeerbare rekenmachientjes van Texas Instruments gewerkt moest worden. ]

Ben Wilbrink (1979). Universitaire examenregeling: conjunctief of compensatorisch. Onderwijs Research Dagen 1979, in K. D. Thio & P. Weeda (Red.), Examenproblematiek, p. 29-43. ORD bundel. Den Haag: SVO. https://benwilbrink.nl/publicaties/79ExamenregelingORD.htm [Dit is een directe toepassing van het toetsmodel op de vraag of compensatoire examenregelingen beter zijn dan conjunctieve. De student is de primaire beslisser die een goede studiestrategie wil kiezen, misschien zelfs een optimale strategie. Daar is zowel het te kiezen streefniveau als de tijdbesteding bij van belang (Tromp & Wilbrink 1977). Interessante gedachtegang, zeker ook vergeleken met latere oppervlakkige publicaties van methodologen uit psychologische hoek in Pedagogische Studiën en Science Guide]

Ben Wilbrink (1980). Kansberekeningen bij Pais’ voorontwerp van wet toelating tot numerus fixus studies in het w.o. Centrum voor Onderzoek van het Wetenschappelijk Onderwijs COWO van de UvA. https://benwilbrink.nl/publicaties/80KansberekeningenCOWO.htm [Dit is een directe toepassing van de methode van de voorspellende toetsscoreverdeling {betabinomiaalmodel} voor het berekenen van toelatingskansen van diverse subgroepen die in het Voorontwerp van wet van onderwijsminister Pais al dan niet voorrang krijgen bij de toelating tot numerus fixusstudies. De berekeningen laten zien dat na de voorrang voor deze subgroepen er voor ‘gewone’ mannelijke eindexamenkandidaten veel te kleine toelatingskansen overblijven. Pais heet geen wetsontwerp ingediend; of mijn berekeningen daar een rol bij hebben gespeeld weet ik niet.]

Ben Wilbrink (1983). Toetsvragen schrijven. Utrecht: Het Spectrum, Aula 809. Tekst van originele versie in zijn geheel: https://benwilbrink.nl/publicaties/83ToetsvragenAula.pdf, ook integraal beschikbaar via books.google. Met deels herziene hoofdstukken, onder de titel ‘Toetsvragen ontwerpen’: https://benwilbrink.nl/projecten/toetsvragen.1.htm [In toetsland is een dominant idee dat je voor het ontwerpen van toetsvragen in de wieg gelegd moet zijn, een creatieve geest moet hebben. Maar wie de kwaliteitseis van De Groot (1970) serieus neem dat toetsen doeltreffend moeten zijn voor te bereiden, ziet in dat je leerlingen niet met creatief ontworpen toetsvragen moet belasten. Hoe dan wel? Dit boek geeft heuristieken die afgeleid zijn van een strak theoretisch kader voor het ontwerpen van toetsvragen. Overigens was dit boek dus ook bedoeld om docenten handreikingen te doen voor het zelf ontwerpen van toetsen. Achtergrond daarvan was ook dat de Universiteit van Amsterdam destijds het gangbare geheimhouden van tentamenvragen verbood omdat dat ongewenste praktijken en dus ongelijke kansen uitlokte (handeltjes in uitgelekte tentamenvragen)]

Ben Wilbrink (1986). Toetsen en testen in het onderwijs. In S.V.O. Jaarverslag/Jaarboek 1985, 275-288. Den Haag: Stichting voor Onderwijsonderzoek, https://benwilbrink.nl/publicaties/86ToetsenEnTestenSVO.htm [Wezenlijk verschil tussen testen en toetsen is dat voor het eerste de veronderstelling is dat er geen gerichte voorbereiding op is geweest, terwijl voor toetsen in het onderwijs het er juist om gaat dat leerlingen er wèl gericht op zijn voorbereid. Dat verschil heeft enrme consequenties voor wat een goede methodologie is voor bijvoorbeeld de duiding van uitkomsten. Bij tests is dat de ‘mainstream’ psychometrie, en terecht. Maar diezelfde psychometrie is juist NIET passend bij toetsen in onderwijs. Tenzij vergelijkende selectie het doel van toetsen is, dan betreden we een soort schemergebied. In bijna 100% van publicaties die het toetsen in onderwijs betreffen behandelen auteurs de toetsen alsof het psychologische tests zijn waar leerlingen zich niet inhoudelijk op hebben voorbereid. Dit artikel in het S.V.O.-jaarverslag heeft kortdurend impact gehad op de NIP (1988) Richtlijnen voor ontwikkeling en gebruik van psychologische tests en studietoetsen. Amsterdam: Nederlands Instituut voor Psychologen (Commissie voor Testaangelegenheden, Cotan). Het gaat om hoofdstuk 8: Toetsen. De Cotan heeft geen nieuwe edities van deze Richtlijnen uitgebracht, maar volgt nu de Amerikaans Standards https://www.aera.net/Newsroom/AERA-APA-and-NCME-Announce-the-Open-Access-Release-of-Standards-for-Educational-and-Psychological-Testing die internationaal gezien worden als te volgen richtlijnen. Die Standards maken helaas GEEN onderscheid tussen tests en toetsen zoals in mijn artikel beschreven. Rekening houden met hoe leerlingen/studenten zich voorbereiden is juist de kern van de besproken publicaties van De Groot (1970) en Van Naerssen (1970). Modellen die langs deze lijn zijn ontwikkeld vormen een didakometrie, door Bob Van Naerssen sterk bepleit.]

Ben Wilbrink (1987) Zelf-evaluatie voor propedeusestudenten.  In Grave, W. S. de, en Nuy, H. J. P. (Red.). Leren studeren in het hoger onderwijs (p. 157-166). Almere: Versluys Uitgeverij.  https://benwilbrink.nl/publicaties/87ZelfevaluatieLDS.htm [Sociale vergelijking, een wel heel andere manier om naar eigen cijfers en die van anderen te kijken. Een project in het kader van de schriftelijke raad (artikel 24 bis wet tweefasenstructuur). De resultaten van de voorgaande jaargroep studenten zijn telkens gebruikt om aankomende studenten voor te lichten over de voorspelbaarheid van eigen cijfers en dat eigen tijdbesteding daarop van invloed is {doe je best, jongelui}. Voorspelbaarheid: streefniveau/verwachting vergeleken met behaalde cijfers, terwijl ook bestede tijd aan voorbereiding is gevraagd bij ieder tentamen. Propedeuses tandheelkunde en rechten aan de UvA, in de 80er jaren. Het project leverde, zoals u kunt vermoeden, een interessante dataset op, waar verdere analyses op zijn gedaan.]

Ben Wilbrink (1992) Modelling the connection between individual behaviour and macro-level outputs. In Tj. Plomp, J. M. Pieters & A. Feteris (Eds.), European Conference on Educational Research (pp. pp. 701-704.). Enschede: University of Twente. https://benwilbrink.nl/publicaties/92ColemanModelingECER.htm [Voor het met cijfers waarderen van prestaties bestaan geen absolute normen. Nu zou je denken dat het helemaal aan docenten is om die cijfers te bepalen, maar dat is dus niet zo. En wel hierom: studenten kunnen een tegenmacht vormen door minder of juist meer te investeren in de voorbereiding op tentamens. In de ‘social systems’ theorie van James Coleman (1990, Foundations of social theory) geeft hij een wiskundig model voor dat touwtrekken tussen studenten en docenten. Docenten hebben cijfers als inzet, maar studenten hebben hun investering van tijd als inzet. Is deze impliciete onderhandeling tussen beide partijen een realistisch model? Het gerapporteerde onderzoek laat zien dat dat inderdaad het geval lijkt te zijn {voor wie dit wat zegt: de MTMM matrix heeft hoge validiteiten in de diagonaal}. Dit fenomeen kan dus ook een hypothetische verklaring zijn voor verschijnselen zoals de ‘wetmatigheid van Posthumus (1940 https://www.dbnl.org/tekst/_gid001194001_01/_gid001194001_01_0040.php)’, de vrijwel constante percentages zittenblijvers in de HBS tot aan WOII. De variabelen in dit spel: voorkennis, streefniveaus/verwachtingen en tijdbesteding, versus behaalde cijfers. Data: studenten in de propedeuse rechten, 80er jaren. Zie Tromp & Wilbrink (1977) voor een eenvoudig padmodel voor deze variabelen. Het Coleman-model gaat een belangrijke stap verder: het is een dynamisch model. Zie ook onderaan de webpagina de korte briefwisseling met James Coleman. Het is een gemiste kans dat dit onderzoek niet verder is gepubliceerd, de stress in de 90er-jaren maakte dat wel heel lastig.]

1995

1995

Ben Wilbrink (1998). Inzicht doorzichtig toetsen. In Theo H. Joostens en Gerard W. H. Heijnen (Red.). Beoordelen, toetsen en studeergedrag. Groningen: Rijksuniversiteit, GION – Afdeling COWOG Centrum voor Onderzoek en Ontwikkeling van Hoger Onderwijs, 13-29. https://benwilbrink.nl/publicaties/98InzichtToetsenCOWOG.htm [Deze bijdrage aan het lustrum-seminar van het COWOG laat een wel heel interessante toepassing van het toetsmodel zien. Mij werd gevraagd of ik een paper kon indienen over het toetsen van inzicht. Ik had een handig toetsmodel, hoe zou ik dat kunnen inzetten? In dat toetsmodel is de belangrijkste parameter de ware beheersing ‘p’. Bij inzicht gaat het om complexere vragen dan gewoon kennis. Het idee is dan {mijn inzicht hè!} om die parameter ‘p’ op te vatten als staande voor parate kennis van begrippen, eventueel ook van eenvoudige relaties, en inzicht als het tegelijkertijd ‘weten’ van alle afzonderlijke elementen {begrippen, basale relaties} die voor de oplossing van de inzichtvraag nodig zijn. Technisch: dat gelijktijdig beschikbaar hebben van kennis heet ‘spreading activation’. Voeg dan ook een eenvoudig leermodel toe voor kennis van begrippen en basale relaties. Daarmee hebben we het toetsen van inzicht tot zijn kale essentie teruggebracht, in een model waaraan gerekend of ook gesimuleerd kan worden. Al rekenend blijkt dan dat inzichtvragen al gauw veel moeilijker blijken te zijn dan men op het eerste gezicht geneigd is te denken {als bijv. vijf kenniselementen tegelijk beschikbaar moeten zijn, dan mag er dus geen enkele ontbreken: kansen zijn dan conjunctief, je moet ze met elkaar vermenigvuldigen: ‘p’ tot de macht 5}. Afijn, lees het paper. De lezing in Groningen was een succes, ik had er ook bijzonder plezier in om mijn verhaal daar te presenteren voor de Groningse collega’s. Over toets- en examenvragen die (veel) te moeilijk zijn kom ik nog te spreken naar aanleiding van een recent (2023) artikel geschreven voor Van12tot18.]

2023

Meetfouten? Bij toetsen?

Wroetend in mijn omgevallen boekenkast kom ik iets verrassends tegen. Het zal wel weer een publicatie van Patrick Suppes zijn? Ja, ‘Testing theories and the foundations of statistics’. Dat natuurkundigen van alle tijden zich niets aantrokken van meetfouten. Ptolemeus, Newton, Laplace, Maxwell, de hele quantum mechanica. Lees het zelf: 
De publicaties van filosoof etc. Patrick Suppes, altijd waardevol, zijn lastig te vinden; zijn corpus is afgeschermd voor Stanfordianen, maar zie bijv. van 1976-1980: suppescorpusd9.sites.stanford.edu/sites/g/files/…

Ontbrekende aandacht voor meetfouten in natuurkundige publicaties (lesmethoden dus ook) wekt de indruk dat het hier om exacte wetenschap gaat, als zou het wiskunde zijn. Nancy Cartwright laat zien dat zoiets een misvatting is: (1993). ‘How the laws of physics lie. Oxford UP.

Wat wel grappig is: deze natuurwetenschap lijkt dus meer op een sociale/gedragswetenschap dan velen denken. Psychologen vermoedden dat altijd al wel: persoonlijke waarnemingsfouten van astronomen in Greenwhich leidden tot experimentele psychologie, zie: https://sci-hub.hkvisa.net/10.1038/380101a0

De waarnemingen betreffen de meridiaan-passage van sterren. Er bleek een verschil van bijna een hele seconde tussen de baas van het spul, de Astronomer Royal, en een assistent. Jammer voor die laatste, dus. NB: deze metingen waren van belang voor lengtebepaling op zee. 

Dit is een mooie gelegenheid om nog eens het verschil tussen meten en steekproeftrekken te benadrukken. Toetsen en examens zijn steekproeven, geen metingen. Toch wordt in de literatuur vaak gedaan of er bij toetsen meetfouten optreden. Denk zelf even na, zou ik zeggen.  Een toets of examen bevat vragen over verschillende onderdelen van de opgegeven stof, en dat ook nog weer in verschillende varianten. Toetsvragen zijn geen klonen van elkaar: het gaat telkens over iets anders uit de stof. Een toets is een steekproef, die telkens anders uitvalt.  Verschillen tussen de ene steekproef en de andere zijn geen meetfouten, maar geldige inhoudelijke verschillen. Bijvoorbeeld het verschil tussen de eerste en de tweede helft van een toets van 40 vragen, gemaakt door Jan, of Piet, of Marie. 

Dat toetsen en examens steekproeven zijn, verhoudt zich slecht tot tradities die toetsresultaten verdelen in onvoldoende en voldoende resultaten. A.D. de Groot raakte er in zijn denken mee in de knoop: rond de grens zijn beslissingen zakken/slagen niet valide. Klopt. 

Meetfouten zijn iets geheel anders. Daar is ook een afzonderlijke literatuur over, bijvoorbeeld:
Wayne A. Fuller (1987). Measurement error models. Wiley. 
Een eeuw eerder: 
Emanuel Czuber (1891). Theorie der Beobachtungsfehler. annas-archive.org/md5/6eaef37d05…
tinyurl.com/37y5j6y7

Maakt het uit, meetfout of steekproefverdeling? Dat zou ik denken. Lichaamslengte meten met een meetfout van een halve cm, mwah. 
Stofbeheersing toetsen met een toets/steekproef van 10 vragen: het resultaat kan ‘all over the place’ uitkomen. Zie mijn ‘Strategic Preparation for Assesssment (SPA) Model’ https://wordpress.com/home/benwilbrink.wordpress.com

Hoe is een 20e eeuwse geschiedenis van beoordelen in onderwijs mogelijk?

Nadenkend over de geschiedenis van beoordelen in het onderwijs van de 20e eeuw kom ik op de volgende stelling: 

De overgang van het eeuwenoude rangordenen op het moderne cijfergeven, 2e helft 19e eeuw (zie citaat uit Wilbrink 1997 hieronder), leidde tot een andere selectieve cultuur.

“A short description of the emergence of the marking system in England is given by Rothblatt (1993, p. 44); competitive examinations in Oxbridge demanded objective assessment, and credible objectivity demanded the curriculum to be narrowed so as to be able to assess by using marks. This is an important clue, that marking served purposes of ranking, especially to legitimize the judgments being made of the examination papers, and that curricular content was adjusted to make this kind of assessment possible. In France the marking system seems to have evolved from the ranking system: Chervel (1993, p. 136 ff.) shows how juries for the French concours d’agrégation gradually change a complex ranking procedure into a marking system. Instead of simply ranking the candidates from the worst (number one) to the best achiever (equal to the number of candidates), candidates came to be ranked on a fixed range from one (worst) to ten (best), allowing ties, or breaking ties by using halves. The change was made complete by not using the extreme numbers when the impression was that candidates were not good or bad enough to ‘deserve’ them. Marking systems differ from country to country, while the basic idea underlying them is the same everywhere in the Western world: the system of ranking stripped of its prizes, and pseudo-objectified by evaluating achievement directly on a marking scale. With hindsight, the problem in the new marking systems is the lack of rules or standards that could make the translation from the number of errors to the assigned grade an objective one.” André Chervel (1993). Histoire de l’Agrégation. Contribution à l’histoire de la culture scolaire.  Paris: INRP Editions Kime.

Ging het bij het rangordenen om de strijd om de beste te zijn, beloond met een prijsboek, bij het cijfergeven was het voortaan zaak niet tot de slechtsten te horen: ‘onvoldoende’ cijfers betekenden zittenblijven of afstromen. J. Spoelder (2000). Prijsboeken op de Latijnse school (proefschrift) https://repository.ubn.ru.nl/handle/2066/266852

Maar dat cijfergeven is niet iets totaal anders dan het rangordenen hè! Cijfergeven is nog steeds rangordenen, maar het is een vorm van gestandaardiseerd rangordenen, en tegelijk een sterkere kwantificering van (verschillen in) prestaties. Amy N. Langville & Carl D. Meyer (2012). Who’s #1? The Science of Rating and Ranking.  https://press.princeton.edu/books/hardcover/9780691154220/whos-1

Geheel in overeenstemming met het 19e-eeuwse streven naar standaardiseren en nauwkeuriger kwantificeren (‘The values of precision’ ). M. Norton Wise (Ed.) (1995).  The values of precision. https://press.princeton.edu/books/paperback/9780691016016/the-values-of-precision

Dat mag allemaal zo zijn, de precisie van het cijfergeven is vooral bedrieglijk, ‘window dressing’, schone schijn. Ik geef hier twee aanwijzingen voor die schone schijn. De eerste kent u wel, het door Posthumus 1940 beschreven fenomeen van vrijwel constante percentages zittenblijvers in de HBS, tot 1940, wat er ook in de wereld veranderde (en dat was heel wat). K. Posthumus (1940). Middelbaar onderwijs en schifting, De Gids. Jaargang 104 https://www.dbnl.org/tekst/_gid001194001_01/_gid001194001_01_0040.php

De tweede aanwijzing: het dynamisch analysemodel van James Coleman (1990) maakt aannemelijk dat leerlingen en leraren in voortdurende ‘onderhandeling’ zijn over te behalen, respectievelijk te geven cijfers. Ze hebben elkaar in een houdgreep.

James S. Coleman (1990). Foundations of social theory. The Belknap Press of Harvard University Press hup.harvard.edu/books/97806743…

Ik heb de methodologie van Coleman kunnen toepassen op door mij in de 80er jaren verzamelde data van de propedeuse rechten aan de UvA, met verrassend resultaat: Ben Wilbrink (1992). The first year examination as negotiation; An application of Coleman’s (1990) social system theory to law education data. benwilbrink.nl/publicaties/92… congrespaper

Er zijn tegelijk andere voor het beoordelen belangrijke ontwikkelingen. Ik noem er weer twee. Allereerst is dat de explosie van de deelname aan (publiek) onderwijs.. Vervolgens is dat de invloed van de intelligentietest op onderwijs en samenleving. Of is die volgorde omgekeerd?

Beide genoemde ontwikkelingen vormden echt een breuk met al het voorgaande in de geschiedenis van het beoordelen in onderwijs, reden om mijn 1997 ‘geschiedenis’ ervan af te sluiten rond het jaar 1900. Het is een fikse uitdaging die geschiedenis uit te breiden met de 20e eeuw.

Met welk type probleem heb ik eigenlijk te maken, bij een geschiedenis van ‘educational assessment and measurement’ in de 20e eeuw? Ik begin te vermoeden dat het probleem wel eens in de sfeer van emergentie kan liggen. Wat dat is?

Een ‘nieuw’ fenomeen op basis van talloze micro-gebeurtenissen. Temperatuur is een voorbeeld van emergentie; temperatuur is de resultante van bewegingen van atomen, het is geen eigenschap van atomen. Gasdruk: idem. Over emergentie zie bijvoorbeeld: Mark A. Bedau and Paul Humphreys (Eds) (2008). Emergence. Contemporary readings in philosophy and science. MIT Press. https://mitpress.mit.edu/9780262524759/emergence/

De vraag is bijvoorbeeld of de impliciete onderhandeling tussen leerlingen enerzijds en leraren anderzijds over cijfers volgens model van James Coleman een emergent verschijnsel is. Concreter: bijvoorbeeld of zak-slaaggrenzen (bij overgangen, examens) een emergent fenomeen zijn.

Hoe er in het onderwijs ook beoordeeld en gewaardeerd wordt, niets daarvan gebeurt op basis van absolute normen. Ook het antwoord op de vraag 2 + 2 = ? Vragen op dit niveau stellen we niet bij eindexamens (hoop ik dan maar). Of vragen passend zijn, is contextueel, relatief.

Als normen voor beoordeling en waardering niet absoluut zijn, dan zijn ze kennelijk de resultante van tal van kleine invloeden en beslissingen van betrokkenen: emergent. Nota bene: dit is niet hetzelfde als het cesuurprobleem in de onderwijsliteratuur, zoals: Monika Vaheoja (2022). Setting standards in small samples. Dissertation https://research.utwente.nl/en/publications/setting-standards-in-small-samples

Een belangrijke vraag is hoe betrokkenen, of een bepaalde partij, deze loop der dingen kan onderbreken. Tot de geschiedenis van het beoordelen in de 20e eeuw behoren dan ook eventuele pogingen om de traditie te doorbreken. Zoals daar zijn: door de inzet van psychologische tests (vooral in de USA); Bloom’s leren voor beheersing; cijfervrij onderwijs; methoden voor cesuurbepaling.

Een wel heel speciaal doorbreken van beoordelingsgewoonten is de inzet van een loting in plaats van vergelijkende selectie voor het verdelen van schaarse studieplaatsen in het hoger onderwijs. Eigenpromotie, ik weet het. Maar toch hè! (ook in het Engels): ‘In het kort: de geschiedenis van loten voor geneeskunde’ https://benwilbrink.wordpress.com/2023/07/11/in-het-kort-de-geschiedenis-van-loten-voor-geneeskunde/

Ik kan misschien het best aan de hand van het cijfergeven analyseren wat ik van een geschiedenis van beoordelen in onderwijs in de 20e eeuw verwacht, en wat nut en noodzaak ervan is.

In de 20e eeuw weet vrijwel niemand meer wat de oorsprong en idee van het cijfergeven is. De auteur van ‘Vijven en zessen’, A. D. de Groot https://archive.org/details/vijvenenzessenci0000groo, bekende dat de vraag naar de oorsprong van dat cijfergeven niet bij hem opgekomen was. In de literatuur zijn cijferstelsels een gegeven, waar ze hun oorsprong hebben interesseert niemand?

Zonder inzicht in de wortels van cijfergeven in het rangordene gaat dat cijfergeven een eigen leven leiden. Dat gaat nog enigszins goed bij beantwoorden van de vraag naar het meetniveau van cijfers: dat is ordinaal, je mag niet middelen (doen we toch, wat kan het schelen).

En zo stuit ik onverwacht en na een goede nachtrust op wat een verschil is tussen een geschiedenis van toetsen, en kritische analyse ervan. Een geschiedenis gaat over het hoe en waarom van de ontwikkelingen.

Cijfergeven was na zijn brede adoptie in het onderwijsveld gewoon een gereedschap dat ook van pas kwam waar het oorspronkelijk niet voor was bedoeld, niets mee te maken had. Behaalde cijfers waren bijvoorbeeld een mooie kapstok om overgangsbeslissingen aan op te hangen.

Of dat past bij oorspronkelijke bedoelingen is goed om te weten voor een normatieve analyse van beoordelen en toetsen (doen we het eigenlijk wel goed, moet het misschien anders, en hoe dan?), maar voor een historische analyse kan het blijven bij een constatering.

Langs deze lijn zijn er ontwikkelingen van eind 19e eeuw tot begin van de 21e die op interessante wijze in elkaar haken, elkaar soms versterken, soms dempen. Ik noem alvast het wijd verbreide denken over toetsen in termen van de psychometrie: die psychometrie kwam velen kennelijk van pas. Zie bijvoorbeeld Adriaan D. de Groot & Robert F. van Naerssen (Red.) (1969). Studietoetsen construeren, afnemen, analyseren.Mouton. Nee, er is helaas geen digitale versie beschikbaar. [Ik moet als voorbereidende stap een kritiek op de (psychometrische) ideologie in dat boek schrijven, houd mij eraan. Die ideologie is volkomen losgezongen van waar onderwijs voor staat, maar heeft via de activiteiten van het Cito wel een enorme impact op zowel basis- als voortgezet onderwijs gekregen. ]

‘Wat velen kennelijk van pas kwam’ is ook een inzicht dat deze geschiedenis vele (groepen van) actoren of belanghebbenden kent, binnen brede maatschappelijke ontwikkelingen. De 19e eeuw: opkomst van examens voor van alles en nog wat. Wat heb je in je mars, niet wie is je vader.

Begin 21e eeuw: de ICT-industrie doet een greep in de budgetten van het publieke onderwijs, vooral met lobby voor digitaliseren van examens als paard van Troje voor algehele digitalisering. (Ben Willamson brengt die netwerken in beeld https://www.de.ed.ac.uk/people/dr-ben-williamson) ChatGPT gaat als smeerolie fungeren.

Deze draad begon ik met een stelling over een verschuiving in de cultuur van het beoordelen in de klas. Daar moet ik nog wat mee. Interessanter is dat deze draad een verkenning is geworden, een verkenning naar mogelijkheden voor een geschiedenis van beoordelen in de 20e eeuw.

Die verkenning is nog maar net begonnen, maar dit begin smaakt naar meer. Ik wil er echt mee doorgaan, maar sluit deze draad hier voorlopig af. Ik ga nog wat droodelen met een conceptmap; als die wat inzicht biedt, hang ik hem hier als slot aan de draad.

PS Voorkennis activeren (de stelling in tweet #1) is vaak nuttig. Zo zie ik nu plots dat overgaan van rangordenen op cijfergeven het mogelijk maakte dat leerlingen en leraren in voortdurende impliciete onderhandeling zijn over die cijfers. Bingo! benwilbrink.nl/publicaties/92…

Over een klassieke rangorde valt voor leraren/docenten niets te onderhandelen: gemaakte fouten bepalen de rangorde. Leerlingen kunnen wèl aan de bak: meer tijd investeren levert een beter resultaat op. Tenzij anderen dat ook fanatiek gaan doen: het is wel competitief.

Voor een geschiedenis van beoordelen in onderwijs zoek ik naar de kern van de zaak, waarop ik kan bouwen. Die kern is mogelijk: alle beoordelen en waarderen in onderwijs is relatief, absolute maatstaven bestaan hier niet. Bij cijfergeven wordt dat dus touwtrekken tussen actoren.

Ik vermoed dat ik hiermee een fundament heb voor een geschiedenis van beoordelen in de 20e eeuw. In een ontwerp voor zo’n bouwwerk komen veel zaken aan de orde die al uitgebreid op mijn website staan. Mogelijk is dat een tikje eenzijdig, dat is dan het lot van de wetenschapper.

‘Beoordelen en waarderen’: het onderscheid tussen die twee is wel van belang hè!

Bij het rangordenen gaat het om gemaakte fouten in opgegeven werk: kwestie van beoordelen. Daar kan wel iets van waardering insluipen, maar de kern is vakinhoudelijk oordelen.

Bij het cijfergeven gaat het er aanvankelijk om, zoals bij de Agrégation halverwege de 19e eeuw, zo dicht mogelijk bij het rangordenen te blijven. Dat duurt niet lang: het cijfergeven wordt een autonoom gereedschap voor leraren, het wordt de waardering van beoordeeld werk.

===================

Deze blog is een lichte bewerking van Twitterdraad https://twitter.com/benwilbrink/status/1754101903623889276

In een extra draadje over cijfergeven https://twitter.com/benwilbrink/status/1755593910209114424 heb ik nog het volgende toegevoegd:

We hebben geen flauwe notie van wat we eigenlijk aan het doen zijn, met dat cijfergeven in onderwijs. Een sterke aanwijzing daarvoor komen we zelfs dagelijks tegen, zonder er notitie van te nemen: de idiotie om 5 niveaus van ‘onvoldoende’ te onderscheiden, in onze cijferschaal. En dat is niet zomaar een dingetje hè! We rekenen er leerlingen spijkerhard op af, want die ‘1’ nemen we keihard mee in het berekenen van rapportcijfers als gemiddelde van de behaalde cijfers. Leerlingen doubleren als gevolg van deze gekkigheid. Of ze geven het op omdat ze denken met drie enen echt niet over te kunnen gaan. En dat is dan een casus uit huiselijke kring, met drie enen die bovendien op oneigenlijke gronden waren gegeven. Cijfers als roede. Dan liever buigzame twijgen zoals Joan Cele verzamelde met zijn leerlingen. (Zwolle, eind 14e eeuw)

Over evidence-informed gesproken: welk bewijs is er na het bovenstaande nog nodig om onmiddellijk met de waanzin te stoppen. Wat mij betreft: ik zou het een enorme stap voorwaarts vinden als een school radicaal stop met cijfers beneden 5 uit te delen. Morgen beginnen. 

Over cijfers is een en ander wettelijk geregeld, sinds de oprichting van de HBS. Een overzicht daarvan geeft: Cijferverdelingen in het voortgezet onderwijs. Een historisch perspectief en recente ontwikkelingen. Door Paul van der Molen en Jos Keuning (zd). https://cito.nl/media/ovbgkhwh/cito_rapport_cijferverdeling_vo.pdf

Als de wet een cijferschaal van 1 tot 10 voorschrijft, waarbij een 5 juist onvoldoende is, laat dat het onderwijs vrij om bepaalde cijfers niet te gebruiken. Dus bijvoorbeeld ook om nooit een ‘onvoldoende’ te geven. Want waarom zou je dat als leraar/pedagoog doen?

Houd het belangrijke verschil tussen ruwe scores en hun waardering met een cijfer in de gaten. Die cijfers horen bij de administratie van Dorknooper, ze zijn gestript van concrete informatie over de prestatie zelf. Een ‘1’ geven voor een proefwerk is een vorm van mishandeling. Er is nog steeds geen professionele code voor beoordelen in het po en vo, of ik moet me al sterk vergissen. Een voorstel ervoor is al lange tijd beschikbaar, maar door de bonden/koepels/politiek niet opgevolgd. Zie: https://benwilbrink.nl/projecten/toetsvragen.8.htm#gedragscode

Martin Ringenaldus: “Ben, er zijn serieus collega’s die het prima vinden om diepe onvoldoendes te geven en er oprecht van overtuigd zijn dat leerlingen daardoor gemotiveerd raken om bij de volgende toets beter hun best te doen. Onvoldoendes als opvoedkunde. Ik verzin het niet.”

Het zijn zweepslagen. Volgens de spelregels zoals de leerlingen die kennen, moet je diepe onvoldoendes compenseren met hoge cijfers. Maar die zijn juist onhaalbaar, want die diepe onvoldoendes komen niet uit de blauwe lucht vallen. Dat wordt dus zittenblijven. Wèg motivatie. De individuele en maatschappelijke kosten van dit type zittenblijven zijn gigantisch. Wie heeft ook alweer de taak om op de deugdelijkheid van onderwijs toe te zien?

In Nederland werden in de 1e helft van de vorige eeuw nog wel cijferschalen van 1 tot 5 of 6 gebruikt, ‘1’ het hoogste. Dergelijke cijferschalen komen in andere landen nog grootschalig voor, zoals de Amerikaanse grade points A B C D F. Het kan best, doen.

Martin Ringenaldus: “Het Duitse systeem: 1 = ausgezeichnet, 2 = sehr gut, 3 = gut, 4 = genügend, 5 = mangelhaft, 6 = ungenügend. Waarbij je niet foutloos hoeft te zijn om een 1 te krijgen.”

Wat De Groot in 1966 in zijn ‘Vijven en zessen’ liet zzien: dat onderwijs met zijn cijfers is een heel gekke wereld. Mijns inziens is het nog gekker dan dat: dat cijfergeven is een heel krachtig instrument, maar of het dan ook goed werkt, daar bekommeren we ons niet om.

Overgangsbeslissingen moeten wettelijk een besluit van de lerarenvergadering zijn, niet een algoritme op basis van rapportcijfers. De lerarenvergadering selecteert. Om verantwoord te kunnen selecteren, moet aan heel wat voorwaarden zijn voldaan. Lerarenvergaderingen hebben werkelijk geen idee. Zittenblijven is een fenomeen waarvan nog nooit enige positieve waarde is aangetoond. #evidence_informed Overmacht is nog weer iets anders: een leerling die het grootste deel van het schooljaar heeft gemist door ziekte kan dat jaar maar beter ‘overdoen’.

Er zijn sterke impliciete normen waar je met je cijfers ongeveer uit moet komen. Daar schreef De Groot al zijn ‘Vijven en zessen’ over. Het is allemaal relatief. Klaas Posthumus liet het scherp zien in zijn artikel in De Gids van 1940: een kwart blijft zitten. Altijd. Een voorbeeld uit mijn eigen schoolrapporten (lagere school): gemiddelde rapportcijfers voor mijn hele klas (klas 2 t/m 5). Het gemiddelde over alles (strikt genomen mag dat niet, maar who cares) is 6,354. Hier gebeurt dus helemaal niets, wat is dan de zin ervan? #Dorknooper

Image

Houd het onderscheid tussen vakinhoudelijk beoordelen en cijfermatig waarderen van de prestatie goed in de gaten. Dat cijfergeven is vooral administratieve ballast met akelige bijwerkingen.

Vraag: ‘heb ik wel eens beschreven hoe het dan wel moet, of beter kan? Beschrijvingen hoe dan wel, zónder kritiek op het andere?’

Twee dingen, als antwoord.

(1) Er zijn in en rond het onderwijs nogal wat zaken die je maar beter gewoon kunt laten. Stoppen ermee. Cijfergeven is zoiets. Wie het te radicaal vindt om er helemaal mee te stoppen, kan er deels mee stoppen. Bijvoorbeeld door noiit de 1, 2, of 3 te gebruiken. Of ook de 4.

Nauw verwant: ook het voortdurend leerlingen met elkaar vergelijken is zoiets dat maar beter geleidelijk of radicaal uit beeld kan worden geschopt. Een mooi voorbeeld van iets niet meer doen: loten in plaats van altijd maar selecteren (bij numerus fixus geneeskunde).

Hm, ik voel een blog aankomen. Het is een leuk onderwerp: onderwijs verbeteren door gewoon te stoppen met slechte gewoonten. Ik vermoed dat daar vaak geen bewijs uit onderzoek voor nodig is. Dat zou ook een aardige reeks op kunnen leveren: wat zonder bewijs al valt te doen.

(2) Eind 70er jaren schreef ik een aantal docentencursussen voor de UvA, over hoe het dan wél kan bij het beoordelen van studenten: over zakken/slagen, examenregeling, toetsen ontwerpen. Die laatste uitgewerkt tot Aula 809: https://benwilbrink.nl/projecten/toetsvragen.1.htm Ik ben nu wel oud genoeg om wat minder bescheiden te zijn over dit vroege werk: het gaat om echt àndere aanpakken van de bekende problemen. Die creativiteit heeft me de nodige problemen opgeleverd, maar ik zie niet hoe ik het anders had kunnen doen. Bekijk het op mijn website.

Ik heb dat creatieve werk in de 80er jaren achter me moeten laten door ingrijpende bezuinigingen van de kabinetten Lubbers op de universiteiten. Buitengewoon zware jaren waren dat. Econoom Jo Ritzen onderzocht wat die bezuinigingen per saldo hadden opgeleverd: niets, nul niente.

Wat test een eindtoets basisonderwijs?

Deze blog is de neerslag van een uitvoerige twitterdraad, gestart met bovenstaande enquête https://twitter.com/benwilbrink/status/1701166240931144146

Na 125 deelnemers tekent zich een interessante verdeling af. Ik moet me maar eens gaan voorbereiden op een snuggere duiding van een en ander. Ga ondertussen door met beantwoorden van deze eenvoudige eindtoetsvraag.  (Het is niet gezegd dat er maar één antwoord goed is … )

Oké, de uitslag is duidelijk. De vraag was dubbelzinnig, maar dat geeft niet. Toch? 

leeftijd 7,5%

Ik begin met de 7,5% ‘leeftijd’. En wel hierom: leeftijd is ondubbelzinnig vast te stellen. De analyse van leeftijds-bias/scheefheid laat ook zien hoe andere vormen van bias te analyseren.

Tot het kenmerk ‘leeftijd’ hoort niet alleen het aantal maanden dat de leerling oud is, maar ook de geboortemaand. Klaas Doornbos (1971) deed er zijn promotieonderzoek over, maar die tekst is digitaal niet beschikbaar. Afijn, lees en verbaas u:

Michiel de Hoog (2015). Elk jaar gaan duizenden kinderen naar de verkeerde school vanwege hun geboortemaand. De Correspondent. Uitstekend geïnformeerd, ik ben er heel blij mee. https://decorrespondent.nl/2773/elk-jaar-gaan-duizenden-kinderen-naar-de-verkeerde-school-vanwege-hun-geboortemaand/1ed4233a-6795-02c4-3d3d-b5f983aab48c

Een aardig artikel over geboortemaand-effecten in de sport is natuurlijk dat van Ad Dudink (2010). Geboortemaand telt. De Psycholoog, 45, 40-45. https://www.yumpu.com/nl/document/view/37341403/dudink-a-2010-geboortemaand-telt-de-psycholoog-45-1-40-45/6

Het vermoeden rijst dat geboortemaand en leeftijd echt belangrijk verschil maakt, en dat daar ongetwijfeld eenuitgebreide onderzoekliteratuur over bestaat. Dat klopt. Ik heb daar in de loop van de jaren een uitvoerig bestand over aangelegd. Deze ochtend heb ik eraan besteed digitale vindplaatsen toe te voegen aan die literatuur. Bekijk eens enkele artikelen: http://www.benwilbrink.nl/literature/geboortemaand.htm

De bijgevoegde figuur uit het artikel van Michiel de Hoog laat goed zien wat er aan de hand is: de geboortemaand bepaalt mee wie naar welk voortgezet onderwijs gaat. Dat heet (indirecte) discriminatie op geboortemaand.

Of dat komt door de scores op een eindtoets, of door wat er in jarenlang onderwijs aan de eindtoets is voorafgegaan, dat maakt voor deze ellende geen wezenlijk verschil. Een eindtoets die leeftijdsdiscriminatie bevestigt, deugt niet, is althans op zijn minst dus niet objectief.

Bij een niet discriminerende eindtoets moet geboortemaand geen ‘storende variabele’ zijn. De scores moeten dus op een of andere wijze worden ‘gecorrigeerd’ voor geboortemaand-effecten. Het lastige is hier dat die discriminerende effecten in het onderwijs zijn ontstaan, niet bij de toetsafname.  Correctie is niet meer mogelijk, het leed is geschied.

opleidingsniveau ouders 25%

Over opleidingsniveau van de ouders hoeven we niet moeilijk te doen, het CBS brengt het keurig in kaart. Bron: 

Op basis van het toetsadvies is aardig te ‘voorspellen’ (gissen) wat het opleidingsniveau van de ouders is. De eindtoets ‘meet’ dat dus ook.  https://ocwincijfers.nl/sectoren/primair-onderwijs/leerlingen/prestaties-eindtoets

‘Meten’ betekent immers zoiets als informatie halen. 

Nu zijn er 2 extreme situaties denkbaar, met gradaties ertussen: 

1) sociaal-economische status (SES) van de ouders heeft impact op onderwijsprestaties (nurture), of

2) de ongelijkheid heeft genetische oorzaken (nature).

Zoals de grafiek laat zien, gaat het om grote effecten. 

Het is wel een dingetje hoor. De kernvraag is hier: is het basisonderwijs wel eerlijk geweest voor alle leerlingen? Kan eerlijk onderwijs resulteren in toetsadviezen die sterk verschillen naar opleidingsniveau van ouders?

Als het antwoord daarop ‘nee’ is, dan is de eindtoets, dan zijn de toetsadviezen ook oneerlijk. Zou het antwoord ‘ja’ kunnen zijn? Ja, als het onderwijs aanvankelijk bestaande verschillen heeft verkleind. Maar zou dat goed genoeg zijn?

Waarom accepteren we als vanzelfsprekend dat er in het basisonderwijs überhaupt verschillen in prestaties tussen leerlingen zijn? Moet de basis niet voor alle leerlingen in wezen gelijk zijn? Kennen we onderwijs dat op die gedachte is gebaseerd?

E. D. Hirsch, Jr. (2020). How to educate a citizen

Hirsch noemt die basis ‘Core Knowledge’, zo’n 1000 basisscholen in de VS werken ermee. Afijn, dit terzijde. 

Basisonderwijs dat alle leerlingen meeneemt naar eenzelfde hoog niveau, dat maakt een eindtoets wel knap lastig hè!

We weten toch dat vrijwel ALLE leerlingen op hoog niveau kunnen leren rekenen, lezen en schrijven. Peter Langerak vertelde Tjip de Jong (podcast) dat ze dat in Engeland ook DOEN. https://tjipcast.nl/lesgeven/wat-is-er-in-nederland-met-ons-rekenonderwijs-aan-de-hand/

Afijn, ik moet de eerste alternatieven nog bespreken, ik heb daar een hele tijd over zitten dubben. In het kort dan:

Dat een eindtoets kennis zou moeten meten, ligt voor de hand. Maar wacht even, dan zou het een eindexamen basisonderwijs zijn, en dat is nou net niet de bedoeling. Ik kom op kennis later nog terug. 

intelligentie/talent 22%

Ooit stond Alfred Binet voor hetzelfde probleem:

hoe is het mogelijk om leerlingen die het gewone onderwijs niet echt behoorlijk kunnen volgen, vroegtijdig te signaleren zodat ze speciaal onderwijs aangeboden kunnen krijgen, en een drama door vastlopen in dat gewone onderwijs is te vermijden? We weten toch hoe dat is afgelopen.

Ik vind het enorm belangrijk dat de geschiedenis van Alfred Binet en zijn test bekend is bij iedereen die betrokken is bij gestandaardiseerd testen in het onderwijs. Hij noemde zijn test ‘intelligentietest’, en had daar enorm spijt van. Ik schreef een korte introductie ‘Intelligentie in historisch perspectief’ voor Van Twaalf tot Achttien. https://van12tot18.nl/artikelen/intelligentie-in-historisch-perspectief

Binet wilde zoveel mogelijk informatie verzamelen over leerlingen die mogelijk het onderwijs niet aan zouden kunnen. De onderwijsresultaten waren daarvoor niet voldoende, anders zou hem de onderzoekvraag niet zijn voorgelegd hè! Vraag ouders en onderwijzer het hemd van het lijf.

Naast schoolresultaten en andere info van onderwijzer en ouders wilde Binet graag meer weten over het cognitief functioneren in algemene zin, niet schools dus. Daarvoor bedacht hij allerlei vragen en opdrachtjes die niet op basis van schoolse kennis te beantwoorden zouden zijn.

Die test bleek goed te werken. Maar let op: die test was slechts onderdeel van een breder pakket van informatie over de leerlingen. In hedendaagse professionele codes in de psychologie vinden we dat terug: een testscore staat nooit op zich, omstandigheden zijn altijd belangrijk.

Kort en goed: die ‘intelligentietest’ van Binet ging een eigen leven leiden in de VS. De 20e eeuw zou de eeuw van de intelligentietest worden. Maar wat ‘intelligentie’ dan mag zijn, dat wist eigenlijk niemand. Nogal wiedes, Binet had daar geen scherp idee van, het was een naam.

Op dit moment is de stand van zaken dat het een uiterst controversieel begrip is, vooral om gedragsgenetici er een dichte mythologie van ‘erfelijkheid’ overheen hebben gebouwd. Maar dat is dus vooral pseudoscience. Ben ik weer onaardig zegt u? Zie dan  turkheimer_bbs_2023.pdf

Laat ik gewoon zeggen wat mijn positie is. 

Intelligentie is wat intelligentietests meten, en dat is een soort algemene neerslag van wat thuis en op school is geleerd. Onderzoek wijst uit dat ieder extra schooljaar 4 à 5 ‘IQ-punten’ vermeerdering van intelligentie oplevert.

Daar is weinig ‘erfelijks’ aan te bekennen. En we weten ook dat er een ‘Flynn-effect’ is: over die 20e eeuw heen is de intelligentie zo’n 30 IQ-punten gestegen. Test moesten vaak opnieuw genormeerd worden. Dat is idioot veel hoor! Is dat een genetisch effect? Natuurlijk niet.

Verschillen in intelligentie hebben een zo kleine genetische oorsprong, dat dat van geen enkel praktisch belang is in het onderwijs of de wereld daarbuiten. Voor talent geldt ongeveer hetzelfde. 

Gedragsgenetici zijn naast intelligentie, ook gek op ‘educational achievement’ EA.

Verschillen in EA, hoogst bereikte onderwijsniveau, zouden in hoge mate genetisch bepaald zijn (‘Blueprint, Robert Plomin). Nonsens. Ik noem het maar even, voor de zekerheid. Ik zei toch al dat dit alles controversieel is? (wordt nog vervolgd, daar denk ik nog over na).

Neem even rustig de tijd om deze figuur te bestuderen, uit: A. H. Oort (1928). ‘Proeven over verstandelijke ontwikkeling op Leidsche scholen’ Leiden: Van Doesburg. [Tests of intellectual development in schools in Leiden] 

Getabelleerd zijn ruwe scores op een intelligentietest die voor alle leeerlingen dezelfde was. 

Er is een toelichting bij nodig voor de scholen voor lager onderwijs in Leiden, in het Engels, anders is het voor engelstalige volgers niet te begrijpen:

De zwarte balkjes geven de gemiddelde ruwe score voor jongens, de grijze voor meisjes. Deze test zou discrimineren op sexe wanneer hij gebruikt zou worden voor selectie/plaatsing in het onderwijs. 

Goed zichtbaar: intelligentietest-ruwe-scores zijn ieder schooljaar hoger.

Het boek van Oort is online beschikbaar op Delpher:  https://www.delpher.nl/nl/boeken/view?identifier=MMKB21:031924000:00001&coll=boeken&query=%28Proeven+over+verstandelijke+ontwikkeling+op+Leidsche+scholen%29&cql%5B%5D=%28title+exact+%22Proeven+over+verstandelijke+ontwikkeling+op+Leidsche+scholen%22%29&rowid=1 

Geboortemaand-effecten zijn hier niet zichtbaar gemaakt, maar merk op dat de lagere scholen halfjaarlijkse klassen kenden. 

De intelligentietest meet niet de kennis uit de schoolcurricula. Dat zou ook niet kunnen, nietwaar. Van klas 1 zes-jarigen tot klas 6 gymnasium.

Ik realiseer me ineens dat ‘intelligentie’ in de discussie over de vaardigheden waar het in het onderwijs om dient te gaan, ontsnapt is aan de lijst van ‘onderwijsbaar geachte’ vaardigheden, of ze nu 20e, 21e-eeuws zijn, soft skills, of reken- en taalvaardigheden. Opmerkelijk.

SES is expliciet in de soort school, niet iets dat Oort met een vragenlijst boven water moest halen. Denk niet dat ons onderwijs, een eeuw later, minder langs lijnen van SES loopt, natuurlijk niet. Daarom hebben we die eindtoetsen immers. Ooit als hulpje, nu meer als dwangbuis.

Bijzonder is dat deze figuur uit Oort laat zien dat intelligentie onderwijsbaar is, terwijl de eerste indruk die de figuur wekt juist is dat verschillen in intelligentie door SES zijn bepaald. 

In de 19e eeuw dachten Darwin ea dat het volk dom was. Het kreeg geen onderwijs hè!

En hier komt de aap uit de mouw: door omstandigheden zoals SES hebben sommige leerlingen meer tijd nodig dan anderen. Maar we hebben ons stelsel zo ingericht dat in beginsel alle leerlingen evenveel tijd krijgen, namelijk zes jaar basisonderwijs (groep 3-8).

Dat maakt ‘als vanzelf’ dat de verschillen tussen leerlingen op 12-jarige leeftijd voor een belangrijk deel SES-verschillen zijn, de eindtoets basisonderwijs toetst op die verschillen, en zo worden leerlingen gesorteerd naar ons stelsel van grondig ongelijk voortgezet onderwijs.

Ik wil nog terug naar de gestelde vraag ‘Wat meet de eindtoets basisonderwijs’. 

Maar eerst is de conclusie dat de eindtoets onmogelijk eerlijk en objectief kan zijn. En dat geldt uiteraard ook voor de schooladviezen: schoolleiders en leraren staan voor een ondoenlijke taak. 

Meten we kennis? 46,2%

Wat moet er met stip allereerst over het toetsen van kennis worden vastgesteld? Ik heb over die vraag echt heel lang lopen piekeren, en het bleef me maar ontgaan.  Vandaag kwam ik erop.  Ik wist dit uiteraard al vele decennia, maar met het mes op de keel kon ik het niet produceren. Maar nu wel. Hier gaan we dan. 

Een beroemde opmerking van Lee Cronbach is dat we met onze tests en toetsen alleen vragen naar wat in onze tests en toetsen gevraagd kàn worden. Al het andere blijft buiten beschouwing. Het visuele beeld hierbij: naar je verloren fietssleutel zoeken onder die lantaarnpaal. Dat gaat natuurlijk niet werken, maar je hebt wel voldoende licht om te kunnen zoeken. 

Nu nog even uitzoeken waar Lee Cronbach dat ook alweer had geschreven. Tjonge. Weet iemand dit toevallig? In zijn ‘Essentials’ misschien? 

De eerste ‘eindtoets’ was de Amsterdamse Schooltoets van A.D. de Groot en Ph. J. Idenburg, 1966 meen ik, of was het 1967? Hamvraag: welke kennis kunnen we vragen zonder bepaalde scholen onbedoeld te benadelen? Antwoord, u raadde het al: taal en rekenen.

Maar zelfs na de keuze voor alleen taal en rekenen is er nog een stevig probleem: voor ondersteuning bij de keuze voor vervolgonderwijs moeten we VERSCHILLEN tussen leerlingen hebben. De Groot ontwierp dus een toets die niet gewoon kennis toetste, maar verschillen in beheersing.

Sterker nog: hij verschool zich achter de adviezen van de hoofdonderwijzers door ervoor te zorgen dat de adviezen op basis van de Amsterdamse Schooltoets de leerlingen evenzo verdeelden over de typen voortgezet onderwijs als de hoofdonderwijzers dat deden; groepsgewijs.

Als u ondertussen helemaal kwijt bent wat de Amsterdamse schooltoets en zijn opvolgers (‘citotoets’, eindtoetsen, doorstroomtoetsen) dan precies ‘meten’ aan de kennis van de leerlingen van groep 8, dan bent u in goed gezelschap: ik weet het ook niet. Het is alles traditie hè!

Ik was egoïstisch met mijzelf op de voorgrond te plaatsen. Want in werkelijkheid weet NIEMAND wat het ‘meten van kennis’ in de eindtoets (en al zijn varianten) mag betekenen. De vraag naar betekenis, is de vraag naar validiteit. Zijn de keuzen voor vervolgonderwijs op basis

van eindtoetsen de beste die in het belang van de leerlingen worden gemaakt? Die vraag is ongelooflijk intrigerend, want net als de vraag naar werking van geneesmiddelen, zijn er dubbelblinde experimenten nodig om antwoorden te vinden. Die experimenten zijn ethisch en praktisch

niet uitvoerbaar, en zijn nooit gedaan. We weten het dus helemaal niet. Ik schreef er een blog over: ‘Het begrip ‘validiteit’ ijdel gebruikt bij advies en eindtoets? Yes!’

Het begrip ‘validiteit’ ijdel gebruikt bij advies en eindtoets? Yes! 

Er is nog een ander probleem met testen/toetsen op ‘kennis’: kennis is geen kenmerk van leerlingen (zoals hun geboortemaand dat wel is, de kleur van hun ogen, hun moedertaal, hun DNA maar dan weer niet hun intelligentie). 

Een test kan dus niet ‘kennis’ als kenmerk ‘meten’. wat gebeurt er wèl?

De vraag is: hoe komen verschillen in kennis, gemeten op eindtoetsen, tot stand? Dat is een ingewikkelde vraag, maar er is een eenvoudig model dat goed duidelijk kan maken hoe het in zijn werk gaat. Ik heb het in 1977 uitgewerkt, met Dick Tromp, met gebruik van een kleine

dataset verzameld door collega’s Ton Willemsen en Sem Everwijn. En gepresenteerd op de Onderwijsresearchdagen 1977: ‘Het meten van studietijd’ 

En wel hierom: de beheersing van leerstof wordt beter naarmate er meer studietijd aan wordt besteed. benwilbrink.nl/publicaties/77…

Niet iedere leerling wil de hoogst mogelijke cijfers halen; welke cijfers je dan wel wilt halen, bepaalt mede hoeveel tijd je wil besteden aan de voorbereiding van toetsen. Omdat verschillen in prestaties er ook al eerder waren, verschillen leerlingen in voorkennis.

Verschillen in voorkennis bepalen mede welke cijfers een leerling wil halen, en hoeveel meer of minder tijd dan andere leerlingen ervoor nodig is. 

Dit is het idee, en er bestaat een wiskundig vorm voor zo’n ‘volledig recursief’ model voor studieprestaties.

Ergo: eindtoetsen meten indirect de verschillen in ‘voorkennis’, streefniveau (een vorm van motivatie, zeg maar), en tijdbesteding (‘time on task). Geen van alle zijn vaste kenmerken van leerlingen, alles is contextueel. 

Waarom denken we toch dat eindtoetsen ‘objectief’ zijn?

Leuk hoor, zo’n ruitmodel voor (verschillen in) studieprestaties, maar is dat niet een beetje droedelen (doodling’) met data? 

Ik was 15 jaar later in staat om te laten zien hoe studenten recht en hun docenten in de propedeuse met elkaar armpje drukken over cijfers en tijd:

‘The first year examination as negotiation; An application of Coleman’s (1990) social system theory to law education data.’ (paper ECER conferentie Twente) 

Het theoretisch en het wiskundig model zijn ontwikkeld door James Coleman. benwilbrink.nl/publicaties/92… De data heb ikin de 80er jaren verzameld in de propedeuse rechten aan de UvA: verwachte en behaalde cijfers voor de tentamens, met de tijd besteed in de voorbereiding op die tentamens. De data, ingevuld in het Coleman-model, leveren geen chaos op, maar juist een sterke orde, zoals te zien in de multi-trait, multi-method matrix met hoge validiteiten in de diagonaal. Afijn dat is nogal technisch. Waar het op neerkomt is dat studenten en docenten elkaar in een soort van dodelijke omhelzing hebben: geen van beide partijen kan een ‘zesjescultuur’ doorbreken. Drama.

Dergelijke mechanismen spelen overal in het onderwijs, uiteraard in sterke mate dus ook bij eindtoetsen voor 11/12-jarigen. Méér van hetzelfde gaat eindtoetsen dus niet minder beroerd maken dan ze nu zijn. Het moet echt anders. Wie bindt de kat de bel aan? (De Groot, 1966, Karen Heij, 2021)

PS Wikipedia on the ‘streetlight effect’: https://en.wikipedia.org/wiki/Streetlight_effect (de Cronbach vindplaats is nog zoek, maar ik heb alleen even onder die lantaarnpaal gezocht hè!)

LITERATUUR

James S. Coleman (1990). Foundations of social theory. Cambridge, Massachusetts: The Belknap Press of Harvard University Press.  https://www.hup.harvard.edu/catalog.php?isbn=9780674312265

Klaas Doornbos (1971). Geboortemaand en schoolsucces. Proefschrift. Wolters-Noordhoff. 

A. D. Groot (1966). Vijven en zessen. Cijfers en beslissingen: het selectieproces in ons onderwijs. Groningen: J. B. Wolters. https://archive.org/details/vijvenenzessenci0000groo

Karen Heij (2021). Van de kat en de bel. Tellen en vertellen met de eindtoets basisonderwijs.  Proefschrift Tilburg.  open access https://karenheij.bijzonderboeken.nl Anja Vink (19 april 2021). ‘De eindtoets op basisscholen werkt ongelijkheid in de hand, stelt deze toetsexpert’ Vrij Nederland https://www.vn.nl/eindtoets-groep-acht/ Van 12 tot 18: https://www.van12tot18.nl/de-toekomst-van-kinderen-willen-voorspellen-is-hen-opsluiten-in-hun-verleden Interview nrc: 22 april https://www.nrc.nl/nieuws/2021/04/22/er-is-een-nieuwe-aristocratie-gecreeerd-a4041000 De Psycholoog: https://www.tijdschriftdepsycholoog.nl/artikelen/de-eindtoets-basisonderwijs-heeft-het-gedaan/&nbsp;   [Zie ook Warna Oosterbaan ‘Schoolgaan in stromenland’ NRC 1993 https://www.nrc.nl/nieuws/1993/02/25/schoolgaan-in-stromenland-7174282-a919242?t=1651590233&nbsp;

E. D. Hirsch, Jr. (2020). How to educate a citizen. John Catt.  

Michiel de Hoog (2015). Elk jaar gaan duizenden kinderen naar de verkeerde school vanwege hun geboortemaand. De Correspondent  

A. H. Oort, (1928). Proeven over verstandelijke ontwikkeling op Leidsche scholen. Leiden: Van Doesburg. Tweede druk aangevuld met nieuwe proeven en proeven in het Nederlandsche leger. Online beschikbaar: https://www.delpher.nl/nl/boeken/view?identifier=MMKB21:031924000:00001&coll=boeken&query=%28Proeven+over+verstandelijke+ontwikkeling+op+Leidsche+scholen%29&cql%5B%5D=%28title+exact+%22Proeven+over+verstandelijke+ontwikkeling+op+Leidsche+scholen%22%29&rowid=1 

Dick Tromp & Ben Wilbrink (1977). Het meten van studietijd. Congresboek OnderwijsResearchDagen. html

Ben Wilbrink (1992). Modelling the connection between individual behaviour and macro-level outputs. Understanding grade retention, drop-out and study-delays as system rigidities. In Tj. Plomp, J. M. Pieters & A. Feteris (Eds.), European Conference on Educational Research (pp. 701-704.). Enschede: University of Twente. Paper: auteur. html

===============================================

p.m. bij Kennis: een toets die ‘kennis’ meet, meet alleen de kennis die het vraagt.  Misschien hebben leerlingen wel heel veel meer relevante kennis:  in de mate waarin dat het geval is, geeft de toets dus geen goede ‘meting’. Is dat erg?  

1) Leerlingen die ook naast de opgegeven stof veel hebben gelezen, of relevante ervaring hebben, lopen het risico dat ze de toets slechter maken dan anderen die alleen de opgeven stof, dus niet meer dan dat, beheersen.  De baan van de Aarde om de Zon is cirkelvormig. Is dat juist, of onjuist? 

2) De toets die ook kennis vraagt buiten de opgegeven stof:  waar zijn we dan helemaal mee bezig?  Toch gebeurt dat vaak, vaak goed bedoeld om de ‘betere’ leerlingen de kans te geven hun ‘beter zijn’ ook te laten zien.  

3) Maar dan hebben we een rare situatie: 1) en 2) verhouden zich beroerd tot elkaar.  Ik moet daar wel een behoorlijk scenario van maken hè!

A thumbnail history of admission by lottery in Dutch medicine studies

Translation by Lambert Schuwirth of the original Dutch by Ben Wilbrink

In 1975, a special constellation of influencers and decision-makers existed (after education minister Mauk de Brauw had previously had use a lottery system for entry into medical school due to an acute emergency situation after a court ruling in 1972). Secretary of State Ger Klein (Labour Party, PvdA) initiated a legislative proposal for an enabling law that was meant to more systematically regulate admission into studies with a so-called numerus fixus (limited number of available spots). Both in society and in the House of Representatives heated discussion were had when the draft law was being considered: in 1975.

It is important to consider which principles were at stake? According to the law, everyone who passed the appropriate high-school final examinations was eligible for admission. So, the mere concept of a ‘numerus fixus’ infringed on this principle. In order to be able to perpetuate this infringement enabling legislation was required. This is a serious matter indeed from a deontological perspective and it begs the question ‘who has the right to study medicine?’

Professor Hofstee (well known from the Hofstee standard setting method) voiced a strong opinion. In his view, we – the legislator and society – should not play God and decide about young people’s lives frivolously. Instead, he proposed utilitarian and morally purer methods like using a lottery. [see note 1]

Moreover, a lottery had already been initiated by minister De Brauw which constituted a precedent. In the cabinet of prime minister Den Uyl, secretary Ger Klein proposed a lottery system with equal chances. A key argument by Klein at that time against selection solely based on final exam grades was that this would be discriminatory towards girls. This is noteworthy, because in later years, girls would indeed reverse the roles.

In this debate, the liberals (MP Ginjaar-Maas), strayed from their principles and favoured selection purely based on grades. But selecting on the basis of grades would further undermine the law. The law stipulated that admission to university is granted by passing the exam and not by a particular grade point average. But by that time, the House of representatives was already working on a ‘definitive’ enabling law to regulate the ‘numerus fixus’ studies, and so it would theoretically be possible to also authorize selection based on grades.

But the factual question is to what extent final exams predict success in studies/professional life. The answer is fairly simple: they do to a small extent, but not enough to justify such high-impact decisions. Dutch secondary education is tiered and only the top two tiers give automatic access to university education. Selection takes, therefore, place at the end of primary school. At the end of

year 6, students receive an advice as to which tier of secondary school they are eligible for. This advice is based on the teachers experiences with the children but also the results of a large national test and carries a lot of weight in the decision of the parents to which school to send their child but also in the receiving schools’ decision whether or not to accept the child. So, selection has already taken place at that time – and there is much that can be said against this – but it means that there is little to no further gain to be made with a selection later on.

But proponents of selection mounted a principal/normative argument: candidates should be able to influence their fate, have their ‘fate in their own hands’. So, when there is competition for scarce places, candidates should have some agency about their own position in the process. Even more so: the ‘best candidates’ deserve to be admitted first. This was already an issue during the lottery by De

Brauw (in the opening paragraph of this piece), with the so-called 7.5/10 rule (those with a GPA of 7.5 or higher on a 10-points scale gained direct entry) he had to introduce instead of his comprehensive lottery. So, there was already also a precedent for selecting based on grades. This principle of ‘the best candidates first’ is now often referred to as ‘meritocracy’ (Michael Sandel). It is an ideology of the winners, with a dark side for the losers and it negates that not everybody was born and raised in an context with equal opportunities.

The fierce public/political debate about these principles continued and even the parliament (the House of Representatives) could not reach a conclusive decision; it was perfectly divided between both positions: lottery and selection. Member of parliament Arend Vermaat (Anti-revolutionary party) submitted an amendment that comprised a compromise: a GPA weighted lottery. Higher grades meant better chances.

That amendment was accepted universally across the board. And the weighted lottery held for more than 40 years. But in 1998, a high-profile case of a student who with a GPA of 9.6/10 had been unsuccessful in the lottery three times challenged the system. The student was eventually admitted into medical

school and this started a renewed discussion about the lottery system versus selection. A new committee (committee Drenth) was tasked with an analysis of the problem and suggested some changes (Direct entry with a GPA of 8/10 and higher, stronger weightings, etc.).

In the ensuing neoliberal era, constant attempts were made to replace the lottery with selection. For example, the board of Leiden University initially wanted to select, then thoroughly examined the possibilities but reached the conclusion selection was not advisable.

Eventually, In the end, Labour Party minister for education Jet Bussemaker abruptly put an end to the weighted lottery and decided that numerus fixus studies from now on had to select themselves and using any form of lottery was banned by law! This was clearly a political decision that went against.

Currently, a new law is in preparation that will allow numerus fixus studies to admit students by three different pathways:

1 selection,

2 weighted lottery, or

3 general (unweighted) lottery

Although initially this proposal was foreseen to turn into law in 2023, the political situation has delayed the process and it is now foreseen for 2024.

===========================================================

Note (Schuwirth).

Here it is important to mention that Dutch culture and governments generally tend more towards teleological/utilitarian legislation than deontological/normative ones in such situations. Some of the considerations for lottery and against selection are:

1 In general (in medicine) the predictive validity of selection interviews is extremely low, especially with respect to the future performance as a doctor.

2 Selection processes are time and resource consuming. Using these resources for a process that does not work (selection) and taking them from a process that does work (education) in a finite resourced environment is not socially accountable.

3 Selection processes are repeatedly found to be biased against certain subgroups. Which groups these are is dependent on the specific process and societal/cultural context. However, a negative bias against applicants from lower SES classes is likely in almost all situations. In the Netherlands, recent research found that the system was biased against anybody who was not a white female applicant.

4 Although a lottery seems to be entirely based on luck of the draw, so is being born intelligently and into a family that supports learning and is rich enough.

5 Dutch culture is not one that supports meritocratic views, and selection is based on meritocracy – you only get chance to become a good doctor based on your ‘merits’ before the selection process.

6 Selection processes are not sensitive enough to pick out undesirable candidates (for example with signs of psychopathy or likely to exhibit severe unprofessional behaviour later one).

7 Using sub-quota to counteract bias against sub populations leads to the perception that those students got in undeservedly and only through a form of affirmative action

In het kort: de geschiedenis van loten voor geneeskunde

[English translation by Lambert Schuwirth see https://wordpress.com/post/benwilbrink.wordpress.com/1836

Er was in 1975 een bijzondere constellatie van influencers en beslissers (nadat Jhr Mauk de Brauw eerder al moest laten loten voor geneeskunde door een acute noodsituatie na een rechterlijke uitspraak in 1972). Staatssecretaris Ger Klein (PvdA) kwam met een wetsvoorstel voor een machtigingswet die de toelating bij numerus fixusstudies meer definitief moest regelen. Daar was in de samenleving heftige discussie over, en eveneens in de Tweede Kamer bij de behandeling van het wetsontwerp: in 1975.

Welke principes waren in het geding?  Voor de wet was iedereen toelaatbaar met het juiste eindexamen; daar maakte een numerus fixus inbreuk op.  Er was machtigingswetgeving nodig om die inbreuk te mogen maken.  Me dunkt, een ernstige zaak.  Maar dan: wie mag geneeskunde studeren?

De professorale opvatting van Willem Hofstee was dat we hier niet voor god moeten spelen, maar een moreel zuivere methode als loten moeten gebruiken.  En ja, loten was al door DS70-minister De Brauw ingezet.  Er was een prcedent.  In het kabinet Den Uyl stelde Ger Klein loten voor.

Belangrijk argument van Klein tegen selectie op eindexamencijfers was dat deze discrimerend zouden werken voor meisjes.  Opmerkelijk, want in latere jaren zouden meisjes de rollen juist omdraaien.  

De liberalen (Ginjaar-Maas), van hun beginselen los, wilden selectie op cijfers.

Selectie op cijfers zou een verdere aantasting van de wet zijn; immers: toelating tot wo geeft het examen, niet een bepaald cijfergemiddelde. Maar de Kamer was bezig met een ‘definitieve’ machtigingswet voor numerus fixusstudies, dus selectie op cijfers kunnen we machtigen. Niet?

Een feitelijke vraag is in hoeverre eindexamens voorspellend zijn voor studiesucces/beroepssucces.  Het antwoord daarop is tamelijk simpel: een beetje, maar dus niet genoeg. Ons voortgezet onderwijs is sterk selectief, dáár is al geselecteerd. Er is geen verdere winst te behalen.

Voorstanders van selectie brengen een principieel argument in:  kandidaten moeten zelf invloed kunnen hebben, ‘lot in eigen hand’.  Competitie om schaarse plaatsen dus.  Sterker nog: de ‘beste kandidaten’ verdienen het allereerst te worden toegelaten.  Zoals bij de 7,5-regeling die De Brauw moest invoeren in plaats van zijn integrale loting.  Er was dus ook al een precedent om op cijfers te selecteren.  Dit principe van ‘de beste kandidaten eerst’ kennen we nu beter onder de naam ‘meritocratie’ (Michael Sandel). Het is een ideologie van de winnaars, met dus een duistere kant voor de verliezers.

Heftig publiek/politiek debat over deze principes.  Het parlement (de Tweede Kamer) kwam er niet uit, het was perfect verdeeld tussen beide posities loten en selectie.  Tot Vermaat (AR) een amendement indiende dat een compromis behelsde: gewogen loting.  Hogere cijfers, dan betere kansen.

Dat amendement werd kamerbreed aangenomen. En de geewogen loting heeft meer dan 40 jaar standgehouden, zij het met een wijziging nadat een briljante leerling drie keer was uitgeloot, en een nieuwe commissie (Commissie-Drenth) zich over de kwestie had uitgesproken.

In het neoliberale tijdperk werden er voortdurend pogingen ondernomen loten door selectie te vervangen.  Het bestuur van de Universiteit Leiden wilde selecteren, liet de mogelijkheden goed onderzoeken (Commissie-Van der Linden) en concludeerde dat selectie niet verstandig was.

Uiteindelijk maakte PvdA-minister Jet Bussemaker op drastische wijze een eind aan gewogen loting:  opleidingen moesten zelf selecteren, met alle middelen, maar enige vorm van loting werd bij wet verboden! Bizarrrr.  

PvdA-staatssecretaris Klein en de Tweede Kamer van 1975 voor schut gezet. 

Documentatie: https://benwilbrink.nl/projecten/loten_nf.htm 

Ziee in het  bijzonder ook het overzicht in opdracht van de Commissie-Drenth geschreven:  https://benwilbrink.nl/publicaties/97OpsommingDrenth.htm

==========================================

‘een bijzondere constellatie van influencers en beslissers’

Ik begon met ‘een bijzondere constellatie van influencers en beslissers’ in 1975, maar verzuimde om dat toe te lichten. Eind 60er jaren richtten Nederlandse universiteiten ieder een eigen onderzoekcentrum voor onderwijs op. Deze centra werkten intensief samen en kwamen in 1974 uit met een gezamenlijk standpunt over het vraagstuk van de wijze van toelating bij numerus fixusstudies: ‘Bij beperkte toelating beslist alleen het lot’. https://benwilbrink.nl/publicaties/74HetLotCRWO_OvO.htm De titel dekt niet helemaal de lading. Het standpunt was dat van de CRWO, de auteurs waren Ben Wilbrink en Hans van der Vleugel. Ik was medewerker van het COWO van de UvA. Hoofd van dat COWO was tot kort voor 1974 Kees Kolthoff. Kolthoff was lid van Nieuw Links, lid van het hoofdbestuur van de PvdA, stond op de lijst voor de Tweede Kamer, en vertrok naar de Tweede Kamer waar hij woordvoerder hoger onderwijs was. Ger Klein was lid van Nieuw Links, lid van het hoofdbestuur van de PvdA, en werd in het kabinet Den Uyl staatssecretaris voor wetenschappelijk onderwijs en onderzoek. Ger Klein was fel tegenstander van selecteren voor numerus fixus: zijn wetsvoorstel was een voorstel voor integraal loten. Kolthoff was uitstekend op de hoogte van de standpunten binnen de onderwijsresearchcentra (o.a. Wijnen, Hazewinkel, Crombag, Meuwese): loten is de minst schadelijke oplossing. Deze onderwijsresearchcentra werden in die tijd vooral bemensd door psychologen, velen daarvan vertrouwd met selectieproblematiek (personeel, onderwijs). Ook psychologen buiten deze centra mengden zich intensief in de discussie: o.a. Willem Hofstee, Don Mellenberg, Pieter Drenth. Deze psychologen kenden elkaar, hadden dezelfde disciplinaire achtergrond, begrepen elkaar uitstekend, en vormden een vanzelfsprekend front tegen buitenstaanders die toch wel naïef het standpunt van selectie op basis van cijfers verdedigden. In deze categorie vallen de felle bijdragen van Bakker, hoogleraar biologie in Leiden. Vergeet ik De Groot, Wiegersma en De Moor niet? Nee hoor: een oudere generatie hoogleraren die zich tegen de jongere verzette door vast te blijven houden aan selectie. Ook al gaf De Groot toe dat selecteren op cijfers nauwelijks of geen ‘rendement’ oplevert. De Groot, Wiegersma en De Moor vonden later gehoor bij Arie Pais, minister van onderwijs in het kabinet Van Agt/Wiegel. De initiatieven die Pais nam (een door Cito ontwikkelde selectieve toets voor geneeskunde, een regeling met meer kansen voor tal van specifieke groepen) struikelden. De Groot was initiatiefnemer van het COWO aan de UvA, met Kolthoff als hoofd. Kolthoff deed een promotieonderzoek bij De Groot. De Groot en Wiegersma waren lid van de raad van advies van dat COWO, een raad die na de Maagdenhuisbezetting niet meer bijeen was gekomen (als ik mij goed herinner).

Deze jonge garde psychologen gaven publiekelijk stem—’voice’—aan de optie van loten in plaats van selecteren, waardoor het voor staatssecretaris Ger Klein mogelijk was een wetsvoorstel voor integraal loten in te dienen. Uiteindelijk verzoende Klein zich met het amendement-Vermaat voor een gewogen loting omdat de wet dan de steun van de hele Kamer zou krijgen, en brede steun in de samenleving. Verstandig man, die Klein.

Over examens gesproken 14-6-2023

Ik wil het een week lang over examens hebben, onze eindexamens in het bijzonder. Ik ga ze van vele kanten aanvliegen, maar dus niet vanuit de positie van de leraar die leerlingen erop voorbereidt. Want ik ben geen leraar. Vul mij op dit punt aan, graag. 

Ik zal vaak teruggrijpen op materiaal op benwilbrink.nl/sitemap.htm Heel die website gaat over examens, eigenlijk. Er is ook een bestand waarin ik publicaties over examens verzamel, een ongeordende maar juist daardoor altijd inspirerende zooi mengelwerk:

http://www.benwilbrink.nl/literature/examens.htm

Ik ga eens gek beginnen: met geschiedenis van examens. Ik schreef er een engelstalig artikel over benwilbrink.nl/publicaties/97… in Studies in Educational Evaluation, 1997. Maar er is ook een nederlandstalige (eerdere) versie met uitvoerig notenapparaat: benwilbrink.nl/publicaties/95… Het domein van dit artikel is de wereld, het tijdvak is tot circa 1900. Waarom tot 1900: dan begint het tijdvak van de psychologische tests die een enorme invloed op beoordelen in het onderwijs gaan krijgen (voor een birdseye view zie van12tot18.nl/artikelen/cijf…) Voor de periode tot 1900 zijn algemene geschiedenissen van examens zeldzaam, George Madaus schreef er een: libgen.li/ads.php?md5=8d…
Ik bestudeerde het onderwerp om een smaakmakende opening te krijgen voor een proefschrift over tentamenmodellen, maar dit terzijde. In Google Scholar scholar.google.nl/scholar?hl=nl&… blijkt het artikel royaal te worden geciteerd, daar ben ik blij mee. O.a. Harari citeert het in Homo Deus (noot 6 in hoofdstuk 4). 
Bijzonder is dat Scholar direct doorverwijst naar de transcriptie op mijn website, dat vind ik wel fijn. 

Genoeg zelf-promotie. Waarom is die geschiedenis belangrijk: omdat onderwijs zo’n sterk door duizendjarige tradities gedreven zaak is. We doen in politiek en media wel alsof de problemen in ons onderwijs pas gisteren zijn ontstaan, maar dat is natuurlijk toch vaak niet zo. 

Hebben wij in het Westen onze ideeën over examens ook ontleend aan de keizerlijke examens in China? Dat is niet waarschijnlijk. Er is een sterk contrast tussen onze West-Europese examens (sinds het ontstaan van universiteiten) en de Chinese examens voor bestuursfuncties. 

In Europa waren maatschappelijke elites (adel en aristocratie) niet echt onderworpen aan examens: examens waren vooral ceremoniële gebeurtenisssen. Dat was in China bepaald anders. Ik zie Benjamin Elman (2000) ucpress.edu/book/978052021…, p. xxiv, het als volgt samenvatten:

” .. civil examinations were a cultural arena within which diverse political and social interests contested each other and were balanced.” (Fantastisch boek, trouwens). 
In China is de geschiedenis van zijn Civil Service Examens ook de culturele geschiedenis van het rijk. 

Omdat de Chinese examens geen invloeden vanuit Europa hebben ondergaan, en zo’n vooraanstaande plaats in de samenleving innamen, is bestudering van die examens een probaat middel om onze eigen examens als helemaal niet zo vanzelfsprekend te gaan zien. Out of the box. 

[noot Er zijn er die toch wel enige invloed zien op de Engelse Civil Service examens, zoals: Teng, Ssu-Y&uuml; (1968). Chinese influence on the Western examinations system. https://sci-hub.ru/10.2307/2717830 Interessant hoofdstuk.]

In China verdeelde de maatschappelijke elite dus de belangrijke/aantrekkelijke maatschappelijke (bestuurlijke) posities onderling op competitieve wijze via de keizerlijke examens. Een bondje tussen de keizer en de elite. 
Zou dat bij de Europese examens echt anders gaan? 

In feodaal Europa werden de belangrijke posities gewoon zonder examens onderling verdeeld door de erfelijke adel onder regie van vorsten zoals Karel de Grote, Floris V, Karel V, Willem van Oranje. Ondertussen groeide aan de universiteiten wel een systeem van examens die van belang waren voor niet-adelijke jongeren om aantrekkelijke maatschappelijke posities te bereiken binnen die universiteiten zelf, de kerkelijke instituties, of de administratie van vorsten, steden en handelaren. Die examens konden sterk competitief zijn, zoals bekend is van de examens aan de Leuvense universiteit begin 16e eeuw (toen ook Erasmus er doceerde) waar studenten van de vier ‘colleges’ met elkaar de intellectuele strijd aangingen. Persoonlijke winnaars konden rekenen op aanstellingen in universitaire of kerkelijke posities. Meritocratie avant la lettre. 

Er is ondertussen een uitgebreide literatuur over deze ontwikkelingen in de (laat-)middeleeuwse periode. 
Specifiek voor rechten bijv.: James A. Brundage (2008). The medieval origins of the legal profession. Canonists, civilians, and courtsannas-archive.org/md5/a51ed3cee6…

Een actuele algemene geschiedenis van ontwikkelingen binnen de universiteiten geeft: 
Hilde de Ridder-Symoens (Ed.) (1992). A history of the university of Europe. Volume I, Universities in the middle ages. Cambridge UP. annas-archive.org/md5/2dc4459c63…

Universitaire examens gaven het recht om overal te doceren: jus ubique docendi. Universiteiten waren lerarenopleidingen, zeg maar. Latijnse scholen waren voorbereidend. De bakermat van Europees georganiseerd ‘middelbaar onderwijs’ ligt in Zwolle. De school van Joan Cele: https://www.youtube.com/embed/OjY4w0flUug Tekst van Sjoerd Karsten: didactiefonline.nl/blog/vriend-en…
Om met 2 assistenten bijna 1000 leerlingen onderwijs te geven, ontwikkelde Joan Cele een ‘klassikaal’ systeem, dat navolging vond in heel Europa. Joan bepaalde zelf halfjaarlijks wie er naar een hoger niveau doormocht. Het hoogste niveau was gelijk aan een universitaire propedeuse. Zo kreeg middelbaar onderwijs zijn organisatie, toch een voorwaarde voor zoiets als een eindexamen, dat pas in de tweede helft van de 19e eeuw werd ingevoerd. Moeten we dat verhaal over Joan Cele geloven? Ja hoor, zie Willem Frijhoff: research.vu.nl/ws/portalfiles…

Houd vast dat we in onderwijs hebben te maken met gewoonten die vele eeuwen oud kunnen zijn en dieooit functioneel zijn geweest; maar wie zegt dat ze dat vandaag ook nog zijn? En dat tegen de achtergrond dat onderwijs ook veel heeft te maken met machtsverhoudingen in de samenleving. 

mijn eindexamen

Als contrast met huidige examens vertel ik iets over mijn eigen examen, 1962, gymnasium beta. Ik lees bij Idenburg (1964, Schets van het Nederlandse schoolwezen) dat de Inspectie de schriftelijke opgaven voor de eindexamens verzorgde. Een commissie probeerde een gezamenlijke lijn te brengen in de waardering van antwoorden. (Het Cito kreeg eind 70er jaren de verantwoordelijkheid voor de eindexamens vo.) Het schriftelijk bestond voor mij alleen uit wiskunde, Nederlands, en MVT. De opgaven zijn gepubliceerd in: 

S. J. Richter (1969). Schriftelijke opgaven van het eindexamen der gymnasia. Wolters-Noordhoff. 
Voor de HBS waren er ook van dergelijke publicaties: 
D. J. Kruijtbosch en S. J. Richter (1969). Schriftelijke opgaven van het eindexamen der hogereburgerscholen-B. Wolters-Noordhoff. 

Het zou fijn zijn wanneer die oude eindexamens online beschikbaar zijn. Zoeken in Delpher levert wel een oudere publicatie op: 
D. J. Kruijtbosch (1916). Schriftelijke opgaven van het eindexamen der Hoogere Burgerscholen vanaf 1885delpher.nl/nl/boeken/view… 
Dat is het, helaas. 

Wiskunde (sterometrie, herinner ik mij) bestond uit enkele grote opgaven, op een half A4. Nederlands: een opstel, en tekstverklaring. MVT: proefvertalingen. Ambassades stelden boeken beschikbaar voor de leerlingen met de beste vertaling (per school). 

De eigen leraar keek examenwerk na, in samenspraak met een deskundige of gecommitteerde. Voor de gymnasia wees de minister deze gecommitteerden aan. 
Mondeling examen bestond uit wiskunde (analytische meetkunde en goniometrie), en natuurkunde/scheikunde. 

Latijn en Grieks werden niet geëxamineerd, maar daarvoor kreeg je het laatste rapportcijfer op je eindlijst (volgens Idenburg, ik kan me dat niet herinneren). 
Mondeling werd afgenomen door de eigen leraar en de gecommitteerde. Spannend hoor. 
En ja, je kon op een enkel puntje zakken. 

Organisatorisch waren deze eindexamens eenvoudig en overzichtelijk. Er was wel sprake van nadrukkelijke overheidsbemoeienis om examens vergelijkbaar te maken, en de kwaliteit ervan te borgen. Deze eindexamens legden ook beperkingen op aan de vrijheid van leraren (Idenburg). 

Het examen wiskunde bevatte geen flauwekulcontexten. Het was wiskunde. Het beoordelen van van deze examens was niet problematisch, het waarderen is een ander verhaal. Maar dan die talen: opstel en proefvertalingen, bij uitstek problematisch wat beoordelen betreft. Hoewel ik voor Duits een ‘8’ stond, scoorde ik met mijn proefvertaling een ‘5’. Ik herinner mij dat ik een enorm probleem had met één woord waarvan ik de betekenis niet scherp kreeg. 
Het was bij onderzoekers van onderwijs al heel lang bekend dat het beoordelen van proefvertalingen en opstellen problematisch was:  Ph. Hartog & E. C. Rhodes (1936). An examination of examinations. benwilbrink.nl/bigfiles/harto…

Dit is dus het discussiepunt: het opstel en de proefvertaling terug in de examens, is dat wenselijk? Wat zijn de voor- en nadelen? Moeten we dan niet meer in de richting van ceremoniële examens denken? Aha, ik heb nog niet uitgelegd hoe zoiets in de middeleeuwse universiteiten ging. Zodra je meester de overtuiging had dat jij, zijn student, helemaal klaar was voor het examen, meldde hij je aan bij zijn collega-meesters, die vervolgens het examen afnamen. Onafhankelijk van je eigen meester dus. Maar wel met slaaggarantie. Vergelijk de huidige academische promotie. 

Ter afsluiting: in 1962 was het eindexamen niet iets waar het het hele laatste schooljaar over ging. De organisatie was licht van karakter, voor leraren, leerlingen, school, en ook nationaal (ontwerp van de examens door de Inspectie). 

het ontwerp van examenopgaven

Ik begin met op te merken dat de examens in het voortgezet onderwijs niet louter afsluiting zijn, maar dat je er ook op kunt zakken. Waarom is dat eigenlijk? Leraren hebben 4 tot 6 jaar gewerkt met deze leerlingen, kennen ze dus door en door. Hoezo dan nog zakken? Ik laat die vraag nu rusten, want waar het mij om gaat is dat ontwerpers van examenopgaven er evident vanuit gaan dat die opgaven moeilijk moeten zijn. Is dat een natuurwet dan? Moet een examen selectief zijn? Nee toch? We maken dat elkaar voortdurend wijs (lees ‘Vijven en zessen’ van A.D. de Groot).

Wat zijn eigenlijk de eisen die we aan de kwaliteit van examens en van examenvragen moeten stellen? O, wacht, laten we toch eerst maar even kijken naar het inhoudelijk ontwerpen van examenopgaven, want dat moet toch de basis van alles zijn, niet? Ik schreef er in 1978 een cursusboek voor, in 1983 omgewerkt tot Aula 809 Toetsvragen schrijven in de Onderwijskundige Reeks voor het Hoger Onderwijs: https://benwilbrink.nl/projecten/toetsvragen.1.htm Omdat in de grote bezuinigingsoperatie van de 80er jaren (TVC) mijn werkplek werd opgeheven, is het bij deze editie gebleven.

De basisgedachte is dat het ontwerpen van toetsvragen geen gave vereist die sommige leraren wel, anderen minder bezitten, maar dat het een rationele aanpak vergt. Dan kan de ontwerper ook goed uitleggen wat zijn opgaven precies vragen en waarom dat zo is. En dat laatste is niet vanzelfsprekend hè! Nederland heeft juist een ongelooflijk examendebacle achter de rug: de politiek en maatschappelijk onhoudbare #rekentoets als extra onderdeel van examens vo (en mbo). Deze expertisecentra flikten dit kunstje: Cito, CvTE, SLO, en Inspectie.

Die #rekentoets als extra onderdeel bij de examens vo is een fantastisch casus om aan te demonstreren wat er zoal verkeerd kan gaan bij het ontwerpen van examenopgaven. Het is zo gek niet te bedenken, of het kwam voor. Bij een WOB-verzoek werd zelfs het staatsbelang aangeroepen om opgaven geheim te houden: alsof Nederland dan door een vreemde mogendheid aangevallen zou kunnen worden. Bizar.

Het ernstigste probleem bleek te zijn dat scholen niet in staat waren hun leerlingen doeltreffend op deze #rekentoets voor te bereiden. Zeker, leerlingen vmbo tl en gl, en vwo, konden voor de #rekentoets slagen zonder grondige voorbereiding, maar dat gold dus niet voor vmbo bb en kb, en voor havo: https://benwilbrink.nl/publicaties/14wilbrink_kirschner_rekentoetsen.htm

is het examen doeltreffend voor te bereiden?

Hier hebben we dan ook de belangrijkste kwaliteitseis voor een examen te pakken: een examen moet door de leerling doeltreffend zijn voor te bereiden. A.D. de Groot heeft deze eis geformuleerd, in 1970: https://benwilbrink.nl/publicaties/70degroot.htm

De eis van doeltreffend voor te bereiden klinkt misschien vanzelfsprekend, maar is dat allesbehalve. En daar stuiten we op een enorm probleem bij toetsen en examens zoals die door institutionele partijen (Cito, CvTE) worden ontworpen: zij gebruiken het psychometrisch apparaat uit de testpsychologie, gericht op diagnostiek, waar juist de vooronderstelling is dat de te testen personen zich niet specifiek op de test hebben kunnen voorbereiden. Afijn, ik heb het hier uitgelegd, in 1986: https://benwilbrink.nl/publicaties/86ToetsenEnTestenSVO.htm

De Groot schrijft dat hij de eis van doeltreffend voor te bereiden belangrijker vindt dan de ultieme eis voor tests zowel als toetsen: validiteit van (beslissingen op basis van) tests en toetsen. Ik zou kunnen zeggen: doeltreffend voorbereidbaar is validiteit van het examen.

Er komen nog meerdere onderwerpen aan de orde. Ik heb behoefte aan een overzicht ervan, dus ik heb maar eens een concept map gemaakt, mijn toeverlaat bij deze examenklus. Dat schema maakt ook wel duidelijk wat mijn probleem is:  ieder item is op zich al wel een twitterdraadje waard. Het schema is kolomsgewijs georganiseerd, maar er zijn uitaard tal van dwarsverbanden.  Dat geldt vooral het sleutelbegrip van A.D. de Groot, dat toetsen en examens doeltreffend moeten zijn voor te bereiden. Dat beginsel heeft tal van boeiende consequenties.

De historie is al geschetst, ik was blijven steken in het ontwerp van examenopgaven, dat zijn de onderwerpen in de tweede kolom. 

examenopgaven ontwerpen  

Ik begin met op te merken dat de examens in het voortgezet onderwijs niet louter afsluiting zijn, maar dat je er ook op kunt zakken.  Waarom is dat eigenlijk?  Leraren hebben 4 tot 6 jaar gewerkt met deze leerlingen, kennen ze dus door en door. Het examen heeft weinig toegevoegde informatiewaarde.  Hoezo dan nog zakken? Joan Cele zou zeggen: tenzij een leerling dronken op het examen verschijnt, is hij of zij altijd geslaagd. Houd deze paradox in het achterhoofd bij al het volgende.

Ik ga verder met de kwaliteitsproblemen van (huidige) examenopgaven (Centrale Examens vo).  Ik schreef in 1983 een hoofdstuk over borging van kwaliteit van onworpen vragen, hoofdstuk 8, in bijgewerkte versie: https://benwilbrink.nl/projecten/toetsvragen.8.htm

Opmerkelijk dat ik in 1983 niet kon bevroeden dat het Cito af zou zakken tot examens die met hun verbale karakter niet meer sexe-neutraal zijn; met opgaven met contexten die anywhere uit het universum geplukt kunnen zijn; en prioriteit gelegd bij ‘tekstbegrip’.

De toegenomen taligheid van examens is een probleem omdat het een bron van verschillen toevoegt die de zuiverheid van het examen aantast.  

Een mooi casus om dit kwaliteitsbeginsel aan te illustreren is het idee van enkele leden van de Tweede Kamer om taalverzorging mee te beoordelen bij de examens wiskunde enzovoort: https://benwilbrink.nl/EXAMENSCOMPLEET_sept_2010.pdf

Natuurlijk, taalverzorging is belangrijk, maar we willen niet dat een examen wiskunde wordt vertroebeld omdat er punten worden afgetrokken voor gebrekkige taalverzorging.  Voor dit soort beginselen kunnen we uitstekend te rade gaan bij de testpsychologie.   Die lui hebben ook een halve eeuw hard nagedacht over de eisen voor tests.  Dus ook voor de toetsen die Cito en CvTE aan het onderwijs leveren.  Hier zijn die eisen geformuleerd (ook de NL Cotan zegt zich hieraan te houden):  https://aera.net/Publications/Books/Standards-for-Educational-Psychological-Testing-2014-Edition open access. Ophalen, bewaren, raadplegen!

Het volgende onderwerp – tekstbegrip / begrijpend lezen – ben ik maar aan het uitstellen, want het is groot, héél groot zegt kleinzoon dan.  Maar het zal er toch van moeten komen.  Op dit thema helpen examen en onderwijs in innige samenwerking Neerlands jeugd naar de mallebiezen. Een examen dat vooral ‘begrijpend lezen’ probeert te testen, zorgt er ook voor dat men in het onderwijs sterk met dat ‘begrijpend lezen’ bezig is.  ‘Backwash’, zeggen ze bij de buren.  Het probleem is nu dat er niet zoiets bestaat als een generieke vaardigheid ‘begrijpend lezen’.

Misschien is dat het best duidelijk te maken over de band van Amerikaanse misstanden, Don Hirsch 2016: 

E. D. Hirsch, Jr. Why knowledge matters. Rescuing our children from failed educational theories. Ik besprak het boek hier: http://www.beteronderwijsnederland.nl/vakwerk/2017/02/waarom-geindividualiseerd-onderwijs-leidt-tot-meer-ongelijkheid/ 

Dat er geen generieke vaardigheid ‘begrijpend lezen’ bestaat, is een typisch cognitief-psychologische stelling.  Hirsch steunde ervoor op Daniel Willingham, die er in vele publicaties aandacht aan schonk.  Zoals hier: http://www.danielwillingham.com/uploads/5/0/0/7/5007325/willingham&lovette_2014_can_reading_comprehension_be_taught_.pdf

In kringen van leesonderwijs begint het besef ook wel door te dringen dat kennis een voorwaarde is voor lezen.   Toch lees ik dit in: Yra van Dijk et aliis (2022). Omdat lezen loont  https://www.uitgeverijpica.nl/titels/verwacht/omdat-lezen-loont-pica alleen in het kortste hoofdstuk, door Erik Meester.

Maar als voorkennis een rol speelt, dan testen we met ‘begrijpend lezen’ ook op verschillen in voorkennis.  Bij het vorige thema zagen we al dat zoiets een onzuivere meting van het bedoelde begrip ‘begrijpend lezen’ oplevert.  Voor een examen is dat wel een doodzonde hoor.  

ontwerp-issue: contextopgaven in examens rekenen en wiskunde

Dan nu die contexten, vooral dus bij rekenen en wiskunde. ‘Organiseer een schoolreis voor 1126 leerlingen … ‘.  

Merk op dat we hier te maken hebben met eenzelfde problematiek als bij ‘begrijpend lezen’ van allerhande verschillende teksten (= contexten). #voorkennis

Het omgekeerde is ook een belangrijk inzicht: wat problematisch is aan het gebruik van willekeurige contexten in examens rekenen en wiskunde is dat ook bij gebruik van willekeurige teksten om ‘begrijpend lezen’ te toetsen. 

‘Willekeurig’:  een context kan van alles zijn, want hij komt niet uit een specifiek domein.  Vergelijk contexten in opgaven natuurkunde:  die contexten komen uit het specifieke domein van de behandelde stof voor natuurkunde. Leerlingen kunnen zich op zo’n examen doeltreffend voorbereiden.

De ‘willekeurige context’ dankt zijn aantrekkingskracht op examenmakers aan de misvatting dat kennis moet blijken uit zijn toepassing in geheel nieuwe situaties.  Het probleem van transfer.  Maar een examen is een afsluiting van onderwijs, daar passen geen ‘geheel nieuwe situaties’ bij.  Het zou ook strijdig zijn met de eis dat leerlingen zich doeltreffend moeten kunnen voorbereiden op hun examen.  

Mijn sprokkelpagina over contexten: https://benwilbrink.nl/projecten/contexten.htm

Ik ben aan het worstelen met dit thema van contextopgaven: ik weet er te veel van hè!

enkele weken later

Oké, de poging om mijn eigen kennis op te frissen met de literatuur die ik over contextopgaven verzamelde is mij opgebroken.  Het brak de ‘flow’ die ik nodig heb om over complexe thema’s te kunnen schrijven.  Ik moet het daarbij doen met de kennis die ik al heb.  Kennis is alles.

Eerlijk corrigeren van examens

Ik wil hier enkele opmerkingen over maken.  Voor een glashelder startpunt begin ik met de stelling dat meerkeuzevragen (MC) even subjectief zijn als kortantwoordvragen.  Ik verdedigde deze stelling in 1977 tegenover een zaal met vooral stafleden van het Cito.  Directeur Solberg van het Cito was dan wel heel verontwaardigd over deze aanval op het Cito-verdienmodel, maar had geen weerwoord.  Het paper: https://benwilbrink.nl/publicaties/77KeuzevragenORD.htm 

Het gangbare idee is dat MC objectief is omdat een machine het kan nakijken.  Dat mag dan zo zijn, maar dat feilbare oordeel zit bij MC in de ontwerpfase, waar de ontwerper ‘goede’ en ‘foute’ alternatieven kiest.  Een ‘eyeopener’ noemde mijn zaalvoorzitter Wim Hofstee dat, in direct antwoord op de verontwaardigde Solberg—ik stond zelf even met de mond vol tanden bij de Cito-agressie.  En zo is dat.  Het subjectieve oordeel van de ontwerper zit bevroren in de aangeboden alternatieven met bijbehorende scoresleutel.  In de VS spreekt men bij multiple choice vragen dan ook wel over ‘frozen subjectivity’.  

‘Eerlijk corrigeren’ bestaat o.a. uit bescherming tegen subjectiviteit.  Zou je denken.  Het CvTE denkt zo, want het CvTE perkt de ruimte voor een eigen oordeel maximaal in met modelantwoorden / correctievoorschriften (CV’s) waar je als leraar eigenlijk niet van af mag wijken.  Het CvTE beschouwt CV’s als algemeen verbindende voorschriften in de juridische zin—tjonge jonge.  Maar uit het MC-casus hierboven leren we dat een scoringssleutel niet objectief is, maar gestandaardiseerde (‘frozen’) subjectiviteit.  En dat is bovendien tamelijk ernstig, omdat leerlingen bij MC niet de gelegenheid hebben om hun overweging te vermelden bij het aangekruiste, maar als ‘fout’ gesleutelde, alternatief. *)  Nu biedt de wetgeving wel een uitweg bij evident juiste antwoorden die niet sporen met het CV, maar leraren zijn te beducht om daarvan gewoon gebruik te maken.  Ook mondige leraren kunnen geïntimideerd zijn door dwingende CV’s, en goede antwoorden dan met ongelooflijke tegenzin fout rekenen.  Over oneerlijk gesproken: het CvTE dwingt tot oneerlijkheid. [Leraar Ton van Haperen over het examen vwo-economie: https://twitter.com/tonvanhaperen/status/1671482490526085122 ]

*) Het boek ‘Studietoetsen’ van De Groot en Van Naerssen (1969) beschouwt ieder antwoord anders dan het als juist gesleutelde alternatief als zijnde geraden. Tamelijk bizar, niet? Maar dat is bij het CV van het CvTE niet anders: alles wat daar niet in past, is een gok van de leerling die maar wat opschrijft—0 punten.  

standaardiseren

Het algemene principe is hier, evenals in artikel 1 van de Grondwet, dat standaardiseren eerlijk is bij gelijke gevallen, maar oneerlijk is in de mate waarin gevallen niet gelijk zijn: waarin relevante persoonlijke omstandigheden niet aan bod kunnen komen.   Zo’n relevante persoonlijke omstandigheid kan het creatieve maar wel degelijk correcte antwoord zijn dat niet spoort met het CV of met de MC-scoringssleutel.  We mogen vermoeden dat standaardiseren ten koste gaat van studenten die juist méér kennis van het betreffende onderwerp hebben en daardoor tot een ander dan het beoogde antwoord komen.  ‘Is de baan van de Aarde om de Zon cirkelvormig?’

leraar expert-beoordelaar

De vakleerkracht die examens corrigeert is expert-beoordelaar.  Het CvTE vergeet dat wel eens, hè!  Dan gaat het om het oordeel of een gegeven antwoord correct is, of niet. De vakleerkracht kan dat, moet dat ook beoordelen, en moet daarbij niet gehinderd zijn door een dwingend CV.  Of een antwoord 1 danwel 2 punten waard is: daar gaat het schuiven. Over eerlijkheid van een eindoordeel voldoende/onvoldoende, slagen/zakken, wil ik het in dit stuk niet hebben.  

Vanwege de eerlijkheid, of om fraude tegen te gaan, is er bij ieder CE een tweede beoordelaar.  Idealiter zou de tweede beoordelaar onafhankelijk van de eerste beoordelaar moeten werken, maar dit terzijde.  Wat nu is eerlijk, in het geval dat de beide oordelen verschillen?  Ik heb deze vraag aan de staf van het Cito voorgelegd, in 1994, in deze vorm: 

Don Mellenbergh en Wim van der Linden kijken onafhankelijk van elkaar een tentamen psychometrie na en geven daar een cijfer voor. Het juiste eindcijfer uit de twee gegeven cijfers is het 

  1. laagste
  2. hoogste
  3. gemiddelde.

NB: Don en Wim zijn hoogleraren psychometrie. Zie voor discussie: https://benwilbrink.nl/publicaties/94AlgemeenToetsmodelCITO.htm

Ik roep het doeltreffendheidsbeginsel van A.D. de Groot (1970) in: de belangrijkste kwaliteitseis voor toetsen en examens is dat zij door leerlingen doeltreffend zijn voor te bereiden [https://benwilbrink.nl/publicaties/70degroot.htm].  Het is een beginsel met krachtige consequenties.  Zo ook in dit geval: leerlingen kunnen zich onmogelijk doeltreffend voorbereiden op verschillen van inzicht tussen hun beoordelaars.  Daarom hebben zij recht op het meest gunstige expert-oordeel: alternatief b. Zij hebben het recht om niet afgescheept te worden met het gemiddelde.  De leerling het voordeel van het verschil geven, dat is toch is toch niet zo gek?  In het onderwijs kennelijk wel, al is er een belangrijk precedent waarin dit beginsel in een iets andere vorm gehuldigd is: de 12 jarige met een hogere eindtoetsscore dan overeenkomt met het advies van de school, mag om herbeoordeling vragen. Maar is dit niet gewoon de mening van Wilbrink over wat eerlijk is? 

abbb

Als we onder ‘eerlijk’ verstaan wat in het algemeen rechtsbewustzijn als rechtvaardig wordt gezien,  dan is het de bestuursrechter die zich over die eerlijkheid in specifieke situaties zal uitspreken.  Job Cohen heeft het uitgebreid behandeld in zijn proefschrift ‘Studierechten’ van 1981, dat nog steeds de bron bij uitstek is. (scans zijn op mijn website beschikbaar https://benwilbrink.nl/projecten/toetsvragen.8.htm).  Over algemene beginselen van behoorlijk bestuur [abvbb], die hij wist te vertalen naar algemene beginselen van behoorlijk onderwijs, een paraplu waaronder ook eerlijk nakijken valt. Voorbeelden zijn: fair play, vertrouwen, redelijkheid, proportionaliteit. 

Cohen besprak situaties in het WO, waar studenten zich met hun bezwaren konden en kunnen wenden tot een Commissie van Beroep voor de Examens (CBE).  Voor examens in het VO is de situatie een iets andere: daar is geen behoorlijke beroepsregeling van kracht, eerder het tegendeel.  Maar de gang naar de rechter valt toch te proberen. Maar welke rechter, de civiele of de besuursrechter? In een recent casus sprak de Hoge Raad uit dat bij problemen met de correctie (of ander examenongerief) de leerling zich kan/moet wenden tot de directeur van de school, en eventueel daarna de burgerlijke rechter.  https://uitspraken.rechtspraak.nl/#!/details?id=ECLI:NL:PHR:2019:509 In dit bijzzonder interessante arrest beschrijft de Hoge Raad ook uitvoerig de besluitvorming over examenuitslagen, heel handig, bekijk dat eens.  Maar overigens is dit arrest gekmakend van de juristerij.  Dat ligt niet aan de Hoge Raad, maar aan de wet (Algemene Wet Bestuursrecht [Awb, in het arrest]) die verbiedt dat ‘oordelen over kennen en kunnen’ aan de bestuursrechter worden voorgelegd.  Betreed hier het Rijk van Kafka.  In het kader van ons onderwerp: de Awb schrijft voor dat de leerlingen voor hun examens GEEN bescherming hebben van de bestuursrechter.  Terwijl de burgerlijke rechter niet zo van die abbb’s is, en je daar een advocaat moet meenemen.  

Hoe bizar is dit?  Ik heb net besproken dat studenten in het HO met hun toets- en examenproblemen WEL toegang hebben tot het bestuursrecht, bij het CBE van de instelling,  (Verpaalen 1978 ‘Beroep tegen examen en tentamen’; Cohen 1981 ‘Studierechten’; Van Berkel 2019 ‘Juridisch correct examineren’). Het uitsluiten van ‘beoordelen van kennen en kunnen’ berust, als ik het  goed heb begrepen, op de gedachte dat rechters geen inhoudelijk expert zijn over geëxamineerde stof.  Ik zie niet in waarom dit voor examens ineens een enorm probleem zou zijn: de rechter kan experts raadplegen, zoals te doen gebruikelijk. Maar goed, voor studenten in het HO levert deze beperking in de Awb geen probleem op, omdat hun toegang tot het recht via de specialistische CBE’s is gegarandeerd.  

Een vergelijkbaar alternatief is er voor leerlingen in het VO echter niet, zij bungelen tussen welwillendheid van het CvTE en de grilligheid van de burgerlijke rechter.  De wetgever heeft een gat in de wetgeving laten vallen. 

Ik ben wat langer op dit arrest doorgegaan, omdat het nog eens duidelijk maakt dat het corrigeren van examens ook oneerlijk kan zijn omdat er geen behoorlijke regeling voor beroep is. Hoe vervelend dat kan uitpakken, laat het casus ‘En effet’ zien (waar het arrest van de HR deel vanuit maakt), dat ik veel uitvoeriger behandel in deze blog https://benwilbrink.wordpress.com/2017/09/20/examenonrecht-en-effet/.  Een sterke regeling voor beroep, zoals in het HO wel bestaat, is als vorm van tegenmacht ook van belang voor de kwaliteit van de examens zoals door Cito en CvTE verzorgd.

meting, of steekproef?

Een examen is geen meting, maar een steekproef.  De toevalligheden inherent aan de steekproef van examenvragen zijn echt aanzienlijk, en in beginsel ook kwantificeerbaar. **)  Dit inzicht helpt om wat meer ontspannen tegenover subjectieve verschillen tussen beoordelaars te staan: die zijn waarschijnlijk altijd (veel) kleiner dan de mogelijke steekproefverschillen (zeg maar: stel dat deze leerlingen het examen van voorgaand jaar hadden afgelegd, hoe anders zouden hun scores zijn?). 

**) kwantificeerbaar: Stel je ieder examen wiskunde voor als getrokken uit een enorme verzameling mogelijke examenopgaven.  Veronderstel de stofbeheersing van de leerling als gedefinieerd op die verzameling: bijvoorbeeld 80% van die vragen zullen goed gemaakt worden.  De voorspellende kansverdeling voor wat de score op het aankomende examen van 20 vragen zal zijn is onder dit eenvoudige model de binomiaalverdeling (0,8; 20). Die verdeling geeft zelfs een geflatteerd gunstig beeld, want in werkelijkheid kent niemand de ware beheersing, en zit ook daar een onzekerheidsmarge omheen. Meer info: https://benwilbrink.nl/projecten/spa_project.htm

Het is mogelijk om steeds meer tijd en middelen in de ‘eerlijkheid’ van een examen te steken: door het examen te verlengen en dan ook meer vragen te kunnen stellen; door een tweede corrector het werk nog eens te laten beoordelen; door MC te vervangen door open vragen.  Bedenk wel dat de kosten behoorlijk kunnen oplopen: uiteindelijk moet dan de afweging zijn of die extra tijd niet beter aan onderwijs zelf kan worden besteed.  Want onderwijs is het directe belang, ook van de leerlingen zelf.  Steel geen onderwijstijd van leerlingen.  [Hoeveel tijd besteden leraren: https://nl.teachertapp.com/examens-2023/ tot wel 2 uur per leerling.]  Deze overweging is ook voor het examen zelf van belang: wanneer dat examen een groot deel van de onderwijstijd in de laatste schooljaren opslokt, zijn we er niet goed mee bezig. ***)

De beoordeling van examenwerk kan mogelijk doeltreffender en doelmatiger door minder nauwkeurig te werken: bij een globale blik constateren dat een gegeven antwoord oké is, of evident niet oké, dat kan aanvaardbaar zijn.  Zeker in combinatie met een fatsoenlijke regeling voor inzage in het beoordeelde examenwerk, die er onder alle omstandigheden toch al dient te zijn.  En een eenvoudige regeling voor bezwaar voordat het bevoegd gezag de uitslag van het examen vaststelt.  Beoordeel altijd in het voordeel van de leerling, ook al omdat de leerling er zelf niet bij is om toelichting te kunnen geven.   

Eerlijk corrigeren is onderdeel van eerlijk toetsen is onderdeel van eerlijk onderwijs. Er is nog veel te doen om onderwijs eerlijker te maken.  ‘Eerlijk’ is meer dan ‘gelijke kansen’. Een uitdaging dus ook. 

Cijfergeven en technocratische tests: goed onderwijs kan ze missen als kiespijn

Dit is een artikel (in 2023) voorbereid voor Van Twaalf tot Achttien, en vrij toegankelijk op de website van het tijdschrift geplaatst: https://van12tot18.nl/artikelen/cijfergeven-en-technocratische-tests-goed-onderwijs-kan-ze-missen-als-kiespijn Deze blogtekst is daaraan gelijk. Wel zijn aan deze blog enkele concept-maps toegevoegd die niet op de website van Van Twaalf tot Achttien staan. Die concept-maps zijn eigenlijk wel onontbeerlijk, omdat het artikel ongelooflijk veel informatie bevat. Dit artikel is het laatste in een drieluik in Van Twaalf tot Achttien. Het is mijn afgeronde visie op beoordelen in onderwijs, na een halve eeuw ploeteren op de problematiek. Er is discussie over nodig. Maar dat wisten we al hè! De samenvattende concept-map is deze, Integer toetsen:

=========================================

Beoordelen en onderwijs is een thema dat alle kanten op schiet.  Want het gaat van voortdurend oordelen in de les—niets mis mee—tot cijfergeven, testen, adviseren en selecteren.

Over beoordelen schreef mijn mentor Wim Hofstee een principieel boek Principes van beoordeling. Methodiek en ethiek van selectie, examinering, en evaluatie. tinyurl.com/mtdrmhx9 Beoordelen in onderwijs is daar maar een onderdeel van, maar welk een enorme impact heeft het op onze levens! Dat beoordelen staat ook voortdurend ter discussie in diverse media en in de politiek.  Wat zou het geweldig zijn een paar ankers te hebben waar die discussies een rustpunt kunnen vinden.  

serieuze verschillen, merkwaardige overeenkomsten

Het toetsen heeft geen eigen methodologie anders dan wat de traditie dicteert: het is ‘vijven en zessen’ geblazen, een taaie traditie van cijfergevendie toch pas dateert van halverweg de 19e eeuw.  Hoe ingrijpend de wereld daarna ook veranderdede, cijfergewoonten zijn rotsvast (wet van Posthumus). 

Het testen heeft wel een eigen methodologie, de psychometrie, die nogal ideologisch is bepaald. Er is niets objectiefs aan tests, behalve dat zij vaak automatisch zijn te scoren, wat op zich een verdienste van niets is. Deze testpsychologie kreeg een eeuw geleden een enorme oppepper door een Franse test, ontwikkeld door Alfred Binet die hij een intelligentietest noemde.  Wat had hij daar spijt van.  Er is een woord voor, en zelfs een test, dus intelligentie bestaat en kinderen verschillen erin.  Zou het echt?  

In de VS zagen testpsychologen al vroeg een markt voor hun IQ-tests (er moest in 1917 rap een leger op de been gebracht) en vervolgens ook voor tests in het onderwijs.  Het toetsen werd leraren in de VS uit handen genomen en vervangen door talloze testjes, vaak in keuzevorm. Deze testpandemie sloeg in de zestiger jaren over naar Nederland: A.D. de Groot nam het virus mee vanuit de VS. Leraren werd verteld dat de enige goede toetsen vierkeuzetoetsen zijn. En zo raakte een traditie-gedreven toetspraktijk van leraren besmet met pseudo-wetenschappelijk jargon, gedachteloos ontleend aan een totaal andere discipline, de testpsychologie/psychometrie. 

Want testpsychologie veronderstelt dat men voor tests niet specifiek is voorbereid. Terwijl voor toetsen juist de kern van de zaak is dat leerlingen er wel specifiek op zijn voorbereid: dat is immers de core business van onderwijs. Werelden van verschil. Ze verwarren is gekmakend.

Een belangrijke merkwaardige overeenkomst tussen onderwijs en testpsychologie is dat beide verzot zijn op rangordenen. 

Het West-Europese onderwijs rangordent al sinds de middeleeuwen, met prijzen of aantrekkelijke banen als beloning voor de best presterenden. Dat alles om studenten te motiveren, ook al zag men wel in dat dit rangordenen voor de meeste studenten juist niet motiverend was. 

De testpsychologie ontwerpt tests die een zo groot mogelijke spreiding in de doelgroep opleveren, een sterke rangorde dus, om zo beter te kunnen klassificeren of voorspellen. De IQ-test is daar het bekendste voorbeeld van.

NB: Deze conceptmap is versie 2.0. De verbindingslijnen zijn nog primitief, soms een lijn, dan weer een pijl, ik beheers de techniek nog niet. Het is mij ook niet gelukt om bronvermeldingen (zoals die bij ‘beoordelen’ naar de boekbespreking van Hofstee) werkend te krijgen: bij overzetten van CMap naar pdf of jpg gaan de URLs verloren

dubbel-blind onderzoek, moet dat dan?

Ik gebruik nu de methodologie/standaarden van de testpsychologie om helder te krijgen waar we in het onderwijs mee bezig zijn met onze permanente selectie. Niet om die selectie ‘beter’ te doen, maar om misstanden gericht te kunnen bestrijden. 

Een voorbeeld. De testpsychologie schrijft voor dat het gebruik van de Eindtoets Basisonderwijs valide moet zijn, en anders stoppen ermee (‘Standards’ https://psynip.nl/cotan/algemene-standaard-testgebruik-ast-nip-2017/). Die validiteit moet in beginsel via dubbelblind experimenteel onderzoek worden bepaald. Het probleem is nu dat zo’n experiment om ethische en praktische redenen niet mogelijk is.  Het is dus nooit gedaan!  Op zo’n manier medicijnen in de markt zetten noemen we misdadig.  Deze Eindtoets Basisonderwijs blaast kansen op eerlijk onderwijs het raam uit.   

Maar die Eindtoetsen voorspellen toch redelijk waar leerlingen zich drie jaar later bevinden? Zeker, maar iedereen is op de hoogte van de voorspelling hè! Verwachtingen, verwachtingen.  Placebo-effecten.  Daarom is nu juist dubbelblind onderzoek nodig. 

cijfergeven = rangordenen, wist u dat?

Waar de testpsychologie sinds Binet’s intelligentietest van het rangordenen een wetenschap maakte, evolueerde het rangordenen in het onderwijs eerder al tot pseudo-gestandaardiseerd cijfergeven, waar het onderwijs in is blijven hangen: een lock-in.  Bij de Franse Agrégation ontstond in een paar evolutiestappen halverwege de 19e eeuw uit het traditionele rangordenen het pseudo-gestandaardiseerde cijfergeven. De beste zijn van een kleine of juist een grote jaarklas is zo’n verschil dat met cijfergeven is op te vangen. Dit is een belangrijk historisch inzicht hoor!  A.D. de Groot had bij zijn Vijven en zessen niet naar de historische wortels van cijfergeven gezocht. Die zijn ook lastig te vinden, ik kwam er zelf achter via een toevalsvondst bij André Chervel (zijn boek over de Agrégation). 

De testpsychologie pakt het rangordenen rationeel aan door onderzoekmatig normtabellen op te stellen voor zijn doelgroepen. Zodoende bleek bijvoorbeeld dat de tabellen voor IQ-tests na enige tijd moesten worden bijgesteld omdat leerlingen doorheen de vorige eeuw steeds intelligenter bleken: het Flynn-effect

Daartegenover zien we dat in het onderwijs iedereen zijn eigen ding doet met cijfergeven, slechts vaag geleid door noties als ‘een 5 is juist onvoldoende’. Die cijfers geven informatie over waar leerlingen in de onderlinge pikorde staan, maar dus weinig of geen inhoudelijke feedback op prestaties zelf.

cijfergeven zit instructie en leren in de weg

Dat rangordenen en cijfergeven zit eerlijk onderwijs in de weg, elders meestal gelijke kansen genoemd. Dat geldt ook voor het rangordenen met leerlingvolgsystemen en andere intelligentietests. In de testpsychologie is het evident dat ruwe scores omgezet moeten worden naar testscores met behulp van de al genoemde normtabellen. Zo komen we aan een normaalverdeling voor intelligentie; maar dat is louter kunstmatig!  In het onderwijs doen we dat anders: de basis is dat we antwoorden vakmatig beoordelen op hun juistheid. Daar is niets mis mee. En het is een goed uitgangspunt voor feedback naar leerlingen, of voor de leraar zelf uiteraard. Formatief toetsen.  Maar vervolgens doen we iets merkwaardigs: we geven een waardering aan die antwoorden, een cijfer. Waar is dat voor nodig? Het heeft weinig of niets met onderwijs zelf te maken. 

onvoldoende/voldoende

Tot de pseudo-standaardisering van het cijfergeven hoort bovendien het stellen van een grens tussen ‘onvoldoende’ en ‘voldoende’ prestaties, in Nederland door wetgeving dàt er zo’n grens moet zijn. Niet hoe die is te bepalen, want dat is alweer zo’n onopgelost probleem, hoewel er veel schijnoplossingen zijn. Ik weet niet wat daar de historische wortels van zijn. Het is een cultureel fenomeen dat leraren, en zij niet alleen, behoefte hebben om verschillen tussen leerlingen op zo’n manier te benoemen. De ‘wetmatigheid van Posthumus’ laat dat zien: het zittenblijven/afstromen in de HBS, van 1870 tot 1940, was jaarlijks ca. 23%, wat er ook in de wereld veranderd mocht zijn. Dit zittenblijven heeft geen rationele basis. 

Posthumus heeft laten zien dat leraren kennelijk niet anders kunnen dan telkens een vast percentage onvoldoende te geven en te laten zitten. Maar dat moet betekenen dat leerlingen als collectief evenmin bij machte zijn om dat traditionele patroon te doorbreken.  Wat is er aan de hand met deze toetserij? Want laten we wel wezen, dit fenomeen is compleet in strijd met hoe langs rationele weg selectieprocedures worden ontworpen. Hier is iedere ratio ver te zoeken, behalve de ratio ‘we gaan het niet anders doen dan onze voorouders deden’.

systemische krachten

Maar is het louter traditie? Of zijn er ook ‘systemische’ krachten aan het werk die we door die traditie heen niet goed in de peiling hebben? Vijven en zessen gaf al iets aan van onderlinge concurrentie van leraren. Zouden leraren misschien ook met leerlingen in concurrentie zijn? Wat denkt u? Socioloog James Coleman  presenteerde een model voor zeg maar een ‘stilzwijgende onderhandeling’ tussen leraren en leerlingen. Dat gaat als volgt:

De leraren zetten hun cijfers in, in ruil voor tijdbesteding van hun leerlingen. Tegelijk zetten leerlingen hun tijdbesteding in om goede cijfers van hun leraren te krijgen. Een dynamisch systeem, waarin leraren en leerlingen elkaar in een houdgreep hebben, en geen van beide partijen in staat lijkt de beoordelingstradities te veranderen. Zou dat kunnen? Maar dit is in het onderwijs geen gezonde situatie hè! Dat cijfergeven, daar moeten we echt van af. 

toetsen integreren met instructie en leren

Cijfergeven gaat samen met moeilijke vragen stellen. Het is dus niet zo, helaas, dat weghalen van het cijfergeven (stop ermee, zegt Dylan Wiliam) voldoende is om een zuiver vakmatige beoordeling over te houden. 

Opgaven wiskunde die leerlingen gemiddeld 40% fout maken mogen wiskundig gezien oké zijn, maar in het onderwijs is het niet professioneel om in toetsen vragen op te nemen die gemiddeld zo moeilijk zijn. Zij belemmeren leerlingen zich doeltreffend voor te bereiden: per definitie kunnen ze het dan collectief niet winnen van hun leraar. A.D. de Groot protesteerde tegen dit permanente selecteren. Moeilijke vragen zijn bovendien voor de meeste leerlingen demotiverend, zijn op zich geen goed leermoment, en zijn ook niet optimaal voor het consolideren van kennis. 

Kwalitatief hoogwaardig onderwijs vraagt om veel toetsen als integraal onderdeel van instructie en leren.  Die toetsen mogen juist niet moeilijk zijn.  Dat is een totaal andere benadering dan die van de psychometrie die verschillen tussen leerlingen wil vastleggen.  Dan zijn we niet meer met onderwijs bezig, maar met selectie.  Maar dat is geen taak van onderwijs hè! 

recht – ethiek

Ik heb in het voorgaande niet benoemd dat het beoordelen van leerlingen, of dat nu door hun leraar, of technocratisch door een test of centraal examen gebeurt, onderworpen is aan grenzen die recht en ethiek stellen.  Het recht: fair play en andere beginselen zoals die leven in het algemene rechtsbewustzijn van burgers.  Ethiek:  respecteer leerlingen, respecteer het recht, doe het goede. 

Ben Wilbrink, onafhankelijk onderwijsonderzoeker.  

Literatuur

over beoordelen

W. K. B. Hofstee (1999). Principes van beoordeling. Methodiek en ethiek van selectie, examinering, en evaluatie. Swets & Zeitlinger [bespeking: https://pedagogischestudien.nl/search?text=Principes+van+beoordeling.+Methodiek+en+ethiek+van+selectie%2C+examinering%2C+en+evaluatie ]

Ben Wilbrink (1986). Toetsen en testen in het onderwijs.In S.V.O. Jaarverslag/Jaarboek 1985, 275-288. https://benwilbrink.nl/publicaties/86ToetsenEnTestenSVO.htm

Ben Wilbrink (1997). Assessment in historical perspective. Studies in Educational Evaluation, 1997, 23, 31-48. https://benwilbrink.nl/publicaties/97AssessmentStEE.htm

psychologische tests

Ben Wilbrink (2020). ‘Intelligentie’ in historisch perspectief. Van Twaalf tot Achttien, maart 2020.  https://van12tot18.nl/artikelen/intelligentie-in-historisch-perspectief

NIP (2018). Algemene standaard testgebruik NIP 2017.  Nederlands Instituut van Psychologen. [Cotan / vastgesteld door het NIP]  https://psynip.nl/cotan/algemene-standaard-testgebruik-ast-nip-2017/

AERA, APA & NCME (2014). The Standards for Educational and Psychological Testing. https://www.testingstandards.net/open-access-files.html 2014 edition open access

gestandaardiseerde toetsen / eindtoets basisonderwijs / centrale eindexamens

Sharon L. Nichols and  David C. Berliner (2005).  The Inevitable Corruption of Indicators and Educators Through High-Stakes Testing. Education Policy Studies Laboratory, Arizona State University https://files.eric.ed.gov/fulltext/ED508483.pdf

Menno Bos (2007). De omstreden introductie van de Citotoets. Historisch Nieuwsblad. https://www.historischnieuwsblad.nl/de-omstreden-introductie-van-de-citotoets/ 

Karen Heij (2021). Van de kat en de bel. Tellen en vertellen met de eindtoets basisonderwijs.  Proefschrift Tilburg.  open access https://karenheij.bijzonderboeken.nl 

(9 maart 2023). Rapportage Onderzoek LVS en eindtoets. DUO Onderwijsonderzoek en Advies. https://www.duo-onderwijsonderzoek.nl/wp-content/uploads/2023/03/Rapportage-Pointer-onderzoek-toetsen-maart-2023.pdf

toetsen / proefwerken / tentamens

Adriaan D. de Groot & Robert F. van Naerssen (Red.) (1969). Studietoetsen construeren, afnemen, analyseren. Mouton. [een beschouwing https://benwilbrink.nl/projecten/studietoetsen_40_jaar.htm

Ben Wilbrink (1983). Toetsvragen schrijven. Het Spectrum, Aula 809. http://www.benwilbrink.nl/publicaties/83ToetsvragenAula.pdf, in bewerking: http://www.benwilbrink.nl/projecten/toetsvragen.1.htm

criteria voor kwaliteit

A. D. de Groot (1970). Some badly needed non-statistical concepts in applied psychometrics. Nederlands Tijdschrift voor de Psychologie https://benwilbrink.nl/publicaties/70degroot.htm 

L. M. C. M. Cremers-van Wees, J. W. M. Knuver, H. J. Vos, &amp; W. J. M. Van der Linden (1998). Model gedragscode toetsen, beoordelen en beslissen in het voortgezet onderwijs.    Enschede: OCTO. http://goo.gl/W7Cz60

cijfergeven

A. D. Groot (1966). Vijven en zessen. Cijfers en beslissingen: het selectieproces in ons onderwijs. J. B. Wolters. online lenen bij archive.org: https://archive.org/details/vijvenenzessenci0000groo 

Benjamin S. Bloom (May 1968). Learning for Mastery. Instruction and Curiculum.  Reprint from Evaluation Comment,  (2), 1-12  https://files.eric.ed.gov/fulltext/ED053419.pdf Zie specifiek de sectie ‘The normal curve’. 

Paul van der Molen & Jos Keuning (2023). Steeds meer zesjes. Cito. https://www.cito.nl/-/media/files/voortgezet-onderwijs/centrale-examens/examenvernieuwing/cte_artikel_e-examens_steeds_meer_zesjes.pdf

cesuur(bepaling) / selectie

K. Posthumus (1940). Middelbaar onderwijs en schifting. De Gids. https://www.dbnl.org/tekst/_gid001194001_01/_gid001194001_01_0040.php

Ben Wilbrink (1980a). Optimale kriterium gerefereerde grensskores zijn eenvoudig te vinden. Tijdschrift voor Onderwijsresearch, 5, 49-62. https://benwilbrink.nl/publicaties/80aGrensscoresTOR.htm

Ben Wilbrink (1980b). Enkele radicale oplossingen voor kriterium gerefereerde grensskores. Tijdschrift voor Onderwijsresearch, 5, 112-125. https://benwilbrink.nl/publicaties/80bGrensscoresTOR.htm

Ben Wilbrink (1997). Terugblik op toegankelijkheid: meritocratie in perspectief. In Marian Van Dyck, Toegankelijkheid van het Nederlandse onderwijs. Studies (p. 341-384). Den Haag: Onderwijsraad. https://benwilbrink.nl/publicaties/97MeritocratieORaad.htm

wat vinden leraren zelf?

Ben Wilbrink (2004 ongepubliceerd). Toetsopvattingen van docenten. https://benwilbrink.nl/publicaties/04Toets_opvattingen.htm

Theo Thijssen (1929). De examenidioot of De kinderexamens van 1928. Overdruk uit De Bode. orgaan van de Bond van Ned. Onderwijzers. Bondsdrukkerij “De Volharding”. http://www.benwilbrink.nl/Thijssen_De_Examenidioot_1929.pdf (scan 24 Mb) Theo Thijssen, zelf onderwijzer, kraakt hier de toelatingstoetsen tot het vhmo af. En gelijk had hij!

integer toetsen: in onderwijs geïntegreerd 

David Didau (2023). When retrieval practice goes wrong (and how to get it right). Blog. [Over wenselijke moeilijkheid van toetsvragen] https://learningspy.co.uk/english-gcse/when-retrieval-practice-goes-wrong-and-how-to-get-it-right/ 

Ben Wilbrink (september 2018). Benjamin S. Bloom, human characteristics, and school learning. Blog:  https://benwilbrink.wordpress.com/2018/09/28/benjamin-s-bloom-human-characteristics-and-school-learning/

Kristian Still (2023). Test-Enhanced Learning: A practical guide to improving academic outcomes for all students.  Crown House Publishing.  https://www.amazon.de/-/nl/dp/B0BTS9DZ2N/ testing-effect Biedt goed overzicht van de literatuur. Belangrijker nog: Kristian Still beschrijft hoe hij dit in zijn onderwijs Engels in praktijk heeft gebracht.

[toegevoegd december 2023:] Dillon H. Murphy, Jeri L. Little & Elizabeth L. Bjork (2023). ‘The Value of Using Tests in Education as Tools for Learning—Not Just for Assessment’, in Educational Psychology Review https://link.springer.com/article/10.1007/s10648-023-09808-3 Rijke literatuurlijst bij dit bijzonder toegankelijke artikel. PS: het pleidooi voor meerkeuzevragen met competitieve alternatieven steun ik; maar dat vergt wel zorgvuldig ontwerp!

dynamiek tussen leerlingen en hun docenten

Ben Wilbrink (1992). The first year examination as negotiation; An application of Coleman’s (1990) social system theory to law education data. Paper European Conference on Educational Research, Twente. https://benwilbrink.nl/publicaties/92ColemanApplicationECER.htm

onderwijs geven versus verschillen benadrukken

Wim van den Broeck (maart 2023) Onderwijs is een waarde op zich. Didactief. https://didactiefonline.nl/blog/blonz/onderwijs-is-een-waarde-op-zich [position paper Tweede Kamer]

L. M. C. M. Cremers-van Wees, J. W. M. Knuver, H. J. Vos, &amp; W. J. M. Van der Linden (1998). Model gedragscode toetsen, beoordelen en beslissen in het voortgezet onderwijs. Enschede: OCTO.  isbn 9036510899. http://www.benwilbrink.nl/Model_gedragscode_toetsen_beoordelen_en_beslissen_in_het_voortgezet_onderwijs.pdf

de grenzen van het recht

Henk van Berkel (2019). Juridisch correct examineren. Een studie naar uitspraken van beroepscolleges in het hoger onderwijs. Proefschrift. (Embargo ends: 27/11/24) (presentatie 2017: https://www.nvexamens.nl/wp-content/uploads/2017/12/Henk-van-Berkel.pdf

M. Job Cohen (1981). Studierechten in het wetenschappelijk onderwijs. Proefschrift. http://www.benwilbrink.nl/projecten/toetsvragen.8.htm#Cohen_1981

C. W. Noorlander (2005). Recht doen aan leerlingen en ouders. De rechtspositie van leerlingen en ouders in het primair en het voortgezet onderwijs. Proefschrift Vrije Universiteit – handelseditie: Wolf Legal Publishers. [Hoofdstuk 14: Beoordeling van onderwijsprestaties. 517-587]  

ethische grenzen 

Ben Wilbrink (2017). Op weg naar eerlijk onderwijs. Van Twaalf tot Achttien, september 2017. https://van12tot18.nl/artikelen/op-weg-naar-eerlijk-onderwijs

American Psychological Association (2004). Code of fair testing practices in education. http://www.apa.org/science/programs/testing/fair-testing.pdf 

cognitieve psychologie

Tim Surma, Kristel van Hoywegehen, Dominique Sluijsmans, Gino Camp, Daniel Muijs, Paul A. Kirschner (). Wijze lessen.  Twaalf bouwstenen voor effectieve didactiek. Ten Brink. https://www.ou.nl/documents/846784/0/Wijze_Lessen_digitaal_160919.pdf

Stellan Ohlsson (2011). Deep Learning. How the Mind Overrides Experience Cambridge University Press. https://benwilbrink.nl/literature/ohlsson.htm

David Grissmer en anderen, onder wie Daniel Willingham (2023). A Kindergarten Lottery Evaluation of Core Knowledge Charter Schools: Should Building General Knowledge Have a Central Role in Educational and Social Science Research and Policy?. (EdWorkingPaper: 23-755). Retrieved from Annenberg Institute at Brown University: https://doi.org/10.26300/nsbq-hb21

Bijlage

en ja, testuitslagen zijn een stuk complexer:

Hoe kan het dan wel, zonder te vervallen in de zonde van het verschil maken tussen leerlingen?

Leerlingen beoordelen, is dat wel het juiste idee?

Een Gordiaanse kluwen van belanghebbende partijen heeft zich sinds de 60er jaren op het toetsen voor, in en na het onderwijs gestort. Onderwijs bezwijkt onder de last, de leerlingen voorop. Stoppen ermee. Dat toetsen heeft geen baten meer, alleen maar torenhoge kosten. Wat denkt u?

Als ik duizend woorden krijg voor een helikoptervisie op beoordelen/toetsen/testen en onderwijs, wat is dan belangrijk genoeg om er zeker in op te nemen? 
Ik ga wat proberen, anders komt het er niet van. Toch? Discussie is welkom. Leraren zijn mijn doelgroep.

het handelen van beoordelaars en toetsontwerpers begrensd

Bovenaan mijn lijstje staat dan de vraag ‘Op welke manier zijn er grenzen gesteld aan het handelen van leraren?’ En dan bedoel ik niet de voorschriften van het CvTE bij de centrale eindexamens. Wat hier voor leraren geldt, geldt uiteraard ook voor de Cito’s van het land.

Ik denk dan aan een drieslag, hoewel deze drie niet strict van elkaar zijn te scheiden.

1) integriteit, in de zin van passend/functioneel binnen het onderwijs.

2) het recht, in het bijzonder betreft dat algemene beginselen als ‘fair play’, motivering, evenredigheid.

3) ethiek.

Niet strict van elkaar te scheiden: het recht vraagt dat toetsing integer is; ethiek vraagt dat toetsing integer is en dat het recht is gerespecteerd. 
In deze context betekent ‘integer’ niet dat toetsen allereerst aan psychometrische eisen (betrouwbaarheid, validiteit) voldoen, betekent ‘het recht’ niet wat onder onderwijsrecht wordt verstaan (zoals bij Noorlander ‘Recht doen aan leerlingen en ouders’ te vinden), en is ‘ethiek’ misschien een vooral onontgonnen gebied waar bijvoorbeeld @IngridRobeyns onze gids zou kunnen zijn.

Uit deze drie leidende beginselen, laat ik ze zo maar noemen, volgt vrijwel al het andere. Althans, dat is mijn stelling. 
Allereerst volgt eruit dat het bij al dat beoordelen of toetsen in de eerste plaats gaat om de individuele leerling die recht heeft op goed onderwijs.

En dat is een geweldig inzicht, omdat vrijwel alles wat er over toetsen en beoordelen in het onderwijs is geschreven en geregeld gaat over groepen leerlingen die toetsen maken en waarover overgangsbeslissingen worden genomen, statistieken berekend, en ga zo maar door.

Eind jaren ’60 gebeurt er iets bijzonders. Adriaan de Groot en Bob van Naerssen pakken ideologisch gedreven uit met een boek (1969) over studietoetsen (= vierkeuzetoetsen). Na de onderdompeling in deze technocratische vorm van toetsen, komt bij beiden een moment van bezinning.

De Groot schrijft in 1970 een artikel waarin hij pleit voor een overkoepelend kwaliteitscriterium voor toetsen: die moeten voor de leerling doeltreffend zijn voor te bereiden. Strategisch dus ook. Van Naerssen geeft daar in zijn inaugurele rede in 1970 een wiskundig model voor.

Beide publicaties maken in feite korte metten met heel het technocratisch apparaat (de psychometrie) dat in één koop vanuit de Verenigde Staten naar ons polderland was gehaald. Beiden nemen de individuele leerling als uitgangspunt bij het ontwerpen van toetsen. Revolutionair. In feite tè revolutionair voor dit land van dominees en kooplieden, want er is nauwelijks aandacht aan besteed.

Voor Bob van Naerssen was een teleurstelling dat zijn tentamenmodel plat was gevallen, en niet tot verder onderzoek en ontwikkeling leidde. Ik was zelf eigenlijk de enige die er wèl mee aan de slag ging (zie mijn website, bijvoorbeeld het SPA-model; op mijn website ook de 1970-publicaties va zowel De Groot als Van Naerssen), maar ook mijn werk kreeg geen belangstelling. ‘It’s all in the game’, in goed Nederlands.

Integer toetsen is een kwestie van kritisch gezond verstand, en afdwingbaar langs de weg van de kwaliteitseis ‘evidence informed’ te werken. Dat beoordelen binnen de grenzen van het recht blijft is in het hoger onderwijs afdwingbaar via beroepsprocedures (CoBEx). Het hoger onderwijs loopt hier sterk voor op het vo en po. Zie Job Cohen 1981 ‘Studierechten’ benwilbrink.nl/projecten/toet…; Henk van Berkel (2017). Juridisch correct examineren. Implicaties van uitspraken door beroepsorganen in het hoger onderwijs. nvexamens.nl/wp-content/upl…

Wie leerlingen beoordeelt, krijgt ook te maken met ethische dilemma’s. Al is het maar het dilemma dat die algemene beginselen van behoorlijk bestuur/onderwijs best wel lastig kunnen zijn in de praktijk van het onderwijs: lap je ze dan aan je laars, of investeer je er juist in?

cijfergeven

‘Vijven en zessen’ van A.D. de Groot sloeg in 1966 in als een bom, maar heeft niet echt geleid tot verbeterde toetsen. Wat weten we nu eigenlijk over dat cijfergeven? Het cijfergeven is vooral een 19e-eeuwse poging om het gangbare rangordenen van leerlingen te ‘objectiveren’. Cijfergeven is nog steeds rangordenen, het is relatief, er zijn geen absolute normen. Leraren hebben buitengewoon sterke tradities/gewoonten bij dat cijfergeven, door Posthumus in De Gids 1940 beschreven dbnl.org/tekst/_gid0011…Zittenblijven/afstromen altijd ca 23%. Dat is gek!

Omdat cijfers relatief zijn, is er strijd met het beginsel van A.D. de Groot dat toetsen doeltreffend moeten zijn voor te bereiden. Immers, het is praktisch onmogelijk voor leerlingen om zich collectief doeltreffend voor te bereiden op iedereen een ‘8’. Laat het even inzinken.

Posthumus heeft laten zien dat leraren kennelijk niet anders kunnen dan telkens een vast percentage onvoldoende te geven, te laten zitten, niet toe te laten. 

Maar dat moet betekenen dat leerlingen als collectief evenmin bij machte zijn om dat traditionele patroon te doorbreken.

Wat is er aan de hand met deze toetserij? Want laten we wel wezen, dit fenomeen is compleet in strijd met hoe langs rationele weg selectieprocedures worden ontworpen. Hier is iedere ratio ver te zoeken, behalve de ratio ‘we gaan het niet anders doen dan onze voorouders deden’.

Maar is het louter traditie? Of zijn er ook ‘systemische’ krachten aan het werk die we door die traditie heen niet goed in de peiling hebben? ‘Vijven en zessen’ gaf al iets aan van onderlinge concurrentie van leraren. Zouden leraren misschien ook met leerlingen in concurrentie zijn? Wat denkt u? Socioloog James Coleman hup.harvard.edu/catalog.php?is…presenteerde een model voor zeg maar een ‘stilzwijgende onderhandeling’ tussen leraren en leerlingen. Dat gaat als volgt:

De leraren zetten hun cijfers in, in ruil voor tijdbesteding van hun leerlingen. Tegelijk zetten leerlingen hun tijdbesteding in om goede cijfers van hun leraren te krijgen. Een dynamisch systeem, waarin leraren en leerlingen elkaar in een houdgreep hebben, en geen van beide partijen in staat lijkt de beoordelingstradities te veranderen. Zou dat kunnen?

Ja, dat kan, ik heb het aannemelijk kunnen maken met een dataset voor de propedeuse rechten (UvA, 1992) benwilbrink.nl/publicaties/92… 
Maar dit is in het onderwijs geen gezonde situatie hè! Dat cijfergeven, daar moeten we echt van af. En dat moet eenvoudig kunnen, zou je denken. Want tot aan de uitvinding van cijfers als pseudo-gestandaardiseerde vorm van rangordenen in de 19e eeuw deden we het immers zonder. Maar wel met altijd maar weer rangordenen.

rangordenen

Dit moet ik even toelichten. Ooit was bestraffen van dommigheden de gewoonte. Het humanisme verving dat door het belonen van prestaties, bijvoorbeeld in de vorm van een prijsboek voor de ‘beste’ leerlingen. [zie J. Spoelder (2000). Prijsboeken op de Latijnse school] Om dat te kunnen doen, hielden leerlingen een puntentelling van gemaakte fouten bij, op basis waarvan de rangorde van de leerlingen werd bepaald.

Dat rangordenen is voor goed onderwijs niet nodig. Het was een manier om leerlingen te motiveren, maar heeft altijd het bezwaar gehad dat het alleen de beste leerlingen motiveert. Zowel rangordenen als cijfergeven scheppen een eigen, onveilige, schoolwereld—los van inhouden.

Het probleem is nu dat ‘vakmatig beoordelen’ sterk is besmet door de eeuwenlange traditie van rangordenen. Het is dus niet zo, helaas, dat weghalen van het cijfergeven (stop ermee, zegt Dylan Wiliam) voldoende is om een zuiver vakmatige beoordeling over te houden. Want er is een ijzersterke koppeling tussen het ‘vijven en zessen’ van het cijfergeven, en de moeilijkheid van vragen in toetsen en examens. Moeilijkheid die in de buurt van 60% wordt gehouden door ontwikkelaars, of dat nu leraren zelf zijn, of leraren in dienst van bijvoorbeeld Cito. Toetsvragen worden al als extra moeilijk ontworpen om straks een ‘overtuigende’ (ha ha) spreiding van scores te hebben als basis voor cijfers gespreid over heel de cijferschaal van 1 tot 9.

Een opgave wiskunde die 40% van de leerlingen niet goed beantwoorden mag wiskundig gezien helemaal oké zijn, maar in het onderwijs is het van de gekke om in toetsen vragen op te nemen die gemiddeld zo moeilijk zijn. Want dat staat haaks op wat er voor onderwijs nodig is. Zulke moeilijke toetsen belemmeren leerlingen bij het zich doeltreffend voorbereiden (De Groot, 1970); zijn voor de meeste leerlingen demotiverend, zo niet erger; zijn op zich geen goed leermoment; en zijn ook niet optimaal wat het consolideren van kennis betreft.

Ik heb destijds in mijn ‘Toetsvragen schrijven’ (Aula 809, 1983) deze thematiek van gemiddeld te moeilijke vragen over het hoofd gezien. Gemiste kans. Destijds heb ik wel gebruik van de taxonomie van Bloom c.s. ontraden, zoals ook van meerkeuzevragen in het onderwijs. Beschouwingen over betrouwbaarheid, rit- en p-waarden zouden getuigen van een technocratische benadering van het ontwerpen van toetsvragen, en pasten evenmin in dat boek. Die p-waarden staan voor de moeilijkheid van de de vragen, en die had ik juist wèl kritisch moeten behandelen!

backwash

Ik heb nog te weinig aandacht gegeven aan ‘backwash’ effecten. Een paar opmerkingen daarover, ter afsluiting. Dat toetsen en examens enorme invloed hebben op het eraan voorafgaande, dat weet iedereen wel. Toch wordt er zelden naar gehandeld.

Voor Bob van Naerssen stond het vast dat toetsen een sterke hefboom zijn die we op het onderwijs zetten. Ten goede, of ten kwade. Het voorbeeld-bij-uitstek van het kwade is de ‘citotoets’ die in een halve eeuw tijd het basisonderwijs heeft misvormd.

Het is een waarheid als een koe (waar we onze ogen liever voor sluiten) dat alle prestatie-indicatoren, ook toetsen en examens, hun betekenis als indicatoren verliezen zodra er sancties aan worden gekoppeld. Dan gaat iedereen zich strategisch gedragen, hoe schadelijk ook.

We doen het onszelf aan, door toetsen en examens te behandelen als losstaand van het onderwijs, in plaats van als integraal onderdeel van onderwijs, instructie, en leren. 
Weten we nu in welke richting we het moeten zoeken, met ons toetsen en examineren? Ja toch?

eerlijk onderwijs – individuele verschillen

Ik heb in dit stuk niet expliciet benoemd dat ongeveer alles gaat over, of te maken heeft met, individuele verschillen tussen leerlingen en hoe we daarmee omgaan. Bij deze. Zie ook het stuk van Wim van den Broeck (maart 2023) https://didactiefonline.nl/blog/blonz/onderwijs-is-een-waarde-op-zich

[Deze tekst is een vingeroefening, en voorbereiding op een kort artikel voor een onderwijstijdschrift, een anker voor vervolgens kortere beschouwingen over sub-thema’s in dat beoordelen. Ik moet dat nog wel even checken door voor een paar onderwerpen na te aan of een inzichtelijke behandeling mogelijk is door op het bovenstaande voort te bouwen / ernaar terug te verwijzen.] [Gebaseerd op een lange twitterdraad https://twitter.com/benwilbrink/status/1633742224708993024, unrolled: https://threadreaderapp.com/thread/1633742224708993024?refresh=1679046860%5D

literatuur

Henk van Berkel (2019). Juridisch correct examineren. Een studie naar uitspraken van beroepscolleges in het hoger onderwijs. Proefschrift. (Embargo ends: 27/11/24) (presentatie 2017: https://www.nvexamens.nl/wp-content/uploads/2017/12/Henk-van-Berkel.pdf)

Wim van den Broeck (maart 2023) Onderwijs is een waarde op zich. Didactief. https://didactiefonline.nl/blog/blonz/onderwijs-is-een-waarde-op-zich [position paper Tweede Kamer]

M. Job Cohen (1981). Studierechten in het wetenschappelijk onderwijs. Proefschrift. http://www.benwilbrink.nl/projecten/toetsvragen.8.htm#Cohen_1981

James H. Coleman (1990). Foundations of social theory. Harvard University Press. https://www.hup.harvard.edu/catalog.php?isbn=9780674312265

David Didau (2023). When retrieval practice goes wrong (and how to get it right). Blog. [Over wenselijke moeilijkheid van toetsvragen] https://learningspy.co.uk/english-gcse/when-retrieval-practice-goes-wrong-and-how-to-get-it-right/

A. D. Groot (1966). Vijven en zessen. Cijfers en beslissingen: het selectieproces in ons onderwijs. J. B. Wolters. https://archive.org/details/vijvenenzessenci0000groo

A. D. de Groot (1970). Some badly needed non-statistical concepts in applied psychometrics. Nederlands Tijdschrift voor de Psychologie https://benwilbrink.nl/publicaties/70degroot.htm

Adriaan D. de Groot & Robert F. van Naerssen (Red.) (1969). Studietoetsen construeren, afnemen, analyseren. Mouton. [een beschouwing https://benwilbrink.nl/projecten/////studietoetsen_40_jaar.htm%5D

W. K. B. Hofstee (1999). Principes van beoordeling. Methodiek en ethiek van selectie, examinering, en evaluatie. Swets & Zeitlinger [bespeking: https://pedagogischestudien.nl/search?text=Principes+van+beoordeling.+Methodiek+en+ethiek+van+selectie%2C+examinering%2C+en+evaluatie ]

Sharon L. Nichols and  David C. Berliner (2005).  The Inevitable Corruption of Indicators and Educators Through High-Stakes Testing. Education Policy Studies Laboratory, Arizona State University https://files.eric.ed.gov/fulltext/ED508483.pdf

K. Posthumus (1940). Middelbaar onderwijs en schifting. De Gids. https://www.dbnl.org/tekst/_gid001194001_01/_gid001194001_01_0040.php

L. M. C. M. Cremers-van Wees, J. W. M. Knuver, H. J. Vos, &amp; W. J. M. Van der Linden (1998). Model gedragscode toetsen, beoordelen en beslissen in het voortgezet onderwijs. Enschede: OCTO.  isbn 9036510899. http://www.benwilbrink.nl/Model_gedragscode_toetsen_beoordelen_en_beslissen_in_het_voortgezet_onderwijs.pdf

Ben Wilbrink (1983). Toetsvragen schrijven. Het Spectrum, Aula 809. http://www.benwilbrink.nl/publicaties/83ToetsvragenAula.pdf, in bewerking: http://www.benwilbrink.nl/projecten/toetsvragen.1.htm

Ben Wilbrink (1986). Toetsen en testen in het onderwijs.In S.V.O. Jaarverslag/Jaarboek 1985, 275-288. https://benwilbrink.nl/publicaties/86ToetsenEnTestenSVO.htm

Ben Wilbrink (1992). The first year examination as negotiation; An application of Coleman’s (1990) social system theory to law education data. ECER, Twente. https://benwilbrink.nl/publicaties/92ColemanApplicationECER.htm

Ben Wilbrink (1997). Assessment in historical perspective. Studies in Educational Evaluation, 1997, 23, 31-48. https://benwilbrink.nl/publicaties/97AssessmentStEE.htm