Beoordelen en onderwijs is een thema dat alle kanten op schiet. Want het gaat van voortdurend oordelen in de les—niets mis mee—tot cijfergeven, testen, adviseren en selecteren.
Over beoordelen schreef mijn mentor Wim Hofstee een principieel boek Principes van beoordeling. Methodiek en ethiek van selectie, examinering, en evaluatie. tinyurl.com/mtdrmhx9 Beoordelen in onderwijs is daar maar een onderdeel van, maar welk een enorme impact heeft het op onze levens! Dat beoordelen staat ook voortdurend ter discussie in diverse media en in de politiek. Wat zou het geweldig zijn een paar ankers te hebben waar die discussies een rustpunt kunnen vinden.
serieuze verschillen, merkwaardige overeenkomsten
Het toetsen heeft geen eigen methodologie anders dan wat de traditie dicteert: het is ‘vijven en zessen’ geblazen, een taaie traditie van cijfergevendie toch pas dateert van halverweg de 19e eeuw. Hoe ingrijpend de wereld daarna ook veranderdede, cijfergewoonten zijn rotsvast (wet van Posthumus).
Het testen heeft wel een eigen methodologie, de psychometrie, die nogal ideologisch is bepaald. Er is niets objectiefs aan tests, behalve dat zij vaak automatisch zijn te scoren, wat op zich een verdienste van niets is. Deze testpsychologie kreeg een eeuw geleden een enorme oppepper door een Franse test, ontwikkeld door Alfred Binet die hij een intelligentietest noemde. Wat had hij daar spijt van. Er is een woord voor, en zelfs een test, dus intelligentie bestaat en kinderen verschillen erin. Zou het echt?
In de VS zagen testpsychologen al vroeg een markt voor hun IQ-tests (er moest in 1917 rap een leger op de been gebracht) en vervolgens ook voor tests in het onderwijs. Het toetsen werd leraren in de VS uit handen genomen en vervangen door talloze testjes, vaak in keuzevorm. Deze testpandemie sloeg in de zestiger jaren over naar Nederland: A.D. de Groot nam het virus mee vanuit de VS. Leraren werd verteld dat de enige goede toetsen vierkeuzetoetsen zijn. En zo raakte een traditie-gedreven toetspraktijk van leraren besmet met pseudo-wetenschappelijk jargon, gedachteloos ontleend aan een totaal andere discipline, de testpsychologie/psychometrie.
Want testpsychologie veronderstelt dat men voor tests niet specifiek is voorbereid. Terwijl voor toetsen juist de kern van de zaak is dat leerlingen er wel specifiek op zijn voorbereid: dat is immers de core business van onderwijs. Werelden van verschil. Ze verwarren is gekmakend.
Een belangrijke merkwaardige overeenkomst tussen onderwijs en testpsychologie is dat beide verzot zijn op rangordenen.
Het West-Europese onderwijs rangordent al sinds de middeleeuwen, met prijzen of aantrekkelijke banen als beloning voor de best presterenden. Dat alles om studenten te motiveren, ook al zag men wel in dat dit rangordenen voor de meeste studenten juist niet motiverend was.
De testpsychologie ontwerpt tests die een zo groot mogelijke spreiding in de doelgroep opleveren, een sterke rangorde dus, om zo beter te kunnen klassificeren of voorspellen. De IQ-test is daar het bekendste voorbeeld van.
NB: Deze conceptmap is versie 2.0. De verbindingslijnen zijn nog primitief, soms een lijn, dan weer een pijl, ik beheers de techniek nog niet. Het is mij ook niet gelukt om bronvermeldingen (zoals die bij ‘beoordelen’ naar de boekbespreking van Hofstee) werkend te krijgen: bij overzetten van CMap naar pdf of jpg gaan de URLs verlore
dubbel-blind onderzoek, moet dat dan?
Ik gebruik nu de methodologie/standaarden van de testpsychologie om helder te krijgen waar we in het onderwijs mee bezig zijn met onze permanente selectie. Niet om die selectie ‘beter’ te doen, maar om misstanden gericht te kunnen bestrijden.
Een voorbeeld. De testpsychologie schrijft voor dat het gebruik van de Eindtoets Basisonderwijs valide moet zijn, en anders stoppen ermee (‘Standards’ 2014 tinyurl.com/237skenc). Die validiteit moet in beginsel via dubbelblind experimenteel onderzoek worden bepaald. Het probleem is nu dat zo’n experiment om ethische en praktische redenen niet mogelijk is. Het is dus nooit gedaan! Op zo’n manier medicijnen in de markt zetten noemen we misdadig. Deze Eindtoets Basisonderwijs blaast kansen op eerlijk onderwijs het raam uit.
Maar die Eindtoetsen voorspellen toch redelijk waar leerlingen zich drie jaar later bevinden? Zeker, maar iedereen is op de hoogte van de voorspelling hè! Verwachtingen, verwachtingen. Placebo-effecten. Daarom is nu juist dubbelblind onderzoek nodig.
cijfergeven = rangordenen, wist u dat?
Waar de testpsychologie sinds Binet’s intelligentietest van het rangordenen een wetenschap maakte, evolueerde het rangordenen in het onderwijs eerder al tot pseudo-gestandaardiseerd cijfergeven, waar het onderwijs in is blijven hangen: een lock-in. Bij de Franse Agrégation ontstond in een paar evolutiestappen halverwege de 19e eeuw uit het traditionele rangordenen het pseudo-gestandaardiseerde cijfergeven. De beste zijn van een kleine of juist een grote jaarklas is zo’n verschil dat met cijfergeven is op te vangen. Dit is een belangrijk historisch inzicht hoor! A.D. de Groot had bij zijn Vijven en zessen niet naar de historische wortels van cijfergeven gezocht. Die zijn ook lastig te vinden, ik kwam er zelf achter via een toevalsvondst bij André Chervel (zijn boek over de Agrégation).
De testpsychologie pakt het rangordenen rationeel aan door onderzoekmatig normtabellen op te stellen voor zijn doelgroepen. Zodoende bleek bijvoorbeeld dat de tabellen voor IQ-tests na enige tijd moesten worden bijgesteld omdat leerlingen doorheen de vorige eeuw steeds intelligenter bleken: het Flynn-effect.
Daartegenover zien we dat in het onderwijs iedereen zijn eigen ding doet met cijfergeven, slechts vaag geleid door noties als ‘een 5 is juist onvoldoende’. Die cijfers geven informatie over waar leerlingen in de onderlinge pikorde staan, maar dus weinig of geen inhoudelijke feedback op prestaties zelf.
cijfergeven zit instructie en leren in de weg
Dat rangordenen en cijfergeven zit eerlijk onderwijs in de weg, elders meestal gelijke kansen genoemd. Dat geldt ook voor het rangordenen met leerlingvolgsystemen en andere intelligentietests. In de testpsychologie is het evident dat ruwe scores omgezet moeten worden naar testscores met behulp van de al genoemde normtabellen. Zo komen we aan een normaalverdeling voor intelligentie; maar dat is louter kunstmatig! In het onderwijs doen we dat anders: de basis is dat we antwoorden vakmatig beoordelen op hun juistheid. Daar is niets mis mee. En het is een goed uitgangspunt voor feedback naar leerlingen, of voor de leraar zelf uiteraard. Formatief toetsen. Maar vervolgens doen we iets merkwaardigs: we geven een waardering aan die antwoorden, een cijfer. Waar is dat voor nodig? Het heeft weinig of niets met onderwijs zelf te maken.
onvoldoende/voldoende
Tot de pseudo-standaardisering van het cijfergeven hoort bovendien het stellen van een grens tussen ‘onvoldoende’ en ‘voldoende’ prestaties, in Nederland door wetgeving dàt er zo’n grens moet zijn. Niet hoe die is te bepalen, want dat is alweer zo’n onopgelost probleem, hoewel er veel schijnoplossingen zijn. Ik weet niet wat daar de historische wortels van zijn. Het is een cultureel fenomeen dat leraren, en zij niet alleen, behoefte hebben om verschillen tussen leerlingen op zo’n manier te benoemen. De ‘wetmatigheid van Posthumus’ laat dat zien: het zittenblijven/afstromen in de HBS, van 1870 tot 1940, was jaarlijks ca. 23%, wat er ook in de wereld veranderd mocht zijn. Dit zittenblijven heeft geen rationele basis.
Posthumus heeft laten zien dat leraren kennelijk niet anders kunnen dan telkens een vast percentage onvoldoende te geven en te laten zitten. Maar dat moet betekenen dat leerlingen als collectief evenmin bij machte zijn om dat traditionele patroon te doorbreken. Wat is er aan de hand met deze toetserij? Want laten we wel wezen, dit fenomeen is compleet in strijd met hoe langs rationele weg selectieprocedures worden ontworpen. Hier is iedere ratio ver te zoeken, behalve de ratio ‘we gaan het niet anders doen dan onze voorouders deden’.
systemische krachten
Maar is het louter traditie? Of zijn er ook ‘systemische’ krachten aan het werk die we door die traditie heen niet goed in de peiling hebben? Vijven en zessen gaf al iets aan van onderlinge concurrentie van leraren. Zouden leraren misschien ook met leerlingen in concurrentie zijn? Wat denkt u? Socioloog James Coleman presenteerde een model voor zeg maar een ‘stilzwijgende onderhandeling’ tussen leraren en leerlingen. Dat gaat als volgt:
De leraren zetten hun cijfers in, in ruil voor tijdbesteding van hun leerlingen. Tegelijk zetten leerlingen hun tijdbesteding in om goede cijfers van hun leraren te krijgen. Een dynamisch systeem, waarin leraren en leerlingen elkaar in een houdgreep hebben, en geen van beide partijen in staat lijkt de beoordelingstradities te veranderen. Zou dat kunnen? Maar dit is in het onderwijs geen gezonde situatie hè! Dat cijfergeven, daar moeten we echt van af.
toetsen integreren met instructie en leren
Cijfergeven gaat samen met moeilijke vragen stellen. Het is dus niet zo, helaas, dat weghalen van het cijfergeven (stop ermee, zegt Dylan Wiliam) voldoende is om een zuiver vakmatige beoordeling over te houden.
Opgaven wiskunde die leerlingen gemiddeld 40% fout maken mogen wiskundig gezien oké zijn, maar in het onderwijs is het niet professioneel om in toetsen vragen op te nemen die gemiddeld zo moeilijk zijn. Zij belemmeren leerlingen zich doeltreffend voor te bereiden: per definitie kunnen ze het dan collectief niet winnen van hun leraar. A.D. de Groot protesteerde tegen dit permanente selecteren. Moeilijke vragen zijn bovendien voor de meeste leerlingen demotiverend, zijn op zich geen goed leermoment, en zijn ook niet optimaal voor het consolideren van kennis.
Kwalitatief hoogwaardig onderwijs vraagt om veel toetsen als integraal onderdeel van instructie en leren. Die toetsen mogen juist niet moeilijk zijn. Dat is een totaal andere benadering dan die van de psychometrie die verschillen tussen leerlingen wil vastleggen. Dan zijn we niet meer met onderwijs bezig, maar met selectie. Maar dat is geen taak van onderwijs hè!
recht – ethiek
Ik heb in het voorgaande niet benoemd dat het beoordelen van leerlingen, of dat nu door hun leraar, of technocratisch door een test of centraal examen gebeurt, onderworpen is aan grenzen die recht en ethiek stellen. Het recht: fair play en andere beginselen zoals die leven in het algemene rechtsbewustzijn van burgers. Ethiek: respecteer leerlingen, respecteer het recht, doe het goede.
gestandaardiseerde toetsen / eindtoets basisonderwijs / centrale eindexamens
Sharon L. Nichols and David C. Berliner (2005). The Inevitable Corruption of Indicators and Educators Through High-Stakes Testing. Education Policy Studies Laboratory, Arizona State University https://files.eric.ed.gov/fulltext/ED508483.pdf
Karen Heij (2021). Van de kat en de bel. Tellen en vertellen met de eindtoets basisonderwijs. Proefschrift Tilburg. open access https://karenheij.bijzonderboeken.nl
L. M. C. M. Cremers-van Wees, J. W. M. Knuver, H. J. Vos, & W. J. M. Van der Linden (1998). Model gedragscode toetsen, beoordelen en beslissen in het voortgezet onderwijs.Enschede: OCTO. http://goo.gl/W7Cz60
Benjamin S. Bloom (May 1968). Learning for Mastery. Instruction and Curiculum. Reprint from Evaluation Comment, (2), 1-12 https://files.eric.ed.gov/fulltext/ED053419.pdf Zie specifiek de sectie ‘The normal curve’.
Ben Wilbrink (1997). Terugblik op toegankelijkheid: meritocratie in perspectief. In Marian Van Dyck, Toegankelijkheid van het Nederlandse onderwijs. Studies (p. 341-384). Den Haag: Onderwijsraad. https://benwilbrink.nl/publicaties/97MeritocratieORaad.htm
Theo Thijssen (1929). De examenidioot of De kinderexamens van 1928. Overdruk uit De Bode. orgaan van de Bond van Ned. Onderwijzers. Bondsdrukkerij “De Volharding”. http://www.benwilbrink.nl/Thijssen_De_Examenidioot_1929.pdf (scan 24 Mb) Theo Thijssen, zelf onderwijzer, kraakt hier de toelatingstoetsen tot het vhmo af. En gelijk had hij!
Kristian Still (2023). Test-Enhanced Learning: A practical guide to improving academic outcomes for all students. Crown House Publishing. https://www.amazon.de/-/nl/dp/B0BTS9DZ2N/ testing-effect retrieval practice Biedt goed overzicht van de literatuur. Belangrijker nog: Kristian Still beschrijft hoe hij dit in zijn onderwijs Engels in praktijk heeft gebracht.
dynamiek tussen leerlingen en hun docenten
Ben Wilbrink (1992). The first year examination as negotiation; An application of Coleman’s (1990) social system theory to law education data. Paper European Conference on Educational Research, Twente. https://benwilbrink.nl/publicaties/92ColemanApplicationECER.htm
C. W. Noorlander (2005). Recht doen aan leerlingen en ouders. De rechtspositie van leerlingen en ouders in het primair en het voortgezet onderwijs. Proefschrift Vrije Universiteit – handelseditie: Wolf Legal Publishers. [Hoofdstuk 14: Beoordeling van onderwijsprestaties. 517-587]
ethische grenzen
Ben Wilbrink (2017). Op weg naar eerlijk onderwijs. Van Twaalf tot Achttien, september 2017. vrij toegankelijk
David Grissmer en anderen, onder wie Daniel Willingham (2023). A Kindergarten Lottery Evaluation of Core Knowledge Charter Schools: Should Building General Knowledge Have a Central Role in Educational and Social Science Research and Policy?. (EdWorkingPaper: 23-755). Retrieved from Annenberg Institute at Brown University: https://doi.org/10.26300/nsbq-hb21
Bijlage
en ja, testuitslagen zijn een stuk complexer:
Hoe kan het dan wel, zonder te vervallen in de zonde van het verschil maken tussen leerlingen?
Een Gordiaanse kluwen van belanghebbende partijen heeft zich sinds de 60er jaren op het toetsen voor, in en na het onderwijs gestort. Onderwijs bezwijkt onder de last, de leerlingen voorop. Stoppen ermee. Dat toetsen heeft geen baten meer, alleen maar torenhoge kosten. Wat denkt u?
Als ik duizend woorden krijg voor een helikoptervisie op beoordelen/toetsen/testen en onderwijs, wat is dan belangrijk genoeg om er zeker in op te nemen? Ik ga wat proberen, anders komt het er niet van. Toch? Discussie is welkom. Leraren zijn mijn doelgroep.
het handelen van beoordelaars en toetsontwerpers begrensd
Bovenaan mijn lijstje staat dan de vraag ‘Op welke manier zijn er grenzen gesteld aan het handelen van leraren?’ En dan bedoel ik niet de voorschriften van het CvTE bij de centrale eindexamens. Wat hier voor leraren geldt, geldt uiteraard ook voor de Cito’s van het land.
Ik denk dan aan een drieslag, hoewel deze drie niet strict van elkaar zijn te scheiden.
1) integriteit, in de zin van passend/functioneel binnen het onderwijs.
2) het recht, in het bijzonder betreft dat algemene beginselen als ‘fair play’, motivering, evenredigheid.
3) ethiek.
Niet strict van elkaar te scheiden: het recht vraagt dat toetsing integer is; ethiek vraagt dat toetsing integer is en dat het recht is gerespecteerd. In deze context betekent ‘integer’ niet dat toetsen allereerst aan psychometrische eisen (betrouwbaarheid, validiteit) voldoen, betekent ‘het recht’ niet wat onder onderwijsrecht wordt verstaan (zoals bij Noorlander ‘Recht doen aan leerlingen en ouders’ te vinden), en is ‘ethiek’ misschien een vooral onontgonnen gebied waar bijvoorbeeld @IngridRobeyns onze gids zou kunnen zijn.
Uit deze drie leidende beginselen, laat ik ze zo maar noemen, volgt vrijwel al het andere. Althans, dat is mijn stelling. Allereerst volgt eruit dat het bij al dat beoordelen of toetsen in de eerste plaats gaat om de individuele leerling die recht heeft op goed onderwijs.
En dat is een geweldig inzicht, omdat vrijwel alles wat er over toetsen en beoordelen in het onderwijs is geschreven en geregeld gaat over groepen leerlingen die toetsen maken en waarover overgangsbeslissingen worden genomen, statistieken berekend, en ga zo maar door.
Eind jaren ’60 gebeurt er iets bijzonders. Adriaan de Groot en Bob van Naerssen pakken ideologisch gedreven uit met een boek (1969) over studietoetsen (= vierkeuzetoetsen). Na de onderdompeling in deze technocratische vorm van toetsen, komt bij beiden een moment van bezinning.
De Groot schrijft in 1970 een artikel waarin hij pleit voor een overkoepelend kwaliteitscriterium voor toetsen: die moeten voor de leerling doeltreffend zijn voor te bereiden. Strategisch dus ook. Van Naerssen geeft daar in zijn inaugurele rede in 1970 een wiskundig model voor.
Beide publicaties maken in feite korte metten met heel het technocratisch apparaat (de psychometrie) dat in één koop vanuit de Verenigde Staten naar ons polderland was gehaald. Beiden nemen de individuele leerling als uitgangspunt bij het ontwerpen van toetsen. Revolutionair. In feite tè revolutionair voor dit land van dominees en kooplieden, want er is nauwelijks aandacht aan besteed.
Voor Bob van Naerssen was een teleurstelling dat zijn tentamenmodel plat was gevallen, en niet tot verder onderzoek en ontwikkeling leidde. Ik was zelf eigenlijk de enige die er wèl mee aan de slag ging (zie mijn website, bijvoorbeeld het SPA-model; op mijn website ook de 1970-publicaties va zowel De Groot als Van Naerssen), maar ook mijn werk kreeg geen belangstelling. ‘It’s all in the game’, in goed Nederlands.
Integer toetsen is een kwestie van kritisch gezond verstand, en afdwingbaar langs de weg van de kwaliteitseis ‘evidence informed’ te werken. Dat beoordelen binnen de grenzen van het recht blijft is in het hoger onderwijs afdwingbaar via beroepsprocedures (CoBEx). Het hoger onderwijs loopt hier sterk voor op het vo en po. Zie Job Cohen 1981 ‘Studierechten’ benwilbrink.nl/projecten/toet…; Henk van Berkel (2017). Juridisch correct examineren. Implicaties van uitspraken door beroepsorganen in het hoger onderwijs. nvexamens.nl/wp-content/upl…
Wie leerlingen beoordeelt, krijgt ook te maken met ethische dilemma’s. Al is het maar het dilemma dat die algemene beginselen van behoorlijk bestuur/onderwijs best wel lastig kunnen zijn in de praktijk van het onderwijs: lap je ze dan aan je laars, of investeer je er juist in?
cijfergeven
‘Vijven en zessen’ van A.D. de Groot sloeg in 1966 in als een bom, maar heeft niet echt geleid tot verbeterde toetsen. Wat weten we nu eigenlijk over dat cijfergeven? Het cijfergeven is vooral een 19e-eeuwse poging om het gangbare rangordenen van leerlingen te ‘objectiveren’. Cijfergeven is nog steeds rangordenen, het is relatief, er zijn geen absolute normen. Leraren hebben buitengewoon sterke tradities/gewoonten bij dat cijfergeven, door Posthumus in De Gids 1940 beschreven dbnl.org/tekst/_gid0011…Zittenblijven/afstromen altijd ca 23%. Dat is gek!
Omdat cijfers relatief zijn, is er strijd met het beginsel van A.D. de Groot dat toetsen doeltreffend moeten zijn voor te bereiden. Immers, het is praktisch onmogelijk voor leerlingen om zich collectief doeltreffend voor te bereiden op iedereen een ‘8’. Laat het even inzinken.
Posthumus heeft laten zien dat leraren kennelijk niet anders kunnen dan telkens een vast percentage onvoldoende te geven, te laten zitten, niet toe te laten.
Maar dat moet betekenen dat leerlingen als collectief evenmin bij machte zijn om dat traditionele patroon te doorbreken.
Wat is er aan de hand met deze toetserij? Want laten we wel wezen, dit fenomeen is compleet in strijd met hoe langs rationele weg selectieprocedures worden ontworpen. Hier is iedere ratio ver te zoeken, behalve de ratio ‘we gaan het niet anders doen dan onze voorouders deden’.
Maar is het louter traditie? Of zijn er ook ‘systemische’ krachten aan het werk die we door die traditie heen niet goed in de peiling hebben? ‘Vijven en zessen’ gaf al iets aan van onderlinge concurrentie van leraren. Zouden leraren misschien ook met leerlingen in concurrentie zijn? Wat denkt u? Socioloog James Coleman hup.harvard.edu/catalog.php?is…presenteerde een model voor zeg maar een ‘stilzwijgende onderhandeling’ tussen leraren en leerlingen. Dat gaat als volgt:
De leraren zetten hun cijfers in, in ruil voor tijdbesteding van hun leerlingen. Tegelijk zetten leerlingen hun tijdbesteding in om goede cijfers van hun leraren te krijgen. Een dynamisch systeem, waarin leraren en leerlingen elkaar in een houdgreep hebben, en geen van beide partijen in staat lijkt de beoordelingstradities te veranderen. Zou dat kunnen?
Ja, dat kan, ik heb het aannemelijk kunnen maken met een dataset voor de propedeuse rechten (UvA, 1992) benwilbrink.nl/publicaties/92… Maar dit is in het onderwijs geen gezonde situatie hè! Dat cijfergeven, daar moeten we echt van af. En dat moet eenvoudig kunnen, zou je denken. Want tot aan de uitvinding van cijfers als pseudo-gestandaardiseerde vorm van rangordenen in de 19e eeuw deden we het immers zonder. Maar wel met altijd maar weer rangordenen.
rangordenen
Dit moet ik even toelichten. Ooit was bestraffen van dommigheden de gewoonte. Het humanisme verving dat door het belonen van prestaties, bijvoorbeeld in de vorm van een prijsboek voor de ‘beste’ leerlingen. [zie J. Spoelder (2000). Prijsboeken op de Latijnse school] Om dat te kunnen doen, hielden leerlingen een puntentelling van gemaakte fouten bij, op basis waarvan de rangorde van de leerlingen werd bepaald.
Dat rangordenen is voor goed onderwijs niet nodig. Het was een manier om leerlingen te motiveren, maar heeft altijd het bezwaar gehad dat het alleen de beste leerlingen motiveert. Zowel rangordenen als cijfergeven scheppen een eigen, onveilige, schoolwereld—los van inhouden.
Het probleem is nu dat ‘vakmatig beoordelen’ sterk is besmet door de eeuwenlange traditie van rangordenen. Het is dus niet zo, helaas, dat weghalen van het cijfergeven (stop ermee, zegt Dylan Wiliam) voldoende is om een zuiver vakmatige beoordeling over te houden. Want er is een ijzersterke koppeling tussen het ‘vijven en zessen’ van het cijfergeven, en de moeilijkheid van vragen in toetsen en examens. Moeilijkheid die in de buurt van 60% wordt gehouden door ontwikkelaars, of dat nu leraren zelf zijn, of leraren in dienst van bijvoorbeeld Cito. Toetsvragen worden al als extra moeilijk ontworpen om straks een ‘overtuigende’ (ha ha) spreiding van scores te hebben als basis voor cijfers gespreid over heel de cijferschaal van 1 tot 9.
Een opgave wiskunde die 40% van de leerlingen niet goed beantwoorden mag wiskundig gezien helemaal oké zijn, maar in het onderwijs is het van de gekke om in toetsen vragen op te nemen die gemiddeld zo moeilijk zijn. Want dat staat haaks op wat er voor onderwijs nodig is. Zulke moeilijke toetsen belemmeren leerlingen bij het zich doeltreffend voorbereiden (De Groot, 1970); zijn voor de meeste leerlingen demotiverend, zo niet erger; zijn op zich geen goed leermoment; en zijn ook niet optimaal wat het consolideren van kennis betreft.
Ik heb destijds in mijn ‘Toetsvragen schrijven’ (Aula 809, 1983) deze thematiek van gemiddeld te moeilijke vragen over het hoofd gezien. Gemiste kans. Destijds heb ik wel gebruik van de taxonomie van Bloom c.s. ontraden, zoals ook van meerkeuzevragen in het onderwijs. Beschouwingen over betrouwbaarheid, rit- en p-waarden zouden getuigen van een technocratische benadering van het ontwerpen van toetsvragen, en pasten evenmin in dat boek. Die p-waarden staan voor de moeilijkheid van de de vragen, en die had ik juist wèl kritisch moeten behandelen!
backwash
Ik heb nog te weinig aandacht gegeven aan ‘backwash’ effecten. Een paar opmerkingen daarover, ter afsluiting. Dat toetsen en examens enorme invloed hebben op het eraan voorafgaande, dat weet iedereen wel. Toch wordt er zelden naar gehandeld.
Voor Bob van Naerssen stond het vast dat toetsen een sterke hefboom zijn die we op het onderwijs zetten. Ten goede, of ten kwade. Het voorbeeld-bij-uitstek van het kwade is de ‘citotoets’ die in een halve eeuw tijd het basisonderwijs heeft misvormd.
Het is een waarheid als een koe (waar we onze ogen liever voor sluiten) dat alle prestatie-indicatoren, ook toetsen en examens, hun betekenis als indicatoren verliezen zodra er sancties aan worden gekoppeld. Dan gaat iedereen zich strategisch gedragen, hoe schadelijk ook.
We doen het onszelf aan, door toetsen en examens te behandelen als losstaand van het onderwijs, in plaats van als integraal onderdeel van onderwijs, instructie, en leren. Weten we nu in welke richting we het moeten zoeken, met ons toetsen en examineren? Ja toch?
eerlijk onderwijs – individuele verschillen
Ik heb in dit stuk niet expliciet benoemd dat ongeveer alles gaat over, of te maken heeft met, individuele verschillen tussen leerlingen en hoe we daarmee omgaan. Bij deze. Zie ook het stuk van Wim van den Broeck (maart 2023) https://didactiefonline.nl/blog/blonz/onderwijs-is-een-waarde-op-zich
[Deze tekst is een vingeroefening, en voorbereiding op een kort artikel voor een onderwijstijdschrift, een anker voor vervolgens kortere beschouwingen over sub-thema’s in dat beoordelen. Ik moet dat nog wel even checken door voor een paar onderwerpen na te aan of een inzichtelijke behandeling mogelijk is door op het bovenstaande voort te bouwen / ernaar terug te verwijzen.] [Gebaseerd op een lange twitterdraad https://twitter.com/benwilbrink/status/1633742224708993024, unrolled: https://threadreaderapp.com/thread/1633742224708993024?refresh=1679046860%5D
Sharon L. Nichols and David C. Berliner (2005). The Inevitable Corruption of Indicators and Educators Through High-Stakes Testing. Education Policy Studies Laboratory, Arizona State University https://files.eric.ed.gov/fulltext/ED508483.pdf
Eerste tweet van Tjip, in de daarop volgende tweets werk ik een thematiek uit die in de podcast niet aan de orde is gekomen (maar dat best had kunnen zijn).
Het was reuze interessant (en een eer!) om deze middag met de enige echte @benwilbrink een podcast op te nemen! Wat hebben we geleerd van 50 jaar toetsen en beoordelen? Over 2 weken online! pic.twitter.com/gzG6yp7xVL
Een podcast met een krasse knar, een unieke gelegenheid om ontwikkelingen over een heel lange periode te bespreken. Over toetsen en de hele santekraam. Dat was het idee, en hoe dat gesprek zou gaan lopen was voor ons beiden een verrassing. Een ontdekkingsreis in drie kwartier.
Een podcast met een krasse knar, een unieke gelegenheid om ontwikkelingen over een heel lange periode te bespreken. Over toetsen en de hele santekraam. Dat was het idee, en hoe dat gesprek zou gaan lopen was voor ons beiden een verrassing. Een ontdekkingsreis in drie kwartier.
Een belangrijk thema dat niet is aangesneden: hoe toetsen en examens zijn afgedwaald van examineren van kennis van de leerstof naar toetsen op begrijpend lezen (wat dat dan ook mag zijn) en gebruiken in situaties van het dagelijks leven (transfer, wat dat dan ook mag zijn).
Beide komen op hetzelfde neer: dat er wordt getoetst op wat NIET is onderwezen. Dan komt dat toetsen en examineren neer op het houden intelligentie-wedstrijdjes die veel leerlingen niet kunnen winnen. Dit is het grote failliet van onderwijs dat door ‘progressivisme’ is vernield.
Het is uiteindelijk een kwestie van ontwerpen van toetsvragen. Dus, hé, het probleem was er in 1983 nog niet. Althans, het stond mij niet op het netvlies bij het schrijven van ‘Toetsvragen ontwerpen’ (Aula 809) https://benwilbrink.nl/projecten/toetsvragen.1.htm… (in voortdurende bewerking).
Wat ik destijds ook (nadrukkelijk) wegliet uit ‘Toetsvragen schrijven, en ik verklap dat dit in de podcast wel aan de orde is: de cognitieve taxonomie van Bloom als ‘leidraad’ voor dat ontwerp; en ook de technocratie van ‘betrouwbaarheid’, ‘validiteit’, ‘p-waarden’, ‘rit-waarden’).
Het verband tussen beide probleemclusters is voor een psycholoog met oog voor individuele verschillen eenvoudig te zien; en voor u, als gewaarschuwd mens, nu ook: de technocratische & Bloomiaanse benadering levert begrijpend lezen- en transfer-examens op die helemaal oké lijken. Want ja, ze sorteren leerlingen op heel consistente wijze. Dat haalt je de koekoek, zo zijn ze ontworpen.
Dat is ook anders onder woorden te brengen: dergelijke toetsen en examens zijn ontworpen met de bedoeling ongelijkheid in het onderwijs te maximaliseren. Stop ermee.
Was alles vroeger dan beter? Er werd altijd al voortdurend geselecteerd. Posthumus heeft dat uitstekend beschreven in zijn Gids-artikel van 1940 ‘middelbaar onderwijs en schifting’ online: https://dbnl.org/tekst/_gid001194001_01/_gid001194001_01_0040.php… Maar dan wel op kennis.
Een uitzondering vormen de toelatingsexamens voor HBS en gymnasium, Het idee daarbij was dat leerlingen daar op intellectuele capaciteiten het verschil zouden maken. Nou, dat hebben die leeerlingen geweten. Theo Thijssen maakte in 1928 gehakt van die toetsen. Gebundeld: http://benwilbrink.nl/Thijssen_De_Examenidioot_1929.pdf
In 1983 schreef ik een hoofdstuk ‘Toetsvragen ontwerpen bij tekst’, is dat dan niet vragen naar tekstbegrip? Zeker wel, en uitgesplitst naar analyse (binnen de tekst) en inferentie (van de tekst naar buiten). Beide zijn te verstaan als binnen het specifieke kennisdomein.
Dus geen vrij-zwevend begrijpend lezen.
Analyse en inferentie vormen een subcategorie van probleemoplossen. ‘Problem solving on the fly’, in goed Nederlands. Dit hoofdstuk 6 (in ‘Toetsvragen schrijven’) hoort dus NA hoofdstuk 7 over probleemoplossen, in plaats van ervoor. Foutje.
‘Problem solving on the fly’ geeft aan dat probleemoplossen iets is dat we al lezend, sprekend, en communicerend, voortdurend doen. Het is niet noodzakelijk ingewikkeld zoals Polya beschrijft in ‘How to solve it.’ Dat boek van Polya is specifiek voor wiskunde, zoals de subtitel ook aangeeft: ‘A new aspect of mathematical method’.
Het is wel van belang inzicht te hebben in hoe probleemoplossen werkt, wat daarvan het mechaniek is, zoals Allen Newell dat uitdrukte. Dat was in 1983 al wel bekend, in grote lijnen, en daar heb ik destijds ook gebruik van gemaakt.
Dat mechaniek, waarvan ‘producties’ de essentiële onderdelen zijn, beschrijft goed hoe beschikbare kennis dat probleemoplossen mogelijk maakt. Herken hierin dat probleemoplossen in beginsel volkomen transparant kan zijn, en zo hoort dat ook in deugdelijk onderwijs en toetsing. Want leerlingen moeten zich doeltreffend op toetsen en examens kunnen voorbereiden (De Groot, 1970, tekst in https://benwilbrink.nl/publicaties/70degroot.htm).
PS Ik heb deze aantekeningen (in de loop van de dag) gemaakt omdat het intense gesprek met Tjip de Jong een aantal verdere ideeën triggerde die ik meteen wilde uitwerken. Ik had er meer tijd en rust voor dan bij de ideeënstroom in de podcast zelf, maar naar hun ontstaan zijn ze hetzelfde: de ene gedachte triggerde de andere, ik heb verbanden kunnen leggen die ik niet eerder zo heb gelegd. Een creatief proces op basis van een ‘lifetime’ aan toetskennis, zeg maar. In de podcast waren het vooral ook de vragen van Tjip die als triggers werkten. In zowel de twitterdraad (waar deze blog uit voortkomt) als de podcast is de gedachteontwikkeling als het ware in ‘real time’ te volgen. Excuus voor de Engelse termen. Wie mij de laatste weken op Twitter heeft gevolgd, weet dat er het nodige voorwerk is geweest: ik heb mijn kennis ‘geactiveerd’ (in jargon gaat het om ‘spreading activation’), daarmee ook de condities gecreëerd voor het mogelijk leggen van nieuwe verbanden. Het is niet dat ik worstelde met een probleem waar ik maar geen oplossing voor kon vinden, er zijn ook oplossingen mogelijk waarvoor geen voorafgaand probleem was. Haha. ‘Aha Erlebnisse’. Het kunstje is dus eigenlijk vrij simpel: verdiep je onbevangen in complexe informatie, slaap er een nachtje over, en een verrassend nieuw verband is vaak de beloning. Het is een techniek die ik als onderzoeker veel heb toegepast. Leuk hè? Wat is hier eigenlijk de psychologie van? Die is in de literatuur op meerdere plaatsen te vinden, maar het beste boek hierover is ongetwijfeld:
Het toeslagenschandaal: het recht deed er even niet toe. krant.volkskrant.nl/titles/volkskr… Dit interview met Sandra Palmen legt ook het schrijnende gebrek bloot aan rechtskennis in het land. Hoe perkt het recht mijn handelingsvrijheid (als leraar) in? Ben ik (als leerling) slachtoffer van deze onkunde? [Twitterdraadje februari 2023 https://twitter.com/benwilbrink/status/1629532941868056581%5D
Mijn bewustwording dateert van 1976. Bestuursjurist Peter Nicolaï (nu lid EK, Partij voor de Dieren) schreef in Folia (UvA) een stuk over beoordelen in het onderwijs, waarin hij uitlegde dat het handelen van leraren/docenten wordt begrensd door het recht, en wel vooral door abvbb’s: algemene beginselen van behoorlijk bestuur. Deze rechtsbeginselen brengen onder woorden wat mensen in onze (bestuurlijke) samenleving als rechtvaardig en onrechtvaardig aanvoelen. Dus ook leerlingen in scholen, studenten in mbo en ho.
Geweldig vond ik deze tip van Nicolaï. Want er zijn ernstige problemen in het onderwijs op al die momenten waarop leraren ingrijpende beslissingen over leerlingen nemen. Ik zocht naar een taal om die ernst duidelijk te kunnen maken, en had niet voldoende aan de wat koddige begrippen uit de destijds recente literatuur over studietoetsen (De Groot en Van Naerssen 1969 ‘Studietoetsen’) of de gevestigde testpsychologische literatuur, u hebt ze ongetwijfeld vaak langs zien komen: ‘betrouwbaarheid’ en ‘validiteit’. Mijn hemel, wat een misverstanden daarover! Het gaat niet over tests, maar over grondrechten, zoals Sandra Palmen ook zegt. Evenredigheid. Fair play. Geen oneigenlijk gebruik van bevoegdheden. Motiveringsbeginsel.
Deze rechtsbeginselen nemen sinds 1976 een belangrijke plaats in, in mijn werk over beoordelen, toetsen, examineren, en selecteren. Mijn gevoelen is dat ik het belang van die grondbeginselen zelden of nooit goed overgebracht krijg, eenvoudig omdat mijn toehoorders de draagwijdte van die grondbeginselen niet kunnen zien. Die grondbeginselen zijn mooie ideeën, maar wel abstract hè! Het zijn geen wetten, maar ze hebben op een of andere manier wel kracht van wet. Hoe kan ik die nu in mijn dagelijks werk met studenten toepassen? Precies het probleem van Sandra Palmen die de top van de belastingdienst niet kon overtuigen met stevige taal over schending van basale rechtsbeginselen, door de belastingdienst nota bene.
Niet alles laat zich vangen in rechtsbeginselen. Normen en waarden vormen een diepere laag. Een ethische analyse van het kinderopvangtoeslagenschandaal: uu.nl/sites/default/…
Een belangrijk verschil tussen grondrechten en de kwaliteiten uit de testpsychologie / psychometrie: die grondrechten gelden voor ieder individu, betrouwbaarheid en validiteit zijn populatie-statistieken, die discriminatie geenszins uitsluiten (vergelijk problemen met AI-algoritmen gebruikt door overheden).
Of we kiezen voor de grondrechten, of voor de technocratische benadering ‘dit examen is betrouwbaar en valide’, is dan weer een ethische kwestie met vergaande consequenties. Wie niet ziet dat deze keuze een ethische is, banjert in zijn beleid als een olifant door de porceleinkast.
Dit onderscheid speelde in de 90er jaren bij een SVO-project voor ontwikkeling van een model toetscode voor het vo. Het Twentse team koos voor de technocratische benadering, over de boeg van ‘toetsen moeten betrouwbaar en valide zijn’, en moest worden teruggefloten. De model-toetscode die dit project uiteindelijk wèl opleverde is gepubliceerd als
L. M. C. M. Cremers-van Wees, J. W. M. Knuver, H. J. Vos, & W. J. M. Van der Linden (1998). Model gedragscode toetsen, beoordelen en beslissen in het voortgezet onderwijs. Enschede: OCTO. isbn 9036510899.
Ik wijs er tenslotte nog maar weer eens op dat juist Adriaan de Groot in een artikel in 1970 afstand nam van (de psychometrische) berouwbaarheid en validiteit als ultieme kwaliteiten bij beoordelen in het onderwijs. Anders dan bij psychologische tests, gaat het er bij proefwerken en examens om dat leerlingen zich daar doeltreffend op moeten kunnen voorbereiden. Transparantie, doorzichtigheid, billijkheid. Voor een transcriptie van dat artikel zie hier:
Als we de eis van doeltreffend kunnen voorbereiden als een grondrecht zien, dan gaat dit 53 jaar oude artikel van De Groot dus over het tekort van statistische kwaliteitsmaatstaven in situaties waarin grondrechten van leerlingen in het geding zijn.
Ik probeer in het kort uit te leggen wat het idee is, en welke betekenis dat heeft voor onze toetserij.
Neem aan dat de stof voor een toets bestaat uit een groot aantal elementaire weetjes. Het is denkbaar in de toets uitsluitend vragen naar elementaire kennis op te nemen.
Ik geef toch maar een voorbeeld. De tafels van vermenigvuldiging. 2 x 2 = 4; 7 x 8 = 56; etcetera. Neem aan dat de hele klas die tafels beheerst op 83% niveau. Neem dan een toets af, en constateer dat de scoreverdeling er ongeveer uitziet als de rechter curve in deze figuur.
Nu gaan we een toets ontwerpen met vragen waarbij telkens 5 dingen tegelijk geweten moeten worden. Zeg dat dat vermenigvuldigingen zijn waarvoor telkens 5 tafelvermenigvuldigingen goed moeten zijn. Had u dat gedacht, dat de toetsscores dan verdeeld zijn als de linker curve?
In dit eenvoudige model is ‘inzicht’ opgevat als het weten van 5 stukjes elementaire kennis om een opgave goed te beantwoorden. Dat is een voorzichtige benadering, want er komt wel meer bij kijken dan alleen die 5 dingen weten. De figuur geeft dus zeker een te optimistisch beeld.
Dit eenvoudige model geeft een mogelijke verklaring voor het verschijnsel dat leraren vaak de moeilijkheid van toets- en examenvragen behoorlijk onderschatten. [De wiskunde van het modelletje – binomiaal model etc – is in het eerste deel van het 1958-paper behandeld]
Is dit niet een wat al te eenvoudige opvatting van wat ‘inzicht’ is? Ja, dat is het ongetwijfeld. Maar het aardige van een te simpel model is dat het zonder allerlei moeilijke toeren uit te halen toch inzicht in inzicht kan geven. En kan waarschuwen voor onbedoeld veel te moeilijke proefwerken en examens.
Een voorbeeld van dat laatste heeft Nederland mee mogen maken bij het experiment van de #rekentoets toegevoegd aan de examens-vo. Die context-rekenopgaven bevatten zoveel verborgen kennisvereisten dat experts de moeilijkheid sterk onderschatten.
Wat in het onderwijs vaak voorkomt: dat in toetsen en examens vragen worden gesteld die iets complexer zijn dan wat in het onderwijs is behandeld. Hans Crombag noemt als voorbeeld (studie rechten) casusposities met 3 partijen, waar in het onderwijs slechts 2 partijen zijn behandeld. Niet doen dus.
Bij contextopgaven rekenen/wiskunde is het een probleem dat de ontwerpers ervan contexten bedenken die echt nieuw zijn voor de meeste leerlingen. Ik vind dat een kunstfout, dat is zoiets als voor chirurgen dat zij het verkeerde been afzetten. Maar wie ben ik, simpele toetsziel?
Nog even over het idee van ‘inzicht’. Een bekende en indrukwekkende vorm van inzicht is de ‘Aha Erlebnis’. Het plotseling zien van een verband tussen twee dingen, waardoor een hardnekkig probleem een oplossing vindt.
In het onderwijs moeten we liever niet zo hoogdravend zijn, en genoegen nemen met ‘inzicht’ als het wendbaar omgaan met de opgedane kennis: die kennis in onderling verband kunnen zien en gebruiken. Onderling verband: relaties leggen tussen kennisonderdelen.Het blijft natuurlijk zo dat het eenmaal gelegd hebben van een bepaalde relatie – inzicht – vervolgens beschikbaar is als: kennis. Kennis is een gelaagd fenomeen; met toenemende kennis of expertise wordt die kennis zelf ook complexer. De wereld van cognitieve ‘chunks’: https://www.sciencedirect.com/science/article/pii/S001002772030353X
W.K.B. Hofstee: Aanvaardbaarheid van selectie voor het WO.
In A. I. Vroeijenstein (Red.) (1981). Kwaliteitsverbetering hoger onderwijs. (144-159)
Vooraf, bw
Dit stuk is door Hofstee geschreven in de tijd dat er bij Tweede Kamer een voorontwerp van wet voor numerus fixusregelingen voorlag. Met dat voorontwerp bedoelde onderwijsminister Arie Pais de toelating tot numerus fixusstudies eerlijker te maken voor allerlei deelgroepen, zoals vrouwen, en mannen die de militaire dienst hadden vervuld. De consequentie daarvan was dat mannen die niet tot zo’n bevoordeelde deelgroep behoorden, vrijwel geen kans meer zouden maken om tot een geneeskundige studie te worden toegelaten. Ik weet niet of dit de belangrijkste reden was, maar mij staat bij dat Pais geen Wetsontwerp heeft ingediend. Wim Hofstee spreekt nog wel van een wetsontwerp, op het moment van schrijven was dat ook nog de verwachting. Bij het voorstel van Pais speelde dus sterk de thematiek van positieve discriminatie, naast die van discriminatie. Het is Hofstee in dit stuk ook te doen over de zuiverheid van de discussie over toelating tot fixusstudies: welke argumenten doen ertoe, en wie mag ze met recht hanteren? Dit zijn vragen die in de maatschappelijke discussie over de numerus fixus zelden worden gesteld; ik vind dit stuk van Hofstee dan ook een belangrijke bijdrage. In het bijzonder gaat het hem om de inbreng vanuit universitaire kringen. Iedereen daar was er mee in de weer, want via de Academische Raad moest toch wel de hele universitaire wereld worden geraadpleegd. En dan zijn de rapen gaar: wetenschappers kunnen zich in het publieke debat mengen met politieke argumenten. Hoe houdt men dat nog zuiver? Boeiende vraag. Ethiek en rechtswetenschap geven deelantwoorden die verhelderend zijn, maar mogelijk niet beslissend. Er is veel aandacht voor de discrimerende werking van alles wat selectief is bij de toelating tot fixusstudies. Een technische bijlage is verzorgd door Ivo Molenaar. Alleen (integraal) loten is zuiver op de discriminerende graat. Dat was in 1974/5 dan ook het voorstel van staatssecretaris Ger Klein (PvdA). Zijn belangrijkste overweging was dat bij selectie, de meisjes zouden worden benadeeld. Gediscrimineerd dus. De reden: meisjes scoorden lagere eindexamencijfers dan jongens, in de jaren 70 nog. Niemand voorzag in die jaren dat de meisjes binnenkort de rollen zouden omdraaien, ook Wim Hofstee niet. Dus, wie met enige verbazing leest dat Hofstee het hier over discriminatie van vrouwen heeft, moet bedenken dat sindsdien er vooral sprake is van discriminatie van mannen. Maar dat maakt voor het betoog van Hofstee niet: dat betoog gaat over discriminatie, en dat die onwenselijk is, daar is iedereen het wel over eens. Maar ja, dan komen er praktische bezwaren, en wordt het ineens politiek hè! Ik moet waarschuwen dat de uitleg van die discriminerende werking van (decentrale) selectie niet maximaal helder is, evenmin als de bijlage. Nu wil het geval dat ik zelf eens in de gelegenheid ben geweest te stoeien met dezelfde thematiek, maar dan als spelend bij de solliccitatieprocedures voor schoolleiders. Ik heb daar de behandeling geillustreerd met grafieken voor mannen en vrouwen. Dan is eenvoudig in te zien, wanneer vrouwen gemiddeld iets lager scoren in sollicitatieprocedures, dat er dan verhoudingsgewijs veel meer mannen worden benoemd. De selectie vindt immers aan de uiterste rechterkant van de verdelingen plaats, en waar de streep dan ook wordt getrokken, zijn er rechts van de streep altijd (veel) meer mannen dan vrouwen. Discriminatie, plain and simple. Zie:Ben Wilbrink (1994). Wat met verbeteringen in de selectie-procedure is te bereiken: sekse-partijdigheid en rendement. In Edith van Eck, Ard Vermeulen en Ben Wilbrink (1994). Doelmatigheid en partijdigheid van psychologisch onderzoek bij de selectie van schoolleiders in het primair onderwijs. Amsterdam: SCO-Kohnstamm Instituut. (rapport 359) (hoofdstuk 5) hier beschikbaar Aan het eind van de eerste alinea: ‘… zodat iedere student bij voorbaat een goede slaagkans heeft.’ Hofstee drukt zich hier wat cryptisch uit: hij bedoelt dat geneeskundige opleidingen nog tot begin 70er jaren bepaald middelmatige studenten aantrokken, die geen moeite hadden om voor die studies te slagen. Een historisch gegeven, zeg maar.
W.K.B. Hofstee (1981). Aanvaardbaarheid van selectie voor het WO. In A. I. Vroeijenstein (Red.) (1981). Kwaliteitsverbetering hoger onderwijs. (144-159)
Aanvaardbaarheid van selectie voor het WO
Met het hoofdthema van dit congres, kwaliteitsverbetering van het W.O., heeft toelatingsbeleid weinig te maken. In de eerste plaats natuurlijk omdat het toelatingsbeleid het onderwijs zelf niet direct beïnvloedt, hoogstens indirect waarbij het nog maar de vraag is in welke richting die invloed gaat. In de tweede plaats: ook als men kijkt naar numeriek rendement en gemiddeld tentamenresultaat zal de invloed van het toelatingsbeleid in het Nederlands W.O. gering zijn. Dat komt door de relatief strenge voorselectie in het VWO, bewaakt door centraal voorgeschreven examenprogramma’s en het centraal schriftelijk eindexamen; door een zelfselectieproces waarin aspirant-studenten er in doorsnee blijk van geven dat ze hun plaats in de intellectuele pikorde van studierichtingen kennen (cf. Hofstee & Wijnen, 1968); en doordat er voor de meeste studierichtingen niet geselecteerd wordt, terwijl de universitaire beroepsopleidingen die wel een structurele numerus clausus hebben een middelmatige positie op de intellectuele pikorde innemen, zodat iedere student bij voorbaat een goede slaagkans heeft.
De voornaamste problemen betreffende toelatingsprocedures voor gesloten studierichtingen liggen dan ook niet op het vlak van de kwaliteitsverbetering maar op dat van de rechtvaardigheid, om met De Groot (1970 a, b) te spreken: niet zozeer op het vlak van de profij-
145
telijkheid, maar op dat van de acceptabiliteit. Overigens is hier, zoals De Groot (1970 b, p. 361 f) al aangeeft, geen sprake van een begripstegenstelling. Aanvaardbaarheid is de mate waarin het lukt, de belangen en rechten van verschillende betrokken personen en instanties af te wegen. Profijtelijkheid heeft betrekking op het belang van een der betrokken instanties, namelijk de geldgever, in casu: de overheid gezien als representant van de belastingbetaler. Profijtelijkheid is dus een deelaspect van aanvaardbaarheid. Maar in de eerste plaats is de rendementskwestie om bovengenoemde redenen hier een weinig zwaarwegend deelaspect. In de tweede plaats moeten we in het oog houden dat in Nederland het hoger onderwijs door de overheid, in plaats van particulieren wordt gefinancierd. Dat houdt in dat die geldgever tevens de instantie is die de rechten en de belangen van de overige betrokkenen moet afwegen; dus zelfs gezien vanuit de geldgever is de profijtelijkheid van een toelatingsprocedure niet het enige aspect.
In het onderstaande zal eerst in algemene termen worden ingegaan op de aanvaardbaarheidskwestie. Voorop staat daarbij de vraag wat de wetenschappelijke status is van dat begrip. Die vraag staat in nauw verband met de vraag wat voor soorten argumenten van universiteitswege rechtens naar voren kunnen worden gebracht in de discussie over een wet zoals het nieuwe ontwerp Machtigingswet. Mijn motief om deze vragen aan de orde te stellen is dat discussies over wetsontwerpen inzake het wetenschappelijk onderwijs en onderzoek de universiteiten in de verleiding brengen de grenzen tussen wetenschap en politiek uit het oog te verliezen, hetgeen ten nadele van de universiteit uitpakt.
Vervolgens zullen, tegen de achtergrond van die algemene beschouwing, enkele opmerkingen worden gemaakt over de actuele toelatingsproblematiek.
Over aanvaardbaarheid
In een tweetal parallelle publicaties in 1970 spoorde De Groot
146
zijn vakgenoten die met selectie te maken hebben, verder te kijken dan hun psychometrische neus lang is. Behalve betrouwbaarheid, validiteit en utiliteit van een test of selectieprocedure, aldus De Groot, is de acceptabiliteit ervan een belangrijk punt van aandacht. Aspecten van aanvaardbaarheid zijn objectiviteit en doorzichtigheid van selectieprocedure, en verdedigbaarheid van consequenties verbonden aan minimale scoreverschillen. Als selectiepsychologen meer in het algemeen willen weten hoe ze acceptabiliteisproblemen moeten aanpakken, moeten ze te rade gaan bij de rechtswetenschap die zich van oudsher met de afweging van rechten en belangen van verschillende partijen heeft beziggehouden.
Tot zover deze korte weergave. Ik onderschrijf dat betoog in de zin dat selectiedeskundigen oog moeten hebben voor de rechten en belangen die met een selectieprocedure gemoeid zijn. Ik heb echter aanzienlijke reserves ten aanzien van de mogelijkheden die zelfs de meest juridisch geschoolde psychometricus zou hebben om aanvaardbaarheidsproblemen op te lossen.
Ter illustratie van deze reserves zal ik het betoog van De Groot van 1970 vergelijken met het advies inzake toelating van de Commissie-Wiegersma van 1978 waarvoor De Groot mede verantwoordelijk is. Zoals zal blijken is het daarbij niet mijn bedoeling, een argument ad personam te produceren maar een probleem te stellen.
In de 1970-publicaties staan de rechten van de gegadigde (sollicitant, student, werknemer) die aan de selectie wordt onderworpen centraal. Ze vormen daar het motief om de aanvaardbaarheidsvraag te stellen: “Given the present trend of increasing emphasis on the rights of subjects, applicants, students, and employees, the question of whether the use of a psychometric device in a certain situation is or is not acceptable might well become one of the main determinants of its actual usefulness” (1970 b, p. 363). De uitwerking van het aanvaardbaarheidsbegrip in termen van objectiviteit, transparantie e.d. gebeurt consequent vanuit het gezichtspunt van het ‘slachtoffer’. Het aanvaardbaar- heids-gezichtpunt wordt gepresenteerd als een correctie op het utiliteits-gezichtpunt dat hier eenzijdig de institutionele belangen repre-
147
senteert. Bij her lezing van de artikelen kan zelfs van een overcorrectie worden gesproken, zo sterk ligt daar de nadruk op individuele rechten.
In het Rapport-Wiegersma is dat gezichtspunt vrijwel verdwenen. Wat de gegadigden zelf van selectieprocedures vinden komt niet aan de orde. Dat verbaast in de eerste plaats omdat De Groot daar in 1970 zeer uitgesproken ideeën over had. “Acceptability is of course a basically empirical notion. Opinion surveys among testees-students, applicants – and/or over samples of the general public, will be needed to implement the idea” (1970 b, p. 372). In de tweede plaats is de afwezigheid van het individuele gezichtspunt verbazingwekkend omdat zulke surveys inmiddels waren verricht (Hofstee, 1975; Hofstee & Trommar. 1976); de uitkomsten daarvan zijn door de Commissie-Wiegersma volstrekt genegeerd. noot 1). Die uitkomsten waren dat VWO-ers in overgrote meerderheid niets voor selectie (i.t.t. loting of gewogen loting) voelen, en dat ook scholieren met de hoogste cijfers in grote meerderheid selectie minder rechtvaardig vinden.
Nu het probleem. Aanvaardbaarheidsbepaling is zoals gezegd het afwegen van rechten en belangen van diverse betrokkenen. Het punt is niet dat De Groot, of de Commissie Wiegersma, of de Minister een foutieve afweging maken. Waar het om gaat is integendeel dat blijkbaar van goed of fout niet kan worden gesproken. Ik neem namelijk aan dat De Groot zijn standpunten van 1970 en 1978 volstrekt met elkaar verenigbaar vindt, terwijl anderen, ik bijvoorbeeld, op basis van De Groot 1970 tot een geheel andere afweging komen. Blijkbaar is dit aanvaardbaarheidsprobleem niet objectief beslisbaar, en zijn adviezen van commissies, universiteiten, academische raad, R.W.O. e.d., die zich over die aanvaardbaarheid uitspreken, dan ook niet wetenschappelijk maar politiek van aard. De rechtswetenschap waar De Groot ons naar verwijst helpt ons daar niet mee.
Ik wil deze stelling – dat aanvaardbaarheidsbepaling een politieke, geen louter juridische kwestie is – graag zorgvuldig nuanceren en preciseren. Ik bedoel niet te zeggen dat een waardeoordeel geen wetenschappelijk oordeel kan zijn. Wanneer een conclusie logisch voort-
148
vloeit uit premissen die waardeoordelen bevatten, is die conclusie even wetenschappelijk als een wiskundig bewijs. Neem bijvoorbeeld de volgen-de slotrede:
Major: Artikel 26, lid 1, laatste volzin van de Universele Verklaring van de Rechten van de Mens luidt: “Hoger onderwijs zal gelijkelijk openstaan voor een ieder, die daartoe de bevoegdheid (noot 2) bezit”; het Internationaal Verdrag inzake economische, sociale en culturele rechten, door Nederland geratificeerd op 11 december 1978, bevat een analoge bepaling in artikel 13, lid 2 sub c.;
Minor: in het Voorontwerp Machitiqingswet 1980 wordt het advies van de Cie. Wiegersma, om bezitters van een VWO-diploma niet zonder meer examenbevoegd te verklaren voor gesloten studies, niet overgenomen; die bevoegdheid blijft dus bestaan;
Conclusie: Nadere selectie van studenten voor gesloten studierichtingen, hetzij in de vorm van lotingsgewichten, hetzij conform het Voorontwerp, is onrechtmatig. Alleen wachtlijsten of ongewogen loting zijn rechtmatige toelatingsprocedures.
Naar redelijke maatstaven is dit een wetenschappelijke uitspraak. Dat houdt niet noodzakelijk in dat hij waar is; ik zou hem graag voor waar houden, maar ik ben geen vakjurist en misschien zie ik iets over het hoofd. ‘Wetenschappelijk’ houdt in dat hij objectief beslisbaar is, dat wil zeggen dat voor iedere rationele gesprekspartner de juistheid of onjuistheid van de conclusie dwingend is. Daartoe zou moeten worden vastgesteld of overtreding van een clausule in het Internationaal Verdrag onrechtmatigheid tot gevolg heeft; of ‘examenbevoegheid’ hetzelfde is als ‘bevoegdheid’ tot het volgen van hoger onderwijs; of inderdaad de minister de aanbeveling van de Cie. Wiegersma, die waarschijnlijk juist met het oog op dit probleem is gedaan, bewust genegeerd heeft, enzovoort. Ik denk dat rationele mensen over de geldigheid of ongeldigheid van de conclusie in vergaande mate overeenstemming zouden kunnen bereiken. Dus: niet alle waardeoordelen zijn politiek. Het sprookje dat een jurist met woorden kan doen wat hij of zij wil, en dat de argumentatie louter een rationalisatie is van een politiek précon¸u , herinnert me aan soortgelijke sprookjes die over de empiri-
149
sche gedragswetenschap worden verteld: dat de onderzoeker de gegevens naar de hand van zijn vooroordeel zou kunnen zetten.
Wie zoiets meent moet het maar eens komen proberen. Er zijn echter twee, onderling samenhangende redenen waarom een conclusie, ook wanneer hij sluitend zou zijn, niet noodzakelijk tot overeenkomstige consequenties hoeft te leiden, zodat het trekken van een consequentie politiek en niet wetenschappelijk van aard is. De eerste is dat iedere wetenschappelijke uitspraak alleen binnen een gekozen kader dwingend is. Dat geldt voor analytische uitspraken: ze zijn alleen wáár als men verkiest geloof te hechten aan de axioma’s waaruit ze zijn afgeleid. Het geldt evenzo voor empirische uitspraken: “Het is proefondervindelijk bewezen dat …” geldt alleen als de toehoorder bereid is een serie geloofsacten te ondertekenen (cf. Hofstee, 1980). Om wetenschappelijk te mogen heten hoeft een uitspraak niet op objectief ware premissen te berusten; ware dat zo, dan was de verzameling van wetenschappelijke uitspraken leeg. Waardeoordelen onderscheiden zich in dit opzicht niet van empirische of analytische oordelen. Maar omgekeerd houdt dit in dat handelingsconsequenties alleen dwingend zijn voor diegenen die in de premissen geloven. Het uitspreken van een vonnis houdt in dat de rechter de betreffende wet onderschrijft, en dat is onvermijdelijk een persoonlijke keuze.
De overheid kan uit politieke overwegingen een rechtsregel negeren en doet dat soms ook, zij het binnen vrij smalle marges.
De tweede, meer specifieke reden waarom uit een juridische slotrede niet automatisch een consequentie voortvloeit is dat het recht niet sluitend geaxiomatiseerd is. Uitgaande van verschillende axioma’s kan men tot onderling strijdige conclusies komen. Zo blijkt het eigendomsrecht zich niet al te best te verdragen met het recht op huisvesting. Bij toelatingsprocedures spelen nog abstractere principes zoals ‘beloning naar prestatie’ en ‘gelijke rechten’ tegen elkaar in. Daar waar het recht zelf geen regels voor de onderlinge afweging van zulke principes bevat is het resultaat van die afweging al een politieke keuze, laat staan de consequenties die eruit worden getrokken. 150
Tot zover de argumentatie van de stelling dat aanvaardbaarheidsproblemen doorgaans niet objectief beslisbaar zijn; en dat de aansporing aan selectiedeskundig om zich niet blind te staren op de natuurwetenschappen moet worden aangevuld met het advies, van de rechtswetenschap al evenmin wonderen te verwachten. Is nu de consequentie dat we ten aanzien van toelatingsvraagstukken op de politieke toer moeten gaan? Hoe moeten de universiteiten zich opstellen?
Universiteit en Overheid
Geconstateerd kan worden dat de relatie tussen universiteit en overheid in de afgelopen tien jaar danig is gepolitiseerd. Geconstateerd kan ook worden dat die relatie niet al te best is, getuige de centralisatie, de onverholen wederzijdse irritatie, en de bezuinigingen. Wat precies de oorzaak is van wat, is moeilijk naspeurbaar, maar dat van een zichzelf versterkende wisselwerking sprake is lijkt aannemelijk. Ik heb geen heimwee naar de tijd van de ivoren toren als die er al ooit geweest is. Ik geloof integendeel dat de situatie waarin wetsontwerpen betreffende het universitair bestel aan de lopende band om advies naar de instellingen worden gestuurd een interessante uitdaging vormen. De kunst daarbij is, wetenschap en politiek uit elkaar te houden. De verleiding die twee te verwarren vormt de enige echte bedreiging voor de universiteit. Om deze uitdaging het hoofd te bieden zullen raden en commissies zich iets beter bewust moeten zijn dat ze spreken vanuit een wetenschappelijke instelling en niet vanuit een politieke vereniging, en zullen ze hun stijl iets minder moeten modelleren naar die van het LOG, dat de afgelopen tien jaar de onbetwiste cultuurdrager is geweest (ere wie ere toekomt). Ik heb daartoe de vol-gende, deels zeer concrete voorstellen.
Ten eerste: als een wetsontwerp o.i.d. om advies binnenkomt, benoemt de voorzitter van de Academische Raad een commissie ad hoc van vooraanstaande deskundigen, doorgaans hoogleraren dus, samengesteld uit discipline-gewijs georganiseerde subcommissies. Gezien de zwak-
151
heid des vlezes wordt in iedere subcommissie gestreefd naar zo breed mogelijke variatie in politieke samenstelling (binnen de grenzen der redelijkheid). De subcommissies van bijvoorbeeld psychometrici, juristen, economen, onderwijskundigen, krijgen de opdracht de maatregel op hun terrein ‘door te rekenen’ in de zin van: wetenschappelijke uitspraken doen met betrekking tot de verwachte gevolgen van de maatregel, en de al of niet impliciete premissen waarop hij berust. De subcommissies besluiten slechts unaniem. noot 3). Leden of subcommissies die aanvechting vertonen zich uit te spreken over de aanvaardbaarheid van enige maatregel, worden terstond gedechargeerd. De subcommissies schenken voorts aandacht aan drogredenen inzake de maatregel die intussen buiten hun kring zijn opgepopt, zoals ‘eindexamencijfers hebben geen voorspellende waarde voor studiesucces” en “groepsgegevens kun je niet op een individu toepassen”. Het geheel wordt gebundeld en ter beschikking van de raden en van de Minister gesteld.
Ten tweede: de diverse raden die vervolgens tot taak hebben het universitair-politieke standpunt ten aanzien van de maatregel te be-palen, houden daarbij bepaalde grenzen in het oog. Zij hebben tot taak, de zakelijke argumenten onderling te wegen, niet: ze te negeren, met drogredenen te bestrijden, of er nieuwe bij te fantaseren. Ze dienen zich verder te realiseren dat de universiteit geen vrijstaat is. Dat houdt in een besef dat de belangen, en ook de opvattingen omtrent rechtvaardigheid van universiteitswege, dienen te worden gewogen met buiten-universitaire belangen en opvattingen. Alleen wanneer de integriteit van het onderwijs en onderzoek zou worden bedreigd, zouden de barricaden moeten worden beklommen, maar dat is momenteel een denkbeeldige situatie.
Willen de universitaire raden op de verschillende niveau’s tot en met de academische raad, die momenteel door de overheid als een soort irritante kwajongens worden bekeken, au sérieux worden genomen, dan zullen ze meer politiek benul aan de dag moeten. leggen. Dat houdt in dat ze hun geloofwaardigheid niet zelf ondergraven door
152
een optreden “out of character”. Het houdt ook in dat ze zich tegenover beroepspolitici en hun ambtenaren niet belachelijk maken door termen als “onaanvaardbaar” in de mond te nemen: “onaanvaardbaar” heeft alleen betekenis als men over nauwkeurig gespecificeerde machtsmiddelen beschikt en bereid is die in te zetten. Die voorwaarden zijn i.h.a. niet vervuld.
Een voorbeeld: ondervertegenwoordiging
Ter concretisering van de voorafgaande beschouwingen, en met het oog op de actualiteit van het Ontwerp Machtigingswet 1980, zijn enkele stellingen omtrent selectie voor gesloten studierichtingen opgesteld. noot 4). Slechts enkele daarvan zullen in dit bestek worden toegelicht, en wel de stellingen die op ondervertegenwoordiging van groepen betrekking hebben.
De stellingen luiden, in het kort, dat scherpere selectie zoals de nieuwe Machtigingswet met zich meebrengt, tot verdere ondervertegenwoordiging van bijvoorbeeld vrouwen leidt en dat dit onrechtvaardig is. Er is hier dus, zoals vaker, sprake van een psychometrisch en een juridisch of ethisch aspect. Waarschijnlijk is de stelling dat verscherpte selectie verscherpte ondervertegenwoordiging met zich mee brengt, niet meteen intuïtief inzichtelijk; het heeft er bijvoorbeeld de schijn van dat dit effect de Minister van Onderwijs, ondanks zijn ’emancipatorische bevlogenheid’, althans ten aanzien van vrouwen, is ontgaan. Het effect valt het eenvoudigst te illustreren aan het denkbeeldig geval van homogene verde- lingen, waarin verscherping van de selectie in beide groepen een even groot percentage extra afgewezenen tot resultaat zou hebben. Stel dat bij een bepaalde drempel in de ene groep 80% zou worden toegelaten, in de andere 70%; bij een zodanige verscherping van de selectie dat van die eerste groep 75% over zou blijven, zou dan van de tweede groep 65% worden toegelaten. En 65/75 is minder dan 70/80. Aan de verscherping van de ondervertegenwoordiging komt pas een eind als de ondervertegenwoordigde groep in zijn geheel is weggeselecteerd.
153
In bijlage 1, van de hand van I.W. Molenaar, wordt aangetoond dat dit verschijnsel ook optreedt als bijvoorbeeld de cijfers van jongens en meisjes beide normaal verdeeld zijn, en de jongens alleen gemiddeld iets hoger scoren. Volgens CBS (1977) – gegevens is dat laatste het geval. De assumptie van twee overigens identieke verdelingen met ‘Increasing Failure Rate’ is echter i.h.a. niet exact vervuld. Het zou kunnen zijn dat in de empirie bobbels of kuilen in de verdeling optreden die het voorspelde effect ongedaan maken. De stelling heeft dus het karakter van een meer of minder onzekere voorspelling. De voorspelling werd getoetst op CBS-gegevens, verzameld op een steekproef van 1046 geslaagden voor het VWO-examen. Het resultaat (zie Figuur 1) is tamelijk schokkend. Terwijl er in de ongeselecteerde
Figuur 1: Verscherpte ondervertegenwoordiging als gevolg van verscherpte selectie
154
groep meer dan 8 vrouwen op 10 mannen zijn, zijn er bijvoorbeeld op de 10 mannen nog maar 6 vrouwen over als de selectiedrempel bij 7 1/2 wordt gelegd zoals de Cie. Wiegersma oorspronkelijk wilde. Als het voorstel om uitsluitend op het Centraal Schriftelijk Examen te selecteren, was overgenomen, zouden er op de 10 mannen zelfs minder dan 5 over-blijven. Het blijkt dus dat de voorspelling, ondanks de betrekkelijk kleine steekproef en ondanks het gering verschil in gemiddeld eindexamencijfer tussen mannen en vrouwen, de empirische toets glansrijk doorstaat.
Men zou nu kunnen tegenwerpen (J. Cohen-Schotanus, pers. meded.) dat medicijnen-studenten in het algemeen een bêta-pakket hebben; dat bekend is dat veel minder meisjes dan jongens zo’n pakket kiezen; en dat dus in de voorgeselecteerde groep van bêta’s de meisjes geen lagere cijfers zullen halen dan de jongens die immers minder scherp zijn voorgeselecteerd. Die tegenwerping blijkt onjuist. Tabel 1 laat zien dat op alle bêta-vakken de meisjes alsnog lager scoren. Men kan er dus staat op maken dat ook in de bêta-groep de gemiddelde eindexamencijfers voor de jongens hoger liggen.
Na de analytische en de empirische aspecten van het vraagstuk stellen we tot slot het waarde-aspect aan de orde. Tot nu toe werd alleen een feitelijk gevolg van een voorgenomen maatregel aangetoond. Dient op grond daarvan de maatregel als discriminatoir te worden bestempeld?
In de eerste plaats zou dat zo zijn wanneer vrouwen met een wat lager cijfer toch een even grote kans op studiesucces zouden hebben als mannen. Precieze gegevens hierover ontbreken. Er is een theorie, die enige steun in gegevens vindt, die zegt dat meisjes betere proefwerken en tentamens maken, en dat jongens alleen beter zijn in de onpersoonlijke stress-situatie van het schriftelijk eindexamen. Als die
155
Tabel 1 A: Percentages geslaagden met een cijfer lager dan 6½
----------------------------------------------------
Schoolond. Centr.Schr. Eindex.
m v m v m v
Wisk.I 38 < 53 52 < 63 44 < 60
Natuurk. 36 < 54 45 < 71 41 < 66
Scheik. 34 < 44 47 < 62 41 < 57
Biol. 24 < 27 34 < 46 28 < 36
----------------------------------------------------
Tabel 1 B: Percentages geslaagden met een cijfer hoger dan 7½
----------------------------------------------------
Schoolond. Centr.Schr. Eindex.
m v m v m v
Wisk.I 36 > 22 25 > 16 27 > 14
Natuurk. 26 > 16 30 > 11 25 > 9
Scheik. 29 > 15 29 > 11 25 > 10
Biol. 37 > 25 35 > 24 34 > 22
----------------------------------------------------
theorie juist is, is inderdaad sprake van discriminatie als op eindexamencijfer wordt geselecteerd. Persoonlijk twijfel ik aan de juistheid van die theorie. In de tweede plaats zou men van oneigenlijke selectie met discriminatoire bijwerking kunnen spreken als boven een bepaalde drempel een nog hoger cijfer geen hoger verwacht studiesucces meer inhoudt.
Aan deze hypothese echter, de hypothese van niet-lineaire regressie van studiesucces op eindexamencijfer, dient een zeer lage apriori-waarschijnlijkheid te worden toegekend.
Wel is er een derde, samengestelde redenering die twijfel doet rijzen aan de rechtvaardigheid van de maatregel. Behalve het argument van de versterkte ondervertegenwoordiging spelen daarin een rol
– het argument dat, zoals al opgemerkt, medicijnen e. d. geen hoog-intellectuele studies zijn zodat ook middelmatige VWO-ers een goede slaagkans hebben;
– het argument dat vergelijkende selectie niet zonder meer een acceptabel middel is om een capaciteitsprobleem op te lossen;
– het argument dat ook in het Wetsontwerp het toelatingsrecht, ver-bonden aan het VWO-diploma, wordt gehandhaafd.
Het argument luidt dan: als het rendement van selectie toch al beperkt is, en er bovendien twijfel bestaat aan de rechtmatigheid van selectie, dan valt, in het licht van het bijkomend ondervertegenwoordigingseffect, verscherpte selectie nog moeilijker te verdedigen; ook is omgekeerd moeilijker het bijkomend effect te aanvaarden, gegeven de twijfels die er m.b.t. selectie toch al bestonden. Verscherpte ondervertegenwoordiging is zo gezien dus een soort verzwarende omstandigheid. Onnodig te zeggen dat bij ongewogen loting dit verschijnsel niet optreedt. Speciaal diegenen wie de nu al bestaande ondervertegenwoordiging van vrouwen aan de universiteit een doorn in het oog is, zouden wellicht hun standpunt in heroverweging wensen te nemen.
157
Verwijzingen
Centraal Bureau voor de Statistiek: Eindexamencijfers geslaagden VWO 1977. Rapport van de hand van J.K. Jonker en H.C.A. Slagter.
Groot, A.D. de. Aanvaardbaar instrumentgebruik bij selectie en advies’ De Psycholoog, 1970, 5, 1 – 4.
Groot, A.D. de. Some badly needed non-statistical concepts in an psychometrics. Nederlands Tijdschrift voor de Psychologie, 25, 360-376. http://goo.gl/7ZgrN
Hofstee. W.K.B. Loten of cijferen. Onderzoek van Onderwijs, 1975, 3 – 6.
Hofstee, W.K.B. De empirische discussie. Meppel: Boom, 1980
Hofstee, W.K.B. & Trommar, P.M.L. Selectie en loting: meningen van VWO-eindexaminandi. Heymans Bulletin 76-251-EX, oct. 1976. [SamenvattingDoor het Psychologisch Instituut der R.U. Groningen werd een onderzoek verricht naar de meningen van vwo-eindexaminandi m.b.t. numerus fixus, selektie en loting. 535 VWO-errs te Groningen beantwoordden een korte vragenlijst. De voornaamste uitkomsten waren: bijna 80% van de VWO-ers is van plan naar de universiteit te gaan, en die keuze houdt geen verband met schoolcijfers. Indien ze zouden worden uitgeloot, zou slechts 1% geheel van hoger onderwijs afzien. 47% acht een geargumenteerde numerus fixus voor bepaalde studierichtingen te rechtvaardigen; die mening houdt geen verband met schoolprestaties. In geval van beperkte middelen gaat de voorkeur van de VWO-ers uit naar aantalsbeperking boven minder intensief onderwijs.<p>M.b.t. de eventuele selektiemethode spreekt 41% zich uit voor algehele loting, 40% voor glijdende lotingskans en slechts 13% voor de totnutoe gehanteerde 7,5-regel. Ook deze keuze houdt geen verband met schoolprestaties tot op dit moment. De eventueel benodigde cijfers wil men noch op basis van louter schoolonderzoek, noch op basis van louter landelijk examen opgesteld zien.<p>Bij de meeste vragen zijn er systematische verschillen in antwoord tussen de diverse scholen.Zie ook Hofstee 1977 Methodologische notities https://objects.library.uu.nl/reader/index.php?obj=1874-208332&lan=en#page//78/08/70/78087037999945537635528943325234323841.jpg toevoeging b.w.]
Hofstee, W.K.B. & Wijnen, W.H.F.W. Intelligentie-onderzoek eerste-jaars 1968. Mededelingenblad R. U. G. , 1 nov. 1968.
Voetnoten
1) Naar zeggen van De Groot (pers. meded.) is dit bewust gebeurd aangezien de Cie meende dat de door ons gebruikte methode geen geldige resultaten opleverde. Ik verschil hierover met De Groot en de zijnen van mening, maar die discussie is nog niet afgesloten.
2) In het engels: ‘capacity’. Het maakt uiteraard verschil of men dit met ‘bevoegdheid’ of met ‘geschiktheid’ vertaalt.
3) Het model voor deze werkwijze wordt geleverd in A.D. de Groot, Een minimale methodologie (oratie) , Den Haag, Mouton, 1971.
4) Zie “Stellingen over selectie voor het Wetenschappelijk Onderwijs”, Congresmap.
158
Bijlage 1. Aandeel van een groep in een mengverdeling I.W. Molenaar
Laat een stochastische grootheid X in één groep, die een fractie p van de totale populatie uitmaakt, de cumulatieve verdelingsfunktie F(x) = P(X ≤ x) hebben, en in de resterende groep (fractie 1 – p) de verdelingsfunctie G(x). Uit beide groepen worden alle individuen met X ≤ c verwijderd. Wat is het effect van een verhoging van selectiedrempel c op het relatieve aandeel van de eerste groep na selectie?
De frequentieverhouding van groepen 1 en 2 na selectie is
waar f en g de bij F resp. G behorende kansdichtheden zijn. De afgeleide is negatief, m.a.w. het relatieve aandeel van groep 1 daalt bij toenemende c, dan en slechts dan als
[f(c) / (1 – F(c)] > [g(c) / (1 – G(c)].
Een uitspraak over de laatste ongelijkheid wordt eenvoudig als de verdelingen in beide groepen op een verschuiving na identiek zijn, dus G(x) = F(x-d) en g(x) = F(x-d). Wanneer d positief is (de tweede groep scoort gemiddeld d punten hoger bij overigens gelijkvormige verdeling), dan betekent de laatste ongelijkheid dat de “hazard rate” of “failure rate” f(x) / {1 – F(x)}
159
een stijgende functie van x moet zijn. Tot de zgn. IFR klasse van verdelingen waarvoor dit geldt behoort o.m. de normale verdeling (Barlow c.s., pag. 232); de negatief-exponentiële verdeling is een grensgeval want uit f(x) = a exp (-ax) en F(x) = 1 – exp (-ax), beide voor x > 0 en voor gegeven parameter a > 0, volgt dat de “hazard rate” hier constant is.
Voor de hier gestelde vraag is het voldoende als de IFR eigenschap geldt voor x > c-d, waar c de nu geldende selectiegrens is. De daling van het relatieve aandeel voor de laagst scorende groep geldt dan voor een ruime klasse van kansverdelingen, o.m. normaal, homogeen, driehoekig.
Literatuur:
R.E. Barlow, D.J. Barholomew, J.M. Bremner, H.D. Brunk, (1972) Statistical Inference under Order Restrictions, Wiley N.Y.
‘Meten is weten’, werkelijk? Docenten stellen bij proefwerken, toetsen, tentamens, examens, vast of antwoorden op de gestelde vragen juist zijn, of niet. Wij staan er omheen en kijken ernaar. Weten we nu iets? Jazeker. Kunnen we dat wat we nu weten ook duiden? Ai.
Ik wil het over summatieve toetsen hebben: er staat iets op het spel. Wat op het spel staat zijn de mogelijke (gevolgen van) beslissingen op basis van resultaten op de toets. Een specifieke onderverzameling daarvan is wat we (internationaal) ‘validiteit’ noemen:
de mate waarin de toets leidt tot juiste beslissingen. Hé, dat is best opmerkelijk: het gaat niet om de meting zelf, maar om de beslissing op basis van de meting. Meten is beslissen, zou je denken. Dit klinkt ingewikkelder dan meten is weten, en dat is het ook. De reden om toch voor het complexe te gaan is, ik geef een voorlopige kenschets, dat de meting/toets in het onderwijs nooit het doel zelf is. Het zou prettig zijn altijd een helder antwoord te hebben of te krijgen op de vraag naar het doel van de beoordeling (toets, examen, etc).
Toch ben ik weinig onderzoek tegengekomen waar betreffende docenten de gelegenheid kregen zich over het doel van hun toets uit te spreken. Ik ben zelf in de gelegenheid geweest zo’n onderzoekje te doen: benwilbrink.nl/publicaties/04… Nou, de opvattingen lopen sterk uiteen hoor. Dat doet denken aan een vragenlijst voor bezoekers van een congres over zittenblijven (Alfred Wald (1985). ‘Een jaartje overdoen. Verslag van het SVO-symposium over zittenblijven in het voortgezet onderwijs’, SVO, p. 135-150): Dat laat prachtig zien dat iedereen maar wat doet en denkt, dat het zittenblijven dus vooral folklore is. ‘Iedereen’: zo’n 150 schoolleiders als ik mij niet vergis. Ieder school heeft weer andere regels voor de overgang. [Niet online beschikbaar — Google weet niet alles]
Waar het mij om te doen is: voor de leerling of student zijn er altijd ernstige gevolgen verbonden aan summatieve toetsen. En omdat zij verondersteld worden zich goed voor te bereiden op die toetsen, werken die toetsen bovendien op de aard van die voorbereiding: #feedforward.
Toetsen zijn maar rare meetinstrumenten: ze hebben serieuze consequenties (zoals civiel effect van examens), en omdat die consequenties er zijn, hebben ze ook serieuze invloed op hoe leerlingen zich voorbereiden op de toets, EN ZO DE METING ZELF BEÏNVLOEDEN.
Dit fenomeen zien we overigens breder dan in het onderwijs alleen. Wim Hofstee schreef er ooit een aardig boek over: ‘Psychologische uitspraken over personen. Beoordeling/voorspelling/advies/test’. Betrokken personen praten altijd terug. Rotsen doen dat niet bij hun beoordeling.
Hoe nu verder? ik word overrompeld door de vele mogelijkheden. Maar dat ga ik kortsluiten. Ik kom zeker nog te spreken over cijfers, cijfergeven, zak-slaaggrenzen, modelleren van toetsscores, en nog zo wat. Maar eerst wil ik dit toetsen met zijn gevolgen en zijn #feedforward of ook #washback of #backwash contrasteren met wat typisch het geval is voor ‘echte’ psychologische tests, zoals intelligentie- en persoonlijkheidstests. Bij deze tests neemt de psycholoog aan dat er geen doeltreffende voorbereiding op is geweest, anders dan uitgerust zijn.
Voor het ontwikkelen en gebruiken van psychologische tests is sinds ongeveer 1900 een een steeds complexer uitgebouwd wiskundig instrumentarium ontwikkeld dat psychometrie heet. Men wilde de geest meten, nietwaar. Bij dit testen vinden we een sterke oriëntatie op meten. Yes.
Maar heel dat wiskundig apparaat berust op de aanname dat iedereen die getest wordt, in gelijke mate niet inhoudelijk op dat testen is voorbereid. In de mate waarin die aanname geschonden is, struikelt de psychometrie over de eigen formalismen. Ik geef een historisch voorbeeld:
De eerste tests (Army Beta, maar dat moet ik nog checken) die in 1917 in de VS werden ingezet voor het selecteren van rekruten voor het Amerikaanse leger bestonden uit meerkeuzevragen. De instructie was: weet je het antwoord niet, laat de vraag dan open. Wat gebeurt? Men kwam er al gauw achter dat je kans om in het leger te komen groter was wanneer je die instructie in de wind sloeg, dus toch een antwoord ‘gokte’ bij niet weten. Dan leidt de test niet tot valide beslissingen. De psychologen namen hun verlies, en veranderden de testinstructie.
Het beroerde van deze ontwikkeling is dat ook schooltoetsen werden ontwikkeld naar het voorbeeld van de zo succesvolle intelligentietests, met meerkeuze en met de gekkigheid van raden en al. A.D. de Groot was bij een bezoek aan de VS diep onder de indruk van deze ‘studietoetsen’ en voerde bij ommekomst in Nederland een felle campagne om ze hier ook geïntroduceerd te krijgen, als ‘objectieve’ studietoetsen. Dat laatste was ideologische overdrijving (zie mijn 1977 benwilbrink.nl/publicaties/77…) maar het kwaad was al geschied. Nog steeds lijdt het Nederlandse onderwijs onder de misvatting dat meerkeuzetoetsen ‘objectief’ zijn, en dat het in het onderwijs oké zou zijn leerlingen die iets niet weten, maar een antwoord te laten gokken. Dit is een vorm van loten waar ik mordicus tegen ben, haha. Twintig jaar lang kruisjes zetten ook.
Mijn voorbeeld is een beetje uit de hand gelopen. Maar het is ook een voorbeeld hoe schadelijk het is wanneer het onderwijs technieken uit een ander domein (de psychometrie) overneemt zonder enige kritische reflectie of dit het onderwijs wel past.
Toch was die kritiek er al vrij snel. Zowel A.D. de Groot als Bob van Naerssen kwamen al snel na publicatie van het door hun geredigeerde en sterk ideologisch gekleurde ‘Studietoetsen construeren, afnemen, analyseren’ (Mouton, 1969) tot een radicaal ander standpunt waarin juist de positie en het belang van de leerling voorop stond. De psychometrie heeft juist maling aan de leerling. De psychometrie is sterk in zichzelf gekeerd met zijn streven om vergelijking van leerlingen een wiskundige vorm te geven. Er is nog gelegenheid genoeg om daarop door te gaan.
De Groot publiceert in 1970 een pleidooi om aan de typische kwaliteitseisen uit de psychometrie een overkoepelende eis toe te voegen: toetsen moeten door leerlingen doeltreffend zijn voor te bereiden. benwilbrink.nl/publicaties/70… Laat dat ‘doeltreffend’ even inzinken. Het betekent:geen geheimzinnigheid over wat hoe zal worden gevraagd, en waar de grens voor een voldoende zal liggen. Tien jaar later zou er aan de UvA gedoe ontstaan over het geheim houden van tentamenvragen. Veertig jaar later over geheimhouden door het CvTE van #rekentoets-vragen.
In feite eist De Groot dat leerlingen tevoren een goede inschatting moeten kunnen maken van het resultaat dat zij op de toets zullen halen. Dat is immers een noodzakelijke voorwaarde voor een doeltreffende voorbereiding. Bob van Naerssen was medewerker van De Groot, en hield in 1970 zijn inaugurele rede als lector over wat hij een ‘tentamenmodel’ noemde. Een toetsmodel dus ook. benwilbrink.nl/publicaties/70… De titel is veelbelovend: ‘Over optimaal studeren en tentamens combineren’. Het gaat over de constructie van een wiskundig model voor het opstellen van een verwachte score op het nog af te leggen tentamen. Ik zeg het iets anders en simpeler dan hoe Van Naerssen zijn model presenteert; ik heb daar mijn redenen voor, kom er nog op terug. Punt is: Van Naerssen geeft een wiskundige uitwerking van het idee van De Groot. Dat laatste zei hij er niet bij, maar zijn model is daar nu juist bij uitstek voor geschikt.
We zijn ondertussen meerdere stappen verwijderd van het idee ‘meten is weten’. Maar het is puur winst, want De Groot en Van Naerssen geven aandacht en inhoud aan de context van het proefwerk/tentamen/examen. In het onderwijs is een beoordeling een resultaat waarop is gestuurd.
Ho, maar wacht even. Wat is dat voor fenomeen, een meting doen waarop willens en wetens is gestuurd? Wat ‘meten’ we dan? Kijk, nu komen we ergens. Studieresultaten kunnen we niet goed duiden zonder te weten hoe leerlingen zich hebben voorbereid, welk cijfer ze wilden halen.
Ik kan dit het best duidelijk maken aan de hand van de analyse van een kleine set gegevens uit onderzoek van Sem Everwijn en Ton Willemsen, over o.a. tijdbesteding in de voorbereiding, en behaalde scores. Zie hier: benwilbrink.nl/publicaties/77… (paper voor Onderwijsresearchdagen 1977).
Het paper presenteert een heuristisch model om over de duiding van (verschillen tussen) toetsscores van gedachten te kunnen wisselen. Ivo Molenaar was er destijds enthousiast over (opsteker). Wat toetsscores betekenen hangt immers af van hoe zij tot stand zijn gekomen. En dat laatste is juist hier van enorm belang, omdat er sterk verschillende wegen zijn die naar hetzelfde resultaat kunnen leiden. Slim zijn, hard werken, of slim zijn èn hard wrken. Wie niet slim is en niet hard wil werken, zit niet op de universiteit.
Hoe komen zij tot stand: de leerling neemt meer/minder voorkennis mee, heeft een bepaalde ambitie (een ‘6’ is wel voldoende; of: het moet echt een ‘9’ worden), besteedt meer/minder tijd aan de doeltreffende voorbereiding. Dit klinkt ingewikkeld, maar zie, er is een aardig wiskundig model voor dat gebruikt maakt van de bijzondere afhankelijkheden tussen de vier variabelen: de score is mede afhankelijk van de voorkennis, maar niet omgekeerd, enzovoort. Wie een geschikte dataset heeft verzameld, kan de oorzakelijke verbanden dan uitrekenen.
Dezelfde eindscore kan op veel verschillende manieren zijn bereikt, of worden bereikt. Dat heeft betekenis voor het onderwijs. En natuurlijk ook voor de duiding van de eindscore zelf. Wat betekent het wanneer de hele klas laag scoort? Heeft de leraar daar aanwijzingen voor?
Prangende vragen zijn er uiteraard in de overgangsvergadering. Wat betekenen de cijfers voor de leerlingen in de gevarenzone? Wat weten we over die leerlingen? Want de overgangsregeling botweg toepassen op de genoteerde cijfers is niet toelaatbaar, dat weet iedereen, toch?
Wanneer de betekenis van de toetsresultaten afhangt van andere gegevens zoals voorkennis, streefniveau en tijdbesteding — en dat is altijd het geval — dan levert de toets dus onvolledige meetgegevens op, zou je kunnen zeggen. Meten is onvolledig weten.
Zo is het van belang enig inzicht te hebben in de mate waarin leerlingen erin zijn geslaagd zich doeltreffend op het proefwerk of welke beoordeling dan ook, voor te bereiden. Verschillen tussen streefniveau en behaald resultaat geven daar aanwijzingen voor. Het model helpt dit soort vragen te stellen. Het tentamenmodel van Bob van Naerssen helpt om maatregelen te vinden die belemmeringen voor een doeltreffende voorbereiding (De Groot) uit de weg kunnen ruimen. We zijn dan met zijn allen niet meer bezig met meten, maar met het onderwijs optimaliseren.
Als leerling je toetsscore voorspellen.
Dan is het nu tijd om ons te realiseren dat een toets geen meetinstrument is, maar een steekproef uit wat de leerlingen weten en kunnen. Laten we, met De Groot en Van Naerssen, de situatie bekijken met de ogen van de leerlingen.
Iedere toets ziet er voor de leerlingen uit als een steekproef uit alle mogelijke vragen over de opgegeven leerstof. Lees het nog een keer, alsjeblieft. Want het standpunt van de leerling kiezen is echt heel bijzonder, en biedt een volkomen ander vertrekpunt dan de psychometrie.
Bob van Naerssen pleitte dan ook voor een didakometrie die aansluit bij wat er voor het onderwijs nodig is. Van Naerssen was waarschijnlijk de eerste Nederlandse psycholoog die een besliskundige benadering koos bij selectieproblemen. In casu: chauffeurs in de landmacht, onderwerp van zijn proefschrift. Een besliskundige benadering drukt je met de neus op de vraag: beslissingen van wie? Bij onderwijs schieten we meteen in de reflex: de leraar, natuurlijk. Maar bij nadere beschouwing is dat niet helemaal correct: de leerling neemt voortdurend beslissingen.
Dit is in het basisonderwijs minder vanzelfsprekend dan in het voortgezet onderwijs. Oké. De uitdaging voor leraren is de leerlingen te helpen om handige beslissingen te nemen, om proefwerken goed voor te bereiden. De hamvraag daarbij is: kan de leerling zijn toetsscore voorspellen? Dit is echt wel een lastige vraag, want het is niet zo dat de meeste leerlingen voor de meeste proefwerken tienen scoren. Oké, bent u dat met mij eens? Ik ga proberen u mee te nemen op een korte ontdekkingsreis naar het antwoord.
Ik neem u mee in een gedachte-experiment. Stel u bent een leerling die net zijn proefwerk heeft teruggekregen: 60 % van de vragen waren goed, de overige fout. Als u nu een nieuw proefwerk zou mogen maken, wat is uw verwachte score? Simpel, ook 60% natuurlijk. Een ‘no-brainer’.
Maar niet PRECIES 60%, hè! Het kan ook meer zijn, of minder. Kunnen we dat helder krijgen? Jawel hoor, volg de logica. Wat is de kans dat je (je bent nog steeds die leerling) de eerste vraag goed beantwoordt? Precies, die is 0,6; het is voor jou immers een willekeurige vraag.
Wat is de kans voor de tweede vraag? Aha, ook 0.6. Je hebt het door: voor alle vragen, zeg dat het er 20 zijn, is de kans op een goed antwoord 0.6. De kansverdeling voor de toets van 20 vragen is dan de binomiaalverdeling, zie Wolfram wolframalpha.com/input?i=binomi…
Dus ja, de voorspelling is 60%, dus 12 goed uit 20, maar jeetje, het kan ook zomaar 9 zij, of 15. Eigenlijk had ik u eerst moeten vragen zelf een schets te maken van hoe u denkt dat de verdeling eruit ziet. Het is eigenlijk een histogram.
[Mijn uitleg is hier een beetje te simpel. Om het echt goed te doen is iets meer nodig, zoals uitgewerkt in mijn SPA-model. Een voorspellende toetsscoreverdeling op basis van een proeftoetsresultaat levert dan een bredere spreiding op dan de binomiaalverdeling. De reden is dat de ‘ware stofbeheersing’ onzeker is, en geschat moet en kan worden op basis van de proeftoetsscore. Zie op mijn website het SPA-model.]
Een ook historisch interessant instrument om die binomiaalverdeling te simuleren is de quincunx van Sir Francis Galton: mathsisfun.com/data/quincunx.… . Speel er wat mee. Het maximum aantal ‘toetsvragen’ is 14 (van boven af), daar moeten we het mee doen. Stel kans 0,6 in als 40%/60%.
Bij ieder pinnetje op zijn weg naar beneden is de kans op ‘naar rechts’ 0,6, naar links 0,4. Het is een ongelooflijk krachtig model, zowel de binomiaalverdeling, als zijn materiële maar hier digitale vorm van de quincunx. Volg de logica nog eens terug, en laat het rustig tot u doordringen dat een leerling die 60% van de stof beheerst, gerekend naar het percentage vragen dat hij goed zou beantwoorden, een groot risico loopt op een echt lagere score dan die 60% op een steekproef van 20 vragen, maar ook een grote kans op een fors hogere score.
In de psychometrische testliteratuur zoals de klassieke tekst van Frederic M. Lord and Melvin R. Novick (1968). ‘Statistical theories of mental test scores’, gaat alle aandacht uit naar wat de leraar op basis van gerealiseerde scores kan zeggen over de ‘ware’ stofbeheersing.
Maar wat heeft de leerling aan platonische oefening over ‘ware stofbeheersing’? Niets. Het gaat de leerling, en trouwens ook de leraar, om het resultaat. De score. Daar krijgt de leerling een cijfer voor, en dat telt. En dan laat de quincunx zien dat die score deels toeval is.
Het laat zich raden dat de binomiaal als model voor de score op toetsen slechts het begin is van het modelleren van toetsen en examens. De binomiaal gaat uit van een specifieke waarde voor de ware stofbeheersing, maar die ware stofbeheersing kennen we slechts bij benadering.
De psychometricus construeert dan een betrouwbaarheidsinterval voor die ware score voor de hele groep leerlingen, en doet daar vervolgens niets mee. In een tentamenmodel is de toetsscore van een individuele leerling de basis om een kansverdeling (‘likelihood’) voor zijn ware stofbeheersing op te stellen. Ik ga dit niet verder toelichten. Wie nieuwsgierig genoeg is, zie voor de verdere uitwerking benwilbrink.nl/projecten/spa_… [Ik heb werk aan het model gestaakt bij ernstige problemen met de veiligheid van JAVA, helaas. De applets zijn buiten werking.]
De doeltreffendheid die A.D. de Groot als belangrijkste kwaliteitseis stelt, valt uiteen in (1) een inhoudelijke eis: het wat en hoe van de vragen in de toets, en (2) een strategische eis: de leerling moet inzicht hebben in het risico van een te lage score.
(1) betekent dat vragen in een summatieve toets niet moeilijker of anders zouden moeten zijn dan de vragen die in het voorafgaande onderwijs zijn behandeld en geoefend. Is dat een verrassing voor u? Mooi, dan heb ik een punt gescoord.
(2) als de toets inhoudelijk overeenstemt met het gegeven onderwijs (een ‘integere toets’), dan heeft de leerling best wel een goed idee over de te verwachten score op de toets. Maar daarmee nog niet over risico om te zakken. Ik ga het nog over cijfers hebben.
Nota Bene. De score op een toets of examen is deels toeval, want het resultaat van de vragen in de toets, een set vragen die even goed een heel andere had kunnen zijn. Dat is een wezenlijk verschil met metingen: die zijn niet toevallig, maar hebben wel een mogelijke meetfouten.
Een deels toevallige score op een toets, examen of selectietest is geen meetfout: er gebeurt niets dat ongewenst is. Dat inzicht moet gevolg hebben voor de taal waarin we vaak spreken over beslissingen op basis van examens, of selectieve tests: dat die ‘terecht’ of ‘onterecht’ kunnen zijn. Maar dat ‘terecht’ of ‘onterecht’ is niet zinvol. De beslissingen zijn wat ze zijn. Ze zouden anders zijn geweest, wanneer ‘paralleltoetsen’ waren gebruikt: in alle opzichten gelijkwaardig, maar met andere vragen. Laten we ons voornemen wendbaar te denken bij het beoordelen in het onderwijs.
Aan welke knoppen kan de leraar draaien?
Het aandeel van toeval bij toetsen en examens is zo groot dat er maatregelen genomen moeten worden om er goed mee om te gaan. Allereerst inhoudelijk: door voortdurend te werken aan verbetering van de kwaliteit van de toetsvragen zelf.
Hoewel dit direct de ‘meetkwaliteit’ van toetsen raakt, wil ik dit spoor hier niet verder volgen. Ik schreef begin 80er jaren een kursusboek over het ontwerpen van toetsvragen (Aula 809), zie een uitgebreide en herziene tekst hier benwilbrink.nl/projecten/toet….
Een interessante knop om aan te draaien is: neem korte tijd voor een belangrijk proefwerk een oud proefwerk af, als proeftoets. Dat geeft leerlingen een laatste waarschuwing, mochten zij een verkeerd idee hebben over hoe goed ze zijn voorbereid. De kwantitatief ingestelde leraar kan op basis van de proeftoetsscores de slaagkansen voor het echte proefwerk berekenen (het SPA-model benwilbrink.nl/projecten/spa_…). Een directe ingreep om aandeel van het toeval te verminderen is, u raadt het al: de toets verlengen. Meer vragen opnemen in de toets.
Maar toetsen verlengen kan niet onbeperkt hè! Een interessante knop waaraan gedraaid kan worden: maak de toetsvragen minder moeilijk. Er zijn een aantal redenen waarom onze toetsen vooral moeilijk zijn.
(1) Een eeuwenoude traditie om prijzen te geven aan de beste leerlingen:
J. Spoelder (2000). ‘Prijsboeken op de Latijnse school: een studie naar het verschijnsel prijsuitreiking en prijsboek op de Latijnse scholen in de Noordelijke Nederlanden, ca. 1585-1876’. Dissertatie. open: repository.ubn.ru.nl/handle/2066/14… Pas op: 100 Mb.
Om daar geen conflicten over te krijgen, moest er natuurlijk wel een duidelijke afstand zijn tussen de nummer 1 en de nummer 2, enzovoort. Dus lastige opgaven opgaven stellen.
(2) In het moderne onderwijs, met de oprichting van H.B.S. zeg maar, oefenden leraren een sterke selectieve druk uit op hun leerlingen, resulterend in tamelijk vaste percentages zittenblijven/afstromen van circa 23% jaarlijks. K. Posthumus schreef er een fel stuk over in De Gids van 1940 dbnl.org/tekst/_gid0011…
Na WOII is dat percentage van 23 iets teruggelopen, en vervolgens hoog gebleven, ook ondanks de mammoetwet. A.D. de Groot heeft de vooroorlogse jaren nog meegemaakt, mogelijk heeft dat hem ook gemotiveerd tot het schrijven van zijn ‘Vijven en zessen’ (niet online). In dat boek schenkt hij ruim aandacht aan het fenomeen dat docenten wis- en natuurkunde door moeilijke proefwerken en strenge cijfers zichzelf belangrijk konden maken t.o.v. leraren van andere vakken.
(3) Je zou denken dat De Groot met zijn studietoetsen dan een tegenwicht zou willen bieden, maar dat was althans in ‘Studietoetsen’ van 1969 nog niet het geval: dat boek beveelt aan om toetsvragen een moeilijkheid van rond de 0,7 te geven. Dat berust op het psychometrisch denken dat je dan de grootste spreiding tussen leerlingen kunt krijgen. Alsof dat verdorie een onderwijsdoel zou zijn. Vreselijk.
Waarom zou er in (1), (2) en (3) een gerede grond zijn om door te gaan met toetsvragen die vooral MOEILIJK moeten zijn om zo onderscheid tussen leerlingen te kunnen maken? Dit is ook een ethische kwestie hè! Houd ermee op.
Met makkelijke toetsvragen wordt het aandeel van toeval in de uitslag op de toets kleiner. Gebruik die knop dus. Dat wil overigens niet zeggen dat het daarmee ook makkelijker wordt een ‘voldoende’ te scoren: moeilijkheid van toetsvragen en van de toets zijn verschillende zaken.
Ik stip hier ook maar even aan dat minder moeilijke vragen in de toets ook betekent dat in het onderwijs zelf minder moeilijke vragen worden gebruikt. Dat heeft alleen maar didactische voordelen, vermoed ik. Kwestie van testeffect, lees de blog van David
Kort door de bocht komt het erop neer dat het de leerling bij makkelijke vragen meestal lukt om de informatie op te halen uit de grijze hersencellen. Deze activering van het herinnerde consolideert die kennis ook weer. Geweldig voordeel van makkelijke vragen boven moeilijke.
Ik las hier een pauze in. Over knoppendraaien ga ik nog een vervolg schrijven, want het toeval bij afzonderlijke toetsen blijft ondanks alles groot. Maar let op, het is mogelijk toetsen enorm te ‘verlengen’ door meerdere toetsen te combineren. Klinkt dat bekend? Leuk hè!
Ik maakte eerder tussen neus en lippen door een belangrijke opmerking: De dominante psychometrische benadering ziet toetsen als iets met groepen en dus verschillen tussen leerlingen. Terwijl de didakometrie van Van Naerssen begint bij de individuele leerling.
De psychometrische aanpak maakt veel werk van de moeilijkheid van vragen, hun ‘p-waarde’. De aanname die zelden expliciet wordt gemaakt, laat staan ter discussie gesteld: vragen die iedereen goed kan beantwoorden hebben geen onderscheidend vermogen en horen niet in een toets.
Maar daar kijkt iedere leraar dwars doorheen, toch? Wat is dit voor depressieve benadering van onderwijs? Dan hébben je leerlingen de stof goed onder de knie, en dan zou je geen toetsvragen mogen gebruiken die dat dan ook vaststellen? Zo bizar, echt waar.
In de psychometrische aanpak zijn de p-waarden van de toetsvragen belangrijk, en die p-waarden zijn groeps-statistieken. Ze worden berekend op basis van de antwoorden die de hele klas heeft gegeven.
De didakometrische aanpak gaat uit van de beslissituatie van de leerling die zich voorbereidt op summatieve beoordeling. De basis voor een passend wiskundig model daarvoor is het binomiale proces: gegeven een stofbeheersing van bijvoorbeeld 80%, is de kans een willekeurige vraag goed te kunnen maken 0,8. Die 0,8 noemen we ook p = 0,8, maar dit is niet de moeilijkheid van de vraag zoals die blijkt bij klassikale afname. De klassieke psychometrische p-waarde van toetsvragen is een totaal ander begrip dan de kans p op een goed antwoord in het didakometrische binomiale model. Voor wie is opgevoed met het idee dat iedere toetsvraag een karakteristieke moeilijkheid p heeft is dit laatste moeilijk te bevatten. De p-waarde van een toetsvraag is een antwoord op een totaal ander probleem dan dat van transparantie van de toets voor de leerling die zich erop aan het voorbereiden is. Natuurlijk, ook die leerling gaat in de toets vragen tegenkomen die in de klas door velen fout worden gemaakt, of door bijna iedereen goed, maar dat is kennis achteraf. Van achteren kijk je de koe in de kont.
Onthoud dit onderscheid tussen p-waarde als groepsstatistiek en de kans p dat een leerling het antwoord op de eerstvolgende vraag weet. Het is verdomde belangrijk. Het mag ook duidelijk maken dat het ‘meten is weten’ van de psychometricus de individuele leerling niet helpt.
En wat de individuele leerling niet helpt, helpt ook de klas niet, ook de leraar niet. Er is, wat ‘meten is weten’ betreft dus een groot verschil tussen toetsen die het Cito en andere partijen op de markt brengen, en de toetsen die je als leraar zou willen inzetten.
Toetsen combineren. Bij examens, en natuurlijk ook bij overgangsbeslissingen. Het gaat om beslissingen die voor de leerlingen van groot belang zijn. Meestal zijn er een behoorlijk aantal toetsen als beschikbare prestatiegegevens. Hoe al die informatie optimaal te combineren?
Ik herinner aan de titel van de rede van Bob van Naerssen: ‘Over optimaal studeren en tentamens combineren.’ Er zitten meerdere kanten aan deze examenkwestie. Allereerst: toetsen zijn zwakke ‘metingen’, zoals ik in deze draad heb laten zien, maar tel ze op: dat is sterke info.
Ga geen ruzie maken met collega’s over het belang van het eigen vak, dat je met een onvoldoende voor jouw vak niet over zou kunnen gaan. De eerste stap bij optimaliseren van de overgangs- of examenregeling is: tel alle resultaten bij elkaar op.
Het onderwerp ‘hoe toetsen te combineren’ is te uitgebreid om hier verder te behandelen. Ik heb dat in 2017 wel gedaan, voor propedeutische examens met een BSA (Bindend StudieAdvies): ‘Compenseren in examens’, voordracht voor de HES:
Het gaat daar, naast het optimaliseren van de combinatie van toetsen als ‘meting’, ook om het optimaliseren van de examenregeling vanuit het doel alles zo transparant (De Groot) mogelijk te maken. Bij een BSA moet immers iedere student binnen dat eerste jaar kunnen slagen.
Onderling compenseren van toetsen/vakken heeft al een halve eeuw mijn warme belangstelling, omdat het onnodig zittenblijven en overdoen voorkomt. Kwestie van doelmatigheid, dat gaat over enorme bedragen hoor.
Ik maak voor die combinatie-problematiek ook weer gebruik van wiskundige modellen, die voortbouwen op het binomiale model voor afzonderlijke toetsen. De vele figuren zijn geplot met hulp van eigen software. (Java programmatuur, gebouwd met BlueJ; niet online, maar vraag mij).
cijfers, en cijfergeven
Dan nu dat andere onderwerp dat voortdurend over deze beschouwing heen zweeft: cijfers, en cijfergeven. Merk op dat toetsscores het fundament vormen: zijn antwoorden goed of fout. Cijfers zijn waardeoordelen over de prestaties. En zelf weer de basis voor cesuren (on)voldoende.
Hét boek over cijfers en cijfergeven waar iedereen wel van heeft gehoord is ‘Vijven en zessen’ van A.D. de Groot, uit 1966. Ik heb Adriaan eens gevraagd of hij iets wist van de geschiedenis van dat cijfergeven. ‘Goede vraag’, vertelde hij, ‘ik heb er geen moment aan gedacht!’
En toch moet er een interessante geschiedenis zijn, want tot eind 19e eeuw was rangordenen de meest gebruikte truc om leerlingen achter de vodden te zitten. Ik heb er ook nog een staartje van meegemaakt, ik was in de 1e klas (1950) 12/30, 6/29 en 7/29, daarna geen rangordes meer.
Interessant detail is dat het aantal leerlingen in de klas erbij is vermeld. Ooit is het lichamelijk of geestelijk bestraffen van fouten vervangen door een humaner methode van de beste studenten te belonen, soms met een baan of prebende, later vaak met prijsboeken. Daarvoor moest er iets van een puntentelling zijn, om een rangorde te kunnen vaststellen. Over rangordenen op zich zijn ook weer boekwerken verschenen, het levert interessante statistische problemen, en maatschappelijke spelletjes van allerlei aard.
Nummer 1 van de klas zijn is mooi, maar als dat een klas van 3 leerlingen is (op veel Latijnse scholen in eeuwen van lamlendigheid het geval) is dat iets anders dan nummer 1 van een klas van 30. Klassen verschillen ook: het ene jaar is evident ‘beter’ dan het andere. Soms zijn verschillen tussen leerlingen nihil, dan weer groot. Kortom, er was ook onvrede over die rangordes. In de 19e eeuw, de eeuw van tellen, meten en standaardiseren, werd er dus gewerkt aan of gezocht naar alternatieven.
Over de Franse ‘Agrégation’ is bekend (André Chervel (1993). ‘Histoire de l’Agrégation. Contribution à l’histoire de la culture scolaire’ blz. 136 e.v.) dat de jury’s stapsgewijs het rangordenen vervingen door cijfergeven. Mogelijk is hetzelfde op meerdere plaatsen gebeurd, maar ongetwijfeld hebben de meeste scholen het rangordenen in een keer vervangen door cijfergeven, gezien voorbeelden in andere scholen. Leerlingen van het Gronings gymnasium moesten veel geduld hebben: de rector gruwde van de nieuwigheid, maar bereikte een zeer hoge leeftijd in functie. In 1903 was het gedaan.
Het is niet alleen maar leuk en aardig hier even bij stil te staan. Deze geschiedenis laat immers zien dat ons cijfergeven een poging is het oude rangordenen te standaardiseren. Cijfergeven is nog steeds rangordenen. Zij het gestileerd, als nep-standaardisatie. Het is bedrog.
Een bekendere zienswijze op dat cijfergeven is dat het een vorm van relatief beoordelen is: in geen velden of wegen zijn er absolute normen voor te bekennen. Laat het ons enigge nederigheid leren bij ruzies die we maken over vijven en zessen.
Dat cijfergeven heeft niet veel meer met ‘meten’ te maken. Oké, rangordenen is ook een vorm van meten, pseudo-gestandaardiseerd of niet. Anders dan Engelse cijfersystemen brengt de Nederlandse gewoonte een ‘5’ net ‘onvoldoende’ te vinden veel problemen mee. Volgend onderwerp!
Onderwijs is een fenomeen van alle tijden. Beoordelen van leerlingen dus ook. Overzichten daarvan zijn zeldzaam. Ik schreef zelf een historisch overzicht, als ‘appetizer’ voor een proefschrift over toetsen, doe er uw voordeel mee: benwilbrink.nl/publicaties/97…
Heb ik verteld dat juf Dronkers (1e klas, met groen leren jack en helm op de bromfiets naar school) haar kinderen dus ook op volgorde van die rangnummers in de bankjes zette? De ‘besten’ links voor in de klas. De keerzijde daarvan: de ‘slechtsten’ rechts achter in de klas.
Mijn oude rapportboekje bevat nog een interessant gegeven, tot mijn verrassing: naast mijn eigen cijfers ook het gemiddelde cijfer van de klas (2e, 3e, 4e en 5e klas). Ik maak er een bestandje van. Dit zijn dus gemiddelde rapportcijfers van dezelfde ‘jaargroep’.
Het is allemaal erg vlak. Dat is wel te verwachten met gemiddelden, maar dit is wel érg vlak hoor. Dit beeld zal best representatief voor het cijfergeven in Nederland zijn. Twee uitbijters: gymnastiek (gymleraar daarvoor) en klas 5 (leraar was nieuw op school, hij begon streng).
De cijferschaal loopt van 1 tot 10, ruimte zat voor variatie. Toch komen al die gemiddelden uit op ‘iets rond de 6,5’. Ik vind het een bijzonder fenomeen. Kunnen we zeggen dat het ‘metingen’ zijn? Er zit eigenlijk geen informatie in, behalve dat er geen informatie in zit.
De informatie van de gegeven cijfers zit verborgen achter die gemiddelden: er is natuurlijk een behoorlijke spreiding tussen de leerlingen van deze jaargroep. Een rangorde dus. Het lukt de onderwijzers prima om te rangordenen, maar daar zijn ze toch niet voor aangesteld?
En waarom liggen die gemiddelden rond 6,5? Dat is simpel, een 6 is ‘voldoende’, een 5 is ‘twijfelachtig’, zoals mijn rapport het benoemt. (Aan plusjes of minnetjes, of halve punten, deed mijn school niet). Die cijfers en hun betekenis waren overigens wettelijk verankerd.
Daar zou nog eens een historisch onderzoekje op uitgevoerd kunnen worden. Mogelijk is de wet van Thorbecke voor de H.B.S. de eerste die de cijferschaal wettelijk vastlegt. Een curieus feitje (de bron moet ik nog eens zien te achterhalen):
Onderwijsminister Gerrit Bolkestein veranderde (vlak voor WOII) de betekenis van de ‘5’ van ‘juist voldoende’ naar ‘juist onvoldoende’. Het is wel bijzonder dat de wetgever zich in deze mate van detail bemoeit met zoiets subjectiefs als schoolcijfers en hun betekenis.
Gerrit Bolkestein was niet de enige. Marja van Bijsterveldt gaf de examencijfers voor ‘kernvakken’ een bijzondere betekenis, nog nooit eerder vertoond. Daar kwam later nog een oekaze bij dat gemiddelde cijfers voor het schoolexamen niet meer dan een half punt mogen afwijken van die voor het centraal eindexamen. Bizar. Het idee achter dit soort ingrepen is wel duidelijk: ‘de lat moet omhoog’. Maar dat doe je niet door de betekenis van cijfers te veranderen: dat heeft een kortstondig effect, daarna is het oude evenwicht snel weer hersteld.
Dergelijke maatregelen van de wetgever hebben dus geen positief effect op onderwijsresultaten, maar ze maken het leven voor iedereen wel een stuk moeilijker. Met cijfers kan er dus behoorlijk worden gerotzooid. Afijn, ik dwaal af.
We hebben dus onderwijswetten die vastleggen dat cijfers in twee kwaliteiten komen: voldoende cijfers, en onvoldoende cijfers. Er zijn er die geen scherpe grens willen trekken, en een 5 ‘twijfelachtig’ noemen, maar na Gerrit Bolkestein is dat dus ‘nipt onvoldoende’.
Het probleem met deze cijferschaal waar een 5 al ‘nipt onvoldoende’ is: er zijn wel heel erg veel gradaties van ‘onvoldoende’. Dat is op zich al gekkigheid genoeg, maar ernstiger is de gewoonte om cijfers niet als ranggetallen te beschouwen, maar als liggend op een ratioschaal. Wat is een ratioschaal: daar is een 10 twee keer zo goed als een vijf. Een 4 is half zo goed als een 8. Waarom doen leraren alsof cijfers ratio-getallen zijn: omdat ze vinden dat cijfers gemiddeld mogen worden, bijvoorbeeld tot rapportcijfers. Nou, vooruit, we kunnen met zijn allen afspreken dat we het zo blijven doen, ook al weten we dat het eigenlijk niet klopt. Daar is toch niets mis mee? Toch wel. Omdat cijfers stug gemiddeld worden, is een stevige onvoldoende een godsoordeel waar je als leerling moeilijk nog overheen komt.
Daarom gooi ik er een stelling in:
het is misdadig om gebruik te maken van het lage deel van de cijferschaal, zeg de cijfers 1 tot en met 3, mogelijk 4. Misdadig, omdat het geestelijke mishandeling van leerlingen is. Het tast direct hun recht op onderwijs aan. Ophouden ermee.
Een ethiek of beroepscode voor beoordelen in het onderwijs zou dit probleem glashelder moeten behandelen. Voor het voortgezet onderwijs is er wel een model voor zo’n code ontwikkeld (1998), wist u dat?
Volgens de meeste overgangs- en examenregelingen moeten zware onvoldoendes ergens worden gecompenseerd door hoge cijfers voor hetzelfde of soms een ander vak. Maar compenseer maar eens een 3! Of een 1 die om duistere redenen is uitgedeeld.
Los van de ellende van absurd lage cijfers, voltrekt zich voortdurend een stille en dus onbegrepen ramp met cijfers in de buurt van de grens tussen voldoende en onvoldoende. Of dat nu op afzonderlijke toetsen is, of voor overgangs- en examenbeslissingen.
Ik heb nog eens 12 jaar schoolrapporten van mij zelf en enkele van mijn echtgenote doorgebladerd. Mijn god Ciska, het lijkt wel of die rapportcijfers door een aantal chaoten zijn uitgedeeld. Waar duidt dat op?
(1) Kennelijk lukt het leerlingen niet om consistent te presteren, ook al zijn rapportcijfers het gemiddelde van enkele of meerdere proefwerken / toetsen / beurten / whatever.
(2) Kennelijk zijn de toetsen te onbetrouwbaar om zelfs bij het middelen van proefwerkcijfers een behoorlijk beeld van de kennis van de leerlingen te geven.
(3) Kennelijk vormen de rapportcijfers eerder momentopnamen, dan dat zij een beeld van de kennis en kunde van de leerlingen geven.
(4) Kennelijk zitten de leraren ook met de handen in het haar, hebben zij het idee dat ze voor hun leerlingen zo ongeveer de hele cijferschaal moeten gebruiken, maar zijn de werkelijke verschillen tussen leerlingen te klein om dat te kunnen verantwoorden.
Zegt u het maar. De willekeur zit over de hele cijferschaal, ook bij de hoge cijfers. Maar voor de meeste leerlingen zijn er voortdurend onzekerheden in de buurt van de grens voldoende-onvoldoende. Wat doen we onze leerlingen aan met die permanente selectieve druk?
A.D. de Groot had moeite met die grens voldoende/onvoldoende, want hij zag ook wel in dat er geen inhoudelijke argumenten zijn om op puntjes verschil ofwel een voldoende uit te delen, ofwel een onvoldoende. In methodologie-jargon: beslissingen rond die grens zijn niet valide.
Je zou ook kunnen zeggen: leerlingen kunnen zich niet doeltreffend op toetsen voorbereiden (De Groot, 1970) wanneer zij met een goede voorbereiding toch een stevig risico op een onvoldoende hebben. En zo is het.
Er is wel een cynische oplossing voor het door De Groot gesignaleerde probleem. Die oplossing ziet het vijven en zessen als een onvermijdelijk probleem (maar dat is het natuurlijk niet), en waarschuwt leerlingen dat ze in hun onderwijsloopbaan vaak onvoldoendes zullen scoren.
It’s part of the game. Leraren kunnen proberen de schade te beperken, door zo transparant mogelijk te zijn. Een voorbeeld van een waarschuwende aanpak is het projekt ‘Schriftelijke raad ex art. 24bis’ bij Rechten aan de UvA, eind 80er jaren. Zie bv.
In deze beschouwingen gaat het voortdurend om de mogelijke gevolgen die toetsresultaten hebben. ‘Meten is weten’ als ‘one liner’ voor toetsen schiet hier dus schromelijk tekort. Het ‘meten’ moet de beslissingen die erop volgen, kunnen dragen. In beginsel is dat een empirische kwestie: het moet worden onderzocht. Het is niet dat leraren daar voortdurend mee bezig moeten zijn, maar laten we met zijn allen wat meer ‘evidence informed’ gaan werken. Ook al is dat verre van eenvoudig, want voor het laten overdoen van toetsen, tentamens, klassen, en examens is zelfs een theoretische onderbouwing vaak ver te zoeken, laat staan een empirisch getoetste. Een besliskundige aanpak van deze ‘overdoen’-problemen heb ik in 1980 geschetst in het Tijdschrift voor Onderwijsresearch. Voor de liefhebbers:
‘Optimale Criterium-Gerefereerde Grensscores zijn Eenvoudig te Vinden’ benwilbrink.nl/publicaties/80… en ‘Enkele Radicale Oplossingen voor Criterium-Gerefereerde Grensscores’ benwilbrink.nl/publicaties/80… De titels heb ik zelf bedacht, mogelijk beloven ze meer dan ik heb waargemaakt, haha.
Ik ga deze draad afsluiten met deze stelling, ontleend aan werk van James Coleman:
Heel dat cijfergeven speelt zich af als een stilzwijgende onderhandeling tussen de twee betrokken partijen, de leerlingen en hun leraren.
‘Vijven en zessen’ in een toetsbaar wiskundig model.
De grondgedachte is tamelijk simpel. Leerlingen investeren hun tijd in voorbereiding op de toets, en krijgen daar cijfers voor terug. Leraren hebben cijfers om uit te delen, en krijgen daarvoor de tijd die leerlingen aan de voorbereiding willen besteden. Capito? Lees het 2x.
Er zit dynamiek in. Het is armpje drukken tussen leerlingen en leraren. Vanwege die dynamiek zijn de gewone sociaal-wetenschappelijke technieken van data-analyse niet bruikbaar. James Coleman biedt in zijn (1990) ‘Foundations of social theory’ een klasse wiskundige modellen die onze ‘onderhandeling’ aankunnen. hup.harvard.edu/catalog.php?is… Welke gegevens zijn er nodig om dit te kunnen onderzoeken? Ha, die zijn we eerder al tegengekomen: bij de leerlingen zijn dat hun voorkennis, streefniveau (welk cijfer mik je op?), tijdbesteding en behaalde cijfers.
De leraren hebben die cijfers uitgegeven, hebben de toetsen afgenomen, en waren verantwoordelijk voor de relevante omstandigheden bij de voorbereiding op de toetsen (transparantie, De Groot 1970). In het meerjarig project ‘schriftelijke raad ex art. 24bis’ bij Rechten UvA zijn precies die data verzameld. Ik heb het passende wiskundig model van James Coleman erop kunnen toepassen. Zie het paper uit 1992 ‘The first year examination as negotiation’ benwilbrink.nl/publicaties/92… De gelegenheid heeft mij ontbroken dit onderzoek behoorlijk te publiceren.
Dat is jammer, want het onderzoek heeft inderdaad laten zien dat de twee betrokken partijen elkaar stevig in de houdgreep hebben. De suggestie die hiervan uitgaat is dat het verdraaid lastig zal zijn voor een van de partijen, zeg dat het de leraren zijn, om de ban te breken.
Onze schoolse toetscultuur is ijzersterk geworteld in een overigens door weinigen begrepen traditie van ‘zo doen we dingen altijd al’. Ik hoop dat maar dat baanbrekend werk zoals van James Coleman inzicht in die tradities kan geven. Ik heb aan dit conferentie-paper ook een korte briefwisseling met James Coleman gehangen.
Ik weet niet of ik met deze korte aantekeningen over die onderhandeling tussen leerlingen en leraren mijn gevoel over heb kunnen brengen dat hier alles zo’n beetje samenkomt wat in het voorgaande is behandeld over het tekort van de slogan ‘meten is weten’. Ook de didakometrie waar Van Naerssen voor pleitte, vindt hier een natuurlijke plaats. Die didakometrie kiest allereerst het standpunt en ook het belang van de leerling die zich voorbereidt op toetsen. De leraar die deze positie van de leerlingen goed begrijpt, is dan ook in de positie de omstandigheden voor de leerlingen doeltreffend te optimaliseren. Dat klinkt manipulatief, maar het is onderwijs hè! Het gaat om het overbrengen van kennis. Leerlingen moeten die kennis consolideren. Dat is de opdracht.
Het eind van de Twitter-draad. Ik zal nog wat schaven aan de tekst, hier en daar iets verhelderen. Het is een draad die een groot deel van mijn werk in onderling verband zet. Vandaar ook de onbescheiden mate waarin ik naar eigen werk heb verwezen. Het is maar voor een bescheiden deel echt mijn werk, ik sta vooral op de schouders van reuzen. En dat wist u al.
Toegankelijkheid van studies met een capaciteitsfixus. Wat is het probleem, welke oplossingen zijn er, wat zijn hun voor- en nadelen? Ik ga er nog weer eens grondig mee aan de slag, en hecht eraan om dat werkendeweg op Twitter te doen. Reageer gerust, graag zelfs.
Ik wil proberen de analyse geleidelijk op te bouwen vanuit globale schetsen deze in steeds fijner detail verder uitwerken. De eerste zin in de vorige tweet is globaal niveau 0.0 zeg maar. Zonder goede probleemanalyse blijven passende oplossingen buiten bereik.
Ik zal de eerste slagen maken op basis van mijn kennis van zaken, en pas in een veel later stadium teruggrijpen op de onderzoekliteratuur, de historische stukken, en wat ik er zelf eerder over heb gepubliceerd (vanaf 1971 is dat). Voor deze volgorde zijn meerdere redenen.
Allereerst wil ik voorkomen dat ik door opstapeling van talloze details uit de enorme berg schrijfsels over deze toegankelijkheid het grote plaatje niet meer kan maken. Maar ik wil ook niet beginnen met de last van hoe in voorgaande decennia tegen het probleem werd aangekeken.
De Nederlandse situatie wat toegankelijkheid van hoger onderwijs betreft, is in hoge mate specifiek. Het is lastig uit te leggen aan wie er niet mee bekend is. Een uitstekende korte introductie geeft Olle ten Cate 2021 in doi.org/10.4300/JGME-D… open access.
Ik wil hier meteen maar erop wijzen dat Rebecca Zwick in haar ‘Who gets in? hup.harvard.edu/catalog.php?is… wel in het kort ingaat op de ‘Dutch lottery’, maar dat doet op basis van onjuiste informatie die haar is verstrekt. Zwick geeft wel een goed beeld van ‘Who gets in’ in de USA.
Het Nederlandse onderwijsstelsel zit best wel bijzonder in elkaar, met onder andere een hiërarchisch geordend voortgezet onderwijs in een stuk of zes stromen. Het is zo gegroeid in de loop van twee eeuwen. Het hoger onderwijs is duaal, met voor specifieke studies vaak zowel een studie op academisch, als op beroepsniveau. Om ingewikkelde toestanden te vermijden, zal ik mij doorgaans beperken tot de toegankelijkheid van het wetenschappelijk onderwijs. Die van het hoger beroepsonderwijs wijkt daar in tal van opzichten toch van af.
Het zal nu al duidelijk zijn dat de toegankelijkheid van het wo mede afhankelijk is van de toegankelijkheid van het voortgezet onderwijs. Het helpt mij enorm dat de Onderwijsraad in 1997 een bundel heeft uitgebracht over die toegankelijkheid, en dat daar het samenvattende hoofdstuk voor mocht schrijven: ‘Meritocratie in perspectief’. Daar heb je het al. benwilbrink.nl/publicaties/97… Die toegankelijkheid van het vo speelt vooral de overgang van basis- naar voortgezet, zie voor deze problematiek vooral Karen Heij https://karenheij.bijzonderboeken.nl
De toegankelijkheid van het wo wordt dus al bij de toelating tot het vo ingeperkt. Dat mogen we bij de discussie over decentrale loting en selectie nooit vergeten. In ons NL stelsel is het zo geregeld dat het eindexamen vwo toelaatbaarheid tot het wo geeft. Er is nog iets met vakkenpakketten, maar dat is een detailkwestie.
Hoe dat zo is gekomen, met die eindexamens? Een aardig inkijkje biedt dit gedenkboek resolver.kb.nl/resolve?urn=MM… pp 142-147. Het is allemaal overheidsbeleid hoor. Universitaire opleidingen hebben dus geen toelatingsexamens of -selectie. Daar hoort onlosmakelijk bij dat universiteiten (en TH’s) en hun studies onderling gelijkwaardig zijn. Dat is een totaal andere situatie dan we in veel buitenlanden, zeker in angelsaksische landen vinden. Universiteiten moeten al die afgestudeerde vwo-leerlingen ook maar zien op te vangen. Of beter: de overheid moet voortdurend de capaciteit van de universiteiten uitbreiden. Dat is wel een probleem hoor, want het aantal studenten groeit en groeit maar, zie Dronkers en mijzelf wat het betekent: benwilbrink.nl/publicaties/93…
Dit capaciteitsprobleem is natuurlijk op te lossen door grotere collegezalen te bouwen, professoren door wetenschappelijke staf te laten ondersteunen, nieuwe universiteiten te stichten of hogescholen te ‘upgraden’ (Eindhoven, Maastricht, Twente, Tilburg, Rotterdam).
Zo was er in 1965 zo’n ernstig capaciteitsprobleem voor geneeskunde, dat een numerus fixus werd voorgesteld. De Tweede Kamer ging daar niet in mee, en dus moest er een nieuwe faculteit geneeskunde worden opgericht: in Rotterdam. Maar ik loop vooruit op mogelijke maatregelen.
Ik moet hierbij aantekenen dat universiteiten en (en hogescholen) in de 60er en 70er jaren niet mochten selecteren-aan-de-poort, terwijl scholen voor beroepsonderwijs dat wel mochten, en ook moesten omdat zij vaak te weinig of veel te weinig capaciteit hadden. Een heel ongelijke situatie dus voor leerlingen die van dat beroepsonderwijs afhankelijk waren voor een vervolgopleiding.
Zie bijv. Coïni, L., J. Kamerbeek, en A. Will (1977). ‘Selectie voor het hoger beroepsonderwijs’. Culemborg: Schoolpers. Geeft voor iedere instelling details over de toelating: aantallen aangemeld en geplaatst; selectiemethode: in volgorde van aanmelding, persoonlijk gesprek, cijfergemiddelde, loting, psychologisch of medisch onderzoek, onderzoek naar geschiktheid/aanleg, op grond van ‘ideaal’ vakkenpakket, info schooldekaan. In Holland anything goes.
In 1972 winnen studenten een rechtszaak tegen wachtlijsten bij geneeskundige studies, en is minister De Brauw gedwongen meteen loting in te voeren als middel om de schaarse plaatsen eerlijk te verdelen. Dit markeert het begin van de numerus fixusellende tot de dag van vandaag.
Op dat moment in 1972 moest het kabinet snel beslissen: verder procederen, of geneeskundeopleidingen dwingen linksom of rechtsom die wachtlijsten (benwilbrink.wordpress.com/2021/03/25/all…) te voorkomen, of een nieuwe faculteit te bouwen, of een combinatie. Hoe dit precies in de besluitvorming
is gelopen, dat weet ik niet, al heb ik wel begrepen dat vanuit de sector er druk is uitgeoefend om een numerus fixus in te stellen. Die extra faculteit was al in oprichting, als ik mij goed herinner: Maastricht. Die zou wel enige, maar niet voldoende verlichting geven.
Het werd dus een numerus fixus. Omdat het zo kort dag was dat de eerstkomende lichting zich niet op iets van een toelatingstoets of op selectie op eindexamencijfers had kunnen voorbereiden, viel de keuze nogal logisch op loten, zeker niet onbekend in onderwijsland op dat moment.
Van belang is op te merken dat er op dat moment dus geen stuwmeer van eerder uitgelote gegadigden was. Wel kwam er meteen een meritocratisch protest op gang, ik heb geen helder beeld meer hoe dat destijds precies ging, maar wie hoge eindcijfers had zou toch niet moeten loten?
De eerste effectieve toelatingsprocedure werd zodoende de fameuze ‘7,5 regeling’: tenminste gemiddeld 7,5 voor je eindlijst dan toelaten zonder loten, anders loten met gelijke kansen. Dan nog alleen voor geneeskunde, toch?
Ik kijk dan toch maar even terug, voor begin 70er jaren, in mijn literatuurbestand benwilbrink.nl/projecten/lote… Ik was echt vergeten dat het dus al jaren borrelde en bruiste met capaciteitsproblemen en incidentele ‘oplossingen’ al dan niet met loten, en via noodwetgeving.
Er werd volop aan meningsvorming gedaan, en analyse van de problematiek van selectie voor wetenschappelijkonderwijs. In een heel onrustig tijdsgewricht, zeker wat de universiteiten betreft. Over mijn bureau lag voorjaar 1969 een brug naar het Maagdenhuis!
Ik schreef in 1971 voor discussie met collega’s uit het land (de Helvoirt conferentie van CRWO) een analyse van de toegankelijkheidsproblematiek bij schaarste aan beschikbare plaatsen benwilbrink.wordpress.com/2021/12/01/all…, sterk leunend op psychologische selectie (Cronbach & Gleser 1956/1965).
Leuk, zo’n foto uit een ver verleden. Maar het was wel ernst met het overvol raken van universiteiten: er was een regeringscommissaris aangesteld om het probleem aan te pakken, K. Posthumus, die dacht dat zonder ingrijpen de hele rijksbegroting naar de universiteiten zou gaan.
Waar was ik. Wie even rondneust in wat in die vroege 70er jaren de kranten schreven aan opinies over loten of selecteren beseft dat een halve eeuw later het opiniërende publiek en zijn kamerleden niet verder zijn gekomen. Nog steeds zijn het vooral cliché’s, gemeenplaatsen.
Ik ben nu even aan het zoeken hoe deze cruciale periode, tot en met de machtigingswet die in 1975 met de gewogen loting het pleit voor enkele decennia zou beslechten, globaal te kenschetsen. De politieke verhoudingen waren met het kabinet Den Uyl (1973-77) veranderd, dat is één.
En dat had direct gevolg voor het debat over toegankelijkheid van het wetenschappelijk onderwijs. Daar was niet Van Kemenade voor verantwoordelijk, maar een scherp van de tongriem gesneden hoogleraar uit Delft, Ger Klein (PvdA). En even scherp van opvattingen: integraal loten.
Van belang is ook dat de woordvoerder van de PvdA in de Kamer een onderwijsonderzoeker was van de UvA, Kees Kolthoff. Klein en Kolthoff kenden elkaar goed uit het bestuur van de PvdA, en zijn radicale factie ‘Nieuw Links’. Kolthoff leidde tot zijn toetreden tot de TK het onderwijsresearchcentrum van de UvA, mijn werkplek ook. Iedere universiteit had zo’n centrum. Zij waren landelijk verenigd in de CRWO, en brachten in 1974 een gezamenlijk standpunt uit over de wenselijkheid van loten bij fixusstudies: benwilbrink.nl/publicaties/74… (ik was mede-auteur).
Dit alles telt op tot een bijzondere politieke constellatie die op dat moment in staat was om loten als instrument voor een eerlijke verdeling van de schaarse studieplaatsen een grote kans te geven, om het zo maar te zeggen. Een dergelijke situatie zou zich in latere jaren niet meer voordoen. Sterker: de PvdA, toch de partij voor emancipatie, zou zich in neoliberale tijden scharen aan de kant van de partij van de hardwerkende student/burger en die vermaledijde loting uiteindelijk de nek omdraaien, ten gunste van meritocratische selectie.
Wat heeft dit politieke krachtenveld er eigenlijk mee te maken, vraagt u zich af. Kijk, over loten of selecteren heeft iedereen die er ook maar iets mee te maken heeft, een sterke mening. Die meningen staan lijnrecht tegenover elkaar, zolang partijen geen compromis sluiten.
En dat compromis kwam er, in 1975. Ger Klein zag zich geconfronteerd met een sterke oppositie die op eindcijfers wilde selecteren, en ging mee met het amendement-Vermaat voor gewogen loting. Kamerbreed aangenomen. De latere PvdA heeft dat compromis tot de grond toe afgebroken.
In de heftige discussies begin 70er jaren speelden 3 groepen psychologen een eigen prominente rol. Dat waren de psychologen die in die tijd de onderwijsresearchcentra bevolkten (Wijnen, Hazewinkel, Cohen-Schotanus), maar dus ook die in vakgroepen methodologie (Hofstee, Mellenbergh, Drenth). En een derde groep bestaande uit De Groot, Wiegersma en De Moor, ook wel aangeduid als de ‘Werkgroep Wiegersma’.
Aan de basis van het denken van deze psychologen ligt de grote onzekerheid bij selectie: onder de afgewezenen bevinden zich velen die de studie met succes zouden hebben afgerond. Discussie gaat dan over: hoeveel zijn dat er dan, en hoe erg is dat? Het springende punt is hier: buiten de psychologie is men niet gewend om bij selectie ook rekening te houden met de belangen en positie van de afgewezen gegadigden.
Waarom moet dat dan wel bij afwijzing voor fixusstudies? Tja, dat hangt ook af vanuit welk belang men redeneert. Wie het belang van het rendement van de eigen opleiding boven alles stelt, heeft er weinig of geen boodschap aan (gaat ook niet altijd op, trouwens). Maar er zijn ook andere belangen in het spel: van de jongelui die verder willen studeren, en uiteraard van de overheid die het allemaal financiert met het oog op de kwaliteit van de samenleving nu en in de toekomst. De discussies tussen de jonge honden in de psychologie en de oude garde in de ‘Werkgroep Wiegersma’ zorgde wel voor grote publiciteit voor vakmatige argumenten over zin en onzin van loting en selectie, of van loting vs. selectie. Er kwam dus in die jaren uit wetenschappelijke kringen veel informatie beschikbaar die het ideologisch gedreven voorstanders van selectie lastig maakte. Kom daar in 2023 eens om! Echt anders.
Mijn indruk is dat begin 70er jaren er minder afstand was tussen wetenschap en politiek in het debat over loten versus selectie dan dat in de neoliberale periode na 1989 het geval was. De 70er jaren meer ‘evidence informed’, de neoliberale tijd beheerst door meritocratie.
Wat hier typisch aan de hand is: ‘het probleem’ van de toegankelijkheid bij fixusstudies wordt oppervlakkig opgelost zoals ‘nieuwelingen’ dat doen. Ook ‘experts’ doen dat, omdat zij vanuit hun expertise op gebied X ‘het probleem’ denken op te lossen. modeling.asu.edu/Projects-Resou…
‘Experts’ pakken problemen op hun terrein aan vanuit de diepere structuur die zij zien. ‘Nieuwelingen’ beginnen meteen met oplossen op basis van oppervlakkige kenmerken. In heel het onderwijs is dat een belangrijk verschil. Hamvraag: wie zijn ‘expert’? https://www.youtube.com/embed/w8aHeYGo0JY
Oppervlakkige kenmerken zijn bijvoorbeeld wat een kamerlid ziet dat ‘gelijke kansen’ bij decentrale loting zijn. Diepere structuur is dat decentrale loting versus selectie een contextueel (wet) probleem is van billijke verdeling van schaarse ondeelbare goederen (studieplekken).
Mijn stuk uit 1971 over selectie was vooral gebaseerd op specifieke expertise in selectiepsychologie (o.a. Cronbach & Gleser journals.uchicago.edu/doi/abs/10.108…), een kokervisie dus. Zo had ik Rawls (1971) ‘A theory of justice’ lemniscaat.nl/boeken/een-the… nog niet gezien.
Ik heb net verklapt dat ‘het probleem’ van toegankelijkheid bij fixusstudies is te kenmerken als een contextueel probleem van billijke verdeling van schaarse ondeelbare goederen (fixus-studieplekken). De context is het Nederlandse onderwijsstelsel en zijn wettelijke basis.
Wat een billijke verdeling is, daar zegt o.a. Rawls het nodige over in zijn ‘A theory of justice’. Maar zijn theorie is niet toegespitst op verdeling van schaarse goederen. Daar bestaat wel een specifieke literatuur over, zoals Elster 1992 Local justice books.google.nl/books?hl=nl&lr…
Maar mijn kenschets schiet ernstig tekort, want we hebben al gezien dat een capaciteitsfixus een gevolg is van politieke keuzen waarbij beschikbare alternatieven het loodje hebben gelegd. Ik ben bang dat het probleem dus op zijn minst in tweeën moet worden gesplitst.
Allereerst is aan de orde de vraag ‘Hoe om te gaan met capaciteitsproblemen in het hoger onderwijs (wo)’. Dat daar in het verleden al eens besluiten over zijn genomen is nog steeds relevant. Op zijn minst is het belangrijk in het oog te houden dat selectie of loting het gevolg
is van eerdere besluiten om sommige capaciteitsproblemen in het wo ‘op te lossen’ door het instellen van een fixus. Gevolgen van die beperking van studieplaatsen in specifieke studies kunnen immers in de loop der jaren gestapeld zijn tot iets onaanvaardbaars. Dat zoeken we uit.
Ook in de vroege 70er jaren werd er al bij herhaling op gewezen dat niet de voorstellen voor loten of selectie schandelijk zijn (want aantasting van de toelaatbaarheid op grond van eindexamens), maar de numerus fixus zelf, een politieke keuze dus, geen natuurramp.
Tot zover deze schets van ‘het probleem’, in historisch perspectief, want dat is echt nodig. Ik ga nadenken over hoed dit op te volgen naar ‘mogelijke oplossingen’, hoewel veel van de mogelijke oplossingen in het voorgaande al terloops zijn aangestipt.
Die vraag werd me nog weer eens opgedrongen bij het lezen van een uitstekende behandeling van de ‘Dutch lottery’ door Conan Boyle in zijn boek dat over (meer) toepassingen van loten in onderwijs handelt. Ook voor NL lezers: open access conallboyle.com/lottery/2010Lo… pp 141-178. Lezen!
Bij mijn weten is het laatste naar volledigheid strevende overzicht van de brede publiekeke discussie over gewogen loting en zijn voor- en nadelen geschreven door Ben Wilbrink in opdracht van ministeriële Cie-Drenth, 1997. Mag ik dat zeggen? Jawel hoor. Hier is de tekst: benwilbrink.nl/publicaties/97… Dit overzicht heeft aan de basis gelegen van de overwegingen van de Commissie. Een belangrijke rol speelde daarbij de inventarisatie van selectiemethoden die écht niet kunnen en die we dus niet moeten willen. Dat maakt ruimte voor debat over waar het wél om moet gaan.
Wat mij dan opvalt is dat het in die oudere discussie gaat over individuele kansen op toelating tot fixusstudies, of die eerlijk zijn, of gelijk. Terwijl het in het kamerdebat van dinsdag jongstleden vooral ook ging over ongelijke behandeling van bepaalde groepen kandidaten. Dat is een accentverschil met oudere discussies. Het inspectierapport dat kort voor de behandeling in de Kamer publiek werd, zette die vorm van kansenongelijkheid nog eens extra stevig neer, want decentrale selectie blijkt bepaalde groepen te bevoordelen. Geen verrassing hoor!
Het NRC-artikel begint krachtig op dit thema: “Kijk even mee in de collegezalen van een opleiding geneeskunde nu. De kans is groot dat de meeste studenten op elkaar lijken. Het leeuwendeel is wit, vrouw, en heeft ouders die tot de 10 procent rijkste Nederlanders behoren.” (Smulders) Dit schetst een beeld van een ernstige misstand, op zijn minst bij selectie voor geneeskundige studies. Dat verrast me niet echt. Het was fijn geweest wanneer kamerleden dat artikel een week geleden hadden kunnen lezen: het zou het debat hebben veranderd.
Iets anders: het NRC-artikel eindigt met het bespreken van enkele promotieonderzoeken. Het moet mij van het hart dat die promotieonderzoeken ons telkens weer op het verkeerde been zetten. Ze zijn perfect overbodig. We hebben alle nodige kennis al heel lang.
U kunt het allemaal terugvinden in de stukken uit de zeventiger jaren. De selectiepsychologie is sinds die tijd echt niet veranderd. Ik vind het langzamerhand een academisch schandaal van jewelste dat telkens weer wordt gesuggereerd dat we de kennis nog niet zouden hebben. Het was trouwens internationaal al een halve eeuw geleden een bekend fenomeen dat veel onderwijsonderzoekers hun loopbaan begonnen waren met een onderzoek naar de voorspellende waarde van schoolcijfers voor succes in een vervolgstudie. Om daarna andere dingen te gaan doen. Haha.
Wat ik nog graag wil uitwerken is het volgende. Voor een sterke discussie is het nodig om een sterk kader te hebben. Zo is ook mijn stuk uit 1997 voor de Cie. Drenth opgezet. Destijds heb ik dat beperkt gehouden tot een selectie-psychologisch kader, als ik mij goed herinner. Vandaag zou dat breder moeten zijn, om een aantal redenen, maar vooral omdat kansenongelijkheid een prominente rol in de huidige discussie speelt. En dat is volkomen terecht. Aan zo’n theoretisch kader moeten we de eis stellen dat het volledig is. In vette kapitalen: VOLLEDIG.
Dat wordt nog knap lastig. Ik geef een paar voorbeelden van wat de bedoeling is.
(1) Universitaire fixusstudies zijn alleen toegankelijk voor wie een vwo-diploma heeft. Dat is een belangrijk verschil met de rest van de wereld, en absoluut essentieel voor een goed begrip van zin en onzin van decentrale selectie. Dat Lianne Mulder verwijst naar hoe buitenlandse universiteiten selecteren (NRC-artikel), is knap irrelevant voor de Nederlandse situatie.
(2) Ons stelsel is wettelijk verankerd, daar kan niet zomaar in worden gerommeld met allerlei praktische oplossingen. Eindexamens vwo geven toelaatbaarheid tot wo. Daar zijn uitzonderingen op door noodsituaties zoals bij geneeskundestudies. Selecteren in plaats van loten is een EXTRA aantasting van de toelaatbaarheid. Voor de rechter zou de afgewezen kandidaat dat kunnen winnen.
(3) Er wordt vaak geredeneerd dat eindcijfers studiesucces voorspellen. Dat zullen ze altijd wel een beetje doen. Een beetje hè! (zie Conall Doyle 152-153).
(4) Belangrijker nog dan die geringe voorspellende waarde is dat eindcijfers op dezelfde manier succes voorspellen in andere studies. Ze voorspellen niet specifiek voor geneeskunde. Dat heeft echt wel consequenties voor argumenten rond decentrale selectie.
(5) Nog in de 60er jaren trokken geneeskundige studies studenten aan met vooral matige prestaties qua eindcijfers en doubleren in het vo. Door het geven van voorrang aan kandidaten met hogere eindcijfers bij de toelating na het instellen van een numerus fixus (capaciteitsfixus, numerus clausus) is de toegankelijkheid van fixusstudies volkomen scheef getrokken ten gunste van leerlingen die op het vo uitblonken. Maar dat heeft wel enorme consequenties, die we eindelijk eens onder ogen moeten gaan zien.
Enzovoort.
Dit zijn onmisbare overwegingen bij een VOLLEDIGE discussie over toelating bij numerus fixus studies. En ze ontbreken in bijna alle stukken, artikelen, proefschriften, die na het advies van de Commissie-Drenth in 1997 zijn verschenen. (literatuurbestand loten: http://www.benwilbrink.nl/projecten/loten_nf.htm; literatuurbestand decentrale selectie: http://www.benwilbrink.nl/projecten/decentraleselectie.htm). Wie op basis van onvolledige analyses besluiten neemt die de toegankelijkheid van onderwijs raken, speelt op onverantwoordelijke wijze met onderwijsrechten.
Er is echt veel kennis nodig voor zo’n volledig overzicht van toegankelijkheid bij fixusstudies. Inclusief grote vragen over nut en noodzaak van het inzetten van een capaciteitsfixus zelf al. Die kennis komt uit meerdere disciplines, haal die experts dan ook bij elkaar. Omdat ik zelf zonder budget — buiten dat van het ABP — moet werken, doe ik het allemaal zelf, en daar zal ik ongetwijfeld fouten bij maken. Ik reken erop daarin gecorrigeerd te worden.
Ik geef een voorbeeld: recht op onderwijs is zowel in het Nederlandse recht geregeld, als in internationale verdragen voor de rechten van het kind. In mijn professionele leven aan de UvA mocht ik Guda Oly (docent rechten in de economische faculteit) ontmoeten, die mij heeft meegegeven dat internationaal recht gaat boven nationaal recht. Dat is een belangrijk gegeven, want wat onze overheid ook mag bedenken aan anti-wetenschappelijke wetgeving over decentrale selectie, als ik aannemelijk kan maken dat die wetgeving in strijd is met recht op hoger onderwijs voor wie daar de capaciteiten voor heeft (internationaal verdrag, door Nederland onderschreven), dan heb ik een belangrijk punt. Nietwaar?
O ja, over die capaciteiten. Uit onderzoek dat de Cie-Drenth in 1997 had laten verrichten. bleek dat van de kandidaten met de laagste eindexamencijfers altijd nog zo’n 70 % de studie met succes afmaakte (tegen zo’n 90% voor de hoogst scorende kandidaten). Ook het CvB van de universiteit van Leiden moest na onderzoek bij twee studies naar de mogelijkheid van selectie-aan-de-poort toegeven dat zo’n selectie voor alle betrokkenen een verliesgevende zaak zou zijn. (Dato de Gruyter e.a.; begeleidingscie. voorzitter Wim van der Linden; voor rechten: https://scholarlypublications.universiteitleiden.nl/handle/1887/7811; en voor geschiedenis en psychologie: https://scholarlypublications.universiteitleiden.nl/handle/1887/7810).
Dat een volledige analyse multi-disciplinair moet zijn, heeft ook gevolgen voor de mogelijkheid van zinvol debat. Immers, wanneer men een sterk standpunt (‘het domme lot’) (‘de best presterende verdienen toelating) inneemt op basis van een beperkt zicht op toegankelijkheid, dan praten de debaters langs elkaar heen. Ik heb dat zelf bij herhaling ondervonden in de laatste halve eeuw, om de eenvoudige reden dat voor een volledige analyse een heel boekwerk wel het minst, en er voor een paper of artikel een keuze gemaakt moet worden. Maar zo’n keuze laat een gat in de verdediging vallen, om het zo maar uit te drukken, waar allerlei partijen via allerlei media in duiken. Dat gebeurde in sterke mate na (mijn) publicaties in 1974, vooral in NRC’s Cultureel Supplement (prof. Bakker kreeg 1000 brieven: zie https://benwilbrink.wordpress.com/2021/03/05/alle-geslaagden-zijn-geschikt-bakker-honderden-reacties/)
Ik wil het hier toch maar bij laten. Ik zal de tekst hier en daar nog wel verbeteren of iets aanvullen. Wat zal het vervolg zijn? Ik zou graag een schets van zo’n VOLLEDIG theoretisch kader opstellen. Of dat gaat lukken? Dat weet ik nog niet. De ervaring leert dat aantekeningen binnen de kortste keren aangroeien tot onoverzichtelijke teksten. De uitdaging wordt om zoveel mogelijk weg te laten, en toch volledig te zijn. Dat klinkt tegenstrijdig, en dat is het ook wel een beetje.
Decentrale loting. Citaat uit 2020, Frank Ankersmit.
“Het valt niet te verkopen dat een toekomstige student met hoge cijfers en een goede motivatie wordt afgewezen omdat hij werd uitgeloot, terwijl iemand met lage cijfers die het minder graag wil door dom geluk wel wordt toegelaten.”
Met volledige titulatuur in de krant, dus Frank Ankersmit beschouwt dit onderwerp als liggend binnen zijn (vroegere) leeropdracht als hoogleraar? Come on. En dan ook nog demagogisch spreken over dom geluk. Denk eerst even na, voordat je met de pers spreekt. Ik leg het uit.
De emeritus-hoogleraar intellectuele geschiedenis aan de Rijksuniversiteit Groningen — hij schrijft mooie boeken — vindt dat bij een beperkt aantal beschikbare plaatsen deze van boven af vergeven moeten worden aan de kandidaten met de hoogste eindexamencijfers. Lijkt slim, toch?
Ik ga hier niet nog eens alle tegenargumenten opsommen — dat heb ik in de 70er jaren al gedaan, zie mijn website — maar wil even aandacht schenken aan een argument dat minder voor de hand ligt, maar door commissies (1976 Warries; 1997 Drenth) wel is gezien: maak kandidaten niet kansloos. (latere commssies over decentrale selectie, zoals de cie. Sorgdrager, hadden helemaal geen selectie-expertise in de commissie zelf, bizar dus)
In ons NL stelsel geven eindexamens toelaatbaarheid tot hoger onderwijs. Sommige studies hebben een wettelijke numerus clausus, tegenwoordig capaciteitsfixus genoemd, en mogen de schaarse plaatsen verdelen door een eigen selectieprocedure. Daarin spelen eindexamencijfers direct of indirect een rol: met lage eindexamencijfers minder of nauwelijks kans. Toelaatbaar? Dat is bij een fixus dus opzij gezet (daar was ooit een Machtigingswet voor nodig om die onderwijsrechtelijke aantasting mogelijk te maken. Is iedereen dat vergeten?).
Nu bestaat er geen recht op hoger onderwijs in een specifieke richting, laten we zeggen dat dat geneeskunde is. Maar wat wil het geval: niet alleen geneeskunde, ook tandheelkunde en diergeneeskunde hebben een fixus. Dus laat de kokervisie op alleen geneeskunde vallen: voor kandidaten met geneeskundige belangstelling is een belangrijk deel van het hoger afgegrendeld met decentrale toelating tot fixus-studies.
Dan zien we dat bij selectie op eindcijfers bij alle studies met een numerus fixus de kandidaten met lage eindexamencijfers geen schijn van kans maken. Hun eindexamen geeft in feite geen toelaatbaarheid tot een belangrijk deel van het hoger onderwijs. Echt ongelijke kansen.
Dit is mijns inziens, maar ik ben geen jurist hoor, een aantasting van het recht op onderwijs waartoe Nederland zich bij internationale verdragen heeft verplicht: wie daarvoor de capaciteiten heeft, heeft recht op hoger onderwijs.
Nota Bene: internationaal recht gaat boven nationaal recht.
Loten is een instrument dat, ook historisch, vaak wordt ingezet om in lastige beslissituaties knopen door te hakken. Daar is interessante literatuur over, maar dat terzijde. Bij loten voor schaarse studieplaatsen heeft iedereen gelijke kansen, en zijn kandidaten met lagere eindcijfers niet in het nadeel t.o.v. anderen. Recht op hoger onderwijs, de toelaatbaarheid, is weliswaar aangetast, maar niet op een manier die op zichzelf de ene kandidaat minder recht geeft dan de andere. Mooi toch? Wie dat anders ziet, moet aantonen dat die ongelijke rechten toch gerechtvaardigd zijn.
Zo wordt wel gezegd dat kandidaten met hoge eindexamencijfers een moreel recht hebben op voorrang boven anderen. Wie daarvan overtuigd is, moet dan maar een politieke meerderheid zien te behalen, niet? Moreel recht, hoezo? Is er sprake van persoonlijke verdienste (merit)? Dat kunnen we meestal niet weten. Heeft een kandidaat met lage eindexamencijfers minder persoonlijke verdienste, dan? Hoe weet u dat? Ah, dat weten we niet. Maar we kunnen het testen, toch? Nou, nee, dit soort zaken (motivatie) zijn niet valide testbaar. (ovr motivatie zie ook hier beneden de voorbeeld-motivatiebrief van Hofstee)
En dan nog. Al dit gefrut over voorrang voor de ene kandidaat boven de andere tast de wettelijke waarde van het eindexamen aan, het verandert of is in strijd met de wettelijke basis van het onderwijsstelsel.
Concreet betekent het dat iedere regeling die op voorhand een bepaalde groep kandidaten uitsluit bij toelating tot studies met een fixus —zoals het ‘Klaas Visser model’ om 25% laagste uit te sluiten — in een moreel, democratisch, en op zijn minst juridisch mijnenveld loopt. Het Klaas Visser model is door VVD en CDA omarmd in een amendement op het voorstel van wet voor decentrale loting dat op 24 januari plenair is behandeld door de Tweede Kamer; de video van het debat is terug te zien.
Concreet betekent dit betoog, voorzover het moreel en juridisch hout snijdt, dat decentrale selectie zonder loting niet houdbaar is, wanneer het juridisch wordt aangevochten als in strijd met recht op hoger onderwijs zoals dat in internationale verdragen is vastgelegd.
Dan blijft nog de vraag over of een combinatie van loten en selectie wel aanvaardbaar is. De praktijk heeft bewezen dat dat voor de gewogen loting van 1975 inderdaad het geval is, althans wat ons parlement betreft: het was een compromis dat kamerbreed steun kreeg.
Ik ben van mening dat wegen van lotingskansen met andere gegevens zoals eindcijfers maatschappelijk schadelijk, lelijk en oneerlijk is. Maar ja, in de samenleving is meritocratisch denken — ‘ik ben fantastisch en dat is eigen verdienste’ — nog steeds algemeen (in de bovenlaag).
Dom geluk (Ankersmit)? Het bestáát: het gezin waarin je wordt geboren.
Ik moet de bron nog noemen voor dat brisante citaat waarmee ik deze draad begon:
Alexandra van Ditmars (20 februari 2020). Loten én selecteren is beter dan loten alleen. Trouw
Ik moet hier nog iets aan toevoegen, want ik heb in de draad verondersteld dat iedereen wel weet dat internationaal recht (recht op hoger onderwijs voor wie daar de capaciteiten voor heeft) gaat BOVEN nationaal recht (decentrale toelating tot fixus-studies). Bij deze, u weet het.
En er is nog iets inhoudelijks waarvan me opgevallen is dat daar onbegrip over bestaat. Wie vindt dat bijvoorbeeld eindexamencijfers voorspellende waarde hebben voor studiesucces geneeskunde, en daarom voor selectie gebruikt mogen/moeten worden: luister naar deze boodschap:
Als het verdedigbaar is dat eindcijfers voorspellende waarde hebben voor succes in de studie geneeskunde — wat niet zo is, maar dat laat ik hier maar terzijde — dan moet u bedenken dat hetzelfde ook waar is voor andere studies. Die voorspellende waarde is niet specifiek voor geneeskunde. Geldt ook voor lucht- en ruimtevaarttechniek, communicatiewetenschap, psychologie. You name it.
Dit is dus weer hetzelfde punt: decentrale selectie op eindcijfers of andere generieke eigenschappen (intelligentie bijv.) perkt recht op hoger onderwijs generiek in.
Nu zult u wel tegenwerpen: maar een motivatiegesprek, dat is toch wél specifiek voor geneeskunde? Dat geef ik direct toe. Maar waarom denkt u dat een motivatiegesprek of -test een valide selectie-instrument is? Want dat is het dus niet. Het is oneerlijk. Het is te faken.
Ik vind een oude eigen aantekening, en neem die hier over:
In tijden waarin academici nog ruimschoots hun maatschappelijke verantwoordelijk namen, zou tegen al deze onzinnigheid heftig zijn geprotesteerd. Zo niet vandaag de dag. Zelfs psychologen gaan mee met de selectie-gekte. Zo moet de kandidaat die in Groningen psychologie wil gaan studeren, een motivatiebrief schrijven. Maar niet getreurd, jongelui: in de Universiteitskrant van 24 november 2011 heeft Wim Hofstee een keurige voorbeeldbrief gepubliceerd: http://www.uk.rug.nl/archief/jaargang41/13/11b.php Ik ben zo vrij om hem in zijn geheel te citeren, zeg maar om de teloorgang van de psychologie zelf te onderstrepen.
Naar aanleiding van de decentrale selectieprocedure voor psychologie RUG heb ik me afgevraagd wat voor motivatiebrief ik destijds zou hebben geschreven (met de kennis van nu). Van harte aanbevolen als voorbeeldbrief voor aspirant-psychologiestudenten.
Geacht Bestuur Psychologie
Ik heb nog geen seconde nagedacht over wat ik wil gaan studeren; ik heb wel wat anders aan mijn hoofd. Maar nu moet ik wel een ‘motivatiebrief’ schrijven, want ik wil psychologie nog niet uitsluiten. Hoewel, het circus dat u op kosten van de belastingbetaler hebt opgezet, maakt uw opleiding er niet aantrekkelijker op. Dat schijnt ook de bedoeling te zijn, maar zoiets werkt bij mij eerder averechts.
Neemt niet weg dat u ons voor een onmogelijke opgave stelt. ‘Motivatie’ is: wat anderen aan iemand toeschrijven. Zelf ga je daar niet over. Als psychologen zouden jullie dat moeten weten. ‘Ik ben wel/niet gemotiveerd’ is een krom soort lekentaal. Uit elementair wetenschappelijk zelfrespect zouden jullie dat vandaag nog uit je vocabulaire moeten schrappen. U bent waarschijnlijk op zoek naar een motivering: waarom wil ik eventueel psychologie studeren.
Maar dat is pas een echte valkuil. Als iemand naar genoegen de psychologiestudie als een rationele keuze weet te argumenteren, dan zoudt u haar of hem terstond naar economie moeten doorverwijzen, want daar werken ze met dat soort dingen. Voor de psychologie is zo iemand bij voorbaat totaal ongeschikt.
Dus daar trap ik allemaal niet in. Maar van de weeromstuit krijg ik wel steeds meer zin in psychologie. Misschien ben ik op mijn manier wel geïnteresseerd in mensen, meer dan in dingen. Of zo. Niet speciaal in hun gezondheid, welvaart, rechten, of zelfs sociale verbanden; meer in hunzelf, wat dat ook mag wezen. Als ik psychologie ga doen, is dat eerder bij wijze van default option.
Nou, dat is het wel zo’n beetje, veel meer kan ik er niet over zeggen. Ik hoop maar dat u te weinig aanmeldingen krijgt, zodat u dit soort brieven niet eens hoeft te lezen.
Nu zult u vragen, wie was Wim Hofstee? Hij werd in 1969 benoemd tot (zeer jong) hoogleraar psychologie in Groningen, en zette zich sterk in voor de huiskamersport: hoe gaan we schaarse plekken voor geneeskunde eerlijk verdelen. Hij is vooral ook auteur van (1999). ‘Principes van beoordeling. Methodiek en ethiek van selectie, examinering, en evaluatie‘
Voor een leerzaam interview van Vittorio Busato met Wim Hofstee zie de video https://www.youtube.com/watch?v=bKAEQLVfSgw (Het oral history-project van het ADNG: een monument voor de psychologie.)