Wiskunde van examens. Jazeker!

Geweldig september-nummer van Nieuw Archief voor Wiskunde. Thema: Wiskunde en de sociale wetenschappen. Bijdragen van o.a. Casper Albers, Bernard Veldkamp, Denny Borsboom.
Het artikel van Veldkamp heeft een veelzeggende titel, ik mag toch aannemen dat hij van de auteur zelf is:
Het wiskundig fundament van toetsen en examens.
Daar kunnen we ook zonder het artikel zelf gezien te hebben best eens een pittige discussie over voeren. Nietwaar?
Ondertussen is de website van het Nieuw Archief geactualiseerd, en zijn de artikelen van Veldkamp en Albers vrij toegankelijk: website

Een ‘wiskundig fundament van examens’ lijkt me een misvatting van wat wiskunde is, en van wat examens zijn.

Is van Newton’s natuurkunde te zeggen dat die een ‘wiskundig fundament’ heeft? Dat lijkt me een omkering van zaken. Hij had er wiskunde voor nodig, en ontwikkelde die.

Tja, hoe noemde hij zijn hoofdwerk: ‘The Mathematical Principles of Natural Philosophy’. Daar heb je het al. Hij maakte met die titel reclame voor zijn natuurkunde. Vele wetenschappers traden in zijn voetsporen. 😉 Guicciardini over Newton en wiskunde:

Wiskunde is wetenschap zonder direct verband met de wereld. Andere wetenschappen zijn op een zoektocht naar wetmatigheden in de wereld, en waar die er zijn loont het de moeite om ze af te beelden in een wiskunde. Dat ‘afbeelden’ is best lastig, en is op zich geen wiskunde.

Er is op voorhand niets vanzelfsprekend bij het gebruik van wiskunde in verband met toetsen en examens. En wiskunde als fundament is al helemaal een natte droom van psychometrici.

Goede vraag is dan: wat is dan wel het fundament voor toetsen en examens? Het recht? Hm, ja.

Welk recht? Dan gaat het vooral om wat wij met zijn allen, dus ook leerlingen en studenten, als rechtvaardig ervaren: ongeschreven algemene beginselen van behoorlijk bestuur. Ik leerde dat 1976 van Peter Nicolai: de toetsende docent moet binnen de grenzen van het recht blijven.

In 1977 uitgewerkt in hfdst 6 van Cesuurbepaling, opgepakt door Job Cohen en doorontwikkeld tot algemene beginselen van behoorlijk onderwijs in zijn proefschrift ‘Studierechten’, nog steeds hèt handboek: scans van hele boek Vervolg: v Berkel https://www.nvexamens.nl/wp-content/uploads/2017/12/Henk-van-Berkel.pdf

Ook A. D. de Groot had in 1970 de intuïtieve gedachte dat toetsen en examineren voor alles billijk moet zijn (en pas daarna ook valide): artikel

Ook in 1970 liet Van Naerssen zien dat die billijkheid is af te beelden in een wiskunde. Yep. rede

Niets van dit alles is terug te vinden bij Veldkamp. Dat was ook niet zijn doel, zo valt tegen te werpen. Klopt, het gaat hem om de wiskunde die bv. het Cito inzet. Maar ik wil weten of die wiskunde-toepassing spoort met mijn en uw rechtsgevoel. En ik ben niet de enige, hoop ik.

Als examens niet deugen, op de meetlat van ons rechtsgevoel, dan gaat de wiskundige behandeling ervan dat probleem niet oplossen: dan wordt het ‘garbage in, garbage out’.

Wat ook zomaar kan: dat deze wiskundige behandeling van een deugdelijk examen een ondeugdelijk examen maakt.

Even terug naar De Groot, 1970. De kern van zijn betoog is dat billijkheid vereist dat een toets of examen doeltreffend is voor te bereiden. Daar is geen woord Spaans bij. Er moet op beheersing van de stof worden getoetst, NIET OP INTELLIGENTIE. Ik noem maar een kleinigheidje.

Doeltreffend voorbereiden, wat houdt dat precies in? Ha, daar gaf collega Van Naerssen, 1970, een model voor. De kandidaat moet een goede voorspelling voor zijn toets kunnen doen, bv. op grond van een proeftoets. Zie voor later wis/besliskundig model: projectpagina

De Groot en Van Naerssen raken de kern van waar het bij examens om gaat: hoe kandidaten zich erop voor (kunnen) bereiden. Dat is ook wat de aanhoudende zorg van de overheid voor het onderwijs is. De psychometrie als ‘wiskundige fundament’ daarvoor is een ernstige misvatting.

Dat zit zo. De psychometrie is het wiskundig apparaat voor psychologische TESTS. De vooronderstelling bij tests is nu juist dat niemand zich daar doeltreffend op heeft kunnen voorbereiden! TOETSEN en examens veronderstellen die voorbereiding wel. Zie hoofdstuk

Dat is toch opmerkelijk, niet? Dat de wiskundige modellen van Veldkamp’s psychometrie vooronderstellen dat er geen doeltreffende voorbereiding op examens mogelijk is.

Examens zijn dan ook rare dingen, voor wie meent dat ze verschillen tussen studenten in beheersing meten.

Verschillen in examenresultaten ontstaan door verschillen in achtergrond, in streefniveau, en in tijdbesteding in de aanloop naar het examen. (En door toeval bij het examen) Afgebeeld in een wiskunde: een volledig recursief modelletje maakt het duidelijk paper

Allemaal goed en wel, Wilbrink, maar dit hele verhaal is nogal abstract, waar gáát het over?

Ik geef een voorbeeld waarin heel dit theoretisch kader (zo mag het wel genoemd) aan de orde is, direct tegenover het wiskundig geweld van Veldkamp/Cito: het fiasco #rekentoets

De rekentoets was een beoogd extra onderdeel van de eindexamens vo en mbo. Helaas, de wal keerde dit schip, na jarenlange pogingen de aanvaring te voorkomen: hij is nu definitief afgeschaft. Kosten: een half miljard, veel verdriet van leerlingen, zeeën van tijd van politici.

Hoofdaannemer: het CvTE. Onderaannemer: het Cito. Taakopvatting van het Cito, bij monde van zijn CEO Marten Roorda: u moet goed begrijpen, wij voeren slechts de opdracht van het CvTE uit, dus als de kwaliteit niet deugt, moet u niet bij het Cito zijn

Kern van het probleem bij deze rekentoets, door geen enkele partij aan de kant van ontwikkeling en uitvoering benoemd of erkend: op deze rekentoets als examenonderdeel konden leerlingen zich niet DOELTREFFEND voorbereiden. Dat kon geen enkele commissie signaleren of repareren.

De reden is voor een psycholoog uit de cognitieve of testpsychologische hoek evident: die rekentoets toetst op verschillen in intellectuele capaciteiten, pas daarna ook nog op rekenvaardigheid: Wilbrink & Kirschner Verschillen tussen bijv. havo en vwo bleken onoverbrugbaar.

Onderaannemer Cito zat er van begin af aan met de neus bovenop, maar met al zijn geavanceerde wiskundige modellen kwam er uit de mond van de leiding van het Cito, op de vraag van een staatssecretaris in nood, alleen maar een loze bevestiging dat de rekentoets echt wel valide was.

Validiteit is een technisch begrip, het betekent zoveel als: een valide toets is een toets die deugt. Maar die rekentoets deugde evident niet. Zeker, resultaten werden door de jaren heen iets beter, maar dat was omdat de toets makkelijker werd gemaakt. Een 4 was ook voldoende.

Garbage in, garbage out. Het Cito en de politiek werden al vroeg gewaarschuwd voor de ellende die ze te wachten stond: rekenblog

Het Cito hield vol, op basis van eigen berekeningen, dat de rekentoets geen slachtoffers zou maken: artikel

Heel Nederland weet ondertussen dat er zoveel slachtoffers zouden gaan vallen, ook ondanks pogingen van twee commissies om de zaak nog ten goede te keren, dat de bewindspersonen niet anders meer konden doen dan een dikke streep door de rekentoets te halen. #parlementair_onderzoek

Het is niet alleen dat de wiskundige modellen van Veldkamp/Cito garbage in – garbage out mogelijk maakten.
Het denken in termen van deze modellen is op zich ook een niet onbelangrijke oorzaak van het rekentoets-fiasco geweest. Die modellen hebben individuele VERSCHILLEN nodig.

De toetsen en examens van het Cito zijn altijd op jacht naar VERSCHILLEN tussen leerlingen. Dat is een ideologie, geen wetenschap.
Ik heb begrepen dat het Cito in een vroeg stadium heeft geprobeerd voor de rekentoets alleen pass-fail er door te krijgen, maar OCW was tegen.

Het is bizar, maar De Groot en Van Naerssen wiens publicaties in 1970 ik hierboven de hemel in heb geprezen, brachten in 1969 een boek over studietoetsen uit waar de VERSCHILLEN-ideologie vanaf druipt. Meerkeuzetoets-propaganda, waar het NL onderwijs nog steeds last van heeft.

Ik noem het een ideologie, want het gaat hier niet om een politieke keuze die democratisch is verantwoord. Een andere politieke keuze (landelijk, of op schoolniveau) kan zijn: we benadrukken dat iedere leerling op hoog niveau kan presteren, 2-sigma:
https://benwilbrink.wordpress.com/2018/09/

Bij zoiets simpels als een rekentoets in eindexamens vo moet het toch zo zijn dat alle kandidaten daar gelijk hoog op gaan scoren. Het gaat om rekenen op niveau niet veel hoger dan groep 8.
Fun fact: Als dat zou lukken is de klassieke betrouwbaarheid van de rekentoets nul!

Dat zou prachtig zijn, maar de wiskundige modellen van Veldkamp zouden crashen. Of zoiets.

Maar zo was niet. Er speelde immers nóg een ideologie mee: het realistisch rekenen waarmee ons onderwijs is opgezadeld. Nepwetenschap die leidde tot toetsen op intelligentie.

Ik begrijp dat Hans van Luit in zijn afscheidsrede (6 september jl) harde noten over dat realistisch rekenen heeft gekraakt. Komt zijn rede hier beschikbaar? rede

Wat vinden specialisten bij het Cito die met deze wiskundige modellen werken van de verschillen in opvattingen over het rekenonderwijs? Vraag dat aan een directeur, en krijg dan als antwoord: daar gaan wij niet over, daar mengen we ons niet in. Maar zo kan het dus niet langer.

=======

Deze blog is de weergave van deze Twitterdraad.

Advertisement

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s