Een Gordiaanse kluwen van belanghebbende partijen heeft zich sinds de 60er jaren op het toetsen voor, in en na het onderwijs gestort. Onderwijs bezwijkt onder de last, de leerlingen voorop. Stoppen ermee. Dat toetsen heeft geen baten meer, alleen maar torenhoge kosten. Wat denkt u?
Als ik duizend woorden krijg voor een helikoptervisie op beoordelen/toetsen/testen en onderwijs, wat is dan belangrijk genoeg om er zeker in op te nemen?
Ik ga wat proberen, anders komt het er niet van. Toch? Discussie is welkom. Leraren zijn mijn doelgroep.
het handelen van beoordelaars en toetsontwerpers begrensd
Bovenaan mijn lijstje staat dan de vraag ‘Op welke manier zijn er grenzen gesteld aan het handelen van leraren?’ En dan bedoel ik niet de voorschriften van het CvTE bij de centrale eindexamens. Wat hier voor leraren geldt, geldt uiteraard ook voor de Cito’s van het land.
Ik denk dan aan een drieslag, hoewel deze drie niet strict van elkaar zijn te scheiden.
1) integriteit, in de zin van passend/functioneel binnen het onderwijs.
2) het recht, in het bijzonder betreft dat algemene beginselen als ‘fair play’, motivering, evenredigheid.
3) ethiek.
Niet strict van elkaar te scheiden: het recht vraagt dat toetsing integer is; ethiek vraagt dat toetsing integer is en dat het recht is gerespecteerd.
In deze context betekent ‘integer’ niet dat toetsen allereerst aan psychometrische eisen (betrouwbaarheid, validiteit) voldoen, betekent ‘het recht’ niet wat onder onderwijsrecht wordt verstaan (zoals bij Noorlander ‘Recht doen aan leerlingen en ouders’ te vinden), en is ‘ethiek’ misschien een vooral onontgonnen gebied waar bijvoorbeeld @IngridRobeyns onze gids zou kunnen zijn.
Uit deze drie leidende beginselen, laat ik ze zo maar noemen, volgt vrijwel al het andere. Althans, dat is mijn stelling.
Allereerst volgt eruit dat het bij al dat beoordelen of toetsen in de eerste plaats gaat om de individuele leerling die recht heeft op goed onderwijs.
En dat is een geweldig inzicht, omdat vrijwel alles wat er over toetsen en beoordelen in het onderwijs is geschreven en geregeld gaat over groepen leerlingen die toetsen maken en waarover overgangsbeslissingen worden genomen, statistieken berekend, en ga zo maar door.
Eind jaren ’60 gebeurt er iets bijzonders. Adriaan de Groot en Bob van Naerssen pakken ideologisch gedreven uit met een boek (1969) over studietoetsen (= vierkeuzetoetsen). Na de onderdompeling in deze technocratische vorm van toetsen, komt bij beiden een moment van bezinning.
De Groot schrijft in 1970 een artikel waarin hij pleit voor een overkoepelend kwaliteitscriterium voor toetsen: die moeten voor de leerling doeltreffend zijn voor te bereiden. Strategisch dus ook. Van Naerssen geeft daar in zijn inaugurele rede in 1970 een wiskundig model voor.
Beide publicaties maken in feite korte metten met heel het technocratisch apparaat (de psychometrie) dat in één koop vanuit de Verenigde Staten naar ons polderland was gehaald. Beiden nemen de individuele leerling als uitgangspunt bij het ontwerpen van toetsen. Revolutionair. In feite tè revolutionair voor dit land van dominees en kooplieden, want er is nauwelijks aandacht aan besteed.
Voor Bob van Naerssen was een teleurstelling dat zijn tentamenmodel plat was gevallen, en niet tot verder onderzoek en ontwikkeling leidde. Ik was zelf eigenlijk de enige die er wèl mee aan de slag ging (zie mijn website, bijvoorbeeld het SPA-model; op mijn website ook de 1970-publicaties va zowel De Groot als Van Naerssen), maar ook mijn werk kreeg geen belangstelling. ‘It’s all in the game’, in goed Nederlands.
Integer toetsen is een kwestie van kritisch gezond verstand, en afdwingbaar langs de weg van de kwaliteitseis ‘evidence informed’ te werken. Dat beoordelen binnen de grenzen van het recht blijft is in het hoger onderwijs afdwingbaar via beroepsprocedures (CoBEx). Het hoger onderwijs loopt hier sterk voor op het vo en po. Zie Job Cohen 1981 ‘Studierechten’ benwilbrink.nl/projecten/toet…; Henk van Berkel (2017). Juridisch correct examineren. Implicaties van uitspraken door beroepsorganen in het hoger onderwijs. nvexamens.nl/wp-content/upl…
Wie leerlingen beoordeelt, krijgt ook te maken met ethische dilemma’s. Al is het maar het dilemma dat die algemene beginselen van behoorlijk bestuur/onderwijs best wel lastig kunnen zijn in de praktijk van het onderwijs: lap je ze dan aan je laars, of investeer je er juist in?
cijfergeven
‘Vijven en zessen’ van A.D. de Groot sloeg in 1966 in als een bom, maar heeft niet echt geleid tot verbeterde toetsen. Wat weten we nu eigenlijk over dat cijfergeven? Het cijfergeven is vooral een 19e-eeuwse poging om het gangbare rangordenen van leerlingen te ‘objectiveren’. Cijfergeven is nog steeds rangordenen, het is relatief, er zijn geen absolute normen. Leraren hebben buitengewoon sterke tradities/gewoonten bij dat cijfergeven, door Posthumus in De Gids 1940 beschreven dbnl.org/tekst/_gid0011…Zittenblijven/afstromen altijd ca 23%. Dat is gek!
Omdat cijfers relatief zijn, is er strijd met het beginsel van A.D. de Groot dat toetsen doeltreffend moeten zijn voor te bereiden. Immers, het is praktisch onmogelijk voor leerlingen om zich collectief doeltreffend voor te bereiden op iedereen een ‘8’. Laat het even inzinken.
Posthumus heeft laten zien dat leraren kennelijk niet anders kunnen dan telkens een vast percentage onvoldoende te geven, te laten zitten, niet toe te laten.
Maar dat moet betekenen dat leerlingen als collectief evenmin bij machte zijn om dat traditionele patroon te doorbreken.
Wat is er aan de hand met deze toetserij? Want laten we wel wezen, dit fenomeen is compleet in strijd met hoe langs rationele weg selectieprocedures worden ontworpen. Hier is iedere ratio ver te zoeken, behalve de ratio ‘we gaan het niet anders doen dan onze voorouders deden’.
Maar is het louter traditie? Of zijn er ook ‘systemische’ krachten aan het werk die we door die traditie heen niet goed in de peiling hebben? ‘Vijven en zessen’ gaf al iets aan van onderlinge concurrentie van leraren. Zouden leraren misschien ook met leerlingen in concurrentie zijn? Wat denkt u? Socioloog James Coleman hup.harvard.edu/catalog.php?is…presenteerde een model voor zeg maar een ‘stilzwijgende onderhandeling’ tussen leraren en leerlingen. Dat gaat als volgt:
De leraren zetten hun cijfers in, in ruil voor tijdbesteding van hun leerlingen. Tegelijk zetten leerlingen hun tijdbesteding in om goede cijfers van hun leraren te krijgen. Een dynamisch systeem, waarin leraren en leerlingen elkaar in een houdgreep hebben, en geen van beide partijen in staat lijkt de beoordelingstradities te veranderen. Zou dat kunnen?
Ja, dat kan, ik heb het aannemelijk kunnen maken met een dataset voor de propedeuse rechten (UvA, 1992) benwilbrink.nl/publicaties/92…
Maar dit is in het onderwijs geen gezonde situatie hè! Dat cijfergeven, daar moeten we echt van af. En dat moet eenvoudig kunnen, zou je denken. Want tot aan de uitvinding van cijfers als pseudo-gestandaardiseerde vorm van rangordenen in de 19e eeuw deden we het immers zonder. Maar wel met altijd maar weer rangordenen.
rangordenen
Dit moet ik even toelichten. Ooit was bestraffen van dommigheden de gewoonte. Het humanisme verving dat door het belonen van prestaties, bijvoorbeeld in de vorm van een prijsboek voor de ‘beste’ leerlingen. [zie J. Spoelder (2000). Prijsboeken op de Latijnse school] Om dat te kunnen doen, hielden leerlingen een puntentelling van gemaakte fouten bij, op basis waarvan de rangorde van de leerlingen werd bepaald.
Dat rangordenen is voor goed onderwijs niet nodig. Het was een manier om leerlingen te motiveren, maar heeft altijd het bezwaar gehad dat het alleen de beste leerlingen motiveert. Zowel rangordenen als cijfergeven scheppen een eigen, onveilige, schoolwereld—los van inhouden.
Het probleem is nu dat ‘vakmatig beoordelen’ sterk is besmet door de eeuwenlange traditie van rangordenen. Het is dus niet zo, helaas, dat weghalen van het cijfergeven (stop ermee, zegt Dylan Wiliam) voldoende is om een zuiver vakmatige beoordeling over te houden. Want er is een ijzersterke koppeling tussen het ‘vijven en zessen’ van het cijfergeven, en de moeilijkheid van vragen in toetsen en examens. Moeilijkheid die in de buurt van 60% wordt gehouden door ontwikkelaars, of dat nu leraren zelf zijn, of leraren in dienst van bijvoorbeeld Cito. Toetsvragen worden al als extra moeilijk ontworpen om straks een ‘overtuigende’ (ha ha) spreiding van scores te hebben als basis voor cijfers gespreid over heel de cijferschaal van 1 tot 9.
Een opgave wiskunde die 40% van de leerlingen niet goed beantwoorden mag wiskundig gezien helemaal oké zijn, maar in het onderwijs is het van de gekke om in toetsen vragen op te nemen die gemiddeld zo moeilijk zijn. Want dat staat haaks op wat er voor onderwijs nodig is. Zulke moeilijke toetsen belemmeren leerlingen bij het zich doeltreffend voorbereiden (De Groot, 1970); zijn voor de meeste leerlingen demotiverend, zo niet erger; zijn op zich geen goed leermoment; en zijn ook niet optimaal wat het consolideren van kennis betreft.
Ik heb destijds in mijn ‘Toetsvragen schrijven’ (Aula 809, 1983) deze thematiek van gemiddeld te moeilijke vragen over het hoofd gezien. Gemiste kans. Destijds heb ik wel gebruik van de taxonomie van Bloom c.s. ontraden, zoals ook van meerkeuzevragen in het onderwijs. Beschouwingen over betrouwbaarheid, rit- en p-waarden zouden getuigen van een technocratische benadering van het ontwerpen van toetsvragen, en pasten evenmin in dat boek. Die p-waarden staan voor de moeilijkheid van de de vragen, en die had ik juist wèl kritisch moeten behandelen!
backwash
Ik heb nog te weinig aandacht gegeven aan ‘backwash’ effecten. Een paar opmerkingen daarover, ter afsluiting. Dat toetsen en examens enorme invloed hebben op het eraan voorafgaande, dat weet iedereen wel. Toch wordt er zelden naar gehandeld.
Voor Bob van Naerssen stond het vast dat toetsen een sterke hefboom zijn die we op het onderwijs zetten. Ten goede, of ten kwade. Het voorbeeld-bij-uitstek van het kwade is de ‘citotoets’ die in een halve eeuw tijd het basisonderwijs heeft misvormd.
Het is een waarheid als een koe (waar we onze ogen liever voor sluiten) dat alle prestatie-indicatoren, ook toetsen en examens, hun betekenis als indicatoren verliezen zodra er sancties aan worden gekoppeld. Dan gaat iedereen zich strategisch gedragen, hoe schadelijk ook.
We doen het onszelf aan, door toetsen en examens te behandelen als losstaand van het onderwijs, in plaats van als integraal onderdeel van onderwijs, instructie, en leren.
Weten we nu in welke richting we het moeten zoeken, met ons toetsen en examineren? Ja toch?
eerlijk onderwijs – individuele verschillen
Ik heb in dit stuk niet expliciet benoemd dat ongeveer alles gaat over, of te maken heeft met, individuele verschillen tussen leerlingen en hoe we daarmee omgaan. Bij deze. Zie ook het stuk van Wim van den Broeck (maart 2023) https://didactiefonline.nl/blog/blonz/onderwijs-is-een-waarde-op-zich
[Deze tekst is een vingeroefening, en voorbereiding op een kort artikel voor een onderwijstijdschrift, een anker voor vervolgens kortere beschouwingen over sub-thema’s in dat beoordelen. Ik moet dat nog wel even checken door voor een paar onderwerpen na te aan of een inzichtelijke behandeling mogelijk is door op het bovenstaande voort te bouwen / ernaar terug te verwijzen.] [Gebaseerd op een lange twitterdraad https://twitter.com/benwilbrink/status/1633742224708993024, unrolled: https://threadreaderapp.com/thread/1633742224708993024?refresh=1679046860%5D
literatuur
Henk van Berkel (2019). Juridisch correct examineren. Een studie naar uitspraken van beroepscolleges in het hoger onderwijs. Proefschrift. (Embargo ends: 27/11/24) (presentatie 2017: https://www.nvexamens.nl/wp-content/uploads/2017/12/Henk-van-Berkel.pdf)
Wim van den Broeck (maart 2023) Onderwijs is een waarde op zich. Didactief. https://didactiefonline.nl/blog/blonz/onderwijs-is-een-waarde-op-zich [position paper Tweede Kamer]
M. Job Cohen (1981). Studierechten in het wetenschappelijk onderwijs. Proefschrift. http://www.benwilbrink.nl/projecten/toetsvragen.8.htm#Cohen_1981
James H. Coleman (1990). Foundations of social theory. Harvard University Press. https://www.hup.harvard.edu/catalog.php?isbn=9780674312265
David Didau (2023). When retrieval practice goes wrong (and how to get it right). Blog. [Over wenselijke moeilijkheid van toetsvragen] https://learningspy.co.uk/english-gcse/when-retrieval-practice-goes-wrong-and-how-to-get-it-right/
A. D. Groot (1966). Vijven en zessen. Cijfers en beslissingen: het selectieproces in ons onderwijs. J. B. Wolters. https://archive.org/details/vijvenenzessenci0000groo
A. D. de Groot (1970). Some badly needed non-statistical concepts in applied psychometrics. Nederlands Tijdschrift voor de Psychologie https://benwilbrink.nl/publicaties/70degroot.htm
Adriaan D. de Groot & Robert F. van Naerssen (Red.) (1969). Studietoetsen construeren, afnemen, analyseren. Mouton. [een beschouwing https://benwilbrink.nl/projecten/////studietoetsen_40_jaar.htm%5D
W. K. B. Hofstee (1999). Principes van beoordeling. Methodiek en ethiek van selectie, examinering, en evaluatie. Swets & Zeitlinger [bespeking: https://pedagogischestudien.nl/search?text=Principes+van+beoordeling.+Methodiek+en+ethiek+van+selectie%2C+examinering%2C+en+evaluatie ]
Sharon L. Nichols and David C. Berliner (2005). The Inevitable Corruption of Indicators and Educators Through High-Stakes Testing. Education Policy Studies Laboratory, Arizona State University https://files.eric.ed.gov/fulltext/ED508483.pdf
K. Posthumus (1940). Middelbaar onderwijs en schifting. De Gids. https://www.dbnl.org/tekst/_gid001194001_01/_gid001194001_01_0040.php
L. M. C. M. Cremers-van Wees, J. W. M. Knuver, H. J. Vos, & W. J. M. Van der Linden (1998). Model gedragscode toetsen, beoordelen en beslissen in het voortgezet onderwijs. Enschede: OCTO. isbn 9036510899. http://www.benwilbrink.nl/Model_gedragscode_toetsen_beoordelen_en_beslissen_in_het_voortgezet_onderwijs.pdf
Ben Wilbrink (1983). Toetsvragen schrijven. Het Spectrum, Aula 809. http://www.benwilbrink.nl/publicaties/83ToetsvragenAula.pdf, in bewerking: http://www.benwilbrink.nl/projecten/toetsvragen.1.htm
Ben Wilbrink (1986). Toetsen en testen in het onderwijs.In S.V.O. Jaarverslag/Jaarboek 1985, 275-288. https://benwilbrink.nl/publicaties/86ToetsenEnTestenSVO.htm
Ben Wilbrink (1992). The first year examination as negotiation; An application of Coleman’s (1990) social system theory to law education data. ECER, Twente. https://benwilbrink.nl/publicaties/92ColemanApplicationECER.htm
Ben Wilbrink (1997). Assessment in historical perspective. Studies in Educational Evaluation, 1997, 23, 31-48. https://benwilbrink.nl/publicaties/97AssessmentStEE.htm