Wat test een eindtoets basisonderwijs?

Deze blog is de neerslag van een uitvoerige twitterdraad, gestart met bovenstaande enquête https://twitter.com/benwilbrink/status/1701166240931144146

Na 125 deelnemers tekent zich een interessante verdeling af. Ik moet me maar eens gaan voorbereiden op een snuggere duiding van een en ander. Ga ondertussen door met beantwoorden van deze eenvoudige eindtoetsvraag.  (Het is niet gezegd dat er maar één antwoord goed is … )

Oké, de uitslag is duidelijk. De vraag was dubbelzinnig, maar dat geeft niet. Toch? 

leeftijd 7,5%

Ik begin met de 7,5% ‘leeftijd’. En wel hierom: leeftijd is ondubbelzinnig vast te stellen. De analyse van leeftijds-bias/scheefheid laat ook zien hoe andere vormen van bias te analyseren.

Tot het kenmerk ‘leeftijd’ hoort niet alleen het aantal maanden dat de leerling oud is, maar ook de geboortemaand. Klaas Doornbos (1971) deed er zijn promotieonderzoek over, maar die tekst is digitaal niet beschikbaar. Afijn, lees en verbaas u:

Michiel de Hoog (2015). Elk jaar gaan duizenden kinderen naar de verkeerde school vanwege hun geboortemaand. De Correspondent. Uitstekend geïnformeerd, ik ben er heel blij mee. https://decorrespondent.nl/2773/elk-jaar-gaan-duizenden-kinderen-naar-de-verkeerde-school-vanwege-hun-geboortemaand/1ed4233a-6795-02c4-3d3d-b5f983aab48c

Een aardig artikel over geboortemaand-effecten in de sport is natuurlijk dat van Ad Dudink (2010). Geboortemaand telt. De Psycholoog, 45, 40-45. https://www.yumpu.com/nl/document/view/37341403/dudink-a-2010-geboortemaand-telt-de-psycholoog-45-1-40-45/6

Het vermoeden rijst dat geboortemaand en leeftijd echt belangrijk verschil maakt, en dat daar ongetwijfeld eenuitgebreide onderzoekliteratuur over bestaat. Dat klopt. Ik heb daar in de loop van de jaren een uitvoerig bestand over aangelegd. Deze ochtend heb ik eraan besteed digitale vindplaatsen toe te voegen aan die literatuur. Bekijk eens enkele artikelen: http://www.benwilbrink.nl/literature/geboortemaand.htm

De bijgevoegde figuur uit het artikel van Michiel de Hoog laat goed zien wat er aan de hand is: de geboortemaand bepaalt mee wie naar welk voortgezet onderwijs gaat. Dat heet (indirecte) discriminatie op geboortemaand.

Of dat komt door de scores op een eindtoets, of door wat er in jarenlang onderwijs aan de eindtoets is voorafgegaan, dat maakt voor deze ellende geen wezenlijk verschil. Een eindtoets die leeftijdsdiscriminatie bevestigt, deugt niet, is althans op zijn minst dus niet objectief.

Bij een niet discriminerende eindtoets moet geboortemaand geen ‘storende variabele’ zijn. De scores moeten dus op een of andere wijze worden ‘gecorrigeerd’ voor geboortemaand-effecten. Het lastige is hier dat die discriminerende effecten in het onderwijs zijn ontstaan, niet bij de toetsafname.  Correctie is niet meer mogelijk, het leed is geschied.

opleidingsniveau ouders 25%

Over opleidingsniveau van de ouders hoeven we niet moeilijk te doen, het CBS brengt het keurig in kaart. Bron: 

Op basis van het toetsadvies is aardig te ‘voorspellen’ (gissen) wat het opleidingsniveau van de ouders is. De eindtoets ‘meet’ dat dus ook.  https://ocwincijfers.nl/sectoren/primair-onderwijs/leerlingen/prestaties-eindtoets

‘Meten’ betekent immers zoiets als informatie halen. 

Nu zijn er 2 extreme situaties denkbaar, met gradaties ertussen: 

1) sociaal-economische status (SES) van de ouders heeft impact op onderwijsprestaties (nurture), of

2) de ongelijkheid heeft genetische oorzaken (nature).

Zoals de grafiek laat zien, gaat het om grote effecten. 

Het is wel een dingetje hoor. De kernvraag is hier: is het basisonderwijs wel eerlijk geweest voor alle leerlingen? Kan eerlijk onderwijs resulteren in toetsadviezen die sterk verschillen naar opleidingsniveau van ouders?

Als het antwoord daarop ‘nee’ is, dan is de eindtoets, dan zijn de toetsadviezen ook oneerlijk. Zou het antwoord ‘ja’ kunnen zijn? Ja, als het onderwijs aanvankelijk bestaande verschillen heeft verkleind. Maar zou dat goed genoeg zijn?

Waarom accepteren we als vanzelfsprekend dat er in het basisonderwijs überhaupt verschillen in prestaties tussen leerlingen zijn? Moet de basis niet voor alle leerlingen in wezen gelijk zijn? Kennen we onderwijs dat op die gedachte is gebaseerd?

E. D. Hirsch, Jr. (2020). How to educate a citizen

Hirsch noemt die basis ‘Core Knowledge’, zo’n 1000 basisscholen in de VS werken ermee. Afijn, dit terzijde. 

Basisonderwijs dat alle leerlingen meeneemt naar eenzelfde hoog niveau, dat maakt een eindtoets wel knap lastig hè!

We weten toch dat vrijwel ALLE leerlingen op hoog niveau kunnen leren rekenen, lezen en schrijven. Peter Langerak vertelde Tjip de Jong (podcast) dat ze dat in Engeland ook DOEN. https://tjipcast.nl/lesgeven/wat-is-er-in-nederland-met-ons-rekenonderwijs-aan-de-hand/

Afijn, ik moet de eerste alternatieven nog bespreken, ik heb daar een hele tijd over zitten dubben. In het kort dan:

Dat een eindtoets kennis zou moeten meten, ligt voor de hand. Maar wacht even, dan zou het een eindexamen basisonderwijs zijn, en dat is nou net niet de bedoeling. Ik kom op kennis later nog terug. 

intelligentie/talent 22%

Ooit stond Alfred Binet voor hetzelfde probleem:

hoe is het mogelijk om leerlingen die het gewone onderwijs niet echt behoorlijk kunnen volgen, vroegtijdig te signaleren zodat ze speciaal onderwijs aangeboden kunnen krijgen, en een drama door vastlopen in dat gewone onderwijs is te vermijden? We weten toch hoe dat is afgelopen.

Ik vind het enorm belangrijk dat de geschiedenis van Alfred Binet en zijn test bekend is bij iedereen die betrokken is bij gestandaardiseerd testen in het onderwijs. Hij noemde zijn test ‘intelligentietest’, en had daar enorm spijt van. Ik schreef een korte introductie ‘Intelligentie in historisch perspectief’ voor Van Twaalf tot Achttien. https://van12tot18.nl/artikelen/intelligentie-in-historisch-perspectief

Binet wilde zoveel mogelijk informatie verzamelen over leerlingen die mogelijk het onderwijs niet aan zouden kunnen. De onderwijsresultaten waren daarvoor niet voldoende, anders zou hem de onderzoekvraag niet zijn voorgelegd hè! Vraag ouders en onderwijzer het hemd van het lijf.

Naast schoolresultaten en andere info van onderwijzer en ouders wilde Binet graag meer weten over het cognitief functioneren in algemene zin, niet schools dus. Daarvoor bedacht hij allerlei vragen en opdrachtjes die niet op basis van schoolse kennis te beantwoorden zouden zijn.

Die test bleek goed te werken. Maar let op: die test was slechts onderdeel van een breder pakket van informatie over de leerlingen. In hedendaagse professionele codes in de psychologie vinden we dat terug: een testscore staat nooit op zich, omstandigheden zijn altijd belangrijk.

Kort en goed: die ‘intelligentietest’ van Binet ging een eigen leven leiden in de VS. De 20e eeuw zou de eeuw van de intelligentietest worden. Maar wat ‘intelligentie’ dan mag zijn, dat wist eigenlijk niemand. Nogal wiedes, Binet had daar geen scherp idee van, het was een naam.

Op dit moment is de stand van zaken dat het een uiterst controversieel begrip is, vooral om gedragsgenetici er een dichte mythologie van ‘erfelijkheid’ overheen hebben gebouwd. Maar dat is dus vooral pseudoscience. Ben ik weer onaardig zegt u? Zie dan  turkheimer_bbs_2023.pdf

Laat ik gewoon zeggen wat mijn positie is. 

Intelligentie is wat intelligentietests meten, en dat is een soort algemene neerslag van wat thuis en op school is geleerd. Onderzoek wijst uit dat ieder extra schooljaar 4 à 5 ‘IQ-punten’ vermeerdering van intelligentie oplevert.

Daar is weinig ‘erfelijks’ aan te bekennen. En we weten ook dat er een ‘Flynn-effect’ is: over die 20e eeuw heen is de intelligentie zo’n 30 IQ-punten gestegen. Test moesten vaak opnieuw genormeerd worden. Dat is idioot veel hoor! Is dat een genetisch effect? Natuurlijk niet.

Verschillen in intelligentie hebben een zo kleine genetische oorsprong, dat dat van geen enkel praktisch belang is in het onderwijs of de wereld daarbuiten. Voor talent geldt ongeveer hetzelfde. 

Gedragsgenetici zijn naast intelligentie, ook gek op ‘educational achievement’ EA.

Verschillen in EA, hoogst bereikte onderwijsniveau, zouden in hoge mate genetisch bepaald zijn (‘Blueprint, Robert Plomin). Nonsens. Ik noem het maar even, voor de zekerheid. Ik zei toch al dat dit alles controversieel is? (wordt nog vervolgd, daar denk ik nog over na).

Neem even rustig de tijd om deze figuur te bestuderen, uit: A. H. Oort (1928). ‘Proeven over verstandelijke ontwikkeling op Leidsche scholen’ Leiden: Van Doesburg. [Tests of intellectual development in schools in Leiden] 

Getabelleerd zijn ruwe scores op een intelligentietest die voor alle leeerlingen dezelfde was. 

Er is een toelichting bij nodig voor de scholen voor lager onderwijs in Leiden, in het Engels, anders is het voor engelstalige volgers niet te begrijpen:

De zwarte balkjes geven de gemiddelde ruwe score voor jongens, de grijze voor meisjes. Deze test zou discrimineren op sexe wanneer hij gebruikt zou worden voor selectie/plaatsing in het onderwijs. 

Goed zichtbaar: intelligentietest-ruwe-scores zijn ieder schooljaar hoger.

Het boek van Oort is online beschikbaar op Delpher:  https://www.delpher.nl/nl/boeken/view?identifier=MMKB21:031924000:00001&coll=boeken&query=%28Proeven+over+verstandelijke+ontwikkeling+op+Leidsche+scholen%29&cql%5B%5D=%28title+exact+%22Proeven+over+verstandelijke+ontwikkeling+op+Leidsche+scholen%22%29&rowid=1 

Geboortemaand-effecten zijn hier niet zichtbaar gemaakt, maar merk op dat de lagere scholen halfjaarlijkse klassen kenden. 

De intelligentietest meet niet de kennis uit de schoolcurricula. Dat zou ook niet kunnen, nietwaar. Van klas 1 zes-jarigen tot klas 6 gymnasium.

Ik realiseer me ineens dat ‘intelligentie’ in de discussie over de vaardigheden waar het in het onderwijs om dient te gaan, ontsnapt is aan de lijst van ‘onderwijsbaar geachte’ vaardigheden, of ze nu 20e, 21e-eeuws zijn, soft skills, of reken- en taalvaardigheden. Opmerkelijk.

SES is expliciet in de soort school, niet iets dat Oort met een vragenlijst boven water moest halen. Denk niet dat ons onderwijs, een eeuw later, minder langs lijnen van SES loopt, natuurlijk niet. Daarom hebben we die eindtoetsen immers. Ooit als hulpje, nu meer als dwangbuis.

Bijzonder is dat deze figuur uit Oort laat zien dat intelligentie onderwijsbaar is, terwijl de eerste indruk die de figuur wekt juist is dat verschillen in intelligentie door SES zijn bepaald. 

In de 19e eeuw dachten Darwin ea dat het volk dom was. Het kreeg geen onderwijs hè!

En hier komt de aap uit de mouw: door omstandigheden zoals SES hebben sommige leerlingen meer tijd nodig dan anderen. Maar we hebben ons stelsel zo ingericht dat in beginsel alle leerlingen evenveel tijd krijgen, namelijk zes jaar basisonderwijs (groep 3-8).

Dat maakt ‘als vanzelf’ dat de verschillen tussen leerlingen op 12-jarige leeftijd voor een belangrijk deel SES-verschillen zijn, de eindtoets basisonderwijs toetst op die verschillen, en zo worden leerlingen gesorteerd naar ons stelsel van grondig ongelijk voortgezet onderwijs.

Ik wil nog terug naar de gestelde vraag ‘Wat meet de eindtoets basisonderwijs’. 

Maar eerst is de conclusie dat de eindtoets onmogelijk eerlijk en objectief kan zijn. En dat geldt uiteraard ook voor de schooladviezen: schoolleiders en leraren staan voor een ondoenlijke taak. 

Meten we kennis? 46,2%

Wat moet er met stip allereerst over het toetsen van kennis worden vastgesteld? Ik heb over die vraag echt heel lang lopen piekeren, en het bleef me maar ontgaan.  Vandaag kwam ik erop.  Ik wist dit uiteraard al vele decennia, maar met het mes op de keel kon ik het niet produceren. Maar nu wel. Hier gaan we dan. 

Een beroemde opmerking van Lee Cronbach is dat we met onze tests en toetsen alleen vragen naar wat in onze tests en toetsen gevraagd kàn worden. Al het andere blijft buiten beschouwing. Het visuele beeld hierbij: naar je verloren fietssleutel zoeken onder die lantaarnpaal. Dat gaat natuurlijk niet werken, maar je hebt wel voldoende licht om te kunnen zoeken. 

Nu nog even uitzoeken waar Lee Cronbach dat ook alweer had geschreven. Tjonge. Weet iemand dit toevallig? In zijn ‘Essentials’ misschien? 

De eerste ‘eindtoets’ was de Amsterdamse Schooltoets van A.D. de Groot en Ph. J. Idenburg, 1966 meen ik, of was het 1967? Hamvraag: welke kennis kunnen we vragen zonder bepaalde scholen onbedoeld te benadelen? Antwoord, u raadde het al: taal en rekenen.

Maar zelfs na de keuze voor alleen taal en rekenen is er nog een stevig probleem: voor ondersteuning bij de keuze voor vervolgonderwijs moeten we VERSCHILLEN tussen leerlingen hebben. De Groot ontwierp dus een toets die niet gewoon kennis toetste, maar verschillen in beheersing.

Sterker nog: hij verschool zich achter de adviezen van de hoofdonderwijzers door ervoor te zorgen dat de adviezen op basis van de Amsterdamse Schooltoets de leerlingen evenzo verdeelden over de typen voortgezet onderwijs als de hoofdonderwijzers dat deden; groepsgewijs.

Als u ondertussen helemaal kwijt bent wat de Amsterdamse schooltoets en zijn opvolgers (‘citotoets’, eindtoetsen, doorstroomtoetsen) dan precies ‘meten’ aan de kennis van de leerlingen van groep 8, dan bent u in goed gezelschap: ik weet het ook niet. Het is alles traditie hè!

Ik was egoïstisch met mijzelf op de voorgrond te plaatsen. Want in werkelijkheid weet NIEMAND wat het ‘meten van kennis’ in de eindtoets (en al zijn varianten) mag betekenen. De vraag naar betekenis, is de vraag naar validiteit. Zijn de keuzen voor vervolgonderwijs op basis

van eindtoetsen de beste die in het belang van de leerlingen worden gemaakt? Die vraag is ongelooflijk intrigerend, want net als de vraag naar werking van geneesmiddelen, zijn er dubbelblinde experimenten nodig om antwoorden te vinden. Die experimenten zijn ethisch en praktisch

niet uitvoerbaar, en zijn nooit gedaan. We weten het dus helemaal niet. Ik schreef er een blog over: ‘Het begrip ‘validiteit’ ijdel gebruikt bij advies en eindtoets? Yes!’

Het begrip ‘validiteit’ ijdel gebruikt bij advies en eindtoets? Yes! 

Er is nog een ander probleem met testen/toetsen op ‘kennis’: kennis is geen kenmerk van leerlingen (zoals hun geboortemaand dat wel is, de kleur van hun ogen, hun moedertaal, hun DNA maar dan weer niet hun intelligentie). 

Een test kan dus niet ‘kennis’ als kenmerk ‘meten’. wat gebeurt er wèl?

De vraag is: hoe komen verschillen in kennis, gemeten op eindtoetsen, tot stand? Dat is een ingewikkelde vraag, maar er is een eenvoudig model dat goed duidelijk kan maken hoe het in zijn werk gaat. Ik heb het in 1977 uitgewerkt, met Dick Tromp, met gebruik van een kleine

dataset verzameld door collega’s Ton Willemsen en Sem Everwijn. En gepresenteerd op de Onderwijsresearchdagen 1977: ‘Het meten van studietijd’ 

En wel hierom: de beheersing van leerstof wordt beter naarmate er meer studietijd aan wordt besteed. benwilbrink.nl/publicaties/77…

Niet iedere leerling wil de hoogst mogelijke cijfers halen; welke cijfers je dan wel wilt halen, bepaalt mede hoeveel tijd je wil besteden aan de voorbereiding van toetsen. Omdat verschillen in prestaties er ook al eerder waren, verschillen leerlingen in voorkennis.

Verschillen in voorkennis bepalen mede welke cijfers een leerling wil halen, en hoeveel meer of minder tijd dan andere leerlingen ervoor nodig is. 

Dit is het idee, en er bestaat een wiskundig vorm voor zo’n ‘volledig recursief’ model voor studieprestaties.

Ergo: eindtoetsen meten indirect de verschillen in ‘voorkennis’, streefniveau (een vorm van motivatie, zeg maar), en tijdbesteding (‘time on task). Geen van alle zijn vaste kenmerken van leerlingen, alles is contextueel. 

Waarom denken we toch dat eindtoetsen ‘objectief’ zijn?

Leuk hoor, zo’n ruitmodel voor (verschillen in) studieprestaties, maar is dat niet een beetje droedelen (doodling’) met data? 

Ik was 15 jaar later in staat om te laten zien hoe studenten recht en hun docenten in de propedeuse met elkaar armpje drukken over cijfers en tijd:

‘The first year examination as negotiation; An application of Coleman’s (1990) social system theory to law education data.’ (paper ECER conferentie Twente) 

Het theoretisch en het wiskundig model zijn ontwikkeld door James Coleman. benwilbrink.nl/publicaties/92… De data heb ikin de 80er jaren verzameld in de propedeuse rechten aan de UvA: verwachte en behaalde cijfers voor de tentamens, met de tijd besteed in de voorbereiding op die tentamens. De data, ingevuld in het Coleman-model, leveren geen chaos op, maar juist een sterke orde, zoals te zien in de multi-trait, multi-method matrix met hoge validiteiten in de diagonaal. Afijn dat is nogal technisch. Waar het op neerkomt is dat studenten en docenten elkaar in een soort van dodelijke omhelzing hebben: geen van beide partijen kan een ‘zesjescultuur’ doorbreken. Drama.

Dergelijke mechanismen spelen overal in het onderwijs, uiteraard in sterke mate dus ook bij eindtoetsen voor 11/12-jarigen. Méér van hetzelfde gaat eindtoetsen dus niet minder beroerd maken dan ze nu zijn. Het moet echt anders. Wie bindt de kat de bel aan? (De Groot, 1966, Karen Heij, 2021)

PS Wikipedia on the ‘streetlight effect’: https://en.wikipedia.org/wiki/Streetlight_effect (de Cronbach vindplaats is nog zoek, maar ik heb alleen even onder die lantaarnpaal gezocht hè!)

LITERATUUR

James S. Coleman (1990). Foundations of social theory. Cambridge, Massachusetts: The Belknap Press of Harvard University Press.  https://www.hup.harvard.edu/catalog.php?isbn=9780674312265

Klaas Doornbos (1971). Geboortemaand en schoolsucces. Proefschrift. Wolters-Noordhoff. 

A. D. Groot (1966). Vijven en zessen. Cijfers en beslissingen: het selectieproces in ons onderwijs. Groningen: J. B. Wolters. https://archive.org/details/vijvenenzessenci0000groo

Karen Heij (2021). Van de kat en de bel. Tellen en vertellen met de eindtoets basisonderwijs.  Proefschrift Tilburg.  open access https://karenheij.bijzonderboeken.nl Anja Vink (19 april 2021). ‘De eindtoets op basisscholen werkt ongelijkheid in de hand, stelt deze toetsexpert’ Vrij Nederland https://www.vn.nl/eindtoets-groep-acht/ Van 12 tot 18: https://www.van12tot18.nl/de-toekomst-van-kinderen-willen-voorspellen-is-hen-opsluiten-in-hun-verleden Interview nrc: 22 april https://www.nrc.nl/nieuws/2021/04/22/er-is-een-nieuwe-aristocratie-gecreeerd-a4041000 De Psycholoog: https://www.tijdschriftdepsycholoog.nl/artikelen/de-eindtoets-basisonderwijs-heeft-het-gedaan/    [Zie ook Warna Oosterbaan ‘Schoolgaan in stromenland’ NRC 1993 https://www.nrc.nl/nieuws/1993/02/25/schoolgaan-in-stromenland-7174282-a919242?t=1651590233 

E. D. Hirsch, Jr. (2020). How to educate a citizen. John Catt.  

Michiel de Hoog (2015). Elk jaar gaan duizenden kinderen naar de verkeerde school vanwege hun geboortemaand. De Correspondent  

A. H. Oort, (1928). Proeven over verstandelijke ontwikkeling op Leidsche scholen. Leiden: Van Doesburg. Tweede druk aangevuld met nieuwe proeven en proeven in het Nederlandsche leger. Online beschikbaar: https://www.delpher.nl/nl/boeken/view?identifier=MMKB21:031924000:00001&coll=boeken&query=%28Proeven+over+verstandelijke+ontwikkeling+op+Leidsche+scholen%29&cql%5B%5D=%28title+exact+%22Proeven+over+verstandelijke+ontwikkeling+op+Leidsche+scholen%22%29&rowid=1 

Dick Tromp & Ben Wilbrink (1977). Het meten van studietijd. Congresboek OnderwijsResearchDagen. html

Ben Wilbrink (1992). Modelling the connection between individual behaviour and macro-level outputs. Understanding grade retention, drop-out and study-delays as system rigidities. In Tj. Plomp, J. M. Pieters & A. Feteris (Eds.), European Conference on Educational Research (pp. 701-704.). Enschede: University of Twente. Paper: auteur. html

===============================================

p.m. bij Kennis: een toets die ‘kennis’ meet, meet alleen de kennis die het vraagt.  Misschien hebben leerlingen wel heel veel meer relevante kennis:  in de mate waarin dat het geval is, geeft de toets dus geen goede ‘meting’. Is dat erg?  

1) Leerlingen die ook naast de opgegeven stof veel hebben gelezen, of relevante ervaring hebben, lopen het risico dat ze de toets slechter maken dan anderen die alleen de opgeven stof, dus niet meer dan dat, beheersen.  De baan van de Aarde om de Zon is cirkelvormig. Is dat juist, of onjuist? 

2) De toets die ook kennis vraagt buiten de opgegeven stof:  waar zijn we dan helemaal mee bezig?  Toch gebeurt dat vaak, vaak goed bedoeld om de ‘betere’ leerlingen de kans te geven hun ‘beter zijn’ ook te laten zien.  

3) Maar dan hebben we een rare situatie: 1) en 2) verhouden zich beroerd tot elkaar.  Ik moet daar wel een behoorlijk scenario van maken hè!

Leave a comment