Het begrip ‘validiteit’ ijdel gebruikt bij advies en eindtoets? Yes! 

[gebaseerd op twitterdraad https://twitter.com/benwilbrink/status/1484542538384297984, ik heb zoveel mogelijk die tekst en de formattering hier gehandhaafd]

Mag de correlatie van adviezen ogv eindtoetsscores met gekozen schooltype na de brugklas ‘predictieve validiteit’ heten? Zoals in Nijsse (1987). ‘Beoordeling van de predictieve validiteit van een schoolvorderingentoets door gebruikers.’ objects.library.uu.nl/reader/index.p… 

Nee. Voor het bepalen van validiteit is een deugdelijk experiment nodig. En ik zou niet weten hoe zo’n experiment is uit te voeren. Zonder experiment bevestigen we verschillen die al bestaan. Wat voor eindtoetsen geldt, doet dat ook voor schooladviezen. We rotzooien dus maar wat aan, met ons onderwijsstelsel, en vooral de overgang van bo naar vo: ‘Kunnen eindtoetsen (voorheen de ‘citotoets’) valide zijn?’ benwilbrink.wordpress.com/2020/09/24/kun… Wie brengt mij op andere gedachten?

‘Zonder experiment bevestigen we verschillen die al bestaan.’ Is dat erg, dan? Ja, want de toekomst is niet goed voorspelbaar, althans veel en veel minder goed dan men denkt. Zie ‘Measuring the predictability of life outcomes with a scientific mass collaboration’ pnas.org/content/117/15… [via Harden ‘The genetc lottery’ note 13 ch 6]

‘Validiteit’ is een technische term voor de kwaliteit van tests en toetsen, volgens de leidende ‘Standards’ aera.net/Newsroom/AERA-… (free download). De term mag zeker niet ijdel worden gebruikt, zoals helaas bij (v/h ‘de cito’) eindtoetsen bo vaak het geval is, zo ook bij Nijsse.

Ik kom op dit draadje door een (toevallig) artikel van Nijsse (staat voor veel vergelijkbare research); het gegeven van moeilijke voorspelbaarheid van alles dat een paar jaar verder ligt (Salganik e.a.); en de onveranderde rol van SES voor onderwijsloopbanen (Wolbers & De Graaf).

De stelling die onontkoombaar lijkt is dan:

Ons onderwijssteldsel bevestigt in te sterke mate SES-verschillen. Advisering en toetsing van 12-jarigen, verre van emancipatorisch te werken, bevestigen eveneens SES-verschillen: ze versterken het SES reproducerend karakter van het onderwijs.

Al met al best verontrustend. En een rode kaart voor iedereen—niet in de laatste plaats mijn beroepsgroep—die zo druk in de weer is geweest om het discriminerende onderwijsstelsel te bevestigen. Het grondprobleem lijkt mij het geloof in vaststaande verschillen tussen leerlingen.

Serendipiteit helpt mij weer, ik kom dit passende artikel tegen. Want denk eraan: eindtoetsen basisonderwis zijn ‘aptitude tests’, in de eerste lijn familie van intelligentietests. Richardson &  Johanningmeier 1998 ‘Intelligence testing: The legitimation of a meritocratic educational science’ sci-hub.se/10.1016/S0883-… 

abstract

“This chapter addresses the origin, legacy, and persistence of intelligence testing in the United States as a process whereby education was colonized by the field of psychology. The convergence of events which fostered the development of intelligence tests and which maintain them in high standing link the history of schooling to the larger field of social change and reinforce the idea that schools are inseparable from the social climate of which they are a product. Intelligent tests were created as, and are, efficient sorting mechanisms in schools that reflect dominant values and contribute to social stability by justifying unequal educational outcomes as a natural and objective process. In spite of their seemingly meritocratic potential, intelligence tests are a primary mechanism for the reproductive role of schooling in society as reinforcing class, race, and ethnic biases.”

Het volgende artikel van Meester en De Leeuw ‘De regressie van intelligentiescores op schoolloopbaanvariabelen’ stipt ook even aan dat onderzoek naar validiteit van adviezen/toetsen voor 12 jarigen onhaalbaar is. (opfrisser: Dit draadje begon met ‘voorspellen’ – en validiteit, maar niet heus) objects.library.uu.nl/reader/index.p…

“In het algemeen refereert de term ‘voorspeller’ aan toetsend onderzoek, aan een experiment waarbij leerlingen ‘at random’ aan verschillende onderwijscondities worden toegekend en op basis van bijvoorbeeld begaafdheidsonderzoek voorspellingen gedaan worden over schoolsucces. Een dergelijk experiment is in de onderwijsresearch nooit gedaan en zal, om maatschappelijke redenen, nooit gedaan kunnen worden. Een gebrekkige benadering van de experimentele condities zou kunnen zijn het advies van de onderwijzer of het toetsadvies voor het voortgezet onderwijs als voorspelling op te vatten. Dat biedt echter ook geen uitzicht, omdat deze adviezen op 12-jarige leeftijd al ernstig gecontamineerd zijn met sociaal milieu en de variabelen die de schoolloopbaan weer moeten geven.”

De technische taal kan wel verwarrend zijn hoor. Er wordt ook wel van predictieve validiteit gesproken in situaties waar van selectie of plaatsing geen sprake is, zoals:  Jan Elshout (1977). ‘Predicting the validity of predictors of academic performance’.

Het artikel van Elshout was uitgelokt door een resultaat van Crombag cs. dat tentamencijfers niet voorspelbaar zouden zijn: correlaties met bijvoorbeeld tijdbesteding zijn laag. Maar dat is een correlatie, een groepsstatistiek, en dat zegt niets over wat een EXTRA inspanning van een individuele student oplevert in betere slaagkansen. Zie benwilbrink.nl/publicaties/77…

Elshout was dan wel op zoek naar samenhangen—welke sterker zijn dan andere, en waarom dan—maar liet zich niet uit over het GEBRUIK MAKEN ervan. Dat is anders bij een onderzoek van Don Mellenbergh en anderen, 1978, ‘Relevante Variabelen bij het Doorverwijzen na de Lagere School’  objects.library.uu.nl/reader/index.p…: “Het onderzoek waarvan hier verslag wordt gedaan had de bedoeling na te gaan wat de relevantie is voor het leerlingadvies van een groot aantal capaciteits- en persoonlijkheidsgegevens met als centrale vraag in hoeverre men op grond van deze gegevens kan differentiëren tussen de advies-categorieën.” Mellenbergh cs. willen testgegevens GEBRUIKEN om leerlingen door te verwijzen. 

Maar hier gaat het dus fout, want de vraag ‘in hoeverre men op grond van deze gegevens kan differentiëren tussen de advies-categorieën’ is de vraag in hoeverre men dat VALIDE kan. En daar is EXPERIMENTEEL onderzoek voor nodig. Correlaties volstaan niet. Waarom zag men dat niet?

Excuus, moet zijn: Waarom zien we dat nog steeds niet? Want dat is het mooie van oude meuk ophalen: het drukt ons met de neus op het feit dat er vaak weinig of geen enkele vooruitgang is geboekt in een halve eeuw tijd. Nog steeds verschijnt de ene na de andere analyse van oneerlijke kansen door schooladviezen en eindtoetsen zonder ook maar een begin van aandacht voor het stelselbevestigende karakter van die adviezen en toetsen. Uitzondering is dan het proefschrift van @Karen_2510 ‘Van de kat en de bel’ karenheij.bijzonderboeken.nl Haal dit boek op, het is open access!

Over het stelsel gesproken: er is wel onderzoek beschikbaar over effecten van stelselwijzigingen.  Interessant, dat geeft in zekere zin indirecte informatie over validiteit van plaatsing van leerlingen. Zoals Piopiunik 2013 ‘The Effects of Early Tracking on Student Performance: Evidence from a School Reform in Bavaria’ https://www.econstor.eu/bitstream/10419/73704/1/IfoWorkingPaper-153.pdf (publ.: Econ of Educ Rev 2014)

“Countries differ greatly in the timing of separating students into vocationally-oriented and academic school tracks. While several countries have postponed tracking during the last decades, the German state of Bavaria has gone the opposite way: students in the basic and middle track were separated at the end of grade 6 until 2000, but are separated at the end of grade 4 since the reform. This paper evaluates the impact of the Bavarian reform on student performance, based on PISA test scores of 15-year-olds. (…) The results indicate that the reform considerably decreased student performance both in the basic and middle track. While the performance decline in the middle track might have been caused by short-run implementation problems, the performance decline in the basic track is most likely due to peer effects. “

Hoe gaat het Cito om met die predictieve validiteit? Ik zou graag dit memo zien:  

Margo G. H. Jansen (1979). De voorspellende waarde van de eindtoets basisonderwijs. [The predictive validity of the ‘Eindtoets Bsisonderwijs’]  TOR, 4, 239-244 https://objects.library.uu.nl/reader/index.php?obj=1874-208520&lan=en#page//83/28/84/83288495818874265992741633155998230997.jpg/mode/1up Hier is alleen sprake van correlationele analyses op wat er gebeurt nadat ‘de cito’ is gebruikt. Maar u weet: correlaties hoeven geen oorzakelijke verbanden te zijn. 

Voor onderzoek naar predictieve validiteit van een selecterende toets is het teminste nodig de toets af te nemen, met de resultaten voorlopig NIETS te doen (ze geheim te houden), een jaar of wat (4, 5, 6 jaar) af te wachten, en dan gegevens over bereikte onderwijsposities van deze leerlingen te verzamelen.

Een aardig voorbeeld daarvan is te vinden bij de ontwikkeling van de GIVO (de Groninger Intelligentietest voor Voortgezet Onderwijs), samengevat in Van Dijk (1995) hfdst 10 https://pure.rug.nl/ws/portalfiles/portal/14514066/givo.PDF Gedurende het langjarige validiteitsonderzoek liggen de testscores stof te verzamelen totdat gegevens jaren later bekend zijn en de voorspellende waarde van de intelligentie in deze specifieke situatie te brekenen is.

Kijk, dergelijk onderzoek is voor ‘de cito’ bij mijn weten nooit gedaan. In ieder geval ten tijde van de publicaties van Margo Jansen was daar in de verste verte geen sprake van. De citotoets en voorganger de Amsterdamse Schooltoets zijn meteen gebruikt. Daarmee was de kans om 

een onderzoek naar de predictieve validiteit te doen verkeken.  Karen Heij ontdekte dat A.D. de Groot zijn Amsterdame Schooltoets ijkte aan de adviezen van de schoolhoofden. Logisch hè!  

Maar dat heeft dus niets maar dan ook niets te maken met het ontwikkelen van een valide voorspellings-instrument.  Het werpt onmiddellijk de kritiek op dat die schooladviezen nooit zijn onderzocht op predictieve validiteit.  Ja, kijk, zo komen we nooit uit het moeras. De Groot probeerde het op de manier van die baron. Von M.

Psychologen hebben in hun enthousiasme de zaak verkloot, A. D. de Groot voorop. Hij zag het evident niet, ondanks zijn eigen Methodologie. Daarna hebben psychologen het Cito bestuurd en bevolkt, blind achter De Groot aan. Ik schrik er zelf ook van, eerlijk waar.

Denkt u na dit alles nog dat de Eindtoets Basisonderwijs een eerlijk middel is om 12-jarigen te selecteren, ook gegeven het huidige onderwijsstelsel?  Politici denken dat. Sociologen bezondigen zich er ook wel aan, ik heb er vaak met Jaap Dronkers woorden over gehad, ‘Jaap, he hebt geen idee over hoe zwak die toetsen zijn onderbouwd’. Stoppen ermee.

Het kan zomaar het geval zijn dat het onderwijs, door verwachtingen van leraren en andere betrokkenen, geen recht doet aan de leerlingen.  Een minimaal valideringsonderzoek, zoals beschreven voor de GIVO-test, verbetert daar niets aan. Vandaar de wens of eis om experimenteel te werk te gaan.  

Maar dat is manipulatief, en dat mogen we leerlingen niet zomaar aandoen.  Want stel je voor: we brengen voor een representatieve groep leerlingen de adviezen en eindtoetsscores meteen naar de notaris, die ze jaren geheim houdt, en plaatsen leerlingen ‘at random’ in het voortgezet onderwijs.  

De onderzoekers manipuleren ook de leraren in het vo, zodat deze denken dat de leerlingen geplaatst zijn op basis van adviezen en eindtoetsen.  Na een jaar of wat, verzamelen de onderzoekers de gegevens over waar de leerlingen dan zijn, en hoe dat ‘voorspeld’ had kunnen worden door de bij de notaris opgeborgen adviezen en toetsresultaten.  

Dan kennen we met recht de predictieve validiteit van zowel adviezen als eindtoetsen.  En is in zekere zin ook de validiteit van het onderwijsstelsel voor het voortgezet onderwijs bekend: hoe terecht zijn al die hokjes?

Maar zo’n onderzoek komt door geen enkele ethische commissie, en terecht.  Toch gebeuren er wel eens ongelukken met de verwerking van toetsresultaten, dus het is niet ondenkbaar dat wat we niet mogen organiseren, door een ongeluk toch gebeurt.  Kent iemand daar voorbeelden van?

Ik wel, in een andere context: 

Sticht, Armstrong, Hickey, & Caylor (1987). ‘Cast-off youth. Policy and training methods from the military experience’. De sleutel-conclusie is: 

“When lower-aptitude personnel are given an opportunity to succeed most of those considered ‘unemployable’ perform as well as those considered ’employable.'” (p. 75) 

Het onderzoek betreft een omvangrijk natuurlijk experiment op grond van een kapitale vergissing met een test (de ASVAB) rond 1980 bij de toelatingsselectie voor militaire dienst. Op grond daarvan werden veel kandidaten volgens de regels ten onrechte toegelaten, maar zich vervolgens, in een omgeving die van deze ‘fout’ evenmin op de hoogte was, even adequaat bleken te gedragen als ‘ten onrechte’ van ze werd verwacht. https://scholar.google.nl/scholar?hl=nl&as_sdt=0%2C5&q=%22Cast-off+youth%3A+Policy+and+training+methods+from+the+military+experience%22&btnG=

Scholar noemt 145 publicaties die naar Sticht c.s. verwijzen.  NB: het project van 100.000 rekruten dat daar wordt genoemd, is een ander onderzoek, ook behandeld door Tricht c.s., betreft een (omstreden) sociaal experiment. 

Wat er fout ging bij die militaire plaatsingstest, de ASVAB, is uitgezocht in dit militaire document:  https://apps.dtic.mil/sti/pdfs/ADA094684.pdf 

“... current operational norms are 15 to 17 percentile points too easy in the critical region between the 16th and 31st percentiles (figure 17)

*) Deze blog is een vervolg op (september 2020) ‘Kunnen eindtoetsen (voorheen de ‘citotoets’) valide zijn?’ https://benwilbrink.wordpress.com/2020/09/24/kunnen-eindtoetsen-voorheen-de-citotoets-valide-zijn/

Advertisement

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s