De ideologie van 1969: vierkeuzetoetsen – De Groot & Van Naerssen

Adriaan de Groot en Bob van Naerssen brachten in 1969: ‘Studietoetsen construeren, afnemen, analyseren’ uit. Het was zijn tijd vooruit, maar ook in de negatieve zin: dat de auteurs het beter nog eens een jaartje hadden kunnen laten bezinken. Het boek moet nog eens van een

kritische bespreking worden voorzien, ook al is er ondertussen meer dan een halve eeuw verstreken. Het boek is activistisch, ideologisch geladen, benadrukt voordelen van vierkeuzetoetsen (dogmatiek: het moet vier zijn) en verzwijgt tegelijkertijd nadelen daarvan.

Het boek heeft enorme invloed gehad op de wijze waarop er in ons onderwijs, van kleuterschool tot universiteit, wordt getoetst. Kwam ik nog mijn onderwijs door zonder ooit een keuzetoets te hoeven maken, tegenwoordig zijn leerlingen en studenten veel tijd kwijt aan die toetsen.

Omdat ik een beetje geobsedeerd ben geraakt door vragen hoe kleine krachten in het onderwijs enorme impact kunnen hebben omdat ze bijna 20 jaar worden uitgeoefend, zie ik dat het onderwijs waarschijnlijk enorme schade oploopt door het kwistige gebruik van keuzetoetsen.

Ik werd tot deze overpeinzing getriggerd door tentamens rechten in mijn archief: met 40 of 50 vierkeuzevragen, jawel, met veel tekst in de alternatieven. Daaronder ook vragen van het type I en II onjuist, I juist II onjuist, I onjuist II juist, I en II onjuist.

Als ik het mij goed herinner, werd dit type vraag als bruikbaar geadviseerd in De Groot en Van Naerssen (1969). Als u ooit dergelijke keuzevragen hebt moeten beantwoorden, dan weet u dat ze de hersenen in een stevige knoop kunnen leggen, dat moet je net niet hebben in een toets.

Ik heb altijd strijd gevoerd tegen het gebruik van keuzevragen in het onderwijs, wat me niet altijd, maar soms ook wel, in dank is afgenomen. Afijn, kijk zelf benwilbrink.nl/projecten/toet…

De Groot heeft later verteld dat in de beginjaren van het Cito er voor is gekozen om alleen VIER-keuzevragen te gebruiken en te promoten, om verwerking van resultaten overzichtelijk te houden.

Toetsresultaten werden in die tijd op ponskaart gezet, voor verwerking met IBM-apparatuur. Wat De Groot en vele anderen zich niet realiseerden: voor de verwerking van de toetsen maakt het niet uit of er ook 2-keuze en 3-keuzevragen zijn gebruikt.

Zo ontstond de gekkigheid van die dubbele I/II juist/onjuist vragen, want ja, je moest VIER alternatieven hebben. Niet dus.

Pas jaren later begon het te dagen dat vierkeuzevragen lastig zijn te ontwerpen. Meestal is er wel een alternatief bij dat door vrijwel niemand wordt gekozen, dat 4e alternatief kun je beter maar weglaten. Zo ontstaat ruimte (tijd) om extra vragen in de toets op te nemen.

Als De Groot en Van Naerssen het manuscript nog even hadden laten rijpen, dan hadden zij hun inzichten uit 1970 erin verwerkt, met waarschijnlijk een sterk andere uitkomst. 

Adriaan (transparantie): benwilbrink.nl/publicaties/70…

Bob (tentamenmodel): benwilbrink.nl/publicaties/70…

Beide behoren tot het reservoir van ‘vergeten’ publicaties. Volkomen ten onrechte, want het gaat mijns inziens om publicaties die een waterscheiding teweeg hadden kunnen brengen in Nederland toetsland: van benadrukken van verschillen (psychometrie) naar integer toetsen (didakometrie).

Maar hoe is het gegaan? Cito ging door op de psychometrische weg: verschillen tussen leerlingen benadrukken. Wel een sterke psychometrische afdeling, maar nul aandacht voor onderwijs zelf. Het Cito maakte zich, zeker na de verzelfstandiging, tot speelbal van onderwijsideologen.

Van Naerssen kreeg geen steun voor zijn tentamenmodel (besliskundige benadering met focus op de student als de beslisser, niet de docent) en verstrikte zich in technische problemen. Hetzelfde geldt trouwens voor mijn eigen werk in het verlengde van dat van Van Naerssen.

Ik kreeg in 1986 de gelegenheid om het verschil tussen testen (psychometrie) en toetsen (didakometrie) uit te werken: benwilbrink.nl/publicaties/86… 

De Cotan nam deze didakometriche benadering over in zijn Richtlijnen van 1988 (hoofdstuk 8: Toetsen). Voor de huidige Cotan zijn helaas de Amerikaanse psychometrische APA NCME AERA-Standards https://www.aera.net/Newsroom/AERA-APA-and-NCME-Announce-the-Open-Access-Release-of-Standards-for-Educational-and-Psychological-Testing de norm, ook als het op toetsen in het onderwijs aankomt. #pity 

Het is vooral daarom jammer, omdat het onderwijs de ballast van eeuwen en eeuwen benadrukken van verschillen—rangordenen— met zich meetorst. Cijfergeven = rangordenen, wist u dat? Zie benwilbrink.nl/publicaties/97… Vrijwel alle onderwijsonderzoek vindt binnen dat paradigma plaats!

Mijn geschiedenis gaat tot 1900. Was tot 1900 het voor iedereen duidelijk dat rangorde ertoe deed, na 1900 werd dat versluierd door het pseudo-gestandaardiseerde cijfergeven, samen met IQ-testerij (psychometrie) en geloof in aangeboren verschillen. Doe er iets aan, jongelui.

Over de keuzevragen-ideologie in De Groot en Van Naerssen 1969 Studietoetsen: zie ook een lezing van De Groot in 1959, waarin hij zijn objectiviteits-ideologie presenteert—10 jaar was niet voldoende voor een redelijke correctie op die ideologie. https://objects.library.uu.nl/reader/index.php?obj=1874-205233&lan=en#page//16/76/06/167606156889101703841542018109848695475.jpg/mode/1up

8) [deze blog: naar een twitterdraad https://twitter.com/benwilbrink/status/1482748334968348679 ]

Het begrip ‘validiteit’ ijdel gebruikt bij advies en eindtoets? Yes! 

[gebaseerd op twitterdraad https://twitter.com/benwilbrink/status/1484542538384297984, ik heb zoveel mogelijk die tekst en de formattering hier gehandhaafd]

Mag de correlatie van adviezen ogv eindtoetsscores met gekozen schooltype na de brugklas ‘predictieve validiteit’ heten? Zoals in Nijsse (1987). ‘Beoordeling van de predictieve validiteit van een schoolvorderingentoets door gebruikers.’ objects.library.uu.nl/reader/index.p… 

Nee. Voor het bepalen van validiteit is een deugdelijk experiment nodig. En ik zou niet weten hoe zo’n experiment is uit te voeren. Zonder experiment bevestigen we verschillen die al bestaan. Wat voor eindtoetsen geldt, doet dat ook voor schooladviezen. We rotzooien dus maar wat aan, met ons onderwijsstelsel, en vooral de overgang van bo naar vo: ‘Kunnen eindtoetsen (voorheen de ‘citotoets’) valide zijn?’ benwilbrink.wordpress.com/2020/09/24/kun… Wie brengt mij op andere gedachten?

‘Zonder experiment bevestigen we verschillen die al bestaan.’ Is dat erg, dan? Ja, want de toekomst is niet goed voorspelbaar, althans veel en veel minder goed dan men denkt. Zie ‘Measuring the predictability of life outcomes with a scientific mass collaboration’ pnas.org/content/117/15… [via Harden ‘The genetc lottery’ note 13 ch 6]

‘Validiteit’ is een technische term voor de kwaliteit van tests en toetsen, volgens de leidende ‘Standards’ aera.net/Newsroom/AERA-… (free download). De term mag zeker niet ijdel worden gebruikt, zoals helaas bij (v/h ‘de cito’) eindtoetsen bo vaak het geval is, zo ook bij Nijsse.

Ik kom op dit draadje door een (toevallig) artikel van Nijsse (staat voor veel vergelijkbare research); het gegeven van moeilijke voorspelbaarheid van alles dat een paar jaar verder ligt (Salganik e.a.); en de onveranderde rol van SES voor onderwijsloopbanen (Wolbers & De Graaf).

De stelling die onontkoombaar lijkt is dan:

Ons onderwijssteldsel bevestigt in te sterke mate SES-verschillen. Advisering en toetsing van 12-jarigen, verre van emancipatorisch te werken, bevestigen eveneens SES-verschillen: ze versterken het SES reproducerend karakter van het onderwijs.

Al met al best verontrustend. En een rode kaart voor iedereen—niet in de laatste plaats mijn beroepsgroep—die zo druk in de weer is geweest om het discriminerende onderwijsstelsel te bevestigen. Het grondprobleem lijkt mij het geloof in vaststaande verschillen tussen leerlingen.

Serendipiteit helpt mij weer, ik kom dit passende artikel tegen. Want denk eraan: eindtoetsen basisonderwis zijn ‘aptitude tests’, in de eerste lijn familie van intelligentietests. Richardson &  Johanningmeier 1998 ‘Intelligence testing: The legitimation of a meritocratic educational science’ sci-hub.se/10.1016/S0883-… 

abstract

“This chapter addresses the origin, legacy, and persistence of intelligence testing in the United States as a process whereby education was colonized by the field of psychology. The convergence of events which fostered the development of intelligence tests and which maintain them in high standing link the history of schooling to the larger field of social change and reinforce the idea that schools are inseparable from the social climate of which they are a product. Intelligent tests were created as, and are, efficient sorting mechanisms in schools that reflect dominant values and contribute to social stability by justifying unequal educational outcomes as a natural and objective process. In spite of their seemingly meritocratic potential, intelligence tests are a primary mechanism for the reproductive role of schooling in society as reinforcing class, race, and ethnic biases.”

Het volgende artikel van Meester en De Leeuw ‘De regressie van intelligentiescores op schoolloopbaanvariabelen’ stipt ook even aan dat onderzoek naar validiteit van adviezen/toetsen voor 12 jarigen onhaalbaar is. (opfrisser: Dit draadje begon met ‘voorspellen’ – en validiteit, maar niet heus) objects.library.uu.nl/reader/index.p…

“In het algemeen refereert de term ‘voorspeller’ aan toetsend onderzoek, aan een experiment waarbij leerlingen ‘at random’ aan verschillende onderwijscondities worden toegekend en op basis van bijvoorbeeld begaafdheidsonderzoek voorspellingen gedaan worden over schoolsucces. Een dergelijk experiment is in de onderwijsresearch nooit gedaan en zal, om maatschappelijke redenen, nooit gedaan kunnen worden. Een gebrekkige benadering van de experimentele condities zou kunnen zijn het advies van de onderwijzer of het toetsadvies voor het voortgezet onderwijs als voorspelling op te vatten. Dat biedt echter ook geen uitzicht, omdat deze adviezen op 12-jarige leeftijd al ernstig gecontamineerd zijn met sociaal milieu en de variabelen die de schoolloopbaan weer moeten geven.”

De technische taal kan wel verwarrend zijn hoor. Er wordt ook wel van predictieve validiteit gesproken in situaties waar van selectie of plaatsing geen sprake is, zoals:  Jan Elshout (1977). ‘Predicting the validity of predictors of academic performance’.

Het artikel van Elshout was uitgelokt door een resultaat van Crombag cs. dat tentamencijfers niet voorspelbaar zouden zijn: correlaties met bijvoorbeeld tijdbesteding zijn laag. Maar dat is een correlatie, een groepsstatistiek, en dat zegt niets over wat een EXTRA inspanning van een individuele student oplevert in betere slaagkansen. Zie benwilbrink.nl/publicaties/77…

Elshout was dan wel op zoek naar samenhangen—welke sterker zijn dan andere, en waarom dan—maar liet zich niet uit over het GEBRUIK MAKEN ervan. Dat is anders bij een onderzoek van Don Mellenbergh en anderen, 1978, ‘Relevante Variabelen bij het Doorverwijzen na de Lagere School’  objects.library.uu.nl/reader/index.p…: “Het onderzoek waarvan hier verslag wordt gedaan had de bedoeling na te gaan wat de relevantie is voor het leerlingadvies van een groot aantal capaciteits- en persoonlijkheidsgegevens met als centrale vraag in hoeverre men op grond van deze gegevens kan differentiëren tussen de advies-categorieën.” Mellenbergh cs. willen testgegevens GEBRUIKEN om leerlingen door te verwijzen. 

Maar hier gaat het dus fout, want de vraag ‘in hoeverre men op grond van deze gegevens kan differentiëren tussen de advies-categorieën’ is de vraag in hoeverre men dat VALIDE kan. En daar is EXPERIMENTEEL onderzoek voor nodig. Correlaties volstaan niet. Waarom zag men dat niet?

Excuus, moet zijn: Waarom zien we dat nog steeds niet? Want dat is het mooie van oude meuk ophalen: het drukt ons met de neus op het feit dat er vaak weinig of geen enkele vooruitgang is geboekt in een halve eeuw tijd. Nog steeds verschijnt de ene na de andere analyse van oneerlijke kansen door schooladviezen en eindtoetsen zonder ook maar een begin van aandacht voor het stelselbevestigende karakter van die adviezen en toetsen. Uitzondering is dan het proefschrift van @Karen_2510 ‘Van de kat en de bel’ karenheij.bijzonderboeken.nl Haal dit boek op, het is open access!

Over het stelsel gesproken: er is wel onderzoek beschikbaar over effecten van stelselwijzigingen.  Interessant, dat geeft in zekere zin indirecte informatie over validiteit van plaatsing van leerlingen. Zoals Piopiunik 2013 ‘The Effects of Early Tracking on Student Performance: Evidence from a School Reform in Bavaria’ https://www.econstor.eu/bitstream/10419/73704/1/IfoWorkingPaper-153.pdf (publ.: Econ of Educ Rev 2014)

“Countries differ greatly in the timing of separating students into vocationally-oriented and academic school tracks. While several countries have postponed tracking during the last decades, the German state of Bavaria has gone the opposite way: students in the basic and middle track were separated at the end of grade 6 until 2000, but are separated at the end of grade 4 since the reform. This paper evaluates the impact of the Bavarian reform on student performance, based on PISA test scores of 15-year-olds. (…) The results indicate that the reform considerably decreased student performance both in the basic and middle track. While the performance decline in the middle track might have been caused by short-run implementation problems, the performance decline in the basic track is most likely due to peer effects. “

Hoe gaat het Cito om met die predictieve validiteit? Ik zou graag dit memo zien:  

Margo G. H. Jansen (1979). De voorspellende waarde van de eindtoets basisonderwijs. [The predictive validity of the ‘Eindtoets Bsisonderwijs’]  TOR, 4, 239-244 https://objects.library.uu.nl/reader/index.php?obj=1874-208520&lan=en#page//83/28/84/83288495818874265992741633155998230997.jpg/mode/1up Hier is alleen sprake van correlationele analyses op wat er gebeurt nadat ‘de cito’ is gebruikt. Maar u weet: correlaties hoeven geen oorzakelijke verbanden te zijn. 

Voor onderzoek naar predictieve validiteit van een selecterende toets is het teminste nodig de toets af te nemen, met de resultaten voorlopig NIETS te doen (ze geheim te houden), een jaar of wat (4, 5, 6 jaar) af te wachten, en dan gegevens over bereikte onderwijsposities van deze leerlingen te verzamelen.

Een aardig voorbeeld daarvan is te vinden bij de ontwikkeling van de GIVO (de Groninger Intelligentietest voor Voortgezet Onderwijs), samengevat in Van Dijk (1995) hfdst 10 https://pure.rug.nl/ws/portalfiles/portal/14514066/givo.PDF Gedurende het langjarige validiteitsonderzoek liggen de testscores stof te verzamelen totdat gegevens jaren later bekend zijn en de voorspellende waarde van de intelligentie in deze specifieke situatie te brekenen is.

Kijk, dergelijk onderzoek is voor ‘de cito’ bij mijn weten nooit gedaan. In ieder geval ten tijde van de publicaties van Margo Jansen was daar in de verste verte geen sprake van. De citotoets en voorganger de Amsterdamse Schooltoets zijn meteen gebruikt. Daarmee was de kans om 

een onderzoek naar de predictieve validiteit te doen verkeken.  Karen Heij ontdekte dat A.D. de Groot zijn Amsterdame Schooltoets ijkte aan de adviezen van de schoolhoofden. Logisch hè!  

Maar dat heeft dus niets maar dan ook niets te maken met het ontwikkelen van een valide voorspellings-instrument.  Het werpt onmiddellijk de kritiek op dat die schooladviezen nooit zijn onderzocht op predictieve validiteit.  Ja, kijk, zo komen we nooit uit het moeras. De Groot probeerde het op de manier van die baron. Von M.

Psychologen hebben in hun enthousiasme de zaak verkloot, A. D. de Groot voorop. Hij zag het evident niet, ondanks zijn eigen Methodologie. Daarna hebben psychologen het Cito bestuurd en bevolkt, blind achter De Groot aan. Ik schrik er zelf ook van, eerlijk waar.

Denkt u na dit alles nog dat de Eindtoets Basisonderwijs een eerlijk middel is om 12-jarigen te selecteren, ook gegeven het huidige onderwijsstelsel?  Politici denken dat. Sociologen bezondigen zich er ook wel aan, ik heb er vaak met Jaap Dronkers woorden over gehad, ‘Jaap, he hebt geen idee over hoe zwak die toetsen zijn onderbouwd’. Stoppen ermee.

Het kan zomaar het geval zijn dat het onderwijs, door verwachtingen van leraren en andere betrokkenen, geen recht doet aan de leerlingen.  Een minimaal valideringsonderzoek, zoals beschreven voor de GIVO-test, verbetert daar niets aan. Vandaar de wens of eis om experimenteel te werk te gaan.  

Maar dat is manipulatief, en dat mogen we leerlingen niet zomaar aandoen.  Want stel je voor: we brengen voor een representatieve groep leerlingen de adviezen en eindtoetsscores meteen naar de notaris, die ze jaren geheim houdt, en plaatsen leerlingen ‘at random’ in het voortgezet onderwijs.  

De onderzoekers manipuleren ook de leraren in het vo, zodat deze denken dat de leerlingen geplaatst zijn op basis van adviezen en eindtoetsen.  Na een jaar of wat, verzamelen de onderzoekers de gegevens over waar de leerlingen dan zijn, en hoe dat ‘voorspeld’ had kunnen worden door de bij de notaris opgeborgen adviezen en toetsresultaten.  

Dan kennen we met recht de predictieve validiteit van zowel adviezen als eindtoetsen.  En is in zekere zin ook de validiteit van het onderwijsstelsel voor het voortgezet onderwijs bekend: hoe terecht zijn al die hokjes?

Maar zo’n onderzoek komt door geen enkele ethische commissie, en terecht.  Toch gebeuren er wel eens ongelukken met de verwerking van toetsresultaten, dus het is niet ondenkbaar dat wat we niet mogen organiseren, door een ongeluk toch gebeurt.  Kent iemand daar voorbeelden van?

Ik wel, in een andere context: 

Sticht, Armstrong, Hickey, & Caylor (1987). ‘Cast-off youth. Policy and training methods from the military experience’. De sleutel-conclusie is: 

“When lower-aptitude personnel are given an opportunity to succeed most of those considered ‘unemployable’ perform as well as those considered ’employable.'” (p. 75) 

Het onderzoek betreft een omvangrijk natuurlijk experiment op grond van een kapitale vergissing met een test (de ASVAB) rond 1980 bij de toelatingsselectie voor militaire dienst. Op grond daarvan werden veel kandidaten volgens de regels ten onrechte toegelaten, maar zich vervolgens, in een omgeving die van deze ‘fout’ evenmin op de hoogte was, even adequaat bleken te gedragen als ‘ten onrechte’ van ze werd verwacht. https://scholar.google.nl/scholar?hl=nl&as_sdt=0%2C5&q=%22Cast-off+youth%3A+Policy+and+training+methods+from+the+military+experience%22&btnG=

Scholar noemt 145 publicaties die naar Sticht c.s. verwijzen.  NB: het project van 100.000 rekruten dat daar wordt genoemd, is een ander onderzoek, ook behandeld door Tricht c.s., betreft een (omstreden) sociaal experiment. 

Wat er fout ging bij die militaire plaatsingstest, de ASVAB, is uitgezocht in dit militaire document:  https://apps.dtic.mil/sti/pdfs/ADA094684.pdf 

“... current operational norms are 15 to 17 percentile points too easy in the critical region between the 16th and 31st percentiles (figure 17)

*) Deze blog is een vervolg op (september 2020) ‘Kunnen eindtoetsen (voorheen de ‘citotoets’) valide zijn?’ https://benwilbrink.wordpress.com/2020/09/24/kunnen-eindtoetsen-voorheen-de-citotoets-valide-zijn/

Alle geslaagden zijn geschikt. Maar wat/wie is geschikt? A.D. de Groot, 1958

=======================================

Vooraf 

Voorzover ik weet is dit stuk van Adriaan de Groot niet gepubliceerd, maar op beperkte schaal verspreid.  Het stuk is zeker van belang voor inzicht in de ontwikkeling van het debat over selectie voor universitair onderwijs zoals dat in de decennia na 1958 op felle toon zou worden gevoerd.  Opmerkelijk is dan dat De Groot in dit problematiserende stuk probeert uit te leggen dat selectie maar beter aan de studenten zelf kan worden overgelaten, die daar dan wel steun bij moeten kunnen krijgen.  De psychologische diensten waar hij in dit stuk voor pleit, zijn er inderdaad gekomen.  

De Groot verwijst hier ook naar een groot onderzoek naar uitval aan de TH Delft (Bakker 1959).  Bij dat onderzoek is niet gevraagd naar positieve redenen om iets anders te gaan doen, bijvoorbeeld psychologie in Amsterdam; een blunder die wel vaker wordt gemaakt in uitvalonderzoek. Deels is dat goed gemaakt door te kijken waarnaartoe deze uitvallers zijn vertrokken: dat bleek toch vaak niet de maatschappelijke goot te zijn, maar dezelfde richting (werktuigbouw, chemische technologie, e.d.) maar dan op niveau van wat destijds de H.T.S. heette. 

Over studiestaken wordt nog altijd een hoop onzin beweerd, wat tot bizar onderwijsbeleid kan leiden. Zie een ontnuchterende analyse van mijn hand uit 1980. 

De Groot kaart hier het belang aan van een oriënteren en op zelf-selectie gerichte propedeuse, waarover ik in 1987 in opdracht van OCW een overzicht maakte (hoofdstuk over functies van de propedeuse). 

H. Th. Bakker (Red.) (1959). Mislukking en vertraging van de studie. Verslag van een onderzoek verricht aan de Technische Hogeschool te Delft 1953-1957. Delft: Technische Hogeschool. [niet online]

A. D. de Groot (1959). Studierendement bij het hoger onderwijs. Paedagogische Studiën, 36, 236-240. Herdrukt in <i>Pedagogische Studiën, 90</i>, 54-58. open access https://www.pedagogischestudien.nl/home

E. P. W. A. Jansen en A. F. M. Nieuwenhuis (2013). De vooruitziende blik van de Groot. Pedagogische Studiën, 90, 59-61. open access https://www.pedagogischestudien.nl/home

Ben Wilbrink (1980). Uitval en vertraging in het w.o.: een overschat probleem. Onderzoek van Onderwijs, 9 nr 4, 14-18. http://www.benwilbrink.nl/publicaties/80UitvalOverschatOvO.htm

Marjon Voorthuis & Ben Wilbrink (1987). Studielast, rendement en functies propedeuse. Relaties tussen wetgeving, theorie en empirie. Deelrapport 2: Evaluatie-onderzoek Wet Twee-fasenstructuur. Amsterdam: SCO-rapport 112. http://www.benwilbrink.nl/publicaties/87StudielastE2FSOenW.htm

========================================

A.D. de Groot (mei 1958). Een inleiding over de geschiktheid voor de universitaire studie gehouden door prof. dr. A.D.de Groot, hoogleraar aan de universiteit van Amsterdam. Universitair Contactorgaan. [mijn exemplaar is een fotokopie van Bureau Documentatie van de UvA, bw]

1. Wat is ‘geschiktheid voor de universitaire studie’

Het begrip ‘geschiktheid’ speelt in de toegepaste psychologie een belangrijke rol – bij allerlei selectie- en adviesproblemen. Het is echter een zeer problematisch begrip, niet alleen om het bekende verschijnsel van de vloeiende overgangen en de grensgevallen, die zich bij de onderscheiding van geschikt en ongeschikt voordoen, maar ook om meer principiële redenen. Het is onvermijdelijk, dat wij eerst bij het begrip stilstaan, voordat de praktische vragen, die in de toelichting bij dit agendapunt genoemd worden (studiekeuze, voorlichting, opsporen van ongeschkten, etc.) kunnen worden besproken. 

1) Allereerst: het heeft alleen zin van geschiktheid voor universitaire studie te spreken, als wij op het standpunt staan, dat niet ieder die een diploma v.h.m.o. heeft verworven ipso facto geschikt geacht moet worden voor de universitaire studies waarop zijn diploma hem het recht geeft zich toe te leggen. Dit lijkt een triviale opmerking, maar dat is het niet. Men kan zeer goed het standpunt verdedigen, dat dit zo zou moeten zijn, d.w.z. dat de universiteit op zich zou nemen ieder die een passend diploma heeft niet alleen toe te laten – wat zij nu ook moet doen – maar ook tot een eindpunt in zijn studie te brengen, voor zover hij zelf meewerkt en zijn best doet. Er is dan dus géén probleem van de geschiktheid van de student; alléén een probleem van de geschiktheid van de studie-inrichting. 

Er zijn, geloof ik, universitaire studies, waarvoor dit, wat betreft het vereiste begripsvermogen,wel zo kan worden gesteld: deze studies zijn niet principieel moeilijker, alleen méér en specialistischer, dan wat men in de vooropleiding heeft moeten verstouwen. Daarnaast zijn er echter andere studierichtingen – en ik denk hierbij vooral aan de exacte vakken – waarvoor dit standpunt niet houdbaar is. Hiervoor is zeker niet iedere (B-)diploma-bezitter geschikt. 

Houdt men onder het geschiktheidsbegrip ook rekening met de studiezin, de werkinstelling, de doorzetting, die de student moet opbrengen, om een universitaire studie tot een goed einde te brengen, dan kan men stellig volhouden, dat er voor iedere studierichting onder de rechthebbenden ‘ongeschikten’ voorkomen. 

2) In de tweede plaats: geschiktheid voor de studie moet worden afgegrensd van geschiktheid voor  het vak. In principe is het zeer goed mogelijk, dat uitstekende potentiële medici, leraren, psychologen de studiu niet aankunnen; en omgekeerd, dat geschikte studenten voor de beoefening van het vak ongeschikt zijn Ik zal me hierin niet verdiepen; aan de orde is 

alleen geschiktheid voor de studie.

3) Bij de beoordeling van studenten hanteren hoogleraren en stafleden vaak een intuïtief geschiktheidsbegrip, dat in sommige opzichten los kan staan van de gebleken studieresultaten. Onder de, na teleurstellingen, vertrokken en onder de sterk vertraagde studenten ken ik er verscheidene, die ik nu nog graag ‘zeer geschikt’ zou willen verklaren. Omgekeerd: volgens mijn intuïtieve beoordeling zijn er ook ongeschikten, die op de een of andere manier het doctoraal-diploma niet kon worden onthouden – en ik ben soms toch geneigd bij mijn oordeel te blijven. Speciale complicaties doen zich soms voor, wat de psychologie betreft, in verband met de vrij grote verschillen in studie-eisen en -programma tussen verschillende universiteiten.

Kortom: ‘gebleken’ geschiktheid of ongeschiktheid is voor ons intuïtieve oordeel niet altijd een beslissend argument. Van belang zou het zijn na te gaan, waarop zo’n intuïtief oordeel dan wel berust. Als het goed is, berust het op een omschreven, althans op een omschrijfbare conceptie van wat een studie in een bepaald vak eigenlijk moet inhouden, eisen en qua vorming tot stand brengen. Als ik hierop verder niet inga – om me voor het overige aan een meer empirisch geschiktheidsbegrip te houden – dan is dat niet omdat ik dit begrip en de discussie daarover niet belangrijk zou vinden. Integendeel. 

4) Houden wij ons wèl aan de feiten van de gebleken geschiktheid en ongeschiktheid – en dit moeten wij, zeker in de research, wel doen – dan doet zich toch nog een onaangename complicatie voor: Geschiktheid kan wel achteraf uit de feiten worden afgeleid, met volstrekte zekerheid; ongeschiktheid niet. Wie het klaarspeelt heeft getoond, dat hij het kan; wie het niet klaarspeelt, heeft niet getoond, dat hij het net kan. Misschien zou hij het gekund hebben: aan een andere universiteit, als die ene professor niet zo ‘lastig’ was , als de studie wat ingericht was geweest, als bepaalde omstandigheden niet zo hadden tegengezeten, enz. Het bewijs van òngeschiktheid is niet geleverd. Wie faalt in zijn studie kan zich daarmee altijd troosten; maar wie het falen – in verband met het geschiktheidsprobleem – wil bestuderen, staat voor een moeilijk probleem.  Deze asymmetrie is nooit geheel weg te werken: de positieve resultaten spreken duidelijke taal, de negatieve moeten eigenlijk moeizaam, geval voor geval, geïnterpreteerd worden. De statistieken van het h.o over het staken van en vertraging in de studie, geven wel een grof beeld van het rendement van het apparaat, maar leveren ons geen informatie over de oorzaken daarvan.  Om enige vat te krijgen op de vraag naar de òngeschiktheid, en naar verschillende soorten daarvan, is empirisch onderzoek en een zorgvuldige interpretatie van de uitkomsten daarvan nodig. 

2. Op zoek naar ‘ongeschikten’; de jaargang 1949 aan de t.h.

Het onderzoek, dat in 1953 en volgende jaren aan de t.h. te Delft is uitgevoerd door een interuniversitaire groep psychologen, heeft in dit opzicht enige verheldering aan kunnen brengen. Dat geldt met name voor de enquête, die onder al diegenen, die in 1949 te Delft waren aangekomen, werd gehouden. Het doel van het onderzoek was enig inzicht te krijgen ‘in de factoren, die remmend of bevorderend werken op het studieverloop’. Daarbij werd van meet af aan onderscheid gemaakt tussen ‘factoren, die tot gevolg hebben het staken van de studie’ en ‘factoren, doe tot gevolg hebben een vertraging van de studie’. Men mocht immers niet a priori aannemen, dat dit dezelfde factoren zijn.

De t.h. stelde voor dit onderzoek haar administratieve gegevens beschikbaar; op basis daarvan werden bijna 900 studenten van het jaar 1949 verdeeld in drie groepen: zij, die de studie reeds hadden gestaakt (binnen 4 jaar dus), de vertraagden (tenminste 2 jaar achter op het officiële studieproram) en de vlot studerenden. De percentages binnen de jaargang kloppen ongeveer met de rendementsstatistieken: ongeveer de helft behoort, volgens dit ruime criterium, tot de vlot studerenden; ruim 30% heeft de studie reeds gestaakt; bijna 20% is vertraagd.

Het ligt voor de hand de ‘ongeschikten’ allereerst te zoeken onder hen, die de studie gestaakt hebben. Helaas kwamen van deze categorie op de rondgestuurde enquête naar studie-ervaringen relatief de minste antwoorden binnen (ruim 60% tegen 90% bij de nog ingeschrevenen); wij hebben een vrij groot aantal vertrokken studenten niet meer kunnen bereiken. Een vergelijking van de antwoorden op de enquête van deze (172) respondenten met de antwoorden van de overigen leverde echter een aantal markante verschillen op. Ik zal U de details van de bewerking der antwoorden besparen, en alleen de grote lijn aangeven.

In de enquête werd in een 40-tal vragen geïnformeerd naar persoonlijke ervaringen in en met de studie, en, voor wat betreft de ‘stakers’, naar hun eigen visie op de factoren, die hadden geleid tot het besluit om de studie op te geven. Door een deels statistisch deels psychologisch-intuïtieve bewerking bleek het nu mogelijk een aantal ‘brede factoren’ op de achtergrond te onderscheiden, waarvan kan worden aangenomen, dat zij aan de gerapporteerde persoonlijke ervaringen ten grondslag hebben gelegen.

Dit waren de volgende factoren:

(direct,  (  S – verkeerde studiekeuze

zelf aan-

gegeven (  C – onvoldoende capaciteiten

primair  (  E – externe invloeden (mil. dienst, financiën)

(indirect, (  W – ondoelmatige werkmethoden, werkindeling

afgeleid, (  P – moeilijkheden in het persoonlijke vlak

secundair)(  SA – moeilijkheden in de sociale aanpassing aan ‘Delft’

De drie eerstgenoemde vormen directe, door de vertrokken studenten zelf als zodanig gevoelde oorzaken of aanleidingen tot zijn besluit; de andere drie kwamen voort uit de verdere analyse der enquête-uitkomsten, zij hebben een meer indirecte, secundaire werking in de beleving van de oud-student.

Deze factoren werden nu gebruikt om enig systeem te brengen in de casuïstiek van de 172 gevallen van studie-stakers, over wie zowel algemene administratieve als enquête-gegevens ter beschikking stonden. Van iedere student werd een kort rapportje samengesteld en op basis daarvan werden één of meer van de bovenstaande letters, als ‘oorzaken-formule’, eraan toegevoegd; b.v. S., of C.W., of E-SA, en dgl.

In hoeverre kan men nu van deze studenten zeggen, dat zij ‘ongeschikt’ zijn gebleken?

Het zijn vooral de eerste twee primaire factoren (verkeerde studiekeuze en onvoldoende capaciteiten) waar het hier om gaat. Daaraan kan men het begrip ‘ongeschiktheid’ wel binden; bij de overige factoren is dat veel minder duidelijk, omdat zij veel meer toegankelijk zijn voor verbetering, door leiding, hulp of steun. Deze twee factoren nu komen in het materiaal zelden in combinatie voor; zij zijn negatief gecorreleerd (rt = -.42). Dat wil zeggen, dat wij tenminste twee typen ongeschikten moeten onderscheiden: zij die de verkeerde deur zijn binnengegaan en die na korter of langer tijd voor zichzelf tot de conclusie zijn gekomen ‘Dit vak is niets voor mij; ik moet iets anders gaan doen’; en zij die tot de conclusie zijn gekomen: ‘Ik zou dit misschien wel willen voortzetten als ik het maar kon; maar de studie is voor mij te zwaar’; factor S-typen en factor C-typen. Factor S kwam in 55 van de 172 gevallen voor; factor C in 69 van de 172. Rekenen wij – met een reeks grove schattingen en correcties, die ik U zal besparen – terug naar de gehele jaargang, dan bestaat een kleine 10% van deze jaargang uit S-gevallen; en ruim 12% uit C-gevallen.

Met de S-gevallen zijn wij hiermee wel klaar. Uit het materiaal blijkt namelijk, dat degenen die tot deze conclusie komen (verkeerde keuze), dit meestal binnen de eerste 1 à 2 jaren doen. De factor C daarentegen komt evenveel, ja zelfs nog wat vaker voor onder hen die er pas na 3 of 4 jaar mee ophouden. Het is blijkbaar veel moeilijker om tot de conclusie te komen: ‘Ik kan het niet aan’ dan tot de conclusie: ‘Dit is niet wat ik zoek’. Factor C is naar het schijnt ook na 4 jaar nog niet uitgewerkt. Om deze nader te onderzoeken moeten wij ons dus ook tot de 141 vertraagde studenten wenden. 

De onderzoekings-procedure is bij deze groep wat anders geweest dan bij de studie-stakers. Wel is echter duidelijk gebleken, dat factor C – onvoldoende capaciteiten – ook bij het vertragingsverschijnsel een belangrijke rol speelt

In opvallend contrast hiermee staat de invloed van factor E: externe storende factoren (mil. dienst, financiën). De vertraagd studerenden zijn er als groep gemiddeld op dit punt beter aan toe, niet alleen beter dan de groep der vertrokkenen maar ook beter dan de groep des snel en normaal studerenden. Hetzelfde geldt voor de factor SA: sociale aanpassing. Vertraagd studeren gaat dus relatief vaak samen met een gunstige materiële situatie en een prettig, goed aangepast Delfts leven. Verder vertonen ook de factoren W (minder goede werkmethoden) en P (problemen in het persoonlijke vlak) een zeker verband met het vertragingsverschijnsel.

Het is moeilijk om binnen de groep der vertraagden een duidelijk ongeschiktheids-criterium op te stellen. Ook als zij zelf, blijkens de enquête, twijfelen aan hun capaciteiten, is dit geen beslissend argument: zij studeren tenslotte nog door – en het kan blijken, dat zij ten onrechte aan zichzelf hebben getwijfeld. In dit verband is de vraag van belang, hoe hun verdere studie-carrière , na 1953, in feite is verlopen. Bestuderen wij deze, dan vinden wij toch nog wel vele gevallen, waarin wij althans met een zekere waarschijnlijkheid van ongeschiktheid kunnen spreken. Van de 135 studenten, die in 1953 tot de vertraagden moesten worden gerekend, bleken er 15 (11%) ook nu nog geen propedeutisch examen te hebben gedaan; 62 (46%) hadden wel propedeutisch maar nog géén kandidaatsexamen gedaan – dit alles 8 jaar nadat zij waren aangekomen. Slechts 26 studenten van de vertraagde groep (19%) bleek na 8 jaar het ingenieursexamen te hebben behaald, dus géén noemenswaardige vèrdere achterstand te hebben opgelopen.

Wie van deze studenten – of ex-studenten – zijn nu voor de studie ‘ongeschikt’ gebleken? Wij kunnen het zonder nadere analyse niet vaststellen zolang ons de gegevens over de zelf getrokken consequentie en de motieven daartoe ontbreken, die bij de studie-stakers ons criterium vormden. Maar het lijkt wel heel waarschijnlijk, dat er in deze groep nog heel wat ongeschikten zitten; en in ieder geval vinden we hier de ernstigste lijdensgeschiedenissen. De frequentie van dit type lijdensgeschiedenis – na 4 jaar nog (vertraagd) studerend, na 8 jaar of ermee opgehouden, of nog studerend maar nog geen kandidaats – is, grofweg teruggerekend naar de totale jaargang, opnieuw 10%

Wat heeft het zoeken naar ‘ongeschikten’ nu, wat de t.h betreft, opgeleverd? Men zou kunnen zeggen: 1e. het bewijs, dat zij bestaan; 2e. een grove schatting van hun aantal: 20 à 30% van een jaargang; 3e. een differentiatie in twee typen.

Maar intussen heb ik nog iets anders gedaan. Ik heb langs een achterdeurtje een heel merkwaardige operationele definitie van ‘ongeschiktheid’ geïntroduceerd, door dit begrip te binden aan het besluit van de student zelf om te vertrekken en aan de oorzaken, motieven en studie-ervaringen, die hij zelf (in de enquête) heeft weergegeven. ‘Ongeschikt’ is, volgens ons criterium, wie zelf besluit de studie op te geven op grond van de ervaring, dat het niets voor hem is of dat hij het niet aan kan. Elliptisch uitgedrukt: ongeschiktheid komt tot stand bij wilsbesluit.

Dit lijkt een heel vreemde begripsbepaling, maar ik zou haar toch wel graag voorlopig willen handhaven. Ik meen dat zij door en door democratisch is, en voortreffelijk past in de Nederlandse traditie van studievrijheid.

3. Is geschiktheid-ongeschiktheid voorspelbaar?

Volgens onze definitie is het criterium voor geschiktheid het normaal voltooien van de gekozen academische studie, en het criterium voor ongeschiktheid het zojuist omschreven wilsbesluit. Tussen deze twee groepen in ligt dan een derde groep, voor wie wij geen antwoord kunnen geven op de vraag naar gebleken geschiktheid of ongeschiktheid, omdat zij wèl de studie afbreken, maar dit doen op grond van de ervaring, òf ‘dat het niets voor hen is’, òf ‘dat zij het niet aankunnen’.

Bij onderzoekingen naar de bepaling (of voorspelbaarheid) van de geschiktheid is het tot dusverre niet gelukt deze groep te scheiden van de ongeschikten. Zo diende ook in het Delftse testonderzoek van de jaargang 1953 als criterium niet de gebleken (on-)geschiktheid, maar een omschreven studie-resultaat, nl. het al dan niet geslaagd zijn voor het P1 (resp. P-) examen vóór oktober 1954 (dus binnen 1 jaar). De vraag is dan in hoeverre een dergelijk criterium – in het algemeen de mate van studie-succes – kan worden voorspeld uit bij de aanvang van de studie verkrijgbare gegevens.

Aan dit probleem is vaker gewerkt, niet alleen in het reeds genoemde Delftse onderzoek, maar bijv. ook voor wat de psychologie- en de medische studie betreft aan de universiteit van Amsterdam, verder ook in Utrecht. Gewoonlijk had men daarbij zijn  hoop  gesteld op test-variabelen als voorspellers, d.w.z. op gegevens, die bij een test-onderzoek van aankomende studenten kunnen worden verkregen. Daarnaast is meer dan eens nagegaan in hoeverre schoolresultaten van het v.h. en m.o. voorspellende waarde hebben in verband met het studiesucces. 

Over de bevindingen slechts een enkel woord. In het algemeen kan wel een zeker, soms sterker soms zwakker, statistisch verband  worden geconstateerd tussen testresultaten en schoolcijfers enerzijds, feitelijk studiesucces anderzijds.

Bij het Delftse onderzoek, dat zich over de gehele jaargang 1953 uitstrekte, werd een correlatie met het criterium (P1) gevnden van .44 voor het gemiddelde der eindexamencijfers voor de exacte vakken, en van .39 voor een attitude-test (studie-vragenlijst). Combinatie van deze twee voorspellers leidde tot een totaalcorrelatie van .56. Verder valt aan te nemen, dat deze totaalcorrelatie door voortzetting en verfijningvan het onderzoek wel tot ca. .70 op te voeren is- voor de t.h.

Bij andere, minder exacte, studierichtingen – waarvoor wellicht de factor C (capaciteiten) een minder sterke rol speelt – zou het wel eens moeilijker kunnen zijn dit niveau te bereiken. Toch is ook daar, door voortgezet systematisch onderzoek, stellig wel enige vat te krijgen op het geschiktheid/ongeschiktheid-probleem. Het blijft echter even stellig een statistisch verband – met vele uitzonderingen.  Een deel van die uitzonderingen hangt vermoedelijk samen met het feit, dat wij niet de (on-)geschiktheid als criterium hebben kunnen gebruiken, maar alleen het feitelijke studie-succes. Misschien is de ongeschiktheid in onze zin wel wat beter voorspelbaar – maar dit zou eerst door onderzoek moeten worden aangetoond. 

4. Praktische consequenties.

Welke praktische consequenties heeft deze gedachtengang en hebben de uitkomsten?

Men kan in principe  in twee richtingen verder denken. Men kan zeggen: voor zover ‘gebleken ongeschikthei’ (d.w.z. het nemen van het besluit om met de studie op te houden op de genoemde gronden) voorspelbaar is, wil ik van deze voorspelbaarheid gebruik maken door mensen die dit besluit waarschijnlijk zullen nemen de moeite te besparen, n.l. door ze niet toe te laten: het weren van ongeschikten dus: selectie

Over het eerste gezichtspunt kan ik kort zijn: ik geloof niet dat dit past in ons universitaire bestel. Ten eerste zijn de tot dusverre gevonden correlaties nogal zwak. Ten tweede zullen zij, ook als zij door verder onderzoek worden opgevoerd, toch steeds slechts een statistische samenhang representeren, op basis waarvan men een individuele student  niet een recht kan ontnemen noch een dringend advies kan geven. Ten derde is het criterium veranderlijk: met iedere wijziging in studie-inrichting of studenten-voorzieningen verschuiven de geschiktheids- en ongeschiktheidsgrenzen enigszins. Men kan ook zeggen: wie onder de studenten geschikt en wie ngeschikt zal blijken hangt sterk af van hoe ‘geschikt’ de universiteit voor de student is – in dubbele betekenis. Het lijkt niet verstandig in het tegenwoordige stadium van gewenste veranderingen in het universitaire bestel, waarin gezocht wordt naar een nieuwe conceptie van wat studeren eigenlijk moet zijn – ik refereer aan de voordracht van mr. Woltjer – te denken aan een vastlegging van selectie- en/of advies-normen en -procedures.

Denkend aan maatregelen wil ik me dus geheel houden aan de tweede mogelijkheid: Hoe kan de student hulp worden geboden bij zijn individuele besluitvorming, met name in geval van studie-moeilijkheden?  

Hierover kan ik kort zijn, en wel omdat in de Subcommissie Selectie van de Adviescommissie voor te treffen Voorzieningen ten behoeve van Studenten, tenslotte ook dit tweede standpunt geheel heeft gezegevierd. In het rapport van de commissie worden als middelen om dit doel te bereiken o.a. genoemd: de voorlichting; een aan iedere universiteit op te richten psychologisch bureau voor studieadviezen; de inrichting van de studie, met name van het eerste studiejaar.

In principe is het probleem heel eenvoudig. Als de student zelf in staat moet zijn een verstandig besluit te nemen inzake het – telkens terigkerende – probleem of hij zal doorgaan of niet, dan moeten hem de gegevens ter beschikking staan, die hij voor zo’n besluit nodig heeft. Hij moet iets over de studie en het vak weten resp. te weten kunnen komen; hij moet, in geval van twijfel, iets naders over zichzelf te weten kunnen komen; hij moet zekere ervaringen kunnen opdoen aan zijn persoonlijke verhouding tot de studie en het vak; hij moet ergens goed terecht kunnen voor een persoonlijk gesprek, ten behoeve van de besluitvorming.

Hij moet iets over de studie en het vak weten: hier kan een goede voorlichting het eerste werk doen (geschikten aantrekken, ongeschikten weren), terwijl een in het eerste studiejaar op te nemen college: encyclopaedie van het vak dit grondiger kan herhalen.

Hij moet iets over zichzelf te weten kunnen komen: zijn inelligentie, zijn positie ten opzichte van anderen, zijn succeskansen, zijn hadicaps: psychologisch test-onderzoek kan hierover waardevolle informatie verschaffen.

Hij moet zekere ervaringen kunnen opdoen aan zijn persoonlijke verhouding tot het vak: wil hij dit wel, en kan hij het aan? Kennismaking met het vak in het eerste jaar (college encyclopaedie) en confrontatie met eigen capaciteiten door tenminste één of ankele niet ‘propedeutische’ maar voor de studie representatieve tentamina in het eerste jaar werden hiervoor aanbevolen. 

Hij moet tenslotte, in geval van studie-problemen – werkmethoden, concentratie, het overwinnen van weerstanden, besluiteloosheid, examen-angst, en dgl. – ergens terecht kunnen voor een gesprek: het psychologisch bureau zij tevens counseling-centrum.

Daarmee zijn de belangrijkste lijnen wel getrokken. Ik heb me onthouden van verwijzingen naar andere landen, omdat ik geloof dat de wenselijkheden voor Nederland duidelijk liggen. 

mei 1958