Manon Bonefaas

Passie voor onderwijs en ICT

kwaliteit, toetscyclus, toetsing

P-waarde de gemakkelijkheidindex

gecombineerde p en rit waarde

Wist je dat de p-waarde de gemakkelijkheidindex  van de vraag is?

Wat moet je daar nu mee met de p-waarde?

Ik leg het uit.

Opbouw item

Een item (vraag) is meestal opgebouwd uit:

  • De stam, de vraag zelf.
  • Het antwoord, de sleutel.
  • En de afleiders

Om te beginnen met de laatste, de makkelijkste, de afleiders.

Afleider

De a van a-waarde verwijst naar de afleider.

In toetssoftware wordt vaak de term afleideranalyse gebruikt. Ook als je geen gebruik maakt van toetssoftware kun je simpel een afleideranalyse maken.

Je telt eenvoudig het aantal antwoorden per gekozen antwoord alternatief. Dan bereken je per antwoordalternatief het percentage kandidaten dat voor deze variant gekozen heeft.

Rekenvoorbeeld:

Antwoord Gesteld Weegfactor Gekozen Percentage
Afleider A 205 1 1 0,49
Afleider B 205 1 50 24,39
Afleider C 205 1 65 31,70
Sleutel D (Goed) 205 1 89 43,41

Oké, en nu?

Je ziet hier dat één afleider nauwelijks gekozen wordt. Afleider A voegt niets toe.

Weglaten dus.

Wanneer je deze toetsvraag nogmaals gebruikt, laat je dit alternatief weg.

Door een afleideranalyse te doen zie je meestal erg snel dat meerkeuze vragen slechts drie antwoordalternatieven hoeven te hebben.

Bij meer dan twee afleiders (een afleider plus het goede antwoord zijn drie keuzealternatieven) zie je vaak dat enkele afleiders helemaal niet gekozen worden.

De vraag is dan waarom je die (niet gekozen) alternatieven zal aanbieden.

Afleider B en C hebben zulke hoge waarden dat je je af kan vragen of je de kandidaat niet aan het misleiden bent. Het verschil met het juiste antwoord is klein. Je moet in ieder geval nog eens goed naar de inhoud van deze afleiders kijken.

Of:

Je stelt vast dat de kandidaten het niet begrepen hebben.

De gemakkelijkheidindex

De sleutel is het goede antwoord. In bovenstaand voorbeeld is de sleutel antwoordalternatief D. De bijbehorende p-waarde is 0,43.

De p-waarde is de proportie goede antwoorden.

De p-waarde geeft de moeilijkheidsgraad van een item weer.

De Gruijter (2008) zegt daarover:

Eigenlijk is de p-waarde een gemakkelijkheidindex: de index is immers de proportie goede antwoorden.

Een lage p-waarde wijst erop dat maar weinig mensen de vraag goed beantwoord hebben. Mogelijk was de vraag te moeilijk. Of is de vraag foutief gesteld, een constructiefout in de vraag bijvoorbeeld.

Een hele hoge p-waarde geeft aan dat bijna iedereen de vraag goed gemaakt heeft.

Dat kan betekenen dat de vraag heel gemakkelijk was.

Te makkelijke vragen leveren geen bijdrage aan een toets. Daarnaast leiden ze de goede leerling af.

De leerling denkt dat het zo eenvoudig niet kan zijn.

Voor een item is een p-waarde tussen 0,3 en 0,8 optimaal.

Een hoge p-waarde kan ook betekenen dat iedereen alles heel goed heeft begrepen.

Tja en wat moet je er dan mee?

Eigenlijk wil je dan wel graag zien hoe de vraag het in de rest van de toets deed.

Hebben de mensen die dit item goed gemaakt hebben de toets gehaald? En andersom zijn de mensen die deze vraag niet goed deden gezakt?

Dat kun je bekijken met de Rit-waarde.

Rit-waarde

De Rit-waarde is de item test correlatie of de item totaal correlatie.

Het uitgangspunt is dat we denken dat de goede kandidaat meer vragen goed zal beantwoorden dan de slechte kandidaat.

We willen dus dat een vraag het onderscheid maakt tussen goede en slechte kandidaten. Daarom kijken we naar de totaalscore op de toets in relatie tot de vraag.

De Rit waarde geeft het onderscheidend vermogen van het item aan.

De Rit waarde geeft aan hoe goed het item afzonderlijk, hetzelfde meet als de toets in het geheel. Oftewel hoe goed het betreffende item in de toets past.

We verwachten dat de totaalscore van de toets en de score op het item een positief verband hebben, dus hoger dan 0,20 bijvoorbeeld.

Wanneer de Rit-waarde nul is draagt het item niet bij aan het onderscheid tussen de goede en slechte kandidaten.

Dat doet zich bijvoorbeeld voor wanneer iedereen de vraag goed beantwoord heeft. De p-waarde is dan één. De Rit-waarde is nul. Ook wanneer niemand de vraag goed heeft is de Rit-waarde nul.

Voorbeeld

Maar wat nu wanneer je een p-waarde van 0,24 hebt en een Rit waarde van -0,068?

Je kan in ieder geval zeggen dat hier sprake is van een moeilijke vraag.

Deze vraag maakt geen onderscheid tussen de kandidaten met een hoge en een lage score. Dat willen we juist wel.

In dit geval moet je de vraag goed gaan bekijken, zitten er bijvoorbeeld constructiefouten in de vraag?

Bij nader inzien kan het zijn dat een vraag ervaren wordt als misleidend. De kandidaat wordt op het verkeerde been gezet. In dat geval zul je de vraag moeten herzien. Soms is ook het verkeerde alternatief als juist aangegeven. Ook dat kan leiden tot vreemde p- en Rit-waarden.

Je kunt de p- en de Rit-waarde in een grafiek uitzetten. In deze grafiek, van de gecombineerde p- en Ritwaarden, zie je de verschillende items:

gecombineerde p en rit waarde

De items in de rode vlakken moeten in ieder geval onder de loep genomen worden.

Verder valt hier op dat er wel erg veel makkelijke items zijn (hoge p-waarden). De norm voor een acceptabele Rit waarde varieert. In de literatuur wordt over het algemeen de volgende normering aangehouden:

0.40 en hoger zeer goed
0.30 – 0.39 goed
0.20 – 0.29 twijfelachtig
0.19 en lager slecht

Kortom:

Het is altijd zinvol om een analyse van p-,a- en Rit-waarden te doen. Hoe summier ook. 

De toetsafname is geen eindpunt maar juist een startpunt om aan kwaliteitsverbetering te werken.

Wanneer je kritisch naar je analyse kijkt en er wat mee doet zal de kwaliteit van je toets omhoog gaan.

Geef een reactie

Deze website gebruikt Akismet om spam te verminderen. Bekijk hoe je reactie-gegevens worden verwerkt.

Thema door Anders Norén

%d bloggers liken dit: