Různé testy, přesto společné hodnocení

Vydáno:

Test z angličtiny měl dvě verze. Lenka psala lehčí a získala 70 % bodů, Tomáš psal těžší a získal 50 % bodů. Dá se určit, kdo z nich je lepší?

Různé testy, přesto společné hodnocení
Mgr.
Jan
Hučín
 
analytik společnosti SCIO
Ať se budeme snažit sebevíc, nikdy se nám nepodaří vytvořit dva naprosto stejně obtížné testy. I učitel s mnoha lety praxe a desítkami sestavených písemek pro své žáky někdy musí uznat, že jeden z nich byl těžší než druhý. A tedy 50 % bodů v jednom testu nemusí znamenat stejný výkon jako 50 % bodů v druhém.
I tak se ale někdy dají
porovnat výsledky žáků, kteří psali různé testy.
Hodilo by se to každému učiteli, který zadává písemku, žákům v lavici vlevo dá variantu A a žákům vpravo variantu B; měl by totiž zajistit, aby známkování podle obou testů bylo stejně spravedlivé. Porovnání je však užitečné i u testů opakovaných zpravidla s ročním odstupem - přijímací zkoušky (přijmeme letos stejně kvalitní žáky jako loni?), maturitní písemka (nechceme toho letos na jedničku víc než loni?), test po probrání souvětí souřadného apod. A pokud bychom uměli plnohodnotně porovnat výsledek žáka ve vstupním a výstupním testu, dověděli bychom se, kolik se toho mezitím naučil.
Jak takové porovnání různých testů zajistit? Postupům pro
porovnání výsledků v různých testech
se říká
harmonizace
a opírají se někdy i o složité matematické vzorce, proto je popíšeme jen stručně.
Nejjednodušší je případ, kdy jsou skupiny účastníků obou testů rovnocenné.To se stává třeba tehdy, když se účastníci náhodně rozdělí mezi dvě souběžné varianty nebo když skupina stejných lidí absolvuje oba testy nedlouho po sobě. Pak u každé varianty zjistíme skóre prostředního v pořadí (tzv. medián) a k tomu jedinců na hranici nejlepší čtvrtiny a na hranici nejhorší čtvrtiny (tzv. horní a dolní kvartil). Skóre prostředních v obou variantách si odpovídají, podobně si odpovídají skóre jedinců na hranici nejlepší čtvrtiny atd. Kdyby v příkladě na začátku byl medián lehčího testu 68 % a medián těžšího testu 52 % a účastníci byli do variant rozděleni náhodně, byla by Lenka (nad mediánem) lepší než Tomáš (pod mediánem).
Složitější to je, když skupiny nemůžeme považovat za rovnocenné. To je případ testů, mezi kterými je větší časový odstup nebo jejichž účastníci se něčím mohou lišit (začátečníci versus pokročilí, chlapci versus dívky, různé ročníky, různé zastoupení škol podle typu apod.). Pak je třeba testy propojit přes úlohy; tedy do obou testů se zařadí určitý počet shodných úloh (tzv. kotvicích). Dokonce lze postupným propojováním vytvářet „řetězce“ testů, jejichž úlohy mají parametry stále vztažené ke stejné škále, ale přitom kromě sousedních „článků“ nemají žádné společné úlohy. Tento postup je složitější a používají se při něm sofistikované modely (např. celosvětově používaná itemresponse theory, IRT). I tuto metodu ale mohou učitelé ve své práci využít, byť nemohou dodržet všechny standardní postupy měření.
Na závěr ještě zmíníme ideální případ, ke kterému bohužel v podmínkách našeho školství máme stále poměrně daleko. Pokud se podaří definovat standardy, vytvořit dostatek úloh a tyto úlohy
úspěšně projdou certifikačním procesem
(tj. přesně odpovídají požadavkům standardu, což je mnohem náročnější podmínka, než se zdá), můžeme pro testování shody se standardem použít libovolnou sadu úloh a výsledky budou srovnatelné. Tohoto principu administrátoři testů využívají tak, že do testu náhodně vyberou určitý počet úloh z připravené banky. Nejsou-li však všechny úlohy v plné shodě se standardem, může obtížnost takto vygenerovaného testu velmi kolísat, nedá se vůbec spolehnout, že bude vždy stejná.