Jak analizować wyniki matur czyli dlaczego staniny są do niczego. Aktualizacja.

Ministerstwo Edukacji Narodowej wymyśliło sobie użycie skali staninowej jako narzędzia do analizy wyników wszelkich egzaminów, od sprawdzianu gimnazjalnego aż po egzamin maturalny. Wiem, że część nauczycieli zwłaszcza humanistów ma trudności z interpretacją wyników oraz poprawną analizą. W poście tym przedstawię teoretyczne podstawy skali staninowej, model analizy wyników oraz argumenty dlaczego metoda dobra dla ministerstwa nie sprawdza się dla szkół i jak można usprawnić tą metodę. Nie będę pisał tutaj o innych elementach analizy, zdawalności poszczególnych przedmiotów ich wybieralności czy łatwości zadań. Skupie się tylko na staninach.

Czym są staniny?

Aby odpowiedzieć na to pytanie należy najpierw dowiedzieć się cym jest rozkład normalny i dlaczego go stosujemy. Rozkład normalny zwany także rozkładem Gaussa jest jednym z najczęściej używanych rozkładów zmiennej losowej. Jeżeli mierzymy jakąś wielkość, która jest sumą lub średnią bardzo wielu drobnych losowych czynników np. mierzymy wzrost mieszkańców jednego miasta (duża ilość pomiarów) i otrzymane wyniki zapiszemy sobie w postaci histogramu gdzie na osi poziomej będą przedziały mierzonej wielkości (np wzrost co 2 cm), a na osi pionowej  ilość wyników w danym przedziale to otrzymamy krzywą przypominającą dzwon. Krzywa ta prezentuje właśnie rozkład Gaussa.

Skalę staninową uzyskamy dzieląc rozkład Gaussa na  dziewięć części. Każda z tych części nosi nazwę staniny.

  • stanina pierwsza: 4% wyników z całej puli będzie się w niej znajdowało (najniższe wartości – 4 % ludzi o najniższym wzroście) .
  • stanina druga: 7% wyników (większych od najniższych) z całej puli (mieszkańcy o wzroście większym niż poprzednie 4%)
  • stanina trzecia: 12% wyników (większych od poprzednich) z całej puli (mieszkańcy o wzroście większym niż poprzednie 4% oraz 7% )
  • stanina czwarta 17% wyników (większych od poprzednich) z całej puli (mieszkańcy o wzroście większym niż poprzednie 4% + 7% +12% = 23% mieszkańców )
  • stanina piąta 20% (większych od poprzednich) z całej puli (mieszkańcy o wzroście większym niż poprzednie 40% mieszkańców )
  • stanina szósta  17% wyników (większych od poprzednich) z całej puli (mieszkańcy o wzroście większym niż poprzednie 60% mieszkańców )
  • stanina siódma 12% wyników (większych od poprzednich) z całej puli (mieszkańcy o wzroście większym niż poprzednie 77% mieszkańców )
  • stanina ósma 7% wyników (większych od poprzednich) z całej puli (mieszkańcy o wzroście większym niż poprzednie 89% mieszkańców )
  • stanina dziewiąta 4% wyników z całej puli (najwyższe 4 % mieszkańców)

Podzielone są one na trzy grupy tzw. staniny niskie (1,2,3), średnie (4,5,6) i wysokie (7,8,9) dla matur są to odpowiednio niskie średnie i wysokie wyniki. Aby łatwiej to zrozumieć najlepiej przedstawić to na rysunku.

 

Stannina

Staniny

Centralna komisja egzaminacyjna zbiera wyniki ze wszystkich szkół wykreśla histogram, dzieli go na 9 części otrzymując rozkład staninowy. Dzięki temu otrzymuje progi punktowe po przekroczeniu, których uczeń klayfikowany jest do danej staniny.Jeżeli  egzamin był łatwy punkty będą wyższe i krzywa przesunie się w prawo cały czas zachowując kształt. Staniny mówią nam o wynikach ucznia na tle całej populacji piszącej maturę z danego przedmiotu.

Wyniki matury język polski poziom podstawowy

Wyniki matury język polski poziom podstawowy

Wyniki matury język polski poziom rozszerzony

Wyniki matury język polski poziom rozszerzony

Jak widać powyżej dla poziomu rozszerzonego (lepsi uczniowie) wykres przesunął się w prawo ale kształt został zachowany. Dalej mamy 9 stanin mają one tylko inne granice punktowe.

Analiza stanin.

Staniny z całej populacji dla Centralnej Komisji Edukacyjnej niewiele znaczą. Jak napisałem wyżej krzywa dzwonowa zawsze ma taki sam kształt. Znaczenie ma tylko przesunięcie krzywej, które świadczy o dobrze dobranym poziomie egzaminu. Jeżeli krzywa za bardzo odbiega w lewo więcej osób nie zdało egzaminu,  jest zbyt trudny dla przeciętnego kowalskiego, krzywa przesunięta za bardzo w prawo uczniowie zdobyli średnio więcej punktów i egzamin za łatwy. Uwzględnienie rozkładu staninowego dla poszczególnych typów szkół daje nam informacje o poziomie nauczania względem całego kraju. W raporcie CKE analiza taka jest zrobiona tylko na tle rozkładu normalnego. Podobną zależność mogą znaleźć szkoły. Sprawdzając w jakich staninach znajdują się ich uczniowie widać czy szkoła uczy dobrze (wyniki w staninach 6-9) Im bardziej w prawo przesunięty wykres tym lepiej dla szkoły (patrz trzy ostatnie rysunki). Należy jest to po prostu wkład szkoły w wyniki krajowe. Dodatkowe danse uwzględniające zdawalność przedmiotu oraz łatwość poszczególnych zadań daje naprawdę dobry obraz poziomu nauczania przedmiotu. Właśnie ze względu na łatwość nie należy porównywać stanin uzyskanych w różnych latach. Porównanie wyników egzaminu maturalnego z wynikami egzaminu gimnazjalnego może dać wgląd na wykorzystanie potencjału uczniów. Należy tylko umiejętnie przełożyć test ogólny (humanistyczny i matematyczno-przyrodniczy) na poszczególne przedmioty. Mając do dyspozycji analizę gimnazjalną oraz EWD można się pokusić o sprawdzenie przyrostu wiedzy. Dzięki tej całkowitej analizie pokażemy jakim „materiałem” dysponowaliśmy czy uczniowie wychodząć z gimnazjów już mieli braki w wiedzy (zwłaszcza biorąc pod uwagę przyszłą reformę i ciągłość nauki). Należałoby także zbadać skalę staninową w zależności od miejsca zamieszkania zarówno wieś-małe miasto-miasto jak i województwa. Zauważymy, które rejony należy wspomóc.

Dlaczego staniny się nie nadają.

Teraz kilka zdań o bezużyteczności analizy stanionwej zwłąszcza nie posiadając dokładnej wiedzy o egzaminie gimnazjalnym. Podstawowym problemem wspominanym kilka razy jest zbyt mała populacja. CKE dysponuje danymi ze wszystkich szkół i badana populacja liczy kilka  – kilkaset tysięcy uczniów (380 tyś. język polski – 800 historia sztuki). Natomiast przeciętna szkoła ma 120-200 maturzystów. Tylko przedmioty obowiązkowe są zdawane przez wszystkich czyli tylko język polski, matematyka oraz ewentualnie dwa najpopularniejsze języki: angielki i niemiecki wchodzą w rachubę.  Pozostałe przedmioty zdaje zbyt mała liczba uczniów. Poniżej przedstawiłem rozkład staninowy dla różnej wielkości próbek. Dane zostały uzyskane metodą transformaty Boxa-Mullera próbki liczą odpowiednio 5000, 2500, 1000, 150 -średniej wielkości szkoła (polski, matematyka, j. angielski i j. niemiecki), 30 – średniej wielkości klasa oraz przedmioty typu geografia, WOS, inne języki, 10 i 5 osób dla zdających przedmioty pozostałe typu chemia, wiedza o tańcu:

Staniny dla 5000 wyników

Staniny dla 5000 wyników

Staniny dla 2500 wyników

Staniny dla 2500 wyników

Staniny dla 1000 wyników

Staniny dla 1000 wyników

Staniny dla 150 wyników

Staniny dla 150 wyników

Staniny dla 30 wyników

Staniny dla 30 wyników

Staniny dla 10 wyników

Staniny dla 10 wyników

Staniny dla 5 wyników

Staniny dla 5 wyników

Widać, że w miarę zmniejszania zmniejszania populacji kształt krzywej odchodzi od krzywej dzwonowej. Rozkład Gaussa można stosować tylko dla populacji minimum 100 punktowej, a i to wyniki mogą być zafałszowane. Dla mniejszych próbek (około 50) należałoby stosować krzywą t-Studenta. Mała próbka powoduje, że uczeń stanowi promil procentowy w wynikach, ale badamy „jakość” kształcenia czyli, po której stronie leżą. Jeżeli mamy szczęście nasi promilowi uczniowie mogą wpasować się w górne staniny i mamy genialną młodzież (patrz staniny dla 5 wyników). Dla najmniejszych próbek, poniżej 20 uczniów należałoby raczej stosować rozkład Poissona. Przy języku angielskim dodatkowym błędem jest wybieranie tego języka przez osoby, które uczyły się innego jako zaawansowanego. Słabiej znając ten język zaniżają wyniki. Ławo to zaobserwować w postaci podwójnego garbu. Obserwować należy słupki koloru niebieskawego, bordowe służyły innym celom.

Podwójna krzywa

Podwójna krzywa (ręcznie wskazany trend)

Analizując wyniki krajowe widać, że graniczne wyniki były podciągane. Nagły skok w okolicy drugiej  i trzeciej staniny (rys. „Wyniki matury język polski poziom podstawowy„). Poniżej przedstawia trzy losowe rozkłady dla klasy słabej średniej i dobrej.

Dobra klasa

Staniny dla klasy dobrej, przesunięte w prawo

Wyniki dla klasy wyrównanej

Wyniki dla klasy wyrównanej, płaski kształt

Staniny dla klasy słabejP.S

Staniny dla klasy słabej, przesunięcie w lewo

Podsumowując.

Wewnątrz szkolną analizę należy przeprowadzić  w oparciu o zdawalność, wybieralność przedmiotów oraz łatwość zadań dla poszczególnych uczniów. Łącząc dane uzyskane z analizy egzaminu gimnazjalnego otrzymamy pełną i sensowną analizę. Możemy pokusić się także o dodanie informacji i wyborze kierunków dalszego kształcenia oraz o tym czy udało się uczniom osiągnąć zamierzone kierunki kształcenia. Jeżeli kształt powstałej krzywej przypomina krzywą Gaussa/t-Studenta wtedy kształcenie w szkole jest prowadzone prawidłowo dysponujemy po prostu słabszą próbka, czyli nasi uczniowie mają słabsze zdolności. Do takich przypadków dochodzi w szkołach wiejskich oraz w mniejszych miastach, gdzie uczniowie maja utrudniony start.

Pozdrawiam.

P.S.

Jak tylko zostaną opublikowane wyniki oraz wstępna analiza CKE. Przygotuje i udostępnię arkusze kalkulacyjne excela wyliczające ładnie staniny.

Informacje Radom
Informatyka jest tak samo nauką o komputerach jak astronomia jest nauką o teleskopach.

13 Responses to Jak analizować wyniki matur czyli dlaczego staniny są do niczego. Aktualizacja.

  1. asdf says:

    Powiedz mi, jak zamierzasz porównać na podstawie stanin wyniki egzaminu gimnazjalnego z maturalnymi i wyciągnąć wnioski dotyczące tego jakie uczeń zrobił postępy?
    Przecież staniny te ustalane są na podstawie dwóch różnych populacji: gimnazjalny zdają wszyscy a maturalny już nie. To są dwie nieporównywalne rzeczy. Pomijam fakt, że mamy do czynienia z dwoma różnymi typami egzaminów.
    Nie do tego służy skala staninowa. Potem to czyta jakiś durny dyrektor (taki jak mój), które nie potrafi liczyć ani nie rozumie pojęcia procentu, mimo, że mgr inż. przed nazwiskiem i udowadnia jakieś głupoty.

    • Radom says:

      Nie zamierzam na podstawie stanin porównywać wyników obu egzaminów ani wyciągać żadnych wniosków odnośnie postępó ucznia. Nigdzie w tekście nie napisałem, o ile pamiętam, że można tak robić. Staniny służą do porównania szkoły (czy innego podmiotu badania) na tle całości/innych. Dzięki temu wiem jak wypadają uczniowie z mojej szkoły na tle innych szkół. Czy uczymy lepiej czy słabiej, a raczej jakie wyniki osiągamy. W tekście raczej pokazałem dlaczego statniny są do niczego. Jeżeli chcemy wskazać postępy ucznia należy zmodyfikować równie bzdurnie i często nieumiejętnie stosowane EWD. Dostosować należy jego założenie i mechanikę jaka za nim stoi i przeliczyć. Postępy mierzymy badając i przewidując trend, staniny opisują nam rozkład zjawiska. Jeżeli Twój dyrektor koniecznie chce ze stanin szukać postępu to prędzej należy porównywać staniny uzyskane w poprzednich latach i w jakiej grupie się znajdujecie.
      Dyrektor nie musi znać się na analizie staninowej. W takim przypadku powinien zostawić analizę osobom, które mają o tym pojęcie (matematycy,fizycy) albo wysłać na odpowiednie szkolenie. Jednak nawet na takim szkoleniu zdarza się, że prowadzący nie potrafi przekazać idei stanin poprawnie.

      Pozdrawiam

  2. michal szurek says:

    Po pierwsze: proszę się nauczyć właściwej terminologii. Między innymi mówi się stanin, nie stanina. Poza tym wyważa Pan (Pani? – niekiedy piszesz, człowieku o sobie w rodzaju męskim a niekiedy w żeńskim) otwarte drzwi, pisząc że staniny się nie nadają do małych populacji. No pewnie. Srubokręt dobry do śrub okrętowych nie nadaje się do zegarka. Prosze się pouczyć trochę statystyki (a także języka polskiego: składnia Pana/Pani zdań jest niekiedy humorystyczna) i dopiero potem pisać. Zyczę sukcesów

    • Radom says:

      Wyrażenia stanina w rodzaju żeńskim używała polonistka, z mojej szkoły dlatego i ja tak stosowałem. O sobie w rodzaju żeńskim napisałem raz, jakiś misklik. Wiem, że mój polski nie jest zbyt śliczny, nigdy nie potrafiłem dobrze napisać tego co mówię lub myślę. Blog ma być także formą ćwiczenia pisania tekstów.

      Nie rozumiem co ma Pan na myśli mówiąc o wyważaniu otwartych drzwi. Jeżeli, sądząc po porównaniu do śrubokrętu, chodzi Panu o to, że skala staninowa jest stosowalna dla dużych populacji to się zgadza. Niestety w analizach wewnątrz szkolnych dyrektorzy polecają stosować skalę staninową do analizy wyników maturalnych. Proszę mi powiedzieć w jaki sposób mogę z analizować pracę nauczycieli mając 4-5 uczniów stosując skalę staninową. Owszem mogę ich umiejscowić na tle kraju ale to nie określi mi jakości kształcenia. Inaczej wygląda uczeń, który przychodząc do szkoły z 8 pkt z egzaminu gimnazjalnego kończy w staninie trzecim, a inaczej ten, który uzyskał 70 pkt na egzaminie gimnazjalnym i jest w staninie czwartym na maturze. W pierwszym przypadku nauczyciele wykazali się większym przyrostem umiejętności. Ze statystyką i analizą danych nie miałem problemów na studiach i jest mi ona znana. I dlatego twierdzę, że rozkładu normalnego jakim jest skala staninowa nie można stosować do analizy przypadków poniżej 50. Wiedzę czerpałem m.in z książki „Podstawy metod opracowania pomiarów” – Bielski Andrzej, Ciuryło Roman oraz z ich wykładu.

      Pozdrawiam i czekam na odpowiedź
      P.S.
      Czy Pan Michał Szurek z „Rozmaitości matematycznych” z MT.

  3. Pingback: Podsumowanie roku na wordpressie « Radom blog

  4. iwona says:

    bardzo pomocny materiał. dziękuję. iwona

  5. Maciej K says:

    Mam dwie uwagi. Dotyczą one szczegółów, ale w nich podobnież bestia straszliwa, diabłem lub szatanem przez niektórych zwana, wakacje spędzać lubi.
    Po pierwsze: skrót „tyś.” jest niepoprawny. Jest on pewnym zjawiskiem fonetycznym, ale skrót dla słowa „tysięcy” to definitywnie „tys.”.
    Po drugie: nie przestrzega Pan rozróżnienia pomiędzy terminem „liczba” (dla rzeczowników policzalnych), a terminem „ilość” (dla niepoliczalnych). Z całą pewnością nie mówimy, że ilość pomiarów wzrostu w populacji Y wyniosła X.

  6. gg says:

    Dzięki za super wyjasnienie – jasno i rzeczowo 🙂

  7. marian kolodziej says:

    Teoretyzuj pleciugo byle długo, a konkretnego przykładu jak obliczyć staniny to nie ma

  8. badacz says:

    Oczywiście to bardzo dobrze, że zajmuje się Pan w wolnym czasie analizą wyników maturalnych, ale odnoszę wrażenie, że w swoich analizach popełnia Pan pewien błąd.

    Zmienną przekształca się na skalę staninową transformacją y=Z(x)*2+5 tylko dla zmiennej posiadającej rozkład ciągły normalny. Gdy wiemy, że zmienna nie posiada takowego rozkładu, nie wykonuje się wspomnianej transformacji, lecz po prostu wlicza się:
    – 4% najniższych wyników do 1 stanina.
    – dalsze 6,6% do 2 statnina
    – dalsze 12,1% do 3 stanina
    itd.

    Dlatego poprawnie przeprowadzone skalowanie nie może spowodować, aby w wyniku odkształcenia rozkładu od normalnego w okolicach progu zdawalności do pewnego stanina trafiło więcej uczniów niż powinno.

    Stałym problemem jest oczywiście nieciągły charakter zmiennej standaryzowanej. Ale piszę to, aby zwrócić na błąd, a nie dlatego, że jestem zwolennikiem skali staninowej. Skala ta jest bezsensowna z podstawowego powodu: skoro mamy pełne wyniki, w tym odpowiedzi na konkretne pytania, to analizujmy całość informacji np. skalowaniem IRT, zamiast wykonywać standaryzację, która prowadzi do utraty większości posiadanych przez nas informacji.

    Pozdrawiam

    • Radom says:

      Witam

      Zgadza się, że przy rozkładzie staninowym nie występuje odkształcenie przy progu zdawalności zwłaszcza, że ten próg jest tylko jedną z wartości w danym staninie. Te przeklamania, które przedstawiłem na zdjęciach to rozkład rzeczywisty. W przypadku rozkładu staninowego stosownego w szkole to otrzymuje się progi, a następnie wyniki uczniów przypisuje się do tych progów, stąd wiadomo jaki poziom „osiągnęła” szkoła. W swoich analizach umieściłem również rozkład uzyskany w sposób proponowany przez Ciebie (uznaję, że w Internecie poza oficjalnymi pismami jesteśmy sobie równie wiec również proszę mi nie panować). W przypadku pojedynczej szkoły nie ma sensu analizować wyników przy pomocy stanin. Gdyż progi procentowe dają nam ułamki uczniów. Sprawdzając w jakich progach mieszczą się uczniowie ma jedynie sens aby pokazać „ogólny” wkład szkoły i jej miejsce w na tle innych. Nie uzyskujemy, żadnych informacji na temat rzeczywistej efektywności kształcenia. Sam proponowałem stosowanie pewnego rodzaju EWD.

      Ps.
      Nie zajmowałem się analizą w wolnych chwilach należało to do moich obowiązków.

      Pozdrawiam
      Radom

Dodaj komentarz