metodologia_wyklad_8_9

Download Report

Transcript metodologia_wyklad_8_9

Roman Dolata
Zakład Ewaluacji Instytucji Edukacyjnych
Dyżury: piątki, 15.30-17.00, s. 314
[email protected]







Wygodnym formatem zapisywania danych
ilościowych jest macierz (tabela)
Wiersz macierzy to obiekt badany
Kolumna macierzy to zmienna (cecha obiektu)
Każdy obiekt ma unikalny identyfikator
Braki danych też zapisujemy w macierzy
Rodzaje braków danych: brak danych dla całego
narzędzia, brak danych dla danej pozycji
Losowe i nielosowe braki danych
Rozkład liczebności
Wyniki sprawdzianu 2009, rozkład dla kraju, n=400887
Rozkład procentowy
Wyniki sprawdzianu 2009, rozkład dla kraju, n=400887
Rozkład skumulowany, procentowy
Wyniki sprawdzianu 2009, rozkład dla kraju, n=400887
Podstawowe parametry rozkładu
1. Miary tendencji centralnej i inne miary pozycji
Wyniki sprawdzianu 2009, rozkład dla kraju, n=400887
• Średnia arytmetyczna x: 22,6
• Mediana Me: 23
• Pierwszy kwartyl (25 percentyl): 17
• Drugi kwartyl (mediana, 50 percentyl): 23
• Trzeci kwartyl (75 percentyl): 28
Jak wyznaczamy medianę i kwartyle
1. Porządkujemy wszystkie uzyskane wyniki od najmniejszego do
największego (400887 wyników, najpierw zera, potem jedynki itd.)
2. Poczynając od wyników najniższych szukamy takiego wyniku, że:
a) 25% wyników jest od niego niższych, a 75% wyższych – pierwszy kwartyl
b) 50% wyników jest od niego niższych, a 50% wyższych – drugi kwartyl, mediana
c) 75% wyników jest od niego niższych, a 25% wyższych – trzeci kwartyl
minimum
25% wyników
1. kwartyl
25% wyników
mediana
25% wyników
3.kwartyl
maksimum
25% wyników
Podstawowe parametry rozkładu
2. Miary zmienności wyników
Wyniki sprawdzianu 2009, rozkład dla kraju, n=400887
średnia
1. kwartyl
3. kwartyl
• Wariancja: 58,2
• Odchylenie standardowe: 7,6
• Odchylenie kwartylowe (ćwiartkowe): 11
Rozkład normalny
• Odgrywa ważną rolę w statystycznym opisie różnych
zjawisk przyrodniczych, społecznych i psychologicznych
• Ma interesujące właściwości matematyczne, dzięki
którym oparte na nim metody statystyczne są dość
proste obliczeniowo
Rozkład normalny
Normalizacja i standaryzacja
skala o średniej 100 i odchyleniu standardowym 15
Egzamin 1
Wyniki pierwotne
Egzamin 2
Egzamin 3
Normalizacja i standaryzacja
skala o średniej 100 i odchyleniu standardowym 15
Egzamin 1
Wyniki pierwotne
Wyniki
znormalizowane
Egzamin 2
Egzamin 3
Normalizacja i standaryzacja
skala o średniej 100 i odchyleniu standardowym 15
Egzamin 1
Wyniki pierwotne
Wyniki
znormalizowane
Wyniki po
przejściach
Egzamin 2
Egzamin 3
Standaryzacja
• Skala standaryzowana - skala przedstawiająca wyniki pomiarów
uzyskanych z dowolnej skali w postaci jednostek odchylenia
standardowego, czyli tzw. wyników standaryzowanych
• Zastosowanie skal standaryzowanych wynika z potrzeby
porównywania wyników uzyskanych na dwóch (lub więcej) skalach
pomiarowych o odmiennych właściwościach i przez to bezpośrednio
nieporównywalnych
• Najczęściej spotykanym sposobem standaryzacji jest tzw.
standaryzacja Z którą można wyrazić poniższym wzorem gdzie:
–
–
–
–
Zi - zmienna standaryzowana
SD - odchylenie standardowe w grupie
X - średnia w gupie
Xi – wynik i-tego ucznia
Skala wyników standaryzowanych z
• Uzyskane w ten sposób wartości wyników standaryzowanych
przyjmują wartości dodatnie lub ujemne, w zależności od tego, czy
odchylają się w górę, czy w dół od wartości średniej.
Autor, dr H. Szaleniec
Relacje pomiędzy pięcioma skalami standardowymi
Skala staninowa
Podstawowe modele analizy danych ilościowych
• Analiza rozkładu
• Analiza porównawcza rozkładów
• Analiza zależności między zmiennymi dla danych
nominalnych
• Analiza współzmienności dla danych na skali
interwałowej lub ilorazowej
Analiza rozkładu: dane nominalne
Analiza rozkładu: dane o znaczeniu absolutnym
60
odsetek gimnazjów
50
40
30
20
10
0
Rozkład procentowy gimnazjów ze względu na odsetek
dyslektyków. Dane z egzaminu gimnazjalnego 2006
61-100%
51-60%
41-50%
31-40%
21-30%
11-20%
1-10%
0%
odsetek dyslektyków
Analiza rozkładu: dane o znaczeniu względnym
Rozkład wyników sprawdzianu 2008 w Szkole Podstawowej X
w skali staninowej
Analiza porównawcza dwóch rozkładów
Sprawdzian 2009, szkoły publiczne i niepubliczne
miara
Średnia
Mediana
1. kwartyl
3. kwartyl
Wariancja
Odchylenie
standardowe
Roztęp ćwiartkowy
Publiczne
n=393982
22,6
23
17
28
57,7
7,6
Niepubliczne
n=6905
27,4
29
22
34
60,4
7,8
11
12
Analiza porównawcza dwóch rozkładów
Sprawdzian 2009, dwie szkoły
miara
Średnia
Mediana
1. kwartyl
3. kwartyl
Wariancja
Odchylenie standardowe
Roztęp ćwiartkowy
SP A
n=132
28,9
29
25
33
26,0
5,1
8
SP B
n=143
24,9
25
18
33
83
9,1
15
Analiza porównawcza dwóch rozkładów
Wykorzystanie skali staninowej
Analiza porównawcza rozkładów wyników sprawdzianu w roku
2006 i 2008 w Szkole Podstawowej X z wykorzystaniem skali
staninowej
Badanie zależności: dane na skali nominalnej
Tabela . Procentowe rozkłady odpowiedzi na pytanie ankiety ze względu na typ szkoły.
Zgodnie z przyjętymi rozwiązaniami maturzysta nie będzie musiał zdawać
egzaminu z matematyki. Czy jest to Pani/Pana zdaniem dobre rozwiązanie?
Typ szkoły
zdecydowanie
tak
raczej
tak
raczej
nie
zdecydowanie
nie
nie
mam
zdania
N
Średnie
zawodowe
36,8
34,0
16,7
8,1
4,3
209
Licea
ogólnokształcące
34,0
30,9
18,4
16,4
0,4
256
Łącznie
35,3
32,3
17,6
12,7
2,2
465
Badanie zależności: potrzeba kontroli innych
zmiennych
Tabela: Poziom religijności a głosowanie w wyborach.
Rozkłady procentowe (dane wymyślone na potrzeby dydaktyczne)
N
nie głosują
w wyborach
głosują w wyborach
niska
43%
57%
300
wysoka
57%
43%
300
Łącznie
50%
50%
600
Religijność
Badanie zależności: potrzeba kontroli innych
zmiennych, cd
Tabela: Poziom religijności a głosowanie w wyborach przy kontroli
wykształcenia. Rozkłady procentowe (dane wymyślone na potrzeby
dydaktyczne)
Wykształcenie
Religijność
niskie
wysokie
Łącznie
nie głosują
w wyborach
głosują w
wyborach
N
niska
70%
30%
100
wysoka
70%
30%
200
niska
30%
70%
200
wysoka
30%
70%
100
50%
50%
600
Badanie zależności: dane na skali interwałowej lub
ilorazowej
• Czy zmianom jednej zmiennej towarzyszą zmiany
drugiej zmiennej?
• Analiza graficzna: wykresy rozrzutu
• Możliwe do zastosowania statystyki:
- współczynnik korelacji r Pearsona
Korelacja dodatnia (pozytywna)
Korelacja ujemna (negatywna)
Korelacja zerowa (brak)
Korelacja nieliniowa
• Modele wpływu zmiennych niezależnych
na zmienną zależną
– Model wpływu addytywnego
– Model wpływu interakcyjnego
Interakcja genotyp-środowisko
Brak wpływu
180
160
"bystre"
140
"tępe"
120
100
zubożone
normalne
wzbogacone
Tylko wpływ genów
180
160
"bystre"
140
"tępe"
120
100
zubożone
normalne
wzbogacone
Tylko wpływ środowiska
180
160
"bystre"
140
"tępe"
120
100
zubożone
normalne
wzbogacone
Wpływ addytywny genów
i środowiska
180
160
"bystre"
140
"tępe"
120
100
zubożone
normalne
wzbogacone
Interakcja genotyp-środowisko
Tabele
• Zawiera informację, którą trudno jest czytelnie
przedstawić w tekście
• Zawiera tytuł, numer, nagłówek, część główną,
przypisy
• Konieczny opis znaczenia liczb umieszczonych w
tabeli, tak, aby można było ją zinterpretować bez
odwoływania się do tekstu
Typowa tabela w artykule naukowym
Tabela 1. Wyniki po terapii dla trzech podejść terapeutycznych
Rodzaj terapii
Behawioralna
Pomiary
Liczba
aktywności
Analityczna
4,6
3,8
2,1
16,7
15,3
17,5
a
Wyniki Becka b
a
Poznawcza
Średnia liczba podjętych aktywności rekreacyjnych w ciągu 1 tygodnia
Średni wynik w kwestionariuszu depresji Becka – im wyższy wynik tym
większa depresja
b
Elementy wykresu
• Wykres – graficzna ilustracja kluczowych wyników
• Poziomy zmiennej niezależnej zwykle umieszcza się
wzdłuż osi x, a wartości zmiennej zależnej wzdłuż
osi y; każda oś powinna być opisana
• Para wartości określa punkt na wykresie, który
może obrazować indywidualny wynik lub średnią
grupy dla konkretnej wartości zmiennej
niezależnej
• Rodzaje wykresów: histogramy, wykresy słupkowe,
liniowe, kołowe
Średni wynik
Wykres słupkowy
12
10
8
6
4
2
0
wynik testu
grupa A
grupa B
grupa C
A. Rywalizacja indywidualna B. Rywalizacja grupowa C. Współdziałanie
Wykres 1. Średnie wyniki w teście dla 3 grup badawczych
Wykres słupkowy – dwa czynniki
8
7
6
5
4
3
2
1
0
wysoki lęk
niski lęk
ochotnicy
nieochotnicy
Wykres 2. Zmiana postawy wobec brania narkotyków jako
funkcja wzbudzonego lęku i bycia ochotnikiem w badaniu.
Wykres liniowy
Liczba błędów
17
15
uczeń
dorosły
13
11
9
brak
niski
średni
Poziom hałasu
Wykres 3. Średnia liczba błędów w zależności od wieku i
poziomu hałasu przy wykonywaniu zadania
Wykres kołowy
15%
8%
12%
25%
60-69
20-29
30-39
40-49
50-59
40%
Wykres 4. Procentowy udział poszczególnych grup
wiekowych w grupie badanych osób