metodologia_wyklad_4_7

Download Report

Transcript metodologia_wyklad_4_7

Roman Dolata
Zakład Ewaluacji Instytucji Edukacyjnych
Dyżury: piątki, 15.30-17.00, s. 314
- Streszczenie




Przedstawienie problemu badawczego
Metoda, czyli opis sposobu rozwiązania
problemu badawczego
Przedstawienie wyników
Dyskusja wyników
- Bibliografia
- Aneks


Abstrakt to krótki opis badania
Zawiera opis:
◦ pytania/hipotezy badawczej
◦ metody badania (próba, podstawowe pomiary,
model analizy danych)
◦ najważniejszych wyników
oraz słowa kluczowe




Wstępne określenie problemu, dlaczego jest
ważny?
Przegląd literatury – co wiemy?
Definicje kluczowych pojęć
Sformułowanie pytania/hipotezy badawczej
na poziomie teoretycznym




Podręczniki (spis treści, indeks rzeczowy,
słowniczki kluczowych pojęć)
Encyklopedie przedmiotowe
Monografie danego zagadnienia
Artykuły w prasie naukowej, w tym
elektroniczne bazy tekstów:
◦ artykuły przeglądowe, metaanalizy
◦ raporty badawcze
www.buw.uw.edu.pl






Krytycyzm i szacowanie wartości źródła
Unikanie omawiania „z drugiej ręki”
Dokumentowanie źródeł
Pamiętanie cały czas, czemu służy przegląd
literatury: synteza dotychczasowej wiedzy na dany
temat
Zwracanie uwagi zarówno na otrzymane wyniki jak
i na stosowane metody badania
Poszukiwanie badania „wzorcowego” dla naszego
problemu badawczego
Cytowanie prac w tekście:
psychologia, system amerykański
• Jeden autor
– (Feldman, 1966)
– Feldman (1966) – jeśli w zdaniu wymieniamy nazwisko
• Dwóch autorów
– (Kahneman i Tversky, 1984)
• Kilku autorów
– Pierwszy raz wymieniamy wszystkich
• (Cacioppo, Gardner i Berntson, 1997)
– Kolejne odwoływania do tej pracy
• (Cacioppo i inni, 1997)
• Kilka prac na ten sam temat
– (Ganzach, 1995; Gardner, 1996; Rowe, 1989)
Bibliografia
Alfabetyczny spis prac cytowanych w raporcie
Artykuły w prasie naukowej:
– Markman J., M., Hanushek E., A., Kain J., F., Rivkin S., G. (2003) Does peer ability
affect student achievement? Journal of Applied Econometrics, vol. 18(5), s. 527-544.
– Seppänen P. (2003) Patterns of „public-school markets” in the Finnish
comprehensive school from a comparative perspective. Journal of Educational Policy,
vol. 18, no. 5, pp.513-531.
Książki:
– Sternberg R., J., Wagner R. (1986) Practical intelligence: Origins of competence in
everyday world. New York, Cambridge University Press.
– Sanders W.L., Saxton A., Horn S. (1997) The Tennessee value-added assessment
system: A quantitative, outcomes-based approach to educational assessment. W: J.
Millman (ed.) Grading Teachers, Grading Schools: Is student achievements a valid
measure? Thousand Oaks, CA, Corwin Press.


Definicja realna (DR) – stwierdzenie
zasadniczej natury lub cech istotnych
danego zjawiska
Poszukiwanie DR jest przejawem naiwnego
realizmu. DR ewentualnie wieńczy proces
badawczy, a nie go otwiera




Definicja nominalna (DN) – znaczenie
przypisane do danego terminu bez żadnych
roszczeń co do oddania „istoty rzeczy”.
Konwencja terminologiczna
DN nie przysługuje wartość logiczna
Regulacyjne i projektujące DN
Wartość DN - użyteczność


Definicja sprawozdawcza (DS) – jak
wspólnota naukowa definiuje dany termin;
rekonstrukcja różnych sposobów
definiowania
DS są ważne w naukach społecznych,
pozwalają świadomie wybrać odpowiednią
dla danego badania DN





Definicja operacyjna (DO) – określenie, jak będzie wyglądał
sposób badania/mierzenia danego zjawiska
DO są pochodną metody badawczej
DO wyznaczają zakres dopuszczalnych interpretacji wyników
badania (uogólnienia wyniku)
Operacjonizm – szersza koncepcja metodologiczna, która
dopuszcza stosowanie w języku nauki tylko operacyjne
zdefiniowanych terminów
Przykład operacjonizmu w psychologii – Inteligencja to to, co
mierzą testy inteligencji. Mamy więc tyle inteligencji, ile
narzędzi do pomiaru inteligencji.

Najważniejsze błędy w definiowaniu
◦
◦
◦
◦
◦
nieznane przez nieznane
błędne koło
wielosłowie, zbyteczna komplikacja
niejasność
wieloznaczność






Określenie badanej populacji, jednostki
analizy, jednostki obserwacji
Pobieranie próby
Schemat badania
Pomiar zmiennych, wskaźniki
Model analizy wyników
Pytanie badawcze/hipoteza w postaci
operacyjnej

Populacja – zbiór obiektów, na który
będziemy uogólniać otrzymane wyniki
◦ Populacje jednoelementowe: studia przypadków,
podejście idiograficzne
◦ Populacje jednorodne – w badaniach społecznych
praktycznie nie występują
◦ Populacje niejednorodne – badania wyczerpujące
i badania na reprezentatywnych próbkach

Przesłanki praktyczne:
◦ Skąd biorą się problemy w nauce szkolnej Jasia?
◦ Dlaczego szkoła X tak nieefektywnie uczy?

Przesłanki teoretyczne:
◦ Czy zaburzenia relacji emocjonalnych matka-dziecko są
koniecznym warunkiem wystąpienia autyzmu?
◦ Czy poprawa warunków życia grup społecznie
upośledzonych zawsze poprzedza rewolucje społeczne?

Badania wyczerpujące dużych populacji są
rzadkie
◦ Spisy powszechne
◦ Powszechne testy lub egzaminy szkolne




Próba (próbka) – zbiór obiektów pobranych z
populacji i poddanych badaniu
Wyniki uzyskane w próbie można uogólniać na
populację tylko wtedy, gdy próba jest
reprezentatywna
Próba jest reprezentatywna, jeżeli jest „populacją w
miniaturze”
Jedyną, w pełni akceptowalną metodą tworzenia
prób reprezentatywnych jest losowanie obiektów z
populacji


Jednostka analizy: kto lub co jest obiektem, którego dotyczy
pytanie badawcze lub hipoteza
Jednostka obserwacji (badania): kto lub co jest obiektem
pomiaru/zbierania danych
◦ Wyuczona bezradność prowadzi do niskich osiągnięć
szkolnych .
◦ Rywalizacyjny klimat klasy zwiększa zróżnicowanie
osiągnięć szkolnych.
◦ Granie w gry komputerowe zawierające agresję podwyższa
poziom lęku.
◦ Dokumenty oficjalne zawierają mniej przymiotników niż
dokumenty prywatne.





Dobór przypadkowy (np. dostępność)
Dobór celowy
Metoda kuli śnieżnej
Dobór kwotowy
Dobór parami w badaniu porównawczym

Populacja pożądana i faktycznie badana

Operat losowania

Metody losowania
◦
◦
◦
◦
Prosty dobór losowy
Systematyczny dobór losowy
Dobór warstwowy
Dobór grupowy


By móc wyniki z próby prawomocnie
uogólnić na populację (uznać je za
reprezentatywne) ważny jest nie tylko
sposób doboru próby, ale również tzw.
stopa realizacji badania.
Losowe i nielosowe braki danych.
Nomotetyczny vs idiograficzne
Nomotetyczne:
◦ Badanie surveyowe (przeglądowe, opisowe): jedna
populacja, pytanie o nasilenie zjawiska
◦ Badania korelacyjne: jedna populacja, pytanie o
korelację
◦ Badania porównawcze: dwie lub więcej populacji,
pytanie o nasilenie
◦ Badania eksperymentalne: jedna populacja,
weryfikacja hipotez przyczynowo-skutkowych
Wymiar czasu:
Badania poprzeczne (przekrojowe, statyczne)
Badania podłużne (panelowe, dynamiczne)
- Ta sama kohorta przez wiele lat
- Różne kohorty w tej samej fazie rozwojowej

Obserwacja etnograficzna

Wywiad pogłębiony

Analiza treści (dokumentów)

Obserwacja ilościowa

Testy

Wywiad standaryzowany – ankieta

Liczby jako wynik pomiaru
◦ relacje między liczbami – wynikami pomiaru - mają oddawać
relacje między badanymi obiektami pod danym względem

Skale pomiarowe:
◦
◦
◦
◦

skala
skala
skala
skala
nominalna
porządkowa
interwałowa
ilorazowa
Typ skali pomiarowej decyduje o dopuszczalnych
interpretacjach wyników pomiaru i możliwych do
zastosowaniach modelach statystycznych analizy danych
Skala nominalna
Nominalna – nazwy kategorii
Skala dychotomiczna: tylko dwie możliwe wartości
– wykonał/nie wykonał zadania
– kobieta/mężczyzna
Więcej możliwych wartości
– wyznanie religijne
– ulubione kolory
Skala porządkowa
Porządkowa: miejsce w porządku
• Poziom wykształcenia: zawodowe
średnie
wyższe
• Wynik rangowania przez badanego jakiś obiektów, np.
hierarchia wartości
• Liczba uzyskanych punktów w teście umiejętności
(wynik surowy)
Skala interwałowa
Interwałowa – miejsce w porządku i stała jednostka
– Skala temperatury Celsjusza
– Wynik testu wyrażony w znormalizowanej skali
standardowej
Ogólnie: ustalona jednostka, ale arbitralny punkt
zerowy
Ilorazowa: miejsce w porządku, stała jednostka,
niearbitralny punkt zerowy
◦ Wzrost wyrażony w ustalonej jednostce
◦ Temperatura w skali Kelwina
◦ Liczba uczniów w klasie
Obserwacja ilościowa
• Obserwacja ilościowa jest:
• skategoryzowana
• niskoinferencyjna
• Obserwacja szerokiego spektrum zjawisk
w krótkich okresach czasu – próbki czasowe
• np. interakcje uczniowie- nauczyciel na
lekcji
• Obserwacja wystąpienia określonego zjawiska
w długim okresie czasu - próbki zdarzeń np.
zachowania agresywne uczniów na przerwie

Zjawiska, które badamy często mają charakter
bezpośrednio nieobserwowalny

Wnioskuje się wtedy o wystąpieniu/nasileniu
zjawiska na podstawie wskaźników

Wiązki wskaźników spełniające warunki dobrego
pomiaru to testy
Wskaźniki (przykłady)
• Zapamiętania – poprawne odtworzenie, liczba rozpoznanych
elementów, przewidzenie kolejnego elementu, ilość zniekształceń, czas
rozpoznania;
• Zadowolenia – odwzajemnienie uśmiechu, ocena neutralnej fotografii,
odpowiedź na skali szacunkowej, testy fizjologiczne (szerokość
źrenic), postawa ciała, szybkość chodzenia;
• Lęku – długość utrzymywania kontaktu wzrokowego, wskaźniki
fizjologiczne, szybkość przechodzenia przez ulicę, tiki, ocena
prawdopodobieństwa, że spotka nas nieszczęście ;
• Wpływu społecznego – skłonność do ulegania prośbom, naśladownictwo,
zmiana postawy;
Co można badać za pomocą testów
• Inteligencję i inne cechy osobowości
• Osiągnięcia szkolne
• Dyspozycje zawodowe
• Uprzedzenia etniczne
• Klimat klasy szkolnej
• Typ przywództwa w instytucji
I wiele innych cech jednostek, grup czy instytucji
Cechy dobrego testu
• Obiektywność
• Explicite sformułowane przesłanki budowy testu
• Standaryzacja
• Ustalona, powtarzalna procedura testowania
• Trafność
• Czy test mierzy, to co ma mierzyć
• Rzetelność
• Jak dokładnie test mierzy to, co ma mierzyć
Cecha ukryta,
którą chcemy
zmierzyć
To, co
faktycznie
mierzymy
Aspekty trafności testu
• Definicyjny
Czy wskaźniki są zgodne z przyjętą definicją badanego
zjawiska
• Fasadowy
Czy test zdaniem użytkowników i odbiorców jest adekwatny
• Prognostyczny
Czy test pozwala prognozować wystąpienie interesujących
badacza zjawisk
• Teoretyczny
Czy układ zależności uzyskanych w badaniu sprawdzającym
jakość testu jest zgodny z teoretycznymi
przewidywaniami


Każdy pomiar obarczony jest niepewnością
pomiarową
Klasyczne ujęcie niepewności pomiarowej
wynik empiryczny = wynik prawdziwy + błąd
pomiaru
Wynik prawdziwy: średni wynik z nieskończonej
liczby powtórzeń testu
Wynik osoby w teście
Uczeń
Niskie
Wyniki
Wysokie
Wynik osoby w teście
Wynik
prawdziwy
Uczeń
Błąd pomiaru
Wysokie
Niskie
Wyniki

Arbitralność doboru zadań testowych

Niedostatki standaryzacji procedury testowej

Zgadywanie w zadaniach zamkniętych

Punktowanie zadań otwartych

Ściąganie

Losowe wahania dyspozycji intelektualnych ucznia

Błędy systematyczne: stronniczość testu




Dwukrotne testowanie
◦ Korelacja między wynikami dwóch testów
Metoda połówkowa
◦ Korelacja między wynikami dwóch połówek
Wewnętrzna spójność testu
◦ Wsp. rzetelności Alfa Cronbacha
Eksperymentalne określanie rzetelności kodowania

Wyznaczanie przedziału ufności dla wyniku
indywidualnego
Wynik ucznia w teście
Uczeń
Niskie
Wyniki
Wysokie
Idea szacowania przedziału ufności
Uczeń
Niskie
Wyniki
Wysokie
Idea szacowania przedziału ufności
Uczeń
Niskie
Wyniki
Wysokie
Idea szacowania przedziału ufności
Uczeń
Niskie
Wyniki
Wysokie
Idea szacowania przedziału ufności
Przedział
ufności
Uczeń
Niskie
Wyniki
Wysokie
Rzetelność testu
Funkcja
prawdopodobieństwa
Wynik najmniej
prawdopodobny
(2,5%)
Wynik najmniej
prawdopodobny
(2,5%)
Wyniki
Wysokie
Niskie
Wynik najbardziej prawdopodobny (95%)
Przykładowa informacja o wyniku ucznia dla rodziców,
Massachusets, MCSA 2002
Prawdopodobieństwo, że
wynik ucznia znajduje się w
przedziale wyznaczonym
przez prostokąt wynosi 95%
1.00
.90
.80
.70
.60
zad_7
.50
zad_11
.40
zad_15
.30
.20
.10
.00
0 2
pkt
4
6
8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40
pkt

Przedmiotem analiz były systemy punktacji
przygotowane na maturę 2002:
◦ Język polski - wypracowania (arkusz I i III), rozumienie
czytanego tekstu (arkusz II).
◦ Historia – test i interpretacja źródeł (arkusz I i II).
◦ Matematyka – poziom podstawowy i rozszerzony
(arkusz I i II).



Dobór prac.
Przygotowanie prac do ponownego
sprawdzania.
Dobór egzaminatorów.

Czynniki mogące zawyżać oszacowanie rzetelności:
- dobór egzaminatorów (posługiwanie się dobrze znanym
schematem punktacji),
- pominięcie opcji (polski, historia).

Czynniki mogące zaniżać oszacowanie rzetelności:
- upływ czasu,
- brak procedur oceniania grupowego


Każda praca była niezależnie sprawdzana przez ośmiu
egzaminatorów. Problem wielkości próbki.
Zbiór danych (dla każdego kryterium):
Lp
E1 E2 E3 E4 E5 E6 E7 E8
1.
31
25
35
36
21
27
36
21
2.
55
41
59
25
26
21
36
54
3.
48
49
51
50
48
47
52
50
…
…
…
…
…
…
…
…
…
50. 21
18
19
20
21
21
19
20
Efekt jakości pracy
Całkowita zmienność ocen
Prosty efekt egzaminatora
Interakcyjny efekt egzaminatora
Efekt jakości pracy
49%
Całkowita zmienność ocen
22%
Prosty efekt egzaminatora
29%
Interakcyjny efekt egzaminatora
Lp.
Średnia
ocena
Rozrzut
ocen (SD)
Minimalna
Maksymalna
39
60,3
18,9
29
86
48
46,9
18,5
11
67
18
43,4
18,2
24
72
28
57,5
17,1
33
80
06
46,0
16,6
19
77


Zawiodła przede wszystkim kryterialna skala
rozwinięcia tematu (rzetelność=54%).
Zła budowa skal szacunkowych:
◦ skala kompozycji (rzetelność=33%),
◦ skala stylu (rzetelność=31%),
◦ skala poprawności językowej (rzetelność=34%).

Użyto z założenia subiektywnej skali szczególnych
walorów pracy (rzetelność=23%).

Kryterium 17: 77%
◦ Dostrzeżenie roli puenty w Lekcji łaciny (przeciwstawienie poezji
łacińskiej i wkroczenia barbarzyńców)

Kryterium 15.1.: 14%
◦ Za pogłębione wnioski

Ogólna prawidłowość: im wyższy poziom
taksonomiczny, tym niższa rzetelność kryterium.
Skala poprawności językowej
wypracowania
Na skali wyróżniono 4 punkty: 0, 5, 10 i 21 pkt.
Oto ich opis:




0 – brak opisu,
5 – w większości poprawna składnia i frazeologia, zgodna z
normą fleksja, nieliczne usterki leksykalne oraz nieliczne błędy
ortograficzne i interpunkcyjne,
10 – poprawna, urozmaicona składnia i frazeologia, zgodna z
normą fleksja, sporadycznie pojawiają się błędy ortograficzne i
interpunkcyjne,
21 – poprawna, urozmaicona składnia i frazeologia, zgodna z
normą fleksja i ortografia, rzadko pojawiające się błędy
interpunkcyjne.
Arkusz
Rzetelność
Prosty efekt
egzaminatora
Interakcyjny
efekt
egzaminatora
Polski, arkusz I
55%
16%
29%
Polski, arkusz III
49%
22%
29%
Polski, arkusz II
80%
7%
13%
Historia, arkusz I
95%
2%
3%
Historia, arkusz II
58%
29%
13%
Matematyka,
arkusz I
99%
1%
0%
Matematyka,
arkusz II
97%
1%
2%