Transcript SE b

Korelacijske metode
psihologija (1.st.) – 2. letnik
2011/12
4. predavanje:
multipla regresija in korelacija
Nelinarni odnosi in kategorični podatki
Statistično sklepanje pri multipli regresiji (1)
SEbj 
2
e
 ( N  P  1)
2
N   Xj
 Tol j
Toleranca = % var. napovednika j,
ki ga ne pojasnijo drugi
napovedniki.
Stabilnost modela odvisna od:
• multiple korelacije (),
• velikosti vzorca (),
• števila napovednikov (),
• korelacij med napovedniki oz. Tol (),
• vplivnih točk ().
b/SE (b) ~ t (N-P-1)
Navzkrižna validacija: preizkus stabilnosti modela.
Statistično sklepanje pri multipli regresiji (2)
Vzorčni R je pristranska cenilka populacijskega.
Razlogi:
•omejeno število prostostnih stopenj (zlasti pri majhnem N/P),
•izkoriščanje slučajnih odstopanj vzorčnih korelacij od
populacijskih.
Wherryjev popravek
(nepristranska ocena Rpop.):
2
P
(
1

R
)
2
Rp  R 
N  P 1
SPSS: “adjusted R”
Zelo približno priporočilo: vsaj 15-30 oseb na napovednik
(odvisno tudi od R, P, Tol in zaželene moči!)
Statistično sklepanje pri multipli regresiji (3)
Statistična značilnost R (H0: Rpop. = 0)
R 2 ( N  P  1)
F
(1  R 2 ) P
df1 = P
df2 = N - P - 1
Razlika med dvema R (H0: Rpop.(Y.1…P) = Rpop.(Y.1…P+D))
(samo za gnezdene skupine prediktorjev!):
2
( RPD
 RP2 )( N  P  D  1)
F
2
(1  RPD
)D
df1 = D
df2 = N-P-D-1
P: prvotno št. prediktorjev; D: št. dodanih prediktorjev
Napovedni intervali
= interval, v katerem z določeno verjetnostjo
pričakujemo vrednost Y za osebo z določeno
kombinacijo vrednosti X1-Xp
Širina odvisna od:
•višine R ,
•velikosti vzorca ,
•oddaljenosti osebe od povprečja napovednikov .
Pri enem napovedniku:
Yˆi  tN 2Y . X  Yi  Yˆi  tN 2Y . X
 Y.X 
2
z
N
1
2
sY 1  rXY
1  i
N 2
N N
Nelinearni odnosi
Krivuljčen odnos skušamo opisati z vključitvijo
nelinearnega člena:
Npr.: Yi = a + b1Xi + b2Xi2 + ei
• V model najprej vključimo linearni člen.
• Vključitev X 2 vedno zviša R !  višina in stat.
značilnost zvišanja?
• Napovedovanje XY in YX ni enako natančno.
• Pozor pri interpretaciji b1 in b2!
• Kolinearnost: X centriramo.
• Ne ekstrapoliraj!
Interakcija/moderacija: Na odnos med X in Y vpliva Z
(več o tem prihodnje leto).
Kategorični napovedniki
Dihotomni napovedniki:
•Pripadnikom skupine 1 napovemo za b višji dosežek kot
pripadnikom skupine 2.
•Regresija z 1 dihotomnim napovednikom  t test za
neodvisna vzorca.
Npr.: spol in pravičnost nagrajevanja
Plača = a + b1×spol + b2×kakovost +b3×zahtevnost + e
b1= 0  pravično nagrajevanje
Napačen pristop: razlika med povprečno plačo M in Ž
Ordinalne in nominalne spremenljivke s k vrednostmi:
•Izdelamo k-1 dihotomnih indikatorskih spremenljivk
(dummy variables).
•“Referenčna kategorija”: vse indikatorske spremenljivke = 0.
Npr: od česa je odvisen
dohodek?
-Zahtevnost dela
-Kakovost dela
-Panoga
Plača
Zahtev.
Kakov.
Panoga
I1
I2
2120
30
35
storitve
1
0
870
-20
-5
industrija
0
1
1050
15
-15
storitve
1
0
1710
5
40
industrija
0
1
1230
35
15
javni s.
0
0
1140
-5
0
javni s.
0
0
…
…
…
…
…
…
Plača =
a + b1×zahtevnost + b2×kakovost + b3×I1 + b4×I2 + e
Plača =
a + b1×zahtevnost + b2×kakovost + b3×I1 + b4×I2 + e
V model vključimo (ali izključimo) vse indikatorske
spremenljivke hkrati.
b = povprečna razlika med kategorijo i in referenčno
kategorijo (pri kontroliranih preostalih prediktorjih)
a = povprečje referenčne kategorije (ko preostali
prediktorji enaki 0)
Npr:
• b3 = povprečna razlika med storitvami in javnim sektorjem za
enako zahtevno in enako kakovostno opravljeno delo
• če centrirani zahtevnost in kakovost: a = povprečna plača v
javnem sektorju pri povprečni zahtevnosti in kakovosti
Kaj navajamo pri poročanju?
Regresijske koeficiente
(Beta koeficiente)
Standardne napake
Intervale zaupanja
(Popravljeni) koeficient multiple korelacije in
determinacije oz. indeks učinkovitosti napovedi
F test za multiplo korelacijo
(standardno napako napovedi)
Pri postopnem vključevanju še spremembo pojasnjene
variance.
Primer tabele:

95% IZ(b)
sp. meja zg. meja
Napovednik
1. korak
konstanta
napovednik 1
3,009 0,433
–,00050 0,0007 –0,54 –0,0019 0,00089
2. korak
konstanta
napovednik 1
napovednik 2
3,11
0,418
–0,0049 0,0007 –0,53 –0,0063 –0,0035
–0,0688 0,0215 –0,24 –0,1114 –0,0262
b
SE(b)
Napovednik
napovednik 1
R
0,54
popr. R
0,54
napovednik 1,
napovednik 2
0,59
0,58
R2
0,29
SNN
0,83
F
48,7
p
< 0,001
0,06
0,80
31,4
< 0,001
Opomnik – na kaj moramo posebej paziti?
Pred analizo:
•Linearni model teoretično utemeljen?
•Aditivni model teoretično utemeljen?
•Vključeni ključni prediktorji?
•Velikost vzorca, moč testov?
•Merska raven vključenih spremenljivk?
•Zanesljivost napovednikov (majhna napaka merjenja)?
•Kriterij intervalen, pribl. normalno porazdeljen?
•Vzorčenje?
Med analizo in po njej:
•Predpostavke – normalnost, linearnost, homoscedastičnost?
•Vplivne točke?
•Korelacije med napovedniki - multikolinearnost?
•Stabilnost modela (SEb, Radj., navzkrižna validacija…)