Általános lineáris modell 1.

Download Report

Transcript Általános lineáris modell 1.

Általános lineáris
modellek
GLM az SPSS programban
2011.
Elmélet



A magyarázat a függő változó teljes
heterogenitásának két részre bontását
jelenti.
A teljes heterogenitás egyik része az,
amelynek „okai” a független változók,
a másik heterogenitás-rész pedig az,
amelynek „okait” az egyéb, általunk nem
vizsgált tényezők tartalmazzák. Ez utóbbit
sokszor a véletlen hatásaként, hibaként is
emlegetik.
Lineáris modell
yij =  + i + eij
ahol:
yij
a függő változó értéke

i
eij
a kísérlet főátlaga, fix hatás
fix hatás, oka a független változó, faktor
hiba, vagy eltérés
A variancia-analízis
alkalmazásának feltételei



a maradék független a kezelés és blokk
hatástól valamint a függő változótól
(véletlen mintavételezés, kísérleti
elrendezés)
a maradékok (hibák) normális eloszlású,
nulla várható értékű sokaság
a maradékok szórásai a
kezeléskombinációk celláin belül
egyformák
Alapfogalmak 1.




Faktor: a vizsgálatba bevont független változókat, pl.
különböző kezeléseket, tényezőket.
Faktor szint: A kezelések szintjei, pl. műtrágyaadagok.
Kvalitatív és kvantitatív faktorok: Ha a faktorszintek
nem numerikusak vagy intervallum skálájúak, akkor
kvalitatív, ellenkező esetben kvantitatív faktorokról
beszélünk.
Kezelések (cellák): Egyfaktoros esetekben a kezelések
megfelelnek a faktorok szintjeinek, többfaktoros
esetben a figyelembe vett faktorok szintjeiből előálló
kombinációk a kezelések. Pl. amikor a 2 faktor
műtrágyaadagok és öntözési módok, akkor a kezelések
a (műtrágyaadagok, öntözési módok) összes
lehetséges kombinációjából áll.
Alapfogalmak 2.





Interakció: Két változó kapcsolatában akkor áll
fenn interakció (kölcsönhatás), ha változó hatása
függ az változó szintjétől és fordítva.
Egy szempontos variancia-analízis: Varianciaanalízis, ahol csak egy faktor van.
Több szempontos variancia-analízis: Varianciaanalízis, ahol kettő vagy több faktor van.
Egyváltozós variancia-analízis: ANOVA technika,
amely egy függő változót használ.
Többváltozós variancia-analízis: ANOVA technika,
amely kettő vagy több függő változót használ.
Jelölések

n: az adatok száma
k: csoportok száma
r: ismétlések száma

Csoport átlag:


xk
Egytényezős varianciaanalízis

Segítségével egy tényező hatását lehet
vizsgálni a függő változó mennyiségi
alakulására. A tényező, faktor
valamilyen csoportképző ismérvvel
rendelkezik, a függő változó pedig
legtöbbször skála típusú adat.
H0

A nullhipotézis, hogy
az átlagok egyenlők,
nincs közöttük
különbség. Ez a
technika a kétmintás
t-teszt általánosítása,
kiterjesztése több
mintára.
x 1 x2   x k
Variancia-analízis lépései
1.
2.
3.
4.
5.
A variancia-analízis modell felállítása.
Szignifikancia-szint megválasztása
A variancia-analízis kiszámítása, az Fpróba.
A modell érvényességének ellenőrzése.
Amennyiben az F-próba szignifikáns,
középértékek többszörös összehasonlítása.
A modell felállítása


A modellben a mérési, megfigyelési
értékeket összegként képzeljük el.
Kísérleti elrendezésnek megfelelő
modellalkotás
Lineáris modell
yij =  + i + eij
ahol:
yij
a függő változó értéke

i
eij
a kísérlet főátlaga, fix hatás
fix hatás, oka a független változó, faktor
hiba, vagy eltérés
Példa

Egy termesztő k kukoricafajta termesztése
között választhat. Jelöljük a fajtákat A, B, C,
D-vel. Döntsük el, hogy a 4 fajta
termesztése esetén azonos
terméseredményre számíthatunk-e.
Fajta
Termés (t/ha)
A
9,3
7,2
8,2
B
5,4
7,1
5,9
C
4,5
2,9
5,0
D
3,5
0,9
2,5
A variancia-analízis
kiszámítása
ÖSSZESÍTÉS
Csoportok Darabszám Összeg
Átlag
Variancia
A
3
24,7 8,233333 1,103333333
B
3
18,4 6,133333 0,763333333
C
3
12,4 4,133333 1,203333333
D
3
6,9
2,3
1,72
Eredménytáblázat (Excel)
Tényezők
Csoportok között
Csoporton belül
SS
df
MS
F
58,86
3 19,62 16,38
9,58
8 1,1975
Összesen
68,44
11
Eredménytáblázat (SPSS)
ANOVA
termes
Between Groups
Within Groups
Total
Sum of
Squares
58,860
9,580
68,440
df
3
8
11
Mean Square
19,620
1,198
F
16,384
Sig.
,001
Eltérés négyzetösszegek
(SS)



Összes: alapadatok eltérés négyzetösszege
Csoportok között: csoportátlagok eltérés
négyzetösszege * r
Csoporton belül: csoportok eltérés
négyzetösszegeinek összege
Szabadságfokok (df)

Csoportok között: k-1

Csoporton belül: n-k

Összes: n-1
Varianciák




Az eltérés négyzetösszegek osztva a
szabadságfokokkal.
SScsk/3
SScsb/8
SSössz/11
F-próba
MS csk
F
MS error
0.0
0.1
0.2
0.3
0.4
0.5
0.6
df(x, df1 = DF1, df2 = DF2, ncp = 0)
0.7
F-eloszlás eloszlásfüggvénye
4.07
0
2
4
x
6
8
0.0
0.2
0.4
0.6
0.8
1.0
pf(x, df1 = DF1, df2 = DF2, ncp = 0, lower.tail = TRUE)
F-eloszlás eloszlásfüggvénye
4.07
0
2
4
x
6
8
0.0
0.1
0.2
0.3
0.4
0.5
0.6
df(x, df1 = DF1, df2 = DF2, ncp = 0)
0.7
F-eloszlás eloszlásfüggvénye
4.07
0
16.38
5
10
x
15
0.0
0.2
0.4
0.6
0.8
1.0
pf(x, df1 = DF1, df2 = DF2, ncp = 0, lower.tail = TRUE)
F-eloszlás eloszlásfüggvénye
4.07
0
16.38
5
10
x
15
Mi annak a
valószínűsége?


Véletlenül 16,38 F-értéknél nagyobbat
kapunk egy 3, 8 szabadságfokú Feloszlás esetén.
P=0,00089
Mikor szignifikáns az Fpróba?

Ha létezik legalább egy szignifikáns
kontraszt a csoportok között.
A modell érvényességének
ellenőrzése



Függetlenség
Normális eloszlás
Azonos varianciák
A maradék független a
kezelés és blokk hatástól


valamint a függő változótól (véletlen
mintavételezés, kísérleti elrendezés)
Vizsgálat:
– Maradékok leíró statisztikája kezelések
szerint
– a maradékok ábrázolása a megfigyelt és
becsült értékek függvényében
Maradékok leíró
statisztikája
Case Summaries
Residual for termes
hibrid
A
B
C
D
Total
N
3
3
3
3
12
Mean
,0000
,0000
,0000
,0000
,0000
Variance
1,103
,763
1,203
1,720
,871
Maradékok és a megfigyelt
értékek közötti függetlenség
1,50
Residual for termes
1,00
0,50
0,00
-0,50
Maradékok és a becsült
értéket közötti függetlenség
1,50
Residual for termes
1,00
0,50
0,00
-0,50
Maradék normális eloszlású,
nulla várható értékű

Grafikus normalitás vizsgálat
– Hisztogram
– Q-Q plot

Numerikus normalitás vizsgálat
– Kolmogorov-Smirnov
– Shapiro-Wilk
Hisztogram
3,0
Frequency
2,5
2,0
1,5
1,0
Q-Q ábra
Normal Q-Q Plot of Residual for te
ted Normal Value
2
1
0
Kolmogorov-Smirnov
teszt
One-Sample Kolmogorov-Smirnov Test
N
Normal
Parameters(a,b)
Most Extreme
Differences
Mean
Std. Deviation
Absolute
Positive
Negative
Kolmogorov-Smirnov Z
Asymp. Sig. (2-tailed)
a Test distribution is Normal.
b Calculated from data.
Residual
for termes
12
,0000
,93323
,157
,117
-,157
,543
,929
Mintán belüli szórás
azonosság tesztelése


Levene-teszt
H0 a szórások megegyeznek
Test of Homogeneityof Variances
termés t/ha
Levene
Statistic
5.107
df1
df2
2
141
Sig.
.007
Amennyiben a Leveneteszt szignifikáns
 Robusztus
tesztek alkalmazása
–Welch-tesz
–Brown-Forsythe
Robusztus tesztek
Robust Tests of Equality of Means
termes
Statistic(a
)
Welch
11,342
Brown-Forsythe
16,384
a Asymptotically F distributed.
df1
3
3
df2
4,404
7,394
Sig.
,016
,001
Post hoc analízisek
Középérték összehasonlító tesztek
Az F-próba szignifikáns


Amennyiben az analízis az átlagok közötti
egyenlőséget nem igazolja, szükséges az
átlagok közötti különbségek kimutatása.
A variancia-analízist kiegészítő középérték
összehasonlító teszteknek kétféle típusa
létezik:
– előzetes, un. a priori kontrasztok és
– az analízis után elvégezhető, un. post hoc
analízisek
Post hoc analízisek
1.
A csoportok szórása megegyezik
–
–
–
–
–
–
–
2.
LSD
Tukey
Bonferroni
Scheffe
Dunett
Student-Newman-Keuls
Duncan
A csoportok szórása különbözik
–
Tamhane
LSD-teszt (legkisebb
szignifikáns differencia)

Alkalmazhatóság feltételei:
1. A csoportok szórása egyenlő
2. Véletlenszerűen kiválasztott két csoport
összehasonlítására jó
LSD  t p %
2 MQhiba
r
Tukey-teszt

Studentizált terjedelmen alapuló teszt, a p-elemű
részcsoportokat ugyanazzal a kritikus értékkel
hasonlítja össze. Itt a teljes vizsgálat elsőfajú hibája
rögzített, és az egyes összehasonlítások elsőfajú
hibája n növekedésével csökken, s így a másodfajú
hiba nő.
tij  ( xi.  x j . )
m
2s 2
Az LSD és Tukey-teszt
eredménye
Multiple Comparisons
Dependent Variable: termés t/ha
Tukey HSD
(I) Talajművelés
őszi szántás
tavaszi szántás
tárcsás
LSD
őszi szántás
tavaszi szántás
tárcsás
(J) Talajművelés
tavaszi szántás
tárcsás
őszi szántás
tárcsás
őszi szántás
tavaszi szántás
tavaszi szántás
tárcsás
őszi szántás
tárcsás
őszi szántás
tavaszi szántás
*. The mean difference is significant at the .10 level.
Mean
Difference
(I-J)
1,19685*
1,94640*
-1,19685*
,74954
-1,94640*
-,74954
1,19685*
1,94640*
-1,19685*
,74954*
-1,94640*
-,74954*
Std. Error
,437141
,437141
,437141
,437141
,437141
,437141
,437141
,437141
,437141
,437141
,437141
,437141
Sig.
,019
,000
,019
,203
,000
,203
,007
,000
,007
,089
,000
,089
90% Confidence Interval
Upper Bound
Lower Bound
2,10136
,29235
2,85090
1,04189
-,29235
-2,10136
1,65405
-,15497
-1,04189
-2,85090
,15497
-1,65405
1,92064
,47307
2,67018
1,22261
-,47307
-1,92064
1,47333
,02575
-1,22261
-2,67018
-,02575
-1,47333
Homogén csoportok képzése
Tukey módszerrel
termés t/ha
Tukey HSD
a
Talajművelés
tárcsás
tavaszi szántás
őszi szántás
Sig.
N
48
48
48
Subset for alpha = .10
1
2
9,56033
10,30988
11,50673
,203
1,000
Means for groups in homogeneous subsets are displayed.
a. Uses Harmonic Mean Sample Size = 48,000.
Bonferroni-teszt

Páronkénti átlagok különbségének
vizsgálatára használható, a két csoport
elemszáma lehet különböző is. Lényege,
hogy az -hibához tartozó t-értéket
korrigálja a független összehasonlítások
számának megfelelően.
1 1
L  t (táblázatbeli ) S   
n n 
j 
 i
2
p
Scheffe-teszt

A hagyományos tesztek közé tartozik. Ez már
valóban a Hg hipotéziseket vizsgálja. Az egyszerű Fpróba akkor utasítja el a H0-hipotézist, ha létezik
egy a<>0 vektor, amelynél a konfidenciaintervallum nem tartalmazza a 0-t. Ha k darab
összehasonlítandó csoport van, akkor k(k-1)/2
összehasonlítást kell végezni. A statisztikája:
1 1
L  s k  1F( táblázatbeli )   
 ni n j 
2
p
Dunnett-teszt

A Dunnett-teszt (1955) egy kijelölt csoportot
(kontroll) hasonlít össze a többivel. Eredetileg
egyenlő elemszámokra volt érvényes, de később
elkészült az általánosítása egyenlőtlen
elemszámokra is. Lényegét tekintve páronkénti
összehasonlítást végez szimultán, de meg kell adni
egy kezdő, kontroll csoportot, és ehhez hasonlítja a
többi csoport átlagát. Statisztikája:
xi  xo  d s p
xo =kontroll csoport
2
n
Dunnett-teszt az SPSSben
A Dunnett-teszt
eredménye
Multiple Comparisons
Dependent Variable: TERMÉS
Dunnett t (2-sided) a
(I) HIBRIDEK
Debreceni 351
Debreceni 377
Ella (Sze 361)
Mv 370 Hunor
Norma
Occitán
DKC 3511
DKC 4626
Goldacord
LG 3362
Szegedi 352
PR38A24
(J) HIBRIDEK
Alpha
Alpha
Alpha
Alpha
Alpha
Alpha
Alpha
Alpha
Alpha
Alpha
Alpha
Alpha
Mean
Difference
(I-J)
-3.0217*
-2.5845*
-.5730
-1.6240
-1.7915
-.7653
.0128
-.1147
-.6185
.2450
-.8767
-1.2873
Std. Error
.87697
.87697
.87697
.87697
.87697
.87697
.87697
.87697
.87697
.87697
.87697
.87697
Sig.
.013
.045
.998
.406
.297
.977
1.000
1.000
.996
1.000
.945
.675
95% Confidence Interval
Lower Bound
Upper Bound
-5.5696
-.4739
-5.1323
-.0367
-3.1208
1.9748
-4.1718
.9238
-4.3393
.7563
-3.3131
1.7826
-2.5351
2.5606
-2.6626
2.4331
-3.1663
1.9293
-2.3028
2.7928
-3.4246
1.6711
-3.8351
1.2606
*. The mean difference is significant at the .05 level.
a. Dunnett t-tests treat one group as a control, and compare all other groups against it.
Student-Newman-Keuls
próba



Az elsőfajú hiba összehasonlításonként rögzített,
ezért a teljes vizsgálat elsőfajú hibája n-nel együtt
nő.
A próba teszteli, hogy mely kezelés kombinációk
tartoznak egy homogén csoportba.
Homogén csoport, ahol nincs szignifikáns különbség
a kezelés kombinációk között.
wr  q , r ,
sp
n
Duncan többszörös rang
teszt

Itt is homogén csoportok képzése a cél.
Napjainkban az egyik legjobbnak tartott
többszörös összehasonlító teszt. Itt is a
grafikus megjelenítés nagyban segíti a
kapott eredmények interpretációját. A
mezőgazdasági kutatásban is potenciálisan
nagy jelentőséggel bíró teszt.
Tamhane-teszt

Alkalmazhatóság feltételei:
1.A csoportok szórása különbözhet
2.Véletlenszerűen kiválasztott két csoport
összehasonlítására jó
Post Hoc tesztek az SPSSben
Szimultán döntés

Ha kettőnél több összehasonlítandó
minta van. Olyan állításokat
fogalmaznak meg, amelyek
egyidejűleg érvényesek. Ezek
lehetnek:
– Egyidejűleg érvényes konfidencia
intervallumok vagy
– Szimultán végzett statisztikai próbák.
Általános lineáris modell
(General Linear Model)

Az általános lineáris modell a hagyományos
variancia-analízis és a lineáris regresszióanalízis ötvözete. Egyetlen táblázatban
jelenik meg a szórás elemzés és a lineáris
regresszió-analízis eredménye:
Tests of Between-Subj ects Effects
Dependent Variable: X
Source
Corrected Model
Intercept
FAJTA
Error
Total
Corrected Total
Type III
Sum of
Squares
119.248a
20563.279
119.248
439.184
21121.710
558.431
df
3
1
3
52
56
55
Mean
Square
39.749
20563.279
39.749
8.446
a. R Squared = .214 (Adjusted R Squared = .168)
F
4.706
2434.723
4.706
Sig.
.006
.000
.006
Lineáris regresszióanalízis
Model Summary
Model
1
R
a
.462
R Square
.214
Std. Error
of the
Estimate
2.8518
Adjusted
R Square
.199
a. Predictors: (Constant), Predicted Value for X
ANOVAb
Model
1
Regression
Residual
Total
Sum of
Squares
119.248
439.184
558.431
df
1
54
55
a. Predictors: (Constant), Predicted Value for X
b. Dependent Variable: X
Mean
Square
119.248
8.133
F
14.662
Sig.
.000a
A GLM táblázat
értelmezése






Corrected Model: a lineáris modellel becsült és a
megfigyelt értékekre illesztett lineáris függvény
jóságát mutatja. Eldönthető, hogy az alkalmazott
modell megfelelő-e.
2


x
Intercept: az alapadatok összegének négyzete 
osztva az adatok számával
n
FAJTA: a kezelés okozta hatás, a négy fajta
átlagának eltérése a főátlagtól
Error: a hiba, a véletlen hatása, a meg nem
magyarázott hatások.
2
x
Total: az alapadatok négyzetösszege

Corrected Total: a lineáris regresszió-analízis
összesen sora, a megfigyelt értékek eltérés
négyzetösszege (total-intercept).
Kontrasztok

A kontrasztok az egyes csoportok
várható értékeinek lineáris kombinációi
g = cg1x1. + cg2x2. + ... + cgpxp.
és ha teljesül a
cg1 + cg2 + ... cgp = 0
A pontosság fokozása

a kísérlet pontosabb kivitelezésével

az ismétlésszám növelésével

a parcellák csoportosításával, blokkképzéssel
Torzítás


randomizáció
az adott kísérleti elrendezésnek és
elméleti modellnek megfelelő
statisztikai értékelés (Sváb, 1981)
0.0
0.1
0.2
0.3
0.4
0.5
df(x, df1 = 5, df2 = 5, ncp = 0)
0.6
F-eloszlás sűrűségfüggvénye
5.05
0
2
4
x
6
8
0.0
0.2
0.4
0.6
0.8
1.0
pf(x, df1 = DF1, df2 = DF2, ncp = 0, lower.tail = TRUE)
F-eloszlás eloszlásfüggvénye
5.05
0
2
4
x
6
8