REGRESIJSKA ANALIZA br.1

Download Report

Transcript REGRESIJSKA ANALIZA br.1

Kolegij :MATEMATIČKE METODE U
KEMIJI
Odjel za Kemiju Sveučilišta J.J.
Strossmayera u Osijeku
ak.god. 2014./2015.
REGRESIJSKA ANALIZA
I DIO
Doc.dr.sc. Vlatka Gvozdić
• Ukoliko se dvije pojave javljaju zajedno, to ne mora značiti da su na bilo koji
način povezane
• Za utvrđivanje međusobne ovisnosti jedne pojave o drugoj pojavi ili više njih
koristi se Regresijska analiza
• Međusobni odnos tih pojava izražava se u matematičkom obliku , regresijskim
modelom tj. regresijskom jednadžbom ili jednadžbama koje imaju konačan
broj varijabli. Međusobni odnos tih pojava izražava se u matematičkom obliku
, regresijskim modelom tj. regresijskom jednadžbom ili jednadžbama koje
imaju jednu zavisnu i jednu ili više nezavisnih varijabli
• Neovisna varijabla je „kontrolirana” od strane onoga koji izvodi eksperiment,
dakle poznata je ili prethodno odabrana
• Regresijska se analiza može koristiti u svrhu pojednostavljenja modela u
cilju njegove lakše interpretacije
Jedan od ciljeva je : odrediti koeficijente regresije
Model:
a) Jednostavne linearne regresija
b) Višestruke regresije
y = 147,6593+61,3407*x
Model
Jednostavne linearne regresije
1100
1000
900
Predviđene vrijednosti
800
700
yi
• Regresijska jednadžba:
Rezidualno
odstupanje
• Izmjerene vrijednosti
yi   0  1 xi  ei
Regresijski pravac
600
Opažene vrijednosti
500
400
300
200
• Regresijski pravac je onaj s procijenjenim parametrima
100
220
285
yˆ  bo  b1 x
• Rezidualna odstupanja predstavljaju onaj dio varijabilnosti
• koji nije moguće objasniti modelom. Potrebno ih je grafički ispitati
ei  yi  yˆ i
256
395
317
500
432
599
xi
701
794
802
980 1021 1128
Linearna regresijska jednadžba s procijenjenim parametrima
yˆ  bo  b1 x
• y - zavisna varijabla
• x -nezavisna varijabla
• b0 b1 - su parametri koje je potrebno procijeniti
Do procjene b0 i b1 dolazi se metodom najmanjih kvadrata
Teorija
n
n
n
i 1
i 1
i 1
2
2
2
ˆ
ˆ
(
y

y
)

(
y

y
)

(
y

y
)
 i
 i
 i i
ST =
SP
+
SR
ST – Ukupni zbroj kvadrata
SP – Zbroj kvadrata protumačen regresijskim modelom
SR – Ne protumačeni dio zbroja kvadrata
(ili zbroj kvadrata rezidualnih odstupanja)
Značenja Skraćenica
ST-odstupanje izmjerene (stvarne)vrijednosti od prosjeka
SP-odstupanje regresijske jednadžbe od prosjeka
SR-rezidualno odstupanje
Linearna regresijska jednadžba s procijenjenim parametrima
Konstantni član
ili odsječak na
ordinati za x=0
Regresijski koeficijent ili koeficijent smjera, nagiba regresijskog pravca
yˆ  bo  b1 x
ili
yˆ  a  bx
1. Što predočuje konstantni član b0 ?
2. Što predočuje regresijski koeficijent b1 ?
Odgovor: Regresijski koeficijent pokazuje za koliko se u prosjeku mijenja vrijednost zavisne varijable (y) za jediničnu
promjenu nezavisne varijable (x)
Primjer br. 1
Potrebno je odrediti jednadžbu regresijskog pravca, vrijednosti predviđene regresijskom
jednadžbom, regresijsko standardno od stupanje, varijancu, koeficijent varijacije regresije,
koeficijent determinacije, korigirani koeficijent determinacije.
Xi
Količina
352,02
373,02
411,01
441,03
462,11
490,10
529,03
577,04
641,02
692,01
743,11
146,01
153,02
177,21
191,05
205,01
208,02
227,01
238,01
268,03
274,02
300,05
otpada u rijeci
Dravi
(u tonama)
Yi
Troškovi
pročišćavanja
(u tisućama
Eura)
yˆ
n
bo  y  bx
b1 
x y
i 1
n
i
x
i 1
Vrijednosti regresijske funkcije su one s procijenjenim
parametrima, a računaju se uvrštavanjem stvarnih
vrijednosti nezavisne (nezavisnih) varijabli u jednadžbu:
yˆ  19,54  0,38 x
2
i
i
 nx y
 nx
2
Rješenje u programu Statistica
yi
Cas e No.
1
2
3
4
5
6
7
8
9
10
11
Predicted & Res idual Values (prim jer drava.s ta)
Dependent variable: Var2
Obs erved
Predicted
Value
Value
146,0100
153,4406
153,0200
161,4282
177,2100
175,8782
191,0500
187,2967
205,0100
195,3147
208,0200
205,9611
227,0100
220,7686
238,0100
239,0298
268,0300
263,3654
274,0200
282,7601
300,0500
302,1967
yˆ i
e
Kako doći do vrijednosti rezidualnih
odstupanja?
Npr:
1. Rezidualno odstupanje
146,0100-153,4406 = -7,43057
ei  yi  yˆ i
Itd…..
Ovako izgleda u programu Statistica
Izmjerene = 19,47+0,3805*x
Predicted vs. Observed Values
Dependent variable: Var2
320
300
280
Izmjerene
Observed Values
260
240
220
200
180
160
140
120
140 150 160 170 180 190 200 210 220 230 240 250 260 270 280 290 300 310
Predicted Values
320
310
300
290
280
270
260
250
240
230
220
210
200
190
180
170
160
150
140
130
120
300
x (srednje)= 519,19
Opažene vrijednosti
y(srednje)=217
Regresijski pravac
350
400
450
0,95 Conf.Int.
N=11
Intercept
Var1
Regress ion Summary for Dependent Variable: Var2 (primjer drava.sta)
R= ,99228685 R2= ,98463318 Adjus ted R2= ,98292576
F(1,9)=576,68 p<,00000 Std.Error of es timate: 6,5214
b*
Std.Err.
b
Std.Err.
t(9)
p-value
of b*
of b
19,54522 8,455904
2,31143 0,046128
0,992287 0,041321
0,38036 0,015839 24,01411 0,000000
500
550
xi
600
650
700
750
800
REZIDUALNA ODSTUPANJA
Regresijska je jednadžba analitički izraz koji u vidu prosjeka opisuje odnos između dvije ili više pojava,
stoga je osnova za mjerenje reprezentativnosti modela :disperzija oko regresije, a ona se očituje rezidualnim
odstupanjima
Rezidual je odstupanje izmjerene vrijednosti yi od njene vrijednosti predviđene regresijskom
jednadžbom yˆ
Zavisna varijabla
ei  yi  yˆ i
Regresijske vrijednosti
Regresijski pravac nastoji smanjiti na najmanju moguću mjeru zbroj
vertikalnih kvadriranih odstupanja
n
2
ˆ
(
y

y
)
 i i
i 1
Važnost rezidualnih odstupanja
a) Ona su temelj procjene uspješnosti regresije
b) Pomoću njih se računa varijanca, odnosno, standardno odstupanje regresije
c) U slučaju uspješno postavljenog regresijskog modela, rezidualna se odstupanja ne bi trebala raspoređivati sistematski
Ovako to izgleda u programu Statistica za primjer br.1
Predicted vs. Residual Scores
Dependent variable: Var2
12
10
8
6
Residuals
4
2
0
-2
-4
-6
-8
-10
140
160
180
200
220
240
Predicted Values
260
280
300
320
0,95 Conf.Int.
Kako odrediti varijancu, standardno odstupanje , koeficijent varijacije,
koeficijent determinacije….?
n
n
n
 n
n 2

2
y i  ny  a  yi  b xi yi  ny    yi  a  yi  b xi yi 

i 1
i 1
i 1
i 1
 i 1
  i 1

n
2
2
Ukupni zbroj kvadrata
Protumačeni dio zbroja kvadrata Ne protumačeni dio zbroja kvadrata
MJERE DISPERZIJE REGRESIJSKOG MODELA
Regresijsko standardno odstupanje
korijen je od Varijance
Koeficijent
determinacije
n
n
y 
n
n
 yi  a yi  b xi yi
2
i 1
i 1
i 1
n
Koeficijent varijacije regresije
V yˆ 
 yˆ
y

R2 
 ( yˆi  y )
2
 ( yi  y )
2

i 1
n
i 1
n
i 1
i 1
a  yi  b xi yi  ny 2
n
2
y

n
y
 i
2
i 1
Korigirani koeficijent determinacije
R 2  1
x100 
n
n 1
(1  r 2 )
n  ( K  1)
R 2  R2
,0  R 2  1.
PRIMJENA U KEMIJI
PRIMJENE u KEMIJI
Kalibracija
0,7
0,6
0,5
A
0,4
Nagib
b=0,5014
0,3
0,2
0,1
Odsječak
b 0=0,0943
0,0
-0,1
0,0
0,2
0,4
0,6
0,8
1,0
1,2
mg L -1
Koji su razlozi mogućim odstupanjima (pogreškama) tijekom postupka kalibracije ?
Primjer br.2
KALIBRACIJA
Priređene su otopine različitih koncentracija nekog spoja
nakon čega su određene vrijednosti A.
Dobivene su slijedeće vrijednosti:
Koncentracija/
M
A
0,001
102
0,005
199
0,011
303
0,05
399
0,1
504
0,5
595
1
707
5
796
… u programu Statistica
y = 1,75+99,75*x
900
800
700
600
A
500
400
300
200
100
0
0
1
2
3
4
5
6
7
8
9
Primjer:određivanje koncentracije nepoznatog uzorka
y = 1,75+99,75*x
820
780
740
700
660
620
580
540
A
500
460
420
380
340
300
A (nepoznatog uzorka) = 221
260
220
180
140
C (nepoznato) =0.0072 mol/L
100
60
0,001
0,005
0,01
0,05
0,1
0,5
1
10
Primjer br.3 : kalibracija pri određivanju koncentracije kinina fluorescencijskom spektroskopijom
Zadatak: odrediti jednadžbu pravca
n
b1 
 ( x  x )( y
i
i 1
i
 y)
b0  y  b1 x
n
2
(
x

x
)
 i
i 1
Dobivene su slijedeće vrijednosti:
i
1
2
3
4
5
6
Xi/ ng/ml
0
10
20
30
40
50
Yi/I
4.13
21.16
44.57
61.78
78.11
105.32
yˆ  2,93  1,98 x
U tablicu unesite izračunate vrijednosti
Izračunajte rezidualnu varijancu prema slijedećem izrazu:
xi
yi
0
4.13
10
21.16
20
44.57
30
61.78
40
78.11
50
105.32
S 2 xy 
yˆ i
2
ˆ
(
y

y
)
 i i
n2
Izračunati:
ei  ( yi  yˆ i )
e2i
e
i
ei 

2
e
 i
Reziduali vs
yˆ
Raspodjela reziduala trebala bi biti normalna
Distribution of Raw residuals
Predicted vs. Residual Scores
Expected Normal
Dependent variable: Var2
4
3
2
1
0
No of obs
Residuals
1
-1
-2
-3
-4
-5
-20
0
20
40
60
Predicted Values
80
100
120
0
0,95 Conf.Int.
Greška može potjecati zbog:
Detektora, fluktuacija u izvoru svjetla, elektronici instrumenta
itd
-
-5
-4
-3
-2
-1
0
1
2
3
4
Homogenost varijance (homoscedastičnost) tj. uvjet konstantnosti varijance
često nije ispunjen u kalibraciji zbog velikog npr. velikog raspona
koncentracija c1,c2,……Cn
Ukoliko su rezidualne vrijednosti nasumično raspoređene ispunjen je uvjet homoscedastičnosti
0- rezidualne su vrijednosti raspoređene
u obliku slova U
o -rezidualni su nasumično raspoređeni
+=o-uvjet homoscedastičnosti nije
ispunjen,
rezidualne vrijednosti se povećavaju
povećanjem predviđenih vrijednosti
Predicted vs. Residual Scores
Dependent variable: Var2
4
3
o
2
1
o
o
Residuals
o
o
0
o
-1
o
o
o
o
o o
o
o
o
o
o o
o
o
o
o
o
o
o
o
-2
-3
-4
-5
-20
0
20
40
60
Predicted Values
80
100
120
0,95 Conf.Int.
Primjer br.4:
xi
0
1
2
3
4
5
yi
0,00
0,97
2,13
3,18
3,70
4,27
U-oblik reziduala
y = 0,2081+0,8634*x
4,5
0,5
3,5
0,4
3,0
0,3
2,5
0,2
Residuals
y
Predicted vs. Residual Scores
4,0
2,0
1,5
0,1
0,0
1,0
-0,1
0,5
-0,2
0,0
-0,3
-0,5
-1
0
1
2
3
4
5
6
-0,4
0,0
0,5
1,0
1,5
2,0
2,5
3,0
Predicted Values
x
N=6
Intercept
Var1
Regres sion Summ ary for Dependent Variable: Var2 (primjerFluuorescencija.s ta)
R= ,98674989 R2= ,97367534 Adjus ted R2= ,96709418
F(1,4)=147,95 p<,00026 Std.Error of estimate: ,29695
b*
Std.Err.
b
Std.Err.
t(4)
p-value
of b*
of b
0,208095 0,214920
0,96825 0,387751
0,986750 0,081124 0,863429 0,070986 12,16342 0,000262
3,5
4,0
4,5
5,0
0,95 Conf.Int.
Dependent
Variable
Var2
Test of SS Whole Model vs . SS Res idual (prim jer drava.s ta)
Multiple
Multiple
Adjusted
SS
df
MS
SS
df
R
R2
R2
Model
Model
Model
Res idual
Res idual
0,998024 0,996051 0,993419 13,61537
2 6,807686 0,053977
3
Var2
= 0,0814285714286+1,28114285714*""Var1""0,0814285714286*""Var1"^2"
ˆy  0,0814  1,28 x  0,081x 2
MS
Res idual
0,017992
F
378,3650
p
0,000248
Observed Values vs. Predicted
Dependent variable: Var2
(Analysis sample)
5,0
4,5
4,0
3,5
Predicted Values
3,0
2,5
2,0
1,5
1,0
0,5
0,0
-0,5
-1,0
-0,5
0,0
0,5
1,0
1,5
2,0
2,5
3,0
3,5
4,0
4,5
5,0
Observed Values
Usporedite dobivena rezidualna odstupanja sa onim iz
prethodnog primjera!!!
Predicted vs. Residual Scores
0,5
0,4
0,20
0,3
0,15
0,2
Residuals
0,10
Reziduali
0,05
0,1
0,0
0,00
-0,1
-0,05
-0,2
-0,10
-0,3
-0,15
-0,20
-0,5
-0,4
0,0
0,0
0,5
1,0
1,5
2,0
2,5
Predviđene vrijednosti
3,0
3,5
4,0
4,5
0,5
1,0
1,5
2,0
2,5
3,0
Predicted Values
3,5
4,0
4,5
5,0
0,95 Conf.Int.
Usporedite vrijednosti
R
R2
R2
Prvi slučaj
N=6
Intercept
Var1
Regres sion Summ ary for Dependent Variable: Var2 (primjerFluuorescencija.s ta)
R= ,98674989 R2= ,97367534 Adjus ted R2= ,96709418
F(1,4)=147,95 p<,00026 Std.Error of estimate: ,29695
b*
Std.Err.
b
Std.Err.
t(4)
p-value
of b*
of b
0,208095 0,214920
0,96825 0,387751
0,986750 0,081124 0,863429 0,070986 12,16342 0,000262
Drugi slučaj
Dependent
Variable
Var2
Test of SS Whole Model vs . SS Res idual (prim jer drava.s ta)
Multiple
Multiple
Adjusted
SS
df
MS
SS
df
R
R2
R2
Model
Model
Model
Res idual
Res idual
0,998024 0,996051 0,993419 13,61537
2 6,807686 0,053977
3
MS
Res idual
0,017992
F
378,3650
p
0,000248
Vrijednosti koje se nalaze izvan ostalih vrijednosti
(Outliers)
Netipične vrijednosti mogu u velikoj mjeri utjecati na rješenja jednostavne linearne regresije i MLR
Primjer br. 1
Predicted vs. Residual Scores
y = -0,8952+1,6914*x
12
Dependent variable: y
3
10
2
8
1
y
Residuals
6
4
0
-1
2
-2
0
-3
-2
-1
0
1
2
3
Primjer br. 2
4
5
-2
6
-1
0
1
2
3
4
5
6
7
Predicted Values
x
8
0,95 Conf.Int.
y = 0,6952+1,1886*x
12
Predicted vs. Residual Scores
Dependent variable: y
7
10
6
8
5
4
y
Residuals
6
4
3
2
1
2
0
0
-1
-2
-2
-1
0
1
2
3
x
4
5
6
0
1
2
3
4
Predicted Values
5
6
7
0,95 Conf.Int.
Primjer br. 3
Predicted vs. Residual Scores
Dobar
Dependent variable: y
0,15
y = 0,03+0,99*x
0,10
9
8
0,05
7
0,00
Residuals
6
y
5
4
-0,05
-0,10
3
2
-0,15
1
-0,20
0
-1
-1
0
1
2
3
4
5
6
7
8
-0,25
9
-1
0
1
2
x
3
4
5
6
7
Predicted Values
Primjer br. 4
8
0,95 Conf.Int.
y = -1,1905+2,2229*x
12
Predicted vs. Residual Scores
Dependent variable: y
3
10
2
6
1
Residuals
y
8
4
0
2
-1
0
-2
-2
-1
0
1
2
3
4
5
6
x
-3
-2
0
2
4
6
Predicted Values
Kako otkriti koje točke utječu na regresijski pravac?
9
8
10
12
0,95 Conf.Int.
Kako otkriti koje točke utječu na regresijski pravac?
Kriteriji su : standardizirana rezidualna odstupanja i Cookova kvadrirana udaljenost
Odbacuju se one točke kod kojih je vrijednost standardiziranih rezidualnih odstupanja ≥ 2, a Cookova udaljenost ≥1
Iz 4. tog primjera
Cas e No.
1
2
3
4
5
6
Minim um
Maximum
Mean
Median
Predicted & Res idual Values (primjer drava.s ta)
Dependent variable: y
Obs erved
Predicted
Res idual
Standard
Standard
Std.Err.
Mahalanobis
Deleted
Cook's
Value
Value
Pred. v.
Res idual
Pred.Val
Dis tance
Res idual Dis tance
0,00000
-1,19048
1,19048
-1,33631
0,63761 1,351305
1,785714
2,50000 0,469559
1,10000
1,03238
0,06762
-0,80178
0,03622 1,014502
0,642857
0,09595 0,000390
2,00000
3,25524
-1,25524
-0,26726
-0,67229 0,794235
0,071429
-1,53256 0,060959
3,10000
5,47810
-2,37810
0,26726
-1,27369 0,794235
0,071429
-2,90349 0,218797
10,00000
7,70095
2,29905
0,80178
1,23135 1,014502
0,642857
3,26216 0,450630
10,00000
9,92381
0,07619
1,33631
0,04081 1,351305
1,785714
0,16000 0,001923
0,00000
-1,19048
-2,37810
-1,33631
-1,27369 0,794235
0,071429
-2,90349 0,000390
10,00000
9,92381
2,29905
1,33631
1,23135 1,351305
1,785714
3,26216 0,469559
4,36667
4,36667
0,00000
0,00000
0,00000 1,053347
0,833333
0,26368 0,200376
2,55000
4,36667
0,07191
0,00000
0,03851 1,014502
0,642857
0,12797 0,139878
Iz primjera br 1 i dobivene tablice slijedi da bi bilo korisno izbaciti točku 6
Cas e No.
1
2
3
4
5
6
Minim um
Maximum
Mean
Median
Predicted & Res idual Values (primjer drava.s ta)
Dependent variable: y
Obs erved
Predicted
Res idual
Standard
Standard
Std.Err.
Mahalanobis
Deleted
Cook's
Value
Value
Pred. v.
Res idual
Pred.Val
Dis tance
Res idual Dis tance
0,00000
-0,895238
0,89524
-1,33631
0,50588 1,280799
1,785714
1,88000 0,295577
1,10000
0,796191
0,30381
-0,80178
0,17168 0,961569
0,642857
0,43108 0,008759
2,00000
2,487619
-0,48762
-0,26726
-0,27554 0,752795
0,071429
-0,59535 0,010240
3,10000
4,179048
-1,07905
0,26726
-0,60974 0,752795
0,071429
-1,31744 0,050143
3,80000
5,870476
-2,07048
0,80178
-1,16997 0,961569
0,642857
-2,93784 0,406827
10,00000
7,561905
2,43810
1,33631
1,37771 1,280799
1,785714
5,12000 2,192273
0,00000
-0,895238
-2,07048
-1,33631
-1,16997 0,752795
0,071429
-2,93784 0,008759
10,00000
7,561905
2,43810
1,33631
1,37771 1,280799
1,785714
5,12000 2,192273
3,33333
3,333333
-0,00000
0,00000
-0,00000 0,998388
0,833333
0,43008 0,493970
2,55000
3,333333
-0,09190
0,00000
-0,05193 0,961569
0,642857
-0,08213 0,172860
Presjek dva regresijska pravca
Primjer:KONDUKTOMETRIJSKA TITRACIJA
x
y
x
y
ml NaOH
Provodnost
ml NaOH
Provodnost
3,02
430,06
25,55
129,04
6,03
388,02
27,09
147,08
9,05
343,12
30,08
181,03
12,02
302,07
33,09
215,07
15,05
259,03
36,04
251,03
18,10
214,08
21,09
170,03
Scatterplot of Var2 against Var1
Spreadsheet21 10v*100c
Var2 = 474-14,4286*x
450
400
350
Scatterplot of Var4 against Var3
260
240
220
250
200
Var4
Var2
Spreadsheet21 10v*100c
Var4 = -165,4512+11,5528*x
300
200
180
160
140
120
150
100
24
26
28
30
32
Var3
100
2
3
4
5
6
7
8
9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
Var1
Sijeku se u 24,61 ml
34
36
38