Lecture_7

Transcript Lecture_7

DUOMENŲ GAVYBOS
TECHNOLOGIJOS
Leonidas Sakalauskas
VGTU ITK, VU MII
t. -85 2109323, <[email protected]>
Tiriant duomenis dažnai reikia rasti atsakymą į
klausimus:
- ar tam tikri kintamieji įtakoja svarbius įmonei
rodiklius;
- kaip įvertinti šią įtaką;
- kaip prognozuoti rodiklių pokyčius pakitus
kintamųjų reikšmėms ?
Šie prognozuojami rodikliai vadinami
priklausomais kintamaisiais, arba
kintamaisiais-taikiniais (dependent, target
variable), kuriuos įtakoja nepriklausomi
kintamieji.
Kuris kintamasis yra taikinys, o kurie kintamieji
yra nepriklausomi, turi būti susitarta iš
anksto.
Nagrinėsime tiesinę daugialypę regresiją, t.y.
matematinę priklausomybę, kai kintamasistaikinys priklauso tiesiškai nuo kelių
(nepriklausomų) kintamųjų.
Daugialypė regresija taikoma kelių kintamųjų
įtakai tirti, kai priklausomi ir nepriklausomi
kintamieji kinta intervalų skalėje.
y  a 0  a1 x i  a 2 x 2  ...  a n x n  e
čia y – priklausomas kintamasis,
x=(x1, x2, …., xn) – nepriklausomų kintamųjų
vektorius,
a0, a1, a2, , ..., an – regresijos lygties koeficientai;
e - modelio paklaidą, laikoma atsitiktine.



skirtingų stebėjimų paklaidos yra
nepriklausomos;
modelio paklaidos e yra normaliai pasiskirstę
atsitiktiniai dydžiai, N(0, σ2);
jokio nepriklausomo kintamojo negalima
išreikšti tiesiškai per likusius (priešingu
atveju kintamieji nebūtų nepriklausomi !).
Pasirinkus regresijos modelį, reikia:
 įvertinti nežinomus modelio parametrus;
 patikrinti, ar pasirinktasis modelis
suderinamas su duomenimis;
 panaudoti regresijos modelį prognozėms.
Tarkime, duota daugiamatė nepriklausomų
kintamųjų stebėjimų matrica ir priklausomo
kintamojo stebėjimų vektorius:
 x11

x12

X 
 ...

 x1 N
x12
...
x 22
...
...
...
x2 N
...
x1 n 

x2n

... 

x nN 



Y 



1
y 

2
y 

...

N
y 
čia n – nepriklausomų kintamųjų skaičius,
N – stebėjimų skaičius.
Jei tiesinės regresijos koeficientai žinomi,
galima apskaičiuoti stebėjimų paklaidas
Yi  a 0  a1 x1i  a 2 x 2 i  ...  a n x ni  e i
Regresijos koeficientai dažniausiai
parenkami , siekiant, kad kvadratinė
stebėjimų paklaida būtų mažiausia:
e1  e 2  ...  e N  min
2
2
2
Tai galima daryti tokiu būdu.
Pirmiausia sucentruojami stebėjimų matrica
ir vektorius:
~
Y  Y Y
~
X  X  X
toliau apskaičiuojama kovariacijų matrica ir
kovariacijų vektorius, iš kurių randami
centruotų duomenų regresijos koeficientai A:
Q  Q ik 1 
n
~T ~
X X
N  n 1
R
A  R Q ,
1
~ ~
X Y
N  n 1
A=(a1, a2, ..., an)
Jei koeficientas prie kurio-nors kintamojo
lygus nuliui, tai galima tvirtinti, kad šis
kintamasis neįtakoja kintamojo taikinio ir
jį galima iš lygties pašalinti.
Hipotezė apie lygties koeficientų lygybę
nuliui yra tikrinama remiantis Stjudentokriterijumi. Statistinėse programinėse
sistemose paprastai nurodoma, kurie
lygties koeficientai gali būti laikomi lygiais
nuliui.
Jei koeficientas pasirodo esąs reikšmingas,
ir teigiamo ženklo, tai jis veikia
priklausomą kintamąjį didinančiai, o jei jis
neigiamas – tai jo didinimas priklausomą
kintamąjį mažina.
Be to, lygties koeficientas parodo, keliais
vienetais pasikeičia prognozuojama
priklausomo reikšmė, jei atitinkamo
nepriklausomo kintamojo reikšmė padidėja
vienetu.
Galima taip pat tikrinti hipotezę apie visos
lygties tinkamumą, t.y., ar nors vienas
koeficientas reikšmingai skiriasi nuo nulio,
apskaičiuojant determinacijos koeficientą
ir tikrinant statistinę hipotezę apie jo
lygybę nuliui pagal Fišerio kiriterijų
Statistinėse programinėse sistemose
paprastai pateikiama informacija apie šią
hipotezę.
Daugialypės tiesinės regresijos lygtį galima
taikyti prognozavimui.
Tam pakanka į lygtį įstatyti nepriklausomų
kintamųjų reikšmes ir apslaičiuoti
priklausomo kintamojo prognozę.
Tokiu būdu gauta prognozė pasižymi
dispersiją, kuri sparčiai didėja, jei
nepriklausomujų kintamųjų reikšmės
pradeda skirtis nuo jų stebėjimų intervalo.
Su tiesinės regresijos modeliu glaudžiai
susijusi “geriausio tiesinio modelio“
parinkimo problema.
Ši problema sprendžiama pažingsninės
regresijos būdu (step-wise regression).
Gali būti tiesioginė (forward) ir atbulinė
(backward) pažingsninės regresijos.
Pažingsninėje regresijoje yra parenkama
mažiausia nepriklausomų kintamųjų aibė,
kurią atitinkanti regresijos lygtis
statistiškai mažai skiriasi nuo tiesinės
regresijos visų nepriklausomų kintamųjų
atžvilgiu.
Paprastai kintamieji įtraukiami (forward)
arba pašalinami iš lygties po vieną
(backward).
Patartina palyginti tiesioginės ir atbulinės
pažingsninės regresijos lygtis.
Jei jos stipriai skiriasi, gali būti, kad tiesinė
regresija netinka pasirinktiems duomenims
tirti.
Kartais regresijos lygtis geriau tinka
duomenims, kai padaromos kokios-nors
netiesinės kintamųjų transformacijos
(logaritmavimas, kėlimas laipsniu ir pan.).
Galima sudaryti kvadratinės (ar dar
aukštesnės eilės) regresijos lygtį. Tam
pakanka nepriklausomų kintamųjų sąrašą
papildyti atitinkamais nepriklausomų
kintamųjų laipsniais ir sandaugomis.