Transcript Lecture_7
DUOMENŲ GAVYBOS TECHNOLOGIJOS Leonidas Sakalauskas VGTU ITK, VU MII t. -85 2109323, <[email protected]> Tiriant duomenis dažnai reikia rasti atsakymą į klausimus: - ar tam tikri kintamieji įtakoja svarbius įmonei rodiklius; - kaip įvertinti šią įtaką; - kaip prognozuoti rodiklių pokyčius pakitus kintamųjų reikšmėms ? Šie prognozuojami rodikliai vadinami priklausomais kintamaisiais, arba kintamaisiais-taikiniais (dependent, target variable), kuriuos įtakoja nepriklausomi kintamieji. Kuris kintamasis yra taikinys, o kurie kintamieji yra nepriklausomi, turi būti susitarta iš anksto. Nagrinėsime tiesinę daugialypę regresiją, t.y. matematinę priklausomybę, kai kintamasistaikinys priklauso tiesiškai nuo kelių (nepriklausomų) kintamųjų. Daugialypė regresija taikoma kelių kintamųjų įtakai tirti, kai priklausomi ir nepriklausomi kintamieji kinta intervalų skalėje. y a 0 a1 x i a 2 x 2 ... a n x n e čia y – priklausomas kintamasis, x=(x1, x2, …., xn) – nepriklausomų kintamųjų vektorius, a0, a1, a2, , ..., an – regresijos lygties koeficientai; e - modelio paklaidą, laikoma atsitiktine. skirtingų stebėjimų paklaidos yra nepriklausomos; modelio paklaidos e yra normaliai pasiskirstę atsitiktiniai dydžiai, N(0, σ2); jokio nepriklausomo kintamojo negalima išreikšti tiesiškai per likusius (priešingu atveju kintamieji nebūtų nepriklausomi !). Pasirinkus regresijos modelį, reikia: įvertinti nežinomus modelio parametrus; patikrinti, ar pasirinktasis modelis suderinamas su duomenimis; panaudoti regresijos modelį prognozėms. Tarkime, duota daugiamatė nepriklausomų kintamųjų stebėjimų matrica ir priklausomo kintamojo stebėjimų vektorius: x11 x12 X ... x1 N x12 ... x 22 ... ... ... x2 N ... x1 n x2n ... x nN Y 1 y 2 y ... N y čia n – nepriklausomų kintamųjų skaičius, N – stebėjimų skaičius. Jei tiesinės regresijos koeficientai žinomi, galima apskaičiuoti stebėjimų paklaidas Yi a 0 a1 x1i a 2 x 2 i ... a n x ni e i Regresijos koeficientai dažniausiai parenkami , siekiant, kad kvadratinė stebėjimų paklaida būtų mažiausia: e1 e 2 ... e N min 2 2 2 Tai galima daryti tokiu būdu. Pirmiausia sucentruojami stebėjimų matrica ir vektorius: ~ Y Y Y ~ X X X toliau apskaičiuojama kovariacijų matrica ir kovariacijų vektorius, iš kurių randami centruotų duomenų regresijos koeficientai A: Q Q ik 1 n ~T ~ X X N n 1 R A R Q , 1 ~ ~ X Y N n 1 A=(a1, a2, ..., an) Jei koeficientas prie kurio-nors kintamojo lygus nuliui, tai galima tvirtinti, kad šis kintamasis neįtakoja kintamojo taikinio ir jį galima iš lygties pašalinti. Hipotezė apie lygties koeficientų lygybę nuliui yra tikrinama remiantis Stjudentokriterijumi. Statistinėse programinėse sistemose paprastai nurodoma, kurie lygties koeficientai gali būti laikomi lygiais nuliui. Jei koeficientas pasirodo esąs reikšmingas, ir teigiamo ženklo, tai jis veikia priklausomą kintamąjį didinančiai, o jei jis neigiamas – tai jo didinimas priklausomą kintamąjį mažina. Be to, lygties koeficientas parodo, keliais vienetais pasikeičia prognozuojama priklausomo reikšmė, jei atitinkamo nepriklausomo kintamojo reikšmė padidėja vienetu. Galima taip pat tikrinti hipotezę apie visos lygties tinkamumą, t.y., ar nors vienas koeficientas reikšmingai skiriasi nuo nulio, apskaičiuojant determinacijos koeficientą ir tikrinant statistinę hipotezę apie jo lygybę nuliui pagal Fišerio kiriterijų Statistinėse programinėse sistemose paprastai pateikiama informacija apie šią hipotezę. Daugialypės tiesinės regresijos lygtį galima taikyti prognozavimui. Tam pakanka į lygtį įstatyti nepriklausomų kintamųjų reikšmes ir apslaičiuoti priklausomo kintamojo prognozę. Tokiu būdu gauta prognozė pasižymi dispersiją, kuri sparčiai didėja, jei nepriklausomujų kintamųjų reikšmės pradeda skirtis nuo jų stebėjimų intervalo. Su tiesinės regresijos modeliu glaudžiai susijusi “geriausio tiesinio modelio“ parinkimo problema. Ši problema sprendžiama pažingsninės regresijos būdu (step-wise regression). Gali būti tiesioginė (forward) ir atbulinė (backward) pažingsninės regresijos. Pažingsninėje regresijoje yra parenkama mažiausia nepriklausomų kintamųjų aibė, kurią atitinkanti regresijos lygtis statistiškai mažai skiriasi nuo tiesinės regresijos visų nepriklausomų kintamųjų atžvilgiu. Paprastai kintamieji įtraukiami (forward) arba pašalinami iš lygties po vieną (backward). Patartina palyginti tiesioginės ir atbulinės pažingsninės regresijos lygtis. Jei jos stipriai skiriasi, gali būti, kad tiesinė regresija netinka pasirinktiems duomenims tirti. Kartais regresijos lygtis geriau tinka duomenims, kai padaromos kokios-nors netiesinės kintamųjų transformacijos (logaritmavimas, kėlimas laipsniu ir pan.). Galima sudaryti kvadratinės (ar dar aukštesnės eilės) regresijos lygtį. Tam pakanka nepriklausomų kintamųjų sąrašą papildyti atitinkamais nepriklausomų kintamųjų laipsniais ir sandaugomis.