Transcript Lecture_3
DUOMENŲ GAVYBOS TECHNOLOGIJOS Leonidas Sakalauskas VGTU ITK, VU MII t. -85 2109323, <[email protected]> Skaitinės reikšmės, siejamos su atsitiktiniais įvykiais, yra vadinamos atsitiktiniais dydžiais (a.d.). Atsitiktinis dydis yra atsitiktinio įvykio funkcija. Atsitiktinį dydį X apibūdina jo galimų reikšmių aibė ir skirstinys. Atstiktinio dydžio galimų reikšmių aibę sudaro visos skaitinės reikšmės, kurias jis gali įgyti su nenuline tikimybe. Skirstinys yra funkcija, lygi tikimybei, kad atsitiktinio dydis X neviršyja reikšmės x: F ( x) Pr(X x) Taikomosiuose modeliuose dažniausiai pasitaiko diskretieji ir tolydieji a. d. Atsitiktinis dydis yra diskretusis, jeigu jo galimų reikšmių aibė baigtinė arba skaiti. Atsitiktinis dydis X vadinamas tolydžiuoju, jeigu jo galimų reikšmių aibė yra realiųjų skaičių intervalas arba tokių intervalų sąjunga. Svarbio a.d. charakteristikos yra vidurkis (tikėtina reikšmė): ir dispersija: 2 DY EY D2Y EY 2 (EY )2 vadinama standartiniu nuokrypiu Discretusis a.d. aprašomas įgyjanų reikšmių tikimybėmis: y1 , y2 ,..., yn p1 , p2 ,..., pn , n p i 1 i 1 Diskrečiojo a.d. f (Y ) vidurkis yra išreiškiamas suma: n Ef (Y ) f ( yi ) pi i 1 Tolydusis a.d. yra nusakomas tikimybe tankio funkcija: p( y) 0, p( z )dz 1 Tokiu būdu: y F ( y) p( z)dz Lygties F (Yp ) p Yp vadinamas a.d. p-kvantiliu Atsitiktinės funkcijos f ( y) Ef (Y ) vidurkis: f ( z) p( z)dz Tolydusis a.d. Y yra pasiskirstęs normaliai (arba pagal Gauso dėsnį), paprastai Žymimą N(μ, σ2), jei jo tankio funkcija (μ – vidurkis, σ – st. nuokrypis): 1 p( y ) e 2 EY , ( y )2 2 2 D 2Y 2 , Jei labai daug nepriklausomų atsitiktinių poveikių įtakoja kokį-nors parametrą, tai jo skirstinys būtinai yra normalusis. Tad normalusis ir su juo susiję skirstiniai dažnai taikomi tikimybiniam modeliavimui ir duomenų analizei. Eksponentinio a.d. skirstinys ir tankio funkcija: (λ - intensyvumas): F ( y) Pr(Y y) 1 e y p( y) e EX 1 y DY 2 1 2 Laiko trukmė tarp dviejų atsitiktinių įvykių dažnai pasiskirsčiusi pagal šį dėsnį, pvz., draudiminiai įvykiai, fiksuoto ryšio telefono skambučiai, ir pan. Kai trukmė tarp įvykių pasiskirsčiusi pagal eksponentinį dėsnį, įvykių skaičius intervale galima apskaičiuoti pagal Puasono dėsnį. Patikimumo uždaviniuose dažnai taikomi Gama ir Veibulo a.d., susiję su eksponentiniu a.d. Pareto a. d. yra aprašomas skirstiniu: 1 F ( y) 1 , (1 y / C ) y 0, A.d. pasižymi Pareto savybe, jei A P r(Y y ) y Skirstinys turi sunkią uodegą, jei α<2 Atsitiktinio vektoriaus skirstinys: Y Y1 , Y2 ,...,Yn n aprašomas daugiamačiu skirstiniu F ( y) F ( y1 , y2 ,..., yn ) Pr(Y y) PrY1 y1 , Y2 y2 ,...,Yn yn Atsitiktinis vektorius gali būti apibūdinamas vidurkių vektoriumi (tikėtinų reikšmių): EX ( EX1, EX2 ,...,EXn ) ir kovariacijų matrica: čia R Cov (Yi , Y , j) 1 n Cov( X i , X j ) E X i EXi ( X j EX j ), D2Yi Cov(Yi , Yi ) , j 1,2,...,n, i 1,2,...,n Sąryšiai tarp kintamųjų (komponenčių) aprašomi koreliacijomis: i, j Cov ( X i , X j ) Cov ( X i , X i ) Cov ( X j , X j ) j 1,2,...,n, i 1,2,...,n AS leidžia apžvelgti duomenis ir teikia pagrindą gilesniam tyrimui. AS sudaro : Pozicinės statistikos Momentų statistikos Tegul duota atsitiktinė imtis: Y1 , Y2 ,...,YN , N - Imties tūris Imtis užrašyta didėjančia tvarka vadinama variacine eilute Y(1) Y( 2) ... Y( N ) variacinės eilutės nariai vadinami pozicinėmis Statistikomis. Variacine eilute pasinaudojama vaizduojant histogramas, tikrinant hipotezes apie duomenų Skirstinius ir pan. i N , Y(i 1) x Y(i ) , i 1,2,..., N FN ( y ) 0, y Y(1) y Y( N ) 1, 1 N y N Yi N i 1 2 N ( y ) N 1 2 2 N sN Yi N 1 i 1 N 1 imties vidurkis imties dispersija Trečias momentas 1 N 3 N 1 N 4 N N 3 ( Y y ) i N i 1 N 4 ( Y y ) i N i 1 Ketvirtas momentas sN N xN N N n3 s s Asimetrijos koeficientas 3 N n4 4 N Variacijos koeficientas 3 kurtosis Praktiniai duomenys dažnai pasižymi pliūpsniškumu, sunkiomis uodegomis, pvz: finansinių rinkų indeksai; informaciniai srautai kompiuterių tinkluose Duomenys taip pat gali būti asimetriniai, leptokurtotiniai (daug mažų ir daug didelių reikšmių). Robastinė duomenų analizė (nuo Huber, 1964) tiria metodus, kurie lieka stabilus esant “sunkioms uodegoms”, asimetrijai, ir/arba leptokurtotiškumui. P{Y y}~Cy , y 0 where 0 < α < 2 and C > 0 are constants Palyginti momentų statistikas su pozicinėmis statistikomis Pritaikyti adekvačiua skirstinius (alfastable or Student distributions instead normal one) Tirti inžinerines prielaidas apie duomenų prigimtį (pliūpsniškumas, , etc.) T.y., palyginkite imties vidurkį y su N mediana ymediane , Ir standartinį nuokrypį s N su absolučiu nuokrypiusabs . 1 N Yk y N N k 1 Jei skirtumų yra, reikalinga robustinė DA. Daugiamatėje analyzėje palyginti Pirsono Koreliacijos koeficienta Sk , j k, j S j , j S k ,k su Spirmeno koefficientu (kuris skaičiuojamas kaip Pirsono koreliacija tarp atsitiktinių vektorių rangų). Jei skirtumų yra, gilesnė analizė reikalinga, taip pat Tarkime, reikia rasti skitrstinio su tankiu parametrus. p( y, a) Didžiausio tikėtinumo metodas leidžia rasti gerus parametrų įverčius: N ln p(Yi , a) min i 1 a The science should be done by young !!!