Transcript Lecture_3

DUOMENŲ GAVYBOS
TECHNOLOGIJOS
Leonidas Sakalauskas
VGTU ITK, VU MII
t. -85 2109323, <[email protected]>
Skaitinės reikšmės, siejamos su atsitiktiniais
įvykiais, yra vadinamos atsitiktiniais dydžiais
(a.d.).
Atsitiktinis dydis yra atsitiktinio įvykio funkcija.
Atsitiktinį dydį X apibūdina jo galimų reikšmių
aibė ir skirstinys.
Atstiktinio dydžio galimų reikšmių aibę sudaro
visos skaitinės reikšmės, kurias jis gali įgyti
su nenuline tikimybe.
Skirstinys yra funkcija, lygi tikimybei, kad
atsitiktinio dydis X neviršyja reikšmės x:
F ( x)  Pr(X  x)
Taikomosiuose modeliuose dažniausiai
pasitaiko diskretieji ir tolydieji a. d.
Atsitiktinis dydis yra diskretusis, jeigu jo
galimų reikšmių aibė baigtinė arba skaiti.
Atsitiktinis dydis X vadinamas tolydžiuoju,
jeigu jo galimų reikšmių aibė yra realiųjų
skaičių intervalas arba tokių intervalų
sąjunga.
Svarbio a.d. charakteristikos yra vidurkis
(tikėtina reikšmė):
ir dispersija:
2
DY
EY
D2Y  EY 2  (EY )2
vadinama standartiniu nuokrypiu
Discretusis a.d. aprašomas įgyjanų
reikšmių tikimybėmis:
y1 , y2 ,..., yn
p1 , p2 ,..., pn ,
n
p
i 1
i
1
Diskrečiojo a.d. f (Y ) vidurkis yra
išreiškiamas suma:
n
Ef (Y )   f ( yi )  pi
i 1
Tolydusis a.d. yra nusakomas tikimybe
tankio funkcija:

p( y)  0,


p( z )dz  1
Tokiu būdu:
y
F ( y) 
 p( z)dz

Lygties
F (Yp )  p
Yp vadinamas a.d. p-kvantiliu
Atsitiktinės funkcijos
f ( y)

Ef (Y ) 
vidurkis:
 f ( z)  p( z)dz

Tolydusis a.d. Y yra pasiskirstęs normaliai
(arba pagal Gauso dėsnį), paprastai
Žymimą N(μ, σ2), jei jo tankio funkcija
(μ – vidurkis, σ – st. nuokrypis):

1
p( y ) 
e
2   
EY   ,
( y  )2
2 2
D 2Y   2
,
Jei labai daug nepriklausomų atsitiktinių
poveikių įtakoja kokį-nors parametrą, tai
jo skirstinys būtinai yra normalusis.
Tad normalusis ir su juo susiję skirstiniai
dažnai taikomi tikimybiniam modeliavimui
ir duomenų analizei.
Eksponentinio a.d. skirstinys ir tankio
funkcija: (λ - intensyvumas):
F ( y)  Pr(Y  y)  1  e y
p( y)  e
EX 
1

 y
DY
2
1
2
Laiko trukmė tarp dviejų atsitiktinių įvykių
dažnai pasiskirsčiusi pagal šį dėsnį, pvz.,
draudiminiai įvykiai, fiksuoto ryšio telefono
skambučiai, ir pan.
Kai trukmė tarp įvykių pasiskirsčiusi pagal
eksponentinį dėsnį, įvykių skaičius intervale
galima apskaičiuoti pagal Puasono dėsnį.
Patikimumo uždaviniuose dažnai taikomi Gama
ir Veibulo a.d., susiję su eksponentiniu a.d.
Pareto a. d. yra aprašomas skirstiniu:
1
F ( y)  1 
,

(1  y / C )
y  0,
A.d. pasižymi Pareto savybe, jei
A
P r(Y  y )  
y
Skirstinys turi sunkią uodegą, jei α<2
Atsitiktinio vektoriaus skirstinys:
Y  Y1 , Y2 ,...,Yn  
n
aprašomas daugiamačiu skirstiniu
F ( y)  F ( y1 , y2 ,..., yn )  Pr(Y  y) 
 PrY1  y1 , Y2  y2 ,...,Yn  yn 
Atsitiktinis vektorius gali būti apibūdinamas
vidurkių vektoriumi (tikėtinų reikšmių):
EX  ( EX1, EX2 ,...,EXn )
ir kovariacijų matrica:
čia


R  Cov (Yi , Y
, j) 1
n
Cov( X i , X j )  E X i  EXi  ( X j  EX j ),
D2Yi  Cov(Yi , Yi ) ,
j  1,2,...,n, i  1,2,...,n
Sąryšiai tarp kintamųjų (komponenčių)
aprašomi koreliacijomis:
i, j 
Cov ( X i , X j )
Cov ( X i , X i )  Cov ( X j , X j )
j  1,2,...,n, i  1,2,...,n
AS leidžia apžvelgti duomenis ir teikia
pagrindą gilesniam tyrimui.
AS sudaro :
 Pozicinės statistikos
 Momentų statistikos
Tegul duota atsitiktinė imtis:
Y1 , Y2 ,...,YN ,
N
- Imties tūris
Imtis užrašyta didėjančia tvarka vadinama
variacine eilute
Y(1)  Y( 2)  ...  Y( N )
variacinės eilutės nariai vadinami pozicinėmis
Statistikomis.
Variacine eilute pasinaudojama vaizduojant
histogramas, tikrinant hipotezes apie duomenų
Skirstinius ir pan.
i
 N , Y(i 1)  x  Y(i ) , i  1,2,..., N

FN ( y )  0,
y  Y(1)

y  Y( N )
1,

1 N
y N   Yi
N i 1
2
N
(
y
)
N
1
2
2
N
sN 
Yi 

N  1 i 1
N 1
imties vidurkis
imties dispersija
Trečias momentas
1
 
N
3
N
1
 
N
4
N
N
3
(
Y

y
)
 i N
i 1
N
4
(
Y

y
)
 i N
i 1
Ketvirtas momentas
sN
N 
xN
N 
N 
 n3
s
s
Asimetrijos koeficientas
3
N
 n4
4
N
Variacijos koeficientas
3
kurtosis
Praktiniai duomenys dažnai pasižymi
pliūpsniškumu, sunkiomis uodegomis,
pvz:


finansinių rinkų indeksai;
informaciniai srautai kompiuterių
tinkluose
Duomenys taip pat gali būti asimetriniai,
leptokurtotiniai (daug mažų ir daug
didelių reikšmių).
Robastinė duomenų analizė (nuo Huber,
1964) tiria metodus, kurie lieka stabilus
esant “sunkioms uodegoms”, asimetrijai,
ir/arba leptokurtotiškumui.
P{Y  y}~Cy , y 0
where 0 < α < 2 and C > 0 are constants



Palyginti momentų statistikas su
pozicinėmis statistikomis
Pritaikyti adekvačiua skirstinius (alfastable or Student distributions instead normal one)
Tirti inžinerines prielaidas apie
duomenų prigimtį (pliūpsniškumas, ,
etc.)
T.y., palyginkite imties vidurkį y su
N
mediana ymediane ,
Ir standartinį nuokrypį s N su
absolučiu nuokrypiusabs
.
1 N
   Yk  y N
N k 1
Jei skirtumų yra, reikalinga robustinė DA.
Daugiamatėje analyzėje palyginti Pirsono
Koreliacijos koeficienta
Sk , j
k, j 
S j , j  S k ,k
su Spirmeno koefficientu
(kuris skaičiuojamas kaip Pirsono koreliacija tarp
atsitiktinių vektorių rangų).
Jei skirtumų yra, gilesnė analizė
reikalinga, taip pat
Tarkime, reikia rasti skitrstinio su tankiu
parametrus.
p( y, a)
Didžiausio tikėtinumo metodas leidžia rasti
gerus parametrų įverčius:
N
  ln p(Yi , a)   min
i 1
a
The science
should be done
by young !!!