Osnove statistike

Download Report

Transcript Osnove statistike

Osnove statistike
• Kombinatorika i vjerojatnost
• Obrada empirijskih podataka
• Mjere položaja i rasipanja
Osnove statistike
Zagreb 2010.
Kombinatorika
• Slučajni događaj – događaj koji se pod nekim
okolnostima može ali i ne mora dogoditi. Služe pri
određivanju vjerojatnosti slučajnih događaja
• Modeli u kombinatorici:
–
–
–
–
Osnove statistike
Permutacije (bez ponavljanja i s ponavljanjem)
Varijacije (bez ponavljanja i s ponavljanjem)
Kombinacije
Složene kombinacije
Zagreb 2010.
Permutacije
• permutacije bez ponavljanja:
– niz n istovrsnih elemenata kojima se određuje broj mogućih
redoslijeda (poređaja)
P(n)  n! n  (n  1)  ...  (n  k)  ...  1
Primjer: Na koliko se načina može poredati niz od 4 kuglice različite boje?
P(4)  4! 4  3  2 1  24
• permutacije s ponavljanjem:
– niz n istovrsnih elemenata među kojima postoje određene
podgrupe - određuje se broj mogućih redoslijeda (poređaja)
P
(n)
A1 ,A2 ...AK
 A1! A2n!!...AK !
Primjer: Na koliko se načina može poredati niz od 6 kuglica (2 crvene, 2 plave
te zelena i žuta)?
P (6) 2, 2,1,1 
Osnove statistike
6!
 180
2!2!
Zagreb 2010.
Varijacije
•
varijacije bez ponavljanja:
– niz n istovrsnih elemenata iz kojeg se uzima uzorak r te se određuje
broj različitih (mogućih) ishoda
(n )
Vr
n!

(n  r)!
Primjer: Koliko različitih uzoraka od po 3 kuglice možemo složiti iz skupa od 5 kuglica?
5!
(5)
V3 
 60
(5  3)!
•
varijacije s ponavljanjem:
– niz n istovrsnih elemenata iz kojeg se uzima uzorak r te se određuje broj
različitih (mogućih) ishoda s mogućnošću ponavljanja elemenata iz
skupa n do maksimalno r-puta
( n)
Vr
 nr
Primjer: Igranje sportske prognoze. Na koliko se načina može ispuniti listić sportske
prognoze ako se na listiću nalazi 12 parova, a mogući ishodi su 1,0 i 2?
V12  312  531 441
(3)
Osnove statistike
Zagreb 2010.
Kombinacije
•
kombinacije bez ponavljanja – (s ponavljanjem nemaju smisla):
– niz n istovrsnih elemenata iz kojeg se uzima uzorak od r elemenata
te se određuje broj različitih (mogućih) sastava uzorka gdje nije bitan
redoslijed već sadržaj (sastav)
Kr
(n)
Vr(n)!  n 
n!

 
r!
 r  (n  r)!  r!
Primjer: Koliko treba ispuniti nizova da bi se u LOTU 7/39 sigurno dobila ‘sedmica’?
NAPOMENA: budući da nije bitan redoslijed odabiranja (izvlačenja) kuglica
radi se o kombinacijama.
K7
Osnove statistike
(39)
 39 
39!
 
 15 380 937
7
(39

7)!

7!
 
Zagreb 2010.
Složene kombinacije
• složene kombinacije – skup od N elemenata sadrži podskup elemenata
sa svojstvom A i podskup elemenata sa svojstvom Ā (non A)
N
SKUP
M (A) (N-M) (Ā)
UZORAK
n
x el A (n-x) el Ā
Osnove statistike
K
(M(N-M))
(x (n- x))
 M  N  M
    

 x   n- x 
Zagreb 2010.
Vjerojatnost
• Slučajni događaj – događaj koji se pod nekim okolnostima može a i ne mora
dogoditi
• Elementarni događaj – mogući ishod slučajnog događaja
• Skup (polje) mogućih događaja – skup koji se sastoji od elementarnih
događaja
• Vjerojatnost – mogućnost pojave nekog elementarnog događaja koji se promatra
n(A)
n – broj svih mogućih ishoda (događaja)
P(A) 
n(A) – broj događaja sa svojstvom A
n
P(A)  0 - nemoguć događaj
0  P(A) 1
siguran
događaj
P(A)  1
• Protivna vjerojatnost
P(A)  1  P(A)
Osnove statistike
Zagreb 2010.
• Teoremi vjerojatnosti (slučaj složenih događaja):
• zbrajanje vjerojatnosti - P(A1) ili P(A2)
• zanima nas vjerojatnost da se dogodi A1 ili A2
• uz uvjet da su događaji A1 i A2 disjunktni (međusobno se
isključuju)
P(A1iliA 2 )  P(A1 )  P(A 2 )
Primjer: Bacamo kocku. Kolika je vjerojatnost da će kocka pokazati broj 2 ili 4 ili 6?
1
1
1
P(broj 2)  ; P(broj 4)  ; P(broj 6) 
6
6
6
1 1 1 1
P(2 ili 4 ili 6)    
6 6 6 2
• množenje vjerojatnosti (NEZAVISNI DOGAĐAJI)- P(A1) i P(A2)
• zanima nas vjerojatnost događaja da se dogodi A1 i A2 (istovremeno)
P(A1 i A 2 )  P(A1 )  P(A 2 )
Primjer: Bacamo kocku i novčić. Kolika je vjerojatnost da će kocka pokazati broj 6 i
novčić pasti na ‘glavu’?
P(broj 6) 
Osnove statistike
1
1
1 1 1
; P(' glava' ) 
 P(' glava' i '6' )   
6
2
6 2 12
Zagreb 2010.
• množenje vjerojatnosti (UVJETNI DOGAĐAJI)- P(A1) i P(A2)
• zanima nas vjerojatnost događaja da se realizira A1 i A2
• jedan događaj utječe na vjerojatnost drugog događaja
P(A1 i A 2 )  P(A1 )  P(A 2 /A1 )
Primjer: U kutiji je 10 kuglica, 6 bijelih i 4 crvene kuglice. Kolika je vjerojatnost da
prva i druga kuglica budu bijele ako izvučenu kuglicu ne vraćamo u kutiju?
A1 - prva kuglica bijela
A2 – druga kuglica bijela
P(A 1 ) 
6
5
; P(A 2 /A 1 ) 
10
9

P(A 1 i A 2 ) 
6 5 1
 
10 9 3
• ostale vjerojatnosti - uvjet da se elementarni događaji ne isključuju te da se
dogodi bar jedan događaj
• slučaj kada tražimo vjerojatnost pojave događaja A1 ili A2 ili A1 i
A2. Takova vjerojatnost se računa na način da se od sume
vjerojatnosti za događaje A1 , A2 oduzme vjerojatnost događaja
A1 i A2 istovremeno (izbjegavanje dvostruke vjerojatnosti).
P(A1 ili A 2 )  P(A1 )  P(A2)  P(A1 )  P(A2)
Osnove statistike
Zagreb 2010.
• Upotreba teorije vjerojatnosti na primjerima iz prakse
• Slučaj serijskog spoja – problem vezan za pouzdanost sustava
Primjer: Pojednostavljen slučaj vjerojatnosti pogotka cilja projektilom. Projektil na
putu do cilja prolazi kroz faze koje imaju svoju vjerojatnost uspjeha.
Vjerojatnost uspješnog pogotka cilja se može prikazati kao serijski spoj
faza (vjerojatnosti uspjeha svake faze). Svaka faza ima vjerojatnost
uspjeha 0,99. Kolika je vjerojatnost uspješnog pogotka cilja?
Za uspješan pogodak projektil mora uspješno proći sve faze.
Radi se o serijskom spoju (množenju vjerojatnosti).
P(uspješan pogodak)  P(det)  P(lnch)  P(lock)  P(trk)  P(hit)  P(kill)
P(uspješan pogodak)  0,996  0,941
Osnove statistike
Zagreb 2010.
• Slučaj paralelnog spoja – problem vezan za pouzdanost sustava
Primjer: U kritičnom dijelu nekoga procesa važno je da je barem jedna pumpa u
stanju ispravnog rada kako ne bi došlo do zastoja. Ako su vjerojatnosti
ispravnog rada (pouzdanost) svake pumpe R=0,99 kolika je vjerojatnost da
sustav funkcionira ispravno?
Budući da je P(ispravnog rada)+P(zastoja)=1
možemo pisati sljedeće:
P(ispravnog rada)  1- P(zastoja) ;
P(zastoja)  Q(pumpa1)  Q(pumpa2)  Q(pumpa3)
P(ispravnog rada)  1- 0,01 0,01 0,01  0.999999
Osnove statistike
Zagreb 2010.
Obrada empirijskih podataka
•
•
deskriptivna statistika – opisivanje podataka iz uzorka ili populacije u formi
osnovnih parametara, identifikacija procesa
osnovne vrste podataka – po nastanku varijable (upotreba različitih mjernih
ljestvica) se mogu klasificirati na:
1. Kvalitativne: nominalne (Da, Ne ; Dobar, Loš...), ordinalne (rangovi)
2. Kvantitativne: diskretne (cjelobrojne vrijednosti, pobrojane),
kontinuirane (neprekinute, mjerene)
a) Diskretne varijable – nastaju prebrojavanjem
x i 0,1,2...,n; P(xi ) P(0),P(1),P(2)...,P(n)
x
0
x
x
1
2
x
x
3
4
x
5
b) Kontinuirane varijable – nastaju mjerenjem
   x  
a
Osnove statistike
b
x
Zagreb 2010.
•
Grafička obrada empirijskih podataka
•
vrste grafičkih prikaza:
1. Histogram (‘bar chart’) – prikazivanje učestalosti podataka
stupićima te povezivanje vrhova u poligon frekvencija
Primjer:Histogram
- histogramski prikaz za diskretnu varijablu
- direktno očitavanje vjerojatnosti pojave pojedine
vrijednosti varijable
12
10
Frequency
8
6
Histogram
7
4
6
2
0
1
2
3
C1
4
5
Frequency
0
5
4
3
2
1
0
Osnove statistike
22
24
26
x
28
30
- histogramski prikaz
za kontinuiranu
varijablu
- prikaz preko
razreda podataka po
kojima klasificiramo
podatke
- u tehnici se radi sa
razredima jednake
veličine (širine)
Zagreb 2010.
Histogram of x1
- kumulanta – histogramski prikaz frekvencija koje se
kumuliraju od najnižega ka najvišem razredu
- mogućnost prikaza relativnih frekvencija (u %) na
ordinati
Cumulative Frequency
20
15
10
5
0
22
24
26
28
x1
30
32
34
2. ‘Box- whisker’ prikaz (prikaz ‘kutija – brkovi’) – jedno od najčešćih prikaza podataka
Primjer:
Boxplot of x1; x2
40
Data
35
30
25
20
x1
Osnove statistike
x2
- ‘box-whisker’ prikaz za kontinuiranu varijablu
- prikaz je moguće kreirati u različitim verzijama
(središnja točka medijan/aritmetička sredina,
podjela po percentilima/intervalima povjerenja...)
- jednostavna dijagnostika problematičnih podataka
(ekstrema, ‘outliera’)
- mogućnost prikazivanja dva ili više uzoraka
paralelno te brzo dijagnosticiranja njihovih relacija i
karakteristika
Zagreb 2010.
3. ‘Stem-leaf’ prikaz (prikaz ‘stabljika - list’)
Primjer:
fi
Stem
Leaf
2
21
02
4
22
3349
5
23
12589
4
24
5678
2
25
48
1
26
4
4. Ostali prikazi:
•
•
•
•
•
•
•
•
•
Osnove statistike
- prikaz ‘stabljika-list’ se najčešće koristi na
podacima koji su u decimalnom obliku gdje
se znamenka cijelog broja prikazuju kao
stabljika a decimalni dio kao ‘list’
‘Individual plot’,
‘Scatter plot’,
‘Line plot’,
‘Dot plot’ ,
‘Marginal plot’ ,
‘Area plot’,
‘Pie chart’
‘Normal probability plot’,
...
Zagreb 2010.
Primjer grafičke analize podataka: Na jednom uzorku izmjerene su vrijednosti vlačne
čvrstoće šarže čeličnog lima (u N/mm2). Nakon mjerenja dobiveni su sljedeći
podaci:
430, 440, 450, 460, 440, 430, 410, 410
440, 440, 430, 440, 420, 450, 430, 450
Histogram
420, 440, 420, 450, 410, 440, 460, 430
7
6
Frekvencija
5
4
Histogram kumulativnih frekvencija
3
25
0
410
420
430
440
450
Vlačne čvrstoće, N/mm2
460
20
Boxplot of Vlačne čvrstoće, N/mm2
15
460
10
5
0
410
420
430
440
450
Vlačne čvrstoće, N/mm2
460
Vlačne čvrstoće, N/mm2
1
Kumulativne frekvencija
2
450
440
430
420
410
Osnove statistike
Zagreb 2010.
•
Numerička obrada empirijskih podataka
• MJERE POLOŽAJA
• aritmetička sredina – suma svih elemenata u populaciji podijeljena sa brojem
elemenata populacije (težište – paralela sa mehaničkim modelom)
N
E ( x)  μ  ocekivanje
 xi
n
x  aritm. sredina uzorka 
i 1
N
n
najvažnije svojstvo aritmetičke sredine:  ( xi x )  0
 xi
i 1
n
i 1
• mod – podatak(ili razred) koji ima najveću frekvenciju
- mod dijeli distribuciju frekvencija na rastuću i padajuću stranu
- vrste distribucija s obzirom na mod
Osnove statistike
Zagreb 2010.
• medijan – 50% podataka je manje, a 50% veće od te vrijednosti
• kvantili - vrijednosti numeričkog obilježja koje niz uređen po veličini dijele na
q jednakih dijelova
Medijan
Kvartili
Decili
Percentili
Osnove statistike
Zagreb 2010.
• MJERE RASIPANJA
• standardna devijacija σ – prosječno odstupanje svakog podatka od arit. sredine
• varijanca σ2 – prosječno kvadratno odstupanje svakog podatka od arit. sredine
n
2 
•
 ( xi  x ) 2
i 1
n
   2
n
nepristrana procjena varijance osnovnog skupa (σo2) :
s2 
2
(
x

x
)
 i
i 1
n 1
• koeficijent varijacije, V – međusobno uspoređivanje varijabilnosti pojava
ili svojstava
- pokazuje koliki odnos vrijednosti aritm. sredine iznosi
vrijednost standardne devijacije (u %)
koeficijent varijacije
(relativna mjera rasipanja)
V

x
 100%
• raspon, Rx – razlika najveće i najmanje vrijednosti u nekom nizu podataka
Rx  xmax  xmin
Osnove statistike
Zagreb 2010.
• MOMENTI STATISTIČKIH SKUPOVA
• mehanički model - greda, oslonac i opterećenje ( x1,x2, ... – jedinične sile)
x1
x2 x3
x4
x5
x6
x7
– centralni moment r-tog reda – moment oko centra (aritmetička sredina):
n
Mr 
 (xi  x)r
i1
n
r=0
r=1
r=2
r=3
r=4
M0=1
M1=0
M2=σ2
M3
M4
varijanca
koeficijent asimetrije
koeficijent spljoštenosti
– pomoćni moment r-tog reda – moment oko točke 0
n
mr 
Osnove statistike
 xi
i1
r
r=0
r=1
m0=1
m1= x
aritmetička sredina
n
Zagreb 2010.
• MJERE OBLIKA STATISTIČKOG SKUPA
• koeficijent asimetrije (Skewness) – mjera nagnutosti distribucije na lijevu
ili desnu stranu
 
3
M

3
3

n
1   (x  x)3
i
n
i1
3
    3  
svaki |α3| : 0 - 0,25 zanemariva asimetrija
0,25 – 0,50 slaba asimetrija
0,50 – 0,75 srednja asimetrija
0,75 - +  jaka asimetrija
pozitivna asimetrije α3>0
nema asimetrije α3=0
negativna asimetrija α3<0
Osnove statistike
Zagreb 2010.
• koeficijent spljoštenosti (Kurtosis)– mjera spljoštenosti (zaobljenosti) distribucije
 
M

4
4
4

n
1   (x  x)4
i
n
i1
4
4 '
M4

4
-3
-normiranje na nulu
(jednostavnije očitavanje)
0,9
0,8
0,7
f(x)
0,6
spljoštenost α4<3 (α’4<0)
normalna spljoštenost α4=3 (α’4=0)
0,5
izduženost α4>3 (α’4>0)
0,4
0,3
0,2
0,1
0,0
0
2
4
6
8
10
12
X
Osnove statistike
Zagreb 2010.
Primjer dva skupa:
a) sa istim očekivanjem a različitom varijancom
b) sa istim očekivanjem i varijancom ali različitim elementima
Osnove statistike
Zagreb 2010.
• SLUČAJNA VARIJABLA - DEFINIRANJE
• diskretne varijable:
xi 0,1,2...,n ; P(xi ) P( 0 ),P(1 ), P( 2 )...,P(n)
n
E ( x)   xi  p( xi ),
očekivanje
 p( x )  1
i
i 1
 2 ( x)  E  x  E ( x) 
2
varijanca

– vjerojatnost diskretne varijable:
f ( xi )  0
učestalost
f (x )
p( x ) 
 f (x )
i
i
n
i 1
n

i 1
p( x )  1;
i
i
vjerojatnost
– funkcija distribucije F(x) diskretne varijable (kumulanta):
k
F ( xk )   p( xi )
i 1
Osnove statistike
F ( xk )  P ( x  xk )
Zagreb 2010.
Vjerojatnosti
Kumulativni prikaz
50
100
Cumulative Percent Count
P*100%
40
30
20
10
0
0
1
2
3
4
x 5
80
60
40
20
0
0
1
2
3
4
5
x
zbrajanja frekvencija (kumuliranje)
Osnove statistike
Zagreb 2010.
• kontinuirane varijable:
   x  

očekivanje
E ( x)   x  f ( x)dx
očekivanje



 ( x)   x  f ( x)dx    x  f ( x)dx
 



varijanca
2
2
2
– funkcija gustoće vjerojatnosti (kontinuirana varijabla):
svojstva f.g.v. :
1.
f ( x)  0

2.
 f ( x)dx  1

x2
3.
 f ( x)dx  P( x1  x  x2 )
x1
Osnove statistike
Zagreb 2010.
– funkcija distribucije vjerojatnosti (kontinuirana varijabla):
povezanost f.g.v. i funkcije distribucije
x1
F ( x1 )   f ( x) dx

Osnove statistike
Zagreb 2010.
Primjer: Sljedeći podaci prezentiraju temperature ‘O-ring’ brtvi raketnog motora prilikom
testiranja sustava paljenja: 84, 49, 61, 40, 83, 67, 45, 66, 70, 69, 80, 58, 68, 60, 67, 72, 73,
70, 57, 63, 70, 78, 52, 67, 53, 67, 75, 61, 70, 81, 76, 79, 75, 76, 58, 31. Potrebno je odrediti
sve osnovne statističke parametre i grafički prikazati podatke.
Boxplot of °F
Histogram of °F
14
90
12
80
70
8
°F
Frequency
10
6
4
50
2
0
60
40
30
40
50
60
°F
Osnove statistike
70
80
30
Zagreb 2010.