POPISNÁ STATISTIKA ZPRACOVÁNÍ DAT Výpočet výběrových charakteristik Histogram Empirická distribuční funkce A. výpočet výběrových charakteristik přímo z napozorovaných hodnot – rozsah výběru: n – napozorované hodnoty: x1 , x2

Download Report

Transcript POPISNÁ STATISTIKA ZPRACOVÁNÍ DAT Výpočet výběrových charakteristik Histogram Empirická distribuční funkce A. výpočet výběrových charakteristik přímo z napozorovaných hodnot – rozsah výběru: n – napozorované hodnoty: x1 , x2

POPISNÁ STATISTIKA
ZPRACOVÁNÍ DAT
Výpočet výběrových charakteristik
Histogram
Empirická distribuční funkce
1
A.
výpočet výběrových charakteristik
přímo z napozorovaných hodnot
– rozsah výběru: n
– napozorované hodnoty: x1 , x2 , ... , xn
Charakteristiky polohy :
Výběrový průměr
x :
1 n
x   xi
n i1
tj.
x = ( x1 + x2 + x3 +
 + xn) / n
2
Výběrový medián
Me :
– hodnoty uspořádané podle velikosti :
x(1)  x(2)  x(3)  ....... x(n)
a) pro n liché, prostřední hodnota ;
b) pro n sudé, průměr dvou prostředních hodnot .
V případě a):
x(1)  x(2)  x(3)  x(4)  x(5)
V případě b):
x(1)  x(2)  x(3)  x(4)
je medián x(3) .
je medián ( x(2) + x(3) ) / 2 .
3
Výběrový modus Mo :
nejčetnější hodnota .
Uvažujme
x(1)  x(2) = x(3) = x(4)  x(5)  x(6)  x(7) ;
modus je x(2) ( = x(3) = x(4) ) .
4
Charakteristiky variability :
Výběrový rozptyl
s2 :
n
1
2
s2 
(
x

x
)

i
n  1 i1
Výběrová směrodatná odchylka
s
Po úpravě
s
s2
tj.
s:
1 n
2
(
x

x
)

i
n  1 i1
s
:
2
n
n

 
1
1
2
  xi    xi  
n  1  i1
n  i1  

1  n 2
2
x

n
x
 i

n  1  i1

5
Poznámka:
Rozptyl statistického (základního)
souboru s2 :
n
1
2
s   ( xi  x )
n i1
2
Nejedná se o výběrový rozptyl vypočítaný z výběru
několika náhodně vybraných jednotek z procesu nebo
základního souboru,
ale o rozptyl vypočítaný ze všech prvků konečného
statistického souboru.
6
Výběrové rozpětí
označíme
R:
xmin
nejmenší
xmax
největší
x(1) hodnotu ve výběru
x(n)
hodnotu ve výběru
rozsahu n
potom
R = xmax - xmin
7
Schéma pro výpočet výběrových charakteristik :
i
xi
xi2
1
x1
x12
2
x2
x22
3
x3
x32
atd.
atd.
atd.
n
xn
xn2
n
součet
 xi
i 1
n
2
x
 i
i1
8
Příklad:
Uspořádané hodnoty:
(1)
(2)
(3)
(4)
(5)
(6)
(7)
13,30
13,38
13,39
13,40
13,42
13,51
13,53
Me = 13,40
i
xi
xi2
1
13,39
179,2921
2
13,42
180,0964
3
13,38
179,0244
4
13,53
183,0609
5
13,51
182,5201
6
13,30
176,8900
7
13,40
179,5600
Součet
93,93
1260,4439
x = (1/7) 93,93 = 13,4186
R = 13,53 - 13,30 = 0,23
s2 = (1/6) (1260,4439 - (1/7) 93,932) = 0,006248
s =
0,006248
= 0,079042
9
B.
–
–
–
–
výpočet výběrových charakteristik
z hodnot seskupených do tříd
rozsah výběru: n
napozorované hodnoty:
počet tříd: k
šíře třídy:
h
x1 , x2 , ... , xn
Označíme pro j-tou třídu :
– nj
třídní četnost (absolutní)
– fj = nj / n relativní třídní četnost
j
– Nj =  ni
kumulovaná třídní četnost (absolutní)
– Fj = Nj / n
– zj =
– zj + h/2 =
kumulovaná relativní třídní četnost
třídní znak (obvykle střed j-té třídy)
horní mez j-té třídy
i1
10
Schéma pro výpočet výběrových charakteristik :
i
zj
nj
zjnj
zj2nj
1
z1
n1
z1n1
z12n1
2
z2
n2
z2n2
z22n2
3
z3
n3
z3n3
z32n3
atd.
atd.
atd.
atd.
atd.
k
zk
nk
zknk
zk2nk
Součet
k
 nj
j1
k
k
j 1
j1
 zjnj  z2j nj
k
n   nj
j1
1 k
x  z   z j nj
n j1
2


k
k


1
1
  z 2j n j    z j n j  
s2x  s2z 
 
n  1  j1
n  j1


11 
Příklad:
Výběr
n = 44
7,77
7,69
7,73
7,75
7,32
7,69
7,77
7,49
7,69
7,60
7,64
7,84
7,68
7,72
7,87
7,72
7,73
7,59
7,80
7,99
7,88
7,67
7,77
7,68
7,99
7,71
7,84
7,65
7,77
7,70
7,69
7,75
7,74
7,72
7,88
7,61
7,80
7,84
7,81
7,70
7,91
7,79
8,03
7,73
Seskupíme do tříd šíře h = 0,1 , zvolíme třídní intervaly
j
třídní interval
zj
nj
fj
Nj
Fj
1
7,30 až 7,39
7,345
1
0,022727
1
0,022727
2
7,40 až 7,49
7,445
1
0,022727
2
0,045455
3
7,50 až 7,59
7,545
1
0,022727
3
0,068182
4
7,60 až 7,69
7,645
11
0,250000
14
0,318182
5
7,70 až 7,79
7,745
17
0,386364
31
0,704545
6
7,80 až 7,89
7,845
9
0,204545
40
0,909091
7
7,90 až 7,99
7,945
3
0,068182
43
0,977273
8
8,00 až 8,09
8,045
1
0,022727
44
1
44
1
Součet
12
Výpočet výběrových charakteristik
a
s:
2
j
zj
nj
1
7,345
1
7,345
53,949025
2
7,445
1
7,445
55,428025
3
7,545
1
7,545
56,927025
4
7,645
11
84,095
642,906275
5
7,745
17
131,665
1019,745425
6
7,845
9
70,605
553,896225
7
7,945
3
23,835
189,369075
8
8,045
1
8,045
64,722025
44
340,580
2636,943100
Součet
zjnj
x
zj nj
k
n   n j  44
j1
1 k
x  z   z j nj 
n j1
= 340,58 / 44 = 7,740455
2

k
k
 
1
1
2
2
2
  z j nj    z j nj   
sx  sz 
 
n  1  j1
n  j1
 

= (1/43)(2636,9431 - 340,582 / 44) = 0,016258
sx  sz 
s2z 
0,016258 
0,127507
13
Znázornění napozorovaných hodnot v pořadí jak
byly měřeny
14
PŘÍKLADY :
1.1 Po roce provozu se měřil na zkušebně výkon motorů pro
malotraktory. Jmenovitý výkon motoru xi byl stanoven na 25 kW.
U sedmi zkoušených motorů byly naměřeny následující hodnoty v
kW:
i
xi
1
24,8
2
26,1
3
22,7
4
24,2
5
25,6
6
24,5
7
26,0
Ze zjištěných hodnot jmenovitého výkonu motoru stanovte výběrové
charakteristiky: největší a nejmenší naměřenou hodnotu, aritmetický
průměr, medián, rozpětí, rozptyl a směrodatnou odchylku ze zjištěných
hodnot jmenovitého výkonu motoru.
Příklad 1.1
i
xi
x max =
rozpětí =
1
24,8
26,1
3,4
2
26,1
x min =
v.rozp.=
3
22,7
22,7
1,4362
4
24,2
x bar =
v.sm.od =
5
25,6
24,84
1,1984
6
24,5
Me =
7
26,0
24,80
15
1.2 Při zkoušení výrobků v klimatické komoře se měří relativní
vlhkost. U šesti po sobě zkoušených stejných výrobků byly
naměřeny následující hodnoty xi v procentech:
i
xi
1
89,3
2
94,1
3
96,4
4
90,8
5
92,0
6
91,4
Vypočtěte všechny základní výběrové charakteristiky polohy (výběrový
průměr, výběrový medián) a variability (výběrové rozpětí, výběrový
rozptyl a výběrovou směrodatnou odchylku).
Příklad 1.2
i
xi
x max =
rozpětí =
1
89,3
96,4
7,1
2
94,1
x min =
v.rozp.=
3
96,4
89,3
6,4387
4
90,8
x bar =
v.sm.od =
5
92
92,33
2,537
6
91,4
Me =
91,70
16
1.4 Ze souboru 5 000 ampulí jistého séra byl vzat náhodný
výběr rozsahu n = 6 jednotek. Při destruktivní zkoušce byl
zjišťován jejich obsah xi v cm3 a zapsán do uvedené tabulky:
i
xi
1
1,7
2
1,4
3
1,6
4
1,1
5
1,3
6
1,3
Vypočtěte z uvedených hodnot běžné výběrové charakteristiky
polohy (průměr, medián) a variability (rozpětí, rozptyl a směrodatnou
odchylku).
Příklad 1.4
i
xi
x max =
rozpětí =
1
1,7
1,7
0,6
2
1,4
x min =
v.rozp.=
3
1,6
1,1
0,0480
4
1,1
x bar =
v.sm.od =
5
1,3
1,40
0,219
6
1,3
Me =
1,35
17
1.8
Ve výběru n = 200 složitých výrobků byla měřena rozteč dvou
otvorů s jmenovitou hodnotou 168 mm. Výsledky měření prováděného
s přesností na 0,01 mm byly seskupeny do intervalů šíře 0,05 mm a jsou
uvedeny v tabulce:
Doplňte uvedenou tabulku o relativní třídní četnosti, kumulované třídní
četnosti a relativní kumulované třídní četnosti
třídní interval
od
167,845
167,895
167,945
167,995
168,045
168,095
168,145
SOUČET
do
167,895
167,945
167,995
168,045
168,095
168,145
168,195
třídní znak třídní četnost
zj
167,82
167,87
167,92
167,97
168,02
168,07
168,12
168,17
168,22
nj
relativní
třídní
četnost
1
5
15
47
98
31
3
0,005
0,025
0,075
0,235
0,490
0,155
0,015
200
1,000
kumulovaná
relativní
třídní
kumulovaná
četnost
třídní
četnost
1
6
21
68
166
197
200
0,005
0,030
0,105
0,340
0,830
0,985
1,000
18
1.8 pokračování
Vypočtěte
směrodatnou odchylku.
třídní interval
od
167,845
167,895
167,945
167,995
168,045
168,095
168,145
do
167,895
167,945
167,995
168,045
168,095
168,145
168,195
třídní znak třídní četnost
zj
nj
167,82
167,87
167,92
167,97
168,02
168,07
168,12
168,17
168,22
SOUČET
x bar =
168,0553 v. roz.=
1
5
15
47
98
31
3
výběrový
relativní
třídní
četnost
0,005
0,025
0,075
0,235
0,490
0,155
0,015
200
1,000
0,0024321 v.sm.od.=
průměr
kumulovaná
relativní
třídní
kumulovaná
četnost
třídní
četnost
1
6
21
68
166
197
200
0,005
0,030
0,105
0,340
0,830
0,985
1,000
a
výběrovou
zj*nj
zj2*nj
167,87
839,60
2519,55
7896,94
16470,86
5211,72
504,51
28180,337
140985,632
423208,814
1326843,859
2768257,440
876194,366
84843,447
33611,05
5648513,895
0,0493
120
100
80
19
Histogram
grafické znázornění dat seskupených do tříd
Napozorované hodnoty
náhodný výběr rozsahu
x1, x2, ... , xn
n.
Konstrukce histogramu:
počet tříd
k
stejné šíře
h;
zjistí se absolutní třídní četnosti
třídní četnosti fj ;
nj ,
případně relativní
na osu x se vynesou hranice třídních intervalů,
případně třídní znaky zj ;
na osu y se vynáší třídní četnosti nj (absolutní) nebo
fj (relativní); nad třídními intervaly se sestrojí obdélníky.
20
Příklad :
j
třídní interval
zj
nj
fj
1
7,30 až 7,39
7,345
1
0,022727
2
7,40 až 7,49
7,445
1
0,022727
3
7,50 až 7,59
7,545
1
0,022727
4
7,60 až 7,69
7,645
11
0,250000
5
7,70 až 7,79
7,745
17
0,386364
6
7,80 až 7,89
7,845
9
0,204545
7
7,90 až 7,99
7,945
3
0,068182
8
8,00 až 8,09
8,045
1
0,022727
HISTOGRAM
0,386
0,4
0,35
relativní četnost
0,3
0,25
0,25
0,204
0,2
0,15
0,1
0,05
0,068
0,023
0,023
0,023
7,345
7,445
7,545
0,023
0
7,645
7,745
délka x
7,845
7,945
8,045
21
Ukázky některých základních typů histogramů
a) Symetrický histogram zvonovitého tvaru
120
100
80
60
40
20
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
22
b) Dvojvrcholové histogramy
120
100
80
60
40
20
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
140
120
100
80
60
40
20
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
23
c) Histogramy plochého a hřebenovitého tvaru
100
80
60
40
20
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
1
2
3
4
5
80
60
40
20
0
6
7
8
9
10
11
12
13
14
15
24
d) Histogramy asymetrického tvaru
140
120
100
80
60
40
20
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
140
120
100
80
60
40
20
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
25
e) Dvojvrcholové histogramy s výraznou četností v krajní třídě
160
140
120
100
80
60
40
20
0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
1
2
3
4
5
160
140
120
100
80
60
40
20
0
6
7
8
9
10
11
12
13
14
15
26
16
Empirická distribuční funkce
grafické znázornění dat uspořádaných podle velikosti
Napozorované hodnoty
náhodný výběr rozsahu
x1, x2, ... , xn
n.
Konstrukce empirické distribuční funkce:
hodnoty uspořádáme podle velikosti x(1)  x(2)  …  x(n) ;
na osu x se vynesou hodnoty x(i), (i = 1, 2, …, n) ;
na osu y se vynese ke každé hodnotě x(i) hodnota
i / (n + 1) ;
body [ x(i) ; i / (n + 1) ] tvoří graf empirické distribuční
funkce.
27
Konstrukce empirické distribuční funkce v případě
údajů seskupených do tříd:
na osu x se vynesou horní meze třídních intervalů ;
na osu y se vynesou proti nim kumulované relativní
třídní četnosti
1 k
Fj   n j
n j1
zakreslené body [ zj + h/2 ; Fj ] tvoří graf empirické
distribuční funkce.
28
POZNÁMKA:
Je-li stupnice, na kterou vynášíme hodnoty Fj , resp. (i) / (n+1)
pravděpodobnostní, potom v případě normálního rozdělení sledované
náhodné veličiny jsou zakreslené body soustředěny v úzkém okolí
přímky, která odpovídá teoretické distribuční funkci normálního rozdělení
N(, 2) pro  = x a  = s .
Zakreslení přímky na pravděpodobnostní papír
Z výběrových hodnot
xi
(i=1, 2, ..., n) se vypočtou hodnoty
výběrového průměru x a výběrové směrodatné odchylky s , které jsou
odhady parametrů  a  normálního rozdělení N(, 2).
Na pravděpodobnostní papír se zakreslí body
(x = x ; y = 50) a (x = x + s ; y = 84,1)
a těmito body se proloží přímka, která představuje průběh odhadu
distribuční funkce rozdělení N(, 2).
29
Příklad :
Uspořádáme naměřené délky podle velikosti a přiřadíme
jim hodnoty i / (n+1).
Pokud se některé hodnoty opakují, s četností
nárůst n(i)/(n+1) empirické distribuční funkce.
n(i) , potom jim přísluší
Uspořádané hodnoty sestavíme do tabulky:
x(i) i / (n+1) i
1
2
3
4
7,32
7,49
7,59
7,60
0,0222
0,0444
0,0667
0,0889
11
12
13
14
x(i) i / (n+1) i
7,69
7,69
7,69
7,69 0,3111
5 7,61 0,1111 15 7,70
6
7
8
9
10
7,64
7,65
7,67
7,68
7,68
21
22
23
24
x(i) i / (n+1) i
x(i) i / (n+1) i
31
7,73
32
7,73
7,73 0,5111 33
7,74 0,5333 34
7,79 0,6889 41 7,91 0,9111
42 7,99
7,80
7,80 0,7333 43 7,99 0,9556
7,81 0,7556 44 8,03 0,9778
25 7,75
0,1333 16 7,70 0,3556 26 7,75 0,5778
0,1556 17 7,71 0,3778 27 7,77
28 7,77
0,1778 18 7,72
19 7,72
29 7,77
0,2222 20 7,72 0,4444 30 7,77 0,6667
35 7,84
36
37
38
39
40
7,84
7,84 0,8222
7,87 0,8444
7,88
7,88 0,8889
45
x(i) i / (n+1)
1,0000
30
Uspořádané hodnoty zakreslíme do grafu:
31
Empirická distribuční funkce zakreslená do
pravděpodobnostního papíru:
32