Štatistika - prezentácia prednášok v 1. ročníku

Download Report

Transcript Štatistika - prezentácia prednášok v 1. ročníku

ŠTATISTIKA
PhDr. Pavel Dedera
ŠTATISTIKA
Vstup
1. ročník bakalárskeho štúdia 2009-2010, zimný semester
Prednáša: PhDr. Pavel Dedera
12 hodín konzultačných prednášok
Klasifikovaný zápočet formou úloh, vypracovaných na
počítači pod EXCEL 2007. Podmienkou je aspoň 60%-ná
úspešnost. Na KZ sa prihlasuje cez Informačný systém.
Cieľe predmetu: Zoznámiť študentov so základmi teórie
pravdepodobnosti a náhodnej premennej, s elementárnymi
štatistickými pojmami a možnosťami analýzy a prezentácie
štatistických dát. Naučiť prvky deduktívneho a induktívneho
spôsobu uvažovania , uviesť do základov štatistického
testovania.
Kontakt : www.dedera.alconet.sk
[email protected]
adr. Vladimíra Kunu 6, 031 01 Lipt. Mikuláš
Obsah predmetu
1. Teória pravdepodobnosti a náhodnej premennej
1.1 Náhodné javy, operácie. Pravdepodobnosť javu.
1.2 Náhodné veličiny, ich pravdepodobnostné rozdelenia.
2. Úvod do štatistiky
2.1.Základné štatistické pojmy.
2.2.Popisná štatistika
2.3 Spracovanie jednorozmerného súboru
2.4 Dva jednorozmerné súbory. Dvojrozmerný súbor
3. Základné pojmy a metódy štatistickej indukcie
3.1 Bodové a intervalové odhady parametrov
3.2 Teória testovania štatistických hypotéz
3.3 Testy stredných hodnôt a rozptylu
Literatúra
– Pacáková, V. a kol.: Štatistika pre ekonómov
Pacáková, V. a kol.:Zbierka príkladov
Chajdiak a kol. Štatistické metódy v praxi, ...
Príručky EXCELu
Jurečková, M.-Molnárová, I.: Štatistika s EXCELom
Téma 1 Teória pravdepodobnosti a náhodnej
premennej
1.1. Náhodné javy, operácie. Pravdepodobnosť javu.
Definície pravdepodobnosti
1.
štatistická 2. klasická
3. geometrická
mA
P ( A) 
n
1.2. Náhodné veličiny, ich pravdepodobnostné
rozdelenia.
Distribučná fcia, fcia hustoty. Číselné charakteristiky.
Rozdelenia diskrétnej a spojitej náhodnej premennej.
Vybrané rozdelenia náhodnej premennej
1)BINOMICKÉ ROZDELENIE Bi(n, p)
 n x
n -x
P( X  x)    p (1- p)
 x
x
2) POISSONOVO ROZDELENIE
N  ,  
P( X  x) 
3) Normálne (Gaussovo) rozdelenie
2
Normované norm. rozd. N(0,1)
Rozdelenia používané v štatistike
x!
e

1
 (x  )
f ( x) 
exp 2
2
 2
2
Normované normálne rozdelenie
 0
 1
1
f (X ) 
e
2 
( x )2

2 2
Kvantil normovaného normálneho rozdelenia
1-a
z1-a
Téma 2 Úvod do štatistiky
2.1.Základné štatistické pojmy.
2.2.Popisná štatistika
2.3 Spracovanie jednorozmerného súboru
2.4 Dva jednorozmerné súbory. Dvojrozmerný
súbor
2.1 Základné štatistické pojmy
» štatistický súbor
• základný
• výberový
»
»
»
»
»
»
»
znak
rozsah súboru
triedenie súboru
početnosť tried
histogram
parametre súboru – štatistiky
bodový a intervalový odhad parametrov základného súboru
2.2 Popisná štatistika
»štatistický súbor
•základný (populácia)
•výberový
»znak
»rozsah súboru
»triedenie súboru
»početnosť tried
»histogram
»parametre súboru – štatistiky
Základné štatistiky súboru
Aritmetický priemer
Popisná štatistika I
vyjadruje objem hodnôt premennej X pripadajúci v priemere
na jednu jednotku súboru
1 N
x   xi
N i 1
N - rozsah súboru
xi - hodnota premennej X u i-tej jednotky
Variačné rozpätie
je rozdiel medzi najväčšou a najmenšou hodnotou kvantitatívneho znaku
vr
=
xmax - xmin
Základné štatistiky súboru
Popisná štatistika II
Rozptyl
predstavuje priemerný štvorec odchýlky od priemeru
1 N
   ( xi  x )2
N i 1
2
Štandardná (smerodajná) odchýlka
 
2
Štandardná chyba (chyba strednej hodnoty)

N
Základné štatistiky súboru
Popisná štatistika III
Modus
Mo je najčastejšie sa vyskytujúca hodnota znaku X,
v prípade triedeného súboru hodnota reprezentanta triedy
s najväčšou absolútnou početnosťou
Medián
Me delí súbor na 2 skupiny, z ktorých prvá obsahuje 50% štat.
jednotiek, ktoré majú hodnotu znaku X menšiu ako medián,
druhá obsahuje 50% zvyšných štat. jednotiek, ktoré majú
hodnotu väčšiu ako medián
Základné štatistiky súboru
Koeficient šikmosti
charakterizuje symetriu rozdelenia
1 N
 ( xi  x )3
S  N i 1 3

S = 0 rozdelenie je symetrické
S > 0 rozdelenie je zošikmené doľava (častejší výskyt menších hodnôt)
S < 0 rozdelenie je zošikmené doprava (častejší výskyt väčších hodnôt)
Koeficient špicatosti
charakterizuje strmosť rozdelenia
1 N
4


x

x
 i
N
K  i 1 4
3

Popisná štatistika IV
Popisná štatistika v EXCELi
ÚDAJE / Analýza údajov / Popisná štatistika
popisna statistika
Stř. hodnota
Chyba stř. hodnoty
Medián
Modus
Směr. odchylka
Rozptyl výběru
Špičatost
Šikmost
Rozdíl max-min
Minimum
Maximum
Součet
Počet
Hladina spolehlivosti (95,0%)
14,1753247
0,78768754
14
10
6,91193011
47,7747779
-0,7627769
0,14004999
27
2
29
1091,5
77
1,56881771
Mean
Standard Error
Median
Mode
Standard Deviation
Sample Variance
Kurtosis
Skewness
Range
Minimum
Maximum
Sum
Count
2.3 Spracovanie jednorozmerného súboru
EXCEL – ÚDAJE-ANALÝZA ÚDAJOV (ANALYTICKÉ
NÁSTROJE) - HISTOGRAM
Výkon v testu z matematiky
Četnost
25
20
15
Četnost
10
5
0
Četnost
3
8
13
18
23
Další
3
14
21
19
11
9
Body
Grafická ukážka
BOX-PLOT:
C04
max
180
HK
132
Výsečový graf
C04
24-50
median
96
51-75
76-100
DK
84
101-125
126-150
151-180
min
24
Dvojrozmerný súbor – dva jednorozmerné
Trieda
K01 K02 súbory
77-87
88-98
99-109
110-120
121-131
132-145
nad 145
R1
R2
R3
R4
R5
R6
R7
0 ALT
0,29
0,17
0,16
0,2
0,32
0,24
0,21
AST
0,78
0,31
0,24
0,29
0,33
0,29
0,26
0,13
0,30
0,40
0,10
0,03
0,03
Bilirubín
Glukóza
GMT
7,5 4,6 0,3
10,1
0 0,2
7,5
0 0,21
9,3 4,9 0,17
23,6 5,5 0,25
11,7 5,2 0,15
16,4
5 0,18
0,50
0,02
0,12
0,12
0,15
0,08
0,02
Viacrozmerná premenná
HDL-CH
CH
1,22 6,4
1,1 5,2
1,33 4,9
1,82 6,2
1,43 4,8
1,47 5,4
1,62 4,8
CH/HDL-CH
Kreatinín
Kys. moč.
LDH LDL-CH
TG
5,25 97,5 281
11 4,6 1,2
4,73 93,1 281 9,2 3,5 1,3
3,68 82,9 297 10,7 3,1
1
3,41
72 200 6,3 3,7 1,5
3,36 81,5 196 8,5 2,8 1,2
3,67 69,9 180
0 3,4 1,2
2,96 78,1 223
0
3 0,5
Grafická ukážka 2
Re l.poč.
Histogram premenných K01 a K02
0,6
0,5
0,4
0,3
Rel. p.K01
0,2
Rel. p.K02
0,1
0
7787
8898
99109
110120
121131
132145
nad
145
Inde x
0,50
0,40
0,30
0,20
0,10
K01
0,00
1
2
3
4
5
K02
K01
6
7
1
2
3
4
5
6
K01
0,13
0,30
0,40
0,10
0,03
0,03
K02
0,50
0,02
0,12
0,12
0,15
0,08
7
0,02
Grafická ukážka 3
Hodnotenie známkou v dvoch testoch X,Y je pri n=10 žiakoch takto:
i
X
Y
Známka Y
Bodový graf (korelogram)
1
1
1
5
2
1
2
3
2
2
4
4
2
2
5
2
2
3
6
2
3
2
7
2
3
8
3
3
1
9
3
3
10
4
4
0
0
Známka Y
1
2
Bodový graf (korelogram)
3
Y
Lineární (Y)
5
y = 0,7895x + 0,7632
4
R2 = 0,7287
3
2
1
0
0
1
2
3
4
5
Známka X
Známka X
4
5
Všeobecný postup pri riešení štatistických úloh
Výberové zisťovanie
2
Voľba spôsobu
výberu
Zisťovanie údajov a
ich spracovanie
Výpočet parametrov
výberového súboru
Odhad parametrov
základného súboru
Využitie výsledkov
analýzy
Téma 3 Základné pojmy a metódy štatistickej
indukcie
3.1 Bodové a intervalové odhady parametrov
3.2 Teória testovania štatistických hypotéz
3.3 Testy stredných hodnôt a rozptylu
3.1 Odhady strednej hodnoty a disperzie

 xi
E X   x 
n
2


x

x


2
i
2
D X   s 
s s

 x  z1a

a 2 , 
2

2
2
1a 2
n 1
, x  z1a
 

n
n
2
2
 n  1s n  1s 


,
2
2

a / 2 
  1a / 2
2
Bodové odhady
Bodový odhad priemeru  základného súboru
xi

x
n
Bodový odhad rozptylu 2 základného súboru
2


x

x
 i
s2 
n 1
Bodový odhad  základného súboru
s  s2
Intervalový odhad I
Interval spoľahlivosti priemeru 
1. 2 poznáme
s
s 

x

t
,
x

t


1 a 2
1 a 2
n
n



 

, x  z1a 2
 x  z1a 2

n
n

1-a je pravdepodobnosť, že  sa nachádza v danom
intervale (spoľahlivosť odhadu)
a
je hladina spoľahlivosti, zvyčajne volíme a= 0,01;
0.05; 0.1
z1- alfapol
je kvantil normovaného normálneho rozdelenia
Intervalový odhad základných parametrov
Interval spoľahlivosti rozptylu 2
 n  1s 2 n  1s 2 
 2

, 2
a / 2 
  1 a / 2
Interval spoľahlivosti štandardnej odchýlky 




a2 2 , 12a 2 sú a 2 a
n  1s 2
 12a
1 a 2
2
( n  1 )s 2 
,
 a2 2 
kvantily 2 rozdelenia
II
Kvantily
Kvantily 2 - rozdelenia
a/2
a/2
2a/2
23,6543
58,12005
21-a/2
sú kvantily pre p-sti 0,975 a 0,025
a 40-1=39 stupňov voľnosti
3.2 Teória testovania štatistických hypotéz
Pojmy: test, hypotéza nulová a alternatívna, hladina
významnosti, chyba I. aII. druhu
POSTUP :
1. Formulácia nulovej a alternatívnej hypotézy
2. Volba hladiny významnosti
3. Volba a výpočet testovacieho kritéria
4. Rozhodnutie o hypotézach
Základné pojmy I
Hypotéza
tvrdenie o neznámych hodnotách parametrov základných súborov
• nulová
• alternatívna
Testovanie hypotéz
proces, v ktorom na základe výberových údajov odhadujeme s istou
pravdepodobnosťou, či tvrdenie o parametroch ZS je pravdivé
Testovacia štatistika
kritérium, na ktorom je založené naše rozhodnutie o prijatí hypotézy
Testovanie hypotéz o zhode parametrov
dvoch základných súborov
Chyba 1. druhu (hladina významnosti)
chyba, ktorej sa dopustíme, ak zamietneme správnu nulovú hypotézu
Oblasť prijatia (zamietnutia) nulovej hypotézy
interval určený na základe rozdelenia pravdepodobnosti testovaného parametra
a hladiny významnosti
p-hodnota
najnižšia hladina na zamietnutie nulovej hypotézy
II
p-hodnota
3.3 Testy stredných hodnôt a rozptylu I
• Test významnosti rozdielu medzi aritmetickými priemermi
•Test významnosti rozdielu medzi rozptylmi
Ukážky riešení procedúrami EXCELu.
Testovanie hypotéz o zhode priemerov dvoch základných
súborov
H0: 1   2
H1: 1   2
a
chyba 1.druhu
kritická hodnota
testovacia štatistika
II
Testovanie hypotéz o zhode parametrov
dvoch základných súborov
POSTUP

sformulujeme nulovú hypotézu H0 a alternatívnu
hypotézu H1
H0:
H1: 1.
2.
3.
1   2
1   2
1   2
1   2
H0:12   22
H1:12 1. 22
 12 2. 22
 12   22
3.

voľba chyby (1. druhu) a , t.j. pravdepodobnosti,
s akou zamietneme
pravdivú hypotézu H0

určenie oblasti prijatia, resp. zamietnutia H0

voľba a výpočet testovacej štatistiky

rozhodnutie o prijatí, resp. zamietnutí H0
III