APLIKOVANÁ ANALÝZA DAT PRO KI
Download
Report
Transcript APLIKOVANÁ ANALÝZA DAT PRO KI
DATA INFORMACE
Statistická analýza je založena na zhušťování informace – tj. jak s
co nejmenšího množství vhodně zvolených údajů vytěžit
maximum relevantních informací.
1. prvotní zápis – údaje v té podobě, jak jsou
naměřeny
2. tříděný soubor – jednotlivá měřená data jsou tříděna
do tříd
1
3. statistické charakteristiky – speciální veličiny,
které podávají koncentrovanou formou informaci
o podstatných statistických vlastnostech
studovaného souboru
STATISTICKÉ CHARAKTERISTIKY
Statistické charakteristiky
polohy
2
variability
tvaru
momentové
momentové
momentové
kvantilové
kvantilové
kvantilové
STATISTICKÉ CHARAKTERISTIKY
Typy charakteristik:
1. polohy –
reprezentace souboru na číselné ose
0
3
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
STATISTICKÉ CHARAKTERISTIKY
Typy charakteristik:
2. variability – rozptýlení hodnot po číselné ose navzájem a
vůči charakteristice polohy
0
4
0
1
1
2
3
4
5
6
7
8
9
10
11
12
13
14
2
3
4
5
6
7
8
9
10
11
12
13
14
15
15
16
16
STATISTICKÉ CHARAKTERISTIKY
absolutní třídní
četnost
Typy charakteristik:
3. tvaru – rozložení četností hodnot
15
16
14
12
10
8
6
4
2
0
15
13
16
5
5
14
1
12
1
10
30.85
35.05
39.25
43.45
47.65
51.85
8
56.05
6
třídní reprezentanti
4
2
0
1
18
16
14
12
10
8
6
4
2
5
0
1
2
3
4
5
6
2
3
4
5
6
7
8
9
10
11
CHARAKTERISTIKY POLOHY
ARITMETICKÝ PRŮMĚR – hodnota reprezentující
všechny hodnoty souboru s nejmenší chybou
MEDIÁN – 50% kvantil, prostřední hodnota vzestupně
uspořádaného souboru
MODUS – nejčastěji se vyskytující hodnota v souboru
6
ARITMETICKÝ PRŮMĚR
základní statistická MOMENTOVÁ charakteristika
polohy
je to hodnota, která reprezentuje VŠECHNY
hodnoty souboru s nejmenší chybou
fyzikálně je možné jej považovat za těžiště souboru
N
x1
7
xi
i 1
N
m
ni xi
x 2 i1
N
MEDIÁN
základní statistická KVANTILOVÁ charakteristika
polohy
je to hodnota, která reprezentuje PROSTŘEDNÍ
PRVEK VZESTUPNĚ USPOŘÁDANÉHO
SOUBORU
x N 1
2
~
x 1
2 x N2 x N2 1
8
pro N liché
pro N sudé
MODUS
nejčastěji se vyskytující hodnota souboru
existují soubory:
amodální – bez modu (všechny prvky souboru mají stejnou četnost)
unimodální – jeden modus
polymodální – dva a více modů
nemá příliš velkou vypovídací schopnost
9
POUŽITÍ PRŮMĚRU A MEDIÁNU
Soubor bez extrémních hodnot:
medián
průměr
18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60
Soubor s extrémními hodnotami:
medián
medián
průměr
18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60
10
CHARAKTERISTIKY VARIABILITY
informují o tom, jak jsou jednotlivé hodnoty
souboru rozptýleny, tj. jak se jednotlivé hodnoty
znaku liší vzhledem k sobě navzájem nebo
vzhledem ke střední hodnotě
existují dva typy:
absolutní - mají rozměr studované veličiny
relativní (poměrné) - bez rozměru nebo v procentech.
Jsou vhodné pro porovnání variability různých souborů
11
CHARAKTERISTIKY VARIABILITY
12
variační rozpětí – rozdíl maximální a minimální hodnoty
rozptyl – základní momentová míra variability, průměr
odchylek od průměru
směrodatná odchylka – odmocnina z rozptylu, využívaná
hlavně pro popis souborů
variační koeficient – relativní míra variability užívaná ke
srovnání variability různých souborů
kvantilové odchylky – kvantilová míra variability
počítaná obvykle z kvartilů nebo decilů
interkvartilové rozpětí – rozdíl horního a dolního
kvartilu
ROZPTYL
Rozptyl je základní mírou variability. Je to aritmetický
průměr čtverců odchylek od průměru a je tedy konstruován
k vyjádření variability hodnot kolem průměru, ale vyjadřuje i
vzájemnou odlišnost hodnot znaku.
průměr = 10,3
-5,3
+6,7
-3,3
+3,7
-1,8
13
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
ROZPTYL
pro ZS:
pro VS:
x
N
2 var X
j 1
j
S 2 var X
N
pro tříděný soubor:
m
2
S
14
x
n
2
2
n
x
x
i i
i 1
N
j 1
j
x
n 1
2
SMĚRODATNÁ ODCHYLKA
je odmocnina z rozptylu. Rozměr směrodatné odchylky je
stejný jako rozměr veličiny, což je její hlavní výhodou
oproti rozptylu pro účely popisné statistiky.
15
VARIAČNÍ KOEFICIENT
je relativní mírou variability a používá se k vzájemnému
porovnávání variability různých souborů.
S
S% 100
x
16
KVANTILOVÉ MÍRY VARIABILITY
Kvantilové odchylky jsou horší mírou variability než
momentové charakteristiky. Používají se tam, kde nelze
použít momentové charakteristiky (silně nenormální
rozdělení, výskyt extrémních hodnot, apod.)
Kvartilová odchylka:
Q
~x 75 ~x ~x ~x 25
2
~
x 75 ~
x 25
2
Interkvartilové rozpětí:
17
RF x75 x25
CHARAKTERISTIKY TVARU
měří odchylku v rozložení četností hodnot oproti danému
referenčnímu rozdělení četností (obvykle normálnímu):
Skládá se ze dvou složek:
nesouměrnosti (šikmosti, asymetrie)
špičatosti (zahrocenosti, excesu)
18
NESOUMĚRNOST
se projevuje tím, že v souboru je více hodnot menších než
větších ve srovnání se střední hodnotou (levostranná
nesouměrnost) nebo více hodnot větších než menších ve
srovnání se střední hodnotou (pravostranná nesouměrnost).
100
90
80
70
60
50
40
30
20
10
0
19
10
12
14
16
18
20
22
24
26
28
30
NESOUMĚRNOST
měříme koeficientem nesouměrnosti
x
N
A
j 1
A>0
20
x
m
3
j
n S3
A
A=0
n x x
i 1
i
3
i
n S3
A<0
NESOUMĚRNOST
Souměrné rozdělení:
A=0
Průměr = medián = modus
21
NESOUMĚRNOST
Levostranné (doprava
sešikmené) rozdělení
22
modus medián průměr
NESOUMĚRNOST
Pravostranné (doleva
sešikmené) rozdělení
A<0
23
průměr medián
modus
ŠPIČATOST
24
je mírou koncentrace dat kolem určité hodnoty nebo
skupiny hodnot ve srovnání s určitým definovaným
rozdělením veličiny (např. normálním). Rozlišujeme
rozdělení:
ploché – koncentrace dat kolem určité hodnoty je
NIŽŠÍ než odpovídá definovanému rozdělení (tedy četnosti
kolem této hodnoty jsou nižší)
špičaté - koncentrace dat kolem určité hodnoty je
VYŠŠÍ než odpovídá definovanému rozdělení(tedy četnosti
kolem této hodnoty jsou vyšší)
odpovídající danému definovanému rozdělení (např.
normální)
ŠPIČATOST
40
špičaté
35
30
25
20
odpovídající danému
rozdělení
15
10
5
0
ploché 1
25
2
3
4
5
6
7
8
ŠPIČATOST
Mírou špičatosti je koeficient špičatosti:
x
N
E
j 1
j
N 4
m
4
3
E
n x x
i 1
i
i
n S
4
Pro normální rozdělení platí:
E = 0 (3)
normálně zahrocené
E 0 (3)
ploché
E 0 (3)
špičaté
26
4
3
BODOVÉ ODHADY
ZÁKLADNÍCH PARAMETRŮ
Odhad střední hodnoty:
E X =μ
Odhad rozptylu:
n
2
S
=σ
n -1
2
27
korekce vychýlení
BODOVÉ ODHADY
ZÁKLADNÍCH PARAMETRŮ
hustota pravděpodobnosti
základního souboru
hodnoty
výběrového
souboru
28
X
tato vzdálenost je pro jeden
konkrétní výběr neznámá, není
možné určit spolehlivost
konkrétního odhadu
INTERVALOVÉ ODHADY PARAMETRŮ
ZS
Interval spolehlivosti pro parametr při hladině
významnosti (0,1) je určen statistikami T1 a T2:.
P T1 τ T2 = 1-α
X
T1
29
toto je bodový odhad neznámé
střední hodnoty vypočítaný
z prvků výběru – nevíme nic o
jeho vztahu ke skutečné
střední hodnotě
T2
toto je intervalový odhad
neznámé střední hodnoty předpokládáme, že s
pravděpodobností P =1- leží
kdekoli v tomto úseku číselné
osy
INTERVALOVÉ ODHADY PARAMETRŮ
ZS
1 a 2 představují
statistické riziko, že
skutečná hodnota
parametru bude ležet
mimo hranice T1 a T2
1
T
P = 1 - = 1 – (1 + 2)
2
T1
30
T2
JEDNOSTRANNÉ
INTERVALOVÉ ODHADY
levostranný odhad
P(τ > T1 ) = 1 - α
31
pravostranný odhad
P(τ < T2 ) = 1 - α
POROVNÁNÍ JEDNOSTRANNÉHO A
ODOUSTRANNÉHO ODHADU
T
T1
jednostranný intervalový
odhad P = 1 -
1
2
T1
32
oboustranný intervalový odhad
P = 1 - = 1 – (1 + 2)
T2
HLADINA VÝZNAMNOSTI
V INTERVALOVÝCH ODHADECH
x1
x2
x2
tento interval spolehlivosti
„neobsahuje“ střední
hodnotu (je tedy „chybný“),
těchto intervalů se objeví
nejvýše (100) %
33
tyto intervaly spolehlivosti
„obsahují“ střední hodnotu (jsou
tedy „správné“), těch (při
opakovaných výběrech) bude
nejméně (1- ).100 %
INTERVAL SPOLEHLIVOSTI
STŘEDNÍ HODNOTY
je známa směrodatná odchylka základního souboru
nebo je používán velký výběr (nad 30 prvků)
x - z /2
n
dolní hranice
34
x + z /2
n
horní hranice
v případě
velkého
výběru lze
použít místo
výběrovou
směrodatnou
odchylku S
z/2 je kvantil normovaného normálního rozdělení
pro hladinu významnosti /2
INTERVAL SPOLEHLIVOSTI
STŘEDNÍ HODNOTY
není známa směrodatná odchylka základního
souboru a je používán malý výběr (do 30 prvků)
Platí, že veličina
X-μ
S n
má t-rozdělení s k =( n – 1) stupni volnosti
S
S
x - t /2,n-1
x + t /2,n-1
n
n
35
t/2,n-1 je kvantil Studentova t-rozdělení pro hladinu
významnosti /2 a (n-1) stupňů volnosti
INTERVAL SPOLEHLIVOSTI
STŘEDNÍ HODNOTY
velikost základního souboru je známa (N) a
výběrový soubor je relativně velký (n > 5 % N)
Používá se korekce na konečný základní soubor:
S
n
S
n
x t /2. . 1 x t /2. . 1
N
N
n
n
Účelem korekce je zmenšit standardní chybu x
36
INTERVAL SPOLEHLIVOSTI
STŘEDNÍ HODNOTY
jednostranné intervaly
Jednostranné intervaly se počítají podle stejných vztahů
jako oboustranné, pouze hladina významnosti je
místo /2 (veškeré statistické riziko „chybného“
intervalu je na jedné straně)
37
FAKTORY OVLIVŇUJÍCÍ VELIKOST
INTERVALU SPOLEHLIVOSTI (IS)
38
velikost výběru (čím větší výběr, tím užší IS)
hladina význanosti (čím vyšší hodnota , tím užší
interval – nižší hladina významnosti (např. 0,01 místo
0,05) znamená požadavek vyšší spolehlivosti určení IS pokud určíme =0,01, požadujeme spolehlivost IS
P=99%, pokud určíme =0,05, požadujeme spolehlivost
IS P=95%, IS musí být širší pro P=99% než pro P=95%,
protože musíme zaručit vyšší spolehlivost)
variabilita (čím vyšší hodnota směrodatné odchylky, tím
širší IS)
použitý vzorec (pokud používáme t-rozdělení, je IS širší
než při použití N(0,1), rozdíl je markantnější u malých
výběrů)
FAKTORY OVLIVŇUJÍCÍ VELIKOST
INTERVALU SPOLEHLIVOSTI
36
35
34
33
32
31
30
29
28
27
26
25
24
39
0.05;10;T
0.05;10;Z
0.01;10;T
0.01;10;Z
0.05;50;T
0.05;50;Z
0.01;50;T
0.01;50;Z
INTERVAL SPOLEHLIVOSTI
SMĚRODATNÉ ODCHYLKY
pro malé výběry
Výpočet intervalu spolehlivosti směrodatné odchylky
využívá 2-rozdělení a je nesouměrný – nesouměrnost je
vyšší u odhadů vycházejících z malých výběrů.
n S
n S
σ
2
2
χα
χ α
2
2
40
1-
2
2
INTERVAL SPOLEHLIVOSTI
SMĚRODATNÉ ODCHYLKY
pro velké výběry (nad 30 prvků)
Výpočet intervalu spolehlivosti směrodatné odchylky pro
velké výběry využívá normovaného normálního
rozdělení a je souměrný.
S
σ = S ± z α/2 .
2n
41
INTERVALY SPOLEHLIVOSTI –
PROVEDENÍ V EXCELU
interval spolehlivosti střední hodnoty
a) pomocí doplňku Analýza dat
rozsah dat výběru
hodnota 100.(1-)%
musí být zatrženo !!
42
INTERVALY SPOLEHLIVOSTI –
PROVEDENÍ V EXCELU
pomocí funkce CONFIDENCE
hodnota
směrodatná odchylka
(např. vypočítaná pomocí
modulu „Popisná
statistika“
velikost výběru
43
S
Způsob počítá interval spolehlivosti podle vzorce t /2,n-1
n
Způsob počítá interval spolehlivosti podle vzorce z /2
n
44
VÍCEROZMĚRNÝ STATISTICKÝ
SOUBOR
Vícerozměrný statistický soubor je množina C souběžných
realizací určitého počtu veličin X1, X2, …, Xm.
Množina C vznikne získáním hodnot znaků X1, X2, …, Xm na
prvcích množiny n. C je potom množina uspořádaných mtic hodnot x1, x2, …, xm znaků X1, X2, …, Xm.
n-tý
x 1T
OBJEKT
45
x1,1 x1,i x1,m
C x Tj x j,1 x j,i x j,m
m-tá
x T x n ,1 x n ,i x n ,m VELIČINA
n
STATISTICKÁ ZÁVISLOST
46
STATISTICKÁ ZÁVISLOST
pokud měříme
v příliš malém
intervalu,
nemusí se
závislost
prokázat!!
47
STATISTICKÁ ZÁVISLOST
jedna proměnná je
násobkem druhé – v
tom případě je
možné jednu
proměnnou z
analýzy vyloučit bez
ztráty informace
48
STATISTICKÁ ZÁVISLOST
korelace – popisuje vliv změny úrovně jednoho znaku
na změnu úrovně jiných znaků a platí pro kvantitativní
(měřené) znaky;
kontingence – popisuje závislost kvalitativních
(slovních, popisných) znaků, které mají více než dvě
alternativy, tzv. množných znaků (např. druh dřeviny,
národnost, apod.);
49
asociace - popisuje závislost kvalitativních (slovních,
popisných) znaků, které mají pouze dvě alternativy, tzv.
alternativních znaků (např. pohlaví, odpovědi typu
ano/ne, …).
KORELACE
typy podle počtu korelovaných znaků
jednoduchá – popisuje vztah dvou znaků,
mnohonásobná – popisuje vztahy více než dvou znaků,
parciální – popisuje závislost dvou znaků ve
vícerozměrném statistickém souboru při vyloučení vlivu
ostatních znaků na tuto závislost·
50
KORELACE
typy podle smyslu změny hodnot
kladná – se zvyšováním hodnot jednoho znaku se zvyšují
i hodnoty druhého znaku
záporná - se zvyšováním hodnot jednoho znaku se
zmenšují hodnoty druhého znaku
51
KORELACE
typy podle tvaru závislosti
přímková (lineární) – grafickým obrazem závislosti je
přímka (lineární trend)
křivková (nelineární) – grafickým obrazem závislosti je
křivka (nelineární trend)
52
KORELAČNÍ POČET
korelační analýza
zjišťuje existenci závislosti a její druhy,
měří těsnost závislosti,
ověřuje hypotézy o statistické významnosti závislosti;
regresní analýza
53
zabývá se vytvořením vhodného matematického
modelu závislosti,
stanoví parametry tohoto modelu,
ověřuje hypotézy o vhodnosti a důležitých vlastnostech
modelu.
KORELAČNÍ KOEFICIENT
PRO JEDNODUCHOU KORELACI
párový - zvláštní případ vícenásobného korelačního
koeficientu, kdy vyjadřuje míru lineární stochastické
závislosti mezi náhodnými veličinami Xi a Xj,
Pearsonův
Spearmanův (korelace pořadí)
54
PEARSONŮV KORELAČNÍ
KOEFICIENT (r)
podmínkou je
dodržení
dvourozměného
normálního
rozdělení
= normovaná kovariance
rx1x 2 rx 2 x1
55
cov x1x 2
S x1 S x 2
PEARSONŮV KORELAČNÍ
KOEFICIENT (r)
KOVARIANCE:
míra intenzity vztahu mezi složkami vícerozměrného
souboru
je mírou intenzity lineární závislosti
je vždy nezáporná
její limitou je součin směrodatných odchylek
je symetrickou funkcí svých argumentů
její velikost je závislá na měřítku argumentů
nutnost normování
56
cov x1x 2
1 n
x1i x1 x 2i x 2
n i1
PEARSONŮV KORELAČNÍ
KOEFICIENT (r)
Základní vlastnosti Pearsonova korelačního koeficientu:
57
je to bezrozměrná míra lineární korelace;
nabývá hodnoty 0 – 1 pro kladnou korelaci, 0 – (-1)
pro zápornou korelaci;
hodnota 0 znamená, že mezi posuzovanými
veličinami není žádný lineární vztah (může být
nelineární) nebo tento vztah zůstal na základě dat,
které máme k dispozici, neprokázán;
hodnota 1 nebo (-1) indikuje funkční závislost;
hodnota korelačního koeficientu je stejná pro
závislost x1 na x2 i pro opačnou závislost x2 na x1.
REGRESNÍ ANALÝZA
Základní úlohou regresní analýzy je nalezení vhodného
modelu studované závislosti.
Snažíme se nahradit každou měřenou (experimentální,
empirickou, zjištěnou) hodnotu závisle proměnné
(vysvětlované proměnné) Y hodnotou teoretickou
(modelovou, vyrovnanou, predikovanou), tj. hodnotou ležící na
spojité funkci (modelu) nezávisle proměnné (vysvětlující
proměnné) X (X)
58
REGRESNÍ ANALÝZA
měřené hodnoty
závisle proměnná Y
modelové (vypočítané)
hodnoty
nezávisle proměnná X
59
REGRESNÍ MODEL
y1 x11
y x
2 21
yi xi1
yn xn1
y
závisle
proměnná
60
x12
x1 j
x22
x2 j
xi 2
xij
xn 2
xnj
X
nezávisle proměnná
y=X+
x1m 1 1
x2 m 2 2
xim j i
xnm m n
β
ε
regresní náhodná
parametry chyba
REGRESNÍ MODEL
závisle proměnná Y
regresní
parametr
1
absolutní člen
nezávisle proměnná X
61
TEST VÝZNAMNOSTI REGRESNÍHO
MODELU – co testujeme
Y = b0 + b1x1 + b2x2 + b3x3 + … + bmxm
62
Testujeme JEDNOTLIVÉ
PARAMETRY (jestliže je
daný parametr
nevýznamný, příslušná
proměnná xj nijak
nepřispívá ke zpřesnění
odhadu závisle proměnné
a je v modelu zbytečná).
Testujeme MODEL JAKO
CELEK (zda příslušná
kombinace nezávisle
proměnných statisticky
významně zpřesní odhad
závisle proměnné oproti
použití jejího průměru)
TEST VÝZNAMNOSTI REGRESNÍHO
MODELU JAKO CELKU
1. Test významnosti korelačního koeficientu
2. Pomocí analýzy rozptylu
Zdroj
variability
Součet čtverců odchylek
n
regresní model
reziduum
(nevysvětleno
regresním
modelem)
Celkový
63
S REG yi y 2
i 1
Počet stupňů
volnosti
i 1
S REG
DFREG
S
MR R
DFR
Testové
kritérium
DFREG = m –1 M REG
n
S R y i yi 2
Průměrný čtverec
odchylek (rozptyl)
DFR = n – m
F
M REG
MR
n
SC y i y 2
i 1
DFC = n - 1
Testové kritérium F se porovná s kritickou hodnotou F;m-1;n-m.
TEST VÝZNAMNOSTI REGRESNÍCH
PARAMETRŮ
H0: j = 0, tj. j-tý regresní parametr je nevýznamný
t
bj j
sb
pro j = 0
t
bj
sb
Pokud platí, že t> t2;n-m, potom je j-tý regresní
parametr statisticky významný a příslušná proměnná
musí zůstat v modelu.
64