Transcript 2. - Katedra za medicinsku informatiku
Slide 1
Analiza brojčanih podataka, korelacija i
regresija
dr.sc. Vesna Ilakovac, znanstveni suradnik
Katedra za biofiziku, medicinsku statistiku i medicinsku informatiku
Medicinski fakultet Osijek
PDDS MOLBIO
1
Slide 2
TESTIRANJE RAZLIKA
razlike mjerenja neke varijable na dvije ili više skupina
ispitanika -> nezavisni uzorci
razlike dva ili više mjerenja neke varijable na istoj skupini
ispitanika ->zavisni uzorci
PDDS MOLBIO
2
Slide 3
Priprema podataka
1. jedinica promatranja (ispitanik, preparat, pokusna
životinja, organ ....)
2. varijable:
vrsta varijable (numerička, kategorička)
ljestvica mjerenja (nominalna, ordinalna, intervalna,
omjerna)
za numeričke varijable, broj decimalnih mjesta
PDDS MOLBIO
3
Slide 4
Upis podataka
numerički podatci
– onako kako su izmjereni
kategorički podatci
– klasificirati u logičke, isključive skupine
(prema problemu)
PDDS MOLBIO
4
Slide 5
Unos podataka
VARIJABLE
spol
dob
težina
......
bolesnik1
JEDINICE
PROMATRANJA
bolesnik2
bolesnik3
.
.
PDDS MOLBIO
5
Slide 6
Unos podataka o mjerenjima
na nezavisnim skupinama
nezavisne skupine = različiti ispitanici
(ispitanici koji pripadaju nekoj skupini ne pripadaju
niti jednoj od preostalih skupina)
za unos podataka o nekom mjerenju na nezavisnim
skupinama ispitanika UVIJEK imamo 2 varijable
(bez obzira koliko je skupina ispitanika):
1. varijabla koja određuje pripadnost ispitanika
pojedinoj skupini
2. varijabla u koju unosimo vrijednost mjerenja za
danog ispitanika
PDDS MOLBIO
6
Slide 7
Unos podataka o mjerenjima
na nezavisnim skupinama
npr.
mjerenje dobi; skupine po spolu
- broj mogućih skupina: 2
varijabla koja sadrži
vrijednost mjerenja
PDDS MOLBIO
varijabla koja definira
pripadnost skupini
Dob
Spol
ispitanik1
35
M
ispitanik2
37
M
ispitanik3
32
M
ispitanik4
33
Z
......
7
Slide 8
Unos podataka o mjerenjima
na nezavisnim skupinama
npr.
mjerenje visine; skupine po razredu (osnovna škola)
- broj mogućih skupina: 8
varijabla koja sadrži
vrijednost mjerenja
PDDS MOLBIO
varijabla koja definira
pripadnost skupini
Visina
Razred
ispitanik1
110
2
ispitanik2
140
2
ispitanik3
100
1
ispitanik4
176
7
......
8
Slide 9
Unos podataka o mjerenjima
na zavisnim skupinama
zavisne skupine = ponavljana mjerenja na ISTIM ispitanicima
SVAKO mjerenje = JEDNA varijabla
koliko mjerenja toliko varijabli
PDDS MOLBIO
9
Slide 10
Unos podataka o mjerenjima
na zavisnim skupinama
npr.
praćenje dnevnih varijacija sistoličkog tlaka; mjerenja
u 6h, 10h, 14h, 18h, 22h
po jedna varijabla za svako mjerenje
ST6
ST10
ST14
ST18
ST22
ispitanik1
120
135
140
180
160
ispitanik2
115
120
120
125
120
ispitanik3
140
145
150
150
180
ispitanik4
118
110
110
115
120
PDDS MOLBIO
10
Slide 11
STUDENTOV T-TEST
(t-test za nezavisne uzorke)
PDDS MOLBIO
11
Slide 12
za što se koristi:
testiranje razlike između dvije nezavisne skupine
ispitanika
pod kojim uvjetima:
varijabla koju testiramo mjerena je najmanje
intervalnom skalom
varijabla koju testiramo ima normalnu razdiobu u
promatranim skupinama
varijance mjerenja varijable koju testiramo u
promatranim skupinama su slične (homogenost
varijanci)
PDDS MOLBIO
12
Slide 13
test statistika:
t
( x A x B ) ( A B )
SE ( x A x B )
SE ( xA xB )
2
s zaj
PDDS MOLBIO
ima Studentovu (t) razdiobu
s nA+nB-2 stupnja slobode
2
s zaj
1
nA
standardna pogreška razlike
aritmetičkih sredina
1
nB
2
2
( n A 1)s A ( n B 1)s B
( n A 1) ( n B 1)
zajednička varijanca
13
Slide 14
test homogenosti varijanci (F-test):
2
F
sA
2
sB
ima F razdiobu
s nA-1, nB-1 stupnjeva slobode
ako koristimo tablice:
- tablice za F sadrže obično samo desnu stranu distribucije
u brojnik stavljamo veću varijancu
PDDS MOLBIO
14
Slide 15
ZADATAK 1
PDDS MOLBIO
15
Slide 16
Ispitivan je utjecaj sniženja tjelesne temperature na
protrombinsko vrijeme. Izvršena su mjerenja PV na dvije
skupine ispitanika. U jednoj skupini bilo je 16 ispitanika
normalne temperature (kontrolna skupina). U drugoj
skupini bilo je 14 ispitanika sa sniženom temperaturom
(pokusna skupina).
PDDS MOLBIO
16
Slide 17
Mjerenjem su dobiveni sljedeći rezultati (u sekundama):
Kontrolna skupina (370C)
7
8
9
6
8
10
8
12
9
11
10
8
9
7
7
8
PDDS MOLBIO
Pokusna skupina (150C)
8
6
8
9
10
12
11
8
7
8
8
9
9
9
17
Slide 18
nezavisne
skupine
2 varijable:
protrombinsko vrijeme
skupina
1 – kontrolna skupina
2 – pokusna skupina
PDDS MOLBIO
18
Slide 19
PDDS MOLBIO
pvrijeme
skupina
7
1
8
1
9
1
:
:
7
1
7
1
8
1
8
2
6
2
8
2
:
:
9
2
9
2
9
2
19
Slide 20
Opis varijabli
protrombinsko vrijeme:
– numerička varijabla, omjerna ljestvica
skupina:
– kategorička varijabla, nominalna ljestvica
ispitati
mjere sredine i raspršenja za PV u
svakoj skupini
ispitati normalnost raspodjele PV u svakoj
skupini
PDDS MOLBIO
20
Slide 21
Opisna statistika i ispitivanje normalnosti - MedCalc:
Statistics-> Summary statistics
za kontrolnu skupinu:
Variable -> pvrijeme
Select -> skupina=1
Options -> Test for normal distribution
za pokusnu skupinu:
Variable -> pvrijeme
Select -> skupina=2
Options -> Test for normal distribution
PDDS MOLBIO
21
Slide 22
PDDS MOLBIO
22
Slide 23
PDDS MOLBIO
23
Slide 24
PDDS MOLBIO
24
Slide 25
PDDS MOLBIO
25
Slide 26
Homogenost varijanci - MedCalc:
- preko usporedbe standardnih devijacija:
Tests-> Comparison of... -> standard deviations (F-test)
PDDS MOLBIO
26
Slide 27
Homogenost varijanci - MedCalc:
PDDS MOLBIO
27
Slide 28
Studentov t-test - MedCalc:
Statistics-> T tests
PDDS MOLBIO
28
Slide 29
> 0.05
=> ne odbacujemo H0
PDDS MOLBIO
29
Slide 30
ŠTO AKO NISU ZADOVOLJENI UVJETI ?
Mann-Whitney-Wilcoxon test
(Mann-Whitney U test)
MedCalc:
Statistics-> Wilcoxon tests
PDDS MOLBIO
30
Slide 31
PDDS MOLBIO
31
Slide 32
T-TEST DIFERENCIJA
(t-test za zavisne uzorke)
PDDS MOLBIO
32
Slide 33
za što se koristi:
testiranje razlike između dvije zavisne skupine
ispitanika (ponavljana mjerenja na istim ispitanicima)
pod kojim uvjetima:
razlike parova vrijednosti mjerene su najmanje
intervalnom skalom
razlike parova vrijednosti imaju normalnu razdiobu
PDDS MOLBIO
33
Slide 34
test statistika:
t
d ( A B )
ima Studentovu (t) razdiobu
s n-1 stupnjeva slobode
2
sd
n
d xA xB
sd
2
PDDS MOLBIO
(d i d )
i
n1
srednja razlika
2
varijanca razlike
34
Slide 35
ZADATAK 2
PDDS MOLBIO
35
Slide 36
Ispitivan je utjecaj alkohola na vrijeme reakcije vozača.
Izvršeno je mjerenje vremena reakcije 14 vozača na
standardne zadatke prije i nakon konzumacije određene
količine alkohola.
PDDS MOLBIO
36
Slide 37
Mjerenjem su dobiveni slijedeći rezultati:
prije
nakon
1
0.68
0.73
2
0.64
0.66
3
0.68
0.66
4
0.82
0.92
5
0.58
0.68
6
0.80
0.87
7
0.72
0.77
8
0.65
0.70
9
0.84
0.88
10
0.73
0.79
11
0.63
0.68
12
0.72
0.68
13
0.68
0.75
14
0.69
0.78
PDDS MOLBIO
37
Slide 38
zavisne
skupine
2 varijable:
prije
nakon
PDDS MOLBIO
38
Slide 39
PDDS MOLBIO
prije
nakon
0.68
0.73
0.64
0.66
0.68
0.66
0.82
0.92
0.58
0.68
0.80
0.87
0.72
0.77
0.65
0.70
0.84
0.88
0.73
0.79
0.63
0.68
0.72
0.68
0.68
0.75
0.69
0.78
39
Slide 40
Opis varijabli
prije, nakon:
– numeričke, omjerna ljestvica
za obje varijable:
ispitati mjere sredine i raspršenja
kreirati novu varijablu prije-nakon:
ispitati normalnost
PDDS MOLBIO
40
Slide 41
Opisna statistika i ispitivanje normalnosti - MedCalc:
Statistics-> Summary statistics
prije:
Variable -> prije
poslije:
Variable -> poslije
razlika:
Variable-> razlika
Options -> Test for normal distribution
PDDS MOLBIO
41
Slide 42
PDDS MOLBIO
42
Slide 43
PDDS MOLBIO
43
Slide 44
PDDS MOLBIO
44
Slide 45
PDDS MOLBIO
45
Slide 46
T-test diferencija - MedCalc:
Statistics-> T tests
PDDS MOLBIO
46
Slide 47
razlika < 0 i p < 0.05 => vrijeme reakcije vozača nakon
konzumacije te količine alkohola značajno je dulje nego prije
konzumacije te količine alkohola
PDDS MOLBIO
47
Slide 48
ŠTO AKO NISU ZADOVOLJENI UVJETI ?
Wilcoxonov test
MedCalc:
Statistics-> Wilcoxon tests
PDDS MOLBIO
48
Slide 49
PDDS MOLBIO
49
Slide 50
JEDNOSMJERNA ANALIZA VARIJANCE
(One-way ANOVA)
PDDS MOLBIO
50
Slide 51
za što se koristi:
testiranje razlike između tri i više skupina
faktor
kategorička varijabla prema kojoj su definirane skupine
jednosmjerna analiza varijance
analiza varijance s jednim faktorom
PDDS MOLBIO
51
Slide 52
postupak u kojem donosimo dvije procjene varijance za
promatrane grupe (model):
– procjenu koja odražava varijabilitet između grupa
– procjenu koja odražava varijabilitet unutar grupa
OSNOVNA IDEJA:
utvrditi je li varijabilitet između grupa veći od varijabiliteta
unutar grupa
PDDS MOLBIO
52
Slide 53
VARIJABILITET IZMEĐU
GRUPA VEĆI JE OD
VARIJABILITETA UNUTAR
GRUPA
VARIJABILITET UNUTAR
GRUPA VEĆI JE OD
VARIJABILITETA IZMEĐU
GRUPA
PDDS MOLBIO
53
Slide 54
pretpostavke:
varijabla koju testiramo mjerena je najmanje
intervalnom skalom
varijabla koju testiramo ima normalnu razdiobu u
promatranim skupinama
varijance mjerenja varijable koju testiramo u
promatranim skupinama su slične (homogenost
varijanci)
PDDS MOLBIO
54
Slide 55
test statistika:
procjena koja odražava
varijabilitet IZMEĐU grupa
MS tretman
F
MS pogreška
procjena koja odražava
varijabilitet UNUTAR grupa
- F ima F razdiobu s k-1, N-k stupnjeva slobode
PDDS MOLBIO
55
Slide 56
ZADATAK
PDDS MOLBIO
3
56
Slide 57
Bolesnici s uznapredovalim stadijem raka želuca,
bronhija, kolona i dojke tretirani su novim lijekom. Svrha
istraživanja je utvrditi je li preživljavanje bolesnika
povezano sa zahvaćenim organom. Vrijeme
preživljavanja (u mjesecima) dano je u tablici:
PDDS MOLBIO
57
Slide 58
Ž e lu d a c
11
8
9
7
20
11
33
12
10
19
12
18
20
18
17
10
PDDS MOLBIO
B ro n h iji
9
21
4
21
16
13
8
8
12
29
12
13
6
15
12
8
16
K o lo n
16
19
14
8
13
23
23
21
20
19
31
28
19
13
10
4
17
D o jk e
35
45
40
34
46
35
52
28
42
49
38
32
43
28
58
Slide 59
nezavisne
skupine
4 skupine , ali 2 varijable:
vrijeme
organ
1 - želudac
2 - bronhiji
3 - kolon
4 - dojke
PDDS MOLBIO
59
Slide 60
organ
PDDS MOLBIO
vrijeme
1
11
:
:
1
10
2
9
:
:
2
16
3
16
:
:
3
17
4
35
:
:
4
28
60
Slide 61
Opisna statistika i ispitivanje normalnosti - MedCalc:
Statistics-> Summary statistics
za želudac:
Variable -> vrijeme
Select -> organ=1
Options -> Test for normal distribution
za bronhije:
Variable -> vrijeme
Select -> organ=2
Options -> Test for normal distribution
za kolon:
Variable -> vrijeme
Select -> organ=3
Options -> Test for normal distribution
za dojke:
Variable -> vrijeme
Select -> organ=4
Options -> Test for normal distribution
PDDS MOLBIO
61
Slide 62
PDDS MOLBIO
62
Slide 63
Test homogenosti varijanci - MedCalc:
- ver. 4.1 NEMA!!!!
Test homogenosti varijanci - SPSS:
Test of Homogeneity of Variances
vrijeme
Levene
Statistic
.410
PDDS MOLBIO
df1
df2
3
Sig.
60
.746
63
Slide 64
PDDS MOLBIO
64
Slide 65
najmanje jedna skupina značajno je različita od neke od
preostalih
PDDS MOLBIO
65
Slide 66
KORELACIJA
PDDS MOLBIO
66
Slide 67
KORELACIJA
veza
među obilježjima (varijablama)
obilježja koja “variraju zajedno”
KOEFICIJENT KORELACIJE
mjera stupnja povezanosti
PEARSONOV KOEFICIJENT KORELACIJE r
mjera stupnja linearne povezanosti dviju kvantitativnih
varijabli
PDDS MOLBIO
67
Slide 68
-1 r 1
nema povezanosti
r=0
stohastička povezanost
0
-1 < r < 0
funkcionalna povezanost
r=1
PDDS MOLBIO
r = -1
68
Slide 69
x, y ....nizovi vrijednosti varijabli čiju povezanost ocjenjujemo
POSTUPAK ZA OCJENU KORELACIJE
a) crtanje korelacionog dijagrama
b) ocjena postojanja povezanosti
c) u slučaju da postoji linearna povezanost, računamo
koeficijent korelacije r
N
z xi z yi
r
i1
N 1
zxi, zyi .... standardizirane vrijednosti pojedinačnih vrijednosti
varijabli x i y, tj.
yi y
xi x
z xi
PDDS MOLBIO
sx
z yi
sy
69
Slide 70
skraćeni postupak računanja r:
N
r
PDDS MOLBIO
1 N N
xiyi xi yi
N i 1 i 1
i 1
2
2
N
N
N
N
1
1
2
2
xi x i yi yi
N i 1 i 1
N i 1
i 1
70
Slide 71
ZNAČAJNOST KOEFICIJENTA KORELACIJE
testiramo je li r značajno različit od 0
test statistika
t r
slijedi t razdiobu uz
PDDS MOLBIO
N2
1 r
2
df = N - 2
71
Slide 72
ZADATAK 4
PDDS MOLBIO
72
Slide 73
Izmjerena je visina u centimetrima i vitalni kapacitet pluća (VC) u
litrama 33 studentice prve godine. Dobiveni su sljedeći rezultati:
Rbr.
Visina
VC
Rbr. Visina
VC
Rbr.
Visina
VC
1.
180.6
4.74
12.
155.0
2.20
23.
174.2
4.27
2.
168.0
3.63
13.
171.0
3.38
24.
167.0
3.45
3.
163.0
3.40
14.
171.5
3.82
25.
162.0
2.88
4.
171.0
3.75
15.
167.6
3.26
26.
172.0
4.13
5.
177.0
4.23
16.
160.2
2.63
27.
161.0
2.90
6.
169.4
3.20
17.
166.6
3.06
28.
155.0
2.65
7.
161.0
2.90
18.
167.0
3.52
29.
162.0
3.12
8.
170.0
3.88
19.
163.0
2.82
30.
174.0
4.02
9.
158.0
2.40
20.
172.0
3.41
31.
161.0
2.80
10.
161.0
2.60
21.
158.0
2.81
32.
166.0
3.46
11.
163.0
2.72
22.
165.0
3.07
33.
166.0
3.26
Ocijenite postoji li povezanost visine i vitalnog kapaciteta pluća
PDDS MOLBIO
73
Slide 74
Crtanje korelacionog dijagrama
(točkasti “scatter” grafikon)
MedCalc:
Statistics -> Correlation -> Scatter diagram
visina -> X os
VC -> Y os
PDDS MOLBIO
74
Slide 75
PDDS MOLBIO
75
Slide 76
Izračun koeficijenta korelacije - MedCalc:
Statistics -> Correlation -> Correlation coefficient
PDDS MOLBIO
76
Slide 77
PDDS MOLBIO
77
Slide 78
Interpretacija koeficijenta korelacije
statistička značajnost
ocjenjuje je li r značajno različit od 0
ovisi o veličini uzorka - za velike uzorke, mali r će
biti značajan
praktična značajnost
ocjenjuje se pomoću koeficijenta determinacije
koliki udio varijabilnosti je “zajednički”
PDDS MOLBIO
r2
78
Slide 79
Interpretacija koeficijenta korelacije
Najmanji
značajni r
(p<0.05)
r2
10
0.632
0.399
20
0.444
0.197
30
0.361
0.130
40
0.312
0.097
50
0.279
0.078
100
0.197
0.039
200
0.139
0.019
300
0.113
0.013
500
0.088
0.008
N
PDDS MOLBIO
79
Slide 80
VAŽNO:
Pearsonov koeficijent korelacije daje stupanj LINEARNE
povezanosti dviju varijabli!
25.0
Pearsonov r=0.079
20.0
15.0
10.0
5.0
0.0
150.0
PDDS MOLBIO
155.0
160.0
165.0
170.0
175.0
180.0
185.0
80
Slide 81
VAŽNO:
Korelacija daje povezanost, a ne UZROČNOST !
PDDS MOLBIO
81
Slide 82
VAŽNO:
Na koeficijent korelacije jako utječu ekstremne vrijednosti!
160.0
Pearsonov r=0.833
140.0
120.0
100.0
80.0
60.0
40.0
20.0
0.0
140.0
PDDS MOLBIO
160.0
180.0
200.0
220.0
240.0
260.0
280.0
300.0
82
Slide 83
160.0
140.0
Pearsonov r = -0.002
120.0
100.0
80.0
60.0
40.0
20.0
0.0
140.0
PDDS MOLBIO
160.0
180.0
200.0
220.0
240.0
260.0
280.0
300.0
83
Slide 84
SPEARMANOV KOEFICIJENT KORELACIJE r
- neparametrijski koeficijent korelacije
KADA?
• Dvije ordinalne varijable
• Jedna ili obje numeričke varijable nisu normalno
distribuirane
• Prisustvo ekstremnih vrijednosti
PDDS MOLBIO
84
Slide 85
LINEARNA REGRESIJA
- ako parovi varijabli pokazuju prisustvo korelacije, funkcionalnu
vezu prikazuje JEDNADŽBA REGRESIJE
REGRESIJA - prognoza iz jedne varijable u drugu
linearni slučaj - povezanost varijabli je linearna
- jednadžba regresije je jednadžba pravca oko
kojeg se grupiraju parovi
korelacionom dijagramu
PDDS MOLBIO
varijabli
u
85
Slide 86
y = a + bx
x ...
y ...
b ...
OPĆI OBLIK JEDNADŽBE
LINEARNE REGRESIJE
nezavisna varijabla (prediktorska)
zavisna varijabla (kriterijska)
koeficijent smjera
u realnoj situaciji:
PDDS MOLBIO
86
Slide 87
- jednadžba regresijskog pravca dobiva se METODOM
NAJMANJIH KVADRATA
y'i ... vrijednost na regresijskom pravcu koja odgovara xi
y i y' i 0
i
2
( y i y ' i ) m in
i
iz normalnih jednadžbi
N
N
i 1
i 1
y i Na b x i
N
N
N
i 1
i 1
i 1
2
xiyi a xi b xi
PDDS MOLBIO
87
Slide 88
N
b
1 N N
xiyi xi yi
N i 1 i1
i1
N
2
x
i
i1
N
1
xi
N i1
2
KOEFICIJENT
REGRESIJE
odsječak na ordinati
a ...
a y bx
- pravac regresije izražava "prosječni odnos" ("prosječnu vezu")
varijabli x i y
PDDS MOLBIO
88
Slide 89
Linearna regresija - MedCalc:
Statistics -> Regression -> Regression
PDDS MOLBIO
89
Slide 90
PDDS MOLBIO
90
Slide 91
86% varijabilnosti vitalnog kapaciteta pluća može se
objasniti visinom
Sample size
=
33
Coefficient of determination
=
0.8655
Residual standard deviation
=
0.2206
standardna devijacija reziduala (standardna pogreška
procjene)
PDDS MOLBIO
91
Slide 92
-- REGRESSION EQUATION -------------------------------------Y = -11.5374 + 0.0893 X
Parameter
Intercept
Slope
PDDS MOLBIO
Coefficient
-11.53739
0.08927
Std.Error
1.05028
0.00632
T-value
-10.9851
14.1213
P
0.0000
0.0000
92
Slide 93
b0
b1
-- REGRESSION EQUATION -------------------------------------Y = -11.5374 + 0.0893 X
Parameter
Intercept
Slope
Coefficient
-11.53739
0.08927
Std.Error
1.05028
0.00632
T-value
-10.9851
14.1213
P
0.0000
0.0000
vitalni kapacitet pluća=b0+b1 * Visina = 11.537+0.089 * Visina
VAŽNO:
Predviđanja se smiju raditi samo za vrijednosti iz postojećeg raspona
varijabli!
npr. za visinu 175,
vitalni kapacitet pluća= -11.537+0.089 x 175 = 4.04
PDDS MOLBIO
93
Slide 94
razlika SST-SSR; (SSM); predstavlja
poboljšanje u predviđanju zbog
korištenja regresijskog modela
suma kvadrata odstupanja od
vrijednosti predviđene
regresijskim pravcem (SSR)
-- ANALYSIS OF VARIANCE ------------------------------------Source
DF
Sum of Squares
Mean Square
Regression
1
9.7037
9.7037
Residual
31
1.5085
0.0487
F-Ratio = 199.4107
P = 0.000
SST - suma kvadrata odstupanja
od aritmetičke sredine
PDDS MOLBIO
regresijski model značajno
bolje predviđa zavisnu
varijablu od predviđanja
aritmetičkom sredinom
94
Analiza brojčanih podataka, korelacija i
regresija
dr.sc. Vesna Ilakovac, znanstveni suradnik
Katedra za biofiziku, medicinsku statistiku i medicinsku informatiku
Medicinski fakultet Osijek
PDDS MOLBIO
1
Slide 2
TESTIRANJE RAZLIKA
razlike mjerenja neke varijable na dvije ili više skupina
ispitanika -> nezavisni uzorci
razlike dva ili više mjerenja neke varijable na istoj skupini
ispitanika ->zavisni uzorci
PDDS MOLBIO
2
Slide 3
Priprema podataka
1. jedinica promatranja (ispitanik, preparat, pokusna
životinja, organ ....)
2. varijable:
vrsta varijable (numerička, kategorička)
ljestvica mjerenja (nominalna, ordinalna, intervalna,
omjerna)
za numeričke varijable, broj decimalnih mjesta
PDDS MOLBIO
3
Slide 4
Upis podataka
numerički podatci
– onako kako su izmjereni
kategorički podatci
– klasificirati u logičke, isključive skupine
(prema problemu)
PDDS MOLBIO
4
Slide 5
Unos podataka
VARIJABLE
spol
dob
težina
......
bolesnik1
JEDINICE
PROMATRANJA
bolesnik2
bolesnik3
.
.
PDDS MOLBIO
5
Slide 6
Unos podataka o mjerenjima
na nezavisnim skupinama
nezavisne skupine = različiti ispitanici
(ispitanici koji pripadaju nekoj skupini ne pripadaju
niti jednoj od preostalih skupina)
za unos podataka o nekom mjerenju na nezavisnim
skupinama ispitanika UVIJEK imamo 2 varijable
(bez obzira koliko je skupina ispitanika):
1. varijabla koja određuje pripadnost ispitanika
pojedinoj skupini
2. varijabla u koju unosimo vrijednost mjerenja za
danog ispitanika
PDDS MOLBIO
6
Slide 7
Unos podataka o mjerenjima
na nezavisnim skupinama
npr.
mjerenje dobi; skupine po spolu
- broj mogućih skupina: 2
varijabla koja sadrži
vrijednost mjerenja
PDDS MOLBIO
varijabla koja definira
pripadnost skupini
Dob
Spol
ispitanik1
35
M
ispitanik2
37
M
ispitanik3
32
M
ispitanik4
33
Z
......
7
Slide 8
Unos podataka o mjerenjima
na nezavisnim skupinama
npr.
mjerenje visine; skupine po razredu (osnovna škola)
- broj mogućih skupina: 8
varijabla koja sadrži
vrijednost mjerenja
PDDS MOLBIO
varijabla koja definira
pripadnost skupini
Visina
Razred
ispitanik1
110
2
ispitanik2
140
2
ispitanik3
100
1
ispitanik4
176
7
......
8
Slide 9
Unos podataka o mjerenjima
na zavisnim skupinama
zavisne skupine = ponavljana mjerenja na ISTIM ispitanicima
SVAKO mjerenje = JEDNA varijabla
koliko mjerenja toliko varijabli
PDDS MOLBIO
9
Slide 10
Unos podataka o mjerenjima
na zavisnim skupinama
npr.
praćenje dnevnih varijacija sistoličkog tlaka; mjerenja
u 6h, 10h, 14h, 18h, 22h
po jedna varijabla za svako mjerenje
ST6
ST10
ST14
ST18
ST22
ispitanik1
120
135
140
180
160
ispitanik2
115
120
120
125
120
ispitanik3
140
145
150
150
180
ispitanik4
118
110
110
115
120
PDDS MOLBIO
10
Slide 11
STUDENTOV T-TEST
(t-test za nezavisne uzorke)
PDDS MOLBIO
11
Slide 12
za što se koristi:
testiranje razlike između dvije nezavisne skupine
ispitanika
pod kojim uvjetima:
varijabla koju testiramo mjerena je najmanje
intervalnom skalom
varijabla koju testiramo ima normalnu razdiobu u
promatranim skupinama
varijance mjerenja varijable koju testiramo u
promatranim skupinama su slične (homogenost
varijanci)
PDDS MOLBIO
12
Slide 13
test statistika:
t
( x A x B ) ( A B )
SE ( x A x B )
SE ( xA xB )
2
s zaj
PDDS MOLBIO
ima Studentovu (t) razdiobu
s nA+nB-2 stupnja slobode
2
s zaj
1
nA
standardna pogreška razlike
aritmetičkih sredina
1
nB
2
2
( n A 1)s A ( n B 1)s B
( n A 1) ( n B 1)
zajednička varijanca
13
Slide 14
test homogenosti varijanci (F-test):
2
F
sA
2
sB
ima F razdiobu
s nA-1, nB-1 stupnjeva slobode
ako koristimo tablice:
- tablice za F sadrže obično samo desnu stranu distribucije
u brojnik stavljamo veću varijancu
PDDS MOLBIO
14
Slide 15
ZADATAK 1
PDDS MOLBIO
15
Slide 16
Ispitivan je utjecaj sniženja tjelesne temperature na
protrombinsko vrijeme. Izvršena su mjerenja PV na dvije
skupine ispitanika. U jednoj skupini bilo je 16 ispitanika
normalne temperature (kontrolna skupina). U drugoj
skupini bilo je 14 ispitanika sa sniženom temperaturom
(pokusna skupina).
PDDS MOLBIO
16
Slide 17
Mjerenjem su dobiveni sljedeći rezultati (u sekundama):
Kontrolna skupina (370C)
7
8
9
6
8
10
8
12
9
11
10
8
9
7
7
8
PDDS MOLBIO
Pokusna skupina (150C)
8
6
8
9
10
12
11
8
7
8
8
9
9
9
17
Slide 18
nezavisne
skupine
2 varijable:
protrombinsko vrijeme
skupina
1 – kontrolna skupina
2 – pokusna skupina
PDDS MOLBIO
18
Slide 19
PDDS MOLBIO
pvrijeme
skupina
7
1
8
1
9
1
:
:
7
1
7
1
8
1
8
2
6
2
8
2
:
:
9
2
9
2
9
2
19
Slide 20
Opis varijabli
protrombinsko vrijeme:
– numerička varijabla, omjerna ljestvica
skupina:
– kategorička varijabla, nominalna ljestvica
ispitati
mjere sredine i raspršenja za PV u
svakoj skupini
ispitati normalnost raspodjele PV u svakoj
skupini
PDDS MOLBIO
20
Slide 21
Opisna statistika i ispitivanje normalnosti - MedCalc:
Statistics-> Summary statistics
za kontrolnu skupinu:
Variable -> pvrijeme
Select -> skupina=1
Options -> Test for normal distribution
za pokusnu skupinu:
Variable -> pvrijeme
Select -> skupina=2
Options -> Test for normal distribution
PDDS MOLBIO
21
Slide 22
PDDS MOLBIO
22
Slide 23
PDDS MOLBIO
23
Slide 24
PDDS MOLBIO
24
Slide 25
PDDS MOLBIO
25
Slide 26
Homogenost varijanci - MedCalc:
- preko usporedbe standardnih devijacija:
Tests-> Comparison of... -> standard deviations (F-test)
PDDS MOLBIO
26
Slide 27
Homogenost varijanci - MedCalc:
PDDS MOLBIO
27
Slide 28
Studentov t-test - MedCalc:
Statistics-> T tests
PDDS MOLBIO
28
Slide 29
> 0.05
=> ne odbacujemo H0
PDDS MOLBIO
29
Slide 30
ŠTO AKO NISU ZADOVOLJENI UVJETI ?
Mann-Whitney-Wilcoxon test
(Mann-Whitney U test)
MedCalc:
Statistics-> Wilcoxon tests
PDDS MOLBIO
30
Slide 31
PDDS MOLBIO
31
Slide 32
T-TEST DIFERENCIJA
(t-test za zavisne uzorke)
PDDS MOLBIO
32
Slide 33
za što se koristi:
testiranje razlike između dvije zavisne skupine
ispitanika (ponavljana mjerenja na istim ispitanicima)
pod kojim uvjetima:
razlike parova vrijednosti mjerene su najmanje
intervalnom skalom
razlike parova vrijednosti imaju normalnu razdiobu
PDDS MOLBIO
33
Slide 34
test statistika:
t
d ( A B )
ima Studentovu (t) razdiobu
s n-1 stupnjeva slobode
2
sd
n
d xA xB
sd
2
PDDS MOLBIO
(d i d )
i
n1
srednja razlika
2
varijanca razlike
34
Slide 35
ZADATAK 2
PDDS MOLBIO
35
Slide 36
Ispitivan je utjecaj alkohola na vrijeme reakcije vozača.
Izvršeno je mjerenje vremena reakcije 14 vozača na
standardne zadatke prije i nakon konzumacije određene
količine alkohola.
PDDS MOLBIO
36
Slide 37
Mjerenjem su dobiveni slijedeći rezultati:
prije
nakon
1
0.68
0.73
2
0.64
0.66
3
0.68
0.66
4
0.82
0.92
5
0.58
0.68
6
0.80
0.87
7
0.72
0.77
8
0.65
0.70
9
0.84
0.88
10
0.73
0.79
11
0.63
0.68
12
0.72
0.68
13
0.68
0.75
14
0.69
0.78
PDDS MOLBIO
37
Slide 38
zavisne
skupine
2 varijable:
prije
nakon
PDDS MOLBIO
38
Slide 39
PDDS MOLBIO
prije
nakon
0.68
0.73
0.64
0.66
0.68
0.66
0.82
0.92
0.58
0.68
0.80
0.87
0.72
0.77
0.65
0.70
0.84
0.88
0.73
0.79
0.63
0.68
0.72
0.68
0.68
0.75
0.69
0.78
39
Slide 40
Opis varijabli
prije, nakon:
– numeričke, omjerna ljestvica
za obje varijable:
ispitati mjere sredine i raspršenja
kreirati novu varijablu prije-nakon:
ispitati normalnost
PDDS MOLBIO
40
Slide 41
Opisna statistika i ispitivanje normalnosti - MedCalc:
Statistics-> Summary statistics
prije:
Variable -> prije
poslije:
Variable -> poslije
razlika:
Variable-> razlika
Options -> Test for normal distribution
PDDS MOLBIO
41
Slide 42
PDDS MOLBIO
42
Slide 43
PDDS MOLBIO
43
Slide 44
PDDS MOLBIO
44
Slide 45
PDDS MOLBIO
45
Slide 46
T-test diferencija - MedCalc:
Statistics-> T tests
PDDS MOLBIO
46
Slide 47
razlika < 0 i p < 0.05 => vrijeme reakcije vozača nakon
konzumacije te količine alkohola značajno je dulje nego prije
konzumacije te količine alkohola
PDDS MOLBIO
47
Slide 48
ŠTO AKO NISU ZADOVOLJENI UVJETI ?
Wilcoxonov test
MedCalc:
Statistics-> Wilcoxon tests
PDDS MOLBIO
48
Slide 49
PDDS MOLBIO
49
Slide 50
JEDNOSMJERNA ANALIZA VARIJANCE
(One-way ANOVA)
PDDS MOLBIO
50
Slide 51
za što se koristi:
testiranje razlike između tri i više skupina
faktor
kategorička varijabla prema kojoj su definirane skupine
jednosmjerna analiza varijance
analiza varijance s jednim faktorom
PDDS MOLBIO
51
Slide 52
postupak u kojem donosimo dvije procjene varijance za
promatrane grupe (model):
– procjenu koja odražava varijabilitet između grupa
– procjenu koja odražava varijabilitet unutar grupa
OSNOVNA IDEJA:
utvrditi je li varijabilitet između grupa veći od varijabiliteta
unutar grupa
PDDS MOLBIO
52
Slide 53
VARIJABILITET IZMEĐU
GRUPA VEĆI JE OD
VARIJABILITETA UNUTAR
GRUPA
VARIJABILITET UNUTAR
GRUPA VEĆI JE OD
VARIJABILITETA IZMEĐU
GRUPA
PDDS MOLBIO
53
Slide 54
pretpostavke:
varijabla koju testiramo mjerena je najmanje
intervalnom skalom
varijabla koju testiramo ima normalnu razdiobu u
promatranim skupinama
varijance mjerenja varijable koju testiramo u
promatranim skupinama su slične (homogenost
varijanci)
PDDS MOLBIO
54
Slide 55
test statistika:
procjena koja odražava
varijabilitet IZMEĐU grupa
MS tretman
F
MS pogreška
procjena koja odražava
varijabilitet UNUTAR grupa
- F ima F razdiobu s k-1, N-k stupnjeva slobode
PDDS MOLBIO
55
Slide 56
ZADATAK
PDDS MOLBIO
3
56
Slide 57
Bolesnici s uznapredovalim stadijem raka želuca,
bronhija, kolona i dojke tretirani su novim lijekom. Svrha
istraživanja je utvrditi je li preživljavanje bolesnika
povezano sa zahvaćenim organom. Vrijeme
preživljavanja (u mjesecima) dano je u tablici:
PDDS MOLBIO
57
Slide 58
Ž e lu d a c
11
8
9
7
20
11
33
12
10
19
12
18
20
18
17
10
PDDS MOLBIO
B ro n h iji
9
21
4
21
16
13
8
8
12
29
12
13
6
15
12
8
16
K o lo n
16
19
14
8
13
23
23
21
20
19
31
28
19
13
10
4
17
D o jk e
35
45
40
34
46
35
52
28
42
49
38
32
43
28
58
Slide 59
nezavisne
skupine
4 skupine , ali 2 varijable:
vrijeme
organ
1 - želudac
2 - bronhiji
3 - kolon
4 - dojke
PDDS MOLBIO
59
Slide 60
organ
PDDS MOLBIO
vrijeme
1
11
:
:
1
10
2
9
:
:
2
16
3
16
:
:
3
17
4
35
:
:
4
28
60
Slide 61
Opisna statistika i ispitivanje normalnosti - MedCalc:
Statistics-> Summary statistics
za želudac:
Variable -> vrijeme
Select -> organ=1
Options -> Test for normal distribution
za bronhije:
Variable -> vrijeme
Select -> organ=2
Options -> Test for normal distribution
za kolon:
Variable -> vrijeme
Select -> organ=3
Options -> Test for normal distribution
za dojke:
Variable -> vrijeme
Select -> organ=4
Options -> Test for normal distribution
PDDS MOLBIO
61
Slide 62
PDDS MOLBIO
62
Slide 63
Test homogenosti varijanci - MedCalc:
- ver. 4.1 NEMA!!!!
Test homogenosti varijanci - SPSS:
Test of Homogeneity of Variances
vrijeme
Levene
Statistic
.410
PDDS MOLBIO
df1
df2
3
Sig.
60
.746
63
Slide 64
PDDS MOLBIO
64
Slide 65
najmanje jedna skupina značajno je različita od neke od
preostalih
PDDS MOLBIO
65
Slide 66
KORELACIJA
PDDS MOLBIO
66
Slide 67
KORELACIJA
veza
među obilježjima (varijablama)
obilježja koja “variraju zajedno”
KOEFICIJENT KORELACIJE
mjera stupnja povezanosti
PEARSONOV KOEFICIJENT KORELACIJE r
mjera stupnja linearne povezanosti dviju kvantitativnih
varijabli
PDDS MOLBIO
67
Slide 68
-1 r 1
nema povezanosti
r=0
stohastička povezanost
0
-1 < r < 0
funkcionalna povezanost
r=1
PDDS MOLBIO
r = -1
68
Slide 69
x, y ....nizovi vrijednosti varijabli čiju povezanost ocjenjujemo
POSTUPAK ZA OCJENU KORELACIJE
a) crtanje korelacionog dijagrama
b) ocjena postojanja povezanosti
c) u slučaju da postoji linearna povezanost, računamo
koeficijent korelacije r
N
z xi z yi
r
i1
N 1
zxi, zyi .... standardizirane vrijednosti pojedinačnih vrijednosti
varijabli x i y, tj.
yi y
xi x
z xi
PDDS MOLBIO
sx
z yi
sy
69
Slide 70
skraćeni postupak računanja r:
N
r
PDDS MOLBIO
1 N N
xiyi xi yi
N i 1 i 1
i 1
2
2
N
N
N
N
1
1
2
2
xi x i yi yi
N i 1 i 1
N i 1
i 1
70
Slide 71
ZNAČAJNOST KOEFICIJENTA KORELACIJE
testiramo je li r značajno različit od 0
test statistika
t r
slijedi t razdiobu uz
PDDS MOLBIO
N2
1 r
2
df = N - 2
71
Slide 72
ZADATAK 4
PDDS MOLBIO
72
Slide 73
Izmjerena je visina u centimetrima i vitalni kapacitet pluća (VC) u
litrama 33 studentice prve godine. Dobiveni su sljedeći rezultati:
Rbr.
Visina
VC
Rbr. Visina
VC
Rbr.
Visina
VC
1.
180.6
4.74
12.
155.0
2.20
23.
174.2
4.27
2.
168.0
3.63
13.
171.0
3.38
24.
167.0
3.45
3.
163.0
3.40
14.
171.5
3.82
25.
162.0
2.88
4.
171.0
3.75
15.
167.6
3.26
26.
172.0
4.13
5.
177.0
4.23
16.
160.2
2.63
27.
161.0
2.90
6.
169.4
3.20
17.
166.6
3.06
28.
155.0
2.65
7.
161.0
2.90
18.
167.0
3.52
29.
162.0
3.12
8.
170.0
3.88
19.
163.0
2.82
30.
174.0
4.02
9.
158.0
2.40
20.
172.0
3.41
31.
161.0
2.80
10.
161.0
2.60
21.
158.0
2.81
32.
166.0
3.46
11.
163.0
2.72
22.
165.0
3.07
33.
166.0
3.26
Ocijenite postoji li povezanost visine i vitalnog kapaciteta pluća
PDDS MOLBIO
73
Slide 74
Crtanje korelacionog dijagrama
(točkasti “scatter” grafikon)
MedCalc:
Statistics -> Correlation -> Scatter diagram
visina -> X os
VC -> Y os
PDDS MOLBIO
74
Slide 75
PDDS MOLBIO
75
Slide 76
Izračun koeficijenta korelacije - MedCalc:
Statistics -> Correlation -> Correlation coefficient
PDDS MOLBIO
76
Slide 77
PDDS MOLBIO
77
Slide 78
Interpretacija koeficijenta korelacije
statistička značajnost
ocjenjuje je li r značajno različit od 0
ovisi o veličini uzorka - za velike uzorke, mali r će
biti značajan
praktična značajnost
ocjenjuje se pomoću koeficijenta determinacije
koliki udio varijabilnosti je “zajednički”
PDDS MOLBIO
r2
78
Slide 79
Interpretacija koeficijenta korelacije
Najmanji
značajni r
(p<0.05)
r2
10
0.632
0.399
20
0.444
0.197
30
0.361
0.130
40
0.312
0.097
50
0.279
0.078
100
0.197
0.039
200
0.139
0.019
300
0.113
0.013
500
0.088
0.008
N
PDDS MOLBIO
79
Slide 80
VAŽNO:
Pearsonov koeficijent korelacije daje stupanj LINEARNE
povezanosti dviju varijabli!
25.0
Pearsonov r=0.079
20.0
15.0
10.0
5.0
0.0
150.0
PDDS MOLBIO
155.0
160.0
165.0
170.0
175.0
180.0
185.0
80
Slide 81
VAŽNO:
Korelacija daje povezanost, a ne UZROČNOST !
PDDS MOLBIO
81
Slide 82
VAŽNO:
Na koeficijent korelacije jako utječu ekstremne vrijednosti!
160.0
Pearsonov r=0.833
140.0
120.0
100.0
80.0
60.0
40.0
20.0
0.0
140.0
PDDS MOLBIO
160.0
180.0
200.0
220.0
240.0
260.0
280.0
300.0
82
Slide 83
160.0
140.0
Pearsonov r = -0.002
120.0
100.0
80.0
60.0
40.0
20.0
0.0
140.0
PDDS MOLBIO
160.0
180.0
200.0
220.0
240.0
260.0
280.0
300.0
83
Slide 84
SPEARMANOV KOEFICIJENT KORELACIJE r
- neparametrijski koeficijent korelacije
KADA?
• Dvije ordinalne varijable
• Jedna ili obje numeričke varijable nisu normalno
distribuirane
• Prisustvo ekstremnih vrijednosti
PDDS MOLBIO
84
Slide 85
LINEARNA REGRESIJA
- ako parovi varijabli pokazuju prisustvo korelacije, funkcionalnu
vezu prikazuje JEDNADŽBA REGRESIJE
REGRESIJA - prognoza iz jedne varijable u drugu
linearni slučaj - povezanost varijabli je linearna
- jednadžba regresije je jednadžba pravca oko
kojeg se grupiraju parovi
korelacionom dijagramu
PDDS MOLBIO
varijabli
u
85
Slide 86
y = a + bx
x ...
y ...
b ...
OPĆI OBLIK JEDNADŽBE
LINEARNE REGRESIJE
nezavisna varijabla (prediktorska)
zavisna varijabla (kriterijska)
koeficijent smjera
u realnoj situaciji:
PDDS MOLBIO
86
Slide 87
- jednadžba regresijskog pravca dobiva se METODOM
NAJMANJIH KVADRATA
y'i ... vrijednost na regresijskom pravcu koja odgovara xi
y i y' i 0
i
2
( y i y ' i ) m in
i
iz normalnih jednadžbi
N
N
i 1
i 1
y i Na b x i
N
N
N
i 1
i 1
i 1
2
xiyi a xi b xi
PDDS MOLBIO
87
Slide 88
N
b
1 N N
xiyi xi yi
N i 1 i1
i1
N
2
x
i
i1
N
1
xi
N i1
2
KOEFICIJENT
REGRESIJE
odsječak na ordinati
a ...
a y bx
- pravac regresije izražava "prosječni odnos" ("prosječnu vezu")
varijabli x i y
PDDS MOLBIO
88
Slide 89
Linearna regresija - MedCalc:
Statistics -> Regression -> Regression
PDDS MOLBIO
89
Slide 90
PDDS MOLBIO
90
Slide 91
86% varijabilnosti vitalnog kapaciteta pluća može se
objasniti visinom
Sample size
=
33
Coefficient of determination
=
0.8655
Residual standard deviation
=
0.2206
standardna devijacija reziduala (standardna pogreška
procjene)
PDDS MOLBIO
91
Slide 92
-- REGRESSION EQUATION -------------------------------------Y = -11.5374 + 0.0893 X
Parameter
Intercept
Slope
PDDS MOLBIO
Coefficient
-11.53739
0.08927
Std.Error
1.05028
0.00632
T-value
-10.9851
14.1213
P
0.0000
0.0000
92
Slide 93
b0
b1
-- REGRESSION EQUATION -------------------------------------Y = -11.5374 + 0.0893 X
Parameter
Intercept
Slope
Coefficient
-11.53739
0.08927
Std.Error
1.05028
0.00632
T-value
-10.9851
14.1213
P
0.0000
0.0000
vitalni kapacitet pluća=b0+b1 * Visina = 11.537+0.089 * Visina
VAŽNO:
Predviđanja se smiju raditi samo za vrijednosti iz postojećeg raspona
varijabli!
npr. za visinu 175,
vitalni kapacitet pluća= -11.537+0.089 x 175 = 4.04
PDDS MOLBIO
93
Slide 94
razlika SST-SSR; (SSM); predstavlja
poboljšanje u predviđanju zbog
korištenja regresijskog modela
suma kvadrata odstupanja od
vrijednosti predviđene
regresijskim pravcem (SSR)
-- ANALYSIS OF VARIANCE ------------------------------------Source
DF
Sum of Squares
Mean Square
Regression
1
9.7037
9.7037
Residual
31
1.5085
0.0487
F-Ratio = 199.4107
P = 0.000
SST - suma kvadrata odstupanja
od aritmetičke sredine
PDDS MOLBIO
regresijski model značajno
bolje predviđa zavisnu
varijablu od predviđanja
aritmetičkom sredinom
94