2. - Katedra za medicinsku informatiku

Download Report

Transcript 2. - Katedra za medicinsku informatiku

Slide 1

Analiza brojčanih podataka, korelacija i
regresija

dr.sc. Vesna Ilakovac, znanstveni suradnik
Katedra za biofiziku, medicinsku statistiku i medicinsku informatiku
Medicinski fakultet Osijek
PDDS MOLBIO

1


Slide 2

TESTIRANJE RAZLIKA
 razlike mjerenja neke varijable na dvije ili više skupina
ispitanika -> nezavisni uzorci

 razlike dva ili više mjerenja neke varijable na istoj skupini
ispitanika ->zavisni uzorci

PDDS MOLBIO

2


Slide 3

Priprema podataka
1. jedinica promatranja (ispitanik, preparat, pokusna
životinja, organ ....)
2. varijable:
 vrsta varijable (numerička, kategorička)
 ljestvica mjerenja (nominalna, ordinalna, intervalna,
omjerna)
 za numeričke varijable, broj decimalnih mjesta

PDDS MOLBIO

3


Slide 4

Upis podataka

 numerički podatci
– onako kako su izmjereni
 kategorički podatci
– klasificirati u logičke, isključive skupine
(prema problemu)

PDDS MOLBIO

4


Slide 5

Unos podataka
VARIJABLE

spol

dob

težina

......

bolesnik1

JEDINICE

PROMATRANJA

bolesnik2
bolesnik3

.
.

PDDS MOLBIO

5


Slide 6

Unos podataka o mjerenjima
na nezavisnim skupinama


nezavisne skupine = različiti ispitanici
(ispitanici koji pripadaju nekoj skupini ne pripadaju
niti jednoj od preostalih skupina)



za unos podataka o nekom mjerenju na nezavisnim
skupinama ispitanika UVIJEK imamo 2 varijable
(bez obzira koliko je skupina ispitanika):
1. varijabla koja određuje pripadnost ispitanika
pojedinoj skupini

2. varijabla u koju unosimo vrijednost mjerenja za
danog ispitanika
PDDS MOLBIO

6


Slide 7

Unos podataka o mjerenjima
na nezavisnim skupinama
 npr.

mjerenje dobi; skupine po spolu
- broj mogućih skupina: 2

varijabla koja sadrži
vrijednost mjerenja

PDDS MOLBIO

varijabla koja definira
pripadnost skupini

Dob

Spol

ispitanik1

35

M

ispitanik2

37

M

ispitanik3

32

M

ispitanik4

33

Z

......

7


Slide 8

Unos podataka o mjerenjima
na nezavisnim skupinama
 npr.

mjerenje visine; skupine po razredu (osnovna škola)
- broj mogućih skupina: 8

varijabla koja sadrži
vrijednost mjerenja

PDDS MOLBIO

varijabla koja definira
pripadnost skupini

Visina

Razred

ispitanik1

110

2

ispitanik2

140

2

ispitanik3

100

1

ispitanik4

176

7

......

8


Slide 9

Unos podataka o mjerenjima
na zavisnim skupinama


zavisne skupine = ponavljana mjerenja na ISTIM ispitanicima



SVAKO mjerenje = JEDNA varijabla

koliko mjerenja toliko varijabli

PDDS MOLBIO

9


Slide 10

Unos podataka o mjerenjima
na zavisnim skupinama
 npr.

praćenje dnevnih varijacija sistoličkog tlaka; mjerenja
u 6h, 10h, 14h, 18h, 22h
po jedna varijabla za svako mjerenje

ST6

ST10

ST14

ST18

ST22

ispitanik1

120

135

140

180

160

ispitanik2

115

120

120

125

120

ispitanik3

140

145

150

150

180

ispitanik4

118

110

110

115

120

PDDS MOLBIO

10


Slide 11

STUDENTOV T-TEST
(t-test za nezavisne uzorke)

PDDS MOLBIO

11


Slide 12

za što se koristi:
 testiranje razlike između dvije nezavisne skupine
ispitanika

pod kojim uvjetima:
 varijabla koju testiramo mjerena je najmanje
intervalnom skalom
 varijabla koju testiramo ima normalnu razdiobu u
promatranim skupinama
 varijance mjerenja varijable koju testiramo u
promatranim skupinama su slične (homogenost
varijanci)
PDDS MOLBIO

12


Slide 13

test statistika:
t

( x A  x B )  ( A   B )
SE ( x A  x B )

SE ( xA  xB ) 

2

s zaj 

PDDS MOLBIO

ima Studentovu (t) razdiobu
s nA+nB-2 stupnja slobode

2 
s zaj 

1

 nA

standardna pogreška razlike
aritmetičkih sredina

1 


nB

2

2

( n A  1)s A  ( n B  1)s B
( n A  1)  ( n B  1)

zajednička varijanca

13


Slide 14

test homogenosti varijanci (F-test):

2

F 

sA
2

sB

ima F razdiobu
s nA-1, nB-1 stupnjeva slobode

ako koristimo tablice:
- tablice za F sadrže obično samo desnu stranu distribucije
 u brojnik stavljamo veću varijancu

PDDS MOLBIO

14


Slide 15

ZADATAK 1

PDDS MOLBIO

15


Slide 16

Ispitivan je utjecaj sniženja tjelesne temperature na
protrombinsko vrijeme. Izvršena su mjerenja PV na dvije

skupine ispitanika. U jednoj skupini bilo je 16 ispitanika
normalne temperature (kontrolna skupina). U drugoj
skupini bilo je 14 ispitanika sa sniženom temperaturom
(pokusna skupina).

PDDS MOLBIO

16


Slide 17

Mjerenjem su dobiveni sljedeći rezultati (u sekundama):

Kontrolna skupina (370C)
7
8
9
6
8
10
8
12
9
11
10
8
9
7
7
8
PDDS MOLBIO

Pokusna skupina (150C)
8
6
8
9
10
12
11
8
7
8
8
9
9
9
17


Slide 18

 nezavisne

skupine
2 varijable:
protrombinsko vrijeme
skupina
1 – kontrolna skupina
2 – pokusna skupina

PDDS MOLBIO

18


Slide 19

PDDS MOLBIO

pvrijeme

skupina

7

1

8

1

9

1

:

:

7

1

7

1

8

1

8

2

6

2

8

2

:

:

9

2

9

2

9

2
19


Slide 20

Opis varijabli
protrombinsko vrijeme:
– numerička varijabla, omjerna ljestvica
skupina:
– kategorička varijabla, nominalna ljestvica
 ispitati

mjere sredine i raspršenja za PV u
svakoj skupini
 ispitati normalnost raspodjele PV u svakoj
skupini

PDDS MOLBIO

20


Slide 21

Opisna statistika i ispitivanje normalnosti - MedCalc:
Statistics-> Summary statistics
za kontrolnu skupinu:
Variable -> pvrijeme
Select -> skupina=1
Options -> Test for normal distribution
za pokusnu skupinu:
Variable -> pvrijeme
Select -> skupina=2
Options -> Test for normal distribution

PDDS MOLBIO

21


Slide 22

PDDS MOLBIO

22


Slide 23

PDDS MOLBIO

23


Slide 24

PDDS MOLBIO

24


Slide 25

PDDS MOLBIO

25


Slide 26

Homogenost varijanci - MedCalc:
- preko usporedbe standardnih devijacija:
Tests-> Comparison of... -> standard deviations (F-test)

PDDS MOLBIO

26


Slide 27

Homogenost varijanci - MedCalc:

PDDS MOLBIO

27


Slide 28

Studentov t-test - MedCalc:
Statistics-> T tests

PDDS MOLBIO

28


Slide 29

> 0.05
=> ne odbacujemo H0

PDDS MOLBIO

29


Slide 30

ŠTO AKO NISU ZADOVOLJENI UVJETI ?
Mann-Whitney-Wilcoxon test
(Mann-Whitney U test)
MedCalc:
Statistics-> Wilcoxon tests

PDDS MOLBIO

30


Slide 31

PDDS MOLBIO

31


Slide 32

T-TEST DIFERENCIJA
(t-test za zavisne uzorke)

PDDS MOLBIO

32


Slide 33

za što se koristi:
 testiranje razlike između dvije zavisne skupine
ispitanika (ponavljana mjerenja na istim ispitanicima)

pod kojim uvjetima:
 razlike parova vrijednosti mjerene su najmanje
intervalnom skalom
 razlike parova vrijednosti imaju normalnu razdiobu

PDDS MOLBIO

33


Slide 34

test statistika:
t

d  ( A   B )

ima Studentovu (t) razdiobu
s n-1 stupnjeva slobode

2

sd
n

d  xA  xB


sd 
2

PDDS MOLBIO

(d i  d )

i

n1

srednja razlika
2

varijanca razlike

34


Slide 35

ZADATAK 2

PDDS MOLBIO

35


Slide 36

Ispitivan je utjecaj alkohola na vrijeme reakcije vozača.
Izvršeno je mjerenje vremena reakcije 14 vozača na
standardne zadatke prije i nakon konzumacije određene
količine alkohola.

PDDS MOLBIO

36


Slide 37

Mjerenjem su dobiveni slijedeći rezultati:
prije

nakon

1

0.68

0.73

2

0.64

0.66

3

0.68

0.66

4

0.82

0.92

5

0.58

0.68

6

0.80

0.87

7

0.72

0.77

8

0.65

0.70

9

0.84

0.88

10

0.73

0.79

11

0.63

0.68

12

0.72

0.68

13

0.68

0.75

14

0.69

0.78

PDDS MOLBIO

37


Slide 38

 zavisne

skupine
2 varijable:
prije
nakon

PDDS MOLBIO

38


Slide 39

PDDS MOLBIO

prije

nakon

0.68

0.73

0.64

0.66

0.68

0.66

0.82

0.92

0.58

0.68

0.80

0.87

0.72

0.77

0.65

0.70

0.84

0.88

0.73

0.79

0.63

0.68

0.72

0.68

0.68

0.75

0.69

0.78
39


Slide 40

Opis varijabli
prije, nakon:
– numeričke, omjerna ljestvica
za obje varijable:
ispitati mjere sredine i raspršenja
kreirati novu varijablu prije-nakon:
ispitati normalnost

PDDS MOLBIO

40


Slide 41

Opisna statistika i ispitivanje normalnosti - MedCalc:
Statistics-> Summary statistics
prije:

Variable -> prije
poslije:
Variable -> poslije
razlika:
Variable-> razlika
Options -> Test for normal distribution

PDDS MOLBIO

41


Slide 42

PDDS MOLBIO

42


Slide 43

PDDS MOLBIO

43


Slide 44

PDDS MOLBIO

44


Slide 45

PDDS MOLBIO

45


Slide 46

T-test diferencija - MedCalc:
Statistics-> T tests

PDDS MOLBIO

46


Slide 47

razlika < 0 i p < 0.05 => vrijeme reakcije vozača nakon
konzumacije te količine alkohola značajno je dulje nego prije
konzumacije te količine alkohola
PDDS MOLBIO

47


Slide 48

ŠTO AKO NISU ZADOVOLJENI UVJETI ?
Wilcoxonov test
MedCalc:
Statistics-> Wilcoxon tests

PDDS MOLBIO

48


Slide 49

PDDS MOLBIO

49


Slide 50

JEDNOSMJERNA ANALIZA VARIJANCE
(One-way ANOVA)

PDDS MOLBIO

50


Slide 51

za što se koristi:
 testiranje razlike između tri i više skupina

faktor
 kategorička varijabla prema kojoj su definirane skupine

jednosmjerna analiza varijance
 analiza varijance s jednim faktorom

PDDS MOLBIO

51


Slide 52

 postupak u kojem donosimo dvije procjene varijance za
promatrane grupe (model):
– procjenu koja odražava varijabilitet između grupa
– procjenu koja odražava varijabilitet unutar grupa

OSNOVNA IDEJA:
 utvrditi je li varijabilitet između grupa veći od varijabiliteta
unutar grupa

PDDS MOLBIO

52


Slide 53

VARIJABILITET IZMEĐU
GRUPA VEĆI JE OD
VARIJABILITETA UNUTAR
GRUPA

VARIJABILITET UNUTAR
GRUPA VEĆI JE OD
VARIJABILITETA IZMEĐU
GRUPA

PDDS MOLBIO

53


Slide 54

pretpostavke:
 varijabla koju testiramo mjerena je najmanje
intervalnom skalom
 varijabla koju testiramo ima normalnu razdiobu u
promatranim skupinama
 varijance mjerenja varijable koju testiramo u
promatranim skupinama su slične (homogenost
varijanci)

PDDS MOLBIO

54


Slide 55

test statistika:
procjena koja odražava
varijabilitet IZMEĐU grupa

MS tretman
F
MS pogreška
procjena koja odražava
varijabilitet UNUTAR grupa

- F ima F razdiobu s k-1, N-k stupnjeva slobode

PDDS MOLBIO

55


Slide 56

ZADATAK

PDDS MOLBIO

3

56


Slide 57

Bolesnici s uznapredovalim stadijem raka želuca,
bronhija, kolona i dojke tretirani su novim lijekom. Svrha
istraživanja je utvrditi je li preživljavanje bolesnika
povezano sa zahvaćenim organom. Vrijeme
preživljavanja (u mjesecima) dano je u tablici:

PDDS MOLBIO

57


Slide 58

Ž e lu d a c
11
8
9
7
20
11
33
12
10
19
12
18
20
18
17
10
PDDS MOLBIO

B ro n h iji
9
21
4
21
16
13
8
8
12
29
12
13
6
15
12
8
16

K o lo n
16
19
14
8
13
23
23
21
20
19
31
28
19
13
10
4
17

D o jk e
35
45
40
34
46
35
52
28
42
49
38
32
43
28

58


Slide 59

 nezavisne

skupine
4 skupine , ali 2 varijable:
vrijeme
organ
1 - želudac
2 - bronhiji
3 - kolon
4 - dojke

PDDS MOLBIO

59


Slide 60

organ

PDDS MOLBIO

vrijeme

1

11

:

:

1

10

2

9

:

:

2

16

3

16

:

:

3

17

4

35

:

:

4

28

60


Slide 61

Opisna statistika i ispitivanje normalnosti - MedCalc:
Statistics-> Summary statistics
za želudac:
Variable -> vrijeme
Select -> organ=1
Options -> Test for normal distribution
za bronhije:
Variable -> vrijeme
Select -> organ=2
Options -> Test for normal distribution
za kolon:
Variable -> vrijeme
Select -> organ=3
Options -> Test for normal distribution
za dojke:
Variable -> vrijeme
Select -> organ=4
Options -> Test for normal distribution

PDDS MOLBIO

61


Slide 62

PDDS MOLBIO

62


Slide 63

Test homogenosti varijanci - MedCalc:
- ver. 4.1 NEMA!!!!

Test homogenosti varijanci - SPSS:

Test of Homogeneity of Variances
vrijeme
Levene
Statistic
.410

PDDS MOLBIO

df1

df2
3

Sig.
60

.746
63


Slide 64

PDDS MOLBIO

64


Slide 65

najmanje jedna skupina značajno je različita od neke od
preostalih
PDDS MOLBIO

65


Slide 66

KORELACIJA

PDDS MOLBIO

66


Slide 67

KORELACIJA
 veza

među obilježjima (varijablama)
 obilježja koja “variraju zajedno”
KOEFICIJENT KORELACIJE
 mjera stupnja povezanosti
PEARSONOV KOEFICIJENT KORELACIJE r
 mjera stupnja linearne povezanosti dviju kvantitativnih
varijabli

PDDS MOLBIO

67


Slide 68

-1  r  1
nema povezanosti
r=0

stohastička povezanost

0
-1 < r < 0

funkcionalna povezanost
r=1
PDDS MOLBIO

r = -1
68


Slide 69

x, y ....nizovi vrijednosti varijabli čiju povezanost ocjenjujemo
POSTUPAK ZA OCJENU KORELACIJE
a) crtanje korelacionog dijagrama
b) ocjena postojanja povezanosti
c) u slučaju da postoji linearna povezanost, računamo
koeficijent korelacije r
N

 z xi z yi

r

i1

N 1

zxi, zyi .... standardizirane vrijednosti pojedinačnih vrijednosti
varijabli x i y, tj.
yi  y
xi  x
z xi 

PDDS MOLBIO

sx

z yi 

sy
69


Slide 70

skraćeni postupak računanja r:
N

r

PDDS MOLBIO

1  N  N 
 xiyi    xi  yi
N  i 1   i 1 
i 1
2 
2
N
N
N
N
1 
1 


2
2
  xi    x i    yi    yi  
N  i 1    i 1
N  i 1  
 i  1



70


Slide 71

ZNAČAJNOST KOEFICIJENTA KORELACIJE
testiramo je li r značajno različit od 0
 test statistika


t r

slijedi t razdiobu uz

PDDS MOLBIO

N2
1 r

2

df = N - 2

71


Slide 72

ZADATAK 4

PDDS MOLBIO

72


Slide 73

Izmjerena je visina u centimetrima i vitalni kapacitet pluća (VC) u
litrama 33 studentice prve godine. Dobiveni su sljedeći rezultati:
Rbr.

Visina

VC

Rbr. Visina

VC

Rbr.

Visina

VC

1.

180.6

4.74

12.

155.0

2.20

23.

174.2

4.27

2.

168.0

3.63

13.

171.0

3.38

24.

167.0

3.45

3.

163.0

3.40

14.

171.5

3.82

25.

162.0

2.88

4.

171.0

3.75

15.

167.6

3.26

26.

172.0

4.13

5.

177.0

4.23

16.

160.2

2.63

27.

161.0

2.90

6.

169.4

3.20

17.

166.6

3.06

28.

155.0

2.65

7.

161.0

2.90

18.

167.0

3.52

29.

162.0

3.12

8.

170.0

3.88

19.

163.0

2.82

30.

174.0

4.02

9.

158.0

2.40

20.

172.0

3.41

31.

161.0

2.80

10.

161.0

2.60

21.

158.0

2.81

32.

166.0

3.46

11.

163.0

2.72

22.

165.0

3.07

33.

166.0

3.26

Ocijenite postoji li povezanost visine i vitalnog kapaciteta pluća
PDDS MOLBIO

73


Slide 74

Crtanje korelacionog dijagrama
(točkasti “scatter” grafikon)
MedCalc:
Statistics -> Correlation -> Scatter diagram
visina -> X os
VC -> Y os

PDDS MOLBIO

74


Slide 75

PDDS MOLBIO

75


Slide 76

Izračun koeficijenta korelacije - MedCalc:
Statistics -> Correlation -> Correlation coefficient

PDDS MOLBIO

76


Slide 77

PDDS MOLBIO

77


Slide 78

Interpretacija koeficijenta korelacije
statistička značajnost
ocjenjuje je li r značajno različit od 0
 ovisi o veličini uzorka - za velike uzorke, mali r će
biti značajan


praktična značajnost


ocjenjuje se pomoću koeficijenta determinacije



koliki udio varijabilnosti je “zajednički”

PDDS MOLBIO

r2

78


Slide 79

Interpretacija koeficijenta korelacije
Najmanji
značajni r
(p<0.05)

r2

10

0.632

0.399

20

0.444

0.197

30

0.361

0.130

40

0.312

0.097

50

0.279

0.078

100

0.197

0.039

200

0.139

0.019

300

0.113

0.013

500

0.088

0.008

N

PDDS MOLBIO

79


Slide 80

VAŽNO:
Pearsonov koeficijent korelacije daje stupanj LINEARNE
povezanosti dviju varijabli!
25.0

Pearsonov r=0.079
20.0

15.0

10.0

5.0

0.0
150.0
PDDS MOLBIO

155.0

160.0

165.0

170.0

175.0

180.0

185.0

80


Slide 81

VAŽNO:
Korelacija daje povezanost, a ne UZROČNOST !

PDDS MOLBIO

81


Slide 82

VAŽNO:
Na koeficijent korelacije jako utječu ekstremne vrijednosti!
160.0

Pearsonov r=0.833

140.0
120.0
100.0
80.0
60.0
40.0
20.0
0.0
140.0
PDDS MOLBIO

160.0

180.0

200.0

220.0

240.0

260.0

280.0

300.0

82


Slide 83

160.0
140.0

Pearsonov r = -0.002

120.0
100.0
80.0
60.0
40.0
20.0
0.0
140.0

PDDS MOLBIO

160.0

180.0

200.0

220.0

240.0

260.0

280.0

300.0

83


Slide 84

SPEARMANOV KOEFICIJENT KORELACIJE r

- neparametrijski koeficijent korelacije

KADA?
• Dvije ordinalne varijable
• Jedna ili obje numeričke varijable nisu normalno
distribuirane

• Prisustvo ekstremnih vrijednosti

PDDS MOLBIO

84


Slide 85

LINEARNA REGRESIJA
- ako parovi varijabli pokazuju prisustvo korelacije, funkcionalnu
vezu prikazuje JEDNADŽBA REGRESIJE

REGRESIJA - prognoza iz jedne varijable u drugu

linearni slučaj - povezanost varijabli je linearna
- jednadžba regresije je jednadžba pravca oko
kojeg se grupiraju parovi
korelacionom dijagramu

PDDS MOLBIO

varijabli

u

85


Slide 86

y = a + bx
x ...
y ...
b ...

OPĆI OBLIK JEDNADŽBE
LINEARNE REGRESIJE

nezavisna varijabla (prediktorska)
zavisna varijabla (kriterijska)
koeficijent smjera

u realnoj situaciji:

PDDS MOLBIO

86


Slide 87

- jednadžba regresijskog pravca dobiva se METODOM
NAJMANJIH KVADRATA
y'i ... vrijednost na regresijskom pravcu koja odgovara xi
 y i  y' i  0
i

2

 ( y i  y ' i )  m in
i

iz normalnih jednadžbi
N

N

i 1

i 1

 y i  Na  b  x i
N

N

N

i 1

i 1

i 1

2
 xiyi  a  xi  b  xi

PDDS MOLBIO

87


Slide 88

N

b

1  N  N 
 xiyi    xi  yi
N  i 1   i1 
i1
N

2
x
 i
i1

N

1

   xi
N  i1 

2

KOEFICIJENT
REGRESIJE

odsječak na ordinati

a ...

a  y  bx

- pravac regresije izražava "prosječni odnos" ("prosječnu vezu")
varijabli x i y

PDDS MOLBIO

88


Slide 89

Linearna regresija - MedCalc:
Statistics -> Regression -> Regression

PDDS MOLBIO

89


Slide 90

PDDS MOLBIO

90


Slide 91

86% varijabilnosti vitalnog kapaciteta pluća može se
objasniti visinom

Sample size

=

33

Coefficient of determination

=

0.8655

Residual standard deviation

=

0.2206

standardna devijacija reziduala (standardna pogreška
procjene)
PDDS MOLBIO

91


Slide 92

-- REGRESSION EQUATION -------------------------------------Y = -11.5374 + 0.0893 X
Parameter
Intercept
Slope

PDDS MOLBIO

Coefficient
-11.53739
0.08927

Std.Error
1.05028
0.00632

T-value
-10.9851
14.1213

P
0.0000
0.0000

92


Slide 93

b0

b1

-- REGRESSION EQUATION -------------------------------------Y = -11.5374 + 0.0893 X
Parameter
Intercept
Slope

Coefficient
-11.53739
0.08927

Std.Error
1.05028
0.00632

T-value
-10.9851
14.1213

P
0.0000
0.0000

vitalni kapacitet pluća=b0+b1 * Visina = 11.537+0.089 * Visina
VAŽNO:
Predviđanja se smiju raditi samo za vrijednosti iz postojećeg raspona
varijabli!

npr. za visinu 175,
vitalni kapacitet pluća= -11.537+0.089 x 175 = 4.04
PDDS MOLBIO

93


Slide 94

razlika SST-SSR; (SSM); predstavlja
poboljšanje u predviđanju zbog
korištenja regresijskog modela

suma kvadrata odstupanja od
vrijednosti predviđene
regresijskim pravcem (SSR)

-- ANALYSIS OF VARIANCE ------------------------------------Source
DF
Sum of Squares
Mean Square
Regression
1
9.7037
9.7037
Residual
31
1.5085
0.0487
F-Ratio = 199.4107

P = 0.000

SST - suma kvadrata odstupanja
od aritmetičke sredine

PDDS MOLBIO

regresijski model značajno
bolje predviđa zavisnu
varijablu od predviđanja
aritmetičkom sredinom
94