Transcript Aula 5

Noções de correlação
X e Y são variáveis aleatórias quantitativas
Gráfico de dispersão: deve ser feito antes da análise numérica dos dados.
É construído com conjuntos de pontos formados por pares de valores (x,y). Pode
indicar correlação linear positiva, negativa ou inexistência de correlação.
Ex: X: coeficiente de mortalidade por câncer gástrico
Y: consumo médio de sal
Y
correlação positiva
X
Aula 5 - Correlação linear,
equação da reta
1
International Journal of Epidemiology, 1987. Vol. 16, No. 2
Correlation between High Salt Intake and Mortality Rates for Oesophageal and Gastric Cancers in Henan Province, China
JIAN-BANG LU AND YU-MIN QIN
Aula 5 - Correlação linear,
equação da reta
2
Ex:
X: Peso ao nascer (gramas)
Y: Aumento de peso entre 70 e 100 dias, como percentual de X
Y
correlação negativa
X
X: coeficiente de mortalidade por câncer de colo de útero
Y: consumo de sal
Ex:
Y
correlação inexistente
X
Aula 5 - Correlação linear,
equação da reta
3
Noções de correlação
Coeficiente de correlação de Pearson (  ): Mede o grau de associação entre 2
variáveis quantitativas X e Y.
Definição:
onde,
 XY

 X Y
 XY é a covariância de X e Y (dispersão conjunta de X e Y)
 X é o desvio padrão de X (dispersão de X)
 Y é o desvio padrão de Y (dispersão de Y)
Aula 5 - Correlação linear,
equação da reta
4
Noções de correlação
estimador (r)
r
_
_



x

x
y

y
  i  i 
_ 2
_ 2
 



  x i  x    y i  y  


 
 
Propriedades
 1    1

não possui dimensão, isto é, não depende da unidade de medida das variáveis X e Y
Aula 5 - Correlação linear,
equação da reta
5
Noções de correlação
Gráficos de dispersão para diferentes valores do coeficiente de correlação  (rho).
Aula 5 - Correlação linear,
equação da reta
6
Noções de correlação
Exemplo:
Os dados a seguir são provenientes de um estudo que investiga a composição
corporal e fornece o percentual de gordura corporal (%), idade e sexo para 18
adultos com idades entre 23 e 61 anos.
Idade
23
23
27
27
39
41
45
49
50
% gordura
9,5
27,9
7,8
17,8
31,4
25,9
27,4
25,2
31,1
sexo
M
F
M
M
F
F
M
F
F
Idade
53
53
54
56
57
58
58
60
61
% gordura
34,7
42,0
29,1
32,5
30,3
33,0
33,8
41,1
34,5
sexo
F
F
F
F
F
F
F
F
F
M=masculino ; F= feminino
Fonte: Hand DJ et al., 1994.
Aula 5 - Correlação linear,
equação da reta
7
Noções de correlação
Dispersão entre % de gordura e idade
70
60
f
f ff f
f
f
idade
50
f
f
f
f
m
f
40
30
m
f
m
m
f
20
5
10
15
20
25
gordura
30
35
40
45
Fonte: Hand DJ et al., 1994.
Aula 5 - Correlação linear,
equação da reta
8
Noções de correlação
Dispersão entre % de gordura e idade
70
60
f
f ff f
f
f
idade
50
f
f
f
f
m
f
40
30
m
f
m
m
f
20
5
10
15
20
25
gordura
30
35
40
45
Fonte: Hand DJ et al., 1994.
Aula 5 - Correlação linear,
equação da reta
9
Noções de correlação
Dispersão entre % de gordura e idade
70
60
f
f ff f
f
f
idade
50
f
f
f
f
m
f
40
30
m
f
m
m
f
20
5
10
15
20
25
gordura
30
35
40
45
Fonte: Hand DJ et al., 1994.
Aula 5 - Correlação linear,
equação da reta
10
Noções de correlação
Cálculo do coeficiente de correlação de Pearson
Sexo: masculino
Idade
% gordura
( y  y ) ( x  x ) ( x  x )( y  y ) ( y  y ) 2
y
23
27
27
45
=30,5
9,5
7,8
17,8
27,4
x
-7,5
-3,5
-3,5
14,5
=15,63
Coeficiente de correlação
(x  x)2
-6,13
-7,83
2,18
11,78
45,94
27,39
-7,61
170,74
56,25
12,25
12,25
210,25
37,52
61,23
4,73
138,65
Total
236,45
291,00
242,13
(idade,%gordura) masculino:
Aula 5 - Correlação linear,
equação da reta
r
236,45
291x242,13
 0,89
11
Noções de correlação
Sexo: feminino
Idade
y
23
39
41
49
50
53
53
54
56
57
58
58
60
61
= 50,86
% gordura
27,9
31,4
25,9
25,2
31,1
34,7
42
29,1
32,5
30,3
33
33,8
41,1
34,5
x
32,32
Coeficiente de correlação
( y  y ) ( x  x ) ( x  x )( y  y )
-27,86
-11,86
-9,86
-1,86
-0,86
2,14
2,14
3,14
5,14
6,14
7,14
7,14
9,14
10,14
( y  y) 2
(x  x)2
-4,42
-0,92
-6,42
-7,12
-1,22
2,38
9,68
-3,22
0,18
-2,02
0,68
1,48
8,78
2,18
123,17
10,93
63,30
13,23
1,05
5,10
20,74
-10,12
0,92
-12,42
4,85
10,56
80,26
22,10
776,02
140,59
97,16
3,45
0,73
4,59
4,59
9,88
26,45
37,73
51,02
51,02
83,59
102,88
19,55
0,85
41,23
50,71
1,49
5,66
93,67
10,38
0,03
4,09
0,46
2,19
77,06
4,75
Total
333,64
1389,71
312,12
(idade,%gordura) feminino:
r
Aula 5 - Correlação linear,
equação da reta
333,64
1389,71x312,12
 0,51
12
Coeficiente de correlação considerando o grupo todo (homens e mulheres)
Idade
(X)
23
27
27
45
23
39
41
49
50
53
53
54
56
57
58
58
60
61
% gordura
(Y)
9,5
7,8
17,8
27,4
27,9
31,4
25,9
25,2
31,1
34,7
42
29,1
32,5
30,3
33
33,8
41,1
34,5
x  46,33 ; y  28,61 ;
(x  x)
( y  y)
( x  x )( y  y )
(x  x)2
( y  y) 2
-23,33
-19,33
-19,33
-1,33
-23,33
-7,33
-5,33
2,67
3,67
6,67
6,67
7,67
9,67
10,67
11,67
11,67
13,67
14,67
-19,11
-20,81
-10,81
-1,21
-0,71
2,79
-2,71
-3,41
2,49
6,09
13,39
0,49
3,89
1,69
4,39
5,19
12,49
5,89
Soma
445,93
402,35
209,01
1,61
16,59
-20,45
14,46
-9,10
9,13
40,59
89,26
3,75
37,59
18,01
51,20
60,54
170,68
86,37
1627,53
544,44
373,78
373,78
1,78
544,44
53,78
28,44
7,11
13,44
44,44
44,44
58,78
93,44
113,78
136,11
136,11
186,78
215,11
2970,00
365,23
433,10
116,88
1,47
0,51
7,78
7,35
11,64
6,19
37,07
179,26
0,24
15,12
2,85
19,26
26,92
155,97
34,68
1421,54
Sy 
 ( y  y)
n 1
2
1421,54

 9,14% ; S X 
17
Aula 5 - Correlação linear,
equação da reta
(x  x)
n 1
2

2970,0
 13,22anos
17
13
Noções de correlação
Abaixo temos o peso (kg) e a altura (cm) de 30 meninas de 11 anos de idade
atendidas na escola Heaton Midldlel em Bradford, Inglaterra.
a) Fazer o diagrama de dispersão e investigue como é a relação entre as
variáveis.
b) Calcular o coeficiente de correlação de Pearson.
Altura
(cm)
135
146
153
154
139
131
149
137
Peso (kg)
Altura (cm)
26
33
55
50
32
25
44
31
133
149
141
164
146
149
147
152
Peso
(kg)
31
34
32
47
37
46
36
47
(x  x)(y  y)  1275; (x  x)
Altura
(cm)
136
154
151
155
149
141
137
135
2
 1716,80 ;
Aula 5 - Correlação linear,
equação da reta
Peso
(kg)
28
36
48
36
32
29
34
30
Altura
(cm)
146
143
148
143
140
141
( y  y)
2
Peso (kg)
35
42
32
36
33
28
 1718,17
14
Noções de correlação
Os gráficos abaixo foram extraídos do artigo: Excesso de peso e gordura
abdominal para a síndrome metabólica em nipo-brasileiros de LERARIO DG et
al. (Rev. Saúde Pública, 2002;36(1):4-11). Interprete as figuras apresentadas
no artigo.
Aula 5 - Correlação linear,
equação da reta
15
Análise simultânea de duas variáveis quantitativas
REGRESSÃO LINEAR
ADMITINDO-SE Y COMO FUNÇÃO LINEAR DE X, AJUSTA-SE A “MELHOR RETA” AO
CONJUNTO DE DADOS.
EQUAÇÃO DE RETA:
yˆ
x
yˆ  a  bx , onde
= valor ajustado (valor médio predito)
= valor escolhido de X
a  y  bx ; a é denominado intercepto; é o valor predito para x=0
b  rxy
sy
sx
; b é denominado coeficiente angular (slope). Indica quantas unidades de Y
mudam para a mudança de uma unidade de X.
Aplicando-se aos dados do exemplo:
a = 28,61 – b 46,33 ;
b  0,79x
9,14
 0,548
13,22
Aula 5 - Correlação linear,
equação da reta
16
Para aumento de 1 ano, o percentual de gordura aumenta 0,55%.
Substituindo-se o valor b em a, obtém-se a=3,221.
Equação ajustada
% gordura= 3,22 + 0,55 (idade)
Com base nesta equação é possível traçar a reta que passa pelos pontos.
Para x = 30; y = 19,7; para x = 50, y = 30,7
50
y = 0,55x + 3,22
% gordura
40
30
20
10
0
0
20
40
60
idade (anos)
Aula 5 - Correlação linear,
equação da reta
17
OBS: o coeficiente angular depende das unidades de medida de X e Y. Isto deve ser
considerado na decisão da importância do coeficiente angular.
O coeficiente angular da equação de Y=f(X) é diferente do coeficiente angular de X=f(Y), a
menos que os desvios padrão de X e Y sejam iguais.
Usos
-
da reta de regressão:
Predição - utilizar X para predizer Y; quando a correlação for forte, melhor é a predição;
Correlação – mede o grau de relacionamento linear entre X e Y;
Resumir os dados – cada valor de X tem um valor médio de Y
Exemplo:
Em um estudo sobre o efeito dos componentes de uma dieta (X) sobre a composição lipídica (Y)
foram obtidos os seguintes dados em uma amostra de 15 animais.
Componente da dieta (X)
18
21
28
35
47
33
40
41
28
21
30
46
44
38
19
a)
b)
c)
d)
e)
Composição lipídica (Y)
30
35
43
60
50
28
40
60
43
30
33
65
68
62
25
Apresente os dados em um diagrama de dispersão
Calcule o coeficiente de correlação de Pearson entre X e Y.
Calcule a reta de regressão da composição lipídica como função do componente da dieta.
Desenhe a reta de regressão
Interprete os coeficientes da reta de regressão
Aula 5 - Correlação linear,
equação da reta
18
80
y = 1,1788x + 6,3706
70
Composição lipídica (Y)
60
50
40
30
20
10
0
15
25
35
45
55
Componente da dieta (X)
Dispersão e reta de regressão entre componentes de uma dieta (X) e
composição lipídica (Y). Local X, ano Y
Aula 5 - Correlação linear,
equação da reta
19