Transcript Aula 5
Noções de correlação X e Y são variáveis aleatórias quantitativas Gráfico de dispersão: deve ser feito antes da análise numérica dos dados. É construído com conjuntos de pontos formados por pares de valores (x,y). Pode indicar correlação linear positiva, negativa ou inexistência de correlação. Ex: X: coeficiente de mortalidade por câncer gástrico Y: consumo médio de sal Y correlação positiva X Aula 5 - Correlação linear, equação da reta 1 International Journal of Epidemiology, 1987. Vol. 16, No. 2 Correlation between High Salt Intake and Mortality Rates for Oesophageal and Gastric Cancers in Henan Province, China JIAN-BANG LU AND YU-MIN QIN Aula 5 - Correlação linear, equação da reta 2 Ex: X: Peso ao nascer (gramas) Y: Aumento de peso entre 70 e 100 dias, como percentual de X Y correlação negativa X X: coeficiente de mortalidade por câncer de colo de útero Y: consumo de sal Ex: Y correlação inexistente X Aula 5 - Correlação linear, equação da reta 3 Noções de correlação Coeficiente de correlação de Pearson ( ): Mede o grau de associação entre 2 variáveis quantitativas X e Y. Definição: onde, XY X Y XY é a covariância de X e Y (dispersão conjunta de X e Y) X é o desvio padrão de X (dispersão de X) Y é o desvio padrão de Y (dispersão de Y) Aula 5 - Correlação linear, equação da reta 4 Noções de correlação estimador (r) r _ _ x x y y i i _ 2 _ 2 x i x y i y Propriedades 1 1 não possui dimensão, isto é, não depende da unidade de medida das variáveis X e Y Aula 5 - Correlação linear, equação da reta 5 Noções de correlação Gráficos de dispersão para diferentes valores do coeficiente de correlação (rho). Aula 5 - Correlação linear, equação da reta 6 Noções de correlação Exemplo: Os dados a seguir são provenientes de um estudo que investiga a composição corporal e fornece o percentual de gordura corporal (%), idade e sexo para 18 adultos com idades entre 23 e 61 anos. Idade 23 23 27 27 39 41 45 49 50 % gordura 9,5 27,9 7,8 17,8 31,4 25,9 27,4 25,2 31,1 sexo M F M M F F M F F Idade 53 53 54 56 57 58 58 60 61 % gordura 34,7 42,0 29,1 32,5 30,3 33,0 33,8 41,1 34,5 sexo F F F F F F F F F M=masculino ; F= feminino Fonte: Hand DJ et al., 1994. Aula 5 - Correlação linear, equação da reta 7 Noções de correlação Dispersão entre % de gordura e idade 70 60 f f ff f f f idade 50 f f f f m f 40 30 m f m m f 20 5 10 15 20 25 gordura 30 35 40 45 Fonte: Hand DJ et al., 1994. Aula 5 - Correlação linear, equação da reta 8 Noções de correlação Dispersão entre % de gordura e idade 70 60 f f ff f f f idade 50 f f f f m f 40 30 m f m m f 20 5 10 15 20 25 gordura 30 35 40 45 Fonte: Hand DJ et al., 1994. Aula 5 - Correlação linear, equação da reta 9 Noções de correlação Dispersão entre % de gordura e idade 70 60 f f ff f f f idade 50 f f f f m f 40 30 m f m m f 20 5 10 15 20 25 gordura 30 35 40 45 Fonte: Hand DJ et al., 1994. Aula 5 - Correlação linear, equação da reta 10 Noções de correlação Cálculo do coeficiente de correlação de Pearson Sexo: masculino Idade % gordura ( y y ) ( x x ) ( x x )( y y ) ( y y ) 2 y 23 27 27 45 =30,5 9,5 7,8 17,8 27,4 x -7,5 -3,5 -3,5 14,5 =15,63 Coeficiente de correlação (x x)2 -6,13 -7,83 2,18 11,78 45,94 27,39 -7,61 170,74 56,25 12,25 12,25 210,25 37,52 61,23 4,73 138,65 Total 236,45 291,00 242,13 (idade,%gordura) masculino: Aula 5 - Correlação linear, equação da reta r 236,45 291x242,13 0,89 11 Noções de correlação Sexo: feminino Idade y 23 39 41 49 50 53 53 54 56 57 58 58 60 61 = 50,86 % gordura 27,9 31,4 25,9 25,2 31,1 34,7 42 29,1 32,5 30,3 33 33,8 41,1 34,5 x 32,32 Coeficiente de correlação ( y y ) ( x x ) ( x x )( y y ) -27,86 -11,86 -9,86 -1,86 -0,86 2,14 2,14 3,14 5,14 6,14 7,14 7,14 9,14 10,14 ( y y) 2 (x x)2 -4,42 -0,92 -6,42 -7,12 -1,22 2,38 9,68 -3,22 0,18 -2,02 0,68 1,48 8,78 2,18 123,17 10,93 63,30 13,23 1,05 5,10 20,74 -10,12 0,92 -12,42 4,85 10,56 80,26 22,10 776,02 140,59 97,16 3,45 0,73 4,59 4,59 9,88 26,45 37,73 51,02 51,02 83,59 102,88 19,55 0,85 41,23 50,71 1,49 5,66 93,67 10,38 0,03 4,09 0,46 2,19 77,06 4,75 Total 333,64 1389,71 312,12 (idade,%gordura) feminino: r Aula 5 - Correlação linear, equação da reta 333,64 1389,71x312,12 0,51 12 Coeficiente de correlação considerando o grupo todo (homens e mulheres) Idade (X) 23 27 27 45 23 39 41 49 50 53 53 54 56 57 58 58 60 61 % gordura (Y) 9,5 7,8 17,8 27,4 27,9 31,4 25,9 25,2 31,1 34,7 42 29,1 32,5 30,3 33 33,8 41,1 34,5 x 46,33 ; y 28,61 ; (x x) ( y y) ( x x )( y y ) (x x)2 ( y y) 2 -23,33 -19,33 -19,33 -1,33 -23,33 -7,33 -5,33 2,67 3,67 6,67 6,67 7,67 9,67 10,67 11,67 11,67 13,67 14,67 -19,11 -20,81 -10,81 -1,21 -0,71 2,79 -2,71 -3,41 2,49 6,09 13,39 0,49 3,89 1,69 4,39 5,19 12,49 5,89 Soma 445,93 402,35 209,01 1,61 16,59 -20,45 14,46 -9,10 9,13 40,59 89,26 3,75 37,59 18,01 51,20 60,54 170,68 86,37 1627,53 544,44 373,78 373,78 1,78 544,44 53,78 28,44 7,11 13,44 44,44 44,44 58,78 93,44 113,78 136,11 136,11 186,78 215,11 2970,00 365,23 433,10 116,88 1,47 0,51 7,78 7,35 11,64 6,19 37,07 179,26 0,24 15,12 2,85 19,26 26,92 155,97 34,68 1421,54 Sy ( y y) n 1 2 1421,54 9,14% ; S X 17 Aula 5 - Correlação linear, equação da reta (x x) n 1 2 2970,0 13,22anos 17 13 Noções de correlação Abaixo temos o peso (kg) e a altura (cm) de 30 meninas de 11 anos de idade atendidas na escola Heaton Midldlel em Bradford, Inglaterra. a) Fazer o diagrama de dispersão e investigue como é a relação entre as variáveis. b) Calcular o coeficiente de correlação de Pearson. Altura (cm) 135 146 153 154 139 131 149 137 Peso (kg) Altura (cm) 26 33 55 50 32 25 44 31 133 149 141 164 146 149 147 152 Peso (kg) 31 34 32 47 37 46 36 47 (x x)(y y) 1275; (x x) Altura (cm) 136 154 151 155 149 141 137 135 2 1716,80 ; Aula 5 - Correlação linear, equação da reta Peso (kg) 28 36 48 36 32 29 34 30 Altura (cm) 146 143 148 143 140 141 ( y y) 2 Peso (kg) 35 42 32 36 33 28 1718,17 14 Noções de correlação Os gráficos abaixo foram extraídos do artigo: Excesso de peso e gordura abdominal para a síndrome metabólica em nipo-brasileiros de LERARIO DG et al. (Rev. Saúde Pública, 2002;36(1):4-11). Interprete as figuras apresentadas no artigo. Aula 5 - Correlação linear, equação da reta 15 Análise simultânea de duas variáveis quantitativas REGRESSÃO LINEAR ADMITINDO-SE Y COMO FUNÇÃO LINEAR DE X, AJUSTA-SE A “MELHOR RETA” AO CONJUNTO DE DADOS. EQUAÇÃO DE RETA: yˆ x yˆ a bx , onde = valor ajustado (valor médio predito) = valor escolhido de X a y bx ; a é denominado intercepto; é o valor predito para x=0 b rxy sy sx ; b é denominado coeficiente angular (slope). Indica quantas unidades de Y mudam para a mudança de uma unidade de X. Aplicando-se aos dados do exemplo: a = 28,61 – b 46,33 ; b 0,79x 9,14 0,548 13,22 Aula 5 - Correlação linear, equação da reta 16 Para aumento de 1 ano, o percentual de gordura aumenta 0,55%. Substituindo-se o valor b em a, obtém-se a=3,221. Equação ajustada % gordura= 3,22 + 0,55 (idade) Com base nesta equação é possível traçar a reta que passa pelos pontos. Para x = 30; y = 19,7; para x = 50, y = 30,7 50 y = 0,55x + 3,22 % gordura 40 30 20 10 0 0 20 40 60 idade (anos) Aula 5 - Correlação linear, equação da reta 17 OBS: o coeficiente angular depende das unidades de medida de X e Y. Isto deve ser considerado na decisão da importância do coeficiente angular. O coeficiente angular da equação de Y=f(X) é diferente do coeficiente angular de X=f(Y), a menos que os desvios padrão de X e Y sejam iguais. Usos - da reta de regressão: Predição - utilizar X para predizer Y; quando a correlação for forte, melhor é a predição; Correlação – mede o grau de relacionamento linear entre X e Y; Resumir os dados – cada valor de X tem um valor médio de Y Exemplo: Em um estudo sobre o efeito dos componentes de uma dieta (X) sobre a composição lipídica (Y) foram obtidos os seguintes dados em uma amostra de 15 animais. Componente da dieta (X) 18 21 28 35 47 33 40 41 28 21 30 46 44 38 19 a) b) c) d) e) Composição lipídica (Y) 30 35 43 60 50 28 40 60 43 30 33 65 68 62 25 Apresente os dados em um diagrama de dispersão Calcule o coeficiente de correlação de Pearson entre X e Y. Calcule a reta de regressão da composição lipídica como função do componente da dieta. Desenhe a reta de regressão Interprete os coeficientes da reta de regressão Aula 5 - Correlação linear, equação da reta 18 80 y = 1,1788x + 6,3706 70 Composição lipídica (Y) 60 50 40 30 20 10 0 15 25 35 45 55 Componente da dieta (X) Dispersão e reta de regressão entre componentes de uma dieta (X) e composição lipídica (Y). Local X, ano Y Aula 5 - Correlação linear, equação da reta 19