Aula 7 - FMRP/USP

Download Report

Transcript Aula 7 - FMRP/USP

Nas relações entre 2 duas variáveis vimos as situações referentes à relação
entre uma var. quantitativa (lembre que as qualitativas ordinais acabam
comportando-se como quantitativas discretas) e um categórica (qualquer
tipo de variável pode ser categorizada)  Testes t (independentes e
pareados) e ANOVA e seus similares não-paramétricos.
Abordaremos doravante a situação referente a duas vars. quantitativas,
através do coeficiente de correlação e da análise de regressão.
Nota: Na literatura distingue-se a associação (vars. categóricas
da correlação (vars. numéricas).
Coeficiente de correlação de Pearson (r): É uma medida
(coeficiente) do grau de relação linear entre duas variáveis “quantitativas”.
O coeficiente de correlação varia de -1 a 1,
sendo que valores negativos indicam uma relação inversamente proporcional entre as vars., à medida que os valores de uma var. crescem os da outra
decrescem.
Exemplo: Mortalidade infantil X Percentual de mães com pré-natal.
Valores positivos do coeficiente indicam uma relação diretamente
proporcional entre as vars., à medida que os valores de uma var. crescem
os da outra também crescem.
Exemplo: Peso X Altura
Valores próximos a 0 (negativos ou positivos)indicam uma relação de
independência entre as vars. o fato dos valores de uma var. aumentarem
ou diminuírem não exerce influência sobre a outra var.
Exemplo: Nota na prova X Altura.
O 1o. passo quando estudamos duas variáveis quantitativas é construirmos um gráfico conhecido por Diagrama de Dispersão (Scatterplot), que
é simplesmente colocar uma var. no eixo X e outra no eixo Y
Na fig. Ao lado temos exemplos de uma
cor. positiva perfeita (a), de uma cor.
negativa perfeita (b),de uma independência
perfeita (c) e de uma situação em que r
não é a estatística mais apropriada,
quando a relação entre as vars. não é linear
A suposição envolvida no cálculo de r é
que as vars. tenham distribuição Normal,
logo necessário testá-las.
A estimação de r dá-se através da seguinte fórmula:
“Interpretações de r”: (em módulo)
r entre 0 e 0.20 : Cor. fraquíssima, independência
r entre 0.21 e 0.35: Cor. de fraca a razoável
r entre 0.35 a 0.50: Cor. de razoável a boa
r entre 0.50 a 0.70: Cor. boa
r acima de 0.70: Cor. ótima
Entretanto atenção na utilização destas interpretações, cada estudo tem
suas características, o que pode ser um valor de r baixo para determinado
contexto pode ser considerado ótimo em outra situação.
Ao coeficiente de correlação esta associado um teste de hipótese, que
testa se o r calculado é ou não diferente de 0. Então H0 : r = 0 X H1: r  0.
A estatística
segue uma distribuição t com n-2 g.l.
Portanto devo observar duas coisas: 1) A magnitude da correlação, i. é,
o valor de r; 2) Se r é ou não significativo (p  0.05). Depende do N
Desejo coeficientes ao menos razoáveis e significativos.
r pode ser calculado tanto para amostras independentes como pareadas.
Quero verificar se há relação entre entre
a nota da prova e as horas de estudo,
sabendo ambas normais. Vamos em
‘Graph’, depois em ‘Scatterplot”.
Nesta tela faço a opção pelo gráfico do tipo
Simple e OK.
Aloco minha var. nota em Y e horas
em X, e OK
O diagrama de dispersão já da uma
boa noção que minhas vars. têm uma
correlação (positiva), vamos então
quantificá-la.
Vamos em ‘Basic statistics’ e daí em
‘Correlations’.
Seleciono as duas variáveis e deixo
ativa a célula “Display p-values”.
e OK.
No output tenho o valor do meu coeficiente de correlação linear de
Pearson = 0.70, alto, e o p- value, demonstrando ser r significativamente
diferente de 0.
E quando uma ou as duas vars. não tem distribuição Normal ?
Coeficiente de correlação não-paramétrico de Spearman ou Kendall.
O Minitab não calcula Spearman diretamente, para isto temos que realizar
o seguinte procedimento:
Tenho as vars X e Y, vou em ‘Manip’ e daí em
‘Rank’, este módulo atribuirá os ranks relativos a cada
observação em uma nova variável (coluna).
Aloco a var. X em ‘Rank
data in:’ e específico a coluna em que desejo armazenar os dados em ‘Store
ranks in’ (C9). Faço o
mesmo para Y em C10
Agora com minhas ‘novas’ vars. C9
e C10 eu efetuo uma correlação de
Pearson como anteriormente
Apesar da
Correlations: C9; C10
saída fazer
Pearson correlation of
referência ao
C9 and C10 = 0,705
P-Value = 0,000
coeficiente
de Pearson realizamos o de Spearman
ATENÇÃO: O coeficiente de correlação mede o grau de
correlação entre duas vars, mas absolutamente não significa que
necessariamente haja uma relação de causa-efeito entre as vars.
Quando encontramos uma correlação que se demonstra importante para
o nosso estudo, normalmente desejamos extrair mais informações a
respeito da relação entre as vars. , tais como estimar um modelo (equação
matemática) que a represente, realizar predições, etc.
Um modo de avançarmos mais nesta análise é realizarmos uma Análise
de Regressão.
Quando realizo uma regressão linear quero estimar uma função linear
( f(Y) = a + bX) que represente a relação entre duas vars. Então primeiro
preciso definir quem será a var. independente (X), a que “tentará”
explicar a var. dependente (Y).
Portanto desejo estimar a reta que melhor
represente a relação entre as vars. X e Y,
ou em outra palavras, o modelo linear (reta)
que exprima a reação de Y conforme X varia
Suposições para a realização da análise de regressão:
1) Cada observação das variáveis X e Y são independentes uma das outras
2) É necessário homocedasticidade das variâncias de Y para cada valor X
Suposição
contornável
3)IMPORTANTE: As vars. não precisam ter dist. Normal, mas o erro
Então na reta Y = a +bX necessito estimar ‘a’ (B0) conhecido por
coeficiente linear ou intercepto e ‘b’(B1) conhecido por coeficiente
angular(slope) através do método dos mínimos quadrados.
O método dos mínimos
quadrados garante que
a reta ajustada tem a
propriedade que a soma
das distâncias dos pontos
(erros ou resíduos) à reta
ajustada é a menor possível.
O método mostra que b é estimado através da seguinte fórmula:
Com a estimativa do slope (B1) posso estimar ‘a’ (B0) através da
fórmula:
No Minitab, Stats, ‘Regression’ e
‘Regression’
Na tela do Regression, aloco a var.Y
a dependente, a que eu desejo que sejá
explicada em “Response”; e a var.X, a
independente, a que vai explicar,
a preditora, que vai predizer, em
“Predictors”. Vou também ativar os módulos
“Graphs” e “Results”
Em Graphs deixo ‘Regular’
e marco “Residuals vs fits”
Em Results marco a 2a. opção
Interpretando a saída temos em (1)
a reta ajustada, em (2) as estimativas
dos parâmetros, seu erro padrão e
um teste para a sua significância *,
demonstrando que ambos são
significativos, depois temos a
estatística R2** e finalmente em
(3) um tabela de ANOVA
equivalente à já estudada
* O teste de hipótese associado ao p-value é H0: estimativa do slope = 0
X H1 Estimativa do slope (b ou B1)  0.
Para que a regressão faça sentido, i é, o ajuste seja significativo é
necessário REJEITAR H0, o slope têm de ser diferente de 0, senão, se
for = 0 temos uma reta como da fig. abaixo.
Neste caso para qualquer valor
de X, a reta me fornecerá o
mesmo valor de Y, logo não faz
sentido este ajuste, não me serve
para nada.
** A estatística R2 indica o quanto da variação de Y está sendo ‘explicada
pela variação de X em percentual. No nosso caso 47% da variação de Y é
explicada por X.
O slope de 2,52 pode ser interpretado como que a cada aumento de 1
unidade de X equivale a um aumento de 2,5 unidades de Y em média.
O gráfico que pedimos no módulo
Graphs é conhecido por Gráfico dos
Resíduos e “mostra” a distância de
cada ponto estimado do ponto
observado. É importante que eles
estejam aleatoriamente distribuídos
em torno do 0 (linha tracejada) pois
indica que o nosso ajuste não tem
tendências.
Um gráfico de resíduos como o ao
lado indica que o ajuste quadrático
é o mais indicado. Y =a + bX + cX2.
Para cada gráfico de resíduos que
foge da aleatoriedade há um motivo
e correções no modelo são
necessárias.
Existe uma exceção quanto à independência dos valores das vars. X e Y é
quando a var. X refere-se ao tempo e são realizadas medidas repetidas
nas mesmas unidades amostrais ao longo do tempo, por exemplo,
verifico se o volume do rim das gestantes aumenta ao longo do tempo,
então observo o volume das mesmas gestantes ao longo de várias
semanas gestacionais, ou o desempenho de atletas no tempo conforme os
treinamentos vão ocorrendo.
Semana Vol
8
15
8
14
12
20
Mesma observação, mesma unidade amostral
12
22
16
25
16
22
Lembre-se sempre de verificar o diagrama de dispersão para ver se
é mesmo a reta o melhor ajuste, do mesmo modo pode-se ajustar
modelos quadráticos, exponenciais, logísticos, ...
Tudo o que foi visto referia-se a uma relação linear entre as duas variáveis,
porém nem sempre a relação entre 2 vars. é linear, ela pode seguir outro pa
drão: quadrática, cúbica, exponencial, etc...
Quadrático: Y = a + bX + cX²
Exponencial: Y = e↑(a + bX)
No Minitab vamos em ´Regression´ depois
em “Fitted Line Plot.”
Nesta tela colocamos na var. resposta (dependente) a var. consumo, e na
var. preditora (independente) a var.
temperatura. O interesse é verificar
como o consumo de energia de uma
máquina varia, depende, da temperatura.
Inicialmente testamos um modelo linear, para isso basta clicar em ´Linear´
no “Type of Regression Model”. E OK.
No output dos resultados temos um No output gráfico temos a reta ajustaR² = 0% e um p = 0.67, portanto o da, onde fica claro que o modelo lineajuste linear não é adequado.
ar não é indicado para esta relação.
Fazendo a opção pelo modelo quadrático
temos:
No output de resultados temos a equação
estimada (Consumo = 128,7 – 13,1*Tem
+ 0.328*Temp²), o R² = 73,4% , um p
= 0.004 demonstrando que o ajuste quadrático foi bastante significativo.
No output gráfico verificamos que
o ajuste quadrático realmente é
bastante representativo da relação
entre consumo e tempo.
Fazendo a opção pelo modelo cúbico temos:
No output temos a equação estimada, o
R² = 84.0% , e o “p“ do modelo (0.003)
demonstrando ser o mesmo significativo.
Abaixo temos o gráfico do modelo cúbico
estimado.
Observe que no último quadro da tela
de resultados, temos uma tabela com
probabilidades para o linear (0.67), o
quadrático (0.001), e o cúbico (0.055),
com base nesta tabela escolhemos o
modelo quadrático como modelo final.
O ganho do R² do cúbico para o quadrático ( de 73,4% para 84%,0) é pouco p/ justificar a inclusão de um elemento a mais na equação.
Normalmente, quando temos dois modelos visando esclarecer uma relação
entre duas vars., se não há um ganho considerável de R² e de “p” opta-se
pelo modelo mais simples, aquele que possuir menos ´elementos´na sua
forma, na sua equação.
Como visto anteriormente, podemos estar interessados em analisar o efeito
de mais de uma variável independente sobre a var. dependente.Multivariad
Tudo o que foi dito anteriormente sobre análise multivariada na aula de
Anova é válido aqui,a diferença é que nossas vars. independentes são vars.
numéricas ou qualitativas ordinais, quando não categorizadas.
Nesta situação também pode-se testar a interação, mas é menos usual do
que quando temos vars. categorizadas.
Deseja-se estudar a influência das
vars. idade, e9 e e10 sobre a variável
Etotal. No módulo da “Regression”
alocamos as variáveis independentes
em “Predictors” e a dependente em
“Response”. E OK.
No output temos a equação estimada:
Etot = 22.2 + 0.27*Idade + 1.66*e9 +
2.01*e10.
Temos uma tabela da Anova para o modelo completo (p < 0.001); o teste de hipótese a que se refere o p-value é que
pelo menos um dos coeficientes das vars
preditoras é significativamente diferente
de 0.
Na tabela do meio temos as estimativas dos coeficientes de cada variável,
seus respectivos erros padrões e um teste de significância para cada coeficiente. Temos ainda um R² = 41.1%
Podemos notar que a var. Idade não está contribuindo para o modelo, logo
podemos realizar uma nova análise retirando a Idade do rol de vars. predito
ras.
Basta ir no módulo regressão e retirar Idade a variável Idade e
executar novamente.
No novo output temos a nova equação
sem Idade. Observe que o modelo continuou bastante significativo (p do modelo total < 0.001); o R² não sofreu alteração, o que demonstra que Idade
realmente não acrescentava nada na
´explicação’ de Etotal
Na tabela do meio verificamos que as vars. que permaneceram no modelo
têm todas p-value significativos, ou seja, contribuem para o modelo, portanto encerro minha análise com um modelo onde todas as vars. são significativas.
Etotal = 27,9 +1.67*e9 + 2.01*e10.
Tal qual na Análise de Variância, podemos ter a situação em que há muitas
variáveis independentes.
Pode-se verificar o coef. de correlação de cada uma das vars. independentes com a var. independente e selecionarmos aquelas que apresentarem um
valor do coef. de correlação acima de um determinado valor ou aquelas que
forem significativas.
Após a seleção das vars. que comporão o modelo inicial pode-se realizar o
procedimento anteriormente visto de, passo a passo, ir excluindo-se as vars.
que não forem significativas ( p ≤ 0.05).
Passo a passo = Stepwise . Procedimento também fornecido pelo Minitab
Neste tipo de análise também é possível verificar a interação entre duas ou
vars. independentes, mas não é muito comum encontrarmos. A interação
significativa aqui, como na Anova, indica que a relação entre uma var. dependente e a var. independente varia conforme os valores da outra var. dep.
Na regressão multivariada pode ocorrer um problema chamado:
MULTICOLINEARIDADE: Quando há um forte correlação(r > 0,60) entre duas ou mais das variáveis independentes
Problemas com as estimativas e p-values. Solução é excluir uma (ou mais) das vars. da análise.