CAP.14 - Controle Estatístico de Qualidade

Download Report

Transcript CAP.14 - Controle Estatístico de Qualidade

Capítulo 14. Regressão linear múltipla

14.1 Introdução 14.2 Comentários sobre as variáveis na equação de regressão.

14.3 Regressão múltipla em termos matriciais. 14.4 Os coeficientes de regressão como valores padronizados e percentagens 14.5 Suposições básicas que evitam viés no estimador do coeficiente e do seu desvio padrão 14.6 Comparando R 2 entre equações de tamanhos diferentes.

14.7 R 2 Ajustado.

14.8 ANOVA para testar a significância da equação inteira: teste F. 14.9 Teste de hipotese para os coeficientes individuais.

14.10 Variável binária e outras variáveis artificiais: tendência e sazonalidade

14.11 Exemplo com as variáveis binárias.

14.12 Multicolinearidade 14.13 Questões e exercícios. 14.14 Referências 1

Vamos apresentar a forma

14.1 Introdução

equação de regressão na seguinte estática, sem considerar o aspecto de tempo: Y = a + b 1 X 1 + b 2 X 2 + b 3 X 3 +... + eNID(0,σ e ) mais variáveis independentes podem ser colocadas se os graus de liberdade (número de dados observados – número de coeficientes estimados) não sofrem uma queda desproporcionada.

O erro deve ser

NID(0 ,σ e ),

os erros devem ser

distribuído Normalmente Independentes

(erros , e não devem ser auto correlacionados), com

padrão constante σ e .

média zero

e

desvio

2

14.2 Comentários sobre as variáveis na equação de regressão.

Quais tipos de variáveis podemos usar para Y e X? Y terá que ser uma variável

aleatória e contínua

. A variável Y não deve sofrer restrições sobre seus possíveis valores, mas sim tem potencial de assumir valores longe da média, 4 ou 5 desvios padrão da média em geral são suficientes. Esta característica vai garantir que

a distribuição de Y é simétrica,

um requisito estatístico da distribuição normal para assegurar

coeficientes não enviesados

, quer dizer, boas estimativas próximas aos valores existentes na grande população desconhecida. Os valores de X são praticamente

livres de restrições

, assumindo valores contínuos ou discretos. Os

números binários

0 e 1 serão utilizados para diferenciar qualidades não necessariamente mensuráveis como homem/mulher ou americano/iraquiano. Uma seqüência temporal (1,2,3,4...) podem refletir

tendência

nos dados ou algum tipo de

sazonalidade

. 3

14.3 Regressão múltipla em termos matriciais.

Y 1 Y 2 Y 3 = a + b 1 X 1,1 = a + b 1 X 2,1 = a + b 1 X 3 , 1 + b 2 X 1,2 + b 2 X 2,2 + b 2 X 3,2 ...

+ e 1 NID(0, σ e ) + e 2 NID(0, σ e ) + e 3 NID(0,σ e ) Y T = a + b 1 X T,1 ...

+ b 2 X T,2 + e T NID(0,σ e )

Y = Xb + e

  1    1 X 11  X T1 X 12 X  T2     ˆ

b

( X

X) -1 X

Y

4

1 2 3 4 5 6 7 8 9 10 11 12 Ensaio

Tabela 14.2 – Peso determinado por temperatura e composição química em 12 ensaios.

Resposta peso (Y) 67,1 64 44,3 45,1 69,8 58,5 46,3 44,1 74,5 60,7 49,1 47,6 Temperatura (temp 0 C) 100 110 120 130 100 110 120 130 100 110 120 130 Composição química % (CQ) 4 4 4 4 20 20 20 20 38 38 38 38 

( X

X) 1 X

Y

      156,61 0,89 0,086      peso = 156,61 - 0,89temp + 0,086CQ + e 5

Matriz de variância e covariância

var( )

s e

2

( X

X) -1

 151,253 -1,276 -14,865 -1,276 -14,865 0,011 -1,3E-15 -2,4E-15 71,930 6

14.4 Os coeficientes de regressão como valores padronizados e percentagens

• A vantagem de converter os coeficientes em

percentagens

ou

valores padronizados

é que o coeficiente deixa de ser dependente da unidade de medida. • Quando o coeficiente depende da unidade de medida das variáveis, a interpretação do coeficiente pode ficar mais difícil. No exemplo dos dados da

tabela 14.2

, peso medido em quilos ou libras altera o valor do coeficiente, dificultando a análise da força da relação. 7

Elasticidade (Elas

YX

)

A variação percentual de uma variável causada pela variação percentual em outra pode ser escrita assim, Elas YX  X Y o coeficiente estimado é multiplicado pela razão entre as médias. Com os dados apresentados na tabela 14.3, para o coeficiente de temperatura, a elasticidade é Elas YX = - 0,89*115/55,925 = -1,83.

Uma variação de temperatura de um por cento causa um declínio no peso de 1,83 por cento.

Até mesmo peso medido em libras ou onças e temperatura medida em graus Kelvin, a validade do coeficiente em percentagem continua.

8

Padronizar o coeficiente em termos de desvios padrão - coeficiente beta .

O coeficiente beta beta YX é definido assim,  b S S X Y O coeficiente estimado é multiplicado pela razão dos dois desvios padrão. Para o coeficiente de temperatura a conversão para desvio padrão leva beta YX = -0,89*11,677/11,109 = -0,936.

Se a temperatura variar em um desvio padrão, vai haver uma variação de 0,936 desvio padrão no peso. 9

Tabela 14.4 – Os coeficientes e as várias maneiras de calcular a força de relacionamento.

Média Interseção Temperatura Composição química Y = Peso 115 20,6 55,925 Desvio padrão 11,677 14,5 11,109 Coeficiente original 156,62 -0,89 elas YX -1,832 0,0859 0,0317 Coeficiente beta -0,936 0,112 10

14.5 Suposições básicas que evitam viés no estimador do coeficiente e do seu desvio padrão

Violações das suposições causam uma falha na representatividade dos estimadores no sentido de que valores estimados podem se desviar sistematicamente dos valores corretos. É necessário averiguar nos dados e nas relações entre dados a subordinação às suposições, e na presença de transgressões, as medidas cabíveis terão que ser tomadas. 1. Erro de regressão

não enviesado

. E(e) = 0 2.

Homocedasticidade

. E(e 2 ) = constante =  e 2 3.

Independência

. COV(e t ,e t-j ) = 0 4.

Normalidade.

e t  N(0,  e ).

1, 2, 3 e 4 Resumidas: e t = NID(0,

e 2 I)

5. cov(e t ,X) = 0. 6.

Multicolinearidade.

COV(X i ,X j ) = 0. 7.

Linearidade

. 11

14.6 Comparando R

2

entre equações de tamanhos diferentes.

• No contexto de regressão múltipla, esta medida (Coeficiente de determinação - R 2 .). se caracteriza por uma

grande desvantagem

especialmente quando utilizada para comparar uma equação contra outra: o valor de R 2 é diretamente relacionado ao número de variáveis na equação. • Quer dizer, cada vez que se acrescentam mais uma variável na equação, o valor de R

explicação de Y.

2 sempre aumenta,

mesmo se tratando de variáveis irrelevantes na

12

Comparando R

2

entre equações

Colocar duas equações para comparar, destacando o erro residual como função dos coeficientes. Nota-se que a primeira equação tem uma variável independente a mais X 2 : 1 a . equação: e(a, b 1 , b 2 ) = Y - a + b 1 X 1 + b 2 X 2 2 a . equação: e(a, b 1 ) = Y - a + b 1 X 1 Vamos mostrar que o erro da primeira equação é sempre menor que o erro da segunda equação (e portanto R 2 maior), até mesmo com qualquer variável X 2 ou não para explicar Y. relevante 13

Comparando R

2

entre equações

SQE(

aˆ , bˆ 1 , bˆ 2

) ≤ SQE(a, b

1

, 0)

Deve ser claro que a segunda SQE com b 2 = 0 é que pertence à segunda equação contando com uma variável a menos, (2 a . equação: e(a, b 1 ) = Y - a + b 1 X 1 ) e que será sempre maior que a primeira SQE otimizada. Conseqüentemente, será sempre o caso do coeficiente de determinação da primeira equação, R 2 ser maior que o coeficiente R 2 da segunda equação, R 2 (a, b 1 , 0), independentemente da relevância da nova variável X 2 14

14.7 R

2

Ajustado.

Vamos corrigir esta falha do R 2 e apresentar o R 2 ajustado. R 2 aj  SQT T  1  SQE SQT T  1  T  k  1 Onde (T –1) são graus de liberdade associados a SQT, e (T – k -1) são os graus de liberdade associados a SQE, onde k é o número de variáveis independentes.

R 2 aj  σ 2 Y t  σ 2 Y t σ 2 e t R 2 aj  S 2 Y t  S 2 Y t S 2 e t 15

σ e t

Tabela 14.5 –R 2 ajustado e a representatividade da equação de regressão, adaptada do Excel (2002). Tabela 14.2

R 2 R 2 aj Erro padrão Observações (n) temp e CQ 0,890 0,865 4,080 12 somente temp 0,877 0,865 4,086 12

R 2 aj

é constante entre as duas equações, indicando o efeito fraco ou não existente da variável composição química CQ. O resultado do

insustentável.

erro padrão

favorece a equação com duas variáveis (temp e CQ), mas o favorecimento é questionável, avaliando a pequena diferença entre as duas medidas.

A tomada de decisão baseada em evidencias tão fracas é

O pesquisador precisa investigar mais a situação e buscar conclusões contundentes. 16

14.8 ANOVA para testar a significância da equação inteira: teste F.

O mais básico teste de hipótese é um teste com a estatística F sobre todas as estimativas simultaneamente. Esse tópico foi tratado na seção 13.10 (Teste de hipótese da representatividade da equação como um todo, a estatística F). Y = a + b 1 X 1 + b 2 X 2 + b 3 X 3 + e As hipóteses nula e alternativa são: H 0 : b 1 = b 2 = b 3 = 0 H 1 : não há igualdade a zero F(k, T – k – 1) = (SQR/k) / (SQE/(T – k – 1) ) 17

Tabela 14.6 – ANOVA, Estatística F e valor p.

Regressão Erro Residual Total gl k = 2 SQ 1207,9 T-k-1=9 149,8 T – 1 = 11 1357,7 MQ 603,9 16,6 F 36,27 valor - p 4,93E-05 gl = grau de liberdade; SQ = Soma de Quadrados; MQ = Média de Quadrados O valor da

estatistica F é relativamente alto

igual a 36,27 (= 603,9/16,6) e

valor p

correspondente igual a 0,0000493, praticamente igual a zero.

Portanto, podemos

rejeitar a hipotese nula

e concluir que a equação de regressão tem elementos de relação significante entre a variavel resposta, peso, e pelo menos uma das composição química.

variáveis independentes, temperatura e 18

14.9 Teste de hipotese para os coeficientes individuais.

O teste de hipótese para a significância de coeficientes individuais foi visto na seção 13.12 (Teste de hipótese, o exemplo de coeficientes individuais de regressão) no contexto de regressão simples. O procedimento para regressão múltipla é idêntico. Vamos voltar ao exemplo dos dados da tabela 14.2. Foram calculadas as estatísticas da equação de regressão cujos coeficientes já foram apresentados: peso = 156,61 - 0,89temp+ 0,086CQ + e 19

Tabela 14.7 – Teste de hipótese para coeficientes individuais

Interseção Temperatura (temp) Composição química % (CQ) Coeficientes 156,615 -0,891 0,086 Erro padrão 12,299 0,105 0,085 estatística t 12,734 -8,457 1,013 valor-P 0,000 0,000 0,338 As estatísticas t para a interseção (a) e para a temperatura (temp) são altos e os valores-p correspondentes baixos que nos dois casos determina a rejeição da hipótese nula de coeficientes individuais iguais a zero.

Por outro lado, o valor-p relativamente alto associado ao coeficiente de composição química determina a aceitação da hipótese nula. A não significância da variável CQ já foi indicada pela análise de R 2 ajustado, e agora com a insignificância vindo da estatística t o resultado é comprovado .

mais uma vez.

20

14.10 Variável binária e outras variáveis artificiais: tendência e sazonalidade

A variável binária é criada artificialmente para ser utilizada em regressões de diferenciar aspectos qualitativos e não mensuráveis. Um exemplo é de diferenciar homens e mulheres. Y = a + dD + b 1 X 1 + b 2 X 2 + … + e t onde D é a binária, zero para homem e unidade para mulher. O coeficiente

d

modifica o intercepto. Quando analisando as mulheres, D será igual a unidade e o intercepto será igual a

(a + d),

e analisando os homens o intercepto será simplesmente

a

, pois D é zero para os homens. 21

Armadilha da variável binária.

Criar duas novas variáveis, uma para homem e outra para mulher, e segue então a mesma metodologia montando duas variáveis binárias. A equação é: Y = a + d 1 Dm + d 2 Dh + b 1 X 1 + b 2 X 2 + … + e t

X

  1   1    1 1 0  0 0 1  1 X X 21 X  11 T1      A primeira coluna de X é uma combinação linear da segunda e terceira. A condição é incompatível com o procedimento de mínimos quadrados.

O intercepto tem que ser eliminado da equação.

Assim, a armadilha da variável binária será resolvida. 22

O uso das de

Sazonalidade

variáveis sazonais resulta em uma equação regressão como a seguinte: Y = aDJAN + bDFEV + cDMAR +... + e com coeficientes estimados a, b, c, … cada coeficiente representando a sazonalidade do respectivo mês. A variável binária pode representar um

ano

ou os

dias da semana

, se for o caso, sendo sazonalidade definida como qualquer padrão repetitivo e constante no decorrer computacionais especializados para regressão, a criação de variáveis binárias é praticamente automática em da série temporal. Em muitos pacotes função do seu uso tão comum.

23

14.11 Exemplo com as variáveis binárias.

Vamos ver agora um exemplo prático da realidade de fábricas de confecções. A confecção necessita de uma previsão de demanda para seu item mais popular, um pijama para criança. A estação de venda dura 30 semanas todo ano. São disponíveis dados históricos de 2005 a 2008, esse último ano ainda incompleto. A previsão será montada com o suporte de uma regressão múltipla. Opta pela utilização de variáveis artificiais na equação, entre variáveis binárias para os anos e o número da semana da estação de 1 a 30. Veja os dados na tabela 14.9. 24

Tabela 14.10 – A matriz X de dados da regressão para as primeiras 9 semanas de 2005

vendas soma acumulada da estaçao V D2005 0 2.262

1.730

2.541

5.813

8.198

9.604

10.601

11.595

1 1 1 1 1 1 1 1 1 D2006 0 0 0 0 0 0 0 0 0 D2007 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 D2008 Número da semana S Número da semana S quadrado Número da semana S cúbico 1 2 3 4 5 8 9 6 7 1 4 9 16 25 36 49 64 81 1 8 27 64 125 216 343 512 729 25

A regressão múltipla

A equação de regressão múltipla terá 7 coeficientes para estimar, 4 coeficientes para as variáveis binárias representando os anos das estações e 3 coeficientes para captar tendências lineares e não-lineares na série, e terá o seguinte formato: Vendas = b 1 D2005 + b 2 D2006 + b 3 D2007 + b 4 D2008 + c 1 S + c 2 S 2 + c 3 S 3 + e Nota se a ausência do coeficiente a, a constante da equação. O coeficiente a foi eliminado da equação por causa do problema da armadilha da variável binária 26

Tabela 14.11 – Resultados preliminares da regressão da equação com todas as variáveis

R-Quadrado R-quadrado ajustado Erro padrão Observações 0,968 0,956 1478,549 104 Já é notável o tamanho do R 2 e o R 2 ajustado, quase igual a 1,0, indicando que o inicio desse processo já mostra fortes possibilidades de encontrar estimativas relevantes para o propósito de montar previsões para o final da estação do ano 2008. 27

Tabela 14.12 – Teste F

ANOVA Regressão Resíduo Total gl 7 97 104 SQ 6448079082 212052256 6660131338 MQ 921154155 2186106 F 421 valor-P 4,2E-69 28

Tabela 14.13 – Teste estatística t, coeficientes individuais, todas as variáveis inclusas

D2005 D2006 D2007 D2008 S Squad Scúb Coeficientes -6668,2 -501,6 -4623,8 -3921,3 2848,0 -94,25 0,96 Erro padrão 667,1 667,1 667,1 721,8 175,6 13,40 0,29 estatística t -10,00 -0,75 -6,93 -5,43 16,22 -7,04 3,33 Desde que o coeficiente de

D2006 não é significante

rejeitada, o pesquisador permite que a variável seja e, portanto a hipótese nula de coeficiente nulo não pode ser eliminada do modelo. valor-P 0,000 0,454 0,000 0,000 0,000 0,000 0,001 29

foi eliminada a variável D2006, e o valor da estatística F melhorou acompanhada pela melhoria no valor-p.

Tabela 14.14 – Teste F, D2006 excluída

ANOVA Regressão Resíduo Total gl 6 98 104 SQ 6,45E+09 2,13E+08 6,66E+09 MQ 1,07E+09 2176411 F 494 valor-P 2,38E-70 Foi eliminada a variável D2006, e o valor da estatística F melhorou acompanhada pela melhoria no valor-p.

30

Tabela 14.15 – Teste estatística t, coeficientes individuais, D2006 excluída

D2005 D2007 D2008 S Squad Scúb Coeficientes Erro padrão estatística t valor-P -6248,74 364,99 -17,12 0,00 -4204,37 -3519,15 364,99 483,59 -11,52 -7,28 0,00 0,00 2739,72 -87,10 0,82 100,21 9,41 0,22 27,34 -9,26 3,70 0,00 0,00 0,00 Vendas = - 6248,74*D2005 - 4204,37*D2007 - 3519,15*D2008 + 2739,72*S - 87,10*S 2 + 0,82*S 3 31

Tabela 14.16 – Previsões das vendas na segunda metade da estação de 2008

Ano 2008 2008 2008 2008 2008 2008 2008 2008 2008 2008 2008 2008 2008 2008 2008 2008 Semana 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 vendas soma acumulada da estação 20760 21394 21933 22381 22744 23027 23235 23372 23444 23455 23411 23316 23175 22994 22777 22529 32

14.12 Multicolinearidade

Na seção 14.5 sobre as suposições básicas, foi colocado a suposição numero 6 de

multicolinearidade

. Não é permitido relacionamento entre duas ou mais variáveis independentes:

cov(X i ,X j ) = 0

. O resultado para a análise de regressão da presença de correlação entre variaveis independentes são

erros padrão dos coeficientes enviesados com valores altos demais, e portanto a indicação de coeficientes nulos quando na realidade sao significantes e não nulos.

33

Multicolinearidade solução

As vezes a multicoliniaeridade existe entre variaveis mas ainda nao é um problema nos procedimentos de regressao, principalmente quando as variaveis e os seus coeficientes sao significantes pela estatistica t.

A significancia dos coeficientes significa que a multicolinearidade embora existente foi superada pela força da relação entre as variaveis.

Por outro lado, multicolinearidade se torna problematica quando a equação é muito fraca, por exemplo quando nao passa pelo teste da estatistica F, ou quando quase todas as variaveis e seus coeficientes sao insignificantes. Nesses casos, correlação entre as variaveis independentes e se tiver valores altos, então ele deve é obrigado calcular os coeficientes de

eliminar algumas variaveis

ou trabalhar com

índices de combinações das variaveis similhantes

.

34

14.14 Referências

• Paulino, C. D.; Singer, J.M. (2006). Análise de Dados Categorizados . 1. ed. São Paulo: Edgard Blücher, v. 1. 629 p.

• • Souza, G.P. Samohyl, R.W., Miranda, R.G. (2008) Métodos Simplificados de Previsão Empresarial, 192 páginas, 1aª edição, Editora Ciência Moderna.

35