Q-Q plots  Construídos a partir das distribuições marginais de cada componente      do vetor p-variado. São de fato um gráfico do quantil amostral.

Download Report

Transcript Q-Q plots  Construídos a partir das distribuições marginais de cada componente      do vetor p-variado. São de fato um gráfico do quantil amostral.

Q-Q plots
 Construídos a partir das distribuições marginais de cada componente





do vetor p-variado.
São de fato um gráfico do quantil amostral versus quantil esperado sob
normalidade (podem ser usados para validar outras distribuições
diferentes da normal).
Quando a configuração de pontos no gráfico se aproxima de uma reta, a
suposição de normalidade é sustentável.
A normalidade é suspeita se houver pontos que se desviam do
comportamento linear.
A forma como os pontos se desviam do comportamento linear pode
fornecer pistas sobre a natureza da não normalidade das observações.
Conhecida a razão da não normalidade dos dados, ações corretivas
podem ser tomadas (transformações visando normalizar os dados ou
uso de técnicas para dados não normais).
PASSOS NA CONSTRUÇÃO DO Q-Q plot
 Ordenar os n valores da j-ésima componente do vetor
aleatório. Seja x(1)  x(2)  ...  x(n) as observações
x(i )
ordenadas.
Os
‘s são os quantis amostrais
(i=1,2,...,n).
 Quando todos os quantis amostrais são distintos entre
si, então exatamente i observações são menores ou
iguais a x(i ) ' s.
 A proporção i/n da amostra à esquerda de x(i) é
frequentemente aproximada para (i-0,5)/n por
conveniência analítica.
PASSOS NA CONSTRUÇÃO DO Q-Q plot
 Para uma distribuição normal padrão, podemos obter
os quantis q(i) tais que P(Z≤ q(i))=(i-0,5)/n.
 A idéia será olhar os pontos (q(i),x(i)) com a mesma
probabilidade acumulada (i-0,5)/n.
 Se os dados, de fato, provêm de uma normal, os pares
serão aproximadamente linearmente relacionados,
pois o quantil esperado sob normalidade é
aproximadamente σ q(i)+μ, com σ representando o
desvio-padrão e μ a média da distribuição.
Usando o R para a construção do Q-Q plot
 No R temos a função ppoints(n,0.5) que gera o vetor de
valores (i-0,5)/n, para i variando de 1 a n.
 Para gerar os quantis esperados sob normalidade
usaremos a função qnorm(p), que retorna o quantil
cuja probabilidade acumulada é p. (Quando não
especificamos nada além de p, o R retorna quantis da
N(0,1)).
 A função usada para ordenar um vetor de números no
R é a função sort(x).
Avaliação da normalidade das distribuições
marginais
 Uma medida quantitativa para auxiliar na avaliação do
Q-Q plot é calcular a correlação rQ entre os quantis
esperados e o vetor observado ordenado.
 A hipótese de normalidade é rejeitada ao nível de
significância α se rQ obtido for menor que um valor
apropriado.
 Por exemplo, ao nível de significância de 5% amostras
de tamanho 50, a hipótese deve ser rejeitada se rQ for
inferiro a 0,9768.
Transformações de normalização
 Se a suposição de normalidade dos dados não é plausível, que
estratégia adotar?
 1) Usar técnicas estatísticas apropriadas para dados não-normais,
após verificar a distribuição plausível para os dados (Poisson,
Gamma,etc.)
 2) Transformar os dados para uma nova escala, sob a qual a
suposição de normalidade é plausível.
 Aqui, somente trataremos da transformação, pois técnicas a
serem estudadas a seguir são voltadas para dados normais.
Transformações úteis
Escala original
Escala transformada
Contagens (y)
y
Proporções ( p
ˆ)
Correlações (r)
1  pˆ 

logit( pˆ )  log
2  1  pˆ 
Fisher
z (r ) 
1 1 r 
log

2  1 r 
Transformações de normalização
 Em muitas situações a escolha para melhorar a
aproximação normal não é óbvia. Para tais casos é
conveniente deixar que os dados mostrem uma
transformação. Uma família útil de transformações
para esse propósito é a família de transformações de
potências : xλ.
 As transformações de potência só estão definidas para
variáveis positivas. Porém, isso não é tão restritivo
quanto parece, porque uma única constante pode ser
adicionada a cada observação no conjunto de dados se
alguns dos valores observados forem negativos.
Transformações de normalização
 Box e Cox consideraram a seguinte família de
transformações de potência modificada:
x ( )
 x 1

   ,  0
 ln  ,   0
que é contínua em λ para x>0.
Dada a amostra, escolhe-se λ de modo a maximizar:
n
n  1 n ( )
( ) 2 
l ( )   ln   ( x j  x )   (  1) ln xi
2  n i 1
i 1

Transformações de normalização
 Observação: A transformação obtida geralmente melhora
a aproximação à normalidade.
 Porém, não há garantias de que mesmo a melhor escolha de
λ produzirá um conjunto de dados transformados que seja
adequado à suposição de normalidade.
 Os resultados obtidos por uma transformação selecionada
de acordo com esse procedimento devem ser
cuidadosamente examinados para possíveis violações da
suposição de normalidade.
 Essa recomendação de fato vale para qualquer
transformação usada.