Q-Q plots Construídos a partir das distribuições marginais de cada componente do vetor p-variado. São de fato um gráfico do quantil amostral.
Download
Report
Transcript Q-Q plots Construídos a partir das distribuições marginais de cada componente do vetor p-variado. São de fato um gráfico do quantil amostral.
Q-Q plots
Construídos a partir das distribuições marginais de cada componente
do vetor p-variado.
São de fato um gráfico do quantil amostral versus quantil esperado sob
normalidade (podem ser usados para validar outras distribuições
diferentes da normal).
Quando a configuração de pontos no gráfico se aproxima de uma reta, a
suposição de normalidade é sustentável.
A normalidade é suspeita se houver pontos que se desviam do
comportamento linear.
A forma como os pontos se desviam do comportamento linear pode
fornecer pistas sobre a natureza da não normalidade das observações.
Conhecida a razão da não normalidade dos dados, ações corretivas
podem ser tomadas (transformações visando normalizar os dados ou
uso de técnicas para dados não normais).
PASSOS NA CONSTRUÇÃO DO Q-Q plot
Ordenar os n valores da j-ésima componente do vetor
aleatório. Seja x(1) x(2) ... x(n) as observações
x(i )
ordenadas.
Os
‘s são os quantis amostrais
(i=1,2,...,n).
Quando todos os quantis amostrais são distintos entre
si, então exatamente i observações são menores ou
iguais a x(i ) ' s.
A proporção i/n da amostra à esquerda de x(i) é
frequentemente aproximada para (i-0,5)/n por
conveniência analítica.
PASSOS NA CONSTRUÇÃO DO Q-Q plot
Para uma distribuição normal padrão, podemos obter
os quantis q(i) tais que P(Z≤ q(i))=(i-0,5)/n.
A idéia será olhar os pontos (q(i),x(i)) com a mesma
probabilidade acumulada (i-0,5)/n.
Se os dados, de fato, provêm de uma normal, os pares
serão aproximadamente linearmente relacionados,
pois o quantil esperado sob normalidade é
aproximadamente σ q(i)+μ, com σ representando o
desvio-padrão e μ a média da distribuição.
Usando o R para a construção do Q-Q plot
No R temos a função ppoints(n,0.5) que gera o vetor de
valores (i-0,5)/n, para i variando de 1 a n.
Para gerar os quantis esperados sob normalidade
usaremos a função qnorm(p), que retorna o quantil
cuja probabilidade acumulada é p. (Quando não
especificamos nada além de p, o R retorna quantis da
N(0,1)).
A função usada para ordenar um vetor de números no
R é a função sort(x).
Avaliação da normalidade das distribuições
marginais
Uma medida quantitativa para auxiliar na avaliação do
Q-Q plot é calcular a correlação rQ entre os quantis
esperados e o vetor observado ordenado.
A hipótese de normalidade é rejeitada ao nível de
significância α se rQ obtido for menor que um valor
apropriado.
Por exemplo, ao nível de significância de 5% amostras
de tamanho 50, a hipótese deve ser rejeitada se rQ for
inferiro a 0,9768.
Transformações de normalização
Se a suposição de normalidade dos dados não é plausível, que
estratégia adotar?
1) Usar técnicas estatísticas apropriadas para dados não-normais,
após verificar a distribuição plausível para os dados (Poisson,
Gamma,etc.)
2) Transformar os dados para uma nova escala, sob a qual a
suposição de normalidade é plausível.
Aqui, somente trataremos da transformação, pois técnicas a
serem estudadas a seguir são voltadas para dados normais.
Transformações úteis
Escala original
Escala transformada
Contagens (y)
y
Proporções ( p
ˆ)
Correlações (r)
1 pˆ
logit( pˆ ) log
2 1 pˆ
Fisher
z (r )
1 1 r
log
2 1 r
Transformações de normalização
Em muitas situações a escolha para melhorar a
aproximação normal não é óbvia. Para tais casos é
conveniente deixar que os dados mostrem uma
transformação. Uma família útil de transformações
para esse propósito é a família de transformações de
potências : xλ.
As transformações de potência só estão definidas para
variáveis positivas. Porém, isso não é tão restritivo
quanto parece, porque uma única constante pode ser
adicionada a cada observação no conjunto de dados se
alguns dos valores observados forem negativos.
Transformações de normalização
Box e Cox consideraram a seguinte família de
transformações de potência modificada:
x ( )
x 1
, 0
ln , 0
que é contínua em λ para x>0.
Dada a amostra, escolhe-se λ de modo a maximizar:
n
n 1 n ( )
( ) 2
l ( ) ln ( x j x ) ( 1) ln xi
2 n i 1
i 1
Transformações de normalização
Observação: A transformação obtida geralmente melhora
a aproximação à normalidade.
Porém, não há garantias de que mesmo a melhor escolha de
λ produzirá um conjunto de dados transformados que seja
adequado à suposição de normalidade.
Os resultados obtidos por uma transformação selecionada
de acordo com esse procedimento devem ser
cuidadosamente examinados para possíveis violações da
suposição de normalidade.
Essa recomendação de fato vale para qualquer
transformação usada.