N - Professores da UFF

Download Report

Transcript N - Professores da UFF

Capítulo 5
Medidas Descritivas
5.1 - Introdução
• Conforme foi visto no capítulo 3, ao se
analisar uma distribuição de freqüências,
deve-se observar características como a
tendência central, a dispersão, e a forma
da distribuição dos dados.
• Estas características podem ser descritas
por parâmetros denominados medidas
descritivas de uma população ou amostra
de dados.
5.2. MEDIDAS DE TENDÊNCIA
CENTRAL
• Refere-se à concentração dos dados de
uma amostra ou população em torno de
um valor intermediário.
• As principais medidas de tendência
central são a média aritmética, a mediana
e a moda.
5.2.1. MÉDIA ARITMÉTICA
SIMPLES
• A média aritmética ou simplesmente média de
uma variável quantitativa pode ser simples ou
ponderada.
• É definida como o quociente da divisão da soma
dos dados da amostra (população) pelo
tamanho da amostra (população).
• Se x1, x2, ..., xN constituem a população de
dados de uma variável quantitativa X, a média
aritmética simples desta população é:
• Se x1, x2, ..., xN
constituem a população
de dados de uma variável
quantitativa X, a média
aritmética simples desta
população é:
• No caso de uma amostra
de n dados de uma
variável quantitativa X, a
média aritmética é:
N

 xi
i
=
1
=
x=
N
 xi
n
5.2.1.2. MÉDIA ARITMÉTICA
PONDERADA
• Em algumas situações, ao se determinar a
média, atribui-se uma importância maior ou
menor a determinada observação.
• A importância de um valor é determinada por
um fator denominado peso ou ponderação.
• Neste caso, a média aritmética definida como o
quociente da divisão da soma dos produtos das
observações pelos respectivos pesos, pela
soma dos pesos, sendo denominada média
aritmética ponderada.
• Assim, se x1, x2, ..., xN,
constituem a população de N
dados de uma variável
quantitativa X, sendo
atribuídos a este dados os
pesos p1, p2, ..., pN, , a média
aritmética ponderada desta
população é
• Por outro lado, se x1, x2, ...,
xn, constituem uma amostra
de n dados de uma variável
quantitativa X, sendo
atribuídos a este dados os
pesos p1, p2, ..., pn, , a média
aritmética ponderada desta
amostra é
N
 x i pi
 p = i =1
N
 pi
i =1
n
 x i pi
x p = i =1
n
 pi
i =1
5.2.2. MEDIANA
• A mediana de N dados da população de uma
variável quantitativa é o valor que se localiza no
centro do conjunto de dados quando estes são
dispostos em ordem crescente.
Conseqüentemente, metade ou 50% dos dados
estão abaixo da mediana e a metade ou os
50% restantes estão acima da mesma.
• Se N é ímpar, a mediana é o valor que ocupa a
posição (N+1)/2; se N é par, a mediana e, por
convenção, a média aritmética entre o valor de
posição N/2 e o de posição (N/2)+1.
5.2.3. MODA
• Denomina-se moda o dado mais frequente da
população ou de uma amostra de dados de uma
variável quantitativa.
• A moda pode não existir e se existir, pode não
ser única. Assim sendo, uma distribuição de
dados pode ser amodal quando não tem moda,
unimodal quando tem moda única, bimodal
quando tem duas modas e, em geral
multimodal, se tiver várias modas.
5.2.4. PERCENTIS
• O percentil de ordem k de n dados de uma variável quantitativa
dispostos em ordem crescente é um valor tal k/100 ou k % destes n
dados estão abaixo e 1k/100 ou 100k% restantes estão acima do
referido valor.
• Se k = 50, o percentil de ordem correspondente é a mediana;
• se k = 25, 50 e 75, os percentis com as ordens correspondentes são
denominados 1.ºquartil, 2.º quartil e 3.º quartil, respectivamente; se
k = 10, 20, 30, ..., 90, os percentis de ordem correspondentes são
denominados 1.º decil, 2.º decil, 3.º decil, ..., 9.º decil,
respectivamente.
• O késimo percentil de uma população de N dados quando estes
estão dispostos em ordem crescente é o valor de posição
k(N+1)/100. No caso de uma amostra de n dados, o késimo
percentil da amostra é o valor de posição k(n + 1)/100.
5.2.5. MEDIDAS DE TENDÊNCIA
CENTRAL DE DADOS AGRUPADOS
•
Média aritmética
•
Mediana
–
–
–
–
•
l é o limite inferior da classe mediana
F(ant) é a frequencia acumulada da
classe anterior a classe mediana
f frequencia da classe mediana
h amplitude da classe medana
Moda
–
–
–
–
–
l é o limite inferior da (s) classe (s) de
maior freqüência (classe modal),
h é a amplitude da classe (s) modal
(is),
fm é a freqüência da classe modal,
fa é a freqüência da classe adjacente
anterior
fp é a freqüência da classe adjacente
posterior.
xi f i

x
 fi
 kn

 F (ant) h

~
100


X l
f
fm - fa
mo =  + h
2 fm - fa - fp
5.2.6. EMPREGO DAS MEDIDAS DE
TENDÊNCIA CENTRAL
• A média é a medida mais utilizada devido as
suas propriedades aritméticas.
• Porém esta medida é fortemente influenciada
por valores discrepantes e neste caso utiliza-se
a mediana.
• A moda é pouco utilizada.
• Porém, se a freqüência do valor que mais
ocorre é acentuadamente maior que as dos
demais valores, a moda pode ser utilizada como
medida de tendência central.
5.3. MEDIDAS DE DISPERSÃO
• Estas medidas indicam o grau de
dispersão dos dados de uma população
ou amostra de uma variável quantitativa
em torno de uma medida de tendência
central.
• A dispersão pode ser absoluta ou relativa
5.3.1. MEDIDAS DE DISPERSÃO
ABSOLUTAS
•
•
•
•
•
5.3.1.1. Variância
Se x1, x2, ..., xn constituem a
população com média  de N dados
de uma variável quantitativa X, a
variância desta população é
onde xi   (i = 1, 2, ..., N) são os
desvios dos dados em relação à
média da população. A variância é a
média dos quadrados dos desvios em
relação à média aritmética.
A fórmula acima pode ser modificada,
considerando-se que
Esta fórmula além de ser mais prática,
fornece um resultado mais exato do
que a fórmula original porque evita os
arredondamentos quando o valor da
média apresenta casas decimais.
N
2
(
x


)
 i
 2  i 1
N
 ( xi   )
2
N


i 1
i 1
N

 2  i 1
xi2
N
N
xi2  2
N
N
 xi  N 2
i 1

  xi 


  i 1 
N2
2
• Por outro lado, se x1, x2, ..., xn
constituem uma amostra de n
dados de uma variável
quantitativa X, a variância
desta amostra é
• A razão do divisor n  1 em
lugar de n será explicada
futuramente em estudos mais
avançados.
• Modificando-se a fórmula
acima como no caso da
variância de uma população e
omitindo-se os índices dos
somatórios tem-se que
n
2
(
x

x
)
 i
s  i 1
2
s
2


n 1
xi2
n 1
 xi 

2
n(n  1)
Propriedades
da Variância
• Somando-se (ou subtraindo-se) a cada
elemento de um conjunto de valores uma
constante arbitrária, a variância não se
altera
• Multiplicando-se (ou dividindo-se) cada
elemento de um conjunto de valores por
um valor constante, a variância fica
multiplicada (ou dividida) pelo quadrado
da constante
5.3.1.2. Desvio padrão
• Sendo a variância expressa
em termos do quadrado da
unidade de medida da variável
em estudo, define-se uma
medida de dispersão que é a
raiz quadrada da variância.
• Esta medida é denominada
desvio ou afastamento padrão
que, ao contrário da variância,
expressa a dispersão em
termos da unidade de medida
da variável, sendo portanto
mais fácil de ser interpretada.

s

 ( xi   )
2
N
2
xi

n 1
 xi  2
n(n  1)
Propriedades do Desvio Padrão
• Somando-se (ou subtraindo-se) a cada
elemento de um conjunto de valores uma
constante arbitrária, o desvio padrão não
se altera
• Multiplicando-se (ou dividindo-se) cada
elemento de um conjunto de valores por
um valor constante, desvio padrão fica
multiplicado (ou dividido) pela constante
5.3.2. Dados Agrupados


xi f i   xi f i 


 2  i 1
  i 1
 N 
N




nc
2
nc
2
s2 
2
x
 i fi
n 1
 xi f i 2

n(n  1)
• onde xi e fi (i = 1, 2, ..., nc) são,
respectivamente, o ponto médio e a freqüência
da i-ésima classe e N = (população) ou n =
(amostra).
5.3.1.3. Amplitude total ou Range (R)
• A amplitude total ou amplitude de variação dos
dados de população ou de uma amostra de uma
variável quantitativa é definida como a diferença
a entre os valores extremos.
• É uma medida pouco utilizada porque não
detecta a dispersão dos valores intermediários.
• Se os dados estiverem agrupados em classes
numa tabela de distribuição de freqüências, a
amplitude total é dada pela diferença entre o
limite inferior da primeira classe e o limite
superior da última classe.
Exemplo
• Exemplo: Sejam as seguintes amostras A
e B:
• A= {5, 6, 7, 8, 25}
• B= {5, 8, 11, 19, 25}
• Ambas as amostras apresentam Range
(R): R = 25 - 5 = 20 .Porém, em B há uma
maior variabilidade, que a amplitude total
não deixa clara.
5.3.1.2. Desvio semiinterquartílico
• Mede a dispersão em torno da
mediana, definido como a
Q1 - me  Q3 - me me - Q1 + Q3 - me
média das diferenças
Q =

2
2
absolutas entre os quartis
extremos (1.º e 3.º) e a
mediana,
• simplificando, tem-se
finalmente que
• O desvio semi-interquartílico
mede a dispersão dos dados
3
1
entre Q1 e Q3desprezando a
dispersão dos dados abaixo
de Q1 e acima de Q3.
Q Q
Q
2
5.3.1.4. Desvio médio
• desvio médio é definido como a média
aritmética dos desvios.
xi  

DM 
N
xi  x

DM 
n
5.3.2. MEDIDAS DE DISPERSÃO
RELATIVA
• Comparar as dispersões de dois ou mais conjuntos de valores de
diferentes variáveis.
• Se as variável em estudo são medidas em diferentes unidades de
medida ou mesmo que as unidades de medidas sejam as mesmas,
os valores apresentam diferentes ordens de grandeza. Neste caso
deve-se utilizar as medidas de dispersão relativa que são
adimensionais

CV   100%

s
CV   100%
x
• Exemplo: Sejam os resultados das
medidas das estaturas e dos pesos de um
mesmo grupo de indivíduos.
5.4. MEDIDAS DE ASSIMETRIA E
DE CURTOSE
• Estes parâmetros fornecem informações sobre a
forma como se distribuem os valores
observados de uma variável.
• A medida de assimetria indica se há mais
valores abaixo ou acima da média de uma
população ou de uma amostra.
• A medida de curtose indica se os valores
intermediários de uma amostra ou população
são dispersos ou concentrados.
5.4.1. DEFINIÇÃO DE ASSIMETRIA
8
7
freqüência
6
5
4
3
2
1
0
11
13
15
17
19
valores
Figura 5.1. Distribuição simétrica
8
8
7
7
6
5
Freqüência
Freqüência
6
4
3
5
4
3
2
2
1
1
0
0
11
13
15
17
19
Valores
Figura 5.2. Distribuição assimétrica positiva
11
13
15
Valores
17
19
Figura 5.3. Distribuição assimétrica negativa
5.4.2. COEFICIENTE DE
ASSIMETRIA
• Um coeficiente de assimetria indica o grau da
assimetria de uma distribuição de dados. Um
dos coeficientes de assimetria mais utilizados é:
x)
3( x  ~
As 
s
x média
~
x mediana
0,15  As  1 assimetriamoderada
As  1 assimetriaforte
5.4.3. CONCEITO DE CURTOSE
Figura 5.4a. Distribuição leptocúrtica
Figura 5.4b. Distribuição mesocúrtica
Figura 5.4c. Distribuição platicúrtica
5.4.4. COEFICIENTE DE CURTOSE
Q3  Q1
C
2( P90  P10 )
Q3 - 3º quartil
Q1 - 1º quartil
P90 - 90º percentil
P10 - 10º percentil
C  0,263- curva mesocúrtica
C  0,263- curva leptocúrtica
C  0,263- curva platicúrtica
5.5. ANÁLISE DE DADOS A PARTIR
DAS ESTATÍSTICAS DE ORDEM
•
As características de uma distribuição são em geral descritas informando
os valores da média e do desvio padrão e, algumas vezes do coeficiente
de assimetria.
Porém a média e o desvio padrão são fortemente influenciados pela
presença de valores discrepantes.
Para contornar esta dificuldade, John Tukey (1977) propôs descrever as
características de uma distribuição através das estatísticas de ordem que
são, a mediana, os quartis ou juntas e os extremos, apresentados no
esquema a seguir.
•
•
~
x
J
E
~x
n
Q1
Ei
~
x
Q3
Es
onde n é o número de observações,
é a mediana, J as juntas (1º quartil e 3º quartil) e
E os extremos (o menor valor observado, Ei e o maior valor observado, Es
•
•
•
•
•
As características da distribuição da população pode ser analisada a partir
do diagrama de Tukey (boxplot em inglês), devido a sua configuração.
A diferença DI = Q3  Q1 é denominada desvio interquartílico e pode ser
empregada como medida de dispersão.
Este diagrama indica as seguintes características: a) tendência central: é
dada pela posição da mediana na escala de medida da variável; b)
dispersão: medida pelo valor de DI; c) assimetria: indicada a partir da
comparação das diferenças  Q1 e Q3 .
Todos os valores observados inferiores a e superiores a são discrepantes
(outliers).
Os valores a e b são o menor valor observado não discrepante e o maior
valor observado não discrepante, respectivamente.
Ei
a
Q1
~
x
Q3
DI
b
Es
Medidas de Posição Relativa
• As medidas de posição relativa nos
permitem determinar o quão um valor em
particular está afastado da média. As
principais são:
– Escore Padronizado,
– Regra de Chebyshev e a
– Regra Empírica.
Escore Padronizado (z-score)
Exemplo
• Em um exame final de Estatística, o grau médio
de um grupo de 150 estudantes foi 78 e o
desvio padrão, 8.0. Em Contabilidade,
entretanto, o grau médio final do grupo foi 73 e
o desvio padrão, 7.6.
• Um estudante obteve os graus 90 em Estatística
e 85 em Contabilidade. Em qual dos exames ele
obteve melhor desempenho?
Regra de Chebyshev
Exemplo
• O Controle se qualidade de uma empresa
recebeu um lote de 1000 peças com a medida
principal apresentando média igual a 50 e
desvio padrão igual a 2. O gerente do controle
de qualidade deseja determinar o número de
peças que se encontram nos seguintes
intervalos:
• a. 47 a 53
• b. 45 a 55
• c. 44 a 56
Regra Empírica
•
• Usada somente quando o conjunto de dados é
normalmente distribuído. Para dados que têm
uma distribuição de freqüência descrita pela
curva normal:
– Aproximadamente 68% das observações estão
dentro de 1 desvio padrão da média.
– Aproximadamente 95% das observações estão
dentro de 2 desvios padrão da média.
– Aproximadamente 99,7 % das observações estão
dentro de 3 desvios padrão da média.
Exemplo
• Suponha que um conjunto de dados tenha
distribuição normal com média igual a 30
e desvio padrão, 5. Use a Regra empírica
para determinar a porcentagem de dados
que se encontram dentro de cada um dos
seguintes intervalos.
• a. 20 a 40
• b. 15 a 45
• c. 25 a 35