Document 7742300

Download Report

Transcript Document 7742300

Estatística
amintas paiva afonso
Notações Estatísticas
NOTAÇÃO
Característica
amostra
população

Somatório de um conjunto de valores

Valores individuais dos dados
xi
xi
Número de valores (tamanho do conjunto)
n
N
Média aritmética
x

Desvio padrão
s

Variância
s2
2
Range (amplitude)
R
-
Sínteses Numéricas
Não será abordado
Achatamento - curtose
Assimetria - coeficiente
de assimetria
FORMA
Unidade 4
POSIÇÃO
tendência central
-Média aritm.
-Mediana
-Moda
-Quartis
-Percentis
Unidade 5
MEDIDAS
ESTATÍSTICAS
DISPERSÃO
-Amplitude
-Variância
-Desvio padrão
-Coeficiente de
Variação
-Desvio médio
Medidas de Posição – Tendência Central
Média aritmética
Corresponde ao somatório de um
conjunto de valores dividido pelo
número destes valores.
Média =  x
n
n = número de valores
_
=x
n
Média de um conjunto de valores
amostrais.
 =x
N
Média de todos os valores de
uma população.
Obs.:  A média nos dá uma idéia de onde os valores do meu conjunto de
dados tende a se concentrar.
Medidas de Posição – Tendência Central
Média aritmética
Exercício : Um estudante fez quatro provas e obteve as notas 89, 94, 95
e 86, a sua nota média é:
89  94  95  86
x
 89,5
4
notação
x1  x2  ...  xn
x

n
n
x
i 1
n
i
x


n
Medidas de Posição – Tendência Central
Média aritmética
É a mais importante das medidas de tendência central;
A média de um conjunto de números pode ser sempre calculada;
Para um dado conjunto de números, a média é única;
É sensível (ou afetada) a todos os valores do conjunto. Assim se
um valor se modifica, a média também se modifica;
Somando-se ou reduzindo-se uma constante a cada valor do
conjunto, a média ficará aumentada ou reduzida dessa constante:
µ(x ± k) = µ (x) ± k;
Multiplicando-se ou dividindo-se cada valor do conjunto por uma
constante, a média ficará multiplicada ou reduzida por essa
constante: µ(x .\ k) = µ (x) .\ k
Medidas de Posição – Tendência Central
Média aparada
Foi introduzida recentemente nos estudos estatísticos;
Se obtém eliminando do conjunto de dados os “m” maiores e os
“m” menores valores;
Normalmente m correspondente: 2,5% a 5% dos valores
observados;
Na verdade o que se está fazendo é eliminando os valores
extremos superiores e inferiores (valores discrepantes - outliers);
No conjunto de dados abaixo, calcular a média aparada, com m =2
1, 2, 6, 7, 6, 8, 10, 8, 12, 23, 25, 8, 9, 7, 11, 12, 13, 10, 8, 9, 7, 12, 12,
10, 9, 11,7, 8, 6, 8, 9, 10, 11, 8, 7, 11, 12, 6, 10, 9, 7, 8, 10, 6, 7, 12, 8, 9,
10,
Medidas de Posição – Tendência Central
Média aparada
A média aritmética de todos os valores é = 9,29
Excluindo os dois menores e dois maiores valores (1, 2, 23 e 25), a
média aparada é = 8,98
30
25
20
A média aparada exclui
valores discrepantes
15
10
5
0
1
4
7 10 13 16 19 22 25 28 31 34 37 40 43 46 49
Medidas de Posição – Tendência Central
Média ponderada
Cada elemento do conjunto pode ter importância diferente (peso).
Neste caso o cálculo da média deve levar em conta os pesos
desiguais de cada elemento.
Exercício : O colégio definiu que as provas mensais teriam peso de 30%
e a prova final teria peso de 40% no cálculo dos rendimentos dos alunos.
Veja o quadro abaixo e calcule a média do aluno.
exame nota
peso
0,30
Mês 1 80
Mês 2 90 0,30
Final
96
0,40
xp 
0,3*80 + 0,3*90 + 0,4*96
0,3 + 0,3 + 0,4
= 89,4
Medidas de Posição – Tendência Central
Média ponderada
Notação
x1 p1  x2 p2  ...  xn pn
xp 
p1  p2  ...  pn
n
xp 
x
i 1
n
i
pi
p
i 1
i
p1, p2....pn são os pesos
Medidas de Posição – Tendência Central
Mediana
~
x
A Mediana de um conjunto de valores é o valor do meio desse conjunto,
quando estes estão em ordem crescente.
Divide um conjunto de dados ordenados em dois grupos iguais.
Exercício
Dado o conjunto de 11 dados:
Calcule a mediana.
Conjunto dados
ordenados
3, 7, 5, 5, 1, 9, 15, 13, 17, 13, 17
Valor central = mediana
1, 3, 5, 5, 7, 9, 11, 13, 13, 15, 17
5 dados
5 dados
Medidas de Posição – Tendência Central
Mediana
~x
 Conjunto de valores pares ( n = par)
~x
=
(
valor
+
n/2
)
valor
(n / 2) + 1
/ 2 exemplo 5, 7, 10, 11
~
x = (valor 4/2 + valor (4/2 + 1))/2
n=4
~
x  (valor posição 2  valor posição 3) / 2  (7  10) / 2  8,5
Conjunto de valores impares (n = impar)
~
x
= valor
(n+ 1) / 2
exemplo 5, 7, 10, 11, 14
~x
= valor (5+1)/2 = valor 3
~
x = valor posição 3 = 10
n=5
Medidas de Posição – Tendência Central
Mediana
~x
Exercício: Calcular a mediana das medidas de um conjunto de eixo:
(3,0 ; 2,8 ; 2,9 ; 3,3 ; 3,5 ; 3,1 ; 3,2 ; 3,0 ; 3,4 ; 2,7)
Resolução:
(2,7 ; 2,8 ; 2,9 ; 3,0 ; 3,0 ; 3,1 ; 3,2 ; 3,3 ; 3,4 ; 3,5)
Mediana = x~ = 3,0 + 3,1 = 3,05
2
Interpretação do resultado: 50% dos dados brutos são valores
menores ou iguais a 3,05 e 50% desses são valores maiores ou iguais
a 3,05.
Medidas de Posição – Tendência Central
Média aritmética
X
Mediana
Salário dos funcionários de um restaurante
200, 250, 250, 300, 450, 460, 510
200  250  250  300  450  460  510
x
 345,7
7
A média de 345,7 sintetiza razoavelmente o conjunto de dados (salários)
Salário dos funcionários incluindo o gerente
200 + 250 + 250 + 300 + 450 + 460 + 2300
200, 250, 250, 300, 450, 460, 2300 x =
= 601,4
7
A média de 601,4 não sintetiza razoavelmente o conjunto de dados
 Nos dois casos a mediana é 300. Para o segundo caso a mediana
representa melhor o conjunto de dados.
 Num conjunto de dados fortemente desviado, a mediana é uma medida
mais representativa (distribuição de rendas, folha de pagamentos)
Medidas de Posição – Tendência Central
Moda - MO
A Moda de um conjunto de valores é o valor que apresenta maior
freqüência em um conjunto de observações.
É o valor ou classe de maior freqüência num conjunto de dados.
- pode não existir
- pode não ser única
Exercício : Dado o conjunto de dados 10, 10, 11, 14, 15, 16, 17, 18, 18.
Calcule a moda.
A moda é constituída de dois valores: MO = 10 e 18 (duas vezes cada)
Medidas de Posição – Tendência Central
COMPARAÇÃO
medida
média
definição
x
x= n
quão
freqüente
existência
todos
valores?
afetada
pelos
valores
extremos
considera
vantagens e
desvantagens
“média”
mais
familiar
existe
sempre
sim
sim
muito utilizada
em estatística
existe
sempre
não
não
costuma ser
boa escolha se
há valores
extremos
não
não
apropriada para
dados ao nível
nominal
mediana
Valor
médio
usada
moda
valor
mais
freqüente
usada às pode não
vezes
existir;
pode ter
mais de
uma moda
Medidas de Posição – Tendência Central
Exercício:
Inspecionaram-se quinze rádios antes da
remessa e os números de defeito por unidade
são apresentados no quadro abaixo:
1
0
3
Números de defeito por rádio
4
0
2
2
3
0
1
1
1
1
0
1
Encontre a média, a mediana e a moda do número de
defeitos.
Resposta: (média = 1,33) (mediana = 1) (moda =1).
Medidas de Dispersão
A dispersão mede quão próximo uns dos outros estão os valores
do grupo
pequena dispersão
grande dispersão
A  25,28,31,34,37 
x A  31
B  17,23,30,39,46 
xB  31
A variabilidade de B é maior que de A
Uma boa
representação
de dados
Uma medida
de posição
=
(quase sempre a
média)
+
Uma medida de
dispersão
(quase sempre o
desvio padrão)
Medidas de Dispersão
Amplitude, range ou intervalo
É expresso pela diferença entre o maior e o menor valor num grupo, ou
pela identificação desses dois números.
números
(1 ; 5 ; 7 ; 13)
intervalo
diferença
do menor ao maior
de 1 a 13
13 – 1 = 12
(14 ; 3 ; 17 ; 4 ; 8 ; 73 ; 36 ; 48) 73 – 3 = 70
de 3 a 73
(3,2 ; 4,7 ; 5,6 ; 2,1 ; 1,9 ; 10,3) 10,3 – 1,9 = 8,4
de 1,9 a 10,3
Medidas de Dispersão
Amplitude, range ou intervalo
1
•
2
•
• • • •
• • •
• •• • • •••
• • distribuição uniforme – o
intervalo é uma boa medida
• é uma medida apenas
razoável
3
• é uma medida ruim da
•••••• •• •
dispersão
intervalo
LIMITAÇÃO: só leva em conta os dois valores extremos do
conjunto, nada informando sobre os outros valores.
Medidas de Dispersão
Desvio médio absoluto
 |xi–x |
DMA =
n
DMA é fácil de
entender e calcular
mas é pouco usado como medida de
dispersão
outras medidas apresentam propriedades
matemáticas mais interessantes
Medidas de Dispersão
Desvio médio absoluto
Exercício: Calcule o DMA do conjunto de dados 2, 4, 6, 8, 10.
Calcular o desvio médio.
X = (2 +4 +6 +8 +10) / 5 = 6
Xi - X
2–6= -4
4–6= -2
6–6= 0
8–6= 2
10 – 6 = 4
soma
0
 |xi–x |
DMA =
n
DMA = (4 +2 +0 +2 + 4 ) / 5 = 2,4
Medidas de Dispersão
Variância
A Variância é uma medida de dispersão muito utilizada.
2
(x
x
)

i
S x2 =
n-1
OU
n–1
n
ATENÇÃO
S x2 =
2
2
 x i - ( x i ) / n
amostra
população
n-1
Medidas de Dispersão
Variância
Exercício: Calcule a variância da amostra 2, 4, 6, 8, 10.
A média desse conjunto é 6.
xi
2
4
6
8
10
somas
x
6
6
6
6
6
x i- x
-4
-2
0
+2
+4
0
(x i - x ) 2
16
4
0
4
16
40
2
(x
x
)

i
40 = 10
S x2 =
=
n-1
5-1
Se esses valores representassem
toda a população, a variância
seria 40/5 = 8.
Medidas de Dispersão
Desvio padrão
É a raiz quadrada da variância.
 (x i - x
Sx =
n-1
n–1
n
2
2
 x i - ( x i ) / n
)2
Sx =
amostra
população
n-1
só raiz positiva
da variância
O desvio padrão é mais comumente usado porque se apresenta na
mesma unidade da variável em análise. Assim, se a unidade da
variável for mm, o desvio padrão também será mm.
Isso não acontece com a variância.
Medidas de Dispersão
Desvio padrão
O desvio padrão é a medida de dispersão mais usada. Quanto maior
é o desvio padrão maior é a dispersão dos dados em torno da média.
7
6
5
4
3
2
1
0
s=0
emtodosos casos temos7 medidas
commédia X  4
s = 0,8
1 2 3 4 5 6 7
1 2 3 4 5 6 7
s = 1,0
1 2 3 4 5 6 7
s=3
1 2 3 4 5 6 7
O desvio-padrão cresce quando a dispersão dos dados aumenta
Medidas de Dispersão
Coeficiente de variação
É a relação entre o desvio padrão e a média do conjunto de dados.
amostra
CV (%) =
Sx
população
. 100
ou
x
CV(%) =
σ . 100
µ
Nos dá a idéia do tamanho do desvio padrão em relação à média.
Uma pequena dispersão absoluta pode ser na verdade considerável
quando comparada com os valores da variável
Conjunto de dado com s = 15 e
média 100
CV = 15%
Conjunto de dado com s = 20 e
média 1000
CV = 2%
Médias e Desvio-padrão - Exemplos
Exemplo: Calcular o desvio-padrão da amostra
representada por: 1, 2, 4, 5, 7.
i
1
2
3
4
5
X
Xi
1
2
4
5
7
= 3,8
(Xi - X )
(1 – 3,8) = -2,8
(2 – 3,8) = -1,8
(4 – 3,8) = 0,2
(5 – 3,8) = 1,2
(7 – 3,8) = 3,2
2
(Xi - X )
(-2,8)2 = 7,84
(-1,8)2 = 3,24
(0,2)2 = 0,04
(1,2)2 = 1,44
(3,2)2 = 10,24
 X  X   22,8
5
2
i
1
Médias e Desvio-padrão - Exemplos
i
1
2
3
4
5
X
Xi
1
2
4
5
7
= 3,8
(Xi - X )
(1 – 3,8) = -2,8
(2 – 3,8) = -1,8
(4 – 3,8) = 0,2
(5 – 3,8) = 1,2
(7 – 3,8) = 3,2
(Xi - X )2
(-2,8)2 = 7,84
(-1,8)2 = 3,24
(0,2)2 = 0,04
(1,2)2 = 1,44
(3,2)2 = 10,24
 X  X 
5
2
i
 22,8
1
Logo :
n


2
1
1
22,8
S
. X i  X 
.22,8 
 2,39
n 1 i
5 1
4
Médias e Desvio-padrão - Exercícios
Exercício 1: Vamos supor que eu quero comprar uma
lâmpada para a minha casa e quero que ela dure pelo
menos 700 h. Eu solicito a dois fabricantes o tempo de
vida útil de suas lâmpadas e eles me fornecem os
seguintes dados:
Fabricante A (h)
730
710
705
720
765
750
Fabricante B (h)
1000
687
700
850
587
710
Supondo que as duas lâmpadas custam o mesmo
valor, qual delas eu deveria comprar?
Médias e Desvio-padrão - Exercícios
Para chegarmos à uma conclusão é necessário
calcularmos o tempo de vida útil médio para cada
fabricante e saber qual é variabilidade dos dados.
Fabricante A (h)
730
710
705
720
765
750
X A  730 h
SA = 23,45 h
Fabricante B (h)
1000
687
700
850
587
710
X B  755,67 h
SB = 146,25 h
Critério de escolha: tempo de vida útil = média  desviopadrão
Médias e Desvio-padrão - Exercícios
Fabricante A : 730 ± 23,45 h
X A  S A  730  23,45 h
X A  730 h
X A  S A  730  23,45 h
Conclusão :
Escolheria o
fabricante A.
Fabricante B : 755,67 ± 146,25 h
Fabricante A:[706,55 – 753,45= -46,9]
X B  S B  755,67 146,25 h
X B  755,67 h
Fabricante B : [609,42 – 901,92= -292,5]
X B  S B  755,67  146,25 h
Médias e Desvio-padrão - Exercícios
Exercício 2: Um comerciante está interessado em comprar 100
garrafas de cachaça para o seu estabelecimento. No entanto,
como é de preferência de sua clientela, é necessário que a
cachaça escolhida apresente um teor alcoólico de no mínimo
33% em volume. Ele consultou alguns fornecedores e obteve
as seguintes informações:
Teor alcoólico de três tipos de aguardente pesquisadas.
Marca A (R$ 3,50/l) Marca B (R$ 4,10/l) Marca C (R$ 3,65/l)
38,7
35,7
38,7
33,5
36,4
33,5
32,5
35,9
34,5
31,2
33,2
34,2
35,9
34,1
35,9
Na sua opinião, qual deveria ser a marca escolhida pelo
comerciante?
Médias e Desvio-padrão - Exercícios
Teor alcoólico de três tipos de aguardente pesquisadas.
Marca A (R$ 3,50/l) Marca B (R$ 4,10/l) Marca C (R$ 3,65/l)
38,7
35,7
38,7
33,5
36,4
33,5
32,5
35,9
34,5
31,2
33,2
34,2
35,9
34,1
35,9
As marcas B e C
Marca A: 34,36 ± 2,97 [31,39–37,33=-5,94] atendem
ao
requisito (>33%),no
Marca B: 35,06 ± 1,35 [33,71–36,41=-2,7] entanto escolheria
a marca C pelo
preço. Assim, teria
Marca C:35,36 ± 2,06  [33,3–37,42=-4,12] um economia de R$
45,00!
www.matematiques.com.br
amintas paiva afonso