Aula 2 - FMRP/USP

Download Report

Transcript Aula 2 - FMRP/USP

Estatísticas descritivas: Como o próprio nome já diz, são cálculos,
contas, que são realizadas de modo que possamos descrever nossas
variáveis, nossos dados.
Se solicitados a apresentar seus dados, demonstrá-los a um público,
certamente não apresentarão todos os dados:
“- Vejam aqui estão as 200 medidas de altura que realizei!!!”.
Para isto servem as estatísticas descritivas, são medidas que descrevem
as principais características de uma variável, que sumarizam o dado.
Através delas podemos com poucos números (2 ou 3), dar uma noção
de como são nossos dados, onde se concentram, como estão variando
e podemos compará-los com outras séries de dados.
Veremos também quais as estatísticas descritivas mais apropriadas
para cada tipo de variável.
Medidas de tendência central (ou de posição):
São medidas que visam determinar o centro da massa dos dados,
representam o valor em torno do qual os dados estão gravitando,
o ponto central do conjunto de valores.
Média: É a mais conhecida, utilizada e que melhor se aplica à
definição de medida de tendência central. Definição:É a soma de
todos os valores da var. dividida pelo número de valores.
Temos 14 valores de Idade: 32 35 36 36 37 38 38 39
39 39 40 40 42 45, logo nossa média será a soma de
todos 14 valores, divididos depois por 14.
Símbolo de média
Símbolo de somatório, irá somar todos os Xs,
quando obtida de
onde cada X é um valor. N = No. total de valores
uma amostra
µ = média quando (32 + 35 +...+ 42 +45)/14
obtida de toda a
população
Utilização da média conforme o tipo de variável:
- Quantitativas contínuas: É onde é mais utilizada, média de peso, de altura, média da taxa de vitamina A no sangue.
- Quantitativas discretas: Também pode ser utilizada, apesar de não
existirem 2,3 filhos ou dores de cabeça por semana, a média é bastante
utilizada e aceita neste caso, vide IBGE. Em todo caso convém refletir.
- Qualitativas ordinais: Pode também ser utilizada aqui. Em escalas
(ótimo = 5, bom = 4, regula r= 3, fraco = 2 e ruim = 1) ou em situações do
tipo da var. escolaridade (Analf. = 1, 1o. Grau = 2, 2o. Grau = 3 ...),
ou ainda escalas do tipo Likert (Não concordo veementemente = 1, Não
Concordo = 2, Indiferente = 3, Concordo = 4 e Concordo totalmente = 5);
Necessário bastante parcimônia, verificar se faz sentido. Contudo para a
realização de testes estatísticos é bastante utilizada .
- Qualitativas nominais: Não é utilizada, não faz sentido, qual a média da
var. raça? Neste tipo de variável (e também nas ordinais) para descrevermos o dados utilizamos o percentual, a porcentagem (%). Exemplo:
Variável região de origem: Possíveis respostas: Sul, Sudeste, Centrooeste, Norte e Nordeste. Verificamos o total de resposta, p. exp., 200 e
dividimos o total de resposta de cada região pelo total:
Sul = 48 respostas 48/200 = 24% das respostas; Norte = 10 10/200 =5%
Mediana: É o valor que divide os dados ao meio, metade dos valores estão abaixo do valor da mediana e a outra metade está acima do
valor da mediana.
Para calculá-la é necessário primeiro ordenar os dados, depois ver se:
1- se o total de dados (n) for impar, some + 1 a este total e divida-o por 2.
22 22 25 26 26 27 28
28
29 29 29 30 30 35 36
Veja, temos 15 valores (impar) ordenados, somamos 1 e dividimos
por 2: (15 + 1)/2 = 8 . Então a mediana será o valor que ocupar a
8a. Posição = 28. Repare há 7 valores abaixo de 28 e sete acima.
2- se o total de dados (n) for par, encontre o valor n/2 e o valor (n+2)/2 e
a mediana será a média destes dois valores.
22 22 25 26 26 27 28
28 29
29 29 29 30 30 35 36
Temos 16 valores (par) ordenados, encontramos n/2 = 8 e (n+2)/2= 9
Então a mediana será a média entre o 8 e 9 valor. (28+29)/2 = 28.5
Utilização da mediana conforme o tipo de variável
Nas vars. quantitativas pode-se usá-la tranquilamente, mas o mais comum é o uso da média. Já nas variáveis qualitativas ordinais seu uso
equipara-se ao da média, e nas nominais não faz sentido.
** Situação na qual o uso da mediana é recomendado e não o da média:
Quando temos valores aberrantes (outliers) na amostra, p. exp., var.
Renda com estes valores: 200, 350, 400, 430, 450, 500, 4000.
A renda média é de 900, mas este valor descreve bem nossos dados?
A mediana é de 430, qual descreve melhor?
A mediana é menos influenciada por valores extremos, é “robusta”.
A mediana divide a amostra ao meio, em 50%. Valores que dividem
a amostra em 4 partes iguais também são utilizadas, são os Quartis.
O 1o. Quartil divide a amostra em 25% abaixo dele e 75% acima dele
O 2o. Quartil nada mais é que a Mediana.
O 3o. Quartil divide a amostra em 75% abaixo dele e 25% acima dele
1.2 , 1.3, 1.4, 1.7, 1.9, 2.1, 2.2, 2.5, 3.3, 3.8, 4.2, 4.2, 4.3, 4.3, 4.4
1 quartil
1.8
Mediana
2.5
3 quartil
4.2
São também utilizados percentis (dividir por 100) e os decis (por 10)
Moda ou Norma: Dentro de um conjunto de valores a moda é o
valor mais frequente, o valor que aparece mais vezes.
2, 3, 9, 10, 11, 12, 13 - Não há moda.
3, 4, 5, 6, 7, 8, 8, 9 - A moda é 8 - unimodal
3, 3, 4, 5, 6, 7, 9, 9, 10 - As modas são 3 e 9 - bimodal
3, 3, 4, 6, 7, 8, 9, 9, 10, 11, 12, 13, 13 - As modas são 3, 9 e 13- multimodal.
Utilização da moda conforme o tipo de variável
A moda pode ser utilizada nos dois tipos de variáveis quantitativas,
mas é mais utilizada nas variáveis categóricas ordinais e nominais
(quando categorizadas) onde representará a categoria mais frequente.
Medidas de variabilidade (ou de dispersão):
São medidas que visam determinar o quanto a massa dos dados esta
variando em torno da média (centro), dão a noção de qual a abrangência dos valores da amostra (ou população). Indicam também o
quanto os valores assemelham-se entre si. Alta variabilidade indica
que os dados não são muito parecidos, próximos; já baixa variabilidade indica valores próximos, parecidos.
Exemplo: Notas de duas classes:
Classe A: 1, 3, 3, 5, 7, 7, 10
Classe B: 4, 4, 5, 5, 5, 6, 6
Esta 2 classes são equivalentes ?.
Problema para
a estatística.
Variância: É a mais utilizada e conhecida medida de dispersão.
Vejamos a sua fórmula:
Portanto vemos que para calculá-la subtraímos cada valor (Xi) da
média, elevamos esta diferença ao quadrado, somamos todas
estas diferença e dividimos o pelo tamanho da amostra -1.
Exemplo: Xi
1
2
3
4
5
Xi- Média (Xi- Média)2 A soma é = 10
1 - 3 = -2
4
10 dividido por 4 = 2.5
2 - 3 = -1
1
Portanto a variância destes
3-3=0
0
dados = 2.5
4 - 3 = -1
1
5 - 3 = -2
4
Porém a forma mais utilizada da variância é a sua raiz quadrada,
conhecida por Desvio padrão = s .
Desvio padrão = Raiz quadrada da variância, no exemplo a raiz quadrada de 2.5 é 1.58 = desvio padrão.
Erro padrão = É o desvio padrão dividido pela raiz quadrada do
tamanho da amostra.
Amplitude = É a diferença entre o menor valor de uma amostra
e o maior valor de uma amostra. Maior valor - Menor valor
Amplitude inter-quartil = É a diferença entre o valor do 1o.quartil
da amostra e o valor do 3o.quartil. Valor 1o. Q - Valor 3o. Q
Ao iniciarmos o Minitab encontramos a seguinte tela: No topo da tela temos
a barra de ferramentas, que sempre
permanece aí e onde se encontram
as principais funções. Temos então
duas ‘janelas’; a 1a. (de cima) é onde aparecerão os resultados das análises, a 2a. é a planilha de dados, onde ao abrirmos um arquivo os dados
aparecerão.
Pode-se trabalhar com ambas abertas
ou maximizar uma e ocultar a outra,
clicando nos respectivos pontos de
cada tela
A seguir abriremos um arquivo
chamado “estdes” .
Clicamos em ‘File’ e vamos até ‘Open Worksheet’ para abrirmos um arquivo já existente.
Surgirá o quadro abaixo onde digitaremos o nome do arquivo ‘estdes’
e clicamos em abrir.
Surgirá então o banco de dados( a
tela já está maximizada) estdes composto por 9 variáveis.
Para obtermos nossas estatísticas
descritivas vamos até o módulo ‘Stat’
e o acionamos.
Na seção ‘Basic Statistics’ vamos para ‘Display Descritive Statistics’ e
clicamos nela, quando aparecerá um
novo quadro.
Temos então uma lista das nossas
variáveis. Para selecionarmos quais
vars. desejamos obter as est. descritivas marcamos o nome da mesma
com o mouse e clicamos em ‘Select
e ela aparecerá em ‘Variables’.
Repete-se o processo com todas as
vars. que nos interessam.
Após selecionarmos as vars. de interesse clicamos em OK
A tela minimizada de resultados então aparecerá e lá temos todas as estatísticas descritivas de cada uma das vars. selecionadas
Temos para cada var. o tamanho da amostra (N), a média (Mean),
o erro padrão da média (SE Mean), o desvio padrão (StDev) o menor valor (Minimum), o 1o. Quartil (Q1), a mediana(Median), o 3o.
Quartil (Q3) e o maior valor (Maximum) .
Para a variável Sexo nos interessa a frequência e seu percentual.
Para isto voltamos no módulo de “Stat”, vamos até a seção ‘Tables’
e daí acionamos ‘Tally Individual Variables’.
No quadro novo selecionamos
a variável de interesse como
já feito anteriormente ativamos
as células ‘Counts’ e ‘Percents
que fornecerão o número de
elementos de cada categoria
da var. e seu percentual relativo. E damos OK
Na tela de resultados temos a
quantidade de cada categoria
e o seu percentual.
Para imprimir seus resultados vá
em ‘File’ e depois em ‘Print Session Window’.
Na tela da seção de estatísticas
descritivas há um espaço escrito
‘By variable’. Se vc selecionar e
inserir uma variável, o software irá
calcular as estatísticas descritivas
da variável quantitativa para cada
categoria, nível, da variável inserida.
Neste caso teremos as estatísticas
de Idade para cada Sexo.
DISTRIBUIÇÃO NORMAL
Um pesquisador, há muitos e muitos anos atrás, pesou 40 pedras coletadas
ao acaso em seu quintal e obteve os seguintes valores:
Na sequência ele ordenou os dados da seguinte forma:
1.
1.
2.
2.
3.
3.
4.
4.
5.
44
569
0344
67899
00112334
56677899
022234
55
00
44
569
0344
67899
00112334
56677899
022234
55
00
2,67440
3,10762
3,76507
4,03743
3,62144
2,93377
1,65071
1,46075
2,03689
5,07087
2,43355
5,09515
2,30950
1,94147
4,20944
2,74200
3,26786
4,23001
2,97874
1,53232
1.
1.
2.
2.
3.
3.
4.
4.
5.
3,93548
3,30983
2,48178
4,52549
3,48335
3,16867
3,57961
4,28888
4,39241
4,45589
1,40666
3,70547
3,69522
2,80332
3,04045
3,92837
3,84063
3,32436
4,56957
3,04060
Sendo que o traço na figura indica o ponto onde está a média
O pesquisador realizou levantamentos semelhantes com vários outros
elementos da natureza e verificou que quase sempre obtinha curvas,
figuras, DISTRIBUIÇÕES, semelhantes à anteriormente vista.
O passo seguinte foi ajustar, estimar, um modelo matemático que
representa-se a curva em forma de sino obtida. O nome deste pesquisador
é CARL FRIEDRICH GAUSS, daí esta curva também ser conhecida
como curva de Gauss ou Gaussiana.
Onde µ = média e б = desvio padrão
A distribuição Normal, a sua forma, é determinada totalmente pelos
parâmetros µ e б.
Observe que para diferentes médias e desvios padrões tenho diferentes
curvas.
Características da curva Normal
1- A área sob a curva é igual a 1 ou 100%
2 - A distribuição é simétrica em relação à média
3- Os valores da média, moda e mediana são equivalentes (teoria)
4- A área entre µ ± б equivale a 68,26% da área
5- A área entre µ ± 2б equivale a 95,44% da área
6- A área entre µ ± 3б equivale a 99,74% da área
Como já foi dito, a dist. Normal é simétrica em relação à média, uma medida que verifica a assimetria de uma distribuição é SKEWNESS (coeficiente de assimetria), que na distribuição Normal deve ser igual a 0
Para um valor
positivo do
Skewness
assimetria à
direita da
distribuição
Para um valor
negativo do
Skewness
assimetria à
esquerda da
distribuição
Outra medida verificada em distribuições é a Kurtosis (curtose ou medida de achatamento). Nas dist. Normais deseja-se uma curtose próximo a 3.
Leptocúrtica
K>3
Platicúrtica
K<3
Mesocúrtica
K=3
A Distribuição Normal Padrão
(ou Normal Reduzida)
Uma distribuição Normal particularmente importante é a que possui
média = 0 (µ = 0) e desvio padrão = 1 (б = 1).
Esta distribuição N(0,1) é conhecida por “z” e é ‘tabelada’, isto é, suas
probabilidades são conhecidas, já foram calculadas.
Por exemplo, se desejo a
probabilidade de um valor
ocorrer entre 0 e 1 vou na
tabela e procuro na margem
esquerda a linha de z = 1 e
a coluna = 0 e encontramos
0.3413.
Portanto a probabilidade de
ocorrência de um valor entre
0 e 1 é de 34.13%
A grande utilidade da distribuição “z” é que qualquer distribuição Normal
pode ser ‘transformada’ em uma “z” , através da seguinte transformação:
z=x–m
ds
Onde: x = ponto que se deseja converter em z; m = média da normal original; ds = desvio padrão da normal original.
Exemplo: Suponha que a média de um determinado teste seja 100 e o dp
seja 5. Qual a probabilidade de uma pessoa se um valor entre 105 e 107 ?
Aplicando a transformação: 105 – 100 = 1 e 107 – 100 = 1.4
5
5
Então temos que calcular a probabilidade entre 1 e 1.4 na tabela da Normal
reduzida que é equivalente a calcular a probabilidade do ponto 1.4 (0.419)
menos a probabilidade do ponto 1.0 (0.3413), que equivale a 0.0779.
Portanto a prob. de se obter um
valor entre 105 e 107 no teste é
de 7.79 %
Determinar se uma variável possui ou não distribuição Normal é muito
importante, pois se a variável possui normalidade utilizaremos determinados testes estatísticos, se a mesma não possuir normalidade, outros teste
serão utilizados.
Observe que só faz sentido falar em distribuição Normal para as vars.
numéricas. Não há sentido de falar distribuição Normal para variáveis
categóricas nominais.
Para as var. cat. ordinais, conceitualmente, teoricamente, também não
faz sentido, mas na vida real testa-se a normalidade e caso aceita a
mesma trabalha-se como se assim fosse.