Aula 4 - Danielle Carusi Machado

Download Report

Transcript Aula 4 - Danielle Carusi Machado

Aula 4
Introdução ao Stata
18 de abril de 2013
Problemas com variáveis string
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
id gender
70
m
121
f
86
m
141
m
172
m
113
m
50
m
11
m
84
m
48
m
75
m
60
m
95
m
104
m
38
m
race
1
1
1
1
1
1
3
2
1
3
1
X
1
1
3
schtyp
pub
pub
pub
pub
pub
pub
pub
pub
pub
pub
pub
pub
pub
pub
pub
read
45
68
44
63
47
44
50
34
63
57
60
57
73
54
45
science
47
63
58
53
53
63
53
39
.
50
53
63
61
55
31
Problemas com variáveis string
Como transformar variáveis string em variáveis numéricas??
•
No caso de alguns bancos, dependendo da forma como o dado foi importado ou lido no
stata, variáveis são caracterizadas como não numéricas, ou string.
• Contudo, apesar das suas características qualitativas (por exemplo, ser homem ou ser
mulher), a forma mais correta de se trabalhar com estas variáveis é transformá-las em
variáveis numéricas.
• Se a variável está como texto, por exemplo, “A” “B”ou “C”, a sugestão é utilizar o
comando encode.
• Exemplo:
encode gender, generate(gender2)
A nova variável gender2 será numérica e terá os “labels” homem e mulher associados a ela.
Contudo, ser homem e ser mulher também terão valores numéricos.
Exemplo do SAEB 2011
list , nolabel
Problemas com variáveis string
• Na variável , há uma ou mais células preenchidas com um caracter
não numérico, por exemplo, X.
• Se der o comando destring ele irá reclamar… existem elementos
não numéricos que impedem a transformação.
• A conversão para numérica pode ocorrer usando o
comando destring mas devemos incluir a opção ignore(X).
• Irá transformar X em um valor missing.
destring race, replace ignore(X)
race: characters X removed; replaced as byte (1 missing value
generated)
Quando importa vírgulas na variável
destring proficiencia_lp, dpcomma replace
• Transforma a variável em numérica usando o
separador de decimais.
• Exemplo: SAEB 2011
Análise dos dados: zeros e missing
• Sempre checar os valores apresentados nos
dicionários do banco de dados.
• Exemplos: PNAD
Valo r
762
12
V4742
Rendimento mensal do miciliar per capita
999 999 999 999
R$
Sem declaração
Não aplicável
659
2
V4803
A no s de estudo
(to das as pesso as)
01
02
03
04
05
06
07
08
09
10
11
12
13
14
15
16
17
Sem instrução e meno s de 1ano
1ano
2 ano s
3 ano s
4 ano s
5 ano s
6 ano s
7 ano s
8 ano s
9 ano s
10 ano s
11ano s
12 ano s
13 ano s
14 ano s
15 ano s o u mais
Não determinado s
Não aplicável
Como corrigir missings e não
declarados?
Count if (variável) == .
Count if (variável) == 999999999999
• Exemplo:
use G:\stata\mus02psid92m.dta
Recode
• Recodifica algumas variáveis categóricas e
quando solicitado gera uma nova variável.
• Cria faixas de algumas variáveis.
• Para os valores das variáveis que não constam
no intervalo , assume-se valores missing.
By varlist
• Sort varlist : ordena as observações em ordem
ascendente de acordo com as variáveis definidas
na lista varlist.
• Pode usar bysort
• Suponha que quer criar para cada indivíduo uma
variável que é igual a média de renda das pessoas
que possuem o mesmo nível de escolaridade dela.
(by sort egen)
bysort education: egen aveearnsbyed = mean (earnings)
Variáveis indicadoras
• Dummies/variáveis binárias:
Suponha que queira criar variáveis indicadoras
mutuamente exclusivas para escolaridade.
As dummies podem ser criadas uma a uma ou
diretamente.
Comandos xi
• Interações: xi i.edcat*earnings, noomit