Conglomerado

Download Report

Transcript Conglomerado

 Amostragem
por conglomerados em
múltiplos estágios
Questões
sobre tamanhos de amostras
Sorteio das unidades de amostragem
Efeito do delineamento na precisão das
estimativas
Conglomerados: unidades de amostragem que contém
vários elementos
 Múltiplos estágios

sorteio de unidades dentro de unidades sorteadas anteriormente
 conglomerados sorteados no 1º. Estágio  UPA: áreas
geográficas pequenas, que cobrem toda a população


Em inquéritos
Amostras do país ou de regiões do país ou de estados
UPA  município
 Amostras em municípios
UPA  setor censitário

 AAS
f = n/N = m/M
 Amostragem
em dois estágios
f = f1* f2
 Amostragem
em três estágios
f = f1* f2 * f3
QUESTÕES SOBRE O TAMANHO DA
DOIS ESTÁGIOS

AMOSTRA
DE SELEÇÃO
Cálculo de n – número de pessoas - considerando
o parâmetro a ser estimado

Definição dos domínios – n para cada domínio

Cálculo de m – número de domicílios

Cálculo do número de setores censitários e de
domicílios por setor
OBJETIVO  ESTIMAR PREVALÊNCIAS

Parâmetro  proporção
N
P 
Y
i
i 1
N

Estimador na AAS
n

p 
i 1
n
yi
TAMANHO DE AMOSTRA PARA PROPORÇÕES
AMOSTRAGEM ALEATÓRIA SIMPLES
n
P (1  P )
 d 


 1, 96 
2
VARIÂNCIA
POR ELEMENTO
P
1-P
0,10
0,20
0,30
0,40
0,50
0,60
0,70
0,80
0,90
0,90
0,80
0,70
0,60
0,50
0,40
0,30
0,20
0,10
 P(1-P)
variância
por
elemento
0,09
0,16
0,21
0,24
0,25
0,24
0,21
0,16
0,09
ERRO

DE AMOSTRAGEM
Semi-amplitude do intervalo de confiança
IC
IC
95 %
95 %
:p  d ; p  d

:  p  1, 96 DP ( p ) ; p  1, 96 DP ( p ) 
d

Consequência de que
𝑃 𝑝 − 𝑃 < 1,96 𝐷𝑃(𝑝) = 0,95

1,96  indica nível de confiança de 95%
d
EXEMPLOS

Para estimar a proporção de idosos com HA no município X

ISA-Capital 2008  52%

d=5%  IC:[47%;57%]

n=384

Para estimar a proporção de idosos com depressão no município X

ISA-Capital 2008  25%

d=5%  IC:[20%;30%]

n=288

Para estimar a proporção de idosos com rinite no município X

ISA-Capital 2008  12%

d=5%  IC:[7%;17%] ????

n=100
PASSAGEM
AAS  AMOSTRA COMPLEXA
n c  n  deff
EFEITO DO DELINEAMENTO

VARIÂNCIAS

Amostragem aleatória simples
n

y 
yi
i 1
(𝑦𝑖 − 𝑦)2
𝑣𝑎𝑟 𝑦 =
𝑛(𝑛 − 1)
n

Amostragem por conglomerados de tamanhos
desiguais
n

r 
i 1
x
yi
1
𝑣𝑎𝑟 𝑟 = 2 𝑣𝑎𝑟 𝑦 + 𝑣𝑎𝑟 𝑥 − 2𝑟 ∙ 𝑐𝑜𝑣(𝑦, 𝑥)
𝑥
PREVALÊNCIA DE HIPERTENSÃO EM IDOSOS
ISACAMP-2008
. mean ha if dominio==3
---------------------------------------------------------------------|
Mean
Std. Err.
[95% Conf. Interval]
-----------+---------------------------------------------------------ha | .5385122 .0127951
.5134143
.56361
----------------------------------------------------------------------svy : mean ha if dominio==3
---------------------------------------------------------------------|
Linearized
|
Mean
Std. Err.
[95% Conf. Interval]
------------+-------------------------------------------------------ha | .5321661 .0170251
.4979529 .5663794
---------------------------------------------------------------------. estat effects
-------------------------------------------------------|
Linearized
|
Mean
Std. Err.
DEFF
-----------+-------------------------------------------ha | .5321661 .0170251
1.76732
---------------------------------------------------------𝑑𝑒𝑓𝑓 =
0,0170251
0,0127951
2
= 1,77
NO PLANEJAMENTO

DE INQUÉRITOS
deff=2
Dependerá
 da homogeneidade intraclasse
 da distribuição da amostra pelas unidades
primárias de amostragem
DOMÍNIOS

Cálculo de n deve ser feito para cada domínio.

Domínio – parte da população para a qual estimativas
separadas são planejadas (Kish pág.75)

Podem ser definidos por critérios:
1) geográficos
2) demográficos
TAMANHO DE AMOSTRA EM DOMÍNIOS
Região
distribuição pop
am.proporcional
am.tam.iguais
Norte
20%
1000
500
Sul
15%
750
500
Leste
25%
1250
500
Oeste
30%
1500
500
Centro
10%
500
500
Total
100%
5000
2500
Tamanho mínimo de amostra  n=500
 Amostra proporcional



tam.total =n/(menor prop)=500/0,10=5000
Amostras de tamanhos iguais

tam.total=5*n=2500
INQUÉRITOS
TAMANHO DA AMOSTRA
DE PESSOAS
DA AMOSTRA DE DOMICÍLIOS
 TAMANHO
Transformação de n  m
n
N

m
M
m 
n
N /M
m  número de pessoas a serem sorteadas
dividido pela média de pessoas por
domicílio na faixa etária de interesse
NÃO RESPOSTA
 Acréscimo
pela taxa de não resposta
(máxima a ser tolerada)
n
n inicial
1  TNR
Diminui o erro de amostragem das
estimativas, mas não o vício causado pela
não resposta
EXEMPLO

DEFININDO NÚMERO
DE SETORES CENSITÁRIOS E
DE DOMICÍLIOS POR SETOR
Para um dado m  busca-se menor deff
O efeito do delineamento depende:


da estratégia elaborada para o processo de sorteio número de setores e domicílios por setor
da composição interna dos conglomerados homogeneidade intra conglomerados
deff  1   ( b  1)
CORRELAÇÃO INTRACLASSE
V ariáveis dem ográficas
Pesquisa
V ariável
E stim ativa
Idosos – M S P
S exo
0,000
Idade
0,008
V ariáveis “socio-econôm icas”
Pesquisa
Local
V ariável
Idosos
MSP
S abe ler e escrever
0,143
F oi a escola
0,156
A nos estudo chefe
0,172
E quipam entos dom icílio
0,282
Inquérito de S aúde
Á reas ES P
E stim ativa
S uicídio
Cam pinas
R enda
0,170
PN A D
GSP
R enda fam iliar per capita
0,354
Chefes com ensino superior
0,296
A nos de estudo
0,379
PN A D
A lagoas
V ariáve is “d e saú d e ”
P e sq u isa
L ocal
V ariável
I d osos
MSP
H áb ito d e f um ar
0 ,0 0 3
H ip er te nsão
0 ,0 16
A u to avaliação saú d e
0 ,0 3 4
M or b id ad e (15 d ias)
0 ,0 4 0
U so m e d icam e ntos (3 d ias)
0 ,0 5 0
C onsu lta od ontológ ica (12 m .)
0 ,0 5 3
S e rviço d e saú d e u tiliza d o
0 ,0 9 1
I nq u é rito d e S aú d e
Á r e as E S P
E stim ativa
C r ônicas (  2 0 anos)
S u icíd io
P N A D -9 8
PN A D
C am p inas
RMSP
A lag oas
C ânce r
0 ,0 0 7
H ip er te nsão
0 ,0 10
P r oble m as d e colu na
0 ,0 2 0
E nx aq u e ca
0 ,0 2 4
O ste op or ose
0 ,0 2 5
I d e ação
0 ,0 10
P lane jam e nto
0 ,0 11
T e ntativa
0 ,0 2 2
P or tad or d e d if iculd ad e s
0 ,0 13
U so d e óculos / le nte
0 ,10 0
C r ônicas
0 ,0 3 6
(  15 anos)
H ip er te nsão
0 ,0 11
P r oble m as d e colu na
0 ,0 4 6
DETERMINAÇÃO DE b

b
5
10
15
20
0 ,0 2 5
1,1
1,2 3
1,3 5
1,4 8
0 ,0 5
1,2
1,4 5
1,7
1,9 5
0 ,10
1,4
1,9
2 ,4
1,9
0 ,15
1,6
2 ,3 5
3 ,1
2 ,8 5
0 ,2 0
1,8
2 ,8
3 ,8
3 ,8
TAMANHO ÓTIMO DE B
b ótimo 
Ca

1 
c

Ca  custo associado ao conglomerado
c  custo por elemento
 Considerando
a razão de custos adotada pelo
SEADE (na PCV)  20

b ótim o
d eff
0 ,0 5
19
2 ,0
0 ,10
13
2 ,2
0 ,15
11
2 ,5
0 ,2 0
9
2 ,6
NÚMERO DE SETORES CENSITÁRIOS
a=n/b
escolher a>=30
Metodologia de eleição da maior parte dos inquéritos
 Medidas de tamanho determinam probabilidade de seleção
 probabilidades diferentes para as UPAs
 Probabilidades de seleção das UPAS combinadas com
frações de amostragem adequadas nos estágios seguintes
 equiprobabilidade


Principal atrativo  amostras de tamanhos
aproximadamente iguais nas UPAs
f1  a 
Mi
M
é o tamanho do setor i
M é o número total de domicílios
Mi
ID_
350950205000001
350950205000002
350950205000003
350950205000004
350950205000005
350950205000006
350950205000007
350950205000008
350950205000009
350950205000010
350950205000011
350950205000012
350950205000013
350950205000014
350950205000015
350950205000016
350950205000017
V01
SITUAÇÃO
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
1
V02
TIPO
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
0
V05
DOMPP
160
259
230
256
152
168
195
197
249
163
152
112
140
237
226
255
236
1º. passo – soma acumulada
 considerando
o setor censitário como UPA
 a cada setor é atribuído um intervalo de números
 tamanho do intervalo = número de domicílios de cada
setor
ID_
350950205000001
350950205000002
350950205000003
350950205000004
350950205000005
350950205000006
350950205000007
350950205000008
350950205000009
350950205000010
350950205000011
350950205000012
350950205000013
350950205000014
350950205000015
350950205000016
350950205000017
350950205000018
350950205000019
350950205000020
350950205000021
350950205000022
350950205000023
DomPP
160
259
230
256
152
168
195
197
249
163
152
112
140
237
226
255
236
159
117
192
203
192
168
Acumulado
160
419
649
905
1057
1225
1420
1617
1866
2029
2181
2293
2433
2670
2896
3151
3387
3546
3663
3855
4058
4250
4418
Intervalo Imaginário
1 a 160
161 a 419
420 a 649
650 a 905
906 a 1057
1058 a 1225
1226 a 1420
1420 a 1617
1618 a 1866
1867 a 2029
2030 a 2181
2182 a 2293
2294 a 2433
2434 a 2670
2671 a 2896
2897 a 3151
3152 a 3387
3388 a 3546
3547 a 3663
3664 a 3855
3856 a 4058
4059 a 4250
4251 a 4418
2º. Passo – Calcula-se o intervalo de amostragem
(total de domicílios / número de setores da amostra)
 3º. Passo – Sorteia-se um número aleatório dentro do 1º.
intervalo (início casual)
 4º. Passo – Acumula-se o intervalo de amostragem
sucessivamente

 Os
setores da amostra serão os que tiverem nos seus
“intervalos de números” os números sorteados
Total de domicílios: 276080
 Total de setores da amostra: 70

Intervalo de amostragem: 276080/70=3944
 Início casual entre 1 e 3944: 232
 Setor 02 é o primeiro setor sorteado (seu intervalo é 161 a 419)


Outros números sorteados: 232 + 3944 = 4176 (setor 22)
4176 + 3944 = 8120 (setor 44)
8120 + 3944 = 12064 (setor 68)
...
𝑏
𝑓2 =
𝑀𝑖

Se Mi é também o número de domicílios encontrado em
campo (número atual de domicílios)

Ex: Mi=360 e b=120  f2=1/3
Será incluído na amostra 1 domicílio cada 30
 Calcula-se
o intervalo de amostragem  domicílios do
setor / b
sendo b o número de domicílios a ser sorteado no setor
 Sorteia-se um início aleatório no 1o. intervalo (início
casual)
 Soma-se o intervalo de amostragem sucessivamente
 Os números assim identificados correspondem aos
domicílios sorteados
𝑓 = 𝑓1 ∗ 𝑓2
𝑀𝑖 𝑏
𝑎𝑏 𝑚
𝑓=𝑎
∗
=
=
𝑀 𝑀𝑖 𝑀 𝑀

Seleção de domicílios com fração fixa (b/Mi)
𝑏
𝑏𝑖 = ∗ 𝑀𝑖′
𝑀𝑖
𝑏𝑖 é o número de domicílios sorteado no setor
𝑀𝑖 é o número de domicílios do censo (utilizado no sorteio
do 1º. estágio)
𝑀𝑖′ é o número de domicílios existentes no momento da
pesquisa (atual)
𝑀𝑖′
𝑏𝑀
𝑏𝑖
𝑖
𝑓2 = ′ =
𝑀𝑖
𝑀𝑖′
Vantagem
 Fração de amostragem global é a mesma para todas as
UPAs – amostra equiprobabilística
𝑀𝑖′
𝑀𝑖 𝑏 𝑀𝑖 𝑎𝑏
𝑓=𝑎 ∗ ′ =
𝑀 𝑀𝑖
𝑀
Desvantagens
 Sem controle do tamanho final da amostra
 Número de domicílios nas UPAs podem variar muito
1ª OPÇÃO
43
1
𝑓2 =
=
258 6

No exemplo:

Mas tamanho atual é 278
278
43(
) 43 × 1,077 46,3 1
258
𝑓2 =
=
=
=
278
278
278 6

Serão sorteados 46 domicílios que corresponde a 1/6
dos domicílios atualmente existentes.

Fixar b (o número de domicílios é o mesmo em todos os
setores)
𝑏
𝑓2 =
𝑀𝑖′
𝑀𝑖 𝑏
𝑓=𝑎
∗
𝑀 𝑀𝑖′

Frações de amostragem distintas nos setores  ponderação
2ª OPÇÃO
43
1
𝑓2 =
=
258 6

No exemplo:

Mas tamanho atual é 278
43
1
𝑓2 =
=
278 6,5

Serão sorteados 43 domicílios mas a fração de
amostragem nesse setor foi de 6,5

Inverso da fração de amostragem

Se amostra equiprobabilística  𝑤 = 1/𝑓
Se há diferenças entre probabilidades utilizadas no sorteio,
𝑤𝑖 = 1/𝑓𝑖
para cada elemento i 

PESO DO DELINEAMENTO


Peso resultante da utilização de diferentes
probabilidades de seleção  inverso da fração de
amostragem
Causas
1) tamanhos atuais das UPAs diferentes dos tamanhos
utilizados em seu sorteio e sorteio de um número
constante de domicílios nos setores
2) sorteio de números de elementos nos estratos ou
domínios não proporcionais ao tamanho dos
estratos/domínios
AJUSTE DE NÃO RESPOSTA



Variável utilizada no ajuste – variável para a qual há
informação também para os não respondentes. Usual
– geográficas.
Suposição – em cada categoria da variável de ajuste
os respondentes são amostras das pessoas
sorteadas – as perdas são ao acaso
Dentro das categorias – amostra de respondentes é
inflada para atingir número sorteado
AJUSTE DE PÓS ESTRATIFICAÇÃO
A
distribuição da amostra segundo
variáveis sóciodemográficas é igualada à
distribuição da população
 Utilização
de dados da população externos, portanto, à pesquisa.