Asymptotisch gedrag van de Maximum Likelihood

Download Report

Transcript Asymptotisch gedrag van de Maximum Likelihood

Asymptotisch gedrag van de Maximum
Likelihood-schatter
1
Wald’s consistentie bewijs
Laat X1 , X2 , . . . , Xn onafhankelijke stochastische variabelen zijn met dichtheid pθ ,
voor θ ∈ Θ ⊂ Rk . We nemen aan dat de verzameling X ⊂ R waarin Xi onder pθ
waarden aanneemt, niet afhangt van θ.
In de onderstaande stelling nemen we onder andere aan dat de functie (x, θ) 7→
pθ (x) continu is op X × Θ. De likelihood
L(θ; X1 , . . . , Xn ) =
n
Y
pθ (Xi )
i=1
is dan een continue functie van θ (die afhangt van de observaties Xi ). Onder de
aanname dat Θ compact is, neemt de likelihood dus een maximale waarde aan in
een zeker punt in Θ. Dit punt is, per definitie, de Maximum Likelihood-schatter θ̂n .
Merk op dat de likelihood in meerdere punten een maximum kan hebben. In dat
geval definiëren we θ̂n als één van die punten.
Stelling 1.1. Stel dat Θ compact is, dat (x, θ) 7→ pθ (x) positief, continu en begrensd
is op X × Θ, en dat pθ 6= pθ0 als θ 6= θ0 . Dan geldt voor alle θ0 ∈ Θ dat
Pθ
θ̂n →0 θ0
als n → ∞. Dat wil zeggen dat voor alle ε > 0, Pθ0 (|θ̂n − θ0 | > ε) → 0 als n → ∞.
Bewijs. Neem θ0 ∈ Θ vast. Definieer mθ (x) = log pθ (x) en
n
Mn (θ) =
1X
mθ (Xi ),
n i=1
M (θ) = Eθ0 mθ (Xi ).
Merk op dat Mn gelijk is aan n−1 maal de log-likelihood, dus θ̂n is het (beter: een)
punt waar Mn maximaal is. Vanwege de wet van grote aantallen convergeert Mn (θ)
onder Pθ0 met kans één naar M (θ) voor iedere θ. In dit bewijs laten we zien dat het
punt waar Mn maximaal is “mee convergeert” naar het punt waar M maximaal is.
We bewijzen eerst dat M een uniek maximum heeft in het punt θ0 . Calculus
laat zien dat voor x > −1 geldt dat x ≤ (1+x) log(1+x). Voor willekeurige positieve
kansdichtheden g en h hebben we daarom
Z p
Z
Z
p
√ 2
√
gh = 2 (g − gh) =
( g − h) = 2 − 2
Z √ √
Z √ √
Z
√ g
g
g
g
g
g
2 √ √ − 1 h ≤ 2 √ √ log √ h = g log .
h
h
h
h
h
h
1
Er volgt dat voor alle θ ∈ Θ,
Z
M (θ0 ) − M (θ) =
pθ0 (x) log
Z
≥
pθ0 (x)
dx
pθ (x)
√
√
( pθ − pθ0 )2 ≥ 0.
Hieruit volgt ten eerste dat M maximaal is in θ0 . Verder zien we dat als M (θ) =
M (θ0 ) voor zekere θ ∈ Θ, dan is
Z p
p
( pθ (x) − pθ0 (x))2 dx = 0.
Vanwege de identificeerbaarheidsaanname kan dat alleen als θ = θ0 (check!). We
concluderen dat M een uniek maximum heeft in θ0 .
Voor U ⊂ Θ definiëren we nu mU (x) = supθ∈U mθ (x). We laten nu eerst zien
dat er voor iedere θ 6= θ0 een open omgeving Uθ ⊂ Θ bestaat zodanig dat
Eθ0 mUθ (X1 ) < M (θ0 ).
Neem voor het bewijs van deze bewering θ 6= θ0 en een rij open omgevingen Vl van
θ zodanig dat diam(Vl ) → 0. Vanwege de aangenomen continuı̈teit geldt dat voor
iedere x ∈ X ,
mVl (x) = sup mθ0 (x) → mθ (x)
θ 0 ∈Vl
voor l → ∞. De aannames impliceren dat puntsgewijs convergerende functies aan
de linkerkant uniform begrensd zijn door een constante. Vanwege de gedomineerde
convergentie stelling en de vorige alinea volgt daarom dat
Eθ0 mVl (X1 ) → Eθ0 mθ (X1 ) = M (θ) < M (θ0 )
als l → ∞. Voor l groot genoeg is de linkerkant dus strikt kleiner dan M (θ0 ),
waaruit de bewering volgt.
Voor het slot van het bewijs nemen we ε > 0 vast en definiëren we B = {θ ∈
Θ : |θ − θ0 | ≥ ε}. Deze verzameling is compact en wordt overdekt door de collectie
van open verzamelingen {Uθ , θ ∈ Θ}. Zij Uθ1 , . . . , Uθp een eindige deeloverdekking.
Dan geldt voor θ ∈ B dat er een j ∈ {1, . . . , p} is zodanig dat θ ∈ Uθj , en dus
mθ (x) ≤ mUθj (x). Het volgt dat
n
Mn (θ) =
n
n
1X
1X
1X
mθ (Xi ) ≤
mUθj (Xi ) ≤ max
mUθj (Xi ).
j=1,...,p
n i=1
n i=1
n i=1
De rechterkant hangt niet af van θ, dus we hebben ook
n
Pθ −b.z.
1X
mUθj (Xi ) 0→
max Eθ0 mUθj (X1 ) < M (θ0 )
j=1,...,p
j=1,...,p n
i=1
sup Mn (θ) ≤ max
θ∈B
als n → ∞. Omdat vanwege de wet van grote aantallen Mn (θ0 ) → M (θ0 ) in kans,
concluderen we dat
Pθ0 (|θ̂n − θ0 | ≥ ε) ≤ Pθ0 sup Mn (θ) ≥ Mn (θ0 ) → 0
θ∈B
als n → ∞.
Het bewijs van Stelling 1.1 gaat terug tot Wald (1949). De voorwaarden van
de stelling kunnen voor sommige concrete voorbeelden te restrictief zijn. Het is
mogelijk om consistentie van de meest aannemelijke schatter af te leiden onder
zwakkere voorwaarden. Dit vergt echter het gebruik van wiskundige technieken die
buiten het bestek van dit college vallen. Zie bijvoorbeeld Van der Vaart (1998) voor
meer informatie.
2
Asymptotische normaliteit
Laat weer X1 , X2 , . . . , Xn onafhankelijke stochastische variabelen zijn met dichtheid
pθ , voor θ ∈ Θ ⊂ R. We nemen nu meer “regulariteitsvoorwaarden” aan dan in de
vorige paragraaf. In het bijzonder nemen we aan dat log pθ differentieerbaar is en
dat de Fisher informatie (in één waarneming)
iθ = Varθ
∂
log pθ (X1 )
∂θ
eindig is.
Stelling 2.1. Onder regulariteitsvoorwaarden geldt onder Pθ0 dat
√
d
n(θ̂n − θ0 ) −→ N (0, i−1
θ0 )
als n → ∞. Dat wil zeggen dat voor alle x ∈ R,
p
niθ0 (θ̂n − θ0 ) ≤ x → Φ(x),
Pθ0
als n → ∞, met Φ(x) =
Rx
−∞
2
√1 e−y /2
2π
dy de standaard normale verdelingsfunctie.
∂
Schets van bewijs. Definieer `θ (x) = log pθ (x), `˙θ (x) = ∂θ
`θ (x) en `¨θ (x) =
∂ ˙
∂θ `θ (x). Onder voorwaarden geldt voor de MLS dat Sn (θ̂n ) = 0, met
Sn (θ) =
n
X
`˙θ (Xi )
(1)
i=1
de score functie. Een Taylor expansie van Sn rond θ0 geeft, met Ṡn (θ) =
∂
∂θ Sn (θ),
0 = Sn (θ̂n ) = Sn (θ0 ) + Ṡn (θ̄n )(θ̂n − θ0 ),
met θ̄n een punt tussen θ0 en θ̂n . Er volgt dat
√
n(θ̂n − θ0 ) =
−
−1 1
1
√ Sn (θ0 ).
Ṡn (θ̄n )
n
n
Voor de termen in de som (1) geldt (zie het bewijs van Cramér-Rao)
Eθ0 `˙θ0 (X1 ) = 0 en Varθ0 `˙θ0 (X1 ) = iθ0 . De centrale limietstelling impliceert dat
1
d
√ Sn (θ0 ) −→ N (0, iθ0 )
n
onder Pθ0 . De stelling in de vorige paragraaf laat zien dat the MLE consistent is
onder voorwaarden. In dat geval convergeert θ̄n in kans naar θ0 onder Pθ0 en dus
1
1
− Ṡn (θ̄n ) ≈ − Ṡn (θ0 )
n
n
voor grote n. Vanwege de wet van grote aantallen convergeert dit naar −Eθ0 `¨θ0 (X1 ).
Het differentiëren van de relatie
Z
`˙θ (x)pθ (x) dx = 0
naar θ laat zien dat −Eθ0 `¨θ0 (X1 ) = iθ0 (ga na!).
Alles samenvoegend zien we dat
√
d
−1
n(θ̂n − θ0 ) −→ i−1
θ0 N (0, iθ0 ) = N (0, iθ0 )
onder Pθ0 .
Een precies bewijs langs de geschetste lijnen kan gevonden worden in
Lehmann and Casella (1998). Ook hier geldt dat met behulp van meer geavanceerde
wiskundige middelen resultaten kunnen worden afgeleid onder zwakkere voorwaarden (cf. Van der Vaart (1998)).
Bibliografie
Lehmann, E. L. and Casella, G. (1998). Theory of point estimation. Springer-Verlag,
New York, second edition.
Van der Vaart, A. W. (1998). Asymptotic statistics. Cambridge University Press,
Cambridge.
Wald, A. (1949). Note on the consistency of the maximum likelihood estimate.
Ann. Math. Statistics 20, 595–601.