Wyklad 8 (PowerPoint)
Download
Report
Transcript Wyklad 8 (PowerPoint)
Porównywanie modeli
Modele (hipotezy) zagnieżdżone
Model o mniejszej liczbie parametrów jest szczególnym
przypadkiem modelu o większej liczbie parametrów
x 1 2
y c1 exp
2
1
x 1 2
x 2 2
c2 exp
y c1 exp
2
2
1
2
m1 m2
m2 m1
F n m2 , m2 m1
,
m2
m2 m1
n m2
Stosujemy test F, porównując wariancję odpowiadającą dopasowaniu
rozszerzenia modelu 1 (uboższego) do reziduów z modelu 1 z
wariancją z modelu 2 (bogatszego). Uwaga! Nie można przy pomocy
tego testu porównywać wariancji z modelu 1 z wariancją z modelu 2 bo
modele te zawierają część wspólną.
Modele (hipotezy) niezagnieżdżone
Nie istnieje transformacja odwzorowująca jeden z porównywalnych modeli
w drugi. Modele te mogą zawierać taką samą lub różną liczbę parametrów.
W takim przypadku nie można używać “zwykłej” statystyki F do oceny,
który z modeli lepiej pasuje do danych doświadczalnych.
y (1) a0 a1 x a2 x 2
y ( 2 ) b1 exp b2 x
Można utworzyć model rozszerzony a następnie porównać z nim przy
pomocy testu F każdy z modeli cząstkowych. Często jednak okazuje się,
że żaden z modeli nie jest odróżnialny od modelu rozszerzonego.
y(12) a0 a1x a2 x2 b1 expb2 x
Sposób bardziej ogólny
n
n
yi f p, xi 1 yi g q, xi
i 1
2
2
i 1
0 1
Minimalizujemy F traktując parametry obu modeli (p i q) oraz
jako parametry minimalizacji. Następnie korzystamy z
testów statystycznych (np. testu Studenta) aby określić
przedział ufności ; kłopot powstaje jeżeli l wychodzi
statystycznie różne od 0 albo 1.
Zasada największej wiarygodności
(Maximum Likelihood Principle)
Mamy próbę (x1,x2,...,xn)
f(x,): funkcja określająca rozkład gęstości
prawdopodobieństwa, gdzie jest zestawem
parametrów rozkładu.
Zasada największej wiarygodności: najlepsze
maksymalizuje prawdopodobieństwo wystąpienia
próby.
Ta zasada jest podstawą wszystkich metod
estymowania parametrów rozkładu
prawdopodobieństwa (a zatem i modelu
matematycznego) z próby danych.
( j)
dP
f ( x , λ)dx
( j)
Ponieważ poszczególne elementy próby są niezależne
N
dP f ( x ( j ) ; λ )dx
j 1
N
Q
( j)
f
(
x
; λ1 )
j 1
N
( j)
f
(
x
;λ2)
L( λ 1 )
L( λ 2 )
iloraz wiarygodności
j 1
N
L f ( x( j) ; λ)
j 1
N
ln L f ( x ( j ) ; λ )
j 1
funkcja wiarygodności
Właściwości asymptotyczne funkcji wiarygodności
f ' ( x( j) ; )
0
' ( )
( j)
; ) *
j 1 f ( x
N
*
' ( ) ' (* ) ( * )' ' (* ) ( * )' ' (* )
Dla dużych prób
'
f '(x ; )
' ' ( )
( j)
; ) *
j 1 f ( x
N
( j)
*
1
( ) (* )
2 b2
* 2
f ' ( x ( j ) ; ) '
2
*
2
NE
NE
'
(
)
1
/
b
( j)
f
(
x
;
)
*
( * ) 2
L( ) k exp
2
2b
Przypadek wielowymiarowy
2
p
p
1
(λ ) (λ * )
2 k 1 l 1 k l
(k *k )(l *l )
λ*
1
( λ * ) ( λ λ * )T A ( λ λ * )
2
2
2
2
2
12
1 p
1
2
2
2
2
A 2 1
2
2 p
2
2
2
2
p
p 1 p 2
Dla dużych prób rozkład parametrów staje się rozkładem
normalnym z macierzą wariancji-kowariancji B.
1
L k exp (λ λ * )T B(λ λ * )
2
2
2
E
E
2
1
12
2
2
E 2
B E ( A) E
2
2 1
2
2
E
E
p
1
p
2
2
E
1 p
2
E
2 p
2
E 2
p
Jeżeli jednak liczebność próby jest ograniczona to
odchylenia od normalności rozkładu mogą być znaczne.
Przykład zastosowania zasady największej wiarygodności:
obliczanie wartości średniej przy założeniu, że rozkład
prawdopodobieństwa jest rozkładem normalnym
( j)
2
(
x
)
dx
f ( x ( j ) ; )dx
exp
2
2 j
2 j
N
( x( j) )2
1
L
exp
2
2 j
2 j
j 1
N
N
1 N ( x( j) )2
( ) ln L ln(2 ) ln j
2
2
2
2
j 1
j 1
j
1
N
d
d
*
N
x ( j ) *
j 1
2j
0
*
x( j)
j 1
N
1
j 1
2
j
2
j
Test ilorazu wiarygodności Coxa
TF LF αˆ LG βˆ Eαˆ LF αˆ LG βˆ
n
LF αˆ ln F αˆ , x i ,
i 1
n
Lg βˆ ln G βˆ , x i
i 1
F αˆ , x
ˆ
Eαˆ LF αˆ LG β n F αˆ , x ln
dx
G β α , x i
LF – wartość funkcji wiarygodności dla hipotezy HF
LG – wartość ilorazu wiarygodności dla hipotezy HG.
var(TF ) n var(F G) log Fi
2
i
kl
log Fi
l
Jeżeli hipoteza Hf jest prawdziwa, to zmienna Tf ma rozkład
normalny z wartością średnią 0 i wariancją daną powyższym
wzorem. W przeciwnym przypadku Tf jest istotnie mniejsze od 0.
Uwaga! W przypadku gdy funkcja rozkładu gęstości
prawdopodobieństwa odpowiada regresji jej logarytm jest minus
sumą kwadratów odchyleń!
Przypadek regresji
yi f α, x i 2
Fi exp
,
2
2
yi g β, xi 2
Gi exp
2
2
1 n
Tn d y, x t , α, β d f α, x t enj , x t , α, β
n j 1
t 1
eni yi f α, xi
n
1
2
2
d y, x, α, β y f α, x y f β, x
2
Wariancja Tn
nVTn var f g f f g J J f
2
f
2
T
n
1
2
2
f yi f α, x i
n i 1
1 n
2
var f g f α, x i g β, x i
n i 1
f ij
f i
,
j
J
T
f
J f
ij
f i f i
k 1 k l
n
T
f
f f g
1
Literatura na temat testu Coxa
Podstawowe sformułowanie dla przypadków ogólnych:
D.R. Cox, Tests of separate families of hypotheses. Proc. 4th Berkeley
Symp. 1, 105-123 (1961).
D.R. Cox, Further results of separate families of hypotheses. J. Royal Stat.
Soc. B, 24, 406-424 (1962).
Porównywanie różnych modeli regresji liniowej:
G.R. Fisher, Tests for two separate regressions, J. Econom., 21, 117-132
(1983)
Porównywanie różnych modeli regresji nieliniowej:
V. Aguirre-Torres, R. Gallant, The null and non-null asymptotic distribution
of the Cox test for multivariate nonlinear regression. J. Econometrics, 21,
5-33 (1983).
Programy na zaliczenie
1. Program regresji liniowej y=ax+b w przypadku gdy obie
zmienne są obarczone błędem.
2. Program obliczający poziom ufności w teście Coxa
porównywania dwóch niezagnieżdżonych modeli regresji
(liniowej lub nieliniowej).
3. Program dopasowujący sumę gaussianów do widma
absorpcyjnego metodą regresji nieliniowej.