Porównanie symulacyjne wybranych testów wielowymiarowej

Download Report

Transcript Porównanie symulacyjne wybranych testów wielowymiarowej

Porównanie symulacyjne
wybranych testów
wielowymiarowej normalności w
modelu liniowym
Zofia Hanusz i Joanna Tarasińska
Uniwersytet Przyrodniczy w Lublinie
WISŁA 2010
1
Testy do badania p - wymiarowej
normalności
p=2 (T. Ledwina, T. Inglot, M. Bogdan)
p2
Metody graficzne: Metody analityczne:
- uogólniające test Shapiro-Wilka
Q-Q
(Srivastava, Royston, Srivastava & Hui),
P-P
- uogólniające testy oparte na kurtozie
i skośności (Mardia, Small, Malkovich,
Afifi)
- oparte na funkcji charakterystycznej
(Arcones)
2
Tematyka badań
• Propozycja testu do badania wielowymiarowej
normalności, opartego na teście Shapiro-Wilka
• Rozważenie wielowymiarowego liniowego
modelu obserwacji
• Porównanie testu z dwoma innymi testami także
opartymi na teście Shapiro-Wilka
zaproponowanymi przez Srivastavę i Hui
• Porównanie poziomu istotności i mocy
powyższych testów z testem Henze-Zirklera
3
Model
 1n 0 n 0 n 
 1 1 1
X  0 n2 1n2 0 n2 
 0 n3 0 n3 1n3 
Y  X B E
n p
n3 3 p

B  μ1 μ 2 μ 3 
ˆ  Y  XXX XY
H0: reszty E
1
Poziom istotności


 Y1  ~ N p (μ1, Σ)
 n1 p 
Y   Y2  ~ N p (μ2 , Σ)
n p  n  p 
2
 Y  ~ N (μ , Σ)
p 3
 n 3p 
 3 
n p


Ei ~ N p  0, Σ  i  1,, n
 p p 
1 p
Moc
MPII(0) – jednostajny na elipsie
MPVII(2) – wielowymiarowy t
Mieszanina rozkładów normalnych
4
Test Shapiro-Wilka
x1, x2 ,, xn - niezależne zmienne losowe o tym
samym rozkładzie

H 0 : x1, x2 ,, xn ~ N , 2

Statystyka Shapiro-Wilka (Shapiro, Wilk, 1965) :
W
1
2


x

x
 j
n
j 1
n

 a j ,n x j  
 j 1

2
Wartości
z tablic
x(1)  x( 2)    x(n) - wartości uporządkowane
5
Shapiro i Wilk (1968) zaproponowali przekształcenie
W   
G W      ln

 1W 
H0
as
~ N 0,1
, ,  – stałe z tablic zależne od n.
Małe wartości statystyki wskazują brak
normalności zmiennych.
6
Adaptacja statystyki G(W) do
zmiennych wielowymiarowych
Srivastava i Hui (1987) zaproponowali uogólnienie testu
Shapiro – Wilka, wykorzystując składowe główne.
H0 : x1, x2 ,, xn ~ N p μ, Σ
1 n
x  x j
n j 1


1 n

S   x j  x x j  x 
n j 1
H  h1,, h p - macierzortogonalna, takaże S  HΛH
yij  hi x j i  1,, p j  1,, n
7
2
Niech

1 n
W i  
 a j yi  j   , i  1,  , p
n i  j 1


W(i) są asymptotycznie niezależne
as
Gi  G W i  ~ N (0,1)
Gi  ~ jednostajny
 2 lnGi  ~ 22
Srivastava i Hui (1987) do testowania H0 zaproponowali
p
H0
as
M1  2 lnGi  ~  22 p
i 1
Duże wartości M1 świadczą o braku normalności.
8
Srivastava i Hui (1987) zaproponowali także statystykę
M 2  min W i 
i 1,, p
która przy prawdziwości hipotezy H0 ma przybliżony
rozkład:
PrM 2  x  1  1  Gx
p
Test odrzuca normalność dla małych M2 .
9
Nasza propozycja:
V
pG
1 p
G   Gi
p i 1
 W i    
Gi     ln

 1  W i  
Gi są asymptotycznie niezależne
H0
as
Gi 
~ N 0,1
H0
as
V
p G ~ N 0,1
Lewy „ogon” rozkładu normalnego standardowego
wskazuje na brak normalności.
10
Shapiro-Wilk Royston
-0,3964
-0,2737
-0,2368
-0,2098
-0,1878
-0,1691
-0,1526
-0,1376
-0,1237
-0,1108
-0,0986
-0,0870
-0,0759
-0,0651
-0,0546
-0,0444
-0,0343
-0,0244
-0,0146
-0,0049
0,0049
0,0146
0,0244
0,0343
0,0444
0,0546
0,0651
0,0759
0,0870
0,0986
0,1108
0,1237
0,1376
0,1526
0,1691
0,1878
0,2098
0,2368
0,2737
0,3964
-0,378623
-0,281638
-0,240640
-0,213270
-0,191068
-0,172070
-0,155252
-0,140012
-0,125959
-0,112827
-0,100422
-0,088599
-0,077247
-0,066276
-0,055611
-0,045191
-0,034961
-0,024873
-0,014885
-0,004955
0,004955
0,014885
0,024873
0,034961
0,045191
0,055611
0,066276
0,077247
0,088599
0,100422
0,112827
0,125959
0,140012
0,155253
0,172070
0,191068
0,213270
0,240640
0,281638
0,378623
Shapiro-Wilk
Royston
0,2737
0,3964
Rozbieżności
0,281638
0,378623
0,055
0,05
M1
M2
0,045
V
H-Z
0,04
0,035
20
1
10
10
10
2
20
10
10
3
10
20
20
4
10
10
10
5
20
10
10
6
10
20
20
7
10
10
10
8
20
10
10
109
20
1  10
 
 2  12 
 
 3   23 
 
0,05
0,045
M1
0,04
M2
0,035
V
0,03
H-Z
0,025
0,02
20
10
1
10
10
20
2
10
Σ  Ip
10
10
3
20
20
10
4
10
10
20
5
10
10
10
6
20
1,0 0,9
Σ  
0,9 5,0 
20
7
10
10
10
8
20
10
10
9
10
20
1,0 2,9
Σ  
2,9 9,0 
11
0,055
ai z Tablicy
Shapiro-Wilka
0,05
M1
M2
0,045
V
H-Z
0,04
0,035
20
1
10
10
10
2
20
10
10
3
10
20
20
4
10
10
10
5
20
10
10
6
10
20
20
710
10
10
8
20
10
10
9
10
20
0,055
ai według
Roystona
0,05
0,045
M1
0,04
M2
0
μ1  10
 

μ 2  10
20
20
μ 3  30
 
V
0,035
H-Z
0,03
0,025
0,02
20
1
10
10
10
2
20
10
Σ  Ip
10
3
10
20
20
4
10
10
10
5
20
10
10
6
10
20
20
7
10
10
10
8
20
10
10
9
10
20
2  3
 4 9
Σ  
Σ

9 25
 3 8
12
MPII(0) – jednostajny na elipsie
1
0,8
ai według
Roystona
M1
0,6
M2
0,4
V
0,2
0
20
1
10
10
10
2
20
10
10
103
20
20
4
10
10
10
5
20
10
10
106
20
20
10 7
10
10
10
20 8 10 9
10
20
μ1  10
 
H-Z
μ 2  12 
 
μ 3   23 
 
1
ai z Tablicy
Shapiro-Wilka
0,8
M1
0,6
M2
0,4
V
H-Z
0,2
0
20
1
10
10
10
2
20
10
Σ  Ip
10
103
20
20
4
10
10
10
5
20
10
10
106
20
1,0 0,9
Σ  
0,9 5,0 
20
10
10
10 7 20 8 10 9
10
10
20
1,0 2,9
Σ  
2,9 9,0 
13
1
0,8
ai według
Roystona
M1
0,6
M2
0,4
V
H-Z
0,2
0
20
10
1
10
10
20
2
10
10
10
3
20
20
10
4
10
10
20
5
10
10
10
6
20
20
10 7
10
10
20 8
10
10
10 9
20
1
0,8
ai z Tablicy
Shapiro-Wilka
M1
0,6
M2
0,4
V
H-Z
0,2
0
0
μ1  10
 

μ 2  10
20
20
μ 3  30
 
20
10
1
10
10
20
2
10
Σ  Ip
10
10
3
20
20
10
4
10
10
20
5
10
10
10
6
20
20
10 7
10
10
20 8
10
10
10 9
20
2  3
 4 9
Σ  
Σ

9 25
 3 8
14
MPVII – wielowymiarowy t
0,9
ai według
Roystona
M1
0,85
M2
V
0,8
0,75
ai z Tablicy
Shapiro-Wilka
H-Z
20
1
10
10
10
2
20
10
10
3
10
20
20
4
10
10
10
520
10
10
6
10
20
20
107
10
10
208
10
10
109
20
0,9
μ1  10
 
μ 2  12 
 
μ 3   23 
 
0,88
M1
0,86
M2
0,84
V
H-Z
0,82
0,8
20
1
10
10
10
2
20
10
Σ  Ip
10
3
10
20
20
410
10
10
520
10
10
610
20
1 0,9
Σ  
0,9 5 
20
107
10
10
208
10
10
109
20
1 2,9
Σ  
2,9 9 
15
0,9
0,88
ai według
Roystona
M1
0,86
M2
0,84
V
H-Z
0,82
0,8
20
1
10
10
10
2
20
10
10
3
10
20
20
410
10
10
520
10
10
610
20
20
107
10
10
208
10
10
109
20
0,9
0,88
ai z Tablicy
Shapiro-Wilka
0
μ1  10
 

μ 2  10
20
20
μ 3  30
 
M1
0,86
M2
0,84
V
0,82
H-Z
0,8
0,78
20
10
1
10
10
20
2
10
Σ  Ip
10
10
3
20
20
410
10
10
520
10
10
610
20
20
107
10
10
208
10
10
109
20
2  3
 4 9
Σ  
Σ

9 25
 3 8
16
Mieszanina rozkładów normalnych
1
0,8
M1
ai według
Roystona
0,6
M2
0,4
V
H-Z
0,2
0
20
1
10
10
10
2
20
10
10
103
20
20
4
10
10
10
5
20
10
10 20
106 10 7
20 10
10
10
20 8 10 9
10
20
1
ai z Tablicy
Shapiro-Wilka
μ1  10
 
μ 2  12 
 
μ 3   23 
 
0,8
M1
0,6
M2
0,4
V
H-Z
0,2
0
20
10
1
10
10
20
2
10
Σ  Ip
10
103
20
20
4
10
10
10
5
20
10
10
106
20
1 0,9
Σ  
0,9 5 
20
10
10
10 7 20 8 10 9
10
10
20
1 2,9
Σ  
2,9 9 
17
1
0,8
ai według
Roystona
M1
0,6
M2
0,4
V
H-Z
0,2
0
20
1
10
10
10
2
20
10
10
3
10
20
20
410
10
10
520
10
10
610
20
20
107
10
10
208
10
10
109
20
1
0,8
ai z Tablicy
Shapiro-Wilka
M1
0,6
M2
0,4
V
H-Z
0,2
0
0
μ1  10
 

μ 2  10
20
20
μ 3  30
 
20
10
1
10
10
20
2
10
Σ  Ip
10
10
3
20
20
410
10
10
520
10
10
610
20
2  3
Σ  
 3 8
20
7
10
10
10
8
20
10
10
9
10
20
9
Σ  4
9 25
18
μ1  10
 
μ 2  12 
 
μ 3   23 
 
1 0,9
Σ  
0,9 5 
1 2,9
Σ  
2,9 9 
19
Empiryczny poziom istotności dla
różnych liczebności (a=0,05)
0,06
0,05
M1
M2
0,04
V
H-Z
0,03
0,02
15
p=2
18
21
24
27
30
33
36
39

μ1  10 μ 2  12 μ 3  2
 
3
 
42
45
48
Σ  I2
20
Moc dla różnych liczebności (a=0,05)
0,9
0,8
0,7
0,6
0,5
0,4
0,3
0,2
0,1
0
M1
MPII
M2
V
H-Z
15
18
21
24
27
30
33
36
39
42
45
48
1
MPVII
0,8
M1
0,6
M2
0,4
V
H-Z
0,2
0
15
18
21
24
27
30
33
36
39
42
45
48
0,35
0,3
0,25
M1
0,2
M2
0,15
Mieszanina
V
0,1
H-Z
0,05
0
15
18
21
24
27
30
33
36
39
42
45
48
21
Wnioski
− Test Henze-Zirklera najlepiej zachowuje poziom istotności
- W testach bazujących na wartościach obliczanych według
Roystona (1992), test Henze-Zirklera okazał się lepszy od
trzech pozostałych dla MPII i MPVII
- Dla MPII test oparty na średniej statystyk G(W) wykazywał
się wyższą mocą niż M1 i M2
- Małą moc wszystkich testów uzyskano dla mieszaniny
rozkładów normalnym dla danych o niskiej korelacji
22
Literatura
1. Hanusz Z., Tarasińska J. (2009). Simulation study for a test of
multivariate normality based on Shapiro-Wilk’s statistic.
Colloquium Biometricum 39, 45-51.
2. Johnson M.E.(1987). Multivariate Statistical Simulation, J. Wiley
and Sons.
3. Royston P. (1992). Approximation the Shapiro-Wilk W- test for
non-normality, Statistics and Computing 2, 117-119.
4. Shapiro S.S., Wilk M.B. (1965). An analysis of variance test for
normality (complete samples). Biometrika 52, 591-611.
5. Shapiro S.S., Wilk M.B. (1968). Approximations for the null
distribution of the W statistic. Technometrics 10, 861-866.
6. Srivastava M.S., Hui T.K. (1987). On assessing multivariate
normality based on Shapiro-Wilk W statistic. Statistics &
Probability Letters 5, 15-18.
23