Transformacja zmiennych diagnostycznych, Miary podobieństwa .
Download
Report
Transcript Transformacja zmiennych diagnostycznych, Miary podobieństwa .
TRANSFORMACJA ZMIENNYCH
DIAGNOSTYCZNYCH
1
CELE TRANSFORMACJI
ujednolicenie charakteru zmiennych (postulat jednolitej preferencji),
doprowadzenie różnoimiennych zmiennych do wzajemnej porównywalności (postulat
addytywności),
zastąpienie zróżnicowanych zakresów zmienności poszczególnych zmiennych zakresem
stałym (postulat stałości rozstępu lub stałości wartości ekstremalnych),
wyeliminowanie z obliczeń wartości ujemnych (postulat dodatniości).
2
STYMULACJA ZMIENNYCH
Typy zmiennych:
stymulanty X S - zmienne, których wysokie wartości są pożądane z punktu widzenia
ogólnej charakterystyki badanego zjawiska
destymulanty X D - zmienne, których wysokie wartości są niepożądane z punktu widzenia
ogólnej charakterystyki badanego zjawiska
nominanty
X
N
- zmienne, których odchylenia od poziomu najkorzystniejszego
(optymalnego poziomu nasycenia), z punktu widzenia ogólnej, charakterystyki badanego
zjawiska są niepożądane
3
STYMULACJA DESTYMULANT
Przekształcenie ilorazowe
xijs b xijD
1
,
b>0,
gdzie:
xijD – wartość j-tej zmiennej destymulanty w i-tym obiekcie,
xijs – wartość j-tej zmiennej po transformacji w stymulantę w i-tym obiekcie,
b – stała przyjmowana w sposób arbitralny, najczęściej b=1.
Przekształcenie różnicowe
xijs a bxijD ,
b>0,
gdzie:
a, b – stałe przyjmowana w sposób arbitralny, najczęściej b=1 i a=0 lub a max xijD .
i
4
STYMULACJA NOMINANT
Przekształcenie ilorazowe
xijs
maxx
min x Nj ; xijN
N
N
j ; xij
,
gdzie:
x Nj – nominalna (pożądana) wartość j-tej zmiennej,
xijN – wartość j-tej nominanty w i-tym obiekcie.
Przekształcenie różnicowe
xijs xijN x Nj
5
NORMALIZACJA ZMIENNYCH
Ogólna formuła normalizacji zmiennych diagnostycznych:
p
xij a
,
z ij
b
i=1,2,..,n; j=1,2,...,m; b0,
gdzie:
zij – znormalizowana wartość j-tej zmiennej w i-tym obiekcie,
a, b, p – parametry normalizacyjne.
Standaryzacja
Cel: jest otrzymanie zmiennych o odchyleniu standardowym (standaryzacja klasyczna) lub
medianowym odchyleniu bezwzględnym (standaryzacja pozycyjna) równym 1.
6
Standaryzacja klasyczna
- dokonując standaryzacji klasycznej parametry normalizacyjne przyjmują najczęściej wartość:
p 1; a x j ; b S x j .
- formuła normalizacyjna ma wtedy postać:
xij x j
z ij
,
i=1,2,...,n; j=1,2,...,m.
S x j
- w wyniku standaryzacji klasycznej średnia arytmetyczna zmiennej przyjmuje wartość 0 a
odchylenie standardowe wartość 1.
Standaryzacja pozycyjna
- standaryzacji pozycyjnej dokonujemy przyjmując najczęściej następujące wartości parametrów:
p 1; a M x j ; b MOBx j .
- wzór na normalizację zmiennej przyjmuje postać:
xij M x j
z ij
,
i=1,2,...,n; j=1,2,...,m.
MOBx j
- medianowe odchylenie bezwzględne zmiennej wystandaryzowanej ma wtedy wartość 1.
7
Unitaryzacja
Cel: uzyskanie zmiennych o ujednoliconym zakresie zmienności, definiowanym przez różnicę
pomiędzy ich wartościami maksymalnymi i minimalnymi w ujęciu klasycznym lub maksimum z
medianowych odchyleń bezwzględnych w ujęciu pozycyjnym, równym stale 1.
Unitaryzacja klasyczna
W przypadku unitaryzacji klasycznej parametry normalizacyjne przyjmują najczęściej wartości:
0,
p 1; a max xij ; b max xij min xij ,
i
i
i
min
i xij .
- przykładowo przyjmując za parametr a minimalną wartość zmiennej zaobserwowaną w
porównywanych obiektach, ogólna formuła normalizacji przyjmuje postać:
zij
xij min xij
i
max xij min xij
i
,
i=1,2,...,n; j=1,2,...,m.
i
- w wyniku zastosowania powyższej formuły normalizacji otrzymujemy zmienne o wartościach
należących do przedziału [0;1].
8
Unitaryzacja pozycyjna
- stosując unitaryzację pozycyjną przyjmujemy najczęściej następujące wartości parametrów
normalizacyjnych:
p 1; a M x j ; b max xij M x j .
i
- ogólna formuła normalizacji ma wtedy postać:
zij
xij M x j
max xij M x j
i
,
i=1,2,...,n; j=1,2,...,m.
9
Przekształcenie ilorazowe
Ujęcie klasyczne
- w przypadku ujęcia klasycznego parametry normalizacyjne przyjmują najczęściej wartości:
x ,
j
p 1; a 0; b min xij ,
i
max
i xij .
- przykładowo przy przyjęciu jako punktu odniesienia wartości średniej arytmetycznej ogólna
formuła normalizacji ma postać:
xij
i=1,2,...,n; j=1,2,...,m.
zij ,
xj
Ujęcie pozycyjne
- parametry normalizacyjne w ujęciu pozycyjnym mają najczęściej wartości:
p 1; a 0; b M x j .
- ogólna formuła normalizacyjna przyjmuje postać:
z ij
xij
M x j
,
i=1,2,...,n; j=1,2,...,m.
10
Normalizacja rangowa
- w pierwszym etapie obiekty zostają uszeregowane według kryterium porządkującego ze
względu na daną zmienną
- następnie wariantom zmiennej nadawane są rangi, tzn. umowne wartości liczbowe, którymi
najczęściej są numery porządkowe miejsc zajmowanych przez obiekty w uporządkowanym
szeregu
- od strony formalnej formułę standaryzacyjną możemy przedstawić następująco:
z ij h dla
xhj xij ,
h,i=1,2,...,n.
gdzie:
h – ranga nadana i-temu obiektowi znajdującemu się na h-tym miejscu w uporządkowanym
szeregu obiektów ze względu na j-tą zmienną.
11
WYELIMINOWANIE Z OBLICZEŃ WARTOŚCI UJEMNYCH
zij ,gdy min zij 0
i, j
zi'
i 1,2,..., n; j 1,2,...m
z
,
gdy
min
z
0
ij
ij
i, j
gdzie:
min zij S zij ,
i, j
1
5
przy czym:
S(zij) – odchylenie standardowe obliczane ze wszystkich elementów macierzy danych
znormalizowanych
12
MIARY PODOBIEŃSTWA OBIEKTÓW
MIARA ODLEGŁOŚCI
miarą odległości pomiędzy obiektami i-tym i‘-tym nazywamy funkcję d spełniającą
następujące warunki:
dodatniość:
zwrotność:
symetria:
nierówność trójkąta:
d ii ' 0
d ii 0
d ii ' d i 'i
d ii ' d ii '' d i ''i '
gdzie:
d ii ' - odległość i-tego obiektu od i’-tego obiektu
wzrost wartości miary odległości oznacza zmniejszenie stopnia podobieństwa obiektów
MIARA BLISKOŚCI (ZGODNOŚCI)
miarą bliskości pomiędzy obiektami i-tym i‘-tym nazywamy funkcję p spełniającą
następujące warunki:
dodatniość:
zwrotność:
symetria:
pii ' 0
pii 1
pii ' pi 'i
wzrost wartości miary bliskości oznacza wzrost stopnia podobieństwa obiektów
13
PODSTAWOWE MIARY ODLEGŁOŚCI MIĘDZY OBIEKTAMI
Czynniki wpływające na wybór miary odległości:
- skale pomiaru zmiennych, gdy są one mierzone na tej samej skali,
- skale pomiaru zmiennych, gdy są one mierzone na różnych skalach pomiaru,
-
zastosowana formuła normalizacji wartości zmiennych.
14
MIARY ODLEGŁOŚCI OBIEKTÓW PRZY STOSOWANIU ZMIENNYCH MIERZONYCH
NA SKALI PRZEDZIAŁOWEJ LUB ILORAZOWEJ
Metryka Minkowskiego:
1
p
p
d ii ' z ij z i ' j w j ,
j 1
m
gdzie:
wj – waga j-tej zmiennej,
p – parametr będący liczbą naturalną.
Odległość Euklidesa (p=2):
1
2
m
d ii ' zij zi ' j 2
j 1
Odległość miejska (Manhattan, Hamminga) (p=1):
dii ' zij zi ' j
j 1
Odległość Czebyszewa ( p ):
d ii ' max z ij z ij '
j
15
Rys. 1.1. Odległości punktów według metryk euklidesowej, miejskiej i maksymalnej różnicy
na płaszczyźnie.
z2
z2
z2
z2
02
02
02
01
01
03
04
z1
03
01 03
04
z1
04
z1
Źródło: Opracowanie własne.
16
Odległość potęgowa:
1
b
a
d ii ' zij zi ' j
j 1
m
,
gdzie:
a, b – parametry sterujące wagami zmiennych.
Jeżeli parametry a i b są równe 2 odległość potęgowa jest równa odległości euklidesowej.
Odległość Mahalanobisa:
1
2
d ii ' s jj' xij xi ' j xij ' xi ' j '
j 1 j ' 1
m
m
,
gdzie:
sjj’ – jj’-ty element macierzy odwrotnej do macierzy kowariancji zbioru obserwacji S.
własności
- oparta na oryginalnych wartościach zmiennych
- ważona odległość euklidesowa, gdzie wagami są elementy odwrotne do macierzy kowariancji
17
MIARY ODLEGŁOŚCI OBIEKTÓW ZMIENNYCH MIERZONYCH
NA SKALI NOMINALNEJ
ZMIENNE WIELOSTANOWE
Niezgodność procentowa (miara Sokala i Michenera):
d ii '
m mr
m
,
gdzie:
mr – liczba zmiennych, dla których zachodzi relacja równości między obiektami.
18
ZMIENNE BINARNE
Wyróżnienie czterech typów liczebności zmiennych
m1,1 – liczebność zmiennych, dla których w porównywanych obiektach, występuje odpowiedni
wariant zmiennej (zgodność występowania)
m0,0 – liczebność zmiennych, dla których w porównywanych obiektach, nie występuje odpowiedni
wariant zmiennej (zgodność niewystępowania)
m1,0 – liczebność zmiennych, dla których w pierwszym z porównywanych obiektów, występuje
wariant danej zmiennej, a w drugim z nich wariant ten nie występuje (niezgodność występowania)
m0,1 – liczebność zmiennych, dla których w pierwszym z porównywanych obiektów, nie
występuje wariant danej zmiennej, a w drugim z nich wariant ten występuje (niezgodność
występowania)
19
Miara Sokala i Michenera (jednakowe wagi):
d ii '
m10 m 01
11
10
m m
m
01
m
00
1
m11 m 00
11
10
m m
m
01
m
00
.
Miara Czekanowskiego (zróżnicowane wagi):
d ii '
-
m10 m 01
2m11 m10 m 01
1
2m11
2m11 m10 m 01
.
obie miary odległości przyjmują wartość z przedziału [0; 1].
20
DROGI POSTĘPOWANIA
GDY ZMIENNE CHARAKTERYZUJĄCE OBIEKTY
MIERZONE SĄ NA RÓŻNYCH SKALACH:
korzystanie w analizie porównawczej wyłącznie ze zmiennych jednego typu (mierzonych na
tej samej skali) i odrzucenie innego typu zmiennych,
pominięcie faktu, że zmienne są mierzone na różnych skalach i stosowanie w analizach
metod właściwych dla jednego typu zmiennych,
przekształcenie zmiennych różnego typu tak aby były mierzone na tej samej skali,
zastosowanie uniwersalnych miar odległości między
wykorzystanie zmiennych mierzonych na różnych skalach.
obiektami,
dopuszczających
21
Uogólniona miara odległości Walesiaka
m
m
j 1
j 1 i"1
i"i ,i '
w j aii ' j bi 'ij
1
d ii '
2
n
w j aii '' j bi 'i" j
1
2
,
m n
m n
2
2 w j aii" j w j bi2'i" j
j 1 i"1
j 1 i"1
przy czym:
w j 0; m oraz
m
wj
m.
j 1
Podstawienia dla zmiennych mierzonych na skali ilorazowej lub przedziałowej:
aii* j xij xi* j dla i * i' , i" ,
bi 'i* j xi ' j xi* j dla i * i, i".
Podstawienia gdy zmienne mierzone są na skali porządkowej:
aii* j
1 dla xij xi* j ,
0 dla xij xi* j ,
1 dla x x ,
ij
i* j
i*=i’,i”,
bii* j
1 dla xi ' j xi* j ,
0 dla xi ' j xi* j ,
1 dla x x ,
i' j
i* j
i*=i,i”.
22
Podstawienia gdy zmienne mierzone są na skali nominalnej:
- dla porównywanych obiektów i oraz i’:
1 dla xij xi ' j ,
aii ' j bi 'ij
1 dla xij xi ' j ,
- dla pozostałych par obiektów:
aii" j bi 'i" j
xij , xi ' j xi" j
1
dla
x
x
ij
i' j
xij , xi ' j xi" j ,
xij , xi ' j xi" j
1 dla x x x x ; x x
ij
ij
i' j
i" j
i' j
i" j
xij xi" j ; xi ' j xi" j ,
i”=1,2,...n; i”i,i’.
23
MIARY ODLEGŁOŚCI STRUKTUR
Zastosowanie:
stosowane są w sytuacjach gdy obiekty są porównywane ze względu na jedno konkretne zjawisko
(np. strukturę wydatków gospodarstw domowych), a przedmiotem tego porównania jest
zróżnicowanie zbiorowości tych obiektów ze względu na kształtowanie się tego zjawiska
Warunki dla stosowania miar odległości struktur:
- wskaźniki struktury są unormowane w przedziale [0;1],
-
suma wartości wskaźników struktury dla danego obiektu równa jest jedności.
24
Miara Nowaka:
1 m min xij , xi ' j
d ii ' 1
,
m j 1 max xij , xi ' j
xij
lub xij ' 0 .
Miara ta jest unormowana w przedziale [0;1].
Miara Kukuły:
d ii ' 1 rii '
,
gdzie:
m
xij xi ' j
rii '
j 1
1
m
2
2
x
ij
j 1
1
2
.
m 2
xi ' j
j 1
Miara ta jest unormowana w przedziale [0;1].
Miara Chomątowskiego i Sokołowskiego:
d ii ' 1 min xij , xi ' j
j 1
25
MIARY BLISKOŚCI OBIEKTÓW
Miary bliskości obiektów przy zmiennych mierzonych na skali nominalnej
Współczynnik zbieżności Cramera:
r jj'
2
,
n m min 1
gdzie:
m min minm, m'.
Miara ta jest unormowana w przedziale [0;1].
Miary bliskości obiektów stosowane przy zmiennych mierzonych na skali porządkowej
Współczynnik korelacji rang:
n
r jj' 1
6 ci2
i 1
nn 1
,
gdzie:
ci – różnica pomiędzy rangami przyporządkowanymi i-temu obiektowi w obu uporządkowanych
ich ciągach.
26
Miary bliskości obiektów stosowane przy zmiennych mierzonych na skali ilorazowej lub
przedziałowej
Współczynnik korelacji liniowej Pearsona:
n
r jj'
xij x j xij ' x j '
i 1
S x j S x j '
,
Współczynnik ten jest unormowany w przedziale [-1;1].
27