Transformacja zmiennych diagnostycznych, Miary podobieństwa .

Download Report

Transcript Transformacja zmiennych diagnostycznych, Miary podobieństwa .

TRANSFORMACJA ZMIENNYCH
DIAGNOSTYCZNYCH
1
CELE TRANSFORMACJI
 ujednolicenie charakteru zmiennych (postulat jednolitej preferencji),
 doprowadzenie różnoimiennych zmiennych do wzajemnej porównywalności (postulat
addytywności),
 zastąpienie zróżnicowanych zakresów zmienności poszczególnych zmiennych zakresem
stałym (postulat stałości rozstępu lub stałości wartości ekstremalnych),
 wyeliminowanie z obliczeń wartości ujemnych (postulat dodatniości).
2
STYMULACJA ZMIENNYCH
Typy zmiennych:
 
 stymulanty X S - zmienne, których wysokie wartości są pożądane z punktu widzenia
ogólnej charakterystyki badanego zjawiska
 
 destymulanty X D - zmienne, których wysokie wartości są niepożądane z punktu widzenia
ogólnej charakterystyki badanego zjawiska
 nominanty
X 
N
- zmienne, których odchylenia od poziomu najkorzystniejszego
(optymalnego poziomu nasycenia), z punktu widzenia ogólnej, charakterystyki badanego
zjawiska są niepożądane
3
STYMULACJA DESTYMULANT
Przekształcenie ilorazowe
 
xijs  b xijD
1
,
b>0,
gdzie:
xijD – wartość j-tej zmiennej destymulanty w i-tym obiekcie,
xijs – wartość j-tej zmiennej po transformacji w stymulantę w i-tym obiekcie,
b – stała przyjmowana w sposób arbitralny, najczęściej b=1.
Przekształcenie różnicowe
xijs  a  bxijD ,
b>0,
gdzie:
 
a, b – stałe przyjmowana w sposób arbitralny, najczęściej b=1 i a=0 lub a  max xijD .
i
4
STYMULACJA NOMINANT
Przekształcenie ilorazowe
xijs


maxx
min x Nj ; xijN
N
N
j ; xij
,

gdzie:
x Nj – nominalna (pożądana) wartość j-tej zmiennej,
xijN – wartość j-tej nominanty w i-tym obiekcie.
Przekształcenie różnicowe
xijs   xijN  x Nj
5
NORMALIZACJA ZMIENNYCH
Ogólna formuła normalizacji zmiennych diagnostycznych:
p
 xij  a 
 ,
z ij  
b


i=1,2,..,n; j=1,2,...,m; b0,
gdzie:
zij – znormalizowana wartość j-tej zmiennej w i-tym obiekcie,
a, b, p – parametry normalizacyjne.
Standaryzacja
Cel: jest otrzymanie zmiennych o odchyleniu standardowym (standaryzacja klasyczna) lub
medianowym odchyleniu bezwzględnym (standaryzacja pozycyjna) równym 1.
6
Standaryzacja klasyczna
- dokonując standaryzacji klasycznej parametry normalizacyjne przyjmują najczęściej wartość:
p  1; a  x j ; b  S x j  .
- formuła normalizacyjna ma wtedy postać:
xij  x j
z ij 
,
i=1,2,...,n; j=1,2,...,m.
S x j 
- w wyniku standaryzacji klasycznej średnia arytmetyczna zmiennej przyjmuje wartość 0 a
odchylenie standardowe wartość 1.
Standaryzacja pozycyjna
- standaryzacji pozycyjnej dokonujemy przyjmując najczęściej następujące wartości parametrów:
p  1; a  M x j ; b  MOBx j .
- wzór na normalizację zmiennej przyjmuje postać:
xij  M x j 
z ij 
,
i=1,2,...,n; j=1,2,...,m.
MOBx j 
- medianowe odchylenie bezwzględne zmiennej wystandaryzowanej ma wtedy wartość 1.
7
Unitaryzacja
Cel: uzyskanie zmiennych o ujednoliconym zakresie zmienności, definiowanym przez różnicę
pomiędzy ich wartościami maksymalnymi i minimalnymi w ujęciu klasycznym lub maksimum z
medianowych odchyleń bezwzględnych w ujęciu pozycyjnym, równym stale 1.
Unitaryzacja klasyczna
W przypadku unitaryzacji klasycznej parametry normalizacyjne przyjmują najczęściej wartości:
 0,

p  1; a  max xij ; b  max xij  min xij ,
i
i
i
min


 i xij .
- przykładowo przyjmując za parametr a minimalną wartość zmiennej zaobserwowaną w
porównywanych obiektach, ogólna formuła normalizacji przyjmuje postać:
zij 
xij  min xij 
i
max xij  min xij 
i
,
i=1,2,...,n; j=1,2,...,m.
i
- w wyniku zastosowania powyższej formuły normalizacji otrzymujemy zmienne o wartościach
należących do przedziału [0;1].
8
Unitaryzacja pozycyjna
- stosując unitaryzację pozycyjną przyjmujemy najczęściej następujące wartości parametrów
normalizacyjnych:


p  1; a  M x j ; b  max xij  M x j  .
i
- ogólna formuła normalizacji ma wtedy postać:
zij 
xij  M x j 

max xij  M x j 
i
,
i=1,2,...,n; j=1,2,...,m.
9
Przekształcenie ilorazowe
Ujęcie klasyczne
- w przypadku ujęcia klasycznego parametry normalizacyjne przyjmują najczęściej wartości:
 x ,
j

p  1; a  0; b   min xij ,
i
max
 i xij .
- przykładowo przy przyjęciu jako punktu odniesienia wartości średniej arytmetycznej ogólna
formuła normalizacji ma postać:
xij
i=1,2,...,n; j=1,2,...,m.
zij  ,
xj
Ujęcie pozycyjne
- parametry normalizacyjne w ujęciu pozycyjnym mają najczęściej wartości:
p  1; a  0; b  M x j  .
- ogólna formuła normalizacyjna przyjmuje postać:
z ij 
xij
M x j 
,
i=1,2,...,n; j=1,2,...,m.
10
Normalizacja rangowa
- w pierwszym etapie obiekty zostają uszeregowane według kryterium porządkującego ze
względu na daną zmienną
- następnie wariantom zmiennej nadawane są rangi, tzn. umowne wartości liczbowe, którymi
najczęściej są numery porządkowe miejsc zajmowanych przez obiekty w uporządkowanym
szeregu
- od strony formalnej formułę standaryzacyjną możemy przedstawić następująco:
z ij  h dla
xhj  xij ,
h,i=1,2,...,n.
gdzie:
h – ranga nadana i-temu obiektowi znajdującemu się na h-tym miejscu w uporządkowanym
szeregu obiektów ze względu na j-tą zmienną.
11
WYELIMINOWANIE Z OBLICZEŃ WARTOŚCI UJEMNYCH
 
 
 zij ,gdy min zij  0

i, j
zi'  
i  1,2,..., n; j  1,2,...m
z


,
gdy
min
z

0
ij
 ij
i, j

gdzie:
 
   min zij  S zij  ,
i, j
1
5
przy czym:
S(zij) – odchylenie standardowe obliczane ze wszystkich elementów macierzy danych
znormalizowanych
12
MIARY PODOBIEŃSTWA OBIEKTÓW
MIARA ODLEGŁOŚCI
 miarą odległości pomiędzy obiektami i-tym i‘-tym nazywamy funkcję d spełniającą
następujące warunki:
dodatniość:
zwrotność:
symetria:
nierówność trójkąta:
d ii '  0
d ii  0
d ii '  d i 'i
d ii '  d ii ''  d i ''i '
gdzie:
d ii ' - odległość i-tego obiektu od i’-tego obiektu
 wzrost wartości miary odległości oznacza zmniejszenie stopnia podobieństwa obiektów
MIARA BLISKOŚCI (ZGODNOŚCI)
 miarą bliskości pomiędzy obiektami i-tym i‘-tym nazywamy funkcję p spełniającą
następujące warunki:
dodatniość:
zwrotność:
symetria:
pii '  0
pii  1
pii '  pi 'i
 wzrost wartości miary bliskości oznacza wzrost stopnia podobieństwa obiektów
13
PODSTAWOWE MIARY ODLEGŁOŚCI MIĘDZY OBIEKTAMI
Czynniki wpływające na wybór miary odległości:
- skale pomiaru zmiennych, gdy są one mierzone na tej samej skali,
- skale pomiaru zmiennych, gdy są one mierzone na różnych skalach pomiaru,
-
zastosowana formuła normalizacji wartości zmiennych.
14
MIARY ODLEGŁOŚCI OBIEKTÓW PRZY STOSOWANIU ZMIENNYCH MIERZONYCH
NA SKALI PRZEDZIAŁOWEJ LUB ILORAZOWEJ
Metryka Minkowskiego:
1
p

p
d ii '   z ij  z i ' j w j  ,
 j 1

m
gdzie:
wj – waga j-tej zmiennej,
p – parametr będący liczbą naturalną.
Odległość Euklidesa (p=2):
1
2
m
d ii '    zij  zi ' j 2 
 j 1

Odległość miejska (Manhattan, Hamminga) (p=1):
dii '   zij  zi ' j
j 1
Odległość Czebyszewa ( p   ):
d ii '  max z ij  z ij '
j
15
Rys. 1.1. Odległości punktów według metryk euklidesowej, miejskiej i maksymalnej różnicy
na płaszczyźnie.
z2
z2
z2
z2
02
02
02
01
01
03
04
z1
03
01 03
04
z1
04
z1
Źródło: Opracowanie własne.
16
Odległość potęgowa:
1
b
a

d ii '    zij  zi ' j 
 j 1

m
,
gdzie:
a, b – parametry sterujące wagami zmiennych.
Jeżeli parametry a i b są równe 2 odległość potęgowa jest równa odległości euklidesowej.
Odległość Mahalanobisa:
1
2

d ii '     s jj' xij  xi ' j xij '  xi ' j ' 
 j 1 j ' 1

m
m
,
gdzie:
sjj’ – jj’-ty element macierzy odwrotnej do macierzy kowariancji zbioru obserwacji S.
 własności
- oparta na oryginalnych wartościach zmiennych
- ważona odległość euklidesowa, gdzie wagami są elementy odwrotne do macierzy kowariancji
17
MIARY ODLEGŁOŚCI OBIEKTÓW ZMIENNYCH MIERZONYCH
NA SKALI NOMINALNEJ
ZMIENNE WIELOSTANOWE
Niezgodność procentowa (miara Sokala i Michenera):
d ii '
m  mr

m
,
gdzie:
mr – liczba zmiennych, dla których zachodzi relacja równości między obiektami.
18
ZMIENNE BINARNE
Wyróżnienie czterech typów liczebności zmiennych
m1,1 – liczebność zmiennych, dla których w porównywanych obiektach, występuje odpowiedni
wariant zmiennej (zgodność występowania)
m0,0 – liczebność zmiennych, dla których w porównywanych obiektach, nie występuje odpowiedni
wariant zmiennej (zgodność niewystępowania)
m1,0 – liczebność zmiennych, dla których w pierwszym z porównywanych obiektów, występuje
wariant danej zmiennej, a w drugim z nich wariant ten nie występuje (niezgodność występowania)
m0,1 – liczebność zmiennych, dla których w pierwszym z porównywanych obiektów, nie
występuje wariant danej zmiennej, a w drugim z nich wariant ten występuje (niezgodność
występowania)
19
Miara Sokala i Michenera (jednakowe wagi):
d ii ' 
m10  m 01
11
10
m m
m
01
m
00
 1
m11  m 00
11
10
m m
m
01
m
00
.
Miara Czekanowskiego (zróżnicowane wagi):
d ii ' 
-
m10  m 01
2m11  m10  m 01
 1
2m11
2m11  m10  m 01
.
obie miary odległości przyjmują wartość z przedziału [0; 1].
20
DROGI POSTĘPOWANIA
GDY ZMIENNE CHARAKTERYZUJĄCE OBIEKTY
MIERZONE SĄ NA RÓŻNYCH SKALACH:
 korzystanie w analizie porównawczej wyłącznie ze zmiennych jednego typu (mierzonych na
tej samej skali) i odrzucenie innego typu zmiennych,
 pominięcie faktu, że zmienne są mierzone na różnych skalach i stosowanie w analizach
metod właściwych dla jednego typu zmiennych,
 przekształcenie zmiennych różnego typu tak aby były mierzone na tej samej skali,
 zastosowanie uniwersalnych miar odległości między
wykorzystanie zmiennych mierzonych na różnych skalach.
obiektami,
dopuszczających
21
Uogólniona miara odległości Walesiaka
m
m
j 1
j 1 i"1
i"i ,i '
 w j aii ' j bi 'ij  
1
d ii '  
2
n
 w j aii '' j bi 'i" j
1
2
,
m n
m n
2
2  w j aii" j    w j bi2'i" j 
 j 1 i"1

j 1 i"1
przy czym:
w j  0; m oraz
m
wj
 m.
j 1
 Podstawienia dla zmiennych mierzonych na skali ilorazowej lub przedziałowej:
aii* j  xij  xi* j dla i *  i' , i" ,
bi 'i* j  xi ' j  xi* j dla i *  i, i".
 Podstawienia gdy zmienne mierzone są na skali porządkowej:
aii* j
 1 dla xij  xi* j ,

  0 dla xij  xi* j ,
 1 dla x  x ,
ij
i* j

i*=i’,i”,
bii* j
 1 dla xi ' j  xi* j ,

  0 dla xi ' j  xi* j ,
 1 dla x  x ,
i' j
i* j

i*=i,i”.
22
 Podstawienia gdy zmienne mierzone są na skali nominalnej:
- dla porównywanych obiektów i oraz i’:
 1 dla xij  xi ' j ,
aii ' j bi 'ij  
 1 dla xij  xi ' j ,
- dla pozostałych par obiektów:
aii" j bi 'i" j

xij , xi ' j  xi" j 
1
dla
x

x



ij
i' j
 xij , xi ' j  xi" j ,


 xij , xi ' j  xi" j 

 1 dla x  x   x  x ; x  x 
 ij
ij
i' j
i" j
i' j
i" j



 xij  xi" j ; xi ' j  xi" j ,
i”=1,2,...n; i”i,i’.
23
MIARY ODLEGŁOŚCI STRUKTUR
Zastosowanie:
stosowane są w sytuacjach gdy obiekty są porównywane ze względu na jedno konkretne zjawisko
(np. strukturę wydatków gospodarstw domowych), a przedmiotem tego porównania jest
zróżnicowanie zbiorowości tych obiektów ze względu na kształtowanie się tego zjawiska
Warunki dla stosowania miar odległości struktur:
- wskaźniki struktury są unormowane w przedziale [0;1],
-
suma wartości wskaźników struktury dla danego obiektu równa jest jedności.
24
Miara Nowaka:
1 m min xij , xi ' j 
d ii '  1  
,
m j 1 max xij , xi ' j 
xij
lub xij '  0 .
Miara ta jest unormowana w przedziale [0;1].
Miara Kukuły:
d ii '  1  rii '
,
gdzie:
m
 xij xi ' j
rii ' 
j 1
1
m

2
2
x

ij 
 j 1 

1
2
.
m 2
  xi ' j 
 j 1 
Miara ta jest unormowana w przedziale [0;1].
Miara Chomątowskiego i Sokołowskiego:
d ii '  1   min xij , xi ' j 
j 1
25
MIARY BLISKOŚCI OBIEKTÓW
Miary bliskości obiektów przy zmiennych mierzonych na skali nominalnej
Współczynnik zbieżności Cramera:
r jj' 

2
,
n m min  1
gdzie:
m min  minm, m'.
Miara ta jest unormowana w przedziale [0;1].
Miary bliskości obiektów stosowane przy zmiennych mierzonych na skali porządkowej
Współczynnik korelacji rang:
n
r jj'  1 
6 ci2
i 1
nn  1
,
gdzie:
ci – różnica pomiędzy rangami przyporządkowanymi i-temu obiektowi w obu uporządkowanych
ich ciągach.
26
Miary bliskości obiektów stosowane przy zmiennych mierzonych na skali ilorazowej lub
przedziałowej
Współczynnik korelacji liniowej Pearsona:
n
r jj' 
 xij  x j xij '  x j ' 
i 1
S x j S x j ' 
,
Współczynnik ten jest unormowany w przedziale [-1;1].
27