Metody porządkowania liniowego

Download Report

Transcript Metody porządkowania liniowego

METODY PORZĄDKOWANIA LINIOWEGO
1
PODZIAŁ METOD TAKSONOMICZNYCH
ZE WZGLĘDU NA CEL PROWADZONEGO BADANIA
1. Metody porządkujące badane obiekty:
a) uporządkowanie liniowe – rzutowanie przestrzeni wielowymiarowej na prostą,
b) uporządkowanie nieliniowe – rzutowanie przestrzeni wielowymiarowej na płaszczyznę.
2. Metody grupowania badanych obiektów:
a) metody grupowania bezpośredniego – uzyskanie wynikowego grupowania obiektów bez
przesuwania tych obiektów między grupami na kolejnych etapach grupowania,
b) metody grupowania iteracyjnego – wstępny podział na grupy obiektów, wybór funkcji
kryterium „dobroci” grupowania, wybór zasady przesuwania obiektów pomiędzy grupami
aby uzyskiwać coraz większą „dobroć” grupowania, ustalenie reguły kończącej iterację.
2
METODY PORZĄDKOWANIA LINIOWEGO
Metody porządkowania liniowego
 porządkowanie liniowe obiektów polega, w ujęciu geometrycznym, na rzutowaniu punktów
reprezentujących obiekty umieszczonych w wielowymiarowej przestrzeni zmiennych na prostą
 pozwala na ustalenie hierarchii obiektów, czyli uporządkowanie ich od obiektu stojącego
najwyżej w tej hierarchii do obiektu znajdującego się w niej najniżej
Metody porządkowania nieliniowego
 porządkowanie nieliniowe polega, od strony geometrycznej, na rzutowaniu obiektów
umieszczonych w wielowymiarowej przestrzeni zmiennych na płaszczyznę
 nie pozwala na ustalenie hierarchii obiektów lecz tylko na określenie dla każdego z obiektów,
obiektów do niego podobnych
3
PORZĄDKOWANIE LINIOWE
Własności uporządkowania liniowego
 każdy obiekt ma przynajmniej jednego sąsiada i nie więcej niż dwóch sąsiadów
 jeżeli sąsiadem i-tego obiektu jest i’-ty obiekt to jednocześnie sąsiadem i’-tego obiektu jest i-ty
obiekt
 dokładnie dwa obiekty mają tylko jednego sąsiada
GRUPY METOD PORZĄDKOWANIA LINIOWEGO
 metody diagramowe – w metodach diagramowych stosuje się graficzną prezentację macierzy
odległości zwaną diagramem
 procedury oparte na zmiennej syntetycznej
- bezwzorcowe – w metodach bezwozrcowych zmienna syntetyczna jest funkcją
znormalizowanych wartości zmiennych wejściowych
- metody te wymagają wcześniejszej stymulacji zmiennych wejściowych
- wzorcowe – w metodach wzorcowych wykorzystywane jest pojęcie obiektu wzorcowego,
czyli obiektu modelowego o porządanych wartościach zmiennych wejściowych
- miara syntetyczna konstruowana jest na podstawie odległości pomiędzy obserwowanym
obiektem, a obiektem wzorcowym.
 metody iteracyjne – w metodach iteracyjnych przyjmowana jest funkcja kryterium dobroci
porządkowania i w kolejnych iteracjach szukamy takiego uporządkowania liniowego obiektów,
które optymalizują wartość funkcji kryterium aż do osiągnięcia przez nią wartości optymalnej
(maksymalnej lub minimalnej)
4
METODY DIAGRAMOWE
METODA CZEKANOWSKIEGO
Procedura wykorzystująca ocenę wzrokową dobroci uporządkowania
 punkt wyjścia metody Czekanowskiego stanowi macierz odległości między obiektami D[dii’],
zdefiniowana za pomocą dowolnej metryki
 mierniki odległości w macierzy odległości D dzieli się na klasy podobieństwa obiektów
 poszczególnym klasom podobieństwa obiektów przyporządkowuje się odpowiednie symbole
graficzne, otrzymując nieuporządkowany diagram Czekanowskiego, co pozwala na wzrokową
ocenę przebiegu porządkowania obiektów
 samo porządkowanie obiektów odbywa się poprzez porządkowanie diagramu, polegające na
przestawianiu wierszy i odpowiadających im kolumn diagramu tak aby symbole graficzne
reprezentujące możliwe najmniejsze odległości skupiały się wzdłuż głównej przekątnej, a w
miarę oddalania się od głównej przekątnej pojawiały się symbole graficzne odpowiadające
coraz większym odległościom
 kolejność uporządkowania obiektów jest określona przez kolejność odpowiadających im
wierszy (kolumn)
5
Procedura wykorzystująca funkcję dobroci uporządkowania
Funkcja dobroci uporządkowania
n
n
F    d ii ' wii '  max ,
1
i 1 i ' 1
gdzie:
wii’ – wagi elementów macierzy odległości, zdefiniowane w oparciu o jeden z następujących
wzorów:
wii ' 
i  i'
n 1
,


wii ' 
1
2n i  i '1  i  i 'i  i '2 ,
nn  1
wii ' 
1
2n i  i '  2  i  i 'i  i '2 .
nn  1


6
Wagi elementów macierzy odległości
 wagi elementów macierzy odległości tworzą macierz wag o postaci:
W  wii ' ,
i,i’=1,2,...,n.
 wagi w macierzy W są rozmieszczone zgodnie z pożądanym rozmieszczeniem elementów w
macierzy odległości D (macierz W stanowi wzorzec dla docelowego uporządkowania
diagramu powstałego z macierzy odległości D)
 porządkując diagram Czekanowskiego przestawimy w nim wiersze i odpowiednie kolumny
w taki sposób aby były ułożone zgodnie ze wzorem wag w macierzy W, co osiąga się
maksymalizując funkcję poprawności uporządkowania
7
Etapy procedury porządkowania diagramu Czekanowskiego
- punktem wyjścia jest wyznaczenie wartości miernika poprawności uporządkowania dla
początkowego uporządkowania obiektów
- pierwszy krok procedury rozpoczynamy od transpozycji dwóch pierwszych obiektów ponownie
obliczając wartość funkcji kryterium
- w przypadku gdy wartość funkcji kryterium nie wzrośnie wracamy do poprzedniego
uporządkowania. Gdy natomiast nastąpi wzrost wartości funkcji kryterium traktuje się dane
uporządkowane jako wyjściowe dla dalszych etapów i analogicznie transpozycje
przeprowadzamy dla kolejnych par obiektów (drugiego i trzeciego, trzeciego i czwartego itd.,
kończąc na transpozycji obiektów ((n-1)-szego i n-tego) sprawdzając za każdym razem czy nie
nastąpił wzrost wartości funkcji kryterium;
- po przeprowadzeniu pierwszej iteracji sprawdzamy, czy w jej wyniku nie nastąpiły jakieś
zmiany w uporządkowaniu obiektów
- gdy zmiany nie nastąpiły uporządkowanie obiektów uważa się za ostateczne. W przypadku
zaistnienia takich zmian przechodzi się do kolejnej iteracji porządkowania traktując
uporządkowanie z poprzedniej iteracji jako wyjściowe
- proces porządkowania obiektów kończymy gdy w danej iteracji nie nastąpiły zmiany w
uporządkowaniu obiektów w stosunku do poprzedniej iteracji
8
METODY OPARTE NA ZMIENNYCH SYNTETYCZNYCH
METODY BEZWZORCOWE
 zmienna (wskaźnik) syntetyczna uzyskiwana w wyniku agregacji wskaźników cząstkowych średnia uogólniona rzędu :
1/β
 1 m

β
  x j  dla β  0


β
S   m j 1 
m

x 1/m dla β  0

 j 1 j

 gdy wartości zmiennych (wskaźników) zostały unormowane i przypiszemy im dodatnie wagi,
których suma równa się 1(wj=1) otrzymujemy zmienną (wskaźnik) syntetyczną w postaci ważonej
średniej uogólnionej rzędu :
1/β
 m

β
  w j x j  dla β  0


β

S   j 1
m
w

xj j
dla β  0
 
 j 1
 gdy parametr  dąży do nieskończoności dodatniej substytucyjność wskaźników cząstkowych
staje się zerowa a wartość zmiennej (wskaźnika) syntetycznej dąży do wartości największej
wśród wskaźników cząstkowych:
S  maxx j 
j
 gdy parametr  dąży do nieskończoności ujemnej substytucyjność wskaźników cząstkowych
równa się zero a wartość zmiennej syntetycznej dąży do wartości najmniejszej wśród
wskaźników cząstkowych:
9
S  minx j 
j
METODY AGREGACJI WSKAŹNIKÓW CZĄSTKOWYCH - =1
 metody agregacji liniowej opierające się na średniej arytmetycznej
m
S   wj x j
j 1
,
w
j
1
 pełna kompensacyjność, pomiędzy wskaźnikami cząstkowymi - niskie wartości pewnych
wskaźników cząstkowych mogą być kompensowane przez wysokie wartości innych
wskaźników cząstkowych
10
 metody agregacji geometrycznej bazujące na średniej geometrycznej
m
 
S   xj
j 1
wj
,
w
j
1
 brak pełnej kompensacji pomiędzy wskaźnikami cząstkowymi
 wartości zmiennej syntetycznej z relatywnie niskimi wartościami niektórych wskaźników
cząstkowych będą niższe przy zastosowaniu metod agregacji geometrycznej niż metod
agregacji liniowej
11
METODA SUM
- w pierwszym etapie metody dokonujemy stymulacji zmiennych
- następnie obliczamy wartości zmiennej syntetycznej dla każdego obiektu stosując formułę
średniej arytmetycznej, przyjmując jednakowe wagi dla zmiennych
- w kolejnym kroku eliminujemy wartości ujemne zmiennej syntetycznej przesuwając jej skalę
do punktu zerowego poprzez przekształcenie:
s 'i  si  minsi ,
i=1,2,...,n.
i
- ostateczną postać zmiennej syntetycznej otrzymujemy przeprowadzając jej normalizację
według formuły:
s i'
,
si 
max s'i 
"
i=1,2,...,n.
i
-
dokonane przekształcenia powodują unormowanie miary syntetycznej w przedziale [0,1]
12
METODY WZORCOWE
MIARA ROZWOJU
- na podstawie macierzy zestandaryzowanych danych wejściowych wyznacza się obiekt
wzorcowy o współrzędnych (wystandaryzowanych wartościach zmiennych):
 
O 0  z oj ,
j=1,2,...,m.
- współrzędne obiektu wzorcowego wyznaczamy na podstawie następującej formuły:
z oj
max z ij dla z Sj

 i
,
D


min
z
dla
z
j
 i ij
j=1,2,...,m.
- następnie obliczamy dla każdego obiektu jego odległość od obiektu wzorcowego, stosując
najczęściej metrykę euklidesową o postaci:
1
2
m
d i 0   z ij  z 0 j 2  ,
 j 1

i=1,2,...,m.
13
- miara syntetyczna jest ostatecznie definiowana jako:
d
i=1,2,...,m,
si  1  i 0 ,
d0
gdzie:
d 0  d 02 S d 0 ,
przy czym:
d0 
-
n
1
 d i0 ;
n i 1
1
22
1
S d 0     di 0  d 0   .
 n i 1

n
miara di przyjmuje zazwyczaj wartości z przedziału [0; 1]. Wartości te są tym wyższe im dany
obiekt jest mniej oddalony od wzorca.
14
METODA DYSTANSOWA
- punktem wyjścia wyznaczania zmiennej syntetycznej jest obliczenie odległości (dystansu) od
obiektu wzorca, dla każdego z porównywanych obiektów
- konstruujemy miarę syntetyczną, wykorzystująca formułę przekształcenia unitaryzacyjnego:
 d i 0  mind i 0  
 ,
i
si  
 max d i 0   mind i 0 
i
 i

p
i=1,2,...,m,
gdzie p jest parametrem normalizacyjnym.
15
METODY INTERACYJNE
METODA SZCZOTKI
Założenie
Poszukiwane jest takie liniowe uporządkowanie obiektów, dla którego funkcja kryterium dobroci
uporządkowania osiąga maksimum:
n 1 n i '
F 2   i '  d i ,i i '  max ,
i '1
i 1
gdzie:
di,i+i’ – odległość euklidesowa między i-tym i i’-tym obiektem.
16
Etapy procedury
- punktem wyjścia procedury jest dowolne liniowe uporządkowanie obiektów, dla którego
obliczamy wartość funkcji kryterium
- następnie obliczamy wartości funkcji kryterium dla każdej możliwej transpozycji pary
obiektów
- jeżeli wartości funkcji kryterium dla każdej z transpozycji par obiektów są mniejsze od
wartości tej funkcji dla uporządkowania wyjściowego obiektów, uporządkowanie to uważamy
za najlepsze. W przeciwnym razie dokonujemy transpozycji tej pary obiektów, dla której
wzrost wartości funkcji kryterium jest największy
- uporządkowanie to stanowi punkt wyjścia do oceny, czy kolejna transpozycja dowolnej pary
obiektów pozwoli na wzrost wartości funkcji kryterium
-
powyższe postępowanie jest kontynuowane do momentu gdy transpozycja dowolnej pary
obiektów nie prowadzi do wzrostu wartości funkcji kryterium
17
METODY GRADIENTOWE
 dążymy do takiego liniowego uporządkowania obiektów, które jak najmniej zniekształca
relacje strukturalne porządkowanego zbioru obiektów
 od strony geometrycznej oznacza to, że odległości pomiędzy punktami reprezentującymi
obiekty w przestrzeni jednowymiarowej, określonej przez zmienną syntetyczną, w jak
najmniejszym stopniu zniekształcają odległości pomiędzy tymi punktami w przestrzeni
wielowymiarowej, określonej przez zmienne wejściowe
 od strony formalnej szukamy takich współrzędnych punktów reprezentujących obiekty w
przestrzeni jednowymiarowej, dla których funkcja dobroci uporządkowania osiąga minimum,
co można przedstawić wariantowo następująco:
 d
n
F 
3
i ,i '1
i i '
s
ii '
 d ii '
n

2
 min
 d ii '
i ,i '1
i i '
18
lub
2
 d iis '  d ii ' 
  min
F   

d
ii '1
ii '

4
n
i i '
lub
F 
1
5
n

d

n
 d ii ' ii,ii'' 1
s
ii '
 d ii '
d ii '

2
 min
i ,i '1
i i '
gdzie:
d iis ' - odległość między i-tym i i’-tym obiektem w przestrzeni jednowymiarowej określonej
przez szukaną zmienną syntetyczną.
19
Etapy procedury
- wyznaczamy wartość funkcji – kryterium dla wyjściowego, liniowego uporządkowania
obiektów (wyjściowych wartości zmiennych syntetycznych w tych obiektach), traktując ją jak
wynik interacji t=0:

s
1 n d ii ',t  d ii '
5
F  
c i ,i '1
d ii '

2
,
i i '
gdzie:
c
1
n
,
 d ii '
i ,i '1
i i '
przy czym zarówno wartości zmiennych oryginalnych jak i wyjściowych wartości zmiennych
syntetycznych zostały znormalizowane na przedziale [0;1].
- współrzędne zmiennych syntetycznych dla obiektów w kolejnej iteracji t+1 wyznacza się w
oparciu o wzór:
si,t 1  si,t  W i t ,
gdzie:
Ft5 Ft5
 i t  
:
,
si ,t si ,t 2
20
przy czym:
s
F 5
2 n  d ii;  d ii ' 
s i  s i '  ,
 
si
c i '1  d ii '  d iis ' 
i i '
2F 5
si 
2
si  si ' 2  d ii '  d iis ' 
2 n 1 
s
 
1
 d ii '  d ii ' 
.
s
s


c i 1 d ii ' d iis ' 
d ii '
d ii ' 



i i '
- na wstępie zakłada się maksymalną oraz minimalną wartość parametru W (np. Wmax=10 i
Wmin=0,1), wskaźnik skali zmian wartości tego parametru pomiędzy iteracjami (np.
Wt+1/Wt=0,5) oraz maksymalną liczbę iteracji
- procedurę iteracyjną rozpoczynamy od przyjęcia maksymalnej wartości parametru W
- postępowanie iteracyjne jest kontynuowane do momentu gdy nastąpi wzrost wartości funkcji
kryterium
- wtedy wracamy do wartości zmiennej syntetycznej z poprzedniej iteracji jednocześnie
zmniejszają wartość parametru W o przyjęty wskaźnik jego zmian
- procedurę kontynuujemy do momentu, aż wartość parametru W nie spadnie poniżej założonej
wartości minimalnej albo aż osiągniemy z góry założoną liczbę iteracji
21