Metody grupowania obiektów

Download Report

Transcript Metody grupowania obiektów

METODY GRUPOWANIA OBIEKTÓW
1
METODY ANALIZY CZYNNIKOWEJ
Cele grupowania:
utworzenie jak najbardziej jednorodnych grup obiektów (skupień) ze względu na podobieństwo w
zakresie wewnętrznej struktury charakteryzujących je zmiennych.
Kryteria grupowania:
- homogeniczności: obiekty należące do tej samej grupy powinny być do siebie jak najbardziej
podobne,
- heterogeniczności: obiekty należące do różnych grup powinny być do siebie jak najmniej
podobne.
Warunki grupowania:
zbiór obiektów O={O1,O2,...,On} dzielimy na podzbiory (grupy obiektów) Gr r  1,2,..., z 
spełniające warunki:
- zupełności:
z
U Gr  O ,
r 1
- rozłączności:
Gr  Gr '  0 ,
r,r’=1,2,...,z, rr’,
- niepustości:
Gr  ,
r=1,2,...,z.
2
METODY GRUPOWANIA OBIEKTÓW
 metody grupowania obiektów uporządkowanych liniowo
 metody aglomeracyjne
- metody podziału dendrytu
- metody podziału dendrogramu
 metody deglomeracyjne
 metody optymalizacji danego grupowania
 metody obszarowe
 metody taksonomii struktur
3
METODY GRUPOWANIA OBIEKTÓW
UPORZĄDKOWANYCH LINIOWO
METODY DIAGRAMOWE
METODA PODOLEC
Założenia:
 w optymalnym grupowaniu poszczególne grupy powinny składać się z obiektów, pomiędzy
którymi występują wyłącznie tzw. bliskie powiązania, a poza grupami tylko tzw. powiązania
dalekie
- przez powiązania bliskie rozumiane są powiązania pomiędzy obiektami, którym odpowiadają
w diagramie symbole graficzne reprezentujące najniższe klasy odległości obiektów (np. dwie
najniższe klasy)
- pozostałe powiązania między obiektami, poza powiązaniami bliskimi, należy traktować jako
dalekie
Wskaźnik poprawności grupowania:
n pb n pd
pp
Q1  w  z ,
n
n
gdzie:
nw, nz - liczba powiązań odpowiednio wewnątrz i na zewnątrz wyodrębnionych grup obiektów,
npb, npd - liczba powiązań odpowiednio bliskich, wewnątrz grup obiektów i dalekich, na zewnątrz
grup obiektów.
4
METODA SPÄTHA-SZCZOTKI
Funkcje dobroci grupowania:
 Dążymy do otrzymania grup obiektów o zbliżonych liczebnościach:
z
1 nr
Q2  
 d ii '  min ,
n
r 1 r i ,i '1
gdzie:
dii’ – odległość między i-tym i i’-tym obiektem należącymi do r-tej grupy obiektów.
 Funkcja kryterium dobroci grupowania minimalizuje sumę średnich odległości w grupach:
nr
z
1
Q3  
 d ii '  min .


n
n

1
r 1 r r
i ,i '1
 Funkcji kryterium dobroci grupowania minimalizuje zróżnicowanie obiektów wewnątrz grup,
ze względu na charakteryzujące je zmienne:
z
1 nr
Q4    dii c  min ,
r 1 nr i 1
gdzie:
d ii c – odległość między środkiem ciężkości r-tej grupy i i-tym obiektem należącym do tej
grupy.
5
Rozwiązanie quasi-optymalne
 w punkcie wyjścia procedury wszystkie obiekty stanowią oddzielne grupy
 w kolejnych iteracjach łączymy dwie sąsiadujące ze sobą grupy obiektów, dla których dana
funkcja kryterium dobroci grupowania przyjmuje najmniejszą wartość
 procedurę kończymy w momencie gdy wszystkie obiekty tworzą jedną grupę
 wskazujemy iterację, w której następuje przerwanie tworzenia kolejnych, coraz bardziej
licznych i jednocześnie coraz mniej jednorodnych grup województw
- na wstępie tworzymy ciąg ilorazów wartości funkcji dobroci grupowania w kolejnych
iteracjach.
it 1 
Qt
,
Qt 1
t=2,...,n-1.
- następnie szukamy pary sąsiednich ilorazów, dla której po raz pierwszy zachodzi relacja:
it  it 1 ,
t=2,...,n-1.
- grupowanie obiektów należy przerwać w iteracji t-1 w relacji.
6
METODA MAKSYMALNEGO GRADIENTU
 na wstępie ustalamy liczbę grup obiektów (z), którą chcielibyśmy otrzymać w wyniku
grupowania
 dla uporządkowanego liniowo ciągu obiektów, ze względu na niemalejące wartości miar
syntetycznych, liczymy różnice pomiędzy tymi wartościami dla kolejnych par obiektów:
 i  si 1  si ,
i=1,...,n-1.
 ciąg obiektów dzielimy na ustaloną grupę podciągów (grup obiektów) przerywając go w z-1
miejscach odpowiadających z-1 najwyższym wartościom miary
7
METODA ODCHYLEŃ STANDARDOWYCH
 zbiór badanych obiektów jest dzielony na cztery grupy, zawierające obiekty o wartościach
zmiennej syntetycznej należącej do następujących czterech przedziałów klasowych:
- G1 : si  s  S s ,
- G2 : s  si  si  S s ,
- G3 : s  S  s   s i  s ,
- G4 : si  s  S s ,
gdzie:
s, S s  - odpowiednio wartość średniej arytmetycznej i odchylenia standardowego zmiennej
syntetycznej.
8
METODY AGLOMERACYJNE
METODY PODZIAŁU DENDRYTU
Ogólna charakterystyka:
 grupowanie obiektów w oparciu o dendryt polega na jego podziale na części, zawierające
homogeniczne grupy obiektów
 podział ten jest przeprowadzany poprzez usuwanie kolejnych, najdłuższych krawędzi
dendrytu
 liczba grup, na które dzielimy badane obiekty może zostać ustalona z góry lub też oparta o
wykorzystanie wartości pewnych wskaźników, pozwalających na identyfikację krawędzi,
które należy przerwać w dendrycie
9
NATURALNY PODZIAŁ DENDRYTU
 porządkujemy nierosnąco wiązadła dendrytu:
d1  d 2  d 3  ...  d n 1 ,
gdzie:
d1,d2,...,dn-1 – uporządkowane długości wiązadeł.
 obliczamy ilorazy długości sąsiednich wiązadeł:
d
k=1,2,...,n-1,
ik  k ,
d k 1
gdzie:
dk – długość k-tego wiązadła w uporządkowanym nierosnąco szeregu długości wiązadeł.
10
 w kolejnym kroku dla każdej pary sąsiednich ilorazów sprawdzamy czy zachodzi relacja:
ik  ik 1,
k=1,2,...,n-1.
 jeżeli relacja (3.13) spełniona jest tylko dla jednej pary sąsiednich wiązadeł to zbiór obiektów
należy podzielić na z=k grup, usuwając z grafu k-1 najdłuższych wiązadeł. Natomiast w sytuacji
gdy kryterium (3.13) spełnione jest więcej niż jeden raz wprowadzamy dodatkowe kryterium,
pozwalające wybrać lepszy spośród dwóch podziałów dendrytu, o postaci:
ik  ik ' ,
k,k’=1,2,...,n-1; kk’.
 lepszym podziałem dendrytu jest, według powyższego kryterium, podział na z=k grup niż
podział na z’=k’ grup. Oznacza to, że dla ustalenia liczby wiązadeł, które uzuwamy z dendrytu
bierzemy pod uwagę najmniejszy iloraz sąsiednich wiązadeł z ilorazów spełniających warunek
(3.12).
11
PODZIAŁ MOCNY DENDRYTU
 w pierwszym kroku obliczamy wartości różnic pomiędzy długościami sąsiednich wiązadeł, w
ciągu uporządkowanych nierosnąco długości wiązadeł, na podstawie rekurencyjnego wzoru o
postaci:
u k 1  u k  d k ,
k=1,2,...,n-1,
przy czym:
n 1
u1   d k
k 1
 następnie obliczane są wskaźniki mocy podziału wskazujące na zmianę jakości grupowania
obiektów, przy przejściu od grupowania na z=k części do grupowania na z+1=k+1 części, o
postaci:
u
k=1,2,...,n-2.
mk  k
u k 1
 podział dendrytu na z=k części nazywamy mocnym gdy zachodzi następująca relacja:
m z 1  m z  m z 1 .
12
METODA HELLWIGA
 usuwamy z dendrytu krawędzie, których długość jest większa od pewnej wartości krytycznej d*
 wartość krytyczna jest obliczana w oparciu o następującą formułę:
d *  d  2S d k  ,
gdzie:
1 n 1
d
 dk ,
n  1 k 1
n 1
1
22
 1
S d   
 d k  d   .
n

1


k 1
13
METODY PODZIAŁU DENDROGRAMU
Ogólna charakterystyka metod
 szukamy krytycznej wartości odległości (d*) przy której przecinamy gałęzie drzewka
tworząc w ten sposób grupy obiektów
 decyzja co do ustalenia wartości krytycznej jest decyzją o charakterze subiektywnym
 wartość ta powinna być większa od najmniejszej odległości, na której spotykają się obiekty
na drzewku połączeń (w przeciwnym przypadku otrzymamy same grupy jednoelementowe)
oraz mniejsza od największej z odległości na drzewku połączeń przy jakiej wszystkie obiekty
tworzą jedną grupę
14
METODY WYZNACZANIA
KRYTYCZNEJ WARTOŚCI ODLEGŁOŚCI
Analiza dendrogramu pod względem różnic odległości między kolejnymi etapami
grupowania obiektów (odległości między kolejnymi węzłami, gdzie uformowała się kolejna
grupa obiektów)
 duża różnica odległości między węzłami wskazuje, że łączymy ze sobą grupy obiektów
relatywnie mało podobnych
 krytyczna wartość odległości powinna zawierać się w przedziale pomiędzy długościami
gałęzi tworzonych przez łączone, relatywnie niepodobne do siebie grupy obiektów
 wzór na obliczanie krytycznej wartości odległości, przy której powinno nastąpić „ścięcie”
gałęzi drzewka, możemy przedstawić następująco:
d h*1  maxd h  d h1 ,
h=2,3,...,n-1,
h
gdzie:
dh – długość h-tej gałęzi drzewka,
d h*1 - wartość krytyczna odległości odpowiadająca h-1 długości gałęzi drzewka.
15
Analiza wykresu przebiegu porządkowania nieliniowego
obiektów w postaci drzewka
 na wykresie przebiegu porządkowania obiektów przedstawione są odległości połączeń (wiązań)
grup obiektów w kolejnych etapach tworzenia drzewka
 gdy na wykresie pojawia się wyraźne spłaszczenie, za którym następuje dłuższa linia pionowa,
oznacza to że po etapach łączenia grup obiektów relatywnie silnie do siebie podobnych
nastąpiło połączenie grup obiektów relatywnie do siebie mało podobnych
 odległości ta powinna być uznana za odległość krytyczną, wyznaczającą miejsce „cięcia” gałęzi
drzewka
Analiza dendrogramu pod względem stosunku odległości
między kolejnymi etapami grupowania
 wzór na krytyczną wartość odległości:
d 
d h*1  max  h  ,
h  d h 1 
h=2,..,n.
16
Reguła Mojeny
 wzór na krytyczną wartość odległości:
d h*1  d  kS d ,
gdzie:
d , S d  – odpowiednio średnia arytmetyczna i odchylenie standardowe długości gałęzi
drzewka,
k – parametr, którego wartości według R. Mojeny powinny zawierać się w przedziale <2;5;350>.
17
METODY OPTYMALIZACJI
DANEGO GRUPOWANIA OBIEKTÓW
Ogólna charakterystyka
 punktem wyjścia metod optymalizacyjnych jest ustalenie pożądanej liczby grup obiektów, które
chcemy utworzyć
 ustalamy wstępny skład poszczególnych grup:
- w sposób losowy
- korzystając z ocen ekspertów
- poprzez wykorzystanie arbitralnie wybranej zmiennej
- przyjmując jako wstępne grupowanie, grupowanie otrzymane za pomocą dowolnej metody
taksonomicznej
- porządkując obiekty według ich odległości od środka ciężkości poszczególnych grup
obiektów. Środkami ciężkości grup obiektów stają się obiekty o numerach określonych za
n
pomocą wzoru: 1  r  1  , gdzie r jest kolejnym numerem grupy
z
 następnie poprawiamy dobroć wstępnego grupowania obiektów poprzez optymalizację
grupowania polegającą na przesuwaniu obiektów między grupami
18
METODA k-ŚREDNICH
 na wstępie ustalamy podział obiektów na grupy oraz liczbę iteracji, w których dążymy do
optymalizacji grupowania
 następnie obliczamy wartość funkcji kryterium dobroci grupowania, którą stanowi stosunek
zróżnicowania międzygrupowego do zróżnicowania wewnątrzgrupowego
- miara zróżnicowania międzygrupowego najczęściej jest definiowana jako suma odległości
środków ciężkości grup obiektów od środka ciężkości wszystkich badanych obiektów
- ocenę zróżnicowania wewnątrzgrupowego stanowi suma odległości wewnątrzgrupowych
obiektów od środków ciężkości grup, do którego zostały one sklasyfikowane. Wartość funkcji
kryterium może mieć także postać statystyki F stosowanej w analizie wariancji
 w kolejnym kroku obliczamy środki ciężkości dla poszczególnych grup i klasyfikujemy obiekty
do grup na podstawie minimalizacji ich odległości od środków grup
 następnie sprawdzamy czy wartość funkcji kryterium nie zwiększyła się
- gdy zmiana taka nie nastąpiła kończymy procedurę przyjmując, że dane grupowanie jest
optymalne
- w sytuacji przeciwnej przechodzimy do kolejnej iteracji, sprawdzając czy przesunięcia
obiektów między grupami nie powodują wzrostu wartości funkcji kryterium dobroci
grupowania
 procedurę kontynuujemy do momentu gdy wartość funkcji kryterium dobroci grupowania nie
zwiększa się albo gdy osiągnęliśmy założoną liczbę iteracji
19
METODA FORGY-JANCEY’A
 na wstępie ustalamy liczbę grup obiektów, którą chcemy uzyskać, dokonując wstępnej
klasyfikacji obiektów do tych grup oraz określamy liczbę iteracji przemieszczania obiektów
między grupami
 następnie obliczane są współrzędne środków ciężkości grup, traktowane jednocześnie jako
wstępne jądra grup
 w kolejnym kroku przemieszczamy każdy obiekt do grupy, dla której odległość między tym
obiektem, a jądrem grupy jest najmniejsza
 kolejny etap procedury polega na wyznaczeniu jąder nowej grupy w oparciu o wzór:

J tr  J tr1   Ort 1  J tr1

r=1,2,...,z.
gdzie:
J tr , J tr1 - jądro odpowiednio nowej i starej grupy obiektów,
O rt 1 - środek ciężkości starej grupy obiektów,
 - parametr, przyjmujący w zależności od wersji metody, wartości 1, 2 i 1,5.
 kolejne iteracje procedury powtarzamy do momentu aż nie stwierdzimy żadnej zmiany w
konfiguracji grup w danej iteracji lub osiągniemy zakładaną liczbę iteracji
20
METODY OBSZAROWE
Ogólna charakterystyka
 w metodach obszarowych przestrzeń wielowymiarową, w której znajdują się punkty
reprezentujące obiekty, dzieli się na rozłączne podobszary
 podobszary mogą stanowić rozłączne hiperkule lub hiperkostki
 obiekty znajdujące się w poszczególnych podobszarach tworzą grupy obiektów
 promień hiperkul lub liczbę kostek ustala się w sposób arbitraln
21
METODA KATOWICKA
 na wstępie zakres zmienności każdej ze zmiennych dzieli się na k z góry ustalonych, równych
części (klas), co jest to tożsame z podziałem na części zakresu zmienności wartości zmiennych
na każdej z półosi współrzędnych, wyznaczających przestrzeń klasyfikacji obiektów
 każdy z obiektów otrzymuje swój numer identyfikacyjny składający się z m-elementowego
ciągu liczb, którego j-ty element odpowiada numerowi klasy j-tej zmiennej (j-tej osi
współrzędnych przestrzeni klasyfikacji)
 poszczególne elementy ciągu liczb stanowiących numer identyfikacyjny obiektów przyjmują
wartości z przedziału <1; k>.
 w każdej z hiperkostek może znajdować się zero, jeden lub więcej niż jeden obiekt
 każdy obiekt otrzymuje numer identyfikacyjny hiperkostki, do której należy
 grupowanie obiektów polega na szukaniu pojedynczych albo połączonych ze sobą hiperkostek
otoczonych hiperkostkami pustymi (nie zawierającymi żadnych obiektów)
- porównujemy ze sobą elementy składowe numerów identyfikacyjnych obiektów
- im więcej występuje różnic między numerami identyfikacyjnymi pary obiektów (różnych
elementów w numerach identyfikacyjnych) tym podobieństwo tych obiektów jest mniejsze
- przyjmujemy, że dwa obiekty należą do tych samych lub sąsiednich kostek gdy ich numery
identyfikacyjne są identyczne lub różnią się co najwyżej jednym elementem
22
METODY TAKSONOMII STRUKTUR
METODA ELIMINACJI WEKTORÓW
 przekształcamy macierzy odległości D w macierz binarną podobieństwa obiektów, przy
przyjęciu wartości progowej odległości d*, o postaci:
P   pii ' ,
i,i’=1,2,...,n,
przy czym:
0 gdy dii '  d *
,
pii '  
*
1
gdy
d

d

ii '
gdzie:
pii’ – miara podobieństwa i-tego i i’-tego obiektu.
 wyznaczamy wektor eliminacji p zdefiniowany jako:
p  P 1,
gdzie:
1 – wektor (n x 1) składający się z jedynek.
 maksymalna wartość w wektorze eliminacji wskazuje obiekt, który przy danej wartości
progowej d* jest niepodobny do największej liczby pozostałych obiektów
23
 obiekt ten zostaje wyeliminowany ze zbioru obiektów
- w sytuacji gdy więcej niż jedna składowa wektora eliminacji jest równa wartości
maksymalnej należy zastosować dodatkowe kryterium eliminacji (eliminujemy ostatecznie z
obiektów o maksymalnych wartościach składowej wektora eliminacji, obiekt któremu
odpowiada maksymalna wartość lub suma wartości w odpowiadających mu wierszu
macierzy odległości)
 po eliminacji obiektu ze zbioru obiektów tworzymy zredukowaną macierz binarną P1
wykreślając z macierzy P wiersz i kolumnę odpowiadające wyeliminowaniu obiektowi
 następnie wyznaczamy wektor eliminacji p1
 procedurę kontynuujemy aż wszystkie składowe wektora eliminacji będą zerami
 obiekty, które nie zostały wyeliminowane tworzą pierwszą grupę obiektów
 przedstawioną procedurę powtarzamy do grupowania obiektów nie należących do
wyodrębnionej grupy obiektów, uzyskując kolejne grupy obiektów o podobnej strukturze
zmiennych
24