Többdimenziós skálázás (MDS) Informatikai Tudományok Doktori Iskola 2015.10.31. Többdimenziós skálázás Multidimensional Scaling = MDS Adott: egy olyan adatállomány, amelyet valamilyen megadott külső objektumokra (pl.

Download Report

Transcript Többdimenziós skálázás (MDS) Informatikai Tudományok Doktori Iskola 2015.10.31. Többdimenziós skálázás Multidimensional Scaling = MDS Adott: egy olyan adatállomány, amelyet valamilyen megadott külső objektumokra (pl.

Többdimenziós skálázás
(MDS)
Informatikai Tudományok Doktori Iskola
2015.10.31.
1
Többdimenziós skálázás
Multidimensional Scaling = MDS
Adott: egy olyan adatállomány, amelyet valamilyen megadott külső
objektumokra (pl. tárgyakra, személyekre) vonatkozó hasonlósági
vagy különbözőségi adatok (általában skálázott szubjektív
vélemények, vagy észlelt különbségek) alkotnak.
Cél: olyan geometriai reprezentációk létrehozása a hasonlósági vagy
különbözőségi adatokból, amelyek az adott külső tárgyak
(észlelt) viszonyát egy megfelelő dimenzió-számú geometriai
térben a lehető legpontosabban tükrözik vissza.
Az eljárás eredménye mindig egy ponthalmaz egy adott dimenziószámú geometriai térben. A ponthalmaz képe alapján kísérletet
tehetünk koordinátatengelyek megadására, amivel rejtett
dimenziókat tárhatunk fel.
2015.10.31.
2
Bevezetés 1.
Egy-egy problémánál pl. a rejtett dimenziók az alábbiak lehetnek:
• Gépkicsivásárlásnál milyen szempontokat vesznek figyelembe az
emberek? (A gazdaságosságot? A megbízhatóságot? A
kényelmet? A sportosságot?)
•
Egy politikusra történő szavazásnál milyen szempontok alapján
döntenek a szavazók? (Párthoz tartozása alapján? Az adózásról,
az oktatásügyről vagy az egészségügyről vallott személyes
nézetei alapján? Sajtóbeli ismertsége alapján?)
• Milyen tényezők befolyásolják egy munkacsoport tagjainak
egymás közötti beszélgetésének a módját? (A beszélgetők
formális státusza, szakmai tudása, szocio-ekonómiai helyzete
vagy személyes dominanciája?)
2015.10.31.
3
Bevezetés 2.
• Milyen tényezők határozzák meg az emberek munkahelyi
közérzetét? (A fizetés? Az emberi kapcsolatok? A munkahely
fizikai jellemzői?, Az előmeneteli lehetőség? A munka
tartalma?)
• Milyen szempontok alapján kategorizálják az emberek az egyes
foglalkozásokat, népcsoportokat, nemzeteket vagy országokat?
(Közismert sztereo-típiák, saját tapasztalataik, a médiumok
sugalmazása vagy tekintélyes közszereplők véleménye alapján?)
• Milyen szempontok alapján ítélik meg a felhasználók az egyes
termékek minőségét vagy vonzerejét és hogyan azonosíthatók
ezek közül a legfontosabbak? (Az ára, a márkája,
divatszempontok vagy a tényleges szükségletek alapján?
2015.10.31.
4
Bevezetés 3.
Ilyen és hasonló kérdésekre próbál az MDS alkalmazása választ
adni, többnyire sikerrel. Az MDS alapgondolata az, hogy az
emberek döntéseiket és ítéleteiket a fejükben - kognitív vagy
érzelmi rendszerükben - létező belső dimenzióik alapján
hozzák meg.
Ezek a dimenziók többnyire rejtve vannak még az aktuális
döntéshozók vagy véleményalkotók előtt is, de megfelelő
technikákkal - faktoranalízissel vagy az MDS módszereivel feltárhatók és megismerhetők.
2015.10.31.
5
Az MDS alkalmazásának szempontjai
• A faktoranalízis alkalmazása mellett szól, hogy abba - bizonyos
feltételek teljesülése esetén - igen sokféle és eredetileg más
célra összegyűjtött adatokból konstruált változó bevonható,
• míg az MDS alkalmazásához speciálisabb „távolság” vagy „hasonlóság”
jellegű adatokra van szükség, amelyek általában csak erre a célra
tervezett kísérletekben vagy felmérésekben nyerhetők.
• Ugyanakkor a faktoranalízis modellje feltételezi az egyes faktorok
lineáris összegződését - ún. lineáris kombinációját - amit a
gyakorlatban gyakran semmi sem támaszt alá.
•
A tapasztalat az, hogy ha sikerül alkalmas hasonlósági mértékeket definiálni és
azokat megfelelő pontossággal megmérni, akkor az MDS sokszor lényegesen
jobb eredményt adhat, mint a faktoranalízis. Az eredmények meglepően
pontosak és igen jól reprodukálhatóak lehetnek.
2015.10.31.
6
Az MDS szemléleti és matematikai
alapjai 1.
„Egy kép akár ezer szót is megér ”
Vajon hány oldalon lehet szavakban elmondani, amit egy vizuális élmény nyújt?
• Általános törekvés a tudományokban valamilyen szemléletes
módon úgy ábrázolni adatokat, hogy az egymáshoz valamilyen
szempontból közelibbnek érzékelt vagy gondolt objektumok az
ábrázolásban is közel kerüljenek egymáshoz, a távolibbnak
felfogottak pedig az ábrázolásban is távol legyenek egymástól.
• Ezek az ábrázolások valamiféle geometriai reprezentációk,
amelyek az ábrázolt objektumok viszonyát valamilyen
szempontból helyesen - vagy közelítőleg helyesen - tükrözik
vissza.
2015.10.31.
7
Az MDS szemléleti és matematikai
alapjai 2.
• A MDS módszerei arra szolgálnak, hogy segítségükkel adott
objektumokra vonatkozó észlelt hasonlósági vagy
különbözőségi adatokból szisztematikus módon
létrehozhassunk olyan geometriai reprezentációkat, amelyek
ezen objektumok észlelt viszonyát egy megfelelő dimenziószámú geometriai térben a lehetőség szerinti legkisebb
torzítással tükrözik vissza.
• Az eljárás eredménye tehát mindig egy ponthalmaz „képe” „térképe” - egy előre meghatározott típusú geometriai
térben, amelyben az egyes pontok úgy helyezkednek el, hogy
egymás közötti távolságaik ismert pontossággal megfelelnek
azon objektumok észlelt tulajdonságai közötti
különbözőségeknek, amelyekhez ezek a pontok tartoznak.
2015.10.31.
8
Az MDS szemléleti és matematikai
alapjai 3.
• Már sokszor ez a szemléletes ábrázolás önmagában is
sokat segít az adott jelenség megértésében, ha
valamilyen szabályszerűség vagy „mintázat” fedezhető
fel benne, de ez még önmagában nem skálázás.
• Ha azonban az adott térben sikerül olyan koordináta
tengelyeket találni, amelyek mentén az objektumok
elhelyezkedése jól értelmezhető, akkor ezeknek a
tengelyeknek az alkalmas beskálázásával minden
objektumhoz skálaértékeket rendelhetünk az adott
dimenziók mentén.
2015.10.31.
9
Az MDS szemléleti és matematikai
alapjai 4.
• Az MDS fő ereje abban áll, hogy a tisztán pszichológiai
eszközökkel nyert különbözőség-érzékelési adatok alapján
lehetővé teszi korábban nem ismert, de esetenként
meghatározó szerepű dimenziók felismerését.
• Ezek a különbözőség-érzékelési adatok pedig természetesen
akkor is jól mérhetők, ha semmilyen előzetes elképzelésünk
nincs arról, hogy az érzékelt különbözőséget milyen
dimenziók határozzák meg.
2015.10.31.
10
Az MDS szemléleti és matematikai
alapjai 5.
• A létrehozott geometriai reprezentáció „a lehetőség szerinti
legkisebb torzítással”, illetve „ismert pontossággal” kell, hogy
leképezze az érzékelt különbözőségeket, mert - amint az a
következő egyszerű két dimenziós példán könnyen belátható az érzékelt különbözőségeknek pontosan megfelelő
geometriai konfiguráció nem mindig állítható elő, azaz a
feladatnak nem mindig létezik egzakt megoldása az adott
térben.
• Célunk ezért az, hogy legalább a lehetséges legjobb közelítő
megoldást - az ún. optimális konfigurációt -találjuk meg.
2015.10.31.
11
Az MDS szemléleti és matematikai
alapjai 6.
Egy p-dimenziós sokaságot lehet egy k=1,2 vagy 3 dimenziós
Euklideszi ponthalmazzal vizualizálni.
A ponthalmaz távolságviszonyai az eredeti sokaság eseteinek
távolságviszonyaival nagymértékben egyezik.
A vizualizálás révén tanulmányozható a statisztikai sokaság térbeli
struktúrálódása. Jellegzetes tömörülések, irányokfedezhetők fel az
elkészült scatter-grafikonon.
1. eset
2. eset

n. eset
2015.10.31.
12
Az MDS szemléleti és matematikai
alapjai 7.
Az esetvektorok egymástól vett
nxn-es távolságmátrixa
Megkonstruálhatók olyan
k=1,2 vagy 3
dimenziós vektorok, melyek nxn-es Euklideszi távolságmátrixa nagymértékben hasonló
-hez.
„kicsi”
2015.10.31.
13
Távolságmátrix, Euklideszi távolságmátrix
Az n×n-es D távolságmátrix komponensei kielégítik az alábbiakat:
• D diagonális elemei 0-ák: dii=0;
• D szimmetrikus mátrix: dij=dji;
• D komponensei kielégítik a háromszög-egyenlőtlenséget: dijdik+dkj;
A D távolságmátrix akkor Euklideszi, ha valamely p dimenzióhoz
megadható n db p-dimenziós x1, x2, …, xn vektorok, amikkel
dij=||xi-xj||.
Az n×n-es D távolságmátrix akkor és csak akkor Euklideszi, ha a
B=H · A · H mátrix pozitív szemidefinit, ahol
aij=-½ dij² és H az ú.n. centráló mátrix: H=E-1/n · 1·1T
Távolságmátrix, Euklideszi távolságmátrix
Ha D egy Z=(z1, z2,…, zn)T konfiguráció Euklideszi távolságmátrixa,
akkor bij=(zi-z)T·(zj-z), i,j=1,2,…,n, ahol z az átlagvektor.
Ha B=H · A · H (aij=-½ dij² ) egy n-edrangú pozitív szemidefinit
mátrix, akkor az alábbi módon konstruálhatjuk meg a
Z=(z1, z2,…, zn)T pontkonfigurációt.
Legyenek l1  l2  …  ln > 0 a B pozitív sajátértékei és z1, z2,…, zn
a megfelelő ortogonális sajátvektorok: ziT·zi=li.
Ekkor a Z=(z1, z2,…, zn)T pontkonfiguráció Euklideszi
távolságmátrixa éppen D.
Távolságmátrix, Euklideszi távolságmátrix
Adott objektumoknak egy D távolságmátrixa. Ehhez szeretnénk
konstruálni olyan Z=(z1, z2,…, zn)T k-dimenziós vektorokból álló
konfigurációt, amelynek Ď Euklideszi távolságmátrixa valamilyen
értelemben „hasonló”, „közeli” D-hez. Általában a k dimenziószámot sem ismerjük, de a szemléltetés miatt k-t 1-nek, 2-nek
esetleg 3-nak szokták választani.
A szemléltetés sikerességét az alábbi mennyiséggel jellemezzük:

 d
n
i , j 1
2
ij
2
 dˆ ij

Példa Mérő László (1986) nyomán
• Kísérleti személyünk öt főzeléket hasonlított össze páronként
minden lehetséges módon.
• Feladata a párok globális - összbenyomás alapján történő összehasonlítása volt a „vonalhosszúság-becslés” módszerével: egy
6 cm hosszú szakaszon kellett bejelölni a különbözőség mértékét.
0.0 cm
teljes hasonlóság
2015.10.31.
6.0 cm
teljes különbözőség
17
Példa Mérő (1986) nyomán
Az eredmények mátrixa:
Spenót
Kelkáposzta
0.0
2.2
Spenót
2.2
0.0
Kelkáposzta
1.3
3.2
Sóska
3.0
Karfiol 3.5
2.8
3.5
Saláta
Sóska
Karfiol
Saláta
1.3
3.2
3.5
3.0
2.8
3.5
0.0
5.0
1.6
5.0
0.0
5.5
1.6
5.5
0.0
Vizsgáljuk meg, hogy létezik-e a síkban öt olyan pont,
amelyek egymástól éppen a mátrixban található
távolságokra vannak!
2015.10.31.
18
Példa Mérő (1986) nyomán
Az eredmények mátrixa:
Spenót
Kelkáposzta
0.0
2.2
Spenót
2.2
0.0
Kelkáposzta
1.3
3.2
Sóska
3.0
Karfiol 3.5
2.8
3.5
Saláta
Sóska
Karfiol
Saláta
1.3
3.2
3.5
3.0
2.8
3.5
0.0
5.0
1.6
5.0
0.0
5.5
1.6
5.5
0.0
2.2
Spenót
2015.10.31.
Kelkáposzta
19
Példa Mérő (1986) nyomán
Az eredmények mátrixa:
Spenót
Kelkáposzta
0.0
2.2
Spenót
2.2
0.0
Kelkáposzta
1.3
3.2
Sóska
3.0
Karfiol 3.5
2.8
3.5
Saláta
Sóska
Karfiol
Saláta
1.3
3.2
3.5
3.0
2.8
3.5
0.0
5.0
1.6
5.0
0.0
5.5
1.6
5.5
0.0
3.2
1.3 2.2
Spenót
Kelkáposzta
Sóska
2015.10.31.
20
Példa Mérő (1986) nyomán
Az eredmények mátrixa:
Spenót
Kelkáposzta
0.0
2.2
Spenót
2.2
0.0
Kelkáposzta
1.3
3.2
Sóska
3.0
Karfiol 3.5
2.8
3.5
Saláta
3.5
Karfiol
Karfiol
Saláta
1.3
3.2
3.5
3.0
2.8
3.5
0.0
5.0
1.6
5.0
0.0
5.5
1.6
5.5
0.0
3.2
3.0
1.3 2.2
Spenót
5.0
Sóska
Kelkáposzta
Sóska
2015.10.31.
21
A klasszikus többdimenziós
skálázás (CMDS) 1.
• Az előbbi példa az MDS legegyszerűbb változatát, a CMDS-t
(Classical MDS) szemlélteti.
• A CMDS az MDS legkorábban kidolgozott típusa, amely csupán
egyetlen különbözőségi mátrixot - pl. egyetlen személy bizonyos
objektumokra vonatkozó különbözőség-érzékelési adatait - képes
egyidejűleg kezelni, és megkívánja a bemenő adatoktól a
legalább intervallum-skálát (metrikus MDS).
• A CMDS alkalmazhatósága korlátozott, mert tipikusan több
személy adatait szeretnénk egyidejűleg feldolgozni.
2015.10.31.
22
A klasszikus többdimenziós
skálázás (CMDS) 2.
• Az i és j pontoknak megfelelő objektumok közötti
különbözőség-érzékletet a létrehozott
pontkonfigurációban az i és j pontok dij euklideszi
távolságával képezi le, ami két dimenzióban a Pithagorasztétel alapján a következőképpen írható:
2. dimenzió
xi2
i pont
dij2==[((xi2i2 – xj2j2)22 + (xj1j1 - xi1i1)22]½
(distance, dissimilarity)
j pont
xj2
2015.10.31.
xi1
xj1
1. dimenzió
23
A klasszikus többdimenziós
skálázás (CMDS) 3.
• Az r darab dimenzióra általánosított modell alapja, hogy az i
és j pontoknak megfelelő objektumok közötti különbözőségérzékletet az r dimenziós térben az i és j pontok dij
euklideszi távolságával a következőképpen adjuk meg:
1
r

2
 2
 
dij    x  x  
ja  
  ia
 a

2015.10.31.
xia az i pont, xja pedig a j
pont koordinátája az a
dimenzión.
Ez a formula a Pithagorasztétel általánosítása r
dimenziós tér esetére.
24
A klasszikus többdimenziós
skálázás (CMDS) 4.
• A D távolság-mátrix elemei az egyes dij (distance,
dissimilarity) értékek, amelyek a létrehozott
pontkonfigurációt jellemzik.
• Ennek a pontkonfigurációnak az eltérése az eredeti észlelési
adatokat tartalmazó S különbözőség-mátrixtól - pontosabban
annak egy célszerűen választott lineáris transzformáltjától:
(disparity) - mutatja, hogy egy megtalált megoldásnak
mekkora a hibája.
• Ennek ellenőrzése az SPSS-ben a következő három
illeszkedési mutató segítségével történik: s-stress, stress és
RSQ.
2015.10.31.
25
A klasszikus többdimenziós
skálázás (CMDS) 5.
eredeti észlelések és
pontkonfiguráció különbségéből
A s-stress definiciója:
eredeti
észlelésekből
1
s  stress 






E
T






2
||E|| az E (Error) hiba-mátrix elemei négyzeteinek az összege, ||T||
pedig az eredeti észlelések S különbözőség-mátrixából alkalmas lineáris
transzformációval létrehozott T (Transformed) transzformált mátrix
elemei négyzeteinek az összege.
Mivel T = l{S}, ahol l a lineáris transzformációra utal, és
||E|| = ||T-D2||, ahol a D2 mátrix elemei az egyes dij távolság-értékek
négyzetei, az s-stress az összes négyzetes eltéréseket (hibákat)
viszonyítja a különbözőség-érzékleteknek pontosan megfelelő összes
távolságok négyzeteihez.
2015.10.31.
26
A klasszikus többdimenziós
skálázás (CMDS) 5.
A s-stress szemléletes jelentése: a modell által meghatározott
térben az összes észlelt különbözőséghez képest mekkora az
elméleti
(pontos) távolságok és a modell által létrehozott pontkonfigurációban
ténylegesen létrejött távolságoknak az eltérése.
Ha tehát tökéletes a megfelelés az eredetileg érzékelt és az
ábrázolt különbségek között, akkor a hiba zérus és így s-stress
értéke is az.
Az SPSS azt a pontkonfigurációt keresi meg, amelyre az s-stress
minimális.
2015.10.31.
27
A klasszikus többdimenziós
skálázás (CMDS) 6.
A stress csak abban tér el az s-stress-től, hogy a
formulában nem a távolságok négyzetei, hanem maguk a
távolságok szerepelnek (az s-stress-nevében az s betű a
négyzetre - square - utal).
Tehát az s-stress és stress minél kisebb értékei a
kívánatosak, mert ezek felelnek meg a minél kisebb
torzításnak.
Mindkét mutatóra érvényes közelítő tájékozódási szabály
található a következő táblázatban.
2015.10.31.
28
A klasszikus többdimenziós
skálázás (CMDS) 7.
s-stress,
A rekonstrukció minősége
illetve stress értéke
0 - 0.05
Kiváló, valószínűleg minden releváns
információt tartalmaz
0,05 - 0.10
Jó
0.10 -0.20
Elfogadható, érdemes foglalkozni vele.
Az eredmény többnyire még
értelmezhető.
0.20 fölött
Az adott dimenziószámnál csak nagy
információ-veszteséggel ábrázolható az
eredeti különbözőség-mátrix, meg kell
próbálkozni eggyel magasabb
dimenziószámmal.
2015.10.31.
29
A klasszikus többdimenziós
skálázás (CMDS) 8.
RSQ (R SQUARED) - az SPSS által kiszámított
harmadik illeszkedési mutató - egyszerűen a T és D
mátrixok megfelelő elemei között kiszámított
korrelációs együttható négyzete, amely közvetlenül
megadja, hogy az összes varianciának milyen hányadát
tudja magyarázni az adott MDS modell.
Ennél a mutatónál - az előző kettővel szemben természetesen az alacsonyabb értékek rosszabb
illeszkedést jeleznek.
2015.10.31.
30
A klasszikus többdimenziós
skálázás (CMDS) 9.
RSQ (R SQUARED)
Karfiol Saláta

távolság-mátrix
dij elemei
(distances,
dissimilarities)
Spenót Sóska
2015.10.31.
eredeti észlelési adatok
transzformáltja (disparities) 
31
A nemmetrikus CMDS 1.
Problémák a metrikus CMDS-el:
• Nincs garancia arra, hogy az emberek hasonlósági
ítéleteiket valóban egyenletesen skálázzák
(pl. vonalhosszúság-becslés esetén 1 cm általában
nagyobb szubjektív különbséget jelent a széleken, mint
a vonal közepe felé).
• Egyes személyek kifejezetten sarkítják a
véleményüket.
• A metrikus CMDS legalább intervallum-skálájú
adatokat követel meg, míg a gyakorlatban általában
csak ordinális skálájú adataink vannak.
2015.10.31.
32
A nemmetrikus CMDS 2.
Az eredmények mátrixa:
Spenót
Kelkáposzta
0.0
2.2
Spenót
3
2.2
0.0
Kel3
káposzta
1
6
1.3
3.2
Sóska
3.0
Karfiol 3.5
7,5
5
2.8
3.5
Saláta
4
7,5
Sóska
Karfiol
Saláta
1.3
1
3.2
6
7,5
3.5
3.0
5
4
2.8
3.5
7,5
0.0
5.0
9
1.6
2
9
5.0
0.0
5.5
10
2
1.6
10
5.5
0.0
Térjünk vissza korábbi példához és helyettesítsük
a mátrixban található távolságokat
rangszámokkal!
2015.10.31.
33
Miután a távolságokat rangszámokkal
A nemmetrikus
CMDS
2.
helyettesítettük,
keressük
meg
a
Saláta
helyét!
Az eredmények mátrixa:
Spenót
Spenót
Kelkáposzta
Sóska
Karfiol
Saláta
Sóska
0.0
2.2
3
Kelkáposzta
2.2
3
0.0
Karfiol
Saláta
1.3
1
3.2
6
7,5
3.5
3.0
5
4
2.8
3.5
7,5
1
1.3
3.5
7,5
2.8
4
6
3.2
3.0
5
3.5
7,5
0.0
5.0
9
2
1.6
9
5.0
0.0
5.5
10
2
1.6
10
5.5
0.0
Karfiol
1-en
kívül
9-en
kívül
Spenót
3-an
kívül
7,5-en
belül
Kelkáposzta
Sóska
2015.10.31.
6-on
kívül
6-on
belül
34
A nemmetrikus CMDS 3.
• Láttuk, hogy rangszámok alkalmazása esetén a konfiguráció
instabil: az egyes pontok helye megváltoztatható anélkül, hogy a
rangsor megváltozna (ugyanahhoz a rangsorhoz több
konfiguráció is tartozhat).
• Jelentős áttörést jelentett azonban a CMDS fejlődésében
SHEPHARD (1962) azon felismerése, hogy a pontok számának
növelésével az egyes pontok mozgástere radikálisan szűkül.
• Ebből következően: ha a pontok (objektumok) száma nem
túlságosan kicsi a dimenzió-számhoz képest, akkor pusztán az
eredeti távolságok sorrendje (tehát egy ordinális skálájú
változó) alapján is nagy pontossággal rekonstruálható a
kvantitatív konfiguráció.
2015.10.31.
35
A nemmetrikus CMDS 4.
• A pusztán sorrendi információ alapján történő rekonstrukció két
dimenzió és 10 pont esetén már igen pontos, két dimenzió és 15 pont
esetén pedig már gyakorlatilag hibátlan.
• Az ordinális bemenő adatokkal dolgozó CMDS-t nemmetrikus
CMDS-nek nevezzük.
• A nemmetrikus CMDS matematikai modellje megfelel a
metrikusénak azzal az eltéréssel, hogy az eredeti S különbözőségmátrixból most nem lineáris, hanem egy alkalmas monoton
transzformációval hozzuk létre a T transzformált mátrixot, tehát
T = m{S, ahol m a monoton transzformációra utal.
• A három illeszkedési mutató értelemszerűen ugyanúgy használható,
mint a metrikus CMDS esetében.
2015.10.31.
36
A nemmetrikus CMDS 5.
Problémák a nemmetrikus CMDS-el:
•A nemmetrikus CMDS is csak egyetlen különbözőség-mátrix
egyidejű feldolgozására képes, ami erősen korlátozza az
alkalmazhatóságát, mert a piackutatásban, termékminősítésben,
pszichológiai és szociológiai vizsgálatokban tipikusan több
személytől nyert adat egyidejű feldolgozása a cél.
•A CMDS egyszerű személyenkénti ismételgetése általában azért
nem elfogadható megoldás, mert ez a vizsgálati terv közvetve azt
feltételezi, hogy az egyes személyek különbözőség-érzékletei
egymástól tökéletesen függetlenek, bennük semmiféle közös
komponens nincs.
2015.10.31.
37
A nemmetrikus CMDS 6.
Problémák a nemmetrikus CMDS-el:
•A modellből következően a nemmetrikus CMDS egyrészt rendkívül
számításigényes (n objektum, r dimenziós tér és m személy
esetén n x r x m paramétert kell kezelnie),
•másrészt az eredmények nehezen értelmezhetők egységesen,
mert lényegében m darab független analízist végzünk el.
•Az igazán jól használható megoldásokhoz a CMDS-től eltérő
típusú matematikai modellekre volt szükség, amelyeket a
következőkben röviden ismertetünk.
2015.10.31.
38
A replikációs többdimenziós skálázás
(RMDS)
• Az RMDS (Replicated MDS) az MDS egyik olyan típusa, amely
már több különbözőségi mátrixot is képes egyidejűleg kezelni.
• Alapfeltevés: az egyes objektumok különbözőségei bizonyos
véletlenszerű hibáktól eltekintve azonos mértékben tükröződnek
az m számú személy ítéleteit tartalmazó m számú adatmátrixban (ezek az adat-mátrixok egymásnak mintegy a
megismétlései, replikái).
• A paraméterek száma itt is n x r x m, de az eredmények
egységes keretben értelmezhetők.
• Metrikus és nemmetrikus változatok és hasonló módon - de az
m számú adat-mátrix egyfajta összegzését is figyelembe véve definiált illeszkedési mérőszámok.
2015.10.31.
39
A súlyozott többdimenziós skálázás
(WMDS) 1.
• A WMDS (Weighted MDS) az MDS olyan továbbfejlesztett
típusa, amely azon túl, hogy a RMDS-hez hasonlóan képes
egyidejűleg kezelni több különbözőségi mátrixot is, a válaszok
mögött meghúzódó egyéni perceptuális és kognitív folyamatok
individuális különbségeiről is bizonyos információkat tud adni.
• Alapfeltevés: bár a különböző személyek az objektumokat azonos
dimenziók mentén ítélik meg, ezen dimenzióknak azonban eltérő
fontosságokat tulajdonítanak, azaz ezeket a dimenziókat egyénileg
eltérő módon súlyozzák és skálázzák.
• Emiatt a módszert az individuális különbségek skálázásának is
nevezik (INDSCAL).
2015.10.31.
40
A súlyozott többdimenziós skálázás
(WMDS) 2.
• A WMDS matematikailag a súlyozott euklideszi modellen alapszik,
amelyben továbbra is adott az ingerek (objektumok) súlyozatlan
euklideszi tere, de emellett adott azon súlyok tere is, amelyek az
objektumok közötti különbözőség-érzetek jellegzetes egyéni
sajátosságait megszabják.
• Ezek a wka súlyok 0 és 1 közötti értékeket felvevő paraméterek,
amelyek a k. személy különbözőség-érzékelését jellemzik az a
dimenzióban: wka nagy (1-hez közeli) értéke az adott a dimenzió
viszonylagos fontosságát, kis (0-hoz közeli) értéke pedig az adott
dimenzió viszonylagos jelentéktelenségét mutatja a k. személy
számára.
2015.10.31.
41
A súlyozott többdimenziós
skálázás (WMDS) 3.
•A súlyok értelmezésénél figyelembe kell venni, hogy azok nem
egyszerű skalár mennyiségek, hanem a súly-vektorok komponensei
(a bezárt szög hordozza az információt).
• Definiálták ezen wka súlyok eggyel kevesebb dimenziójú térre
vetített változatát (Flattened Weight), amely már egyszerűen
értelmezhető skalár mennyiség.
• Az összesen r darab wka súly mellett a k. személyt még egy ún.
„különösségi index-szel” (Weirdness Index) is jellemzi a WMDS,
amely a súlyok értelmezését segíti.
• A 0 és 1 között változó index azt fejezi ki, hogy az adott személy
súlyai mennyire különösek vagy szokatlanok a vizsgálatba bevont
tipikus személy súlyaihoz viszonyítva.
2015.10.31.
42
A súlyozott többdimenziós
skálázás (WMDS) 4.
• A 0 érték a tipikus személynek felel meg, míg az 1-es érték azt
jelzi, hogy az adott személynek csak egyetlen pozitív (nem zérus)
súlya van, az összes többi értéke 0.
• Ez utóbbi személy az elemzésbe bevont dimenziók közül csak
egyet használ és ezért „különösnek” tekintjük.
• Jelentős eltérés a korábbi MDS modellektől, hogy a WMDS-ben
az ingerek tere nem forgatható el, mivel az elforgatás az egyéni
dimenzió-súlyozásokat tenné értelmetlenné.
• Ebből a szempontból a WMDS statisztikailag erősebb eljárás,
mint a CMDS és a faktoranalízis.
• Ugyancsak léteznek a metrikus és nemmetrikus változatai.
2015.10.31.
43
Az MDS elemzések néhány általános
vonása az SPSS-ben 1.
Meg kell adni az adatok mérési szintjét (measurement
level), alakját (shape) és feltételességét
(conditionality).
A mérési szint megadása az ordinális (ordinal),
intervallum (interval) vagy arány (ratio) skála-típusok
valamelyikének a választását jelenti.
Az adatállomány alakja lehet négyzetes (square) vagy
derékszögű (rectangular), a négyzetes típus tovább
bontható szimmetrikusra (symmetric) és
aszimmetrikusra (asymmetric).
2015.10.31.
44
Az MDS elemzések néhány általános
vonása az SPSS-ben 2.
A négyzetes adatállományban a sorok és oszlopok az
objektumok ugyanazon halmazára vonatkoznak (így egy
adott adatmezőben levő adat a sornak és az oszlopnak
megfelelő két objektum különbözőségét fejezi ki 
sorok és oszlopok sorrendje ezért fontos!).
Ha a két objektum különbözősége az összehasonlítás
sorrendjétől függetlenül ugyanaz, akkor szimmetrikus
adatállományról beszélünk, míg ha a különbözőség függ
a sorrendtől, akkor aszimmetrikus adatokról van szó.
2015.10.31.
45
Az MDS elemzések néhány általános
vonása az SPSS-ben 3.
Szimmetrikus adatállomány esetén elegendő a mátrix
főátlója alatti adatokat bevinni, mivel a mátrix másik fele
- éppen a szimmetria miatt - a főátlója alatti rész
tükörképe lenne.
Aszimmetrikus adatállomány esetén viszont a teljes
mátrixra szükség van (pl a személynek a-ról az esetek
95%-ában eszébe jut b, de b-ről csak az esetek 65%-ában
jut eszébe a).
Egy fentiektől független tulajdonsága az alkalmazott
algoritmusoknak, hogy bizonyos számú adat bármilyen
típusú állományból hiányozhat, az eredményt - némi
információ-veszteséggel - többnyire úgy is megkaphatjuk.
2015.10.31.
46
Az MDS elemzések néhány általános
vonása az SPSS-ben 4.
A feltételesség szempontjából az adatállomány lehet
mátrix-feltételes vagy sor-feltételes.
A legtöbb különbözőségi adat mátrix-feltételes, ami azt
jelenti, hogy az adott mátrixban minden adat ugyanazon
a skálán értelmezett.
Ha az adatok soronként más típusú skálán értelmezettek,
akkor az adatállomány sor-feltételes.
2015.10.31.
47
Példa: műszaki pedagógiai kutatás 1.
Hat valószínűségszámítási feladat számítógéppel
támogatott megoldása során a feladatok érthetőségét
meghatározó dimenziókat vizsgáltuk 17 főiskolai
hallgató bevonásával.
A cél annak meghatározása volt, hogy milyen további
összetevői vannak a feladatok hallgatók által észlelt
érthetőségnek.
Módszer: vélemények kérése az egyes feladatok
nehézségéről – azok megoldása után - 5 fokozatú
skálán, majd MDS.
Az eredményeket jobban érthető, és így hatékonyabb
feladatok összeállításában kívántuk hasznosítani.
2015.10.31.
48
Példa: műszaki pedagógiai kutatás 2.
Derived Stimulus Configuration
„Averaged over
matrices
S-stress = 0,135”
Dimension 2
Az illeszkedés
még elfogadható
2 dimenzióban,
meg lehet
kísérelni az
értelmezést.
Ugyanakkor a
kapott dimenziók
hosszú elemzés
után sem voltak
értelmezhetők.
Euclidean distance model
,8
erth2
,6
erth4
,4
,2
-,0
erth3
-,2
-,4
erth5
-,6
-2
2015.10.31.
erth1
erth6
-1
Dimension 1
0
1
2
3
49
Példa: műszaki pedagógiai kutatás 3.
Derived Stimulus Configuration
Dimension 2
Figyelembe véve,
hogy a kapott
tengelyek rotálhatók
és eltolhatók, más
tengelyek felvételét is
meg kellett vizsgálni.
Ennek érdekében
sokoldalúan
elemeztük az egyes
feladatok
jellegzetességeit.
Euclidean distance model
,8
erth2
,6
erth4
,4
,2
-,0
erth3
-,2
-,4
erth5
-,6
-2
2015.10.31.
erth1
erth6
-1
Dimension 1
0
1
2
3
50
Példa: műszaki pedagógiai kutatás 4.
A feladatok a konkrét-absztrakt kontextus dimenzió mentén
a következőképpen voltak sorbarendezhetők:
1.  5.  6.  4.  3.  2.
(A konkrét kontextusra példa az érme-dobás vagy kocka-dobás
helyzete, az absztrakt kontextusra a végtelen értéket felvehető
valószínűségi változók megfelelő kezelésének szükségessége).
A feladatok az egyszerű-összetett fogalmi háttér dimenzió mentén a
következőképpen voltak sorbarendezhetők:
1.  2.  4.  6.  5.  3.
(A egyszerű fogalmi háttérre példa az érme-dobás vagy kocka-dobás
lehetséges kimeneteleinek számbavétele, az összetett fogalmi háttérre
pedig a különböző bonyolultabb eloszlásfüggvények
megszerkesztésének szükségessége).
2015.10.31.
51
Példa: műszaki pedagógiai kutatás 5.
konkrét-absztrakt kontextus: 1.  5.  6.  4.  3.  2.
egyszerű-összetett fogalmi háttér: 1.  2.  4.  6.  5.  3.
Derived Stimulus Configuration
Euclidean distance model
,8
erth2
,6
erth4
,4
,2
Dimension 2
-,0
erth3
erth1
erth6
-,2
-,4
erth5
-,6
-2
-1
2015.10.31.
Dimension 1
0
1
2
3
52
Példa: műszaki pedagógiai kutatás 6.
konkrét-absztrakt kontextus: 1.  5.  6.  4.  3.  2.
egyszerű-összetett fogalmi
háttér:
1.  Configuration
2.  4.  6.  5.  3.
Derived
Stimulus
Euclidean distance model
"konkrét-absztrakt,8
kontextus"
,6
,4
erth4
2
2
-,0
Dimension 2
1
3
,2
4
6
4
erth3
erth1
erth6
-,2
6
3
-,4
5
erth5
-,6
-2
2015.10.31.
"egyszerű-összetett
fogalmi háttér"
erth2
5
-1
0
1
1
Dimension 1
2
3
53
Példa: piackutatás 1.
Egy közvéleménykutató cég megbízásából öt női lap
kedveltségét meghatározó dimenziókat vizsgáltuk 35
válaszadó bevonásával.
A cél annak meghatározása volt, hogy milyen milyen a
vizsgált lapok megítélése az olvasók által „használt”
dimenziók mentén.
Módszer: (egyebek között) vélemények kérése az egyes
lapok kedveltségéről 5 fokozatú skálán, majd MDS.
Az eredményeket esetleges új lapok indításában,
illetőleg a meglévők arculatának szükség szerinti
módosításában kívánták hasznosítani.
2015.10.31.
54
Példa: piackutatás 2.
Az öt vizsgált női lap elhelyezkedése az MDS elemzéssel
azonosított és értelmezett három dimenzió mentén
Női lap
Meglepetés
Cosmopolitan
Tina
Kiskegyed
Nők lapja
2015.10.31.
1.
2.
3.
Dim.
Érdekes,
menő
Dim.
Valós
problémák
Dim.
- Hitelesség
-0,0352
1,6038
-1,5534
-0,0900
0,0748
-1,6714
-0,0318
0,0288
0,2036
1,4708
-0,4713
0,0462
-0,3058
1,8512
-1,1203
55
Példa: piackutatás 3.
Az öt vizsgált női lap elhelyezkedése az MDS
elemzéssel azonosított és értelmezett három
dimenzió mentén
Az öt vizsgált női lap egymáshoz
viszonyított helyzete az MDS elemzés alapján
V
a
l
ó
s
p
r
o
b
l
é
m
á
k
2015.10.31.
Nők lapja
Cosmopolitan
Kiskegyed
Tina
Meglepetés
Érde
kes
, me
nõ
g
essé
l
e
t
i
H
56
„Térképkészítés”
A következő kísérletben megvizsgáljuk, hogy hogyan
lehet adott Euklideszi-távolságmátrixhoz síkbeli pontreprezentációt előállítani.
Kiindulunk a magyarországi városok
távolságmátrixából.
Összesen 10 város egymástól vett km pontosságú
távolságait helyeztük el
Az alulról-háromszög alakú távolságmátrixban.
2015.10.31.
57
„Térképkészítés”
Az adatmátrixba beírjuk 10 magyar város
egymástól légvonalban vett távolságait. Alulról
háromszög távolságmátrixot kaptunk a
szimmetrikusság miatt, továbbá egy város
önmagától mindig 0 távolságra van.
2015.10.31.
58
„Térképkészítés”
Elindítjuk az MDS
programot…
2015.10.31.
59
„Térképkészítés”
Megadjuk, hogy az adatok
távolságokat reprezentálnak (nem
pl. hasonlósági mérőszámok), és
az adatok háromszög-mátrixban
vannak.
2015.10.31.
60
„Térképkészítés”
Megadjuk, hogy az
adatok arány skálájúak,
és azt, hogy síkbeli,
azaz 2-dimenziós
reprezentációt kérünk
2015.10.31.
61
„Térképkészítés”
Kis stress-értékeket
A városonkénti
torzulások is kicsik!
kaptunk, tehát jó lett a
reprezentáció
Proxscal
Stress and Fit Measures
Decomposition of Normalized Raw Stress
Object
Mean
Szombathely
Győr
Pécs
Székesfehérvár
Budapest
Szeg ed
Miskolc
Békéscsaba
Debrecen
Nyíregyháza
Source
SRC_1
,0012
,0005
,0007
,0001
,0001
,0003
,0002
,0001
,0000
,0001
,0003
2015.10.31.
Mean
,0012
,0005
,0007
,0001
,0001
,0003
,0002
,0001
,0000
,0001
,0003
Normalized Raw Stress
Stress-I
Stress-II
S-Stress
Dispersion Accounted
For (D.A.F.)
Tucker's Coefficient of
Congruence
,00033
,01828a
,04546a
,00083b
,99967
,99983
PROXSCAL minimizes Normalized Raw Stress.
a. Optimal scaling factor = 1,000.
b. Optimal scaling factor = ,999.
Final Coordinates
Szombathely
Győr
Pécs
Székesfehérvár
Budapest
Szeg ed
Miskolc
Békéscsaba
Debrecen
Nyíregyháza
Dimension
1
2
-,977
,256
-,606
,297
-,547
-,507
-,386
,015
-,135
,136
,138
-,522
,490
,371
,496
-,358
,738
,053
,789
,260
A városok koordinátái az
elkészült térképen
62
„Térképkészítés”
A városok
elhelyezkedése
a kiszámított
koordináták
szerint…
2015.10.31.
63
„Térképkészítés”
A következő futtatásnál csökkentett információból indulunk ki.
A távolságok helyett csak a rangszámokat tároljuk a mátrixban.
Pl. a Budapest Szombathely relációban olvasható 23 azt jelenti,
hogy a 45 távolság adat között között ez a távolság a 23.
2015.10.31.
64
„Térképkészítés”
A nyíregyháza Debrecen a legkisebb távolság
(1-es rangszámot kap) és Nyíregyháza
Szombathely a két legtávolabbi város
(relációjuk kapja a 45-öt)
2015.10.31.
65
„Térképkészítés”
Most az adatok nem
távolságokat, hanem
rangszámokat
jelentenek
2015.10.31.
66
„Térképkészítés”
Az adatok
szintje most
csak ordinális
2015.10.31.
67
„Térképkészítés”
Stress and Fit Measures
Normalized Raw Stress
Stress-I
Stress-II
S-Stress
Dispersion Accounted
For (D.A.F.)
Tucker's Coefficient of
Congruence
,00020
,01407a
,02949a
,00027a
,99980
Annak ellenére, hogy
kevesebb információnk
volt a városokról, a
reprezentáció elég jó lett
,99990
PROXSCAL minimizes Normalized Raw Stress.
a. Optimal scaling factor = 1,000.
Final Coordinates
Szombathely
Győr
Pécs
Székesfehérvár
Budapest
Szeg ed
Miskolc
Békéscsaba
Debrecen
Nyíregyháza
Dimension
1
2
-,696
,397
-,681
-,025
-,736
,146
-,470
-,157
-,035
-,203
-,273
-,280
,811
-,038
,407
-,251
,845
,123
,829
,288
2015.10.31.
68