Transcript Podstawowe pojęcia. Skale pomiaru. Dobór zmiennych
METODY WIELOWYMIAROWEJ ANALIZY PORÓWNAWCZEJ
Metody wielowymiarowej analizy porównawczej:
metody służące do wykrywania prawidłowości w obiektach opisywanych przez wiele ich właściwości. Pozwalają one na dokonywanie różnorodnych porównań obiektów wielowymiarowych.
Grupy metod WAP
-
metody taksonomiczne
- porównywanie obiektów obejmujące zarówno porządkowanie zbioru obiektów jak i ich grupowanie w podzbiory jednostek podobnych do siebie ze względu na charakteryzujące je właściwości oraz wybór reprezentantów otrzymanych grup obiektów
metody analizy czynnikowej
- transformacja wejściowego zbioru charakterystyk obiektów dowolnej natury, najczęściej zmiennych opisujących obiekty przestrzenne, w nowe nie obserwowalne charakterystyki zwane czynnikami, poprzez ortogonalne przekształcenie macierzy danych wejściowych
Przedmiot analizy porównawczej
– obiekty, które mogą być jednostkami przestrzeni, zmiennymi lub jednostkami czasu lub ich iloczyny kartezjańskie.
Przestrzeń analizy porównawczej
– właściwości obiektów, czyli wartości 2 pozostałych elementów, które mogą być przedmiotem analizy porównawczej.
1
X
ijt
,
MACIERZ OBSERWACJI
i=1,2,...,n; j=1,2,...,m; t=1,2,...,T, gdzie:
-
x ijt
– wartość j-tej zmiennej (cechy) w i-tym obiekcie przestrzennym w t-tym okresie (momencie) czasu.
Zbiory i ich iloczyny kartezjańskie stanowiące przedmiot i przestrzeń analizy porównawczej w badaniach społeczno-ekonomicznych: P={p
1 ,...,p n
} – zbiór obiektów przestrzennych,
-
Y={y
1 ,...,y m
} – zbiór zmiennych (cech),
-
T={t
1 ,t 2 ,...,t k
} – zbiór okresów (jednostek czasu), PY=P
Y{p
1 y 1 ,p 2 y 1 ,...,p n y 1 ,p 1 y 2 ,p 2 y 2 ,...,p n y 2 ,...,p 1 y m ,p 2 y m ,...,p n y m
} – zbiór obiekto-zmiennych, PT=P
T – zbiór obiekto-okresów,
-
YT=Y
T – zbiór zmienno-okresów,
-
PYT=P
Y
T – zbiór obiekto-zmienno-okresów.
2
ETAPY BADANIA WYKORZYSTUJĄCEGO METODY WAP 1.
Sformułowanie celu analizy (wstępnych hipotez badawczych).
2.
Określenie zakresu merytorycznego, terytorialnego i czasowego badań, a w szczególności wyspecyfikowanie elementów zbioru obiektów oraz zbioru ich charakterystyk.
3.
Zebranie kompletnych i adekwatnych danych statystycznych:
-
ustalenie źródeł danych i zebranie danych źródłowych, doprowadzenie danych do wzajemnej porównywalności,
-
eliminacja obserwacji o anormalnych poziomach, interpolacja brakujących informacji, wyznaczenie zmiennych przetworzonych (udziałów procentowych, współczynników dynamiki, wskaźników ekonomicznych itp.).
4.
Analiza statystyczna danych wejściowych:
-
wyznaczenie i analiza parametrów opisowych rozkładu (miary przeciętne, miary
-
dyspersji, miary asymetrii, miary koncentracji), ocena stopnia i kierunku współzależności między zmiennymi wyjściowymi.
3
5.
Dobór optymalnego podzbioru zmiennych diagnostycznych:
-
wyeliminowanie zmiennych quasi - stałych,
-
analiza struktury macierzy korelacji, ustalenie końcowej listy zmiennych.
6.
Porównywanie obiektów w ramach analizowanych układów zmiennych:
-
wybór metody porównania, określenie sposobu normalizacji zmiennych,
-
ustalenie miar podobieństwa, porównanie obiektów za pomocą wybranej metody.
7.
A
naliza i interpretacja wyników, sformułowanie wniosków końcowych.
4
SKALE POMIARU Pomiar
- przyporządkowanie charakterystykom obiektów liczb w taki sposób, aby odzwierciedlały relacje zachodzące między obiektami
skala nominalna
-
przyporządkowuje poszczególnym wartościom cechy wyłącznie nazwy pozwala ona jedynie na stwierdzenie identyczności lub różnic porównywanych obiektów oraz zliczyć obiekty identyczne i różne przykładem pomiaru na tej skali jest przyporządkowanie płci (kobieta, mężczyzna) porównywanym ze względu na tą cechę osobom
skala porządkowa (rangowa)
-
pozwala nie tylko na zróżnicowanie obiektów lecz także porównywanie wartości zmiennych zaobserwowanych w obiektach (liniowe porządkowanie obiektów) nie pozwala określić odległości między obiektami umożliwia w efekcie zliczanie obiektów uporządkowanych (liczby relacji równości (identyczności), równości, większości i mniejszości) typowym przekładem tego typu cech jest poziom wykształcenia.
5
skala przedziałowa (interwałowa)
-
pozwala dodatkowo, w stosunku do skali porządkowej, obliczyć odległości między obiektami, dokonując pomiaru cech za pomocą liczb rzeczywistych dla skali tej możliwe jest, obok operacji arytmetycznych dopuszczalnych dla skal o mniejszej mocy, także dodawanie i odejmowanie wartość zerowa na tej skali ma charakter umowny (np. 0 o w skali Celsjusza), co prowadzi do zachowania różnic między wartościami cechy przy zmianie jednostek
-
miary przykładem zmiennych, dla których pomiar dokonywany jest na skali przedziałowej są dochody gospodarstw domowych
skala ilorazowa (stosunkowa)
-
ma podobny charakter jak skala przedziałowa, z tym występuje na niej zero bezwzględne (zero ogranicza lewostronnie zakres tej skali) można na tej skali obok operacji dopuszczalnych na skalach słabszych dokonywać także dzielenia i mnożenia, a tym samym przedstawiać dowolną wartość cechy danego obiektu jako wielokrotność wartości cechy dla innego obiektu zmienną mierzoną na takiej skali jest na przykład wiek czy też waga osób
6
DOBÓR OPTYMALNEGO PODZBIORU ZMIENNYCH DIAGNOSTYCZNYCH
OGÓLNE ZASADY DOBORU ZMIENNYCH
kryteria pozastatystyczne (merytoryczne i formalne)
-
wykorzystanie wskazań wypracowanych w ramach ogólnych teorii badanych zjawisk
-
wykorzystanie opnii ekspertów z danej dziedziny
kryteria statystyczne
7
KRYTERIA MERYTORYCZNE
istotność z punktu widzenia analizowanych zjawisk
wyczerpanie zakresu zjawisk
logiczność wzajemnych powiązań
proporcjonalność reprezentacji zjawisk cząstkowych
8
KRYTERIA STATYSTYCZNE
-
zdolność dyskryminacyjna zmiennych, czyli ich zmienność względem badanych obiektów
-
pojemność (potencjał) informacyjna zmiennych, czyli stopień ich skorelowania z innymi zmiennymi
9
METODY DOBORU MERYTORYCZNEGO
burza mózgów
-
opiera się na swobodnej wymianie poglądów w niewielkich zespołach osób, dobranych ze względu na znajomość badanego zjawiska
-
w klasycznej burzy mózgów tworzone są dwa zespoły zadaniowe:
-
zespół twórczy ma za zadanie zaproponowanie jak największej liczby potencjalnych zmiennych diagnostycznych
-
rolą drugiego zespołu, oceniającego, jest dokładna analiza i ocena przygotowanej przez zespół twórczy wstępnej listy potencjalnych zmiennych diagnostycznych i przedstawienie ostatecznej listy potencjalnych zmiennych diagnostycznych
metoda delficka
-
metoda grupowego rozwiązywania problemów drogą ankietowania ekspertów w danej dziedzinie
-
eksperci formułują swoje propozycje z zachowaniem anonimowości
-
procedurę ankietowania powtarza się wielokrotnie, stopniowo ustalając listę potencjalnych zmiennych diagnostycznych
10
ANALIZA ZDOLNOŚCI DYSKRYMINACYJNEJ 1.
Klasyczny współczynnik zmienności:
V k
x j
, gdzie: j=1,2,...,m,
x j
i n
1
x ij n
,
S
- odchylenie standardowej j-tej zmiennej, przy czym:
S
1
n i n
1
x ij
x j
2 1 2
.
11
2. Pozycyjny współczynnik zmienności:
V p
j
MOB M j
j
, j=1,2,...,m, gdzie:
M
- mediana j-tej zmiennej, przy czym:
M
j
1 2
x
n
2
j
x
n
2 1
j
x
n
2 dla 1
j
dla
n
parzystego
n
jest nieparzyst ego
,
MOB
- medianowe odchylenie bezwzględne j-tej zmiennej, przy czym:
MOB
M i x ij
M
,
12
ANALIZA POTENCJAŁU INFORMACYJNEGO
METODA PARAMETRYCZNA
1.
Wyznaczamy macierz korelacji zmiennych.
2.
Ustalamy arbitralnie pewną progową wartość współczynnika korelacji, którą oznaczamy przy r* taką, że 0<r*<1. Najczęściej przyjmuje się r*=0,5 lub też w oparciu o formuły:
r
* min
j
max
j
'
r jj
'
, j,j’=1,2,...,m,
r
*
t
2
t
2
n
2 1 2
, gdzie:
t
2
- wartość odczytana z tablic dystrybuanty rozkładu t-Studenta dla n-2 stopni swobody oraz przyjętego poziomu istotności
.
3.
Wyznaczamy sumę wartości bezwzględnych elementów każdej kolumny (lub każdego wiersza) macierzy R:
R j
'
j m
1
r jj
'
j
' 1 , 2 ,...,
m
4.
Znajdujemy kolumnę (odpowiednio – wiersz), dla której powyższa suma jest największa:
R j
' 0 max
j
'
j
' 13
5.
W kolumnie (wierszu) r*, czyli takie
j
1 , 2 ,...,
R m j
' 0
wyróżniamy elementy przewyższające co do modułu wartość , że
r jj
' 0
r
*
oraz odpowiadające tym elementom wiersze (kolumny). Zmienną, która odzwierciedla ta kolumna (ten wiersz) uważa się za pierwszą zmienną centralną, zaś zmienne reprezentowane przez wyróżnione wiersze (kolumny) – za jej zmienne satelitarne, czyli takie zmienne, że ich podobieństwo do cechy zmiennej jest nie mniejsze niż r*. W ten sposób uzyskujemy pierwszą grupę (skupienie) zmiennych.
6.
Z macierzy R wykreślamy wyróżnione kolumny i wiersze, otrzymując w ten sposób zredukowaną macierz korelacji.
7.
Kontynuujemy postępowanie opisane w punktach 1–4 aż do wyznaczenia zbioru zmiennych diagnostycznych. Do dalszej analizy pozostawiamy zmienne centralne oraz zmienne izolowane (tworzące tzw. bazowy układ cech), czyli zmienne nienależące do żadnej z otrzymanych grup.
14
METODA ODWRÓCONEJ MACIERZY KORELACJI
1.
Wyznaczanie macierzy odwrotnej do macierzy korelacji o postaci:
R
1
, j,j’=1,2,...,m, gdzie:
r jj
'
j
j
'
R
jj
'
R
, przy czym:
R
jj
'
– macierz zredukowana po usunięciu z niej j-tego wiersza i j’-tej kolumny.
R
,
R
jj'
– wyznaczniki odpowiednio macierzy R i R
jj’
.
2.
Ustalamy wartość krytyczną poziomie
~ * *
elementów diagonalnych macierzy R -1 , najczęściej na
10
(elementy diagonalne przyjmują wartości z przedziału
1 ,
).
15
3.
Wyszukujemy elementy diagonalne macierz R -1 , spełniające nierówność:
~
jj
'
r
*
. Zmienne, które spełniają powyższy warunek powodują złe uwarunkowanie numeryczne macierzy R.
4.
Redukujemy zbiór dopuszczalnych zmiennych diagnostycznych usuwając z niego zmienne spełniające warunek sformułowany w kroku 3 uzyskując w ten sposób zbiór zmiennych diagnostycznych.
16
WAŻENIE ZMIENNYCH DIAGNOSTYCZNYCH
METODA PUNKTOWA
1.
Przyjmujemy założenia:
-
mamy p punktów do podziału między m zmiennych (przy czym p jest liczbą dodatnią),
-
przez p
h
oznaczamy nieujemną liczbę punktów przyznanych przez h-tego eksperta zmiennej X
j
, przy czym spełniona jest równość:
j m
1
p hj
p
, h=1,2,...,k.
2.
Na podstawie wyników ocen wszystkich ekspertów budujemy macierz:
P
, h=1,2,...k; j=1,2,...,m
3.
Obliczamy średnią ocenę każdej zmiennej:
p j
h k
1
k p hj
, j=1,2,...,m.
17
4.
Ponieważ
j m
1
p j
p
wagi zmiennych określamy jako:
w j
p j
, j=1,2,...,m
p
przy czym spełniają one wymogi:
i
w j
0
oraz
j w j
1
(wymóg niekonieczny)
18
Metoda BVP
1.
Przyjmujemy założenia, że o wadze zmiennej decydują:
-
stopień zróżnicowania zmiennej w badanych obiektach (stopień dyskryminacji obiektów),
-
stopień skorelowania zmiennej z innymi zmiennymi (zasób informacji o obiektach).
2.
Stopień dyskryminacji obiektów oceniamy za pomocą następującej formuły:
w j a
V j m
1
V
,
j
1 ,...,
m
.
19
3.
Zasób informacji o obiektach szacujemy według wzoru:
w b j
j' j' m
1
j r
2
j.j' m m
j j'
1
j' j' j'
1
j
2
r j.j'
, j=1,2,...m. gdzie:
2
r j, j'
– kwadrat współczynnika korelacji cząstkowej j-tej zmiennej z j’-tą zmienną.
4.
Ostateczna formuła wagi dla zmiennych przyjmuje postać:
w j
w a j
w b j
,
j
1 ,...,
m
.
20