Transformacija podataka

Download Report

Transcript Transformacija podataka

Transformacija podataka
Goran Trajković
januar , 2012. godine
Transformacija podataka
Transformacija podataka je računska operacija koja se izvodi
sa podacima neke varijable u cilju ispunjavanja
pretpostavki za primenu određenih statističkih analiza
Izvodi se nad svakim individualnim podatkom u uzorku, pri
čemu se od postojećih podataka x dobijaju transformisani
podaci t, npr., t = log x
Najčešći ciljevi transformacije podataka su:
1. Normalizacija podataka
2. Stabilizacija varijanse – izjednačavanje varijansi različitih
grupa
3. Postizanje linearnosti odnosa dve varijable
Posle transformacije proverava se da li transformisani podaci
zadovoljavaju pretpostavke za primenu statističkih analiza
zbog kojih je transformacija i izvedena
Posle izvedenih statističkih analiza, mogu se statističke mere
(npr. aritmetička sredina i/ili 95%CI) obrnutom
transformacijom vratiti na nivo originalnih podataka
Zaključci koji su dobijeni u postupcima testiranja hipoteza sa
transformisanim podacima odnose se takođe i na
originalne podatke
Normalizacija podataka
Normalnost podataka je pretpostavka u mnogim statičkim
procedurama. Normalnost se može proveriti računskim
metodama (koeficijent varijacije, merama asimetrije i
zaravnjenosti - skjunis i kurtosis, testovima KolmogorovSmirnov, Shapiro-Wilk) i grafičkim metodama
(histogram, normalni Q–Q grafikon, detrendovan
normalni Q–Q grafikon)
Stabilizacija varijansi
Homogenost varijansi je pretpostavka za izvođenje nekih
statističkih testova, npr. t-testa ili analize varijansi
F test (Fisher) – poređenje varijansi dve populacije. Može
se koristi pre izvođenja t testa
B test (Bartlett) i Levene test – poređenje varijansi tri ili više
populacija. Može se koristiti pre izvođenja analize
varijansi
Nekoliko različitih transformacija se može preduzeti u cilju
normalizacije
Logaritamska transformacija t = log x
Može da postigne normalizaciju kod desno iskošene
raspodele
Stabilizuje varijansu kada je ona proporcionalna kvadratu
aritmetičke sredine (konstantan odnos sd i aritmetičke
sredine)
Linearizuje eksponencijalan odnos dve varijable
Normalizacija Linearizacija Stabilizacija
varijansi
Pre
transformacije
Posle
transformacije
Logaritamska transformacija
Najčešće korišćena transformacija
U transformaciji se najčešće primenjuju logaritmi sa osnovom 10 ili e
(e=2.72)
Transformacija je moguća samo sa pozitivnim vrednostima. Originalni
podaci koji su jednaki nuli ili negativni neće biti transformisani, a u
koloni transformisanih podataka u statističkom softveru biće
obeleženi kao nedostajuće vrednosti. Ako broj takvih vrednosti nije
zanemarljiv treba dodati konstantu svim vrednostima, npr. ako je
minimalna vrednost -8 treba svim vrednostima dodati konstantu 9
Po završenoj analizi rezultate (aritmetičku sredinu i 95%CI) treba
obrnuto transformisati. Aritmetička sredina posle obrnute
transformacija postaje geometrijska sredina. Obrnuta
transformacija se obavlja stepenovanjem brojeva 10 ili e, zavisno
od toga sa kojom osnovom je urađeno logaritmovanje
pH nastaje takvom transformacijom
Logaritamska transformacija - primer
Za dve grupe ispitanika dati su titrovi antitela:
Grupa 1 (n=19)
256 64 16 4 512 1024 8 16 1024 4 512 32 4096 8 64
256 512 2048 256
Grupa 2 (n=20)
16 2048 4 64 128 256 1024 256 128 32 16 4 256 64
8 8 512 4 4 256
Logaritamska transformacija - primer
Provera normalnosti pokazuje odstupanje od normalne
raspodele i desnu iskošenost:
Kolmogorov-Smirnov
Shapiro-Wilk
Grupa 1
p<0.001
p<0.001
Grupa 1
p<0.001
p<0.001
Grupa 1
Grupa 2
Logaritamska transformacija - primer
Posle logaritamske transformacije log(10) postignuta je
normalnost raspodele:
Kolmogorov-Smirnov
Grupa 1
p=0.125
Grupa 1
p=0.200
Grupa 1
Shapiro-Wilk
p=0.242
p=0.132
Grupa 2
Logaritamska transformacija - primer
Aritmetičke sredine i intervali poverenja posle transformacije
log(10) iznose:
Grupa 1
Aritmetička sredina 2.04, 95%CI 1.59 – 2.50
Grupa 2
Aritmetička sredina 1.73, 95%CI 1.32 – 2.14
Posle obrnute transformacije (10x) geometrijska sredina i
intervali poverenja iznose:
Grupa 1
Aritmetička sredina 109, 95%CI 39 – 316
Grupa 2
Aritmetička sredina 54, 95%CI 21 – 138
Isti primer mogao je biti urađen i logaritamskom
transformacijom sa osnovom e ili 2: logex, log2x
Transformacija kvadratnim korenom
t x
ili
t  x 1
Ima slične osobine kao logaritamska transformacija. Može da
stabilizuje varijansu kada varijansa teži proporcionalnosti
sa aritmetičkom sredinom. Primenjuje se u transformaciji
učestalosti retkih događaja u vremenu i prostoru (podaci
uzorkovani iz Poissonove raspodele)
Recipročna transformacija t = 1/x
Ima slične osobine kao logaritamska transformacija.
Primenjuje se kada SD teži da bude proporcionalan sa
kvadratom aritmetičke sredine
Kvadratna transformacija t = x2
Može da postigne normalizaciju kod levo iskošene raspodele.
Stabilizuje varijansu kada ona opada sa porastom aritmetičke
sredine
Logit (logistička) transformacija
p
t  ln
1 p
Primenjuje se kod proporcija. Linearizujje sigmoidnu krivu
Arcsin transformacija
Transformacija oblika
t  arcsin x
Primenjuje se kada je varijansa proporcija ili procenata, koji
su dobijeni od binomnog osnovnog skupa, približno
proporcionalna proizvodu x 1  x 
Ovom transformacijom se podebljavaju krajevi i smanjuje
centralni deo raspodele