Bioistatistik Ders Notları-1
Download
Report
Transcript Bioistatistik Ders Notları-1
Biyoistatistik-2
İstatistiksel Yöntemlerin Tıp Alanında
Kullanımına Yönelik Eğitim
Doç.Dr. Cem S. Sütçü
Marmara Üniversitesi İletişim Fakültesi
Bilişim A.B.D.
[email protected]
Temel Kavramlar
• Veri kelimesi Latince’de “gerçek”, “reel”
anlamına gelen “datum” kelimesine karşılık
gelmektedir. “Data” olarak kullanılan kelime ise
“datum” kelimesinin çoğuludur.
• Her ne kadar kelime anlamı olarak gerçeklik
temel alınsa da her veri mutlaka somut gerçeklik
göstermez. Kavramsal anlamda veri, kayıt altına
alınmış her türlü olay, durum, fikirdir. Bu
anlamıyla değerlendirildiğinde çevremizdeki her
nesne bir veri olarak algılanabilir.
2
Temel Kavramlar
BİLGELİK
BİLGİ
ENFORMASYON
VERİ
Enformasyon
Bilgi
(Knowledge),
Bilgelik
(Wisdom)bu veri
(Information),
süreçteki
üçüncü
ulaşılmaya
çalışılan
Veri, oldukça
esnek bir
kavramının
aşamadır.
noktadır
veTemel
bu olarak
yapıdadır.
yola
kavramların
varlığıtanımından
bilinen, alıcı
Enformasyonun
için
çıkıldığında,
işlenmemiş,
ham
haldeki
zirvesinde
yer alır.
taşıdığı
anlamdır.
Diğer
kayıtlar
olarak
Bilgilerin
kişi
piramiddeki
ikinci
adlandırılırlar.
birtarafından
deyişle alıcının
bir
toplanıpYani
basamaktır.
Bu sentez
kayıtlarhaline
fonksiyonudur.
bir
verilerin
ilişkilendirilmemiş,
getirilmesiyle
Enformasyonun,
bilgiye
düzenlenmemiş
yani
ilişkilendirilmiş,
ortaya
çıkan
bir
anlamlandırılmamışlardır.
dönüşmesi,
bireyin onu
olgudur.
Yetenek,
düzenlenmiş,
Ancak bu özümsemesi
durum her
algılaması,
tecrübe
gibi
kişisel
zamanişlenmiş
geçerli
değildir.
halidir.
ve nitelikler
sonuç
çıkarmasıyla
birer
İşlenerek
farklı bir boyut
Bu
haliyle
bilgelik
elemanıdır.
kazanan
bir
veri, daha
gerçekleşir. Dolayısıyla
sonraenformasyon,
bu haliyle
bireyin
algılama
kullanılmak
üzere olarak
kayıt
potansiyel
altına alındığında,
yeteneği,
yaratıcılık,farklı
içinde
bilgi
bir amaç
içinkişisel
veri halini
deneyim
gibi
koruyacaktır.
barından bir veri
nitelikleri de bu süreci
halindedir.
doğrudan etkilemektedir.
3
Bilimsel Araştırma
• Araştırma yapmadan önce en temel olan,
araştırılacak bir sorunun (bir hipotezin)
varlığıdır.
Ho: Sıfır Hipotezi
H1: Alternatif Hipotez
4
Bilimsel Araştırma
• Daha sonra bu sorunun ne kadar anlam
taşıdığı, yani olası cevabın diğer hangi
yeni soruları ve araştırmaları gündeme
getireceği, pratik kullanım alanlarının neler
olduğu, bilgi birikimine (knowledge) ne
kadar katkıda bulunacağı, aynı hipotezin
daha önce yeterli derecede araştırılıp
araştırılmadığı, bulunan sonuçların
tutarlılığı gibi sorular gündeme
getirilmelidir.
5
Bilimsel Araştırma
• Bilimsel bir merak ve bu merakın tatmini,
söz konusu soruların yeterince
cevaplanamadığı durumlarda günümüzde
artık destek bulmamakta ve yayımlanma
şansını zorlukla yakalayabilmektedir.
6
Bilimsel Araştırma
• Bundan sonraki aşama ise soru/hipotezin
nasıl test edileceğidir. Kullanılacak
yöntemin bilimsel (yani tekrar test
edilebilir, diğer araştırmacılar ve
klinisyenler tarafından anlaşılabilir,
matematiksel geçerliliği mutabık olunan
istatistiksel yöntemlerle incelenmiş) olması
gereklidir.
7
Bilimsel Araştırma
• Araştırmanın nasıl yapılacağı (uygun
finansal destek, denek sayısı, ortam, vs.)
daha sonra sorulacak bir sorudur. Yani
araştırma sorusunun bilimsel olarak
geçerli bir yöntemle nasıl test edileceği
sorusunun cevabı aranmadan başlanan
çalışmalar pek çok açıdan sıkıntılarla
karşılaşacaktır.
8
Bilimsel Araştırma
• Bu sıkıntılara örnek olarak; seçilen anket/
görüşme yöntemi/ labaratuar testi/ ilaç dozu vs.
sonradan değiştirilmesi, çalışma deseninin
bozulması (yeniden başlama), denek sayısı
ve/veya finans desteğinin yetmemesi, tanıların
yanlış konması, sonuçlara etki eden kofaktörlerin
unutulması, eksik data toplanması, zaman ve
motivasyon kaybı, araştırmanın bitmemesi ve
asla yayımlanmaması vs. sayılabilir.
9
Bilimsel Araştırma
• Öncelikle yapılması gereken değişkenlerimizin
tanımlanmasıdır. Bilimsel düşüncenin temelinde
neden-sonuç ilişkisi yatar. Neredeyse tüm
bilimsel araştırmalar da bu ilişkiyi inceler.
• Sonuç yani bağımlı değişken pek çok faktörden
(bağımsız değişken) etkilenir.
10
Bilimsel Araştırma
• İdeal araştırma, araştırdığı faktörler
dışındaki değişkenlerin sabit tutulduğu
araştırmadır. Fakat bunu gerçekleştirmek
imkansızdır. Bu sebeple ideale en yakın
araştırma incelediği faktörler dışındaki
değişkenleri mümkün olduğunca hesaba
katar. Araştırmalarda faktör (bağımsız
değişken) sayısı arttıkça denek sayısının
artması gerekir ve kullanılan istatistiksel
yöntem değişir.
11
İstatistik
• İstatistik, verilerin toplanması, organize
edilmesi, özetlenmesi, sunulması, analiz
edilmesi ve bu verilerden bir sonuca
varılabilmesi ile ilgili olarak kullanılan
bilimsel metodlar topluluğudur.
12
İstatistik
• Uygun istatistik yöntemin seçilmesi için
değişkenlerin ölçüm özellikleri iyi
belirlemek gerekir. Kategorik değişkenlere,
sayısal değişkenlerde uygulanabilecek
istatistik yöntemleri uygulamak gibi
hatalara düşmemek için, bu özellik çok
önemlidir.
13
Ölçekler
•
•
•
•
İsimsel, Kalitatif (Nominal) Ölçekler
Sıralı (Ordinal) Ölçekler
Aralık (Interval) Ölçekler
Oransal (Ratio) Ölçekler
14
İstatistiksel Yöntemler
• Betimsel (Tanımsal) İstatistik Yöntemleri
– Merkezi Eğilim Ölçüleri
– Dağılım (Değişim) Ölçüleri
• Çıkarımsal İstatistik Yöntemleri
– Farkların önemli olup olmadığının incelendiği
teknikler (Parametrik ve Nonparametrik
Testler).
– İlişki saptama ve eldeki verilerin kestirim
yapabilme gücünü test eden teknikler
(Regresyon ve Korelasyon Analizi).
15
UYGUN İSTATİSTİKSEL ANALİZ
YÖNTEMİNİN SEÇİMİ
•
Bu aşamaya gelmeden;
1. Araştırma soru/hipotezimiz var.
2. Araştırma hipotezi bilimsel bir anlam ve değer taşıyor.
3. Daha önceki literatür bilgileri incelenmiş, sorunun cevabı
araştırılmamış ya da yeterince aydınlatılamamışsa;
•
Şu soruların cevapları aranmalıdır:
1. Araştırma bir farklılık araştırması mı yoksa bir ilişkisellik
araştırması mı olacaktır?
2. Verilerin ölçekleri ne türdedir?
3. Çalışmada kaç hasta/denek grubu vardır?
4. Bağımsız değişkenlerimiz (faktörlerimiz) bir tane mi yoksa daha
fazla mıdır?
5. Veri gruplarımız bağımlı (grup içi/repeated) mı yoksa bağımsız
mıdır?
6. Sayısal verilerin dağılımı normal midir?
16
Merkezi Eğilim Ölçüleri
• Aritmetik Ortalama: Değerlerin toplamının denek sayısına
bölünmesiyle elde edilir. Sayısal değişkenler için merkezi eğilim
ölçütüdür. Ordinal değişkenler için kullanılamaz. Aşırı değerlerden
etkilenir. Uç değerleri değerlendirme dışı tutan ya da uç değerlere
daha az ağırlık veren kareli ortalama veya geometrik ortalama uç
değerlerin etkisini azaltmak için kullanılabilir.
• Ortanca =Orta değer=Median: Küçükten büyüğe ya da büyükten
küçüğe doğru sıralandığında, tam ortadaki deneğin değeridir. Denek
sayısı çiftse, ortadaki iki deneğin ortalamaları alınır. Ordinal veriler
için en iyi merkezi dağılım ölçütüdür. Aşırı değerlerden etkilenmez.
Nominal değerler için uygun değildir.
• Tepe değeri = Mod: Değişkenler içinde en fazla görülen, en çok
tekrarlanan değerdir. Tıpta nadir kullanılan bir merkezi eğilim
ölçütüdür. Ordinal ve sayısal değişkenlerde kaba bir merkezi eğilim
ölçütü olarak kullanılabilir. Nominal veriler için uygun bir merkezi
eğilim ölçütüdür.
17
Dağılım (Değişim) Ölçüleri
• Farklı grupların merkezi eğilim ölçütleri aynı olduğu halde, gruplar
birbirlerinden çok farklı olabilir. Bu nedenle merkezi eğilim ölçütleri
yanında, yayılma ölçütleri de çok önemlidir.
•
•
•
Değer aralığı = Genişlik = Range: En basit yaygınlık ölçüsüdür. En küçük
ve en büyük değer arasındaki farktır. Örnek büyüklüğü ile artma eğilimi
vardır. Ortalama gibi, uç değerlerden çok etkilenir. En uçtaki iki değer
arasında kalan değerler hakkında bilgi vermez.
Standart sapma ve varyans : Tüm değerlerin dağılımı ile bilgi verirler. Tüm
değerler eşitse, her ikisi de sıfıra eşittir. Değerler arasında farklar arttıkça
standart sapma (Ss) ve varyans büyür. Standart sapma değişken
değerlerinin ortalamanın etrafındaki yayılmasını temsil eden bir yayılma
ölçütüdür. Ss’ nın karesine varyans adı verilir. Merkezi eğilim ölçütü olarak
ortalama kullanıldığında, yayılma ölçütü olarak da standart sapma kullanılır.
Dağılım özelliği ne olursa olsun, değerlerin en az % 75’i ortalama ± 2Ss
içinde yer alır. Normal dağılım gösteren değişken değerleri için aşağıdaki
kurallar geçerlidir :
– 1.
Değerlerin % 67’si ortalama ± 1 Ss içindedir.
– 2.
Değerlerin % 95’i ortalama ± 2 Ss içindedir.
– 3.
Değerlerin % 99’u ortalama ± 3 Ss içindedir.
18
Dağılım (Değişim) Ölçüleri
• Standart hata: Aynı evrenden seçilecek, ya da seçilmesi mümkün
olan aynı büyüklükteki örneklemlerin ortalamalarının dağılmasına
ortalamanın örneklem dağılımı denir. Ortalamanın örneklem
dağılımının ölçütü ortalamanın standart hatası (standard error of
mean = SEM)’ dır.
• Çalışmaya alınan örneklemin dağılma özellikleri verilmek
isteniyorsa, doğru olanı Ss’nın verilmesidir. Çünkü, SEM
örneklemdeki deneklerin dağılması ile ilgili olmadığı için, çalışma
grubunun değişkenliğini göstermez. Çalışma gruplarındaki
ortalamaların karşılaştırıldığı grafiklerde ise SEM kullanılması daha
doğrudur.
• Değişim katsayısı [coefficient of variation (CV)]: Birimleri farklı
olan değişkenlerin yayılmalarını karşılaştırmak için değişim
katsayıları kullanılır. Değişim katsayısı, standart sapmanın
ortalamaya oranının yüzde olarak ifadesidir.
19
Grafiksel Gösterimler
• Histogramlar
• Eğiklik (Skewness)
• Basıklık (Kurtosis)
20
Neden Örnekleme
Anakütledeki tüm
elemanları kontrol
etmenin fiziksel
zorluğu.
Anakütledeki tüm
elemanları
incelemenin
maliyeti.
Bazı testlerin
yokedici
özelliği olması.
Tüm anakütleyi
kapsamanın uzun
zaman alması.
Pek çok durumda
örnek sonuçlarının
yeterli bulunması.
21
Basit Tesadüfi Örnekleme
Anakütleden örnek
kütleye seçilecek her
elemanın eşit şansa sahip
olması durumudur.
Olasılık örneklemesi ya
da sondaj bir ana
kütlenin her biriminin
belirli bir olasılıkla
örneğe dahil olabileceği
bir örnekleme planıdır.
Sistematik Tesadüfi Örnekleme
Anakütledeki elemanlar belirli
bir sırada dizilir. Tesadüfi bir
başlangıç noktası seçilir ve sonra
her k’ıncı eleman örnek kütleye
seçilir.
Tabakalı Tesadüfi
Örnekleme: Anakütle
önce ortak özelliklere
sahip altgruplara
bölünür. Bunlara tabaka
denir. Sonra herbir
tabakadan bir örnek
kütle seçilir.
Küme Örneklemesi: Önce anakütle temel
birimlere bölünür. Sonra örnekler bu temel
birimlerden seçilir. Her birimden eleman seçmek
şart değildir.
Tesdüfi olmatan
örneklemede bir
elemanın örneğe
seçilmesi örneği
seçen kişinin
kararına bağlıdır.
Örneklem hatası
örnek istatistiği ile ona
karşılık gelen anakütle
p a r a m e t r e s i
arasındaki farktır.
Örnek ortalamalarının örneklem dağılımı bir
anakütleden seçilecek, ya da seçilmesi mümkün olan
aynı büyüklükteki örneklerin ortalamalarının
dağılımıdır. Ortalamanın örneklem dağılımı da denir.
Standart Hata
Örnek ortalamalarının örneklem dağılımının ölçütü,
ortalamanın standart hatası (standard error of mean
= SEM)’ dır.
sx
=
s
n
veya eğer n >30 ise
sx
=
s
n
SEM, Ss’nın denek sayısının kareköküne bölümüne
eşittir. Ör. Ort = 15, Ss = 3.5, n = 50, SEM = 0.5 ise
deneklerin % 95’inin yayılımı 15 ± 2SD = 8 – 22,
evrenden seçilecek 50 denekli örneklemin % 95’inin
ortalamaları 15 ± 2SEM = 14 – 16 olacaktır.
Güven Aralığı
Eğer anakütle standart
s
sapması biliniyor veya örnek
X z
kütle çapı 30 dan büyükse,
n
örnekleme dağılımı z
dağılımına uygundur.
Eğer anakütle standart
sapması bilinmiyor ve
anakütle dağılımı normale
s
X t
yakınsa ve örnek kütle çapı
30 dan küçükse, örnekleme
n
dağılımı t dağılımına
uygundur.
Anakütle Ortalaması için güven aralığı
X z
s
n
Anakütle ortalaması için % 95 CI
X 1 .9 6
s
n
Anakütle ortalaması için % 99 CI
s
X 2 .58
n
49 kişi üzerinde yapılan bir
araştırmada hastaların tedavi
sonrası ESR (Eriythrocyte
Sedimentation Rate) değerlerinin
14 ve standart sapmasının da 4
olduğu bulunmuştur. %95
olasılıkla Anakütle ortalaması
kaçtır?
Güven aralığı
limitleri 12.88
ile 15.12
arasındadır.
s
4
X 1.96
14.00 1.96
n
49
14.00 1.12
Anakütle oranı için güven aralığı
60 yaşın üstünde 500 kişilik bir
örnek üzerinde üzerinde yapılan bir
taramada 175 kişinin daha önce
kalp krizi geçirdiği tespit edilmiştir.
%98 olasılıkla kalp krizi
geçirenlerin anakütle ortalamasının
hangi aralıkta bulunabileceğini
belirleyiniz.
p(1 p)
pz
n
(.35)(.65)
.35 2.33
.35 .0497
500
Örnek çapını belirleyen 3 faktör:
Seçilen güven düzeyi
İzin verilen maksimum hata
Anakütledeki değişim
Örnek çapının hesaplanması
zs
n
E
2
E İzin verilen hata
z seçilen güven düzeyine karşılık gelen z değeri
s pilot araştırmanın örnek standart sapması
Arthiritis için
antibiyotik tedavisinin
ortalama 70 gün
sürdüğün ve standart
sapmanın da 20 gün
olduğu bilinmektedir. 5
günlük bir hata
miktarını göze alarak
%99 olasılıkla ortalama
tedavi süresi tahmin
edilmek istenirse ne
kadar büyüklükte bir
örnek çapı gerekir?
2
(2.58)(20)
n
107
5
Elimizde olasılık
değerleri varsa
kullanılacak formül:
Z
n p(1 p)
E
p geçmişteki tecrübelere veya pilot çalışmaya
göre kestirilen olasılık değeri
Z seçilen güven düzeyine karşılık gelen z
değeri
E Araştırmacının tolerans gösterebileceği
maksimum hata
2
Diabet hastalığı
bulunanların ailelerinde
başka bir diabetli hasta
bulunması olasılığı %90
olduğu önceki çalışmalardan
bilinmektedir.
Kestirimimizi anakütle oranına göre %3 yanılma payı
ile hesaplamayı kabul ederek, %95 güven düzeyinde
kaç kişilik bir örnek kütle seçmek gerektiğini
hesaplayınız.
2
1.96
n (.90)(.10)
384
.03
Eğer anakütlede örnek
çapı hesaplamasının
gerektirdiğinden daha
az denek olursa ne
yapacağız?
Birinci Adım: Örnek çapını
önceden yaptığınız gibi hesaplayın.
İkinci Adım: Yeni
örnek çapını hesaplayın. n =
no birinci adımda
hesaplanan örnek çapı.
no
no
1+ N
Bir denetimci bir hastanede
bulunan doktorların Toplam
Kalite Yönetim Sistemi
kurallarına uyup uymadıklarını
araştırmak istemektedir. Denetçi,
doktorların %80’inin kurallara
uyduklarını söyleyeceğini
beklemektedir.
Hastanede 200 doktor bulunmaktadır. Denetçi
sonuçlardan %95 emin olmak istemektedir. Hata
marjının da %3 ten fazla olmamasını istemektedir.
Araştırma için denetçi kaç doktor ile görüşmelidir?
Birinci Adım
Örnek çapını önceden yaptığınız gibi hesaplayın.
Z
n p(1 p)
E
2
= (.80)(.20) 1.96
.03
İkinci Adım
Yeni örnek çapını hesaplayın.
no
n=
1 + no
N
=
683
1 + 683
200
= 155
2
= 683
Hipotez Testleri
Örnek kütleden
alınan delillere
ve olasılık
teorisine
dayanarak
ya bir hipotezin doğru bir
ifade olduğunu ve
reddedilmemesi
gerektiğini veya doğru bir
ifade olmadığını ve
reddedilmesi gerektiğini
belirlemek için yapılan
testlerdir.
Adım 1: Sıfır ve alternatif hipotezleri belirleyin
Adım 2: Anlam Düzeyini belirleyin
Adım 3: Test istatistiğini belirleyin (t, z, F gibi)
Adım 4: Bir karar kuralı belirleyin (kritik değer)
Adım 5: Bir örnek kütle belirleyin, bir karara varın
H0 hipotezini reddetme
H0 hip. reddet ve H1 hip. kabul et
H0 hipotezi
Anakütle parametresi
hakkında bir ifade
Anlam düzeyi
Hipotezler
Alternatif hipotez H1:
Örnek kütlenin, sıfır
hipotezin yanlış olduğuna
dair delil sağlaması
durumunda kabul edilen
ifade
Gerçekte doğru olan sıfır hipotezinin
reddedilme olasılığı; yani bunun riski.
H0: m = 0
H1: m = 0
Hiptezler
üç farklı
şekilde
kurulabilir.
H0: m < 0
H1: m > 0
H0: m > 0
H1: m < 0
Sıfır hipotezinde
daima eşitlik
sözkonusudur.
Risk Tablosu
Sıfır
Hipotezi
Ho doğru
Ho yanlış
Araştırmacı
Kabul
Red
Ho
Ho
Doğru
Tip I hatası
karar
(a)
Tip II
Hatası
(b)
Doğru
karar
p-Değeri
Sıfır hipotezinin doğru olduğu kabul
edildiğinde, en az test için hesaplanan
değer (kritik değer) kadar büyük bir
değer bulma olasılığıdır.
Karar Kuralı
Eğer p-değeri, anlamlılık
düzeyi olan a dan daha
büyük ya da ona eşitse
H0 reddedilmez.
Eğer p-değeri
anlamlılık düzeyi
olan a dan daha
küçükse H0
reddedilir.
P değerlerinin anlamları
p
.10
>.05
Ho‘ın doğru olmadığına dair BAZI
deliller var.
>.01
p
.05
>.001
Ho‘ın doğru olmadığına dair
GÜÇLÜ deliller var.
p
.01
Ho‘ın doğru olmadığına dair
ÇOK GÜÇLÜ deliller var.
ANOVA Testi
Bu testte iki ya da daha
fazla örnek ortalamasının
aynı veya eşit anakütleden
gelip gelmediği incelenir.
Bu teknik varyans analizi
veya ANOVA olarak
adlandırılır.
Sıfır hipotezi ve alternatif hipotez şu şekilde
oluşturulur:
Ho: m1 = m2 = m3 = m4
H1: m1 = m2 = m3 = m4
ANOVA şu şartları gerektirir
Örneklem alınan
anakütleler normal
dağılıma sahiptir.
Örnekler bağımsızdır.
Anakütleler eşit standart
sapmalara sahiptir.
Tek-Yönlü ANOVA
Table
ANOVA divides theANOVA
Total Variation
into the variation
Source of
Sum of
Degrees
Mean
F
due to the treatment, Treatment Variation, and to
Variation
Squares
of
Square
the error component, Random
Freedom Variation.
Treatments
SST
k-1
SST/(k-1)
k
(k)
=MST
MST
2
Snk(Xk-XG)
MSE
In the following table,
Error
SSE for the
n-k
SSE/(n-k)
i stands
ith observation
i k
=MSE
x
is
the
overall
or
grand
mean
2
G
SS(Xi.k-Xk)
Treatment
variation
k is the number of treatment
groups
Total
TSS
n-1
Random variation
i
S(Xi-XG)2
Total variation
Çift-Yönlü ANOVA
Repeated Measures
ANOVA
Üç ayrı zamanda ölçülmüş tedavi değerleri var
Tedaviyi dependent var. Zamanı fixed factor olarak seçin. Post hoc tuşuna basın
Zaman faktörünü seçip ortadaki oka basın
LSD yi işaretleyip Continue tuşuna basın. Sonra OK. Sonuçlara bakabilirsiniz
Tests of Between-Subjects Effects
Dependent Variable: tedavi
Source
Corrected Model
Intercept
zaman
Error
Total
Corrected Total
Type III Sum
of Squares
39578,779a
39612602,1
39578,779
3349883,041
59475118,4
3389461,820
df
2
1
2
348
351
350
Mean Square
19789,389
39612602,10
19789,389
9626,101
F
2,056
4115,124
2,056
Sig .
,130
,000
,130
benim verilerde
Zaman grupları arasında
Fark çıkmadı. P=0.130
a. R Squared = ,012 (Adjusted R Sq uared = ,006)
Multiple Comparisons
Dependent Variable: tedavi
LSD
(I) zaman
baslangiç deg eri
3. ay degeri
6. ay degeri
(J) zaman
3. ay degeri
6. ay degeri
baslangiç deg eri
6. ay degeri
baslangiç deg eri
3. ay degeri
Based on observed means.
Mean
Difference
(I-J)
-26,0342
-28,2471
26,0342
-2,2130
28,2471
2,2130
Std. Error
13,44903
17,33984
13,44903
14,37063
17,33984
14,37063
Sig .
,054
,104
,054
,878
,104
,878
95% Confidence Interval
Lower Bound
Upper Bound
-52,4858
,4174
-62,3512
5,8569
-,4174
52,4858
-30,4772
26,0513
-5,8569
62,3512
-26,0513
30,4772
Anlamlı fark
olsaydı p
değerleri 0.05
den küşük
olacaktı
Parametrik Olmayan Testler
Test
Kullanım Yeri
Özelliği
Ki-Kare
Nominal ölçekte İki
bağımsız örnek kütle
Değişkenler arasında
bağımlılık test eder
Mann-Whitney U
(Wilcoxon rank-sum test)
Sıralı ölçekte İki
bağımsız örnek kütle
İki bağımsız örnek kütle
için t-testinin alternatifidir
Wilcoxon İşaret Testi
Sıralı ölçekte İki bağımlı
örnek kütle
İki eşli (paired) örnek
kütle için t-testinin
alternatifidir
Kruskal-Wallis H
Sıralı ölçekte İkiden fazla
bağımsız örnek kütle
Tek yönlü varyans
analizinin alternatifidir
Friedman
Sıralı ölçekte İkiden fazla
bağımlı örnek kütle
Çift yönlü varyans
analizinin alternatifidir
Kolmogorov-Smirnov Z
Sıralı ölçekte İki
bağımsız örnek kütle
Mann-Whitney U
testinden daha güçlüdür
56
Ki-Kare Testi
Üç
Farklı antibiyotiğin kadınlarda cystitis’in tedavisinde etkin
olup olmadığının belirlenmesi için yapılan Ki-kare testinin
sonuçlarını yorumlayınız. (data153.xls)
Otcome * Treatment Crosstabulation
Chi-Square Tests
Treatment
Otcome
Cured
Not Cured
Total
Count
% within Otcome
Count
% within Otcome
Count
% within Otcome
Trimethopri
m-sulfamet
hoxazole
11
55,0%
2
11,1%
13
34,2%
Amoxicillin
6
30,0%
6
33,3%
12
31,6%
Cyclacillin
3
15,0%
10
55,6%
13
34,2%
Total
20
100,0%
18
100,0%
38
100,0%
Pearson Chi-Square
Likelihood Ratio
Linear-by-Linear
Association
N of Valid Cases
Value
9,922a
10,731
9,614
2
2
Asymp. Sig.
(2-sided)
,007
,005
1
,002
df
38
a. 0 cells (,0%) have expected count less than 5. The
minimum expected count is 5,68.
57
Mann-Whitney U
Testi
16
Carcinoid Kalp hastası olan ve 12 Carsinoid Kalp hastası
olmayan kişiden alınan 5HIAA urinary excretions değerleri
arasında anlamlı bir fark olup olmadığını test ediniz.
(data117.xls)
Test Statisticsb
Ranks
UrEx5HIAA
Subject
wCarcinoid
woCarcinoid
Total
N
16
12
28
Mean Rank
17,88
10,00
Sum of Ranks
286,00
120,00
Mann-Whitney U
Wilcoxon W
Z
Asymp. Sig. (2-tailed)
Exact Sig. [2*(1-tailed
Sig .)]
UrEx5HIAA
42,000
120,000
-2,507
,012
a. Not corrected for ties.
b. Grouping Variable: Subject
58
a
,011
Wilcoxon İşaret Testi
İki
hemşireden 10 ameliyat hastasının, “hasta bakım zorluk
düzeyine” göre sıralamasını istediğimizde hemşirelerin
sıralamaların arasında fark olup olmadığını test edelim.
(data178.xls)
Test Statisticsb
Z
Asymp. Sig. (2-tailed)
Ranks
N
Hemsire2 - Hemsire1
Neg ative Ranks
Positive Ranks
Ties
Total
3a
2b
5c
10
Mean Rank
3,00
3,00
Sum of Ranks
9,00
6,00
Hemsire2 Hemsire1
-,447a
,655
a. Based on positive ranks.
b. Wilcoxon Signed Ranks Test
a. Hemsire2 < Hemsire1
b. Hemsire2 > Hemsire1
c. Hemsire2 = Hemsire1
59
Kruskal-Wallis H Testi
• Hasta ve kontrol gruplarındaki 36 kişinin
farklı choline acetyltransferase düzeylerine
sahip olup olmadıklarını test edelim
(data140.xls)
Test Statisticsa,b
Chi-Square
df
Asymp. Sig.
Ranks
Choline
Subject
Agir Hasta
Hafif Hasta
Kontrol
Total
N
12
12
12
36
Mean Rank
11,25
15,79
28,46
Choline
17,207
2
,000
a. Kruskal Wallis Test
b. Grouping Variable: Subject
K-W testi ANOVA gibi hangi gruplar arasında fark olduğunu öyleyemez.
Gruplar arasındaki farka bakmak için Mann-Whitney testi kullanılır.
60
Friedman Testi
• Genç ve Yaşlı Hasta ve kontrol
gruplarındaki 24 kişinin farklı choline
acetyltransferase düzeylerine sahip olup
olmadıklarını test edelim (data141.xls)
Ranks
Genchasta
Genckontrol
Yaslihasta
Yaslikontrol
Mean Rank
1,67
3,58
1,58
3,17
Test Statisticsa
N
Chi-Square
df
Asymp. Sig.
6
11,542
3
,009
a. Friedman Test
61
Kolmogorov-Simirnov Z Testi
• Perioperative Parenteral Nutrition tedavi
yönteminde komplikasyon sayılarının
hasta ve kontrol grubunda farklılık gösterip
göstermediğini test ediniz. (data223.xls)
Test Statisticsa
Frequencies
PPN
Subject
Hasta
Kontrol
Total
N
13
14
27
Most Extreme
Differences
PPN
,412
,011
-,412
1,070
,202
Absolute
Positive
Neg ative
Kolmog orov-Smirnov Z
Asymp. Sig. (2-tailed)
a. Grouping Variable: Subject
62
Korelasyon analizi iki değişen arasındaki ilişkinin ölçmek için yapılır
değişken arasındaki ilişkinin
durumunu grafiksel olarak gösterir.
Advertising Minutes and $ Sales
30
Sales ($thousands)
Serpilme
Diyagramı incelenen iki
25
20
15
10
5
0
70
90
110
130
150
170
Advertising Minutes
Bağımlı Değişken
kestirilmeye (estimation) veya tahmin
edilmeye (prediction) çalışılan
değişkendir.
Bağımsız değişken kestirim için
temel oluşturur. Tahmin edici
değişkendir.
190
Korelasyon Katsayısı (r) iki değişken arasındaki ilişkinin bir
ölçüsüdür.
Pearson’s r olarak da adlandırılır.
Aralık veya oran ölçeğine sahip veriler için
kullanılır.Sıralı ölçeğer sahip veriler için ise
Spearman rho değeri kullanılır.
-1<r<=1
Pearson's r
-1.00 ve 1.00 değerleri güçlü ve
mükemmel ilişkiyi gösterir.
Negatif değerler negatif ilişkiyi,
pozitif değerler de aynı yönde
ilişkiyi ifade eder.
-1
0
1
Sıfıra yakın değerler zayıf ilişkiyi
gösterir.
Y
10
9
8
7
6
5
4
3
2
1
0
0
1
2
3
4
5
6
7
X
Pozitif korelasyon
8
9
10
10
9
8
7
6
5
4
3
2
1
0
0
1
2
3
4
5
6
7
X
Negatif Korelasyon
8
9
10
Y
10
9
8
7
6
5
4
3
2
1
0
0
1
2
3
4
5
6
7
X
Sıfır Korelasyon
8
9
10
Örnek: Kilo ile yaş arasında anlamlı bir ilişki var mıdır? %95
anlam düzeyinde test ediniz.
Correlations
Age in years
Final weight
Pearson Correlation
Sig . (2-tailed)
N
Pearson Correlation
Sig . (2-tailed)
N
Age in years
1
.
16
-,168
,534
16
Final weight
-,168
,534
16
1
.
16
Örnek: Patalojik tümör
büyüklüğü ile süre (ay)
arasında anlamlı bir ilişki
var mıdır? %95 anlam
düzeyinde test ediniz.
Correlations
Spearman's rho
Pathological Tumor Size
(Categories)
Time (months) (Banded)
Correlation Coefficient
Sig . (2-tailed)
N
Correlation Coefficient
Sig . (2-tailed)
N
*. Correlation is sig nificant at the 0.05 level (2-tailed).
Pathological
Tumor Size
(Categories)
1,000
.
1121
-,064*
,033
1121
Time
(months)
(Banded)
-,064*
,033
1121
1,000
.
1207
Doğrusal Regresyon
Doğrusal
regresyon, bir bağımlı değişkenin değerini, bir veya
daha fazla bağımsız değişken ile olan ilişkisine bağlı olarak
belirleyen bir model oluşturmak amacıyla kullanılır.
•
Doğrusal regresyon modeli bağımlı değişken ile bağımsız değişkenler
arasında “doğrusal çizgi” ile ifade edilebilecek bir ilişki olduğunu kabul eder.
Bu ilişki aşağıdaki formülle gösterilir:
Y ' a b1 X1 b2 X 2 ...bk X k
Bu
model doğrusaldır, çünkü bağımsız değişkenlerin
birindeki (örneğin x2) 1 birim artış bağımlı değişkenin
değerinin b2 kadar artmasına sebep olur.
coefficient of determination
Belirlilik Katsayısı (
r2) bağımlı
değişkende meydana gelen toplam değişimin, bağımsız değişkenlerin sebep
olduğu veya bunlar tarafından açıklanan oranıdır.
Korelasyon katsayısının karesidir. 0 ile 1 arasında değer alır. Değişkenler
arasındaki ilişkinin yönü hakında herhangi bir bilgi vermez.
Tahminin Standart Hatası (Standard Error of Estimate) gerçek değerlerin
regresyon doğrusu etrafındaki dağılımlarını gösterir. Çoklu Tahminin Standart
Hatası (Multiple Standard Error of Estimate) regresyon modelinin etkinliğini
göserir.
Collinearity
(multicollinearity - çoklubağımlılık) istenen bir
durum değildir. Bağımsız değişkenler arasında doğrusal ilişki
olduğu zaman ortaya çıkar.
Collinearity
residual) gerçek Y değeri ile onun tahmini olan Y’
Artık değer (
arasındaki farktır.
Örnek: Body Mass Index
değeri ile ağırlık,
cinsiyet, diabet durumu,
ve yaş değişkenleri
arasında bir ilişki var
mıdır? Bu ilişkinin
durumunu gösteren bir
regresyon modeli
oluşturulabilir mi?
Variables Entered/Removedb
Model
1
Variables
Entered
yas, cins,
agirlik, a
diabetik
Variables
Removed
Model Summary
Method
.
Model
1
Enter
a. All req uested variables entered.
R
R Sq uare
,786a
,617
Adjusted
R Sq uare
,599
Std. Error of
the Estimate
,580
a. Predictors: (Constant), yas, cins, agirlik, diabetik
b. Dependent Variable: Bodt Mass Index
ANOVAb
Model
1
Reg ression
Residual
Total
Sum of
Squares
45,045
27,944
72,989
df
4
83
87
Mean Square
11,261
,337
F
33,448
Sig .
,000a
a. Predictors: (Constant), yas, cins, agirlik, diabetik
b. Dependent Variable: Bodt Mass Index
ANOVA tablosunda anlamlı bir F değerinin
bulunması oluşturulan modelin anakütle
ortalamasını tahmin etmekten daha iyi
olduğunu gösterir.
Coefficientsa
Model
1
(Constant)
agirlik
cins
diabetik
yas
Unstandardized
Coefficients
B
Std. Error
,513
,432
2,8E-02
,003
,148
,130
,142
,144
-7,9E-03
,006
Standardized
Coefficients
Beta
,709
,081
,074
-,100
t
1,187
9,631
1,141
,985
-1,422
Sig .
,239
,000
,257
,328
,159
Correlations
Zero-order
Partial
,769
,254
,364
-,242
Part
,726
,124
,107
-,154
,654
,077
,067
-,097
Collinearity Statistics
Tolerance
VIF
,851
,923
,820
,937
1,176
1,084
1,220
1,067
a. Dependent Variable: Bodt Mass Index
Beta nın mutlak When the tolerances are close to 0, there is
high multicollinearity and the standard error of
değeri o
the regression coefficients will be inflated. A
değişkenin
modele katkısını variance inflation factor (VIF) greater than 2 is
usually considered problematic.
göterir.
Values greater
than 15 indicate a
possible problem
with collinearity;
greater than 30, a
serious problem.
Collinearity Diagnosticsa
Model
1
Dimension
1
2
3
4
5
Eig envalue
4,763
,102
7,685E-02
4,187E-02
1,558E-02
Condition
Index
1,000
6,819
7,873
10,667
17,485
a. Dependent Variable: Bodt Mass Index
(Constant)
,00
,01
,00
,00
,99
Variance Proportions
agirlik
cins
diabetik
,00
,00
,00
,01
,16
,08
,07
,81
,18
,66
,00
,60
,25
,02
,14
yas
,00
,41
,02
,04
,54