OLASILIK ve İSTATİSTİK II

Download Report

Transcript OLASILIK ve İSTATİSTİK II

OLASILIK ve İSTATİSTİK II DERS 2: Ki-Kare Testi

Öğr. Gör. Dr. Berk AYVAZ

14.03.2014

OLASILIK ve İSTATİSTİK II

KARL PEARSON (1857 - 1936)

• • • • Temel ilgi alanı genetiktir.

1892’de “The Grammar of Science” adlı kitabı yayınlandı.

İzleyen yıllarda kalıtım ve evrim süreçlerine ilişkin çalışmaları sırasında istatistikle ilgilendi.

Regresyon ve korelasyon konularındaki önemli katkılarının yanı sıra, kuramda kendi adıyla anılan ve gözlem değerlerinin olasılık dağılımlarına ilişkin Pearson eğri sistemini ve 1912

yılında da Ki-kare testini geliştirdi.

Dr. Berk AYVAZ İstanbul Ticaret Üniversitesi

OLASILIK ve İSTATİSTİK II

Ki-Kare testi

• • • • İstatistikte değişkenler sayısal değişkenler ve sayısal olmayan değişkenler olmak üzere iki grupta sınıflandırılmaktadır.

Günümüzde yapılan birçok araştırmada sayısal değişkenlerin yanında sayısal olmayan değişkenlerin de dikkate alındığı görülmektedir.

Örneğin, insanların medeni durumlarıyla seçtikleri meslek grupları arasındaki bir ilişki incelenmek istendiğinde, medeni durumun ve meslek grubunun rakamlarla ifade edilmesi olası değildir.

Medeni durum “evli”, “bekâr”, “boşanmış” ve “dul” şeklinde gösterilirken meslek grupları da “serbest meslek”, “devlet memurluğu”, “işçi” vb. şeklinde gruplandırılabilir.

Dr. Berk AYVAZ İstanbul Ticaret Üniversitesi

OLASILIK ve İSTATİSTİK II

Ki-Kare testi

• •

1.

2.

3.

İşte sayısal olmayan değişkenler arasındaki herhangi bir ilişkinin var olmadığını ileri sürerek (H 0 hipotezi) bu hipotezin red edilemeyeceğinin incelenmesinde uygulanan test Ki-Kare testi’dir.

edilip Bir örneklemin gözlemlenmesi sonucunda elde edilen frekans dağılımının binom, Poisson, normal vb. gibi genel bir dağılıma uygun olup olmadığına karar verebilmek için kullanılan test yine Ki-kare testi olacaktır.

Diğer yandan iki ya da daha fazla örneklemin aynı evrenden seçilip seçilmedikleri konusunda karar verilirken de ki-kare testinden yararlanılır.

Bu istatistiksel testin uygulanmasında önce, ki-kare’nin ve serbestlik derecesinin nasıl hesaplanacağının bilinmesi gerekir.

Bunlar bağımsızlık, homojenlik ve uygunluk testleri için ayrı ayrı gösterilecektir.

Dr. Berk AYVAZ İstanbul Ticaret Üniversitesi

OLASILIK ve İSTATİSTİK II

1- Ki-Kare Bağımsızlık Testi

Vaka

Üretim sektöründe faaliyet göstermekte olan bir firmada ürün kalitesi ile çalışanların eğitim durumları arasında bir ilişki olduğu düşünülmektedir. Bu tezin incelenmesi için ki-kare testi kullanılır.

• • • •

Bu ve benzeri problemlerin çözümlenmesinde ki-kare testi kullanılır.

İki ya da daha fazla sınıflı iki nitel değişken arasında bağımsızlık olup olmadığını incelemek için, ki-kare bağımsızlık testine başvurmak gerekir.

Bu test yapılırken kontenjans tablosundan yararlanılmaktadır.

Bu tablo, incelenen iki değişken için gözlenen frekansların yazıldığı, yatay (satırlar) ve düşey (sütunlar) bantlardan oluşan, çift yönlü tablodur.

Dr. Berk AYVAZ İstanbul Ticaret Üniversitesi

OLASILIK ve İSTATİSTİK II

1- Ki-Kare Bağımsızlık Testi

• Ki-kare bağımsızlık ve homojenlik testlerini yapabilmek üzere hazırlanacak kontenjans tablosunun yapısı aşağıdaki tabloda gösterilmiştir.

• •

1.Değişken Şıkları 1 2 3 .

.

İ .

.

R Toplam

1 n 11 n 21 n 31 .

.

n i1 n r1 n .1

2 n 22 n 22 n 32 .

.

n i2 n r2 n .2

3 n 13 n 23 n 33 .

.

n i3 n r3 n .3

2.Değişken Şıkları

………….

j …………..

n 1j n 2j n 3j .

.

n ij n rj n .j

c n 1c n 2c n 3c .

.

n ic n rc n .c

Toplam n 1 n 2 n 3 .

.

n i n r n ..

= n Aralarında bağıntı bulunduğu düşünülen birinci değişkenin r şıkkı (satır), ikinci değişkenin c şıkkı (sütun) varsa R*C Tablosu olarak da isimlendirilen tablo oluşturulur.

Satır ve sütunların kesiştikleri yerlerde bulunan gözelerde ise ilgili frekanslar kaydedilir.

Dr. Berk AYVAZ İstanbul Ticaret Üniversitesi

OLASILIK ve İSTATİSTİK II

Örnek 1

Televizyon izleyicilerinin öğrenim düzeyleri ve TV programlarından tercih ettikleri türler sorgulanarak, bu iki değişken arasında bir bağıntı bulunup bulunmadığını, başka bir deyişle, iki değişkenin birbirinden bağımsız olup olmadığı, ortaya koymaya çalışılsın.

Bu amaçla, 200 kişiyi kapsayan bir örneklem üzerinde yapılan gözlem sonuçları aşağıdaki tablo ile verilmiştir. Tercih edilen TV program türüne ilişkin öğrenim

düzeyinin etkili olup olmadığını

𝜶

=0.01 anlamlılık düzeyinde araştırınız.

Dr. Berk AYVAZ İstanbul Ticaret Üniversitesi

OLASILIK ve İSTATİSTİK II

Çözüm 1

• • Tabloda yer alan sayılar “gözlenen frekanslardır”.

Tercih edilen TV programı türü üzerinde öğrenim düzeyinin etkisi olup olmadığını test edebilmek için (bağımsızlık testini yapabilmek için), izlenmesi gereken adımları sırasıyla şu şekildedir: • •

1. Adım : Hipotezlerin Kurulması H 0

: TV izleyicilerinin öğrenim düzeyiyle TV programı, birbirinden bağımsız değişkenlerdir. Bu iki değişken arasında bir ilişki yoktur.

H 1

: Öğrenim düzeyiyle TV programı arasında bir ilişki vardır.

2. Adım: İstatistiksel Test

İki sayısal olmayan değişken arasındaki ilişkinin varlığını araştıran bir test olan 𝜒 2 (ki-kare) bağımsızlık testi olmalıdır.

Dr. Berk AYVAZ İstanbul Ticaret Üniversitesi

OLASILIK ve İSTATİSTİK II

Çözüm 1

3. Adım : Anlamlılık Düzeyinin Belirlenmesi

𝛼 = 0.01

• • •

4. Adım: H 0 ’ın Red Bölgesinin Belirlenmesi

Bunun için hesaplanan test istatistiği, n = (r–1)*(c–1) serbestlik derecesine göre 𝜒 2 belli bir anlamlılık düzeyine ve değerleri tablosundan bulunan “kritik değer” ile karşılaştırılır.

Örnekte serbestlik derecesi n = (3–1) * (3–1) = 4 olup 𝜒 2 tablosundan bulunan kritik değer k=13’tur. Eğer hesaplanan 𝜒 2 𝛼 = 0.01 düzeyinde istatistiğinin değeri tablodan bulunan k kritik değerden büyük çıkarsa H 0 red edilecektir.

5. Adım:

𝝌 𝟐

Test İstatistiğinin Hesaplanması

𝝌 𝟐 = (𝑮−𝑩) 𝟐 𝑩 G= Gözlenen frekansları B= Beklenen frekansları Dr. Berk AYVAZ İstanbul Ticaret Üniversitesi

OLASILIK ve İSTATİSTİK II

Çözüm 1

• • • • • • • Test istatistiğinin hesaplanabilmesi için öncelikle beklenen frekansların hesaplanması gerekmektedir.

Herhangi bir gözenin beklenen frekansı bulunurken, o gözenin yer aldığı satır toplam frekansıyla sütunun toplam frekansı çarpılıp genel toplam frekansa bölünmektedir.

Örneğimiz için, beklenen frekansları, ilk gözeden başlamak üzere sırasıyla hesaplayalım:

B11 (birinci satır ve birinci sütunda yer alacak frekans)

B11 = (birinci satır toplamı x birinci sütun toplamı) / (genel toplam)= (80 x 90) / (200) = 36 B12 = (birinci satır toplamı x ikinci sütun toplamı) / (genel toplam)= (80 x 60) / (200) = 24 Beklenen frekanslar ve gözlenen frekanslar kontenjans tablosunda aşağıdaki gibi gösterilir.

İzlenen TV program türü Film Eğlence Magazin Toplam G

50 20 20

90 İlk ÖĞRENİM DÜZEYİ Orta Yüksek B

36 27 27

G

20 30 10

60 B

24 18 18

G

10 10 30

50 B

20 15 15

Toplam 80 60 60 200

Dr. Berk AYVAZ İstanbul Ticaret Üniversitesi

OLASILIK ve İSTATİSTİK II

Çözüm 1

Test istatistiği:

𝝌 𝟐 = (𝑮 − 𝑩) 𝟐 𝑩 𝝌 𝟐 = (50–36) 2 /(36) + (20–24) 2 /(24) + (10–20) 2 /(20) + (20–27) 2 /(27) + (30-18) 2 /(18) + (10–15) 2 /(15) + (20–27) 2 /(27) + (10–18) 2 /(18) + (30–15) 2 /(15) = 42.93 𝝌 𝟐 =42.93 • •

6. Adım: İstatistiksel Karar İstatistiksel karar verilirken, red bölgesinin tanımı gereği,

𝝌 𝟐

>

𝝌 𝟐 𝒌

olduğunda sıfır hipotezi red edilir,

𝝌 𝟐

𝝌 𝟐 𝒌

olduğundaysa sıfır hipotezi reddedilemez.

Sıfır hipotezinin red edilmesi, değişkenlerin birbirinden bağımsız olmadığı (diğer bir ifadeyle, değişkenler arasında ilişki bulunduğu) anlamını taşır.

Buna göre örneğimizde, 𝝌 𝟐

>

𝝌 𝟐 𝒌 𝝌 𝟐 𝝌 𝟐 𝒌

= 42.93

= 13.28

olduğundan H 0 hipotezi red edilecektir.

Başka bir anlatımla, TV izleyicilerinin öğrenim düzeyiyle izledikleri program türleri arasında ilişki vardır.

Dr. Berk AYVAZ İstanbul Ticaret Üniversitesi

OLASILIK ve İSTATİSTİK II

Örnek 2

Yapılan bir çalışmada katılımcıların eğitim düzeyleri ve sigara içme alışkanlıkları sorgulanarak, bu iki değişken arasında bir bağıntı bulunup bulunmadığı, diğer bir ifadeyle iki değişkenin birbirinden bağımsız olup olmadığı belirlenmeye çalışılsın. Bu amaçla 300 kişiyi kapsayan bir örneklem üzerinde yapılan gözlem sonuçları aşağıdaki tablo ile verilmiştir.

Sigara içme alışkanlığına ilişkin eğitim düzeyinin etkili olup olmadığını anlamlılık düzeyinde araştırınız.

𝜶

= 0.01

Dr. Berk AYVAZ İstanbul Ticaret Üniversitesi

OLASILIK ve İSTATİSTİK II

Çözüm 2

1. Adım: Hipotezlerin ifade edilmesi

H H 0 1 : Sigara içme alışkanlığı ile eğitim düzeyi birbirinden bağımsız değişkenlerdir. Bu iki değişken arasında bir ilişki (bağıntı) yoktur.

: Sigara içme alışkanlığı ile eğitim düzeyi arasında bir ilişki (bağıntı) vardır.

2. Adım: İstatistiksel Test

İki sayısal olmayan değişken arasındaki ilişkinin varlığını araştıran bir test olan bağımsızlık testi olmalıdır.

𝝌 𝟐 (ki-kare)

3. Adım: Anlamlılık düzeyinin belirlenmesi

𝜶

= 0.01 olarak belirlenmiştir.

4. Adım: H 0 ’ın Red Bölgesinin Belirlenmesi

Serbestlik derecesi v = (2-1)* (3-1) = 2 olup kritik değer = 9.21’dir.

𝜶 = 0.01 düzeyinde 𝝌 𝟐 tablosundan bulunan Dr. Berk AYVAZ İstanbul Ticaret Üniversitesi

OLASILIK ve İSTATİSTİK II

Çözüm 2

5. Adım:

𝝌 𝟐 Test istatistiği

Test İstatistiğinin Hesaplanması

𝝌 𝟐 = (𝑮 − 𝑩) 𝟐 𝑩 B11 (birinci satır birinci sütunda yer alacak frekans) B11 = (birinci satır toplamı x birinci sütun toplamı) / (genel toplam)= (140 x 90) / (300) = 42 B12 = (birinci satır toplamı x ikinci sütun toplamı) / (genel toplam)= (140 x 120) / (300) = 56 Dr. Berk AYVAZ İstanbul Ticaret Üniversitesi

OLASILIK ve İSTATİSTİK II

Çözüm 2

Test istatistiği:

𝝌 𝟐 = (45 - 42) 2 (64) + (50 - 48) 2 / (55 - 56) 2 / (56) + (40 - 42) / (48) = 0.58 2 / (42) + (45 - 48) 2 / (48) + (65 -64) 2 /

6. Adım: İstatistiksel Karar

𝝌 𝟐 𝝌 𝟐 = 0.58 𝝌 𝟐 𝒌

𝝌 𝟐 𝒌 = 9.21

olduğundan H 0 hipotezi red edilemez.

Dr. Berk AYVAZ İstanbul Ticaret Üniversitesi

OLASILIK ve İSTATİSTİK II

Örnek

Bir sağlık idarecisi difteri-boğmaca karma aşısı satın alacaktır. Piyasada ayrı firmalara ait 4 aşı vardır ve idareci en etkin olanını seçmek istemektedir. Bunun için bir araştırma yaparak bütün aşıları uygulamış ve sonuçları şöyle bulmuştur.

Aşılar arasında fark var mıdır 0,05 anlam düzeyinde test ediniz.

Aşı 1 2 3 4 Korunan 82 70 45 48 Korunmayan 41 24 20 42

Dr. Berk AYVAZ İstanbul Ticaret Üniversitesi

OLASILIK ve İSTATİSTİK II

Çözüm

1. Adım : Hipotezlerin Kurulması H 0

: Koruyuculuk yönünden aşılar arasında fark yoktur.

H 1

: Koruyuculuk yönünden aşılar arasında fark vardır.

2. Adım: İstatistiksel Test

İki sayısal olmayan değişken arasındaki ilişkinin varlığını araştıran bir test olan 𝜒 2 bağımsızlık testi olmalıdır.

3. Adım : Anlamlılık Düzeyinin Belirlenmesi

𝜒 2 = 0.05

4. Adım: H 0 ’ın Red Bölgesinin Belirlenmesi

n: (4-1)*(2-1)=3 0,05 için; 𝝌 𝟐 𝒌 = 𝟕, 𝟖𝟏𝟓 (ki-kare) Dr. Berk AYVAZ İstanbul Ticaret Üniversitesi

OLASILIK ve İSTATİSTİK II 5. Adım:

𝝌 𝟐

Test İstatistiğinin Hesaplanması

𝝌 𝟐 = (𝑮−𝑩) 𝟐 𝑩 𝝌 𝟐 = 𝟗, 𝟐𝟗𝟕 𝝌 𝟐 𝒌 = 𝟕, 𝟖𝟏𝟓 𝝌 𝟐

>

𝝌 𝟐 𝒌

olduğundan H 0 edilecektir. hipotezi red

Çözüm

Dr. Berk AYVAZ İstanbul Ticaret Üniversitesi

OLASILIK ve İSTATİSTİK II

Çözüm

Şimdi bu farklılığın hangi aşıdan kaynaklandığına bakılmalıdır. Bunun için en büyük değerine sahip olan dördüncü aşı analiz dışı bırakılarak, diğer üç aşı arasında fark olup olmadığına bakılır.

𝝌 𝟐 𝒌 𝝌 𝟐 = 𝟓, 𝟗𝟗 = 𝟏, 𝟒𝟑𝟐𝟒 𝝌 𝟐

𝝌 𝟐 𝒌

olduğundan H 0 hipotezi red edilemez.

Dr. Berk AYVAZ İstanbul Ticaret Üniversitesi

OLASILIK ve İSTATİSTİK II

Örnek

100 deney faresi iki gruba ayrılıyor. Birinci gruptaki 53 deney faresine bakteri ve daha sonra standart dozda anti serum veriliyor. İkinci gruptaki 47 fareye ise yalnız bakteri veriliyor. Belirli bir süre geçtikten sonra 81 fare canlı kalıyor.

Bakteri ve anti serum verilen 8 fare ölüyor.%5 anlam düzeyinde farelerin ölümünün anti serum etkisinden bağımsız olup olmadığını araştırınız.

Dr. Berk AYVAZ İstanbul Ticaret Üniversitesi

OLASILIK ve İSTATİSTİK II H 0

: Fare ölümleri anti serum etkisinden bağımsızdır.

H 1

: Fare ölümleri anti serum etkisinden bağımsız değildir.

Çözüm

𝝌 𝟐 𝒌 = 𝟑, 𝟖𝟒 (tablodan) 𝝌 𝟐

𝝌 𝟐 𝒌 𝝌 𝟐 = 𝟏, 𝟏𝟏𝟗𝟖

olduğundan H 0 hipotezi red edilemez.

Yorum: Fare ölümlerinin anti serum etkisinden bağımsız olduğu %95 güvenilirlikle söylenebilir.

Dr. Berk AYVAZ İstanbul Ticaret Üniversitesi

OLASILIK ve İSTATİSTİK II

2- Ki-Kare Homojenlik Testi

• • • • Ki-kare homojenlik testi ana çizgileriyle iki ya da daha fazla bağımsız örneklemin, aynı ana kütleden seçilip seçilmediğinin araştırılmasında kullanılır.

Testin uygulanması, ki-kare bağımsızlık testinde olduğu gibidir.

Yine nitel değişkenlerle ve aynı örneklem istatistiğiyle çalışır.

Ancak, dikkat edilmelidir ki, bağımsızlık testinde ele alınan değişkenler arasında bir ilişkinin varlığı araştırılırken, homojenlik testinde iki ya da daha fazla bağımsız örneklemin aynı ana kütleden seçilip seçilmediği araştırılmaktadır.

Dr. Berk AYVAZ İstanbul Ticaret Üniversitesi

OLASILIK ve İSTATİSTİK II

Örnek 3

Bölgesel satış yapan bir üretim işletmesi, 2 yeni ürün geliştirerek piyasaya sürmüştür.

Tüketicilerin bu ürünlerle ilgili görüşlerini (beğendikleri, beğenmedikleri ya da ilgisiz kaldıkları) belirlemek amacıyla, birinci ve ikinci ürünlerle ilgili olarak iki rassal örneklem oluşturulmuştur. İlk ürünle ilgili birinci örneklemde 100 tüketiciyle, ikinci ürünle ilgili ikinci örneklemde de 150 tüketiciyle görüşülmüştür. Veriler aşağıdaki tabloda belirtilmiştir. Seçilen örneklemlerin, aynı anakütleye ait olup olmadığını, %5 anlamlılık düzeyinde test ediniz. Tüketici görüşleri; fiyat, kalite, kolay ulaşabilme vb. gibi objektif ölçütlerle ve piyasadaki benzer ürünlerle mukayese sonucu oluşmuştur.

Dr. Berk AYVAZ İstanbul Ticaret Üniversitesi

OLASILIK ve İSTATİSTİK II

Çözüm 3

1. Adım: Hipotezlerin oluşturulması

• • H 0 : İki örneklem de aynı anakütleden seçilmiştir.

• H 1 : Örneklemler farklı anakütleden seçilmiştir.

2. Adım: İstatistiksel Test

İki örneklemin aynı anakütleden gelip gelmediği test edileceğinden, ilgili test, ki-kare homojenlik testi olmalıdır.

3. Adım: Anlamlılık Düzeyi

𝛼 = 0.05

• •

4. Adım: H 0 ’ın ret bölgesinin belirlenmesi

Hesaplanan test istatistiği n = (2-1)*(3-1) = 2 serbestlik derecesi ve 𝛼 0.05 anlamlılık düzeyi için ki-kare tablosundan bulunan kritik değer, = 𝝌 𝟐 𝒌 = 5.99’dur. Dr. Berk AYVAZ İstanbul Ticaret Üniversitesi

OLASILIK ve İSTATİSTİK II

Çözüm 3

• •

5. Adım:

𝝌 𝟐

test istatistiğinin hesaplanması

Hatırlanacağı gibi, test istatistiğinin hesaplanabilmesi için, öncelikle, beklenen frekansların hesaplanması gerekir.

Homojenlik testinde de her hangi bir gözenin beklenen frekansı, bağımsızlık testindeki gibi, ilgili gözenin yer aldığı satır toplam frekansıyla sütun toplam frekansı çarpılıp, genel toplam frekansına bölünerek elde edilir.

Test istatistiği:

𝝌 𝟐 = (60–56) 2 /(56) + (30–32) 2 /(32) + (10–12) 2 /(12) + (80–84) 2 /(84) + (50-48) 2 /(48) + (20– 18) 2 /(18) = 1.04 olarak elde edilir.

Dr. Berk AYVAZ İstanbul Ticaret Üniversitesi

OLASILIK ve İSTATİSTİK II

Çözüm 3

• • •

6. Adım: İstatistiksel karar

Hatırlanacağı gibi, 𝝌 𝟐

𝝌 𝟐 𝒌 Örneğimizde 𝝌 𝟐 =1.04 ve 𝝌 𝟐 𝒌 ise H 0 hipotezi kabul edilir. = 5.99 olduğundan, H 0 kabul edilecektir.

İlgili örneklemler aynı anakütleden seçilmiştir.

Dr. Berk AYVAZ İstanbul Ticaret Üniversitesi

OLASILIK ve İSTATİSTİK II

Örnek 4

Bir fabrika; A ve B olmak üzere iki farklı teknik uygulanarak üretilen ürünlerin yıpranma sürelerini (kısa sürede, orta sürede, uzun sürede) belirlemek amacıyla, bu ürünlerle ilgili iki rassal örneklem oluşturmuştur.

A tekniğiyle üretilen ürünlerden seçilen örneklemde 60 ürün, B tekniğiyle üretilen ürünlerden seçilen örneklemde ise 80 ürün bulunmaktadır. Veriler aşağıdaki tabloda belirtilmiştir. Seçilen örneklemlerin aynı anakütleye ait olup olmadığını, %5 anlamlılık düzeyinde test ediniz.

Dr. Berk AYVAZ İstanbul Ticaret Üniversitesi

OLASILIK ve İSTATİSTİK II

Çözüm 4

• •

1. Adım: Hipotezlerin oluşturulması

H 0 : İki örneklem de aynı anakütleden seçilmiştir.

H 1 : Örneklemler farklı anakütlelerden seçilmiştir.

2. Adım: İstatistiksel test

İki örneklemin aynı anakütleden gelip gelmediği test edileceğinden, ilgili test, ki-kare homojenlik testi olmalıdır.

3. Adım: Anlamlılık Düzeyi

𝛼 = 0.05

4. Adım: H 0 ’ın red bölgesinin belirlenmesi

Hesaplanan test istatistiği v = (3-1) (2-1) = 2 serbestlik derecesi ve düzeyi için ki-kare tablosundan bulunan kritik değer 𝝌 𝟐 𝒌 = 5.99’dur.

𝛼 = 0.05 anlamlılık Dr. Berk AYVAZ İstanbul Ticaret Üniversitesi

OLASILIK ve İSTATİSTİK II

5. Adım:

𝝌 𝟐

test istatistiğinin hesaplanması

Kontenjans tablosu aşağıdaki gibidir:

Çözüm 4

Test istatistiği: 𝝌 𝟐 = (30 - 33) 2 / (33) + (30 - 27) 2 / (27) + (45 - 44) 2 / (44) + (35 - 36) 2 (27) = 0.9

olarak elde edilir.

/ (36) + (35 - 33) 2 / (33) + (25 - 27) 2 / • • •

6. Adım: İstatistiksel Karar

Hatırlanacağı gibi, 𝝌 𝟐 = 0.9 ve 𝝌 𝟐 𝒌 𝝌 𝟐

𝝌 𝟐 𝒌 ise H 0 hipotezi kabul edilir. = 5.99 olduğundan, H

0

kabul edilecektir. Sonuç: İlgili örneklemler aynı anakütleden seçilmiştir.

Dr. Berk AYVAZ İstanbul Ticaret Üniversitesi

OLASILIK ve İSTATİSTİK II

3- Ki-Kare Uygunluk Testi

• •

Ki-kare uygunluk testinin esası, n birimlik bir örneklemin anakütleyi iyi temsil edip edemeyeceğini araştırmaktır.

Bu testte, yine

𝝌

𝟐 değişkeninin doğası gereği, gözlenen ve beklenen frekanslardan yararlanılır.

Dr. Berk AYVAZ İstanbul Ticaret Üniversitesi

OLASILIK ve İSTATİSTİK II

Örnek 5

Belirli bir bölgede, Z marka margarin kullanan aile oranı, 3/8 olarak öngörülmektedir. Her anketör, rassal olarak seçilen 5 aileyle görüşmek üzere, 200 anketör kullanılarak ilgili bölgede bir anket düzenlenmiş ve anket sonuçları aşağıdaki frekans dağılımıyla verilmiştir:

Elde edilen bu sonuçlar için, 𝑃 𝑥 = 𝑐 5 𝑥 3 8 0 𝑥 5 8 5−𝑥 , 𝑥 = 0,1,2,3,4,5 , diğer durumlarda formunda bir binom dağılımı öngörülmektedir. Öngörülen dağılımın, ele alınan problem için, uygun bir model olup olmadığını α = 0.05 anlamlılık düzeyi için test ediniz.

Dr. Berk AYVAZ İstanbul Ticaret Üniversitesi

OLASILIK ve İSTATİSTİK II

Çözüm 5

1.Adım: Hipotezlerin Oluşturulması H 0 = X rassal değişkeni, n=5 ve p=3/8 parametre değerleriyle binom dağılmıştır.

H 𝜒 1 2 = X rassal değişkeni, n=5 ve p=3/8 parametre değerleriyle binom dağılmamıştır.

2. Adım: İstatistiksel Test uygunluk testi 3. Adım: Anlamlılık Düzeyi α = 0.05

4. Adım: H 0 Red Bölgesinin Belirlenmesi

Serbestlik Derecesi: Sınıf Sayısı - 3

Serbestlik Derecesi: 6-3=3 ve α = 0.05 için; 𝝌 𝟐 𝒌 = 7,81 Dr. Berk AYVAZ İstanbul Ticaret Üniversitesi

OLASILIK ve İSTATİSTİK II

Çözüm 5

5. Adım:

𝜒 2 test istatistiğinin hesaplanması Beklenen frekansların ilgili sınıfa ilişkin olasılık toplam frekansın çarpımı olduğu hatırlanacak olursa ilgili olasılıklar aşağıdaki fonksiyon yardımıyla hesaplanır.

𝑃 𝑥 = 𝑐 5 𝑥 3 8 0 𝑥 5 8 5−𝑥 , 𝑥 = 0,1,2,3,4,5 , diğer durumlarda Beklenen frekansların hesaplamak için bu olasılıklar frekans toplamları ile çarpılır.

Dr. Berk AYVAZ İstanbul Ticaret Üniversitesi

OLASILIK ve İSTATİSTİK II

Çözüm 5

𝝌 𝟐 = (𝑮 − 𝑩) 𝟐 𝑩 𝝌 𝟐 = (𝟏𝟖 − 𝟏𝟗, 𝟎𝟖) 𝟐 𝟏𝟗, 𝟎𝟖 + (𝟓𝟕 − 𝟓𝟕, 𝟐𝟐) 𝟐 𝟓𝟕, 𝟐𝟐 + (𝟔𝟗 − 𝟔𝟖, 𝟔𝟔) 𝟐 𝟔𝟖, 𝟔𝟔 + (𝟒𝟐 − 𝟒𝟏, 𝟐) 𝟐 𝟒𝟏, 𝟐 + (𝟏𝟏 − 𝟏𝟐, 𝟑𝟔) 𝟐 𝟏𝟐, 𝟑𝟔 + (𝟑 − 𝟏, 𝟒𝟖) 𝟐 𝟏, 𝟒𝟖 = 𝟏, 𝟕𝟕𝟓𝟖 6.Adım: İstatistiksel Karar 𝝌 𝟐 = 𝟏, 𝟕𝟕𝟓𝟖 𝝌 𝟐 𝒌 = 𝟕, 𝟖𝟏 𝝌 𝟐

𝝌 𝟐 𝒌

H 0 =Kabul

Yorum: Eldeki frekans dağılımını n=5 ve p=3/8 için Binom dağılmış bir ana kütleden çekilmiş bir örneklemdir.

Dr. Berk AYVAZ İstanbul Ticaret Üniversitesi

OLASILIK ve İSTATİSTİK II

Örnek 6

Bir üniversitede ortak ders olarak tüm fakültelerde verilen İngilizce dersini alan ve başarılı olan öğrencilerden rassal olarak seçilen 150 öğrencinin fakültelere dağılımı aşağıda verilmiştir .

Bu verilere göre fakülteler için İngilizce dersi başarısının aynı oranda olup olmadığını 𝛼 = 0.01 anlamlılık düzeyinde araştırınız.

Dr. Berk AYVAZ İstanbul Ticaret Üniversitesi

OLASILIK ve İSTATİSTİK II

Çözüm 6

• • 1. Adım: Hipotezlerin oluşturulması

H 0

: Tüm fakülteler için İngilizce dersinin başarı oranları aynıdır. (İngilizce başarısında fakülteler açısından farklılık yoktur)

H 1

: En az bir fakülte için İngilizce dersinin başarı oranı farklıdır.

2. Adım: İstatistiksel test 𝝌 𝟐 uygunluk (iyi uyum) testi • 3. Adım: Anlamlılık Düzeyi 𝛼 = 0.01

4. Adım: H 0 ’ın red bölgesinin belirlenmesi k sınıf sayısını belirtmek üzere, serbestlik derecesi v = k-1’den; 6 sınıf olduğu için 6 - 1 = 5 olarak belirlenir. 5 serbestlik derecesi ve 𝝌 𝟐 𝒌 tablosundan 15.08 olarak bulunur. 𝛼 = 0.01 anlamlılık düzeyi için kritik değeri, Dr. Berk AYVAZ İstanbul Ticaret Üniversitesi

OLASILIK ve İSTATİSTİK II

Çözüm 6

• • • 5. Adım: Ki-kare istatistiğinin hesaplanması Sıfır hipotezinde, tüm fakülteler için İngilizce dersinin başarı oranlarının aynı olduğu ileri sürüldüğü için, altı farklı fakülte için genel oran 1 / 6 olacaktır. Dolayısıyla her bir fakülte için “beklenen frekans”=(frekans*olasılık)= 150.(1/6) = 25 olur.

Bunun anlamı, fakülteler arasında başarı oranı açısından farklılık olmadığı ve her fakülteden 25 öğrencinin başarılı olmasının beklenmesidir.

𝝌 𝟐 = (𝑮 − 𝑩) 𝟐 𝑩 𝝌 𝟐 = (𝟐𝟒 − 𝟐𝟓) 𝟐 𝟐𝟓 + (𝟐𝟖 − 𝟐𝟓) 𝟐 𝟐𝟓 + (𝟑𝟎 − 𝟐𝟓) 𝟐 𝟐𝟓 + (𝟐𝟎 − 𝟐𝟓) 𝟐 𝟐𝟓 + (𝟐𝟔 − 𝟐𝟓) 𝟐 𝟐𝟓 + (𝟐𝟐 − 𝟐𝟓) 𝟐 𝟐𝟓 = 𝟐, 𝟖 6. Adım: İstatistiksel Karar 𝝌 𝟐 = 2.8

𝝌 𝟐 𝒌 𝝌 𝟐 = 15.08

𝝌 𝟐 𝒌 olduğundan H

0

kabul edilecektir. Buna göre bu üniversitenin tüm fakülteleri için İngilizce dersinin başarı oranları arasında önemli bir farklılık yoktur.

Dr. Berk AYVAZ İstanbul Ticaret Üniversitesi

OLASILIK ve İSTATİSTİK II

Örnek

Dairies would like to know whether the sales of milk are distributed uniformly over a year so they can plan for milk production and storage. A uniform distribution means that the frequencies are the same in all categories. In this situation, the producers are attempting to determine whether the amounts of milk sold are the same for each month of the year. They ascertain the number of gallons of milk sold by sampling one large supermarket each month during a year, obtaining the following data. Use .01 to test whether the data fit a uniform distribution.

Dr. Berk AYVAZ İstanbul Ticaret Üniversitesi

OLASILIK ve İSTATİSTİK II

Örnek

STEP 1.

The hypotheses follow. H0: The monthly figures for milk sales are uniformly distributed. Ha: The monthly figures for milk sales are not uniformly distributed.

STEP 2.

The statistical test used is

STEP 3.

Alpha is .01.

STEP 4.

There are 12 categories and a uniform distribution is the expected distribution, so the degrees of freedom are k - 1 = 12 - 1 = 11 For = .01, the critical value is 𝝌 𝟐 𝒌

= 24.725.

An observed chi-square value of more than 24.725 must be obtained to reject the null hypothesis.

STEP 5.

The data are given in the preceding table.

STEP 6.

The first step in calculating the test statistic is to determine the expected frequencies. The total for the expected frequencies must equal the total for the observed frequencies (18,447). If the frequencies are uniformly distributed, the same number of gallons of milk is expected to be sold each month. The expected monthly figure is; The following table shows the observed frequencies, the expected frequencies, and the chi square calculations for this problem. Dr. Berk AYVAZ İstanbul Ticaret Üniversitesi

OLASILIK ve İSTATİSTİK II

.

Örnek

STEP 7.

The observed 2 value of 74.37 is greater than the critical table value of 𝝌 𝟐 𝒌

= 24.725

, so the decision is to reject the null hypothesis. This problem provides enough evidence to indicate that the distribution of milk sales is not uniform. Dr. Berk AYVAZ İstanbul Ticaret Üniversitesi

OLASILIK ve İSTATİSTİK II

Örnek

Suppose a teller supervisor believes the distribution of random arrivals at a local bank is Poisson and sets out to test this hypothesis by gathering information. The following data represent a distribution of frequency of arrivals during 1-minute intervals at the bank. Use .05 to test these data in an effort to determine whether they are Poisson distributed.

Dr. Berk AYVAZ İstanbul Ticaret Üniversitesi

OLASILIK ve İSTATİSTİK II STEP 1.

The hypotheses follow. H0: The frequency distribution is Poisson. Ha: The frequency distribution is not Poisson.

STEP 2.

The appropriate statistical test for this problem is

Örnek

STEP 3. Alpha is .05. STEP 4. The degrees of freedom are k - 2 = 6 - 1 - 1 = 4 because the expected distribution is Poisson. An extra degree of freedom is lost, because the value of lambda must be calculated by using the observed sample data. For = .05, the critical table value is 𝝌 𝟐 𝒌 = 9.4877. The decision rule is to reject the null hypothesis if the observed chi-square is greater than 𝝌 𝟐 𝒌 = 9.4877. STEP 5. To determine the expected frequencies, the supervisor must obtain the probability of each category of arrivals and then multiply each by the total of the observed frequencies. These probabilities are obtained by determining lambda and then using the Poisson table. As it is the mean of a Poisson distribution, lambda can be determined from the observed data by computing the mean of the data. In this case, the supervisor computes a weighted average by summing the product of number of arrivals and frequency of those arrivals and dividing that sum by the total number of observed frequencies. Dr. Berk AYVAZ İstanbul Ticaret Üniversitesi

OLASILIK ve İSTATİSTİK II

Örnek

With this value of lambda and the Poisson distribution table in Appendix A, the supervisor can determine the probabilities of the number of arrivals in each category. The expected probabilities are determined from Table A.3 by looking up the values of x = 0, 1, 2, 3, and 4 in the column under = 2.3, shown in the following table as expected probabilities. The probability for x 5 is determined by summing the probabilities for the values of x = 5, 6, 7, 8, and so on. Using these probabilities and the total of 84 from the observed data, the supervisor computes the expected frequencies by multiplying each expected probability by the total (84).

STEP 6.

The supervisor uses these expected frequencies and the observed frequencies to compute the observed value of chi-square. Dr. Berk AYVAZ İstanbul Ticaret Üniversitesi

A

CTION:

STEP 7.

The observed value of 1.74 is not greater than the critical chi-square value of 9.4877, so the supervisor’s decision is to not reject the null hypothesis. In other words, he fails to reject the hypothesis that the distribution of bank arrivals is Poisson.

B

USINESS IMPLICATIONS:

STEP 8.

The supervisor can use the Poisson distribution as the basis for other types of analysis, such as queuing modeling. The following Minitab graph depicts the chi-square distribution, critical value, and computed value.

With this value of lambda and the Poisson distribution table in Appendix A, the supervisor can determine the probabilities of the number of arrivals in each category. The expected probabilities are determined from Table A.3 by looking up the values of x = 0, 1, 2, 3, and 4 in the column under = 2.3, shown in the following table as expected probabilities. The probability for x 5 is determined by summing the probabilities for the values of x = 5, 6, 7, 8, and so on. Using these probabilities and the total of 84 from the observed data, the supervisor computes the expected frequencies by multiplying each expected probability by the total (84).

OLASILIK ve İSTATİSTİK II

Örnek

STEP 6.

The supervisor uses these expected frequencies and the observed frequencies to compute the observed value of chi-square.

A

CTION:

STEP 7.

The observed value of 1.74 is not greater than the critical chi-square value of 9.4877, so the supervisor’s decision is to not reject the null hypothesis. In other words, he fails to reject the hypothesis that the distribution of bank arrivals is Poisson.

B

USINESS IMPLICATIONS:

STEP 8.

The supervisor can use the Poisson distribution as the basis for other types of analysis, such as queuing modeling. The following Minitab graph depicts the chi-square distribution, critical value, and computed value. Dr. Berk AYVAZ İstanbul Ticaret Üniversitesi

OLASILIK ve İSTATİSTİK II

Kontenjans Katsayısı

• • • • Ki-kare bağımsızlık testiyle iki değişken arasındaki ilişkinin varlığıyla ilgili karar verilebiliyordu. Oysa ki bazı hâllerde, iki değişken arasındaki ilişkinin kuvveti hakkında da bilgi sahibi olmak istenebilir.

İşte kontenjans katsayısı R*C Kontenjans Tablolarından (r > 2 ve c > 2)

hesaplanan

𝝌 𝟐

değerinin gösterdiği ilişki düzeyini saptamak amacıyla kullanılan bir katsayıdır.

İki değişken arasında bir ilişki bulunmuyorsa c = 0 değeri verir.

Buna karşılık iki değişken arasında en üst düzeydeki ilişki katsayısı her zaman 1

çıkmaz, 1’e çok yakın bir değer olur. c ile gösterilen kontenjans katsayısının formülü aşağıdaki gibidir.

𝐜 = 𝝌 𝟐 𝝌 𝟐 + 𝒏 Dr. Berk AYVAZ İstanbul Ticaret Üniversitesi

OLASILIK ve İSTATİSTİK II

Örnek 7

Yapılan bir araştırmada, Z ilinde yaşayanların gelir düzeyleri (düşük, orta, yüksek)ile kullandıkları araçların yakıt özellikleri (benzin, dizel, LPG) arasında anlamlı bir ilişki olup olmadığı incelenmek istenmiştir.

Bu amaçla rassal olarak seçilen 200 kişiden elde edilen verilerle 0.01 anlamlılık düzeyinde ki-kare bağımsızlık testi yapılarak;

𝝌 𝟐

değeri 42.93 olarak hesaplanmış ve söz konusu iki değişken arasında anlamlı bir ilişki olduğu sonucuna ulaşılmıştır.

Şimdi kontenjans katsayısıyla bu ilişkinin derecesini araştıralım.

Dr. Berk AYVAZ İstanbul Ticaret Üniversitesi

OLASILIK ve İSTATİSTİK II

Çözüm 7

𝛘

𝟐 = 42.93 ve n = 200 olduğuna göre, •

𝐜 =

𝛘 𝟐 𝛘 𝟐 +𝐧

=

𝟒𝟐,𝟗𝟑 𝟒𝟐,𝟗𝟑+𝟐𝟎𝟎

= 𝟎, 𝟒𝟐

Bu durumda, orta düzeyde bir ilişkinin olduğu konusunda karar verilebilir.

Dr. Berk AYVAZ İstanbul Ticaret Üniversitesi