Örneklem Dağılışları

Download Report

Transcript Örneklem Dağılışları

Örneklem Dağılışları

Bir araştırma yapmanın amacı, çalışılan örneklemden kitleye genelleme yapabilmektir.

Çıkarsama yapma işlemi, olasılığa dayanan istatistiksel yöntemlerle yapılır.

Bu bölümde Örneklemden elde edilen bulgular yardımıyla çıkarımsal istatistiğin iki ana konusu olan: 1) Kitle hakkında kestirimde bulunma, 2) Hipotezleri test etmenin dayanağı olan örneklem dağılışları tanıtılacaktır.

Kitleden Örneklem Çekmenin Nedenleri 1) Örneklemin incelenmesi kitlelere göre daha kısa sürede yapılır.

2) Örneklemin incelenmesi, kitlenin incelenmesinden daha ucuzdur. 3) Bazı durumlarda kitlenin incelenmesi olanaksız olabilir.

4) Örneklem sonuçları daha doğru olabilir. Çünkü daha az sayıda kişi ile (örnek ile) çalışılacağından, araştırma daha özenli yürütülebilir.

5) Eğer örneklem olasılıksal yöntemlerle seçiliyorsa, yapılan örnekleme hatasının kestirimini de bulmak mümkündür.

Gözlem değerlerinin dağılımından farklı olarak, bu gözlemlerin oluşturduğu örneklemlerden elde edilen (hesaplanan) istatistiklerin (ortalama, oran, varyans v.b.) dağılımları da önemlidir.

N genişliğinde bir kitleden n genişliğinden çekilebilecek bir çok örneklem vardır. Eğer kitleden örneklem çekme işlemi yerine konulmadan yapılıyorsa n genişliğinde çekilebilecek örneklem sayısı

  

N n

   

n !

( N N !

n )!

dir.

Bu olası örneklemlerin her birinden bir istatistik (ortalama, oran, standart sapma v.b.) hesaplanabilir.

Örneklemlerden hesaplanan istatistiklerin dağılışına örneklem dağılışı denir.

N genişliğindeki kitleden n genişliğinde elde edilen tüm örneklemlerden birer ortalama hesaplanabilir ve bu örneklem ortalamalarının bir dağılımı elde edilebilir.

Buna ortalamanın örneklem dağılışı adı verilir.

Gözlem birimlerinin dağılımını tanımlamak için ortalama ya da standart sapma gibi ölçümler kullanılır. Örneklem dağılımının özelliklerini tanımlamak için de örneklem dağılışının ortalamasını ve standart sapmasını kullanırız.

Merkezi eğilim ölçüsü olarak ortalama, tek tek gözlem birimlerinin nerede odaklandığını gösterirken, örneklem dağılışının ortalaması da, örneklemlerden elde edilen ortalamaların nerede odaklandığını gösterir.

Yaygınlık ölçüsü olarak kullanılan standart sapma da, tek tek gözlem birimlerinin ortalamadan ne kadarlık bir ayrılış gösterdiğini tanımlarken, örneklem dağılışının standart sapması da her bir örneklemden elde edilen ortalamaların ne derece yaygınlık gösterdiğini tanımlar.

Aynı büyüklükteki örneklemlerden elde edilen ortalamalar ne kadar birbirine yakınsa (örneklemden örnekleme değişim ne kadar azsa) herhangi bir örneklem sonucu o kadar güvenilirdir ya da kesindir.

Eğer hesaplanan ortalamalar, bir örneklemden diğerine çok farklılık gösteriyorsa, çekilen herhangi bir örneklemden elde dilen ortalama (kestirim) o derece az güvenilir ya da kesindir. Bu nedenle örneklem dağılışının standart sapması kesinliğin ya da hatanın bir ölçüsü olarak kullanılır.

Pratikte hiçbir zaman olası tüm örneklemleri ya da bir kitleden bir çok örneklemi çekmeyiz. İstatistik kuramı elimizdeki bir örneklemden yararlanarak örneklem dağılışının özelliklerini bulmamıza yardımcı olur.

Merkezi limit teoremi olarak adlandırılan teoreme göre örneklem ortalamalarının gösterdiği dağılım, normal dağılımdır.

Normal dağılımı tanımlayan parametreler, dağılımın ortalaması ve standart sapması olduğundan bu parametrelerin özelliklerinin bilinmesi gerekir.

Örnek 1: N=6 olan bir kitledeki gözlem değerleri aşağıdadır.

x 1 =5 x 2 =9

5 , 33 x 3 =4 x 4 =1 x 5 = 7 x 6 =6

 

2 , 494 Bu kitleden n=3 genişliğinde çekilebilecek

  

6 3

   

20 Tane olası örneklem vardır. Bu örneklemlerin her birinden bir ortalama hesaplandığında, ortalamanın örneklem dağılımını elde ederiz.

Olası Örneklem 1. (x 1 x 2 x 3 ) 2. (x 1 x 2 x 4 ) .

3. (x 1 x 2 x 5 ) 4. (x 1 x 2 x 6 ) .

20. (x 5 x 6 x 7 ) Örneklemlerdeki Değerler 5, 9, 4 5, 9,1 .

.

5, 9,7 5, 9, 6 1, 7, 6 Örneklem Ortalamaları x 1

6 x 2 x 3

5

7 x 4

6 , 6 7

.

.

x 2 0

4 , 6 7

Örneklem No 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 9 9 9 4 4 4 1 5 5 5 5 9 9 9 Örneklemlerdeki Değerler 5 5 9 9 4 1 5 5 5 5 9 9 4 4 7 6 1 7 4 1 1 7 4 4 4 6 7 6 6 1 7 6 1 1 7 1 1 7 7 7 6 6 7 6 6 6 Örneklem Ortalamaları 6,00 5,00 7,00 6,67 3,33 5,33 5,00 4,33 4,00 6,00 4,67 6,67 6,33 5,67 5,33 7,33 4,00 3,67 5,67 4,67

Olası tüm örneklem ortalamalarının ortalaması alındığında

x

5 , 3 3 olarak bulunur ve bu ortalama kitle ortalamasına eşittir. Bu ortalamaların dağılışı normal dağılım gösterir.

Örneklem ortalamalarının dağılımı

Bu bilgilere göre örneklem ortalamaları kitle ortalaması etrafında bir normal dağılım gösterir.

Örneklem Ortalamaları

Örneklem ortalamalarının standart sapması da örneklem ortalamalarının gerçekte bilmediğimiz kitle ortalaması etrafında nasıl bir dağılım gösterdiğini tanımlar. Örneklem ortalamaları, kitle ortalamasına çok yakın bir dağılım gösteriyorsa, bu ortalamaların dağılımının standart sapması küçük olacaktır.

Örneklem dağılışının değişkenliğini belirleyen iki parametre vardır. 1) Kitle standart sapması (

) 2) Örneklem genişliği (n) Kitledeki değişkenlik arttıkça (

), örneklem dağılışının değişkenliği artar. Buna karşın, örneklem genişliğinin (n) büyümesi örneklem dağılışının standart sapmasını azaltır.

İncelenilen örnekte n=3 olduğunda örneklem ortalamaları 3,33 ile 7,33 arasında değişim göstermiştir.

N=6 olan kitleden n=4 genişliğindeki tüm örneklemler incelendiğinde çekilebilecek örneklem sayısı =

  

6 4

   

15 dir.

n=4 genişliğinde çekilen 15 örneklemden elde edilen ortalamalar 4 ile 6,75 arasında değişim göstermektedir.

n=3 n=4 3,33 - 7,33 DA=4,00 4,00 - 6,75 DA=2,75 Örneklem ortalamalarının dağılımının değişkenliği örneklem genişliği büyüyünce azalmıştır. Kitleden n=4 genişliğinde tek bir örneklem çekildiğinde elde edilen ortalama n=3 genişliğinde çekilen örneklemden elde dilen ortalamaya göre kitle ortalamasına daha yakın olma eğilimindedir.

n=4 n=3

Değişkenliğin ölçüsü olarak “varyans” kullanıldığında, örneklem ortalamalarının dağılımının varyansı, kitle varyansının örneklem genişliğine bölünmesi ile bulunur.

2 x

 

2 n Varyans yerine daha yaygın kullanılan standart sapmayı kullanacak olursak

,

örneklem ortalamalarının dağılımının standart sapması, kitle standart sapmasının örneklem genişliğinin kareköküne bölünmesi ile bulunacaktır.

x

 

n

Örneklem ortalamalarının gösterdiği dağılımın standart sapması

ortalamanın standart hatası

olarak adlandırılır.

n

3 için

n

2 , 494

1 , 76

3

5,33 n

4 için

n

2 , 494

1 , 25 4

n=4 n=3

Standart hata, tüm örneklem ortalamalarının kitle ortalaması etrafındaki dağılımını (yaygınlığını) gösterdiği ölçüsüdür.

için, örneklem ortalamasının kitle ortalamasını ne kadar kesinlikle kestirdiğinin bir n genişliğindeki bir örneklemden hesaplanan, örneklem standart sapması (s) kitle standart sapması (

) nın bir nokta kestirimidir. Bu durumda standart hata S x

S n İle kestirilir.

Eğer örneklemler normal dağılıma sahip bir kitleden çekiliyorsa, örneklem ortalamalarının dağılımı (ortalamanın örneklem dağılışı) da normaldir.

Eğer örneklemlerin çekildiği kitle normal dağılmıyorsa (örneklem normal dağılım göstermeyen bir kitleden çekiliyorsa), örneklem ortalamalarının dağılımı örneklem genişliği büyüdükçe normal dağılıma yaklaşır.

Bu bilgi örneklem ortalamaları ile ilgili olasılıkların hesaplanmasında kullanılabilir.

Örnek 2: Miyokard enfaktüs tanısı konmuş erkeklerde kolesterol düzeyinin ortalaması 240 mg/dl standart sapması 40 mg/dl olan bir normal dağılıma uyduğu biliniyorsa, bu kitleden çekilecek 100 erkeğin kolesterol değerlerinin ortalamasının 250 mg/dl’den büyük olması olasılığı nedir?

z

x

  

/ n

250

240

2 , 5 40 / 100

P

(

x

 250 )  ?

P

(

z

 2 , 5 )  1 

P

(

z

 2 , 5 )  1  0 , 4938  0 , 0062

100 genişliğindeki bir örneklemin ortalamasının 250 mg/dl’den daha büyük olması olasılığı %0,62’dir. Örneklem genişliği 16 olsaydı: z

2 5 0

2 4 0

1 4 0 / 1 6 P ( x

2 5 0

)

P ( z

1

)

0

,

1 5 8 7

16 genişliğindeki bir örneklem ortalamasının 250 mg/dl’den daha büyük olması olasılığı yaklaşık olarak %16’dır. Yani 100 genişliğindeki bir örneklemden böyle bir sonucun elde edilmesinden daha olası bir durumdur.

Kestirim

Pratikte kitle parametrelerini doğrudan hesaplamak olanaklı değildir. Bunun yerine herhangi bir kitle parametresi, elde edilen örneklem istatistiğinden kestirilir.

İstatistik, örneklemden örnekleme değişim gösterir.

Kestirim işleminde belirsizlik vardır.

Kitle parametrelerinin belirli bir güvenle, içinde bulunduğu aralığın tanımlanması işlemine güven aralığı yöntemi denir.

Örnek 3 : Akut miyokard enfarktüs tanısı almış 100 erkekten elde edilen ortalama kolesterol düzeyi 240 mg/dl olarak bulunmuş olsun. Örneklemin çekildiği kitlenin ortalaması hakkında kestirim yapılmak istenebilir.

n x

100

240 Kitlede kolesterol düzeyi değerlerinin standart sapmasının 40 mg/dl olarak bilindiğini varsayalım.

 

4 0

(

Bu örnekten elde edilen ortalama mg/dl) kitle ortalamasının bir nokta kestirimidir. Örneklem ortalamalarının dağılımının normal dağılım gösterdiği bilinmektedir. 100 genişliğindeki örneklemlerin %95’i gerçek kitle ortalamasından:

1 , 9 6

 

x kadar (1,96

40/10) uzaklıkta yer alır. örneklem ortalaması kullanılarak x

1 , 9 6

 

x Aralığının %95 olasılıkla bilinmeyen kitle ortalamasını içerdiği söylenebilir.

Bu örnek için x

1 , 9 6

 

x 240

232 , 16 1 , 96

40

10

 

240 247 , 84

7 , 84

Bilinmeyen kitle ortalaması % 95 olasılıkla 232,16 ile 247,84 arasında yer almaktadır.

Pratikte kitle standart sapması (

) bilinmez ve örneklem standart sapması s ile kestirilir.

yerine s’nin kullanımı ile x ’da olduğu gibi s’nin de örneklemden örnekleme değişimi söz konusudur.

z

 

x /

 

n Z dağılımına dayandırılarak yazılan bu eşitlikte kullanıldığında ise aşağıdaki formül ile t dağılımına ulaşılır.

t

s x /

 

n

yerine s t dağılımı

yanılma düzeyine ve serbestlik derecesine göre değişir.

Z dağılımı ile t dağılımı arasındaki farklar sonraki grafiklerde verilmiştir:

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 25 30 40 50 60 70 80 90 100  

: Tek Yön:

: Çift Yön: 0.250 0.500

1.000 0.816 0.765 0.741 0.727 0.718 0.711 0.706 0.703 0.700 0.697 0.695 0.694 0.692 0.691 0.690 0.689 0.688 0.688 0.687 0.684 0.683 0.681 0.679 0.679 0.678 0.678 0.677 0.677 0.674 t dağılım tablosu

0.100 0.200 0.050 0.100

3.078 1.886 1.638 1.533 1.476 1.440 1.415 1.397 1.383 1.372 1.363 1.356 1.350 1.345 1.341 1.337 1.333 1.330 1.328 1.325 1.316 1.310 1.303 1.299 1.296 1.294 1.292 1.291 1.290 1.282 6.314 2.920 2.353 2.132 2.015 1.943 1.895 1.860 1.833 1.812 1.796 1.782 1.771 1.761 1.753 1.746 1.740 1.734 1.729 1.725 1.708 1.697 1.684 1.676 1.671 1.667 1.664 1.662 1.660 1.645

0.025 0.050

12.706 4.303 3.182 2.776 2.571 2.447 2.365 2.306 2.262 2.228 2.201 2.179 2.160 2.145 2.131 2.120 2.110 2.101 2.093 2.086 2.060 2.042 2.021 2.009 2.000 1.994 1.990 1.987 1.984 1.960

0.010 0.020

31.821 6.965 4.541 3.747 3.365 3.143 2.998 2.896 2.821 2.764 2.718 2.681 2.650 2.624 2.602 2.583 2.567 2.552 2.539 2.528 2.485 2.457 2.423 2.403 2.390 2.381 2.374 2.368 2.364 2.326

0.005 0.010

63.65

7 5.841 4.604 4.032 3.707 3.499 3.355 3.250 3.169 3.106 3.055 3.012 2.977 2.947 2.921 2.898 2.878 2.861 2.845 2.787 2.750 2.704 2.678 2.660 2.648 2.639 2.632 2.626 2.576

Standart normal dağılımda(z) ortalama etrafında gözlemlerin %90’ının bulunduğu sınırlar

/ 2=0,05 1-

= 0,90

/ 2=0,05 -1,645

1,645 Şekil: Normal dağılım; z=1,645’in altında kalan alan 0,90’dır.

Z

t dağılımda ortalama etrafında gözlemlerin %90’ının bulunduğu sınırlar (n=100 için)

/ 2=0,05 1-

= 0,90

/ 2=0,05

-1,66  1,66

t Şekil: 100 genişliğindeki örneklemlerden hesaplanacak t=1,66’nın altında kalan alan 0,90’dır.

t dağılımda ortalama etrafında gözlemlerin %90’ının bulunduğu sınırlar (n=16 için)

/ 2=0,05 1-

= 0,90

/ 2=0,05 t

-1,75  1,75

Şekil: 16 genişliğindeki örneklemlerden hesaplanacak t=1,75’in altında kalan alan 0,90’dır.

Kitle Ortalaması İçin Güven Sınırları

Uygulamada kitle standart sapmasını bilmediğimiz için bilinmeyen kitle ortalamasının güven sınırları t dağılımından yararlanarak aşağıdaki gibi belirlenir. x

t ( n

1 ;

/ 2 ) s n

  

x

t ( n

1 ;

/ 2 ) s n

Örnek 4 : Akut miyokard enfarktüs tanısı alan erkekler arasından rasgele seçilen 100 erkeğin serum kolesterol ( x ) 35 mg/dl olarak bulunmuş olsun. Buna göre x

2 3 5 Kitle ortalamasının nokta kestirimidir.

s=35 Kitle standart sapmasının nokta kestirimidir.

Kitle ortalamasının %95 olasılıkla içinde bulunduğu sınırlar

x  t (  / 2 , n  1 ) s x  x  t ( 0 , 05 ; 99 ) s x 235  1 , 98 ( 35 / 100 )  228 , 07  241 , 93

Örnek 5: Yukarıda verilen örneklem değerleri 100 kişilik örneklemden değil de 16 kişilik örneklemden hesaplanmış olsaydı:

x  t (  / 2 , n  1 ) s x  x  t ( 0 , 05 ; 15 ) s x 235  2 , 13 ( 35 / 16 )  216 , 4  253 , 6

Küçük örneklem ile belirsizlik (kesin olmayışlık) artacağından daha geniş aralık elde edilmektedir.

Kitle Oranı İçin Güven Sınırları

Bilinmeyen kitle oranı için güven sınırları aşağıdaki gibi belirlenir.

p

t

(

n

 1 ;  / 2 ) 

s p

P

p

t

(

n

 1 ;  / 2 ) 

s p p

t

(

n

 1 ;  / 2 ) 

p

( 1 

p

) 

P

p

t

(

n

 1 ;  / 2 ) 

n p

( 1 

p

)

n

s p : Oranın standart hatası

Örnek 6: A bölgesinde yaşayan 60 kişi üzerinde yapılan bir çalışmada anemi görülme oranı % 8,3(5 kişi) olarak bulunmuştur. Buna göre bilinmeyen kitle oranı %95 güvenirlikle yada %5 yanılma ile hangi sınırlar arasındadır?

p=5/60=0,083 q=(1-p)=1-0,083=0,917

s p

 0 , 083  0 , 917  0 , 0356

t(sd:60;0,025)=2

60

p

t

(

n

 1 ;  / 2 )

s p

 0 , 083  2  0 , 0356 

P

P

p

t

(

n

 1 ;  / 2 )

s p

0 , 083  2  0 , 0356 0 , 012 

P

 0 , 154