istatistiksel bazı temelkavramlar

Download Report

Transcript istatistiksel bazı temelkavramlar

İstatistikte Bazı Temel Kavramlar

Kaynaklar

• •

Fiziksel Ölçmeler ve Değerlendirmesi, İ.Eşme İstatistik Yöntemler ve Uygulaması, H.Arıcı

• •

Evren

Gözlem alanına giren obje ya da bireylerin tümü Örneklem

Bir evrenden seçilmiş daha küçük sayıdaki obje ya da bireylerin oluşturduğu grup

• •

Değişken Her gözleme göre farklı değerler alabilen objelere, özelliklere ya da durumlara denir

Değişkenler nicel ya da nitel olabilir.

Nitel veriler

Sayısal veriler kesikli sayısal veriler (maç kazanma sayısı)

sürekli sayısal veriler (boy, kilo) Nitelik ve sayısal veriler arasındaki ilişki (boy sınıflandırması)

• •

Ölçme

objelere ya da bireylere belirli bir değere sahip oluş derecelerini belirtmek için sembolik değerler verme işlemidir.

Değişkenler hakkında bilgi edinmek için yapılır Ölçüm

Ölçme sonucunda elde edilen değer

Anlamlı rakam

0 1 2 3 4 5 6 X=2.8

5 cm = 5,0cm

X=5.0

Sayıları yuvarlama 5,387123 = 5,39 = 5,4 = 5 İstatistikte Bazı Temel kavramlar

• • • • •

Aritmetik Ortalama Aralık (range) Sapma Standart sapma Ölçümlerin dağılımı ve standart sapma ile ilişkisi

Değişken Range X= değerlerin toplamı/değer sayısı Aritmetik ortalama d 1 Sapma d 2

Standart sapma:

Bir dizi ölçümün gösterdiği değişimin en güvenilir ölçüsüdür.

• •

Dağılım fazlaysa standart sapma büyük, dağılım dar alanda ise küçüktür. Standart Sapma istatistiksel analizde büyük önemi olan bir dağılma ölçüsüdür. "Kareli Ortalama Sapma" adı da verilen bu ölçü "değişkenlerin aritmetik ortalamadan sapmalarının kareli ortalaması"dır

Standart sapma:

 •

Standart sapma / bütün elemanların ortalamadan olan farklarının karelerinin toplamanının eleman sayısına bölümünün kareköküdür. şöyleki : 10,20,30 için ortalama 20 dir. [ (10-20)nin karesi + (20-20)nin karesi + (30-20)nin karesi ] / 3(yani eleman sayisi) ve yukarıdaki ifadenin karekökü.. ortalama değer

Ortanca (medyan)

• • • • • •

50. yüzdeliğe ortanca denir. Denek sayısı tek sayılı değer ise n+1/2 Çift ise n/2 nci ile n+2/2 nci değeri /2 dir.

Veriler büyükten küçüğe doğru sıralanır ortadaki iki değerin aritmetik ortalaması alınır 5,5,6, 6 ,7,9,9, 7+1/2 5,5,6, 6 , 7 ,9,9,10 8/2=4, 8+2/4=5 6+7=13/2= 6,5

Tepe değer (mod)

• •

Dağılımda en fazla tekrarlanan değerdir. Frekansı en fazla olan sınıfın değeridir.

5,5,6, 6 ,6,7,9,9,10

Ölçme Sonucunun Gösterilmesi X = 5,8 ± 0,25 X = 58 ± 0,2 X = 58.3 ± 2 Yanlış Gösterim X = 58.3 ± 0.2

Doğru Gösterim

İstatistiksel Verileri Tasnif Etme

İstatistiksel Verileri Tasnif Etme

İstatistiksel verileri anlamlı hale getirmenin 5 ayrı yolu: 1.

2.

3.

4.

5.

Sözel ifadelerle açıklama Tablolar halinde düzenleme Grafikle gösterme Verileri değerlendirerek istatistiksel ölçüler bulma Bu yöntemlerde birkaçını birlikte uygulama

Verilerin grafikle gösterilmesi

– – –

Çizgi grafiği Çubuk grafik (Histogram) Pasta grafiği

12 10 8 6 4 2

Puan

70 80 90

5 4 3 8 7 6 70 80 90

Puan

25 20 15 10 5 0

2000 2001

Yıllar

2002 TÜRKÇE SOSYAL MATEMATİK FEN

İstatistiksel Verileri Tasnif Etme Pasta grafiği Genel lise Meslek lisesi 36% 64%

Pasta grafiği, bir bütünün parçalarını karşılaştırmada kullanılır

10% 11% 19% 60% Yerleşemeyen Açık Öğr Önlisans Lisans

Doğru Grafik Seçme AB Ülkelerinde Genel Lise Meslek Lisesi Oranları 100 50 0 35 65 İkisi de olabilir. Birincisi daha uygun

Doğru Doğru Grafik Seçme Ülkelere Göre Eğitim Yaşı

4,6 6,5 9,4 8,3

Dünya Avrupa 15'ler Doğu Avrupa Türkiye Yanlış

Doğru Grafik Seçme Yıllara göre okul yaşı 8 6 4 2 0 2,7 1975 3,2 3,8 4,8 1980 1985 1990 6,8 2000 6,8 4,8 Doğru Yanlış 2,7 3,8 3,2 1975 1980 1985 1990 2000

NORMAL DAĞILIM NEDIR –

İstatistik analiz yapılırken, dağılımın özelliği çok önemlidir.

Çünkü farklı dağılım gösteren verilere uygulanacak tanımlayıcı ve analitik istatistik yöntemleri de farklıdır.

Parametrik testlerin uygulanabilmesi için, dağılımın normal ya da normale yakın olması gerekir.

Normal dağılım, • • •

Standart sapması Frekans simetrik eğrisi çan şeklinde olan dağılımdır.

Normal dağılım simetrik olduğu için, normal dağılım gösteren değişkenlerin ortalama, ortanca ve modları eşittir

• • •

Dağılım şekli ölçütleri : Çarpıklık –1 ve +1 arasında yer alır.

Denekler negatif ortalamadan daha büyük değerlerde toplanıyorsa, basık ya da soldan basık, Küçük değerlerde toplanıyorsa pozitif basık ya da sağdan basık dağılımdan söz edilir.

Dağılım özelliğinin önemi nedir

• •

Parametrik testlerin tümünün uygulanabilmesi için gereken varsayımların başında verilerin dağılımının normal olması gelir. Normal dağılımdan gelmeyen ölçümler kullanıldığında, gerçekte olduğundan daha küçük bir p değeri ya da daha dar bir güven aralığı hesaplanır.

Bu durumda, doğru bir hipotezi reddetme olasılığı artar. Yani, iki grup arasında fark olmadığı halde fark varmış gibi sonuç elde edilebilir

• •

NORMAL DAĞILIMIN KRİTERLERİ

Dağılımın normal olup olmadığı grafik ve istatistik analiz yöntemleri ile anlaşılır. Histogram, dal ve yaprak grafiği ve normal olasılık grafiği çizilerek dağılımın normal olup olmadığı hakkında fikir edinilebilir.

Ama bu izlenimin istatistik yöntemlerle de test edilmesi gerekir.

ise Shapiro-Wilks (n<30) ve Lilliefors kolmagorw simirnov. Yada shefi testleri bu amaçla sıklıkla kullanılan testlerdir. Bu testlerde p değeri <0.05

dağılımın normal olmadığı sonucuna varılır.

(n>30)

Verilerin normal dağılmadığı durumlarda iki işlem yapılabilir : 1.

Verilere onların normal dağılıma uymalarını sağlamak.

dönüşüm uygulayarak, 2.

Varolan verilere parametrik olmayan bir test uygulamak

KESTİRİM

Bilimsel çalışmaların amacı, örneklem değerinden evren değerlerinin kestirilmesidir. Evren parametrelerinin kestirilmesi için ya güven aralığı ve sınırları ya da hipotez testleri kullanılır

Güven aralığı ve güven sınırları : Belirli bir olasılıkla, bilinmeyen evren değerini içeren değerler aralığıdır.

Sıklıkla %95, bazen de %90 ve %99 güven sınırları kullanılmaktadır.

Hipotez testleri :

• •

Farklılık olmadığının varsayıldığı hipoteze, yokluk hipotezi, hipotezi, farksızlık hipotezi, sıfır başlangıç hipotezi adı verilir ve H o ile gösterilir.

H 1 ile gösterilen alternatif hipotez verilen hipotez ise, H o adı hipotezinin tam tersidir .

P değeri ve yanılma düzeyi :

H o hipotezinin reddedilmesi hesaplanan için olasılığın %5 ya da daha az olması genellikle kabul edilen hipotezinin sınırdır; hesaplanan yani doğruluğu H o için olasılık %5 ya da daha kabul varılır küçükse, bu hipotezin edilemeyeceği yargısına

Parametrik testler : yapılmadan ve nonparametrik Istatistiksel önce, analiz verilerin kategorik (nominal, ordinal) ya da sürekli (aralıklı, oransal) olup olmadığına bakılmalıdır.

Kategorik verilerde parametrik olmayan isatistikler kullanılırken, sürekli verilerde ise parametrik istatistikler kullanılır

Testler

Parametrik Parametrik olmayan İki ortalama arasındaki farkın anlamlılık testi t. test Mann-Witney U testi Tek yönlü varyans analizi (f testi) Kruskal-Wallis varyans analizi İki eş arasındaki farkın anlamlılık testi (t test) Tekrarlı ölçümlerde varyans analizi (f testi) Wilcoxon eşleştirilmiş iki örnek testi 4 gözlü Ki-Kare testi Bağımlı örneklerde iki yüzde rasındaki farkın anlamlılk testi ( z testi) Bağımlı örneklerde ki-kare testi (McNemer testi)

Bağımlı gurup- bağımsız gurup kavramı

• •

Bağımlı gurup bağımlı olur : bir gözlem (denek) üzerinde birden çok gözlem yapıldığında guruplar Bağımsız gurup : bir gurupta bulunan gözlem (birey ) diğer gurpta bulunmuyorsa gurup bağımsız olur.

TESTLER

BAĞIMSIZ İKİ GURUBUN KARŞILAŞTIRILMASI

İki ortalama arasındaki farkın anlamlılık testi

T. Testi

Gerekli koşullar 1.Karşılaştırılacak iki gurup vardır 2. Guruplar birbirinden bağımsızdır 3. Veriler sürekli veri gurubundadır 4: evren dağılımları normal dağılım gösterir 5. Evren varyansları eşitti.

Mann-Witney U testi

• •

İki ortalama arasındaki farkın anlamlılık testinin nonparametrik karşılığıdır. Parametrik koşulları sağlanmadığı durumda kullanılır

Bağımsız ikiden çok gurubun karşılaştırılması

• • •

Tek yönlü varyans analizi İkiden çok bağımsız gurup olduğunda ve parametrik koşullar sağlandığında uygulanır.

Nanparametdrik karşılığı Kruscal-Wallis varyans analizidir.

Varyans analizinde farkın kaynaklandığı gurubu belirleme

• • • • •

Varyans analizinde guruplar arasındaki farkın hangi gurup yada guruplardan kaynaklandığını belirlemede 1. duncan yöntemi Tukey HSD yöntemi Dunnet yöntemi Student nevman-Keuls Yöntemi kullanılır

Korelasyon

Korelasyon: iki değişken arasında bağıntı olup olmadığını araştırma

Korelasyon katsayısı – r -

Regrasyon analizi: bağıntının türünü bulma

Korelasyon

Matematik Notları

Korelasyon kararı için bir-kaç veri yeter mi?

Ülke nüfusu

Korelasyon var mı?

Matematik Notları

Korelasyon var mı?

Korelasyon katsayısı r = 1 ise bağıntı var, r = 0 ise yok.

Frekans 5 10 15 20 30 40 r* 0,878 0,632 0,514 0,444 0,361 0,312

Grafik Analizi

Grafik Analizi

Basit korelasyon işlemlerinde kullanılır.

Grafik çizimi işlem sırası:

Eksenlerin belirlenmesi

Uygun ölçek seçimi

Verilerin yerleştirilmesi

Lineer grafik elde edilmesi

Eğim bulunması

Eksenlerin belirlenmesi Serbest değişken (birim)

Ölçek Seçimi Hacim Her iki ölçek uygun değil

Ölçek Seçimi Hacim Y ölçeği uygun değil

Ölçek Seçimi Hacim X ölçeği uygun değil

Ölçek Seçimi Hacim Uygun ölçek seçimi

Doğru çizimi Hacim

Doğru çizimi Hacim

Eğim Bulunması Dikkat!

Eğim= Hız/zaman = Tan



!

Zaman