Chapter 1 TR - Kenan Burak Ceylan Kişisel Blog

Download Report

Transcript Chapter 1 TR - Kenan Burak Ceylan Kişisel Blog

OLASILIK (6BMHMAU102)

Yrd. Doç. Dr. İmran GÖKER

Bölüm 1

Verilerin Tanımlanması: Grafik ve Sayısal Gösterim Bölüm 1-1

Belirsizliklerle başedebilmek

Her gün almakta olduğumuz kararlar yarım yamalak bilgilere dayanmaktadır Örnek olarak:

   Acaba mezun olduğumda iş piyasası ne alemde olacak? İşsizlik sorun olacak mı?

Yahoo hisseleri altı ay sonra şimdikinden daha mı yüksek olacak?

Hastanemize 1,5 Tesla yerine 3 Tesla MR cihazı kurmak hasta potansiyelinin artışında katkı sağlar mı?

Yrd. Doç. Dr. İmran GÖKER Bölüm 1-2

Belirsizliklerle başedebilmek

(devam)

Sayılar ve veriler karar almada yardımcı olması amacıyla kullanılmaktadır

 İstatistik verileri işlemek, özetlemek, çözümlemek ve yorumlamaya yardımcı olan bir araçtır Yrd. Doç. Dr. İmran GÖKER Bölüm 1-3

Anahtar Tanımlar

  Bir popülasyon (anakütle) tüm ögelerin toplamıdır araştırmaya söz konusu olan  N popülasyon büyüklüğünü temsil etmektedir Bir örneklem (sample) , popülasyonun (anakütlenin) gözlemlenen bir alt kümesidir  n r örneklem büyüklüğünü temsil etmektedir   Bir parametre , bir popülasyonun (anakütlenin) özgün bir özelliğidir Bir istatistik , bir örneklemin özgün bir özelliğidir. Yrd. Doç. Dr. İmran GÖKER Bölüm 1-4

Pop ülasyon (Anakütle) ve Örneklem

Pop ülasyon ( Anakütle)

a b c d ef gh i jk l m n o p q rs t u v w x y z Popülasyon (Anakütle) verileri kullanılarak hesaplanmış olan değerler parametreler olarak anılmaktadır.

Yrd. Doç. Dr. İmran GÖKER

Örneklem

b c g i n o r u y Örneklem verileri kullanılarak hesaplanmış olan değerler istatistikler olarak anılmaktadır.

Bölüm 1-5

Popülasyon (Anakütle) Örnekleri

 Türkiye Cumhuriyeti’nde kayıtlı tüm seçmenlerin isimleri  Ankara’da yaşayan ailelerin aylık gelirleri  Türk toplumundaki 45 yaş ve üstü kadınlarda osteoporoz görülme sıklığı  Üniversitemizdeki tüm öğrencilerin Genel Not Ortalaması Yrd. Doç. Dr. İmran GÖKER Bölüm 1-6

Rassal Örnekleme

Basit rassal örnekleme    popülasyonun her bir bireyinin kesin suretle şans eseri seçildiği, popülasyonun her bir bireyinin eşit şans oranıyla seçildiği, n nesnenin muhtemel her bir örneğinin eşit şans oranına sahip olduğu bir prosedürdür.

Elde edilen örnek rassal örneklem olarak anılmaktadır.

Yrd. Doç. Dr. İmran GÖKER Bölüm 1-7

Tanımlayıcı ve Çıkarımsal İstatistik

İstatistiğin iki dalı mevcuttur:  Tanımlayıcı İstatistik  verileri özetlemek ve işlemek üzere grafik ve sayısal işlemlerin uygulanması  Çıkarımsal İstatistik  Karar vermede yardımcı olmak üzere, öngörülerde bulunmak, tahmin yürütmek ve kestirim yapmada verilerin kullanılması Yrd. Doç. Dr. İmran GÖKER Bölüm 1-8

Tanımlayıcı İstatistik

 Veri toplama  Örneğin anket  Verilerin sunulması  Tablo ve grafikler  Verilerin özetlenmesi  örneğin, örnek ortalaması = 

X i n

Yrd. Doç. Dr. İmran GÖKER Bölüm 1-9

Çıkarımsal İstatistik

 Kestirim  Örneğin, örneklem ortalama ağırlığını kullanarak popülasyon ortalama ağırlığını kestirmek  Hipotez testi  Örneğin, popülasyonun ortalama ağırlığının 62 kg olduğu iddiasının test edilmesi

Çıkarım örneklem popülasyon sonuçlarına dayanarak bir hakkında sonuç çıkarma sürecidir

Yrd. Doç. Dr. İmran GÖKER Bölüm 1-10

Veri Türleri

Veriler

Kategorik Sayısal Örnekler:

  

Medeni Hal Seçmen kütüğüne kayıtlı mısınız?

Göz rengi ( Tanımlı kategoriler veya gruplar)

Yrd. Doç. Dr. İmran GÖKER

Kesikli Örnekler:

Çocuk Sayısı

Saat başına hatalı parça sayısı ( Sayılan ögeler) Sürekli Örnekler:

 

Ağırlık Voltaj ( Ölçülen özellikler)

Bölüm 1-11

Ölçekler

Ölçümler arasında fark mevcut, gerçek sıfır mevcut

Oransal Ölçek

Nicel (Kantitatif) Veriler Ölçümler arasında fark mevcut fakat gerçek sıfır mevcut değil

Aralık Ölçeği

Sıralı Kategoriler ( sıralamalar, sıra veya dereceleme)

Sıralayıcı (Ordinal) Ölçek

Nitel (Kalitatif) Veriler Kategoriler ( sıralama veya yön mevcut değil)

Sınıflayıcı (Nominal) Ölçek

Yrd. Doç. Dr. İmran GÖKER Bölüm 1-12

Verilerin Grafik olarak Sunulması

 İşlenmemiş (ham) formdaki verilerin karar vermek amacıyla kullanılması kolay değildir.

 Bazı düzenleme (organizasyon) türleri gerekmektedir  Tablo  Grafik  Kullanılacak grafik türü özetlenmiş olan değişkene bağlıdır.

Yrd. Doç. Dr. İmran GÖKER Bölüm 1-13

Verilerin Grafik olarak Sunulması

(devam)

Bu bölümde gözden geçirilen teknikler:

Kategorik Değişkenler Sayısal Değişkenler

• Frekans Dağılımı • Çubuk grafik • Dilim grafiği • Pareto diyagramı • Çizgi Grafiği • Frekans Dağılımı • Histogram ve Birikimli Frekans Poligonu •Yaprak-gövde grafiği • Dağılım grafiği Yrd. Doç. Dr. İmran GÖKER Bölüm 1-14

Kategorik Değişkenler için Tablolar ve Grafikler

Kategorik Veriler

Verileri tablolaştırmak Frekans Dağılımı Tablosu Verileri grafiklemek Çubuk Grafik Dilim Grafiği Pareto Diagram ı Yrd. Doç. Dr. İmran GÖKER Bölüm 1-15

Frekans Dağılımı Tablosu

Verileri kategoriye göre özetleme Örnek: Hastanede yatan hastalar ve birimler Hastane Birimi Hasta Sayısı

( Değişkenler kategoriktir) Yrd. Doç. Dr. İmran GÖKER Kardiya k Bakım Acil Servis Yoğun Bakım Doğum Servisi Cerrahi 1.052 2.245

340 552 4.630

Bölüm 1-16

Çubuk ve Dilim Grafikleri

 Çubuk Grafikleri ve Dilim Grafikleri sıklıkla niteliksel (kategori) veriler için kullanılmaktadır.

 Çubuğun yüksekliği veya dilimin büyüklüğü her bir kategorinin frekansını veya yüzdesini göstermektedir. Yrd. Doç. Dr. İmran GÖKER Bölüm 1-17

Çubuk Grafiği (Örnek)

Hastane Birimi Hasta Sayısı

Kardiya k Bakım 1.052 Acil Servis Yoğun Bakım Doğum Servisi 2.245

340 552 Cerrahi 4.630

5000 4000 3000 2000 1000 0

Birim Başına Hastanede Yatan Hasta

Yrd. Doç. Dr. İmran GÖKER Bölüm 1-18

Dilim Grafiği (Örnek)

Hastane Birimi

Kardiyak Bakım Acil Servis Yoğun Bakım Doğum Servisi Cerrahi

Hasta Sayısı Toplamın %’si

1.052 11,93 2.245 25,46 340 3,86 552 6,26 4.630 52,50 Birim başına Hastanede yatan hasta sayısı Kardiyak Bakım 12% Yrd. Doç. Dr. İmran GÖKER

( Yüzde oranları en yakın yüzdelere yuvarlatılmıştır)

Cerrahi 53% Acil Servis 25% Yoğun Bakım 4% Doğum Servisi 6% Bölüm 1-19

Pareto Diagram ı

 Kategorik verileri betimleme üzere kullanılmaktadır  Kategorilerin sıklık değerlerinin büyükten küçüğe sıralanmış olduğu bir çubuk grafiğidir  Bir kümülatif poligon genellikle aynı grafikte gösterilmektedir  “ Hayati önemi olan azınlığı ” “ Önemsiz çoğunluktan ” ayırt etmede kullanılmaktadır Yrd. Doç. Dr. İmran GÖKER Bölüm 1-20

Pareto Diagramı (Örnek)

Örnek: Hatanın nedeni için 400 arızalı (hatalı) öge incelenmektedir:

İmalat Hatası kaynağı

Kötü Lehim Yetersiz Hizalama Eksik Parça Boyama kusuru Elektrik kısa devresi Çatlak kasa

Toplam Hata Sayısı

34 223 25 78 19 21

400

Yrd. Doç. Dr. İmran GÖKER Bölüm 1-21

Pareto Diagramı (Örnek)

(devam)

Adım 1: Adım 2: Hata nedenini büyükten küçüğe sıralayınız Her bir kategoride %’yi belirleyiniz

İmalat Hatası kaynağı

Yetersiz Hizalama Boyama kusuru Kötü Lehim Eksik Parça Çatlak kasa Elektrik kısa devresi

Toplam Hata Sayısı

223 78 34 25 21 19

400 Toplam hatanın %’si

55.75

19.50

8.50

6.25

5.25

4.75

%100

Yrd. Doç. Dr. İmran GÖKER Bölüm 1-22

Pareto Diagramı (Örnek)

(devam)

Adım 3: Sonuçları grafik olarak gösteriniz

Pareto Diagramı: İmalat hatalarının nedeni 60% 50% 40% 30% 20% 10% 0% Elektrik Kısa Devre 100% 90% 20% 10% 0% 80% 70% 60% 50% 40% 30% Yetersiz Hizalama Boyama Kusuru Kötü Lehim Eksik Parça Çatlak Kasa

Yrd. Doç. Dr. İmran GÖKER Bölüm 1-23

Zaman Serisi Verileri için Grafikler

 Bir çizgi grafiği ( zaman serileri grafiği) bir değişkenin zamana göre değişimini göstermek üzere kullanılmaktadır  Zaman yatay eksende ölçülmektedir  Söz konusu değişken dikey eksende ölçülmektedir Yrd. Doç. Dr. İmran GÖKER Bölüm 1-24

Yrd. Doç. Dr. İmran GÖKER

Çizgi Grafiği (Örnek)

350 300 250 200 150 100 50 0

Yıllık Dergi Abonelikleri

Bölüm 1-25

Sayısal Değişkenleri Tanımlamada Grafiklerin Kullanılması

Sayısal Veriler Frekans Dağılımları ve Kümülatif Dağılımlar Histogram

Yrd. Doç. Dr. İmran GÖKER

Yaprak Grafiği Birikimli Frekans Poligonu (Ogive) Gövde

Bölüm 1-26

Frekans Dağılımları

Frekans Dağılımı nedir?

 Bir Frekans Dağılımı bir liste veya bir tablodur …  sınıf gruplamalarını ( verilerin içerisinde yer aldığı kategoriler veya aralıklar) içermektedir...

 Bu kategorilere karşılık gelen ve verilerin her bir sınıf veya kategori içerisinde yer aldığı frekansları içermektedir Yrd. Doç. Dr. İmran GÖKER Bölüm 1-27

Frekans Dağılımları Neden Kullanılmaktadır?

 Bir frekans dağılımı bir veri özetleme yoludur  Dağılım ham veriye daha faydalı bir şekilde bir araya getirmektedir...  ve verinin görsel olarak hızla yorumlanmasına olanak tanımaktadır.

Yrd. Doç. Dr. İmran GÖKER Bölüm 1-28

Sınıf Aralıkları ve Sınıf Sınırları

  Her bir sınıf gruplaması aynı genişliğe sahiptir Her bir aralığın genişliğini belirleyiniz    En azından 5 fakat 15-20’den daha fazla sayıda olmayan aralıklar kullanınız Aralıklar asla birbirine geçmemeli Arzu edilen uç değerleri elde etmek için aralık genişliğini yuvarlatınız Yrd. Doç. Dr. İmran GÖKER Bölüm 1-29

Frekans Dağılımı (Örnek)

Örnek: Bir yalıtım malzemesi imalatçısı kış mevsimine ait 20 gün seçmekte ve günlük en yüksek sıcaklıklarını kaydetmektedir.

24, 35, 17, 21, 24, 37, 26, 46, 58, 30, 32, 13, 12, 38, 41, 43, 44, 27, 53, 27

Yrd. Doç. Dr. İmran GÖKER Bölüm 1-30

Frekans Dağılımı (Örnek)

(devam)

   Han veriyi küçükten büyüğe doğru sıralayınız:

12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58

Açıklığı (Range) bulunuz:

58 - 12 = 46

Sınıf sayısını seçiniz:

5 ( genellikle 5 ile 15 arası)

   Aralık genişliğini hesaplayınız:

10 (46/5 daha sonra yuvarlayınız)

Aralık sınırlarını belirleyiniz:

10 fakat 20’den daha düşük, 20 fakat 30’dan daha düşük, . . . , 60 fakat 70’den daha düşük

Gözlemleri sayınız ve sınıflara atayınız Yrd. Doç. Dr. İmran GÖKER Bölüm 1-31

Frekans Dağılımı (Örnek)

(devam)

Sıralı dizi halindeki veriler: 12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58 Aralık 10 ile 20 20 ile 30 30 ile 40 40 ile 50 50 ile 60 Toplam

Yrd. Doç. Dr. İmran GÖKER

Göreceli Frekans Yüzde 3 0,15 15 6 0,30 30 5 0,25 25 4 0,20 20 2 0,10 10 20 1,00 100

Bölüm 1-32

Histogram

    Bir frekans dağılımındaki verinin grafiği

histogram olarak

anılmaktadır

Aralık uç değerleri

gösterilmektedir yatay eksende Dikey eksen hem

frekans, hem frekans hem de yüzde

değerini

göreceli

göstermektedir.

Uygun yüksekliklerdeki çubuklar her bir sınıf içindeki gözlem sayısını temsil etmek üzere kullanılmaktadır.

Yrd. Doç. Dr. İmran GÖKER Bölüm 1-33

Histogram (Örnek)

Aralık 10 ile 20 20 ile 30 30 ile 40 40 ile 50 50 ile 60

Yrd. Doç. Dr. İmran GÖKER

Frekans 3 6 5 4 2

( Çubuklar arasındaki boşluk yok)

10 5

Histogram: En Yüksek Günlük Sıcaklık

6 5 4 3 2 0 0

0 0 10 20 30 40 50 60

0 10 20 30 40 50 60 70 Derece cinsinden sıcaklık Bölüm 1-34

Excel’de Histogram

1

Data Sekmesini seçiniz

2

Data Analysis menüsünü tıklayınız Yrd. Doç. Dr. İmran GÖKER Bölüm 1-35

Excel’de Histogram

(devam)

3

Histogram ’ı seçiniz (

4

Input data range and bin range (bin range her bir sınıf gruplaması için en üst uç değeri de kapsayan bir hücre aralığıdır) Select Chart Output ’u seçiniz ve “OK” yi tıklayınız Yrd. Doç. Dr. İmran GÖKER Bölüm 1-36

Verileri aralıklar halinde gruplarken sorulması gereken sorular

 1.

Aralık hangi genişlikte olmalıdır?

( Kaç adet sınıf kullanılmalıdır?)  2.

   Aralıkların uç değerleri nasıl belirlenmelidir?

Kullanıcının değerlendirmesine bağlı olarak genellikle deneme ve yanılma yöntemiyle cevaplandırılır Amaç ne “düzensiz” ne de “yığınlı” bir dağılım oluşturmamaktır.

Amaç verilerdeki varyasyon örüntüsünü uygun bir şekilde göstermektir. Yrd. Doç. Dr. İmran GÖKER Bölüm 1-37

Kaç adet aralık olmalı?

 

Pek çok (Dar sınıf aralığı

)  Boş sınıflardan gelen boşluklarla çok düzensiz bir dağılım ile sonuçlanmaktadır  Sınıflar arasında frekansın nasıl değiştiğine dair yetersiz bir gösterge verebilir

Çok az (Geniş sınıf aralığı

)   varyasyonu çok fazla sıkıştırabilir ve yığılmış bir dağılımla sonuçlanabilmektedir.

önemli varyasyon örüntülerini gizleyebilir.

Yrd. Doç. Dr. İmran GÖKER 1.5

1 0.5

0 3.5

3 2.5

2

Sıcaklık

12 10 8 6 4 2 0 0 30 60 Daha Fazla

Sıcaklık

(X eksen üst sınıf uç değerleridir) Bölüm 1-38

Birikimli (Kümülatif) Frekans Dağılımı

Sıralanmış dizi halindeki veriler: 12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58 Sınıf 10 ile 20 20 ile 30 30 ile 40 40 ile 50 50 ile 60 Toplam Frekans Yüzde Birikimli (Kümülatif) Frekans Birikimli (Kümülatif) Yüzde 3 15 3 15 6 30 9 45 5 25 14 70 4 20 18 90 2 10 20 100 20 100

Yrd. Doç. Dr. İmran GÖKER Bölüm 1-39

Birikimli (Kümülatif) Frekans Grafiği (Ogive)

Aral ık 10 ’dan düşük 10 ile 20 20 ile 30 30 ile 40 40 ile 50 50 ile 60

Yrd. Doç. Dr. İmran GÖKER

Üst Aralık Uç Değeri Birikimli (Kümülatif) Yüzde 10 0 20 15 30 45 40 70 50 90 60 100

100 80 60 40 20 0 10

Birikimli Frekans Poligonu: Günlük en yüksek sıcaklık

20 30 40 50 Aralık uç değerleri 60 Bölüm 1-40

Gövde ve Yaprak Tablosu

 Bir veri kümesinde dağılımın ayrıntılarını görebilmenin basit bir yoludur YÖNTEM: Sıralanmış veri serilerini en baştaki basamaklarına (

gövde

) ve bunu izleyen diğer basamaklarına (

yaprak

) Yrd. Doç. Dr. İmran GÖKER Bölüm 1-41

Örnek

Sıralanmış dizi halindeki veriler :

21, 24, 24, 26, 27, 27, 30, 32, 38, 41    Burada gövde birimi için 10’lar basamağını kullanınız: Gövde Yaprak 21 ’in gösterilişi 38 ’in gösterilişi 2 1 3 8 Yrd. Doç. Dr. İmran GÖKER Bölüm 1-42

Örnek

(devam)

Sıralanmış dizi halindeki veriler :

21, 24, 24, 26, 27, 27, 30, 32, 38, 41  Tamamlanmış gövde-yaprak grafiği: Gövde Yapraklar 2 1 4 4 6 7 7 3 4 0 2 8 1 Yrd. Doç. Dr. İmran GÖKER Bölüm 1-43

Diğer gövde birimlerinin kullanılması

 100’ler basamağını gövde olarak kullanırken:  Yaprakları oluştururken 10’lar basamağını yuvarlatınız  613 dönüşeceği sayı  776 dönüşeceği sayı  . . .

 1224 dönüşeceği sayı Stem Leaf 6 1 7 8 12 2 Yrd. Doç. Dr. İmran GÖKER Bölüm 1-44

Diğer gövde birimlerinin kullanılması

(devam)

  : 100’ler basamağını gövde olarak kullanırken:  Tamamlanmış gövde-yaprak tablosu: Veriler: 613, 632, 658, 717, 722, 750, 776, 827, 841, 859, 863, 891, 894, 906, 928, 933, 955, 982, 1034, 1047,1056, 1140, 1169, 1224 Gövde Yapraklar 6 1 3 6 7 2 2 5 8 8 3 4 6 6 9 9 9 1 3 3 6 8 10 3 5 6 11 4 7 12 2 Yrd. Doç. Dr. İmran GÖKER Bölüm 1-45

Değişkenler arası ilişkiler

  Şu ana dek bahsi geçen grafikler sadece tek bir değişkenin dahil olduğu durumlar içindi İki değişken’in mevcut olduğu durumlarda başka teknikler kullanılmaktadır:

Kategorik (Nitel) Değişkenler Sayısal (Nitel) Değişkenler

Çapraz Tablolar Dağılım Grafiği Yrd. Doç. Dr. İmran GÖKER Bölüm 1-46

Serpilme (Dağılma) Grafikleri

 Serpilme (Dağılma)Grafikleri iki sayısal değişkenden alınmış olan ikili gözlemler için kullanılmaktadır.

 Serpilme Grafiği:  Bir değişken dikey eksende ölçülmektedir ve diğer değişken yatay eksende ölçülmektedir Yrd. Doç. Dr. İmran GÖKER Bölüm 1-47

Serpilme (Dağılma) Örnek

Günlük Hacim 23 26 29 33 38 42 50 55 60 Günlük Maliyet 125 140 146 160 167 170 188 195 200

250 200 150 100 50 0

0

Günlük maliyet-Üretim Hacmi

20 40

Günlük Hacim

60 80 Yrd. Doç. Dr. İmran GÖKER Bölüm 1-48

Excel’de Serpilme (Dağılma) Grafikleri

1

Insert sekmesini seçiniz

2

Charts bölümünden Scatter ’ı seçiniz

3

Seçilip başlatıldığında, veri açıklığını (range), istenen göstergeyi (legend) ve dağılım diyagramını tamamlamak üzere istenen yönü (destination) seçiniz Yrd. Doç. Dr. İmran GÖKER Bölüm 1-49

Çapraz Tablolar

 Çapraz tablolar (veya kontenjans kategorik veya ordinal tabloları) iki listelemektedir.

değişken için her bir değer kombinasyonu için gözlem sayısını  Eğer ilk değişken (satırlar) için

r

ikinci değişken için tablo

r

x

c c

kategori ve kategori mevcut ise, çapraz tablosu olarak anılmaktadır.

Yrd. Doç. Dr. İmran GÖKER Bölüm 1-50

Çapraz Tablolar Örnek

 4 x 3 Çapraz Tablo (Yatırımcının Yatırım Tercihleri için (Değerler 1000 $ olarak sunulmuştur)

Yatırım Kategorisi

Hisse Bono CD Tasarruf

Toplam Yatırımcı A Yatırımcı B

46,5 16,0

110,0

55

Yatırımcı C Toplam

27,5 32,0 44 19,0

95

15,5 20 13,5

49

28 7,0

51 147 67,0 129 324

Yrd. Doç. Dr. İmran GÖKER Bölüm 1-51

Çok Değişkenli Kategorik Verilerin Grafikle Gösterimi

(devam)

 Yan yana Çubuk Grafik

Yatrımcıların Karşılaştırılması

Tasarruf CD Bono Hisse 0 10 Yatırımcı C 20 30 Yatırımcı B 40 50 Yatırımcı A Yrd. Doç. Dr. İmran GÖKER 60 Bölüm 1-52

Yan yana Çubuk Grafik (Örnek)

 Üç satış bölgesi için yıl içinde üçer aylık dönemlerdeki satışlar

Doğu Batı Kuzey Yılın İlk çeyreği

20.4

30.6

45.9

Yılın İkinci Çeyreği

27.4

38.6

46.9

Yılın Üçüncü Çeyreği

59 34.6

45

Yılın Dördüncü Çeyreği

20.4

31.6

43.9

Doğu Batı Kuzey

Yrd. Doç. Dr. İmran GÖKER Bölüm 1-53

Veri Sunum Hataları

Etkin veri sunumu amaçları :  Esas bilgiyi göstermek üzere verilerin sunulması  Karmaşık fikirlerin net ve kesin olarak iletilmesi  Mesajın yanlış iletebilecek çarpıklıktan kaçınılmalı Yrd. Doç. Dr. İmran GÖKER Bölüm 1-54

Veri Sunum Hataları

(devam)

    Eşit olmayan histogram aralık genişliği Dikey eksenin sıkıştırılması veya çarpıtılması Dikey eksende sıfır noktasının sağlanmaması Gruplar arası verileri karşılaştırırken bir nispi tabanın sağlanmasında hata yapılması.

Yrd. Doç. Dr. İmran GÖKER Bölüm 1-55

Verinin Sayısal olarak Betimlenmesi

Verinin Sayısal olarak Betimlenmesi Merkezi Eğilim Aritmetik Ortalama Ortanca (Medyan) En sık Değer (Mod) Varyasyon Açıklık Dördebölenler Açıklığı Varyans Standart Sapma Varyasyon katsayısı Yrd. Doç. Dr. İmran GÖKER Bölüm 1-56

Ortalama x  i n   1 x i n Aritmetik ortalama Yrd. Doç. Dr. İmran GÖKER

Merkezi Eğilim Ölçütleri

Özet Merkezi Eğilim Ortanca (Medyan) En sık Değer (Mod) Sıralanmış değerlerin orta noktası En sık gözlenen değer Bölüm 1-57

Aritmetik Ortalama

 Aritmetik ortalama (ortalama) en yaygın merkezi eğilim ölçütüdür  N değerli bir anakütle (popülasyon) için:  μ  i N   1 x i  x 1  x 2    x N Anakütle (Pop ülasyon) değerleri N N Anakütle n büyüklüğündeki bir örneklem için: n i   1 x x x x  i  x 1  2    n n n (Pop ülasyon) büyüklüğü Gözlemlenen değerler Örneklem büyüklüğü Yrd. Doç. Dr. İmran GÖKER Bölüm 1-58

Aritmetik Ortalama

(devam)

   En yaygın merkezi eğilim ölçütü Ortalama = Değerlerin toplamının değer sayısına bölünmesi Ekstrem değerler tarafından etkilenmiştir (aykırı değerler) 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 Ortalama = 3 1  2  3  4  5 5  15 5  3 Yrd. Doç. Dr. İmran GÖKER Ortalama = 4 1  2  3  4  10 5  20 5  4 Bölüm 1-59

Ortanca (Medyan)

 Sıralı bir listede, ortanca (medyan) “ortadaki” sayıdır (%50 altında, %50 üstünde) 0 1 2 3 4 5 6 7 8 9 10 Medyan = 3 0 1 2 3 4 5 6 7 8 9 10 Medyan = 3  Ekstrem değerlerden etkilenmez Yrd. Doç. Dr. İmran GÖKER Bölüm 1-60

Ortancanın (Medyan) Bulunması

 Medyanın konumu:   Eğer değerlerin sayısı tek ise, medyan ortadaki sayıdır.

Eğer değerlerin sayısı çift ise, medyan ortadaki iki sayının ortalamasıdır  n  1 ‘nin medyanın

değeri

o lmadığına sadece 2 sıralanmış veriler arasında medyanın

pozisyonu

o lduğuna dikkat ediniz Yrd. Doç. Dr. İmran GÖKER Bölüm 1-61

Ortancanın (Medyan) Bulunması

 Sınıflandırılmış Verilerde Ortancanın Hesabı:  Sınıflar yazılır.

  Birikimli Frekans (

BF i

) bulunur.  Birikimli Frekans her sınıfın frekansının bir önceki frekanslarla toplamıdır.  Bu toplam her sınıfın karşısına yazılır.

Sınıflandırılmış verilerde ortanca formülü:

Or tan ca

     

n

2 

BF i f

   

.C

L

AS i

ÜS i

 1 2   L: Ortancanın içinde bulunduğu sınıfın ara değeri. Ortancanın bulunduğu sınıfın alt değeri (ASi ) ile bir önceki sınıfın üst değerin (Üs i-1 ) ortalamasıdır BF i : Ortancanın içinde bulunduğu sınıfın birikimli frekansı f: Ortancanın içinde bulunduğu sınıfın frekansı.

n: Denek sayısı Yrd. Doç. Dr. İmran GÖKER Bölüm 1-62

Ortancanın (Medyan) Bulunması

Üs i-1 As i  Sınıflandırılmış Verilerde Ortancanın Hesabı:

Yaş (Yıl)

15-19 20-24 25-29 30-34 35-39 40-44 45-49 Toplam

f

50 75 100 150 90 70 45 580

BF i

50 125 225 (375) 465 535 580

L

  

AS i

ÜS i

 1 2    2 

Or tan ca

      

n

2 

BF i f

    

.C

Or tan ca

       580  225

i

2 150     

.

5  Yrd. Doç. Dr. İmran GÖKER Bölüm 1-63

En sık Değer (Mod)

      Bir merkezi eğilim ölçütüdür En sık rastlanan değerdir Ekstrem değerlerden etkilenmez Hem kategorik hem de sayısal veriler için kullanılmaktadır En sık Değer (Mod) mevcut olmayabilir Birkaç adet mod mevcut olabilir 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Mod = 9 Yrd. Doç. Dr. İmran GÖKER 0 1 2 3 4 5 6 Mod mevcut değil Bölüm 1-64

Alıştırma Örneği

 Sahilden tepeye kadar beş ev mevcut $2,000 K Ev fiyatları: $2,000,000 500,000 300,000 100,000 100,000 $300 K $500 K $100 K $100 K Yrd. Doç. Dr. İmran GÖKER Bölüm 1-65

Alıştırma Örneği : Özet İstatistikler

Ev Fiyatları: $2,000,000 500,000 300,000 100,000 100,000 Toplam 3,000,000 

Ortalama:

($3,000,000/5) =

$600,000

Medyan:

sıralanmış verilerin en ortasındaki değer =

$300,000

Mod:

en sık sık rastlanan değer =

$100,000

Yrd. Doç. Dr. İmran GÖKER Bölüm 1-66

Hangi konum ölçütü “en iyisidir”?

 Ekstrem (aykırı) değerler mevcut olması haricinde genellikle

ortalama

kullanılmaktadır. . .

Ortalama

s ıklıkla kullanılmaktadır çünkü medyan ekstrem değerlere duyarlı değildir.

 Örnek: Medyan ev fiyatları bir bölge için bildirilebilir aykırı değerlere az duyarlıdır Yrd. Doç. Dr. İmran GÖKER Bölüm 1-67

Dağılımın Şekli

  Verilerin nasıl dağıldığını göstermektedir Şekil ölçütleri  Simetri k veya eğimli Sola eğimli Ortalama < Medyan Simetrik Ortalama = Medyan Sağa-eğimli Medyan < Ortalama Yrd. Doç. Dr. İmran GÖKER Bölüm 1-68

Geometrik Ortalama

 Geometrik ortalama  Bir değişkenin zamana göre değişim oranını ölçmek üzere kullanılmaktadır x g  n (x 1  x 2    x n )  (x 1  x 2    x n ) 1/n

log x

g

 1

n

i n

  1

log x

i

Yrd. Doç. Dr. İmran GÖKER Bölüm 1-69

Örnek

Bir köyün son 5 yıllık nüfusları 325, 400, 545, 690 ve 850 ise, beş yıllık ortalama nedir?

1. Yol:

x g

 5  2. Yol:

log x g

 1 5

i

5   1

log x i

 1 5 

log

325 

log

400 

...log

850 

x g

anti log

  1 5 

log

325 

log

400 

...log

850     Yrd. Doç. Dr. İmran GÖKER Bölüm 1-70

Değişkenlik Ölçütleri

Varyasyon Açıklık (Range) Dördebölenler açıklığı (Interquartile Range) Varyans  Varyasyon ölçütleri veri değerlerinin yayılımı veya varyasyonu üzerine bilgi vermektedir.

Standart Sapma Varyasyon Katsayısı Aynı merkez, farklı varyasyon Yrd. Doç. Dr. İmran GÖKER Bölüm 1-71

Açıklık (Range)

  En basit varyasyon ölçütü En büyük ve en küçük gözlem arasındaki fark: Açıklık = X en büyük – X en küçük Örnek: Yrd. Doç. Dr. İmran GÖKER 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Açıklık = 14 - 1 = 13 Bölüm 1-72

Açıklığın Dezavantajları

 Verinin dağıtılma yolunu ihmal etmektedir 7 8 9 10 11 12 Açıklık = 12 - 7 = 5 7 8 9 10 11 12 Açıklık = 12 - 7 = 5  Aykırı değerlere karşı hassastır 1 ,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4, 5 Açıklık = 5 - 1 = 4 1 ,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4, 120 Açıklık = 120 - 1 = 119 Yrd. Doç. Dr. İmran GÖKER Bölüm 1-73

Dördebölenler Açıklığı

Dördebölenler açıklığı

kullanılarak bazı aykırı değer problemleri giderilebilmektedir  Yüksek ve düşük değerli gözlemler giderilebilmektedir ve verilerin %50’sinin ortasının açıklığı hesaplanabilmektedir  Dördebölenler açıklığı = 3’üncü dördebölen – 1’inci dördebölen: IQR = Q 3 – Q 1 Yrd. Doç. Dr. İmran GÖKER Bölüm 1-74

Dördebölenler Açıklığı

Kutu Grafiği

Örnek: X minimum Q1 Medyan (Q2) Q3 25% 25% 25% 25% X maksimum 12 30 45 57 70 Dördebölenler açıklığı = 57 – 30 = 27 Yrd. Doç. Dr. İmran GÖKER Bölüm 1-75

Dördebölenler (Kartiller)

 Dördebölenler (Kartiller) sıralanmış verileri segment başına eşit değer sayısı olacak şekilde 4 segmente bölmektedir 25% 25% 25% 25% Q1 Q2 Q3    İlk dördebölen (kartil) Q gözlem değeridir 1 , gözlemlerin %25’inin daha düşük değerde olduğu ve %75’inin daha yüksek değerde olduğu Q 2 medyan ile aynıdır (%50 daha küçük, %50 daha büyük) Üçüncü dördebölende (kartil) Q 3 daha büyüktür gözlemlerin sadece %25’i Yrd. Doç. Dr. İmran GÖKER Bölüm 1-76

Dördebölen (Kartil) Formülleri

Bir dördebölen (kartil) sıralanmış veriler içinde uygun pozisyondaki değeri belirleyerek aşağıdaki formüllerle bulunur İlk dördebölen (kartil) pozisyonu: Q 1 = 0,25(n+1) İkinci dördebölen (kartil) pozisyonu : (medyan pozisyonu) Q 2 = 0,50(n+1) Üçüncü dördebölen ( k artil) pozisyonu: Q 3 = 0,75(n+1) n gözlemlenmiş değerlerin sayısıdır.

Yrd. Doç. Dr. İmran GÖKER Bölüm 1-77

Kartiller

 Örnek: İlk dördeböleni (kartil) bulunuz Örnek sıralanmış veriler: 11 12 13 16 16 17 18 21 22 (n = 9) Q 1 = sıralı verilerin 0,25( 9+1) = 2,5 ’uncu pozisyonunda o halde 2’inci ve 3’üncü değerler arasındaki yarım yolu kullanınız [(13-12)/2], o da Q 1 = 12,5

Q değeri

1         Yrd. Doç. Dr. İmran GÖKER Bölüm 1-78

Kartiller

 Örnek: İlk dördeböleni (kartil) bulunuz Örnek sıralanmış veriler: 11 12 13 16 16 17 18 21 22 (n = 9) Q 3 = sıralı verilerin 0,75( 9+1) = 7,5 ’uncu pozisyonunda o halde 7’inci ve 8’inci değerler arasındaki yarım yolu [(21 18)/2] kullanınız, o da Q 3 = 19,5

Q değeri

3         Yrd. Doç. Dr. İmran GÖKER Bölüm 1-79

Anakütle (Popülasyon) Varyansı

 Ortalamadan olan sapmaların karelerinin ortalamasıdır  Anakütle (Popülasyon) varyansı:

σ

2  i N   1

(x

i 

μ)

2

N

μ = pop ülasyon ortalaması N = pop ülasyon büyüklüğü x i = x değişkeninin i’inci değeri Yrd. Doç. Dr. İmran GÖKER Bölüm 1-80

Örneklem Varyansı

 Değerlerin ortalamadan olan sapmalarının karelerini ortalaması (yaklaşık olarak)  Örneklem varyansı:

s

2  i n   1

(x

i 

x )

2

n 1

X = aritmetik ortalama n = örneklem büyüklüğü X i = X değişkeninin i’inci değeri Yrd. Doç. Dr. İmran GÖKER Bölüm 1-81

Anakütle (Popülasyon) Standart Sapması

   En yaygın kullanılan varyasyon ölçütüdür.

Ortalamaya göre varyasyonu göstermektedir.

Orijinal verilerle aynı birime sahiptir  Anakütle (Popülasyon) standart sapması: σ  i N   1 (x i  μ) 2 N Yrd. Doç. Dr. İmran GÖKER Bölüm 1-82

Örneklem Standart Sapması

   En yaygın kullanılan varyasyon ölçütüdür.

Ortalamaya göre varyasyonu göstermektedir.

Orijinal verilerle aynı birime sahiptir  Örneklem standart sapması: S  i n   1 (x i  x ) 2 n 1 Yrd. Doç. Dr. İmran GÖKER Bölüm 1-83

Hesaplama Örneği: Örneklem Standart Sapması

Örnek Veriler (x s  i ): 10 12 14 15 17 18 18 24 n = 8 Ortalama = x = 16 (10  X ) 2  (12  x ) 2  n (14   1 x ) 2    (24  x ) 2  (10  16) 2  (12  16) 2  (14 8  1  16) 2    (24  16) 2  126 7 Yrd. Doç. Dr. İmran GÖKER  4.2426

Ortalama çevresindeki “ortalama” serpilmenin bir ölçütü Bölüm 1-84

Varyasyonun Ölçümü

Küçük standart sapma Büyük standart sapma Yrd. Doç. Dr. İmran GÖKER Bölüm 1-85

Standart Sapmaların karşılaştırılması

Veri A 11 12 13 14 15 16 17 18 19 20 21 Ortalama = 15.5

s = 3.338

Veri B 11 12 13 14 15 16 17 18 19 20 21 Ortalama = 15.5

s = 0.926

Veri C 11 12 13 14 15 16 17 18 19 20 21 Ortalama = 15.5

s = 4.570

Yrd. Doç. Dr. İmran GÖKER Bölüm 1-86

Varyans ve Standar t Sapmanın Avantajları

 Veri setindeki her bir değer hesaplamalarda kullanılmaktadır  Ortalamadan daha uzaktaki değerlere ekstra ağırlık verilmektedir ( çünkü ortalamadan sapmaların karesi alınmaktadır) Yrd. Doç. Dr. İmran GÖKER Bölüm 1-87

Varyasyon Katsayısı

 Nispi varyasyonu ölçmektedir.   Daima yüzde (%) cinsindendir.

Ortalamaya göreceli varyasyonu göstermektedir.

 Farklı birimlerdeki iki veya daha fazla kümeyi karşılaştırmak üzere kullanılabilmektedir CV    s x    100% Yrd. Doç. Dr. İmran GÖKER Bölüm 1-88

Varyasyon Katsayısını Karşılaştırmak

  Hisse A:  Geçen yılın ortalama fiyatı = $50  Standart sapma = $5 CV A     Hisse B: s x     100%  $5 $50  100%  10%   Geçen yılın ortalama fiyatı = $100 Standart sapma = $5 CV B     s x     100%  $5 $100  100%  5% Her iki hisse de aynı standart sapmaya sahiptir fakat Hisse B fiyatına nispeten daha az değişkendir Yrd. Doç. Dr. İmran GÖKER Bölüm 1-89

Microsoft Excel ’i kullanmak

 Betimleyici İstatistik Microsoft ® Excel ’den elde edilebilmektedir  Se çiniz: data / data analysis / descriptive statistics  Diyalog kutusuna detayları giriniz Yrd. Doç. Dr. İmran GÖKER Bölüm 1-90

Excel ’i kullanmak

 S eçiniz data / data analysis / descriptive statistics Yrd. Doç. Dr. İmran GÖKER Bölüm 1-91

 Girdi açıklığı ( input range) ayrıntılarını giriniz  Özet istatistikler (summary statistics) kutucuğunu işaretleyiniz  OK ’i tıklayınız Yrd. Doç. Dr. İmran GÖKER

Excel ’i kullanmak

Bölüm 1-92

Excel çıkıtısı

Ev fiyatları verisini kullanarak Microsoft Excel betimsel istatistik çıktısı elde etmek: Ev fiyatları: $2,000,000 500,000 300,000 100,000 100,000 Yrd. Doç. Dr. İmran GÖKER Bölüm 1-93

Chebychev Teoremi

 μ ortalaması ve σ standart sapmasına sahip olan her hangi bir popülasyon ve k > 1 için,

[ μ + kσ]

aralığı içine düşen gözlemlerin yüzdesi

en düşük olarak

100[1

(1/k

2

)]%

Yrd. Doç. Dr. İmran GÖKER Bölüm 1-94

Chebychev Teoremi

(devam)

Verilerin nasıl dağıldığına bakılmaksızın değerlerin en azından (1 - 1/k 2 ) ’si ortalamanın k standar t sapmaları içine düşmektedir (k > 1 için)  Örnekler: En düşük içerisinde (1 - 1/1.5

2 ) = %55.6

……... k = 1,5 ( μ ± 1,5σ) (1 - 1/2 2 ) = %75 …........... k = 2 ( μ ± 2σ) (1 - 1/3 2 ) = %89 …….…... k = 3 ( μ ± 3σ) Yrd. Doç. Dr. İmran GÖKER Bölüm 1-95

Ampirik Kural (Parmak Hesabı Kuralı)

 Eğer veri dağılımı çan eğrisi şeklindeyse, o halde aralıklar aşağıdaki gibidir:  μ  1 σ Anakütle (popülasyon) veya örneklemdeki değerlerin yaklaşık %68 ’sini içermektedir 68% μ μ  1 σ Yrd. Doç. Dr. İmran GÖKER Bölüm 1-96

Ampirik Kural (Parmak Hesabı Kuralı)

  μ  2 σ Anakütle (popülasyon) veya örneklemdeki değerlerin yaklaşık %95 ’ini içermektedir μ  3 σ değerlerin yaklaşık hemen hemen hepsini (yaklaşık Anakütle (popülasyon) veya örnekteki %99.7

’sini) Yrd. Doç. Dr. İmran GÖKER 95% μ  2 σ 99.7% μ  3 σ Bölüm 1-97

Tartılı Ortalama

 Bir veri kümesinin tartılı ortalaması gibidir x  i n   1 w i x i n  w 1 x 1  w 2 x 2    w n x n n  w i i’inci gözlemin ağırlığıdır ve n   w i  Şayet veriler zaten i’inci sınıfta w i gruplandırılmışsa kullanılmaktadır değeri ile n sınıfa Yrd. Doç. Dr. İmran GÖKER Bölüm 1-98

Gruplandırılmış veriler için yaklaştırma

Verilerin f 1 , f 2 , . . . f K frekansları ve m 1 , m 2 , . . ., m K orta noktaları ile K sınıf içinde sınıflandırıldığını varsayınız  n gözlemlik bir örnek için, ortalama aşağıdaki gibidir x  i K   1 f i m i n n  i K   1 f i Yrd. Doç. Dr. İmran GÖKER Bölüm 1-99

Gruplandırılmış veriler için yaklaştırma

Verilerin f 1 , f 2 , . . . f K frekansları ve m 1 , m 2 , . . ., m K orta noktaları ile K sınıf içinde sınıflandırıldığını varsayınız  n gözlemlik bir örnek için, varyans aşağıdaki gibidir s 2  i K   1 f i (m i n  1  x ) 2 Yrd. Doç. Dr. İmran GÖKER Bölüm 1-100

Örnek Ortak Varyansı (Kovaryansı)

 Kovaryans ölçmektedir

iki değişken

arasındaki doğrusal ilişkinin büyüklüğünü  Anakütle (Popülasyon) kovaryansı: Cov (x , y)   xy  i N   1 (x i   x )(y i   y ) N  Örneklem kovaryansı:  Cov (x , y)  s xy  i n   1 (x i  x )(y i  y ) n  1 Sadece ilişkilerin büyüklüğü ile ilgilidir Hiçbir nedensel etkiyi belirtmez  Yrd. Doç. Dr. İmran GÖKER Bölüm 1-101

Ortak Varyansın (Kovaryans) yorumlanması

 İki değişken arasındaki

Ortak Varyans (Kovaryans)

: Cov(x,y) > 0 x ve y aynı doğrultuda olma eğilimi göstermektedir Cov(x,y) < 0 x ve y zıt doğrultuda olma eğilimi göstermektedir Cov(x,y) = 0 x ve y ba ğımsızdır Yrd. Doç. Dr. İmran GÖKER Bölüm 1-102

Korelasyon Katsayısı

 İki değişken arasındaki doğrusal ilişkinin büyüklüğünü ölçmektedir  Anakütle (Popülasyon) korelasyon katsayısı: ρ  Cov (x , y) σ X σ Y  Örneklem korelasyon katsayısı: r  Cov (x , y) s X s Y Yrd. Doç. Dr. İmran GÖKER Bölüm 1-103

Korelasyon Katsayısı r’nin Özellikleri

     Birimsizdir 1 ile 1 arasında yer almaktadır Ne kadar 1’e yakın ise, o denli kuvvetli bir negatif doğrusal ilişki mevcuttur Ne kadar 1’e yakın ise, o denli kuvvetli bir pozitif doğrusal ilişki mevcuttur Ne kadar 0’a yakın ise, o denli zayıf bir pozitif doğrusal ilişki mevcuttur Yrd. Doç. Dr. İmran GÖKER Bölüm 1-104

Y

Çeşitli Korelasyon Katsayıları olan Verilerin Serpilme Grafiği

Y Y Y r = -1 X Y r = -.6

X Y r = 0 X r = +1 Yrd. Doç. Dr. İmran GÖKER X r = +.3

X r = 0 X Bölüm 1-105

Korelasyon Katsayısının bulunması için Excel’in kullanılması

 Se çeiniz Data / Data Analysis   Seçim menüsünden Correlation ’u seçiniz OK ’yi tıklayınız . . .

Yrd. Doç. Dr. İmran GÖKER Bölüm 1-106

Korelasyon Katsayısının bulunması için Excel’in kullanılması

(devam)

  Veri açıklığını giriniz ve uygun seçenekleri seçiniz Çıktıyı elde etmek üzere OK’yi tıklayınız Yrd. Doç. Dr. İmran GÖKER Bölüm 1-107

Sonuçların Yorumlanması

Test Skorları için Serpilme Grafiği

 r = 0,733 Test skoru #1 ile test skoru #2 arasında nispeten güçlü bir pozitif doğrusal ilişki mevcuttur.

100 95 90 85 80 75 70 70 75 80 85

Test #1 Skoru

90  İlk testte yüksek skorlar alan öğrenciler ikinci testte de yüksek skorlar alma eğilimi göstermişlerdir Yrd. Doç. Dr. İmran GÖKER 95 100 Bölüm 1-108