Transcript Chapter 1 TR - Kenan Burak Ceylan Kişisel Blog
OLASILIK (6BMHMAU102)
Yrd. Doç. Dr. İmran GÖKER
Bölüm 1
Verilerin Tanımlanması: Grafik ve Sayısal Gösterim Bölüm 1-1
Belirsizliklerle başedebilmek
Her gün almakta olduğumuz kararlar yarım yamalak bilgilere dayanmaktadır Örnek olarak:
Acaba mezun olduğumda iş piyasası ne alemde olacak? İşsizlik sorun olacak mı?
Yahoo hisseleri altı ay sonra şimdikinden daha mı yüksek olacak?
Hastanemize 1,5 Tesla yerine 3 Tesla MR cihazı kurmak hasta potansiyelinin artışında katkı sağlar mı?
Yrd. Doç. Dr. İmran GÖKER Bölüm 1-2
Belirsizliklerle başedebilmek
(devam)
Sayılar ve veriler karar almada yardımcı olması amacıyla kullanılmaktadır
İstatistik verileri işlemek, özetlemek, çözümlemek ve yorumlamaya yardımcı olan bir araçtır Yrd. Doç. Dr. İmran GÖKER Bölüm 1-3
Anahtar Tanımlar
Bir popülasyon (anakütle) tüm ögelerin toplamıdır araştırmaya söz konusu olan N popülasyon büyüklüğünü temsil etmektedir Bir örneklem (sample) , popülasyonun (anakütlenin) gözlemlenen bir alt kümesidir n r örneklem büyüklüğünü temsil etmektedir Bir parametre , bir popülasyonun (anakütlenin) özgün bir özelliğidir Bir istatistik , bir örneklemin özgün bir özelliğidir. Yrd. Doç. Dr. İmran GÖKER Bölüm 1-4
Pop ülasyon (Anakütle) ve Örneklem
Pop ülasyon ( Anakütle)
a b c d ef gh i jk l m n o p q rs t u v w x y z Popülasyon (Anakütle) verileri kullanılarak hesaplanmış olan değerler parametreler olarak anılmaktadır.
Yrd. Doç. Dr. İmran GÖKER
Örneklem
b c g i n o r u y Örneklem verileri kullanılarak hesaplanmış olan değerler istatistikler olarak anılmaktadır.
Bölüm 1-5
Popülasyon (Anakütle) Örnekleri
Türkiye Cumhuriyeti’nde kayıtlı tüm seçmenlerin isimleri Ankara’da yaşayan ailelerin aylık gelirleri Türk toplumundaki 45 yaş ve üstü kadınlarda osteoporoz görülme sıklığı Üniversitemizdeki tüm öğrencilerin Genel Not Ortalaması Yrd. Doç. Dr. İmran GÖKER Bölüm 1-6
Rassal Örnekleme
Basit rassal örnekleme popülasyonun her bir bireyinin kesin suretle şans eseri seçildiği, popülasyonun her bir bireyinin eşit şans oranıyla seçildiği, n nesnenin muhtemel her bir örneğinin eşit şans oranına sahip olduğu bir prosedürdür.
Elde edilen örnek rassal örneklem olarak anılmaktadır.
Yrd. Doç. Dr. İmran GÖKER Bölüm 1-7
Tanımlayıcı ve Çıkarımsal İstatistik
İstatistiğin iki dalı mevcuttur: Tanımlayıcı İstatistik verileri özetlemek ve işlemek üzere grafik ve sayısal işlemlerin uygulanması Çıkarımsal İstatistik Karar vermede yardımcı olmak üzere, öngörülerde bulunmak, tahmin yürütmek ve kestirim yapmada verilerin kullanılması Yrd. Doç. Dr. İmran GÖKER Bölüm 1-8
Tanımlayıcı İstatistik
Veri toplama Örneğin anket Verilerin sunulması Tablo ve grafikler Verilerin özetlenmesi örneğin, örnek ortalaması =
X i n
Yrd. Doç. Dr. İmran GÖKER Bölüm 1-9
Çıkarımsal İstatistik
Kestirim Örneğin, örneklem ortalama ağırlığını kullanarak popülasyon ortalama ağırlığını kestirmek Hipotez testi Örneğin, popülasyonun ortalama ağırlığının 62 kg olduğu iddiasının test edilmesi
Çıkarım örneklem popülasyon sonuçlarına dayanarak bir hakkında sonuç çıkarma sürecidir
Yrd. Doç. Dr. İmran GÖKER Bölüm 1-10
Veri Türleri
Veriler
Kategorik Sayısal Örnekler:
Medeni Hal Seçmen kütüğüne kayıtlı mısınız?
Göz rengi ( Tanımlı kategoriler veya gruplar)
Yrd. Doç. Dr. İmran GÖKER
Kesikli Örnekler:
Çocuk Sayısı
Saat başına hatalı parça sayısı ( Sayılan ögeler) Sürekli Örnekler:
Ağırlık Voltaj ( Ölçülen özellikler)
Bölüm 1-11
Ölçekler
Ölçümler arasında fark mevcut, gerçek sıfır mevcut
Oransal Ölçek
Nicel (Kantitatif) Veriler Ölçümler arasında fark mevcut fakat gerçek sıfır mevcut değil
Aralık Ölçeği
Sıralı Kategoriler ( sıralamalar, sıra veya dereceleme)
Sıralayıcı (Ordinal) Ölçek
Nitel (Kalitatif) Veriler Kategoriler ( sıralama veya yön mevcut değil)
Sınıflayıcı (Nominal) Ölçek
Yrd. Doç. Dr. İmran GÖKER Bölüm 1-12
Verilerin Grafik olarak Sunulması
İşlenmemiş (ham) formdaki verilerin karar vermek amacıyla kullanılması kolay değildir.
Bazı düzenleme (organizasyon) türleri gerekmektedir Tablo Grafik Kullanılacak grafik türü özetlenmiş olan değişkene bağlıdır.
Yrd. Doç. Dr. İmran GÖKER Bölüm 1-13
Verilerin Grafik olarak Sunulması
(devam)
Bu bölümde gözden geçirilen teknikler:
Kategorik Değişkenler Sayısal Değişkenler
• Frekans Dağılımı • Çubuk grafik • Dilim grafiği • Pareto diyagramı • Çizgi Grafiği • Frekans Dağılımı • Histogram ve Birikimli Frekans Poligonu •Yaprak-gövde grafiği • Dağılım grafiği Yrd. Doç. Dr. İmran GÖKER Bölüm 1-14
Kategorik Değişkenler için Tablolar ve Grafikler
Kategorik Veriler
Verileri tablolaştırmak Frekans Dağılımı Tablosu Verileri grafiklemek Çubuk Grafik Dilim Grafiği Pareto Diagram ı Yrd. Doç. Dr. İmran GÖKER Bölüm 1-15
Frekans Dağılımı Tablosu
Verileri kategoriye göre özetleme Örnek: Hastanede yatan hastalar ve birimler Hastane Birimi Hasta Sayısı
( Değişkenler kategoriktir) Yrd. Doç. Dr. İmran GÖKER Kardiya k Bakım Acil Servis Yoğun Bakım Doğum Servisi Cerrahi 1.052 2.245
340 552 4.630
Bölüm 1-16
Çubuk ve Dilim Grafikleri
Çubuk Grafikleri ve Dilim Grafikleri sıklıkla niteliksel (kategori) veriler için kullanılmaktadır.
Çubuğun yüksekliği veya dilimin büyüklüğü her bir kategorinin frekansını veya yüzdesini göstermektedir. Yrd. Doç. Dr. İmran GÖKER Bölüm 1-17
Çubuk Grafiği (Örnek)
Hastane Birimi Hasta Sayısı
Kardiya k Bakım 1.052 Acil Servis Yoğun Bakım Doğum Servisi 2.245
340 552 Cerrahi 4.630
5000 4000 3000 2000 1000 0
Birim Başına Hastanede Yatan Hasta
Yrd. Doç. Dr. İmran GÖKER Bölüm 1-18
Dilim Grafiği (Örnek)
Hastane Birimi
Kardiyak Bakım Acil Servis Yoğun Bakım Doğum Servisi Cerrahi
Hasta Sayısı Toplamın %’si
1.052 11,93 2.245 25,46 340 3,86 552 6,26 4.630 52,50 Birim başına Hastanede yatan hasta sayısı Kardiyak Bakım 12% Yrd. Doç. Dr. İmran GÖKER
( Yüzde oranları en yakın yüzdelere yuvarlatılmıştır)
Cerrahi 53% Acil Servis 25% Yoğun Bakım 4% Doğum Servisi 6% Bölüm 1-19
Pareto Diagram ı
Kategorik verileri betimleme üzere kullanılmaktadır Kategorilerin sıklık değerlerinin büyükten küçüğe sıralanmış olduğu bir çubuk grafiğidir Bir kümülatif poligon genellikle aynı grafikte gösterilmektedir “ Hayati önemi olan azınlığı ” “ Önemsiz çoğunluktan ” ayırt etmede kullanılmaktadır Yrd. Doç. Dr. İmran GÖKER Bölüm 1-20
Pareto Diagramı (Örnek)
Örnek: Hatanın nedeni için 400 arızalı (hatalı) öge incelenmektedir:
İmalat Hatası kaynağı
Kötü Lehim Yetersiz Hizalama Eksik Parça Boyama kusuru Elektrik kısa devresi Çatlak kasa
Toplam Hata Sayısı
34 223 25 78 19 21
400
Yrd. Doç. Dr. İmran GÖKER Bölüm 1-21
Pareto Diagramı (Örnek)
(devam)
Adım 1: Adım 2: Hata nedenini büyükten küçüğe sıralayınız Her bir kategoride %’yi belirleyiniz
İmalat Hatası kaynağı
Yetersiz Hizalama Boyama kusuru Kötü Lehim Eksik Parça Çatlak kasa Elektrik kısa devresi
Toplam Hata Sayısı
223 78 34 25 21 19
400 Toplam hatanın %’si
55.75
19.50
8.50
6.25
5.25
4.75
%100
Yrd. Doç. Dr. İmran GÖKER Bölüm 1-22
Pareto Diagramı (Örnek)
(devam)
Adım 3: Sonuçları grafik olarak gösteriniz
Pareto Diagramı: İmalat hatalarının nedeni 60% 50% 40% 30% 20% 10% 0% Elektrik Kısa Devre 100% 90% 20% 10% 0% 80% 70% 60% 50% 40% 30% Yetersiz Hizalama Boyama Kusuru Kötü Lehim Eksik Parça Çatlak Kasa
Yrd. Doç. Dr. İmran GÖKER Bölüm 1-23
Zaman Serisi Verileri için Grafikler
Bir çizgi grafiği ( zaman serileri grafiği) bir değişkenin zamana göre değişimini göstermek üzere kullanılmaktadır Zaman yatay eksende ölçülmektedir Söz konusu değişken dikey eksende ölçülmektedir Yrd. Doç. Dr. İmran GÖKER Bölüm 1-24
Yrd. Doç. Dr. İmran GÖKER
Çizgi Grafiği (Örnek)
350 300 250 200 150 100 50 0
Yıllık Dergi Abonelikleri
Bölüm 1-25
Sayısal Değişkenleri Tanımlamada Grafiklerin Kullanılması
Sayısal Veriler Frekans Dağılımları ve Kümülatif Dağılımlar Histogram
Yrd. Doç. Dr. İmran GÖKER
Yaprak Grafiği Birikimli Frekans Poligonu (Ogive) Gövde
Bölüm 1-26
Frekans Dağılımları
Frekans Dağılımı nedir?
Bir Frekans Dağılımı bir liste veya bir tablodur … sınıf gruplamalarını ( verilerin içerisinde yer aldığı kategoriler veya aralıklar) içermektedir...
Bu kategorilere karşılık gelen ve verilerin her bir sınıf veya kategori içerisinde yer aldığı frekansları içermektedir Yrd. Doç. Dr. İmran GÖKER Bölüm 1-27
Frekans Dağılımları Neden Kullanılmaktadır?
Bir frekans dağılımı bir veri özetleme yoludur Dağılım ham veriye daha faydalı bir şekilde bir araya getirmektedir... ve verinin görsel olarak hızla yorumlanmasına olanak tanımaktadır.
Yrd. Doç. Dr. İmran GÖKER Bölüm 1-28
Sınıf Aralıkları ve Sınıf Sınırları
Her bir sınıf gruplaması aynı genişliğe sahiptir Her bir aralığın genişliğini belirleyiniz En azından 5 fakat 15-20’den daha fazla sayıda olmayan aralıklar kullanınız Aralıklar asla birbirine geçmemeli Arzu edilen uç değerleri elde etmek için aralık genişliğini yuvarlatınız Yrd. Doç. Dr. İmran GÖKER Bölüm 1-29
Frekans Dağılımı (Örnek)
Örnek: Bir yalıtım malzemesi imalatçısı kış mevsimine ait 20 gün seçmekte ve günlük en yüksek sıcaklıklarını kaydetmektedir.
24, 35, 17, 21, 24, 37, 26, 46, 58, 30, 32, 13, 12, 38, 41, 43, 44, 27, 53, 27
Yrd. Doç. Dr. İmran GÖKER Bölüm 1-30
Frekans Dağılımı (Örnek)
(devam)
Han veriyi küçükten büyüğe doğru sıralayınız:
12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58
Açıklığı (Range) bulunuz:
58 - 12 = 46
Sınıf sayısını seçiniz:
5 ( genellikle 5 ile 15 arası)
Aralık genişliğini hesaplayınız:
10 (46/5 daha sonra yuvarlayınız)
Aralık sınırlarını belirleyiniz:
10 fakat 20’den daha düşük, 20 fakat 30’dan daha düşük, . . . , 60 fakat 70’den daha düşük
Gözlemleri sayınız ve sınıflara atayınız Yrd. Doç. Dr. İmran GÖKER Bölüm 1-31
Frekans Dağılımı (Örnek)
(devam)
Sıralı dizi halindeki veriler: 12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58 Aralık 10 ile 20 20 ile 30 30 ile 40 40 ile 50 50 ile 60 Toplam
Yrd. Doç. Dr. İmran GÖKER
Göreceli Frekans Yüzde 3 0,15 15 6 0,30 30 5 0,25 25 4 0,20 20 2 0,10 10 20 1,00 100
Bölüm 1-32
Histogram
Bir frekans dağılımındaki verinin grafiği
histogram olarak
anılmaktadır
Aralık uç değerleri
gösterilmektedir yatay eksende Dikey eksen hem
frekans, hem frekans hem de yüzde
değerini
göreceli
göstermektedir.
Uygun yüksekliklerdeki çubuklar her bir sınıf içindeki gözlem sayısını temsil etmek üzere kullanılmaktadır.
Yrd. Doç. Dr. İmran GÖKER Bölüm 1-33
Histogram (Örnek)
Aralık 10 ile 20 20 ile 30 30 ile 40 40 ile 50 50 ile 60
Yrd. Doç. Dr. İmran GÖKER
Frekans 3 6 5 4 2
( Çubuklar arasındaki boşluk yok)
10 5
Histogram: En Yüksek Günlük Sıcaklık
6 5 4 3 2 0 0
0 0 10 20 30 40 50 60
0 10 20 30 40 50 60 70 Derece cinsinden sıcaklık Bölüm 1-34
Excel’de Histogram
1
Data Sekmesini seçiniz
2
Data Analysis menüsünü tıklayınız Yrd. Doç. Dr. İmran GÖKER Bölüm 1-35
Excel’de Histogram
(devam)
3
Histogram ’ı seçiniz (
4
Input data range and bin range (bin range her bir sınıf gruplaması için en üst uç değeri de kapsayan bir hücre aralığıdır) Select Chart Output ’u seçiniz ve “OK” yi tıklayınız Yrd. Doç. Dr. İmran GÖKER Bölüm 1-36
Verileri aralıklar halinde gruplarken sorulması gereken sorular
1.
Aralık hangi genişlikte olmalıdır?
( Kaç adet sınıf kullanılmalıdır?) 2.
Aralıkların uç değerleri nasıl belirlenmelidir?
Kullanıcının değerlendirmesine bağlı olarak genellikle deneme ve yanılma yöntemiyle cevaplandırılır Amaç ne “düzensiz” ne de “yığınlı” bir dağılım oluşturmamaktır.
Amaç verilerdeki varyasyon örüntüsünü uygun bir şekilde göstermektir. Yrd. Doç. Dr. İmran GÖKER Bölüm 1-37
Kaç adet aralık olmalı?
Pek çok (Dar sınıf aralığı
) Boş sınıflardan gelen boşluklarla çok düzensiz bir dağılım ile sonuçlanmaktadır Sınıflar arasında frekansın nasıl değiştiğine dair yetersiz bir gösterge verebilir
Çok az (Geniş sınıf aralığı
) varyasyonu çok fazla sıkıştırabilir ve yığılmış bir dağılımla sonuçlanabilmektedir.
önemli varyasyon örüntülerini gizleyebilir.
Yrd. Doç. Dr. İmran GÖKER 1.5
1 0.5
0 3.5
3 2.5
2
Sıcaklık
12 10 8 6 4 2 0 0 30 60 Daha Fazla
Sıcaklık
(X eksen üst sınıf uç değerleridir) Bölüm 1-38
Birikimli (Kümülatif) Frekans Dağılımı
Sıralanmış dizi halindeki veriler: 12, 13, 17, 21, 24, 24, 26, 27, 27, 30, 32, 35, 37, 38, 41, 43, 44, 46, 53, 58 Sınıf 10 ile 20 20 ile 30 30 ile 40 40 ile 50 50 ile 60 Toplam Frekans Yüzde Birikimli (Kümülatif) Frekans Birikimli (Kümülatif) Yüzde 3 15 3 15 6 30 9 45 5 25 14 70 4 20 18 90 2 10 20 100 20 100
Yrd. Doç. Dr. İmran GÖKER Bölüm 1-39
Birikimli (Kümülatif) Frekans Grafiği (Ogive)
Aral ık 10 ’dan düşük 10 ile 20 20 ile 30 30 ile 40 40 ile 50 50 ile 60
Yrd. Doç. Dr. İmran GÖKER
Üst Aralık Uç Değeri Birikimli (Kümülatif) Yüzde 10 0 20 15 30 45 40 70 50 90 60 100
100 80 60 40 20 0 10
Birikimli Frekans Poligonu: Günlük en yüksek sıcaklık
20 30 40 50 Aralık uç değerleri 60 Bölüm 1-40
Gövde ve Yaprak Tablosu
Bir veri kümesinde dağılımın ayrıntılarını görebilmenin basit bir yoludur YÖNTEM: Sıralanmış veri serilerini en baştaki basamaklarına (
gövde
) ve bunu izleyen diğer basamaklarına (
yaprak
) Yrd. Doç. Dr. İmran GÖKER Bölüm 1-41
Örnek
Sıralanmış dizi halindeki veriler :
21, 24, 24, 26, 27, 27, 30, 32, 38, 41 Burada gövde birimi için 10’lar basamağını kullanınız: Gövde Yaprak 21 ’in gösterilişi 38 ’in gösterilişi 2 1 3 8 Yrd. Doç. Dr. İmran GÖKER Bölüm 1-42
Örnek
(devam)
Sıralanmış dizi halindeki veriler :
21, 24, 24, 26, 27, 27, 30, 32, 38, 41 Tamamlanmış gövde-yaprak grafiği: Gövde Yapraklar 2 1 4 4 6 7 7 3 4 0 2 8 1 Yrd. Doç. Dr. İmran GÖKER Bölüm 1-43
Diğer gövde birimlerinin kullanılması
100’ler basamağını gövde olarak kullanırken: Yaprakları oluştururken 10’lar basamağını yuvarlatınız 613 dönüşeceği sayı 776 dönüşeceği sayı . . .
1224 dönüşeceği sayı Stem Leaf 6 1 7 8 12 2 Yrd. Doç. Dr. İmran GÖKER Bölüm 1-44
Diğer gövde birimlerinin kullanılması
(devam)
: 100’ler basamağını gövde olarak kullanırken: Tamamlanmış gövde-yaprak tablosu: Veriler: 613, 632, 658, 717, 722, 750, 776, 827, 841, 859, 863, 891, 894, 906, 928, 933, 955, 982, 1034, 1047,1056, 1140, 1169, 1224 Gövde Yapraklar 6 1 3 6 7 2 2 5 8 8 3 4 6 6 9 9 9 1 3 3 6 8 10 3 5 6 11 4 7 12 2 Yrd. Doç. Dr. İmran GÖKER Bölüm 1-45
Değişkenler arası ilişkiler
Şu ana dek bahsi geçen grafikler sadece tek bir değişkenin dahil olduğu durumlar içindi İki değişken’in mevcut olduğu durumlarda başka teknikler kullanılmaktadır:
Kategorik (Nitel) Değişkenler Sayısal (Nitel) Değişkenler
Çapraz Tablolar Dağılım Grafiği Yrd. Doç. Dr. İmran GÖKER Bölüm 1-46
Serpilme (Dağılma) Grafikleri
Serpilme (Dağılma)Grafikleri iki sayısal değişkenden alınmış olan ikili gözlemler için kullanılmaktadır.
Serpilme Grafiği: Bir değişken dikey eksende ölçülmektedir ve diğer değişken yatay eksende ölçülmektedir Yrd. Doç. Dr. İmran GÖKER Bölüm 1-47
Serpilme (Dağılma) Örnek
Günlük Hacim 23 26 29 33 38 42 50 55 60 Günlük Maliyet 125 140 146 160 167 170 188 195 200
250 200 150 100 50 0
0
Günlük maliyet-Üretim Hacmi
20 40
Günlük Hacim
60 80 Yrd. Doç. Dr. İmran GÖKER Bölüm 1-48
Excel’de Serpilme (Dağılma) Grafikleri
1
Insert sekmesini seçiniz
2
Charts bölümünden Scatter ’ı seçiniz
3
Seçilip başlatıldığında, veri açıklığını (range), istenen göstergeyi (legend) ve dağılım diyagramını tamamlamak üzere istenen yönü (destination) seçiniz Yrd. Doç. Dr. İmran GÖKER Bölüm 1-49
Çapraz Tablolar
Çapraz tablolar (veya kontenjans kategorik veya ordinal tabloları) iki listelemektedir.
değişken için her bir değer kombinasyonu için gözlem sayısını Eğer ilk değişken (satırlar) için
r
ikinci değişken için tablo
r
x
c c
kategori ve kategori mevcut ise, çapraz tablosu olarak anılmaktadır.
Yrd. Doç. Dr. İmran GÖKER Bölüm 1-50
Çapraz Tablolar Örnek
4 x 3 Çapraz Tablo (Yatırımcının Yatırım Tercihleri için (Değerler 1000 $ olarak sunulmuştur)
Yatırım Kategorisi
Hisse Bono CD Tasarruf
Toplam Yatırımcı A Yatırımcı B
46,5 16,0
110,0
55
Yatırımcı C Toplam
27,5 32,0 44 19,0
95
15,5 20 13,5
49
28 7,0
51 147 67,0 129 324
Yrd. Doç. Dr. İmran GÖKER Bölüm 1-51
Çok Değişkenli Kategorik Verilerin Grafikle Gösterimi
(devam)
Yan yana Çubuk Grafik
Yatrımcıların Karşılaştırılması
Tasarruf CD Bono Hisse 0 10 Yatırımcı C 20 30 Yatırımcı B 40 50 Yatırımcı A Yrd. Doç. Dr. İmran GÖKER 60 Bölüm 1-52
Yan yana Çubuk Grafik (Örnek)
Üç satış bölgesi için yıl içinde üçer aylık dönemlerdeki satışlar
Doğu Batı Kuzey Yılın İlk çeyreği
20.4
30.6
45.9
Yılın İkinci Çeyreği
27.4
38.6
46.9
Yılın Üçüncü Çeyreği
59 34.6
45
Yılın Dördüncü Çeyreği
20.4
31.6
43.9
Doğu Batı Kuzey
Yrd. Doç. Dr. İmran GÖKER Bölüm 1-53
Veri Sunum Hataları
Etkin veri sunumu amaçları : Esas bilgiyi göstermek üzere verilerin sunulması Karmaşık fikirlerin net ve kesin olarak iletilmesi Mesajın yanlış iletebilecek çarpıklıktan kaçınılmalı Yrd. Doç. Dr. İmran GÖKER Bölüm 1-54
Veri Sunum Hataları
(devam)
Eşit olmayan histogram aralık genişliği Dikey eksenin sıkıştırılması veya çarpıtılması Dikey eksende sıfır noktasının sağlanmaması Gruplar arası verileri karşılaştırırken bir nispi tabanın sağlanmasında hata yapılması.
Yrd. Doç. Dr. İmran GÖKER Bölüm 1-55
Verinin Sayısal olarak Betimlenmesi
Verinin Sayısal olarak Betimlenmesi Merkezi Eğilim Aritmetik Ortalama Ortanca (Medyan) En sık Değer (Mod) Varyasyon Açıklık Dördebölenler Açıklığı Varyans Standart Sapma Varyasyon katsayısı Yrd. Doç. Dr. İmran GÖKER Bölüm 1-56
Ortalama x i n 1 x i n Aritmetik ortalama Yrd. Doç. Dr. İmran GÖKER
Merkezi Eğilim Ölçütleri
Özet Merkezi Eğilim Ortanca (Medyan) En sık Değer (Mod) Sıralanmış değerlerin orta noktası En sık gözlenen değer Bölüm 1-57
Aritmetik Ortalama
Aritmetik ortalama (ortalama) en yaygın merkezi eğilim ölçütüdür N değerli bir anakütle (popülasyon) için: μ i N 1 x i x 1 x 2 x N Anakütle (Pop ülasyon) değerleri N N Anakütle n büyüklüğündeki bir örneklem için: n i 1 x x x x i x 1 2 n n n (Pop ülasyon) büyüklüğü Gözlemlenen değerler Örneklem büyüklüğü Yrd. Doç. Dr. İmran GÖKER Bölüm 1-58
Aritmetik Ortalama
(devam)
En yaygın merkezi eğilim ölçütü Ortalama = Değerlerin toplamının değer sayısına bölünmesi Ekstrem değerler tarafından etkilenmiştir (aykırı değerler) 0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 Ortalama = 3 1 2 3 4 5 5 15 5 3 Yrd. Doç. Dr. İmran GÖKER Ortalama = 4 1 2 3 4 10 5 20 5 4 Bölüm 1-59
Ortanca (Medyan)
Sıralı bir listede, ortanca (medyan) “ortadaki” sayıdır (%50 altında, %50 üstünde) 0 1 2 3 4 5 6 7 8 9 10 Medyan = 3 0 1 2 3 4 5 6 7 8 9 10 Medyan = 3 Ekstrem değerlerden etkilenmez Yrd. Doç. Dr. İmran GÖKER Bölüm 1-60
Ortancanın (Medyan) Bulunması
Medyanın konumu: Eğer değerlerin sayısı tek ise, medyan ortadaki sayıdır.
Eğer değerlerin sayısı çift ise, medyan ortadaki iki sayının ortalamasıdır n 1 ‘nin medyanın
değeri
o lmadığına sadece 2 sıralanmış veriler arasında medyanın
pozisyonu
o lduğuna dikkat ediniz Yrd. Doç. Dr. İmran GÖKER Bölüm 1-61
Ortancanın (Medyan) Bulunması
Sınıflandırılmış Verilerde Ortancanın Hesabı: Sınıflar yazılır.
Birikimli Frekans (
BF i
) bulunur. Birikimli Frekans her sınıfın frekansının bir önceki frekanslarla toplamıdır. Bu toplam her sınıfın karşısına yazılır.
Sınıflandırılmış verilerde ortanca formülü:
Or tan ca
n
2
BF i f
.C
L
AS i
ÜS i
1 2 L: Ortancanın içinde bulunduğu sınıfın ara değeri. Ortancanın bulunduğu sınıfın alt değeri (ASi ) ile bir önceki sınıfın üst değerin (Üs i-1 ) ortalamasıdır BF i : Ortancanın içinde bulunduğu sınıfın birikimli frekansı f: Ortancanın içinde bulunduğu sınıfın frekansı.
n: Denek sayısı Yrd. Doç. Dr. İmran GÖKER Bölüm 1-62
Ortancanın (Medyan) Bulunması
Üs i-1 As i Sınıflandırılmış Verilerde Ortancanın Hesabı:
Yaş (Yıl)
15-19 20-24 25-29 30-34 35-39 40-44 45-49 Toplam
f
50 75 100 150 90 70 45 580
BF i
50 125 225 (375) 465 535 580
L
AS i
ÜS i
1 2 2
Or tan ca
n
2
BF i f
.C
Or tan ca
580 225
i
2 150
.
5 Yrd. Doç. Dr. İmran GÖKER Bölüm 1-63
En sık Değer (Mod)
Bir merkezi eğilim ölçütüdür En sık rastlanan değerdir Ekstrem değerlerden etkilenmez Hem kategorik hem de sayısal veriler için kullanılmaktadır En sık Değer (Mod) mevcut olmayabilir Birkaç adet mod mevcut olabilir 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Mod = 9 Yrd. Doç. Dr. İmran GÖKER 0 1 2 3 4 5 6 Mod mevcut değil Bölüm 1-64
Alıştırma Örneği
Sahilden tepeye kadar beş ev mevcut $2,000 K Ev fiyatları: $2,000,000 500,000 300,000 100,000 100,000 $300 K $500 K $100 K $100 K Yrd. Doç. Dr. İmran GÖKER Bölüm 1-65
Alıştırma Örneği : Özet İstatistikler
Ev Fiyatları: $2,000,000 500,000 300,000 100,000 100,000 Toplam 3,000,000
Ortalama:
($3,000,000/5) =
$600,000
Medyan:
sıralanmış verilerin en ortasındaki değer =
$300,000
Mod:
en sık sık rastlanan değer =
$100,000
Yrd. Doç. Dr. İmran GÖKER Bölüm 1-66
Hangi konum ölçütü “en iyisidir”?
Ekstrem (aykırı) değerler mevcut olması haricinde genellikle
ortalama
kullanılmaktadır. . .
Ortalama
s ıklıkla kullanılmaktadır çünkü medyan ekstrem değerlere duyarlı değildir.
Örnek: Medyan ev fiyatları bir bölge için bildirilebilir aykırı değerlere az duyarlıdır Yrd. Doç. Dr. İmran GÖKER Bölüm 1-67
Dağılımın Şekli
Verilerin nasıl dağıldığını göstermektedir Şekil ölçütleri Simetri k veya eğimli Sola eğimli Ortalama < Medyan Simetrik Ortalama = Medyan Sağa-eğimli Medyan < Ortalama Yrd. Doç. Dr. İmran GÖKER Bölüm 1-68
Geometrik Ortalama
Geometrik ortalama Bir değişkenin zamana göre değişim oranını ölçmek üzere kullanılmaktadır x g n (x 1 x 2 x n ) (x 1 x 2 x n ) 1/n
log x
g
1
n
i n
1
log x
i
Yrd. Doç. Dr. İmran GÖKER Bölüm 1-69
Örnek
Bir köyün son 5 yıllık nüfusları 325, 400, 545, 690 ve 850 ise, beş yıllık ortalama nedir?
1. Yol:
x g
5 2. Yol:
log x g
1 5
i
5 1
log x i
1 5
log
325
log
400
...log
850
x g
anti log
1 5
log
325
log
400
...log
850 Yrd. Doç. Dr. İmran GÖKER Bölüm 1-70
Değişkenlik Ölçütleri
Varyasyon Açıklık (Range) Dördebölenler açıklığı (Interquartile Range) Varyans Varyasyon ölçütleri veri değerlerinin yayılımı veya varyasyonu üzerine bilgi vermektedir.
Standart Sapma Varyasyon Katsayısı Aynı merkez, farklı varyasyon Yrd. Doç. Dr. İmran GÖKER Bölüm 1-71
Açıklık (Range)
En basit varyasyon ölçütü En büyük ve en küçük gözlem arasındaki fark: Açıklık = X en büyük – X en küçük Örnek: Yrd. Doç. Dr. İmran GÖKER 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 Açıklık = 14 - 1 = 13 Bölüm 1-72
Açıklığın Dezavantajları
Verinin dağıtılma yolunu ihmal etmektedir 7 8 9 10 11 12 Açıklık = 12 - 7 = 5 7 8 9 10 11 12 Açıklık = 12 - 7 = 5 Aykırı değerlere karşı hassastır 1 ,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4, 5 Açıklık = 5 - 1 = 4 1 ,1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,2,3,3,3,3,4, 120 Açıklık = 120 - 1 = 119 Yrd. Doç. Dr. İmran GÖKER Bölüm 1-73
Dördebölenler Açıklığı
Dördebölenler açıklığı
kullanılarak bazı aykırı değer problemleri giderilebilmektedir Yüksek ve düşük değerli gözlemler giderilebilmektedir ve verilerin %50’sinin ortasının açıklığı hesaplanabilmektedir Dördebölenler açıklığı = 3’üncü dördebölen – 1’inci dördebölen: IQR = Q 3 – Q 1 Yrd. Doç. Dr. İmran GÖKER Bölüm 1-74
Dördebölenler Açıklığı
Kutu Grafiği
Örnek: X minimum Q1 Medyan (Q2) Q3 25% 25% 25% 25% X maksimum 12 30 45 57 70 Dördebölenler açıklığı = 57 – 30 = 27 Yrd. Doç. Dr. İmran GÖKER Bölüm 1-75
Dördebölenler (Kartiller)
Dördebölenler (Kartiller) sıralanmış verileri segment başına eşit değer sayısı olacak şekilde 4 segmente bölmektedir 25% 25% 25% 25% Q1 Q2 Q3 İlk dördebölen (kartil) Q gözlem değeridir 1 , gözlemlerin %25’inin daha düşük değerde olduğu ve %75’inin daha yüksek değerde olduğu Q 2 medyan ile aynıdır (%50 daha küçük, %50 daha büyük) Üçüncü dördebölende (kartil) Q 3 daha büyüktür gözlemlerin sadece %25’i Yrd. Doç. Dr. İmran GÖKER Bölüm 1-76
Dördebölen (Kartil) Formülleri
Bir dördebölen (kartil) sıralanmış veriler içinde uygun pozisyondaki değeri belirleyerek aşağıdaki formüllerle bulunur İlk dördebölen (kartil) pozisyonu: Q 1 = 0,25(n+1) İkinci dördebölen (kartil) pozisyonu : (medyan pozisyonu) Q 2 = 0,50(n+1) Üçüncü dördebölen ( k artil) pozisyonu: Q 3 = 0,75(n+1) n gözlemlenmiş değerlerin sayısıdır.
Yrd. Doç. Dr. İmran GÖKER Bölüm 1-77
Kartiller
Örnek: İlk dördeböleni (kartil) bulunuz Örnek sıralanmış veriler: 11 12 13 16 16 17 18 21 22 (n = 9) Q 1 = sıralı verilerin 0,25( 9+1) = 2,5 ’uncu pozisyonunda o halde 2’inci ve 3’üncü değerler arasındaki yarım yolu kullanınız [(13-12)/2], o da Q 1 = 12,5
Q değeri
1 Yrd. Doç. Dr. İmran GÖKER Bölüm 1-78
Kartiller
Örnek: İlk dördeböleni (kartil) bulunuz Örnek sıralanmış veriler: 11 12 13 16 16 17 18 21 22 (n = 9) Q 3 = sıralı verilerin 0,75( 9+1) = 7,5 ’uncu pozisyonunda o halde 7’inci ve 8’inci değerler arasındaki yarım yolu [(21 18)/2] kullanınız, o da Q 3 = 19,5
Q değeri
3 Yrd. Doç. Dr. İmran GÖKER Bölüm 1-79
Anakütle (Popülasyon) Varyansı
Ortalamadan olan sapmaların karelerinin ortalamasıdır Anakütle (Popülasyon) varyansı:
σ
2 i N 1
(x
i
μ)
2
N
μ = pop ülasyon ortalaması N = pop ülasyon büyüklüğü x i = x değişkeninin i’inci değeri Yrd. Doç. Dr. İmran GÖKER Bölüm 1-80
Örneklem Varyansı
Değerlerin ortalamadan olan sapmalarının karelerini ortalaması (yaklaşık olarak) Örneklem varyansı:
s
2 i n 1
(x
i
x )
2
n 1
X = aritmetik ortalama n = örneklem büyüklüğü X i = X değişkeninin i’inci değeri Yrd. Doç. Dr. İmran GÖKER Bölüm 1-81
Anakütle (Popülasyon) Standart Sapması
En yaygın kullanılan varyasyon ölçütüdür.
Ortalamaya göre varyasyonu göstermektedir.
Orijinal verilerle aynı birime sahiptir Anakütle (Popülasyon) standart sapması: σ i N 1 (x i μ) 2 N Yrd. Doç. Dr. İmran GÖKER Bölüm 1-82
Örneklem Standart Sapması
En yaygın kullanılan varyasyon ölçütüdür.
Ortalamaya göre varyasyonu göstermektedir.
Orijinal verilerle aynı birime sahiptir Örneklem standart sapması: S i n 1 (x i x ) 2 n 1 Yrd. Doç. Dr. İmran GÖKER Bölüm 1-83
Hesaplama Örneği: Örneklem Standart Sapması
Örnek Veriler (x s i ): 10 12 14 15 17 18 18 24 n = 8 Ortalama = x = 16 (10 X ) 2 (12 x ) 2 n (14 1 x ) 2 (24 x ) 2 (10 16) 2 (12 16) 2 (14 8 1 16) 2 (24 16) 2 126 7 Yrd. Doç. Dr. İmran GÖKER 4.2426
Ortalama çevresindeki “ortalama” serpilmenin bir ölçütü Bölüm 1-84
Varyasyonun Ölçümü
Küçük standart sapma Büyük standart sapma Yrd. Doç. Dr. İmran GÖKER Bölüm 1-85
Standart Sapmaların karşılaştırılması
Veri A 11 12 13 14 15 16 17 18 19 20 21 Ortalama = 15.5
s = 3.338
Veri B 11 12 13 14 15 16 17 18 19 20 21 Ortalama = 15.5
s = 0.926
Veri C 11 12 13 14 15 16 17 18 19 20 21 Ortalama = 15.5
s = 4.570
Yrd. Doç. Dr. İmran GÖKER Bölüm 1-86
Varyans ve Standar t Sapmanın Avantajları
Veri setindeki her bir değer hesaplamalarda kullanılmaktadır Ortalamadan daha uzaktaki değerlere ekstra ağırlık verilmektedir ( çünkü ortalamadan sapmaların karesi alınmaktadır) Yrd. Doç. Dr. İmran GÖKER Bölüm 1-87
Varyasyon Katsayısı
Nispi varyasyonu ölçmektedir. Daima yüzde (%) cinsindendir.
Ortalamaya göreceli varyasyonu göstermektedir.
Farklı birimlerdeki iki veya daha fazla kümeyi karşılaştırmak üzere kullanılabilmektedir CV s x 100% Yrd. Doç. Dr. İmran GÖKER Bölüm 1-88
Varyasyon Katsayısını Karşılaştırmak
Hisse A: Geçen yılın ortalama fiyatı = $50 Standart sapma = $5 CV A Hisse B: s x 100% $5 $50 100% 10% Geçen yılın ortalama fiyatı = $100 Standart sapma = $5 CV B s x 100% $5 $100 100% 5% Her iki hisse de aynı standart sapmaya sahiptir fakat Hisse B fiyatına nispeten daha az değişkendir Yrd. Doç. Dr. İmran GÖKER Bölüm 1-89
Microsoft Excel ’i kullanmak
Betimleyici İstatistik Microsoft ® Excel ’den elde edilebilmektedir Se çiniz: data / data analysis / descriptive statistics Diyalog kutusuna detayları giriniz Yrd. Doç. Dr. İmran GÖKER Bölüm 1-90
Excel ’i kullanmak
S eçiniz data / data analysis / descriptive statistics Yrd. Doç. Dr. İmran GÖKER Bölüm 1-91
Girdi açıklığı ( input range) ayrıntılarını giriniz Özet istatistikler (summary statistics) kutucuğunu işaretleyiniz OK ’i tıklayınız Yrd. Doç. Dr. İmran GÖKER
Excel ’i kullanmak
Bölüm 1-92
Excel çıkıtısı
Ev fiyatları verisini kullanarak Microsoft Excel betimsel istatistik çıktısı elde etmek: Ev fiyatları: $2,000,000 500,000 300,000 100,000 100,000 Yrd. Doç. Dr. İmran GÖKER Bölüm 1-93
Chebychev Teoremi
μ ortalaması ve σ standart sapmasına sahip olan her hangi bir popülasyon ve k > 1 için,
[ μ + kσ]
aralığı içine düşen gözlemlerin yüzdesi
en düşük olarak
100[1
(1/k
2
)]%
Yrd. Doç. Dr. İmran GÖKER Bölüm 1-94
Chebychev Teoremi
(devam)
Verilerin nasıl dağıldığına bakılmaksızın değerlerin en azından (1 - 1/k 2 ) ’si ortalamanın k standar t sapmaları içine düşmektedir (k > 1 için) Örnekler: En düşük içerisinde (1 - 1/1.5
2 ) = %55.6
……... k = 1,5 ( μ ± 1,5σ) (1 - 1/2 2 ) = %75 …........... k = 2 ( μ ± 2σ) (1 - 1/3 2 ) = %89 …….…... k = 3 ( μ ± 3σ) Yrd. Doç. Dr. İmran GÖKER Bölüm 1-95
Ampirik Kural (Parmak Hesabı Kuralı)
Eğer veri dağılımı çan eğrisi şeklindeyse, o halde aralıklar aşağıdaki gibidir: μ 1 σ Anakütle (popülasyon) veya örneklemdeki değerlerin yaklaşık %68 ’sini içermektedir 68% μ μ 1 σ Yrd. Doç. Dr. İmran GÖKER Bölüm 1-96
Ampirik Kural (Parmak Hesabı Kuralı)
μ 2 σ Anakütle (popülasyon) veya örneklemdeki değerlerin yaklaşık %95 ’ini içermektedir μ 3 σ değerlerin yaklaşık hemen hemen hepsini (yaklaşık Anakütle (popülasyon) veya örnekteki %99.7
’sini) Yrd. Doç. Dr. İmran GÖKER 95% μ 2 σ 99.7% μ 3 σ Bölüm 1-97
Tartılı Ortalama
Bir veri kümesinin tartılı ortalaması gibidir x i n 1 w i x i n w 1 x 1 w 2 x 2 w n x n n w i i’inci gözlemin ağırlığıdır ve n w i Şayet veriler zaten i’inci sınıfta w i gruplandırılmışsa kullanılmaktadır değeri ile n sınıfa Yrd. Doç. Dr. İmran GÖKER Bölüm 1-98
Gruplandırılmış veriler için yaklaştırma
Verilerin f 1 , f 2 , . . . f K frekansları ve m 1 , m 2 , . . ., m K orta noktaları ile K sınıf içinde sınıflandırıldığını varsayınız n gözlemlik bir örnek için, ortalama aşağıdaki gibidir x i K 1 f i m i n n i K 1 f i Yrd. Doç. Dr. İmran GÖKER Bölüm 1-99
Gruplandırılmış veriler için yaklaştırma
Verilerin f 1 , f 2 , . . . f K frekansları ve m 1 , m 2 , . . ., m K orta noktaları ile K sınıf içinde sınıflandırıldığını varsayınız n gözlemlik bir örnek için, varyans aşağıdaki gibidir s 2 i K 1 f i (m i n 1 x ) 2 Yrd. Doç. Dr. İmran GÖKER Bölüm 1-100
Örnek Ortak Varyansı (Kovaryansı)
Kovaryans ölçmektedir
iki değişken
arasındaki doğrusal ilişkinin büyüklüğünü Anakütle (Popülasyon) kovaryansı: Cov (x , y) xy i N 1 (x i x )(y i y ) N Örneklem kovaryansı: Cov (x , y) s xy i n 1 (x i x )(y i y ) n 1 Sadece ilişkilerin büyüklüğü ile ilgilidir Hiçbir nedensel etkiyi belirtmez Yrd. Doç. Dr. İmran GÖKER Bölüm 1-101
Ortak Varyansın (Kovaryans) yorumlanması
İki değişken arasındaki
Ortak Varyans (Kovaryans)
: Cov(x,y) > 0 x ve y aynı doğrultuda olma eğilimi göstermektedir Cov(x,y) < 0 x ve y zıt doğrultuda olma eğilimi göstermektedir Cov(x,y) = 0 x ve y ba ğımsızdır Yrd. Doç. Dr. İmran GÖKER Bölüm 1-102
Korelasyon Katsayısı
İki değişken arasındaki doğrusal ilişkinin büyüklüğünü ölçmektedir Anakütle (Popülasyon) korelasyon katsayısı: ρ Cov (x , y) σ X σ Y Örneklem korelasyon katsayısı: r Cov (x , y) s X s Y Yrd. Doç. Dr. İmran GÖKER Bölüm 1-103
Korelasyon Katsayısı r’nin Özellikleri
Birimsizdir 1 ile 1 arasında yer almaktadır Ne kadar 1’e yakın ise, o denli kuvvetli bir negatif doğrusal ilişki mevcuttur Ne kadar 1’e yakın ise, o denli kuvvetli bir pozitif doğrusal ilişki mevcuttur Ne kadar 0’a yakın ise, o denli zayıf bir pozitif doğrusal ilişki mevcuttur Yrd. Doç. Dr. İmran GÖKER Bölüm 1-104
Y
Çeşitli Korelasyon Katsayıları olan Verilerin Serpilme Grafiği
Y Y Y r = -1 X Y r = -.6
X Y r = 0 X r = +1 Yrd. Doç. Dr. İmran GÖKER X r = +.3
X r = 0 X Bölüm 1-105
Korelasyon Katsayısının bulunması için Excel’in kullanılması
Se çeiniz Data / Data Analysis Seçim menüsünden Correlation ’u seçiniz OK ’yi tıklayınız . . .
Yrd. Doç. Dr. İmran GÖKER Bölüm 1-106
Korelasyon Katsayısının bulunması için Excel’in kullanılması
(devam)
Veri açıklığını giriniz ve uygun seçenekleri seçiniz Çıktıyı elde etmek üzere OK’yi tıklayınız Yrd. Doç. Dr. İmran GÖKER Bölüm 1-107
Sonuçların Yorumlanması
Test Skorları için Serpilme Grafiği
r = 0,733 Test skoru #1 ile test skoru #2 arasında nispeten güçlü bir pozitif doğrusal ilişki mevcuttur.
100 95 90 85 80 75 70 70 75 80 85
Test #1 Skoru
90 İlk testte yüksek skorlar alan öğrenciler ikinci testte de yüksek skorlar alma eğilimi göstermişlerdir Yrd. Doç. Dr. İmran GÖKER 95 100 Bölüm 1-108