Veri Düzenleme Grafiksel Gösterimler ve Merkezi Eğilim Ölçüleri

Download Report

Transcript Veri Düzenleme Grafiksel Gösterimler ve Merkezi Eğilim Ölçüleri

Veri Düzenleme Grafiksel Gösterimler
ve Merkezi Eğilim Ölçüleri
• Verilerin İşlenmesi
• Yapılan bir araştırmada elde edilen veriler dağınık,
düzensiz ve karmaşık bir hal içerir. Bu şekliyle veriden
anlamlı bir sonuca ulaşmak mümkün değildir. İstatistik
analizin hammaddesi niteliğinde olan bu ham verinin
işlenerek düzenli ve anlaşılır hale getirilmesi gerekir.
• Çeşitli kaynaklardan derlenmiş ya da bizim
tarafımızdan anket, deney ya da gözlem gibi tekniklerle
toplanmış olan ham verilerin anlaşılır ve düzenli hale
getirilebilmesi için istatistik seriler, tablolar ve
grafiklerden faydalanılır.
Veri Düzenleme Grafiksel Gösterimler
ve Merkezi Eğilim Ölçüleri
Veri Düzenleme
Zaman Serileri
• Bir
değişkenin
değerlerinin
zamanın
şıklarına göre (gün, ay,
mevsim,
yıl
vb.)
değişimini
gösteren
serilere zaman serisi
denir. Zaman serisi
verileri
eşit
zaman
aralıkları ile derlenmiş
verilerden oluşur.
Yıllar
X malı fiyatı
2000
12
2001
18
2002
15
2003
20
2004
27
2005
24
Veri Düzenleme
Kalitatif (niteliksel) Veriler ve Dağılışları
• Kalitatif
(Niteliksel)
verileri basit tasnif ya
da
bileşik
tasnif
işlemine tabi tutabiliriz.
Basit
tasnif
işlemi
sadece bir değişkenin
şıklarına göre yapılan
tasniftir.
Yanda
öğrencilerin
mezun
oldukları
lise
değişkeninin şıklarına
göre dağılışı basit tasnif
işlemine
örnek
gösterilebilir.
MYO öğrencilerinin mezun olduğu Lise
türüne göre dağılımı
Lise türü
Frekan Yüzde Kümülatif
sı
si
yüzde
Düz lise
143
43,7
43,7
End Meslek
123
37,6
81,3
Ticaret
23
7,1
88,4
Anadolu Fen
5
1,5
88,9
Diğer
33
10,1
100
Toplam
327
100
Veri Düzenleme
Niceliksel (Kantitatif- Ölçülebilen) Verilerin
İstatistik Bölünme Serileriyle Gösterilmesi
• Aşağıdaki tabloda öğrencinin mezun olduğu lise değişkeni
ile cinsiyet değişkeninin birlikte değişimi bileşik tasnif
işlemi ile gösterilmiştir.
MYO öğrencilerinin mezun olduğu Lise ve cinsiyet
değişkeninin şıklarına göre dağılışı
Lise türü
Erkek
Kız
Toplam
Yüzde
Düz lise
88
55
143
43,7
End Meslek
95
28
123
81,3
Ticaret
10
13
23
88,4
Anadolu Fen
2
3
5
89,9
Diğer
19
14
33
100,0
Toplam
214
113
327
43,7
Veri Düzenleme
Niceliksel (Kantitatif- Ölçülebilen) Verilerin
İstatistik Bölünme Serileriyle Gösterilmesi
• Niceliksel olarak ifade edilen sayısal olarak ifade edilen ya
da ölçülebilir özellik taşıyan değişkenlere ait verilerin
istatistik bölünme serileri ile gösterilmesinde basit, tasnif
edilmiş ve gruplanmış seriler kullanılır.
• Basit Seri: Derlenmiş olan sayısal verilerin küçükten
büyüğe doğru sıralanması ile elde edilen serilerdir.
• Tasnif edilmiş seri: Tasnif edilmiş serilerde tekrarlayan
elemanlar bir araya getirilerek frekanslar şeklinde ifade
edilen seridir.
• Gruplanmış seri: Belli değer aralıklarına düşen birimler
bir araya getirilerek oluşturulan frekanslı serilere
gruplanmış seri adı verilir.
Veri Düzenleme
Niceliksel (Kantitatif- Ölçülebilen) Verilerin
İstatistik Bölünme Serileriyle Gösterilmesi
• Basit seri örnekleri
Notlar
Uzunluklar
Satışlar
10
143
3
22
147
4
30
155
6
43
160
7
50
167
7
55
170
7
63
176
8
70
185
8
90
191
9
Veri Düzenleme
Niceliksel (Kantitatif- Ölçülebilen) Verilerin
İstatistik Bölünme Serileriyle Gösterilmesi
• Tasnif edilmiş seri örnekleri
Notlar
(Xi)
1
2
3
4
5
Toplam
Öğr.say
(fi)
3
5
8
4
1
21
Uzunluk Fert say
(Xi)
(fi)
160
3
165
5
170
4
180
2
190
1
Toplam
15
Satışlar Gün say
(Xi)
(fi)
4
1
5
3
6
6
7
4
8
2
Toplam
16
Veri Düzenleme
Niceliksel (Kantitatif- Ölçülebilen) Verilerin
İstatistik Bölünme Serileriyle Gösterilmesi
• Gruplanmış seri örnekleri
Notlar
Öğrenci
sayısı
0 - 20
Uzunluk
Fert
sayısı
Satışlar
Gün
sayısı
4
140 – 150
2
10 – 30
1
20 – 40
10
150 – 160
5
30 – 40
4
40 – 60
20
160 – 170
12
40 – 50
7
60 – 80
13
170 – 180
10
50 – 70
6
80 –100
3
180 – 190
6
70 – 100
3
Veri Düzenleme
Niceliksel (Kantitatif- Ölçülebilen) Verilerin
İstatistik Bölünme Serileriyle Gösterilmesi
• Kesikli
karakterdeki
niceliksel
verileri
gruplarken
sınıf
aralıklarında boşluklar
oluşur. Yandaki seride
KOBİ’lerde çalışan işçi
sayısı değişkeni kesikli
bir özelliğe sahiptir. Bu
değişken
tamsayı
dışında değerler almaz.
Bu sebeple sınıflar arası
boşluklar oluşur.
Çalışan İşçi KOBİ Sayısı
Sayısı
5 – 14
10
15 – 24
20
25 – 34
25
35 – 44
15
45 – 54
5
Basit ve tasnif edilmiş serinin
Gruplanmış seriye dönüştürülmesi
• Basit ve tasnif edilmiş serilerle verinin anlaşılır hale
gelmesi mümkün olmuyorsa böyle durumlarda veriyi
sınıflara ayırarak gruplanmış seriye dönüştürmek
gerekebilir. Veriyi gruplamak için aşağıdaki Sturges
sınıf aralığı formülü kullanılabilir.
X max  X min
S
1  3,322 log N
• S: Sınıf aralığı
• Xmax: Verinin en büyük değeri
• Xmin: Verinin en küçük değeri
• N: Veri sayısı
Bir verinin gruplanmış seriye
dönüştürülmesi
Öğrencilerin ağırlıkları
37 67 79 58 51 33
53 95 60 64 43 66
81 58 65 50 64 50
70
25
56
46
40
56
59
51
89
57 77
60 57
63 80
77
59
73
• Xmin: 25
Xmax: 95
95  25
S
 11,37  11
1  3,322log 36
• Serinin sınıf aralıkları
11 birim olacak şekilde
gruplanması
uygun
olacaktır.
Bir verinin gruplanmış seriye
dönüştürülmesi
Ağırlıklar
Öğrenci sayısı
25 - 36 dan az
2
36 - 47
“
“
4
47 - 58
“
“
9
58 - 69
“
“
12
69 - 80
“
“
5
80 - 91
“
“
3
91 - 100 “
“
1
Çapraz Tablolar
• Bazı durumlarda değişkenin iki farklı özelliğinin
aynı tabloda eşleştirilmiş olarak gösterilmesi
istenebilir. Böyle durumlarda çapraz tablo
kullanılır. Tabloda satıra istatistik birimlerin bir
özelliği, sütuna diğer özelliği yazılarak ortak
eleman sayıları hücrelere yazılmak suretiyle
çapraz tablolar oluşturulur. Çapraz tablolar hem
niteliksel, hem de niceliksel veriler için
oluşturulabilir. Aşağıda MYO öğrencilerinin mezun
oldukları lise türü ve öğrenim gördükleri bölümlere
göre dağılışı verilmiştir. Bu tablo niteliksel veriler
için düzenlenmiş bir tablodur.
Çapraz Tablo Örneği
Lise Lise
Türü
Bölümler
Çevre
Bilgisayar Kalıpçılık Lojistik Makine Mekatronik
Düz lise
27
11
16
8
17
9
Anadolu
Fen
2
0
0
0
1
0
Ticaret
0
3
5
3
0
2
End.
Meslek
0
9
3
5
5
2
Diğer
3
0
3
0
6
3
Toplam
32
23
27
16
29
16
Verilerin Grafiklerle Gösterilmesi
•Niteliksel seriler ve Tasnif edilmiş seriler için çubuk diyagramı
1
2
3
Öğrenci sayısı
3
7
10
4
6
5
2
Öğrenci sayısı
Notlar
Öğrenci sayısının dağılımı
12
10
8
6
4
2
0
1
2
3
Notlar
4
5
Gruplanmış serinin Histogram grafiği
Bu grafiğin diğer bir ismi sütun grafiğidir. Grafiğin özelliği
sürekli karakterde verilerin grafiği olması sebebiyle
histogram sütunların birbirine bitişik olmasıdır
Gruplanmış serinin Histogram grafiği
• Sınıf aralıkları eşit olmadığı
durumda da histogram grafiği
yine önceki örnekte olduğu gibi
çizilir, yani histogram
sütunlarının alanını frekansa
eşit yapacak şekilde
frekansların yeniden
hesaplanması gerekir. Yanda
öğrenci notları serisi farklı sınıf
aralıkları ile verilmiştir
0 – 5 den az
Öğrenci
sayısı
10
5 – 7 den az
20
7 – 9 dan az
14
9 - 10
5
Notlar
Gruplanmış serinin Histogram grafiği
Notlar
Öğrenci
sayısı
Sınıf
Genişliği
Ayarlanmış
frekans
0–5
10
5
10/5 = 2
5–7
20
2
20/2 = 10
7–9
14
2
14/2 = 7
9 - 10
5
1
5/1 = 5
Eğer seri açık sınıflı ise histogramı
çizilemez. Birinci sınıfın alt limiti veya
son sınıfın üst limiti veya ortadaki
gruplardan birisi yoksa bu seri açık
sınıflı seri olur (20-25 sınıfında 20
veya 25 den birisi yoksa)
Frekans Eğrisi (Poligonu)
Histogram sütunlarının üst orta noktalarından geçen grafiktir.
Bu grafik dağılımın şeklini ortaya koymada kullanılan bir grafiktir.
Not sınıfları
Öğrenci
sayısı
25 – 36 den az
2
36 – 47
47 – 58
58 – 69
69 – 80
80 – 91
“
“
“
“
“
“
“
“
“
“
4
9
12
5
3
91 – 100 “ “
1
Dairesel Grafikler
• Özellikle niteliksel (sayısal olmayan) değişken
değerlerinin grafikle gösterilmesinde kullanılırlar.
Dairenin frekanslara açısal olarak paylaştırılması ile
elde edilir. Bir birimin açısal karşılığı şöyle bulunur.
•
360
360

 3 derece
Açısal değer 
Toplam frekans 120
• Her kategorinin frekansı bu 3 ile çarpılarak dairedeki
açısal değeri bulunur.
Dairesel Grafikler
Mezun old.
Lise
Öğr.
sayısı
Açısal
değer
End. Meslek
Lis.
50
150
Düz Lise
40
120
20
60
10
30
120
360
Ticaret
Lisesi
Diğer
Liseler
Toplam
Zaman Serisi Grafiği (Çizgi Grafiği)
• Zamana bağlı olarak sabit aralıklarla toplanmış olan
verilerin eğilimini ve değişimini izleyebilmek için çizgi
grafiklerinden faydalanılır. Grafikte yatay eksen
zamanı, dikey eksen ise zaman serisi değerlerini
göstermektedir. Zaman serileri artan, azalan,
durağan ya da periyodik değişen veya bu özelliklerin
bir kısmını içeren verilerden oluşur. Nüfus, gelir,
enerji tüketimi, konut sayısı vs. artan zaman
serilerine örnek gösterilebilir. Modası geçen,
teknolojisi eskiyen ürünlerin satışı azalan zaman
serisi niteliğindedir. Konutlarda tüketilen doğalgaz
miktarı, meşrubat tüketimi vb. hem eğilimli hem de
periyodik değişim gösteren bir özelliğe sahiptir.
Artan bir zaman serisi ve grafiği
Yıllar
X malı fiyatı
2000
12
2001
18
2002
15
2003
20
2004
27
2005
24
Dağılım Grafiği
• Aralarında ilişki olduğu düşünülen iki değişkenin
birbirine göre nasıl bir değişim gösterdiğini, nasıl
bir ilişki içinde olduğunu gösteren grafiklerdir.
Genellikle bu değişkenlerden bir etkileyen
(bağımsız, açıklayan), diğeri etkilenen (bağımlı,
açıklanan) değişken olarak ortaya çıkar. Bir malın
fiyatı ile onun talebi arasında ters bir ilişki olduğu
düşünülür. Kişilerin gelirleri ile tüketim harcamaları
arasında pozitif bir ilişkinin olduğu kabul edilir.
Aşağıda öğrencilerin matematik notları ile istatistik
notları arasındaki ilişki dağılım grafiği ile
gösterilmiştir.
Dağılım Grafiği
Matematik
notu
70
25
40
55
90
15
70
Dağılım Grafiği
İstatistik notu
İstatistik
notu
60
30
50
40
80
20
80
90
80
70
60
50
40
30
20
10
0
0
20
40
60
80
Matematik notu
100
Üç boyutlu grafikler
Çapraz tablo şeklindeki verilerin grafikle gösteriminde kullanılır.
Bu grafikte dikey eksen frekansları, yatay eksenler ise
değişkenin iki özelliğini gösterecek şekilde dizayn edilir.
Lise
Çevre
Bilgisa
yar
Kalıp
çılık
Lojis
tik
Düz lise
17
11
6
8
Ticaret
2
0
0
0
Anadolu
0
3
5
13
EML
0
9
15
5
Diğer
3
0
6
0
Merkezi Eğilim Ölçüleri
(Ortalamalar)
• Analitik Ortalamalar
– Aritmetik
– Geometrik
– Harmonik
– Kareli ortalama
• Analitik olmayan ortalamalar
– Mod
– Medyan
– Kartil, Desil ve Santiller
I. Merkezi Eğilim Ölçüleri (Ortalamalar)
•
Bir veri setinin merkez noktasını gösteren, serinin
normal değerinin bir göstergesi olan ve veriyi tek bir
değerle ifade eden değerlere merkezi eğilim ölçüleri adı
verilir. Bir verinin ortalaması onun en küçük ve en
büyük değeri arasında yer alır.
X min Ortalama X max
Ortalamaların Faydaları: Ortalamaların faydaları kısaca
şöyle özetlenebilir.
1. Ortalamalar çoğu zaman serinin normal değerini
gösterir. Tabi bunun için serinin dağılımının da aşırı
çarpık olmaması gerekir.
2. İstatistik analiz işleminin temel elemanlarından biridir.
3. Aynı
birimle
ölçmek
kaydıyla
farklı
serileri
karşılaştırmaya imkan tanır.
4. Tek bir sayı olması sebebiyle hatırda tutulması
kolaydır.
Ortalamalar
verinin
tamamını
kapsayıp
kapsamamasına göre analitik ve analitik olmayan
ortalamalar şeklinde iki grupta incelenir.
1. Analitik (Hassas ortalamalar)
Verideki bütün değerleri dikkate alarak
hesaplanan ortalamalardır. Analitik ortalamalar
verinin özelliğine ve hesap tarzına göre dört farklı
şekilde elde edilir.
1.1. Aritmetik ortalama (X )
1.2. Geometrik ortalama (G)
1.3. Harmonik ortalama (H)
1.4. Kareli ortalama (K).
1.1. Aritmetik ortalama
• Aritmetik ortalama serideki gözlem değerleri
toplamının toplam gözlem sayısına oranıdır.
• Basit seride
X 1  X 2  ...........  XN  X i
X

N
N
f 1 X 1  f 2 X 2  .... fkXk  f i X i

• Tasnif edilmiş seride X 
f 1  f 2  .... fk
 fi
• Gruplanmış seride
f m  f 2 m2 .... f k mk
X  1 1

f1  f 2  .... f k
fm
f
Xi : i. gözlem değeri
fi : i. değerin frekansı
mi : i. sınıfın orta noktası N : toplam gözlem sayısı
i
i
i
• Örnek: Adapazarı'nda nisan ayı ortalama yağışlarını tahmin
etmek için geçmiş nisan ayı yağış rakamlarından rasgele 7
tanesi seçilmiş ve aşağıdaki sonuçlar elde edilmiştir. Bu
verilerden hareketle Adapazarı'nda nisan ayı yağışlarının
aritmetik ortalamasını hesaplayınız.
Nisan ayı yağışları (Kg)
(Xi)
60
75
80
100
120
130
155
∑Xi=720
X 1  X 2  ...........  XN
X
N
X i 720

X

N
7
X  102,86 Kg
Örnek Bir işletmede aynı parçayı üreten işçilerin bu
parçayı üretim sürelerinin dağılımı aşağıdaki gibi
gözlenmiştir. Parça üretim süresinin aritmetik
ortalamasını bulunuz.
5
Parça üretim İşçi
süresi(dk)(Xi) sayısı (f )
i
fi.Xi
12
2
24
13
5
65
14
10
140
X 

fiXi
i 1
5

fi
398

28
i 1
X  1 4,2 1d k.
12
10
15
16
7
4
105
64
8
6
4
2
0
Toplam
28
398
12
13
14
15
16
Örnek Bir işyerinde yapılan telefon görüşmelerinin
süresinin dağılımı için aşağıdaki gruplanmış seri verilmiştir.
Buna göre görüşme süresinin aritmetik ortalamasını
bulunuz.
k
Görüşme Görüşme
süresi
sayısı (fi)
mi fimi
0 - 2
1
5
X 
5

f i mi
i 1
k

fi

670
110
i 1
2 - 4
10
3
30
4 - 6
40
5
200
X  6,0 9 d a kika
45
40
6 -8
30
7
210
35
30
25
8 - 10
Toplam
25
110
9
225
670
20
15
10
5
0
1
3
5
7
9
Tartılı Aritmetik Ortalama
• Bir serideki gözlem değerlerlerinin önem dereceleri farklı
olursa, bu tür serilerin aritmetik ortalaması tartılı olarak
hesaplanır. Bunun için önem derecesini gösteren katsayılar
(tartılar) kullanılır. Örnek olarak öğrencilerin ortalama
notlarını hesaplarken derslerin kredileri tartı olarak
düşünülürken, ücretlerin belirlenmesinde kıdem tartı olarak
kabul edilebilir.
ti X i

XT 
• Basit seride
 ti
• Tasnif edilmiş seride
XT
• Gruplanmış seride
XT
t f X


t f
t fm


t f
i
i
i
i
i
i
i
i
i
i
Örnek Aşağıda bir öğrencinin almış olduğu dersler, notları
ve kredileri verilmiştir. Not ortalamasını tartılı aritmetik
ortalama cinsinden hesaplayınız.
Dersler
Notlar
(Xi)
Kredi
(ti)
tiXi
İstatistik
70
3
210
Matematik
60
4
240
Fizik
50
3
150
Kimya
80
2
160
Toplam
260
ti=12
tiXi=760
XT
tX


t
i
i
i
760

12
X T  63,33 puan
Örnek Bir işletmede işçilerin saat ücretleri çalıştıkları süre (kıdem)
dikkate alınarak belirlenmektedir. Veriler aşağıdaki gibi olduğuna göre
bu işletmede ortalama saat ücretini tartılı aritmetik ortalama cinsinden
hesaplayınız.
Saat ücreti
(TL)
İşçi sayısı
(fi)
Ortalama
kıdem
(ti)
mi
f it i
fitimi
fimi
1.00 – 1.40
10
2.5
1.20
25
30.0
12.00
1.40 – 1.60
30
5.0
1.50
150
225.0
45.00
1.60 – 1.80
50
9.5
1.70
475
807.5
85.00
1.80 – 2.00
15
13.0
1.90
195
370.5
16.90
2.00 – 2.50
5
18.0
2.25
90
202.5
11.25
Toplam
110
935
1635.5
170.15
ftm

X
 ft
i i
i i
i
1635,5

 X  1,75 TL / saat
935
Tartılı aritmetik ortalamanın kullanıldığı yerler
- Veriler arasında önem farkı bulunması halinde kullanılır.
- Oranların ve ortalamaların ortalaması hesaplanırken kullanılır.
- Ortalama maliyet ve satış fiyatı, bileşik fiyat ve miktar
indekslerinin hesaplanmasında da tartılı ortalama kullanılır.
Örnek Bir işletmede bulunan üç tezgahın belli bir günde
ürettikleri malların sayısı ve üretimlerindeki kusurlu oranları
aşağıdaki tabloda verilmiştir. Buna göre bu tezgahların ürettiği
mamul kütlesinin kusurlu oranını bulunuz.
Tezgah
lar
Üretim
miktarı
(ti)
Kusurlu
oranı
(Xi)
tiXi
A
100
0.03
3
B
200
0.05
10
C
50
0.01
0.5
 ti = 350
Xi = 0.09
tiXi = 13.5
XT
tX


t
i
i

i
X T  0,03857
13,5
350
Aritmetik ortalamanın özellikleri
Aritmetik ortalama hassas bir ortalama olup serideki aşırı
değerlerden etkilenir ve aşırı değere doğru kayma gösterir.
2 - Serinin gözlem sayısı ile aritmetik ortalaması çarpılırsa
serinin toplam değeri elde edilir. NX   X i
3- Serideki gözlem değerlerinin aritmetik ortalamadan
sapmaları toplamı sıfır olur.
1-
(X
i
 X)   Xi
X

 NX 
N
i
NX

 X X 0
N
4- Serideki değerlerin aritmetik ortalamadan sapmalarının
kareleri toplamı minimum olur. ( X i  X ) 2  Minimum
5- Aritmetik ortalama özellikle normal dağılıma yakın serilerin
ortalaması için elverişlidir.
6-
Bir serinin değerleri, diğer iki serinin değerleri toplamından
oluşuyorsa bu serinin aritmetik ortalaması da diğer iki serinin
aritmetik ortalamaları toplamına eşit olur. X =Y +Z