Statystyka- wykład 2 (tabele)

Download Report

Transcript Statystyka- wykład 2 (tabele)

Prezentacja danych liczbowych
Wykład 2
dr Małgorzata Radziukiewicz
Prezentacja danych liczbowych
• Materiał liczbowy zebrany w trakcie badania
statystycznego może być przedstawiony na trzy
sposoby:
• 1. tabelarycznie
• 2. graficznie
• 3. parametrycznie
• Podstawowym narzędziem opisu badanej
populacji jest tzw. szereg statystyczny (szereg
liczbowy, szereg empiryczny)
• Szczególną rolę wśród szeregów
statystycznych odgrywa szereg rozdzielczy
- Szereg rozdzielczy rozdziela całą populację na grupy według
wariantów badanej cechy
- Zazwyczaj szeregi rozdzielcze przedstawiamy w formie
tablic
Zestawienie danych w tablicę statystyczną
• Tablica statystyczna składa się z 2-óch kolumn
- 1-a kolumna – podajemy warianty badanej cechy w formie
uporządkowanej, tzn. od najmniejszej do największej lub odwrotnie
- 2-ga kolumna – podajemy liczbę jednostek posiadających dany wariant
cechy
Tablica 1. Schemat tablicy wynikowej
Poziomy cechy - x
x1
…
xk
Razem
Liczba jednostek
n1
…
nk
n
Przykład 1.
populacja – ludność Polski w 2000 roku wg. stanu na 31.06.2000 r.
(38646 tys.)
badana cecha – płeć
warianty cechy – mężczyźni, kobiety
Płeć
W tysiącach osób
Mężczyzna
18777
Kobieta
19869
Niekiedy zamiast liczebności przyporządkowanych poszczególnym
wariantom cechy posługujemy się częstościami
Częstości to udziały liczebności poszczególnych grup w ogólnej
liczebności całej populacji
Tablica 2. Schemat tablicy wynikowej
Poziomy cechy
Liczebności
Częstości
xi
x1
…
xk
Razem
ni
(odsetek ogółu) wi
n1
…
nk
n
w1
…
wk
1,00 lub 100%
Przykład 2.
populacja – ludność Polski w 2000 roku wg. stanu na
31.06.2000 r. (38646 tys.)
badana cecha – miejsce zamieszkania
warianty cechy – miasto (M), wieś (W)
Liczebności
(w tys. osób)
Częstości
Miasto
23897
0,618 lub 61,8%
Wieś
14749
0,382 lub 38,2%
Razem
38646
1,000 lub 100%
Miejsce
zamieszkania
Dwa podstawowe kanony szeregowania zbioru
• musi być ono rozłączne, tzn. poszczególne warianty cechy
(grupy) nie mogą wzajemnie zachodzić na siebie (w
przykładzie 1 osoba może być albo kobietą albo mężczyzną, w
przykładzie 2 jedna i ta sama osoba może być mieszkańcem
miasta albo wsi)
• musi być ono zupełne, tzn. warianty cechy muszą
wyczerpać wszystkie jednostki wchodzące w skład populacji.
( z ogólnej liczebności 38646 tys. mieszkańców Polski
przyporządkowano je w całości poszczególnym odmianom
cechy)
Przykład 3
populacja –studenci statystyki WSMiZ w Sochaczewie
badana cecha – waga (w kg)
ilość wariantów cechy bardzo duża 68,63,67,65,69,72,62,64,66,68,66,62,60,70,71,63,67,
63,66,65,69,67,72,68,74,65,66,61,64,61,62,64,65,65,
71,64.
Komentarz: Przyglądając się powyższym liczbom bardzo
trudno określić jakieś wzory czy relacje między studentami.
Aby odkryć pewne relacje należy uporządkować liczby w
następującej kolejności:
60,61,61,62,62,62,63,63,63,64,64,64,64,65,65,65,65,65,6
6,66,66,66,67,67,68,68,68,68,69,69,70,71,71,72,72,74.
Wartości te porządkujemy tak, aby xmin = x1 < x2 < … < xk = xmax ,
gdzie xmin oraz xmax oznaczają kolejno najmniejszą i największą
wartość cechy zaobserwowanej w badanej zbiorowości.
Komentarz:
Najmniejsza waga studenta to 60 kg, największa to 74 kg.
Różnica między maksymalną a minimalną wagą wynosi 14 kg.
Różnica powyższa jest znana w statystyce jako rozstęp.
Rozstęp = największa wartość cechy - najmniejsza
wartość cechy
Komentarz: Studentów z najniższą wagą - 60 i 61 kg - jest niewielu,
również niewielu jest studentów z wagą powyżej 70 kg. Najwięcej
studentów ma wagę od 62 do 68 kg.
Pytanie?
Jak często dana miara występuje? Ilu studentów ma tę samą wagę?
Liczebność = liczba wystąpień pomiaru
Pokażemy liczbę występowania każdej z wag w tablicy 1.
Tablica 1.
waga liczebność waga liczebność
60
61
62
63
64
65
66
67
1
2
3
3
4
5
4
2
68
69
70
71
72
73
74
4
2
1
2
2
0
1
Wadą tablicy 1 jest to, iż liczba poszczególnych miar wagowych
jest duża, zaś częstość ich wystąpień niewielka. Np. waga równa
73 kg w ogóle nie występuje.
W tej sytuacji lepiej połączyć dane dotyczące wagi
studentów w grupy lub klasy.
Np. możemy pogrupować je w następujące klasy:
60-62, 63-65, 66-68, 69-71, 72-74.
Powyższe liczby pokazują początek (x0i) i koniec każdej
klasy (x1i) i znane są jako
przedziały klasowe ( x0i - x1i ) dla i=1,2,…k gdzie k – liczba klas
Przedziały klasowe są najmniejszymi i największymi
wartościami danych dla klasy
Obecnie możemy skonstruować tablicę 2, która powie nam ile
zdarzeń jest w każdej klasie
Tablica 2.
1
2
Przedziały klasowe
x0i – x1i
60 – 62
63 – 65
Liczebność
ni
6
12
3
4
5
66 – 68
69 – 71
72 - 74
10
5
3
Klasa
i
• Tablica 2 pokazuje nam jak miary wagowe są
rozłożone i jaką mają rozpiętość.
• Tablicę 2 nazywamy tablicą rozkładu liczebności lub
prościej rozkładem liczebności.
Uwaga!!!
• Rozkład liczebności (częstości absolutnych) możemy
skonstruować dla każdego zbioru danych wcześniej
porządkowanego rosnąco lub malejąco.
Przy konstrukcji tablicy rozkładu liczebności należy uwzględnić:
• rozkład liczebności powinien zawierać minimum 5 klas i nie
przekraczać 20. Dane o niewielkiej liczebności powinny
zawierać od 5 do 10 klas. Dla dużych zbiorów danych
przyjmuje się liczbę klas nie większą niż 20.
• każda miara może trafić tylko do jednej klasy.
• największa wartość w klasie powinna być o 1 mniejsza od
najmniejszej wartości w następnej klasie. Jeśli w danej klasie
nie występują żadne wartości (zerowa liczebność), wtedy klasa
ma zerową częstość.
• poszczególne klasy powinny mieć tę samą rozpiętość.
Rozpiętość przedziału klasowego możemy obliczyć
następująco:
rozpiętość klasy = (max – min) / liczba klas
Przy konstrukcji tablicy rozkładu liczebności należy uwzględnić:
• jeżeli z obliczeń nie otrzymamy liczby całkowitej, zwykle
zaokrąglamy do kolejnej liczby całkowitej (w naszym
przypadku (74-60) / 5 = 2,8  3 )
• czasami pożądane jest aby przedział pierwszy miał tylko górną
granicę, a przedział ostatni tylko dolną granicę ( np. „poniżej
60” i „powyżej 74” )
• czasami pożądana jest znajomość częstości względnych
(stosunkowych) tj. udziału części do całości zbiorowości.
W naszym przypadku w pierwszym przedziale klasowym
znalazło się 6 studentów na ogólną ich liczbę 36 ( wagę od 60
do 62 kg miało 6-iu spośród 36 studentów). Obliczamy to
następująco: 6 / 36 = 0,167 = 16,7%  17%. Wartość 0,167 lub
16,7% jest częstością względną dla pierwszej klasy.
Częstość względna klasy = liczebność klasy /
liczebność ogółu zbiorowości
Tablica 3
Klasa
i
Przedziały klasowe
x0i – x1i
Liczebność
ni
Częstości
względne wi
(wskaźnik
struktury)
1
2
3
4
60 – 62
63 – 65
66 – 68
69 – 71
6
12
10
5
6/36 = 0,167
12/36 = 0,333
10/36 = 0,278
5/36 = 0,139
5
72 - 74
3
3/36 = 0,083
Częstości względne wi mogą być podane w %
Tablica 4.
Przedziały
klasowe
x0i – x1i
Liczebność
ni
1
2
3
4
60 – 62
63 – 65
66 – 68
69 – 71
6
12
10
5
16,7%
33,3%
27,8%
13,9%
5
72 - 74
3
8,3%
Klasa
i
Częstości
względne wi
(struktura w %)
● tablica rozkładu liczebności może zawierać również kolumnę
pokazującą skumulowane liczebności dla wszystkich klas
● końcowa wartość skumulowanych liczebności jest dokładnie
równa całkowitej liczebności badanej zbiorowości
Tablica 5
i
Przedziały
klasowe
x0i – x1i
Liczebność
ni
Skumulowane
liczebności
1
2
3
4
60 – 62
63 – 65
66 – 68
69 – 71
6
12
10
5
6
18
28
33
5
72 - 74
3
36
Klasa
● tablica rozkładu liczebności może zawierać również kolumnę
pokazującą skumulowane częstości dla wszystkich klas
● suma względnych częstości nie jest zawsze dokładnie równa 1
(100%). Dlatego powinniśmy oczekiwać przybliżonych wartości
dla częstości względnych
Tablica 6
i
Przedziały
klasowe
x0i – x1i
Częstości
względne
wi
Skumulowane
częstości
względne
1
2
60 – 62
63 – 65
0,167
0,333
0,167
0,500
3
66 – 68
0,278
0,778
4
5
69 – 71
72 - 74
0,139
0,083
0,917
1,000
Klasa
• Wybór co do liczby klas jest zawsze subiektywny.
• Brak jest zasad dotyczących stosowanych granic przedziałów
klasowych, ale zawsze pożądana jest ta sama rozpiętość
przedziałów klasowych.
• Jeśli rozpatrzymy tę samą zbiorowość danych i uporządkujemy je
według innych granic przedziałów klasowych to rezultaty będą
zupełnie inne.
•
Przykład 3 c.d.
populacja – studenci statystyki WSMiZ w Sochaczewie (36 studentów)
badana cecha – waga (w kg)
ilość wariantów cechy bardzo duża 68,63,67,65,69,72,62,64,66,68,66,62,60,70,71,63,67,63,66,65,69,67,72,68,74,65,66,61,
64,61,62,64,65,65,71,64.
Dla powyższego zestawu danych zbudować rozkład częstości dla k=8 klas.
Tablica 7.
rozpiętość przedziałów klasowych - (74-60)/8= 1,75 ≈ 2
i
Przedziały
klasowe
x0i – x1i
Liczebność
ni
1
2
60-61
62-63
3
6
3
4
5
64-65
66-67
68-69
9
7
5
6
7
8
70-71
72-73
74-75
3
2
1
Klasa