Beschrijvende statistiek

Download Report

Transcript Beschrijvende statistiek

Beschrijvende statistiek




Inleiding
Beschrijving van een verdeling mbv tabellen en figuren
Kengetallen
Het beschrijven van verbanden tussen twee variabelen
Beschrijvende statistiek

Inleiding
beschrijvende vs inferentiele statistiek
kwalitatieve variabelen
nominale variabelen
ras, geslacht, bloedgroep,...
ordinale variabelen
behandelingsresultaat, SES, opleidingsniveau,…
categorisch: polytoom vs. dichotoom
numerieke variabelen
numeriek discrete variabelen
aantal kinderen in gezin, …
numeriek continue variabelen
lichaamslengte, bloeddruk, lichaamstemperatuur,…
ratioschaal vs intervalschaal
Beschrijvende statistiek

Inleiding: data-set: astma-studie
VARIA BLE SPECIFICATIONS:
No
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Name
Q5
Q13
AREA 2
LEEFTIJD
LFTDSGRP
GESLACHT
ANAM NESE
ATOPIE
ROK EN
JOBBLO OT
CEN SOR
T1
CEN SOR2
T2
SAM PLE
Format
3.0
3.0
6.0
8.2
9.0
8.0
9.0
8.0
6.0
9.0
7.0
5.0
7.0
5.0
6.0
MD Code
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
-1
Lon g Label
WAK KER KORTA DEM IG 12M
OO IT A STMA GEHAD
REGIO (0=ZUID, 1=CENTRUM)
5-jaarsgroepen vanaf 20
0 = vrouw, 1 = man
0 = negatief, 1 = pos.astma, 2 = atopie
ROOKGED RAG (NO OIT, EX-, <20, VANAF 20)
OO IT JO B DAM PEN,GASSEN ,STOF,ROO K
SPSS
Statistica
Excel
Beschrijvende statistiek
data file: 2.STA [ 1121 cases with 15 variables ]
1
2
3
4
5
6
7
8
9
10
1
2
3
Q5
Q13
ARE A2
L EE FTIJD
0
0
0
0
0
0
1
0
0
0
0
0
0
0
0
0
0
0
0
0
1
1
1
1
1
1
1
1
1
1
24,43
23,10
34,34
33,51
39,76
28,08
44,72
29,05
43,84
38,37
11
C EN SO R
1
2
3
4
5
6
7
8
9
10
1
1
1
1
1
1
1
1
1
1
12
T1
25
23
34
33
40
28
45
29
44
39
13
CE NSO R2
1
1
1
1
1
1
1
1
1
1
4
14
T2
20
20
20
20
20
20
20
20
20
20
5
6
L FTD SG RP G ES LA CH T
1
1
3
3
4
2
5
2
5
4
1
1
1
0
1
0
0
1
1
1
7
8
A NA M NE SE A TO PIE
0
2
0
0
0
1
2
2
2
0
0
1
0
0
0
1
1
1
1
0
9
10
ROK EN
JOBBL OO T
0
0
0
0
1
0
1
0
0
3
0
0
0
0
0
0
0
0
1
1
15
SA M PL E
2
2
2
2
2
2
2
2
2
2
SPSS
Statistica
Beschrijvende statistiek

Beschrijving van een verdeling m.b.v. tabellen en figuren
kwalitatieve variabelen
frequentieverdeling
STAT.
BASIC
STATS
ANAMNESE: 0 = negatief, 1 = pos.astma, 2 = atopie (2.sta)
Count
Cumul.
Count
Percent
of Valid
Cumul %
of Valid
% of all
Cases
Cumul. %
of All
G_1:0
G_2:1
G_3:2
513
166
383
513
679
1062
48,30508
15,63089
36,06403
48,3051
63,9360
100,0000
45,76271
14,80821
34,16592
45,7627
60,5709
94,7368
Missing
59
1121
5,55556
5,26316
100,0000
Category
SPSS
Statistica
Beschrijvende statistiek

Beschrijving van een verdeling m.b.v. tabellen en figuren
kwalitatieve variabelen
staafdiagram
A
N
A
M
N
E
S
E
: 0=
n
e
g
a
ti
e
f, 1=
p
o
s
.a
s
tm
a
, 2=
a
to
p
e
i
6
0
0
5
5
0
5
0
0
4
5
0
4
0
0
Noofobs
3
5
0
3
0
0
2
5
0
2
0
0
1
5
0
1
0
0
SPSS
5
0
0
Statistica
G
_
1
:0
G
_
2
:1
C
a
te
g
o
ry
G
_
3
:2
Beschrijvende statistiek

Beschrijving van een verdeling m.b.v. tabellen en figuren
numerieke continue variabelen
frequentieverdeling
SPSS
STAT.
BASIC
STATS
Category
15,000 < x <= 20,000
20,000 < x <= 25,000
25,000 < x <= 30,000
30,000 < x <= 35,000
35,000 < x <= 40,000
40,000 < x <= 45,000
45,000 < x <= 50,000
Missing
Statistica
LEEFTIJD (2.sta)
Count
Cumul.
Count
Percent
of Valid
Cumul %
of Valid
% of all
Cases
Cumul. %
of All
0
165
273
226
208
225
24
0
165
438
664
872
1097
1121
0,00000
14,71900
24,35326
20,16057
18,55486
20,07136
2,14095
0,0000
14,7190
39,0723
59,2328
77,7877
97,8591
100,0000
0,00000
14,71900
24,35326
20,16057
18,55486
20,07136
2,14095
0,0000
14,7190
39,0723
59,2328
77,7877
97,8591
100,0000
0
1121
0,00000
0,00000
100,0000
Beschrijvende statistiek

Beschrijving van een verdeling m.b.v. tabellen en figuren
numerieke continue variabelen
histogram
H
s
i
to
g
ra
m
(2
.S
T
A
1
5
v
*
1
1
2
1
c
)
3
3
0
3
0
8
2
8
6
2
6
4
2
4
2
2
2
0
1
9
8
Noofobs
1
7
6
SPSS
1
5
4
1
3
2
1
1
0
8
8
Statistica
6
6
4
4
2
2
0
<
=
2
0
(2
0
;2
5
]
(2
5
;3
0
]
(3
0
;3
5
]
L
E
E
F
T
IJ
D
(3
5
;4
0
]
(4
0
;4
5
]
>
4
5
Beschrijvende statistiek

Beschrijving van een verdeling m.b.v. tabellen en figuren
numerieke continue variabelen
frequentiepolygoon
L
E
E
F
T
IJ
D
4
0
0
3
5
0
3
0
0
Noofobs
2
5
0
2
0
0
1
5
0
SPSS
Statistica
1
0
0
5
0
0
1
5
2
0
2
5
3
0
3
5
U
p
p
e
rB
o
u
n
d
a
ri
e
s(x<
=
b
o
u
n
d
a
ry
)
4
0
4
5
5
0
Beschrijvende statistiek

Beschrijving van een verdeling m.b.v. tabellen en figuren
numerieke continue variabelen
histogram
O
P
P
S
h
a
p
iro
-W
ilkW
=
,9
5
9
5
7
,p
<
,2
6
7
4
5
4
Noofobs
3
2
1
Statistica
0
8
0 1
0
0 1
2
0 1
4
0 1
6
0 1
8
0 2
0
0 2
2
0 2
4
0 2
6
0 2
8
0 3
0
0
U
p
p
e
rB
o
u
n
d
a
rie
s(x<
=b
o
u
n
d
a
ry)
E
xp
e
cte
d
N
o
rm
a
l
Beschrijvende statistiek

Beschrijving van een verdeling m.b.v. tabellen en figuren
numerieke continue variabelen
frequentiepolygoon
O
P
P
S
h
a
p
iro
-W
ilkW
=
,9
5
9
5
7
,p
<
,2
6
7
4
5
4
Noofobs
3
2
1
Statistica
0
8
0 1
0
0 1
2
0 1
4
0 1
6
0 1
8
0 2
0
0 2
2
0 2
4
0 2
6
0 2
8
0 3
0
0
U
p
p
e
rB
o
u
n
d
a
rie
s(x<
=b
o
u
n
d
a
ry)
E
xp
e
cte
d
N
o
rm
a
l
Beschrijvende statistiek
Kengetallen

Kwalitatieve variabelen: meestal niet nodig. evt. een modale categorie
Numerieke (kwantitatieve) variabelen: karakterisering van de verdeling a.h.v.:
kengetallen voor centraal niveau en voor spreiding.
Kengetallen voor het centrale niveau
rekenkundig gemiddelde
mediaan of 50e percentiel
andere percentielen
STAT.
BASIC
STATS
Variable
LEEFTIJD
SPSS
Statistica
Descriptive Statistics (2.sta)
Valid N
Mean
Median
Minimum
Maximum
Lower
Quartile
Upper
Quartile
1121
33,05964
32,63039
20,50445
45,83778
27,40931
39,21492
Beschrijvende statistiek

Kengetallen
Mediaan of gemiddelde ?
meestal gemiddelde
nadeel: gevoeliger voor uitschieters dan mediaan
mediaan ook bruikbaar voor ordinale variabelen
symmetrische verdeling: gemiddelde = mediaan
niet symmetrische verdeling: voorkeur voor mediaan
Beschrijvende statistiek

Kengetallen
Kengetallen voor spreiding
SPSS
Spreidingsbreedte
Percentielafstanden (interkwartielafstand)
Standaardafwijking
Variatiecoëfficiënt
STAT.
BASIC
STATS
Variable
LEEFTIJD
Statistica
Descriptive Statistics (2.sta)
Valid N
Mean
Median
Minimum
Maximum
Lower
Quartile
1121
33,05964
32,63039
20,50445
45,83778
27,40931
Upper
Quartile
Quartile
Range
Std.Dev.
39,21492
11,80561
6,972011
Beschrijvende statistiek

Kengetallen
Kengetallen voor spreiding: Box-whisker plot
Spreidingsbreedte, interpercentiel afstand
B
o
x&
W
h
s
i
k
e
rP
o
l
t
4
8
4
2
3
6
SPSS
Statistica
3
0
2
4
1
8
L
E
E
F
T
IJ
D
M
a
x=
4
5
,8
3
7
7
8
M
n=
i
2
0
,5
0
4
4
5
7
5
%
=
3
9
,2
1
4
9
2
2
5
%
=
2
7
,4
0
9
3
1
M
e
d
a
i
nv
a
u
l
e
:
M
e
d=
3
2
,6
3
0
3
9
Beschrijvende statistiek

Kengetallen
Kengetallen voor spreiding: Box-whisker plot
Standaardafwijking
B
o
x&
W
h
s
i
k
e
rP
o
l
t
5
2
4
6
4
0
3
4
SPSS
2
8
Statistica
2
2
1
6
L
E
E
F
T
IJ
D
±
1
.9
6
*
S
tD
e
v
±
1
.0
0
*
S
td
.D
e
v
.
S
td
.D
e
v
.=
6
,9
7
2
0
1
2
M
e
a
n=
3
3
,0
5
9
6
1
Beschrijvende statistiek

Het beschrijven van verbanden tussen twee variabelen
Twee kwalitatieve variabelen: de kruistabel
STAT.
BASIC
STATS
2-Way Summary Table: Observed Frequencies (2.sta)
Marked cells have counts > 10
GESLACHT: 0 = vrouw, 1 = man
Q5
G_1:0
Q5
G_2:1
Row
Totals
G_1:0
G_1:1
468*
588*
20*
42*
488
630
Totals
1056
62
1118
STAT.
BASIC
STATS
SPSS
Statistica
2-Way Summary Table: Observed Frequencies (2.sta)
Marked cells have counts > 10
GESLACHT: 0 = vrouw, 1 = man
ROKEN
G_1:0
ROKEN ROKEN
G_2:1
G_3:2
ROKEN
G_4:3
Row
Totals
G_1:0
G_1:1
199*
282*
91*
150*
97*
109*
103*
90*
490
631
Totals
481
241
206
193
1121
Beschrijvende statistiek

Het beschrijven van verbanden tussen twee variabelen
Eén kwalitatieve en één continue variabele: Box-whisker plot
B
o
x&
W
h
s
i
k
e
rP
o
l
t: L
E
E
F
T
IJ
D
4
8
4
2
LEEFTIJD
3
6
3
0
2
4
SPSS
1
8
0
1
G
E
S
L
A
C
H
T
Statistica
M
n
i
-M
a
x
2
5
%
-7
5
%
M
e
d
a
i
nv
a
u
l
e
Beschrijvende statistiek

Het beschrijven van verbanden tussen twee variabelen
Eén kwalitatieve en één continue variabele
H
s
i
to
g
ra
m
:L
E
E
F
T
IJ
D
1
9
2
1
6
0
1
2
8
Noofobs
9
6
6
4
SPSS
Statistica
3
2
0
1
5
2
0
2
5
3
0
3
5
G
E
S
L
A
C
H
T
:0
4
0
4
5
5
01
5
2
0
2
5
3
0
3
5
G
E
S
L
A
C
H
T
:1
4
0
4
5
5
0
Beschrijvende statistiek

Het beschrijven van verbanden tussen twee variabelen
Twee continue variabelen: spreidingsdiagram (scatter plot)
HGB
S
c
a
tte
rp
o
l
t (B
e
k
p
b
9
7
.S
T
A
8
v
*
1
1
7
c
)
SPSS
Statistica
2
0
1
9
1
8
1
7
1
6
1
5
1
4
1
3
1
2
1
1
1
0
9
8
7
6
5
4
3
2
1
0
2
6
1
0
1
4
1
8
P
B
2
2
2
6
3
0
3
4
Beschrijvende statistiek

Het beschrijven van verbanden tussen twee variabelen
Twee continue variabelen: spreidingsdiagram (scatter plot)
S
c
a
tte
rp
o
l
t (S
A
R
C
.S
T
A
2
1
v
*
9
9
c
)
3
,2
2
,6
DNAIND
2
,0
1
,4
0
,8
SPSS
Statistica
0
,2
5
6
7
8
D
IA
M
9
1
0
Beschrijvende statistiek

Het beschrijven van verbanden tussen twee variabelen
Twee continue variabelen: spreidingsdiagram (scatter plot)
2
8
2
4
2
0
TTT
1
6
1
2
8
Statistica
4
0
2
0
3
0
4
0
5
0
6
0
L
e
e
ftijdinja
re
n
7
0
8
0
9
0
Kans en enkele basiseigenschappen

Kans op de gebeurtenis (ziekte, genezing, sterfte,…) in ‘de’
populatie
– Wat betekent deze uitspraak?
– Wat is kans?
– Wat is ‘de’ populatie

Voorbeeld 1:
– werp 100 maal een muntstuk op en noteer (cumulatief) het aantal malen
kruis. Zet de fractie kruis uit tegen het aantal herhaalde worpen.
– Empirische wet van de grote getallen.
NDEWORPKRUISMUNCUMKRUISCUMFRKR
1
0
0
0
2
0
0
0
3
1
1 0,333333
4
1
2
0,5
5
0
2
0,4
6
1
3
0,5
7
1
4 0,571429
8
1
5
0,625
9
0
5 0,555556
10
0
5
0,5
11
1
6 0,545455
12
1
7 0,583333
13
1
8 0,615385
14
1
9 0,642857
15
1
10 0,666667
16
0
10
0,625
17
1
11 0,647059
18
0
11 0,611111
19
1
12 0,631579
20
0
12
0,6
21
1
13 0,619048
22
0
13 0,590909
23
0
13 0,565217
24
0
13 0,541667
25
1
14
0,56
26
1
15 0,576923
27
0
15 0,555556
28
1
16 0,571429
29
1
17 0,586207
30
0
17 0,566667
Kans en enkele basiseigenschappen
Empirische wet van de grote getallen
1
,0
0
,9
0
,8
0
,7
0
,6
Fractiekruis

0
,5
0
,4
0
,3
0
,2
0
,1
0
,0
0
2
0
4
0
6
0
A
a
n
ta
lw
o
rp
e
n
8
0
1
0
0
Kans en enkele basiseigenschappen

Kans op de gebeurtenis (ziekte, genezing, sterfte,…)

Voorbeeld:
– werp 100 maal een dobbelsteen en noteer (cumulatief) het aantal malen
een. Zet de fractie een uit tegen het aantal herhaalde worpen.
– Empirische wet van de grote getallen.
Kans en enkele basiseigenschappen
Empirische wet van de grote getallen
1
,0
0
,9
0
,8
0
,7
0
,6
Fractieeen

0
,5
0
,4
0
,3
0
,2
0
,1
0
,0
0
2
0
4
0
6
0
A
a
n
ta
lw
o
rp
e
n
8
0
1
0
0