Transcript 第三章

第三章 样本特征数
主讲教师:王丽艳 徐栋
样本特征数:
集中位置量数:反映数据集中趋势的特征数。
如平均数、中位数和众数等。
离中位置量数:反映数据离散趋势的特征数。
如方差、标准差和变异系数等。
第一节 集中位置量数
一、算术平均数
1.小样本资料平均数的计算
x

x
n
fd

i
2.大样本资料平均数的计算 x  A 
n
A— 假定均数,一般选取频数最多的那组的组中值。
x  A
d — 组序差(缩减值或简化后的组中值) d 
.由于等距分
i
组(即 i 相等), d 值是有规律的,A 所在组d=0, 向上
依次是-1,-2,-3……..向下依次为1,2,3……。
例:120名18岁女孩身高如下表,求平均数.
f
x
d
fd
fd 2
F
(1)
(2)
(3)
(4)
(5)
(6)
(7)
147~
149~
151~
153~
155~
157~
159~
161~
163~
165~
167~
169~
171~
1
4
8
11
14
15
20
15
11
10
6
4
1
160
-6
-5
-4
-3
-2
-1
0
1
2
3
4
5
6
-6
-20
-32
-33
-28
-15
0
15
22
30
24
20
6
36
100
128
99
56
15
0
15
44
90
96
100
36
1
5
13
24
38
53
73
88
99
109
115
119
120
815
-
组限
∑
120
-17
fd
 17

x  A
 i  160 
 2  159.7
n
120
练习:某校150名男生60米跑成绩如表,求 x
fd
 26

x  A
 i  8.85 
 0.3  8.80
n
150
二、中位数
Md
(一)定义:将一组数据按大小顺序排列,位置居中的数。
(二)适用条件:适用于在一组变量中,大部分较集中,只有少数
的甚至个别的分散在一侧的资料,它不受极端
数据的影响。
x是描述数据集中趋势较好的指标,但因与资料中的每个
变量值都有关,灵敏性较高,易受极端数据的影响,为避免极端
数据的影响,最好用 Md 表示集中趋势。
(三)计算
1.小样本资料
Md
的计算
(1)n为奇数: M d  x n 1
2
(2)n为偶数:为位置居中间的两个数的均值,即有序数
n
n
列中第
和 2 1 位所对应的两个数的均值。
2
i n
2.大样本资料 M d 的计算 M d  L  (  F )
f 2
L— 中位数所在组的下限
f — 中位数所在组的频数
F — 中位数所在组前一组的累计频数
例:120名18岁女孩身高如下表,求
Md
n/2=60
M d在159-组
i n
2 120
M d  L  (  F )  159  (
 53)  159.7
f 2
20 2
练习:某年级立定跳远成绩如下表,求 M
d
n/2=80
Md
在2.3-组
i n
0.1
M d  L  (  F )  2.35 
(80  61)  2.35
f 2
160
三、众数 M o
众数也是集中位置量数的一种。它是一组
数据中出现次数最多的那个数,用 M o 表示。
众数的计算有理论众数和粗略众数两种方法。
四、x、Md、MO 三者的关系(数据呈正态分布)
第二节 离中位置量数
一、极差(全距)
【优点】是反映离散程度一种简单的方法,可作为一
种辅助指标,以便大体了解数据的扩散程度。
【缺点】1、由于极端值的偶然性,会影响它的可靠
性和稳定性。
2、未把观察值都考虑进去,在分析资料中有
很大的局限性。
二、方差
S2 
2
(
x

x
)

n 1
x  x 离均差(每一个实测值与均数之差)
n 1 自由度(能够独立自由变化的变量个数)
【缺点】方差的单位与原观察值的单位不一致,如身
高原来的单位是 cm ,而方差的单位就成了
cm2 ,为统一单位,方差开方便得到了S。
三、标准差
(一)计算
1. 小样本资料S的计算
S
(x  x)
n 1
2
( x) 2
x  n

n 1
2
2. 大样本资料S的计算
S

fd 2 
( fd ) 2
n 1
n
i
(二)代表的意义
当两组变量相近时:
S较大,说明变量值围绕 x 的分布较广,
x 的代表性较差。
S较小,说明变量值围绕 x的分布较密集,
x 的代表性较好。
四、变异系数 CV
CV 
S
 100%
x
1、定义:标准差与均数的百分比。
兼顾了x与S,描述了一组数据相对于x的变异
程度,是一个无量纲的统计量。
2、适用条件:
(1)单位相同但均数差异较大(如标枪、铅球)
(2)单位不同(如投掷、百米)
3、代表的意义:CV大,说明变量值的离散程度大。
CV小,说明变量值的离散程度小。
4.S和CV的区别
【相同点】 都是反映变量的离散程度。
【不同点】
S只能对相同性质资料的离散程度进行比较。
CV能比较不同水平、不同性质的资料数据的离散程度。
例: 某运动会少年女子跳远前6名的
少年女子跳高前6名的
x1  5.69m
x2  1.72m
S1  0.12m
S2  0.04m
试比较这两项成绩的离散程度。
解:这两组数据虽然单位相同,但 X相差较大,不能用S作比较,而应计算CV。
跳远:
跳高:
S1
0.12
CV1  100% 
100%  2.11%
x1
5.69
S2
0.04
CV2  100% 
100%  2.33%
x2
1.72
因为跳远的CV小于跳高,所以跳远的离散程度亦即变异程度小于跳高。
例:某男运动员,主项为 100m,兼项为跳远,主兼项20
次测试结果为100m:x1=12s,s1=0.15s;跳远:
x2=5.9 m ,s2=0.18 m 比较主兼项成绩的稳定性。
解:
S1
0.15
CV1  100% 
100%  1.25%
x1
12
S2
0.18
CV2  100% 
100%  3.05%
x2
5.9
说明该运动员100 m成绩较稳定
第三节 百分位数
一、定义:将一组数据从小到大排成有序数列,并将其100 等分,每一
等分处即是一个百分位,第 H等分处,称第H百分位数,即PH。
二、适用条件:百分位数可以描述任何分布数据资料的特征。
三、百分位数的计算:
i nH
PH  L  (
 F)
f 100
PH — 第H百分位数
i
H
L — 百分位数所在组的下限
— 组距
f
— 百分位数所在组的频数
— 百分位
F
— 百分位数所在组前一组的累计频数
例:某年级立定跳远成绩如下表,求P5、 P15、 P50 、P75。
nH/100=5×140/100=7
P5在2.0-组
i n H
0.1
P5  L  (
 F )  2.0 
(7  2)  2.05(m)
f 100
11
同理:
i n H
0.1 140 15
P15  L  (
 F )  2.1 
(
 13)  2.13(m)
f 100
24 100
i n H
0.1 140  50
P50  L  (
 F )  2.3  (
 66)  2.31(m)
f 100
39 100
i nH
0.1 140  75
P75  L  (
 F )  2.3 
(
 66)  2.40(m)
f 100
39 100
四、百分位数代表的意义:
1、 P5 指所有变量值中低于此水平的仅有5%
P5 指所有变量值中高于此水平的有95%
2、 P50就是中位数,以中位数描述样本的集中趋势。
以不同的百分位数来描述离散的程度。
复习思考题
1、何谓集中位置量数、离中位置量数?常用的统计量有哪些?
2、什么叫平均数、中位数和众数?它们各适用于描述哪类数据分布?
3、举例说明标准差与变异系数的联系与区别。
4、测得12名男运动员的纵跳成绩为(单位:㎝)72,73,63,73,
64,58,59,56,62,67,69,66,计算其 x , M d 和S。
5、某市120名12岁健康男孩身高(㎝)资料制成频数分布表,如表所
示,求(1) x , M d 和S。 (2) p25 , p50 , p75
6、将测得的某校某年级100名男生原地纵跳成绩(cm)制成频数分布
表,如表所示。求 p5 , p25 , p50 , p90
第5题表:
第6题表:
例:测得8名学生的铅球成绩如下表(单位:m)
编号
1
2
3
4
5
6
7
8
∑
x
7.13
8.10
8.50
7.10
7.00
8.15
6.95
7.50
60.43
x2
50.84
65.61
72.25
50.41
49.00
66.42
48.30
56.25
459.08
S
2
x
 
( x) 2
n 1
n
(60.43) 2
459.08 
8

 0.61
8 1
返回
例:120名18岁女孩的身高如下表:
S
2
fd
 
( fd ) 2
n 1
n
i
(17) 2
815 
120  2

120  1
 5.23
返回