Transcript 统计学

基本概念
资料类型
计量资料:用度量衡的方法测定每个观察单位的某项
研究指标量的大小,所得数据为数值变量。
计数资料:将全体观察单位按某种性质和类别进行分
组,然后清点各组中的例数,所得数据为计数资料。
等级资料:将全体观察单位按某种性质的不同程度
分组,然后清点各组中的例数,所得数据为计数资
料。
1
基本概念
总体:根据研究目的确定的同质观察单位的全体。
样本:从总体中随机抽取有代表性的部分个体,个
体数的多少称为样本例数。
抽样误差:由于个体变异造成的,系抽样机遇造成
的,是客观造成的,不可避免的。
概率:某随机事件发生的可能性大小的数值。(硬
币)
2
基本步骤
设计
搜集资料
整理资料
分析资料
3
统计描述
主要内容
§2.1 频数表
§2.2 数值变量资料的描述性指标
§2.3 正态分布及其应用
§2.4 分类变量资料的统计描述
§2.5 统计表和统计图
5
§2.1 频数表
频数表的概念
频数表的编制方法
频数分布的特征
频数分布的类型
频数表的用途
6
一、频数表的概念
当样本含量 n 较大时,为了解样本中观察值的分
布规律和便于指标计算,可编制频数分布表,简
称频数表(frequency table)。
频数:对某一随机现象进行重复观察,或测量大
量个体的某项特征,其中某个或某一组变量值出
现的次数。
频数表:将各变量值与其相应的频数列成表格形
式即为频数表。
7
二、频数表的编制

编制频数表时不可能把所有的变量值及其相应频
数都列出来,特别是当样本例数 n 较大时,此时
需要根据变量的取值范围划分为若干个组段,再
汇总各组段的频数。

具体步骤如下:以例2.1资料为例。
8
例2.1某地2004年抽样调查 100名男大学生的身高(cm)
173.6
173.6
173.8
174.5
168.3
171.9
173.5
171.2
168.5
171.3
165.8
175.3
164.4
174.3
175.0
168.6
168.6
177.1
178.7
176.1
168.7
178.4
170.0
170.4
172.1
167.6
172.4
170.7
177.3
169.7
173.6
181.5
175.0
173.2
166.9
169.1
175.7
173.6
165.9
177.9
173.7
170.5
177.7
174.5
172.7
166.8
178.8
167.2
174.0
171.1
177.8
176.4
171.4
173.7
172.2
172.0
169.1
170.7
170.2
179.3
180.3
170.8
162.9
173.4
168.0
168.4
175.5
174.7
169.5
183.5
173.1
171.8
179.0
173.9
172.7
166.2
170.8
171.8
172.1
168.5
173.0
180.7
174.9
172.9
172.3
172.8
171.7
167.3
178.2
175.5
172.6
170.7
178.3
177.9
175.2
166.1
164.6
174.8
170.9
175.9
9
数值变量资料频数表的编制
1. 求全距
全距(或极差,range)是最大值与最小值之差,
用 R 表示。
例2.1中,最大值为183.5cm,最小值为162.9cm,
故R =183.5-162.9=20.6(cm)。
10
数值变量资料频数表的编制
2. 确定组段和组距
组段数:根据样本含量的多少确定,一般设8~13个组段。
组距:各组段的起点和终点分别称为下限和上限,相邻两组
段的下限之差(或每一组段的上、下限之差)称为组距。一般
取等距分组,常用全距的1/10取整做组距。某组段(下限+上
限)/2为组中值。
划分组段:各组段应是连续的,不能有交叉或重叠。第一组
段应包括最小值;最末组段应包括最大值,并同时写出其下
限与上限。
例2.1中,全距的1/10为 20.6/10 = 2.06,组距取整为2.0cm ;
最小值为162.9cm,故第一组段的下限为162cm,第二组段的
下限为164cm,依次类推,最末组段为182cm184cm,包含
最大值183.5cm 。
11
数值变量资料频数表的编制
3. 列出频数表
采用计算机或划记法将原始数据汇总,得出各组
段的观察例数,即频数,把各组段(或各观察值)
及其相应的频数列表即为频数表 。
注意:最末组段应写出上、下限,其余组段只包
含下限,不包含上限。
12
表 2-1 某地 100 名 18 岁男大学生身高(cm)的频数表
身高组段
(1)
162
164
166
168
170
172
174
176
178
180
182184
合计
频数
f
组中值
(2)
1
4
7
12
18
24
15
8
7
3
1
x
(3)
163
165
167
169
171
173
175
177
179
181
183
—
100
13
12
数值变量资料频数表的编制
数值变量资料频数表的编制

当变量的取值较少时,列表方法比较简单,如:
表 1 每户家庭某传染病患病人数
每户患者数
家庭数
0
1
2
3
4
5
合计
20
80
40
50
10
10
210
14
三、频数分布的特征
频数分布的两个重要特征:
1. 集中趋势(central tendency):身高向中央部分集
中,以中等身高居多(172cm组段),此为集中趋势。
反映集中位置或平均水平。
2. 离散程度(tendency of dispersion):由中等身高
到较矮或较高的频数分布逐渐减少,反映了身高的
离散程度。
对于数值变量资料,应用集中趋势和离散程度二者
结合起来分析其分布规律。
15
频数
集中趋势
离散程度
30
25
20
15
10
5
0
163 165 167 169 171 173 175 177 179 181 183
身高(c m )
图 某地100名18 岁男大学生身高的频数分布
16
47
四、频数分布的类型
对称分布:指频数分布的集中位置在中间,左右两侧
大致对称。
偏态分布:指频数分布不对称,集中位置偏向一侧:
集中位置偏向数值小的一侧,称为正偏态分布;
集中位置偏向数值大的一侧,称为负偏态分布。
如冠心病、大多数恶性肿瘤等慢性病患者的年龄分布为
负偏态分布。临床上正偏态分布资料较多见。
不同的分布类型应选用不同的统计分析方法。
对称分布
正偏态分布
负偏态分布
17
频数
正偏态分布
30
对称分布
25
20
15
10
负偏态分布
5
0
163 165 167 169 171 173 175 177 179 181 183
身高(c m )
图2-1 某地100名18岁男大学生身高的频数分布
18
五、频数表的用途
频数表可以揭示资料分布类型和分布特征,以便
选取适当的统计方法;
便于进一步计算指标和进行统计分析;
便于发现资料中的某些特大或特小的可疑值。
当样本含量特别大时,可以频率估计概率。
作为资料的陈述形式。在文献报告中,用频数表
既可直观地反映被研究事物的分布特征,又便于
作进一步的分析研究。
19
§2.2 数值变量资料的描述性指标
集中趋势的描述
集中趋势指标反映一组同质观察值的平均水平或中
心位置。常用指标有均数、几何均数、中位数、众
数、调和均数等。
离散程度的描述
离散程度指标反映一组同质观察值的变异度 。常用
指标有全距、四分位数间距、方差、标准差和变异
系数。
20
一、 集中趋势的描述指标---(1)均数
均数(mean)是算术均数(arithmetic mean)的简称。
定义:指所有观察值的代数和除以观察值的个数。
符号:样本均数用 X 表示,总体均数用  (miu)表示。
应用: 用于反映一组同质观察值的平均水平,应用
甚广。适用于正态或近似正态分布的数值变量
资料。
计算方法:直接法
加权法
21
集中趋势的描述指标---均数---直接法

直接法:用于样本含量 n 较小时,公式为:
X X1  X 2   X n
X

n
n
式中,希腊字母  (sigma)表示求和; X 1 , X 2 ,, X n 为
各观察值;n为样本含量,即观察值的个数。

例2.2 某地随机抽取10名18岁健康男大学生身高(cm)分
别为168.7,178.4,170.0,170.4,172.1,167.6,172.4,
170.7,177.3,169.7,求平均身高。
X 168 .7  178 .4    169 .7
X 

 171 .73 (cm)
n
10
22
集中趋势的描述指标---均数---加权法

加权法:用于频数表资料或样本中相同观察值较多时,
其公式为:
f1 X1  f 2 X 2    f k X k fX
X


f1  f 2    f k

f
式中,X 1 , X 2 ,, X k 与 f1 , f 2 ,, f k 分别为频数表资料
中各组段的组中值及其相应的频数(或相同观察值与
其对应的频数)。
例2.3 计算例2.1表2-1 资料100名男大学生的平均身高。
fX 1631  165 4    1831 17270
X


 172.70
f
1 4   1
100
该100名18岁健康男大学生身高的均数为172.70cm。
23
集中趋势的描述指标---(2)几何均数
几何均数(geometric mean)
定义:指一组观察值的乘积,再被观察值个数开方。
符号:用 G 表示
应用:适用于 ①数据经过对数变换后呈正态分布的
(对数正态分布)资料;②观察值之间呈倍数或近似
倍数变化(等比关系)的资料。如医学实践中的抗体
滴度、平均效价、某些疾病的潜伏期等。
计算方法:直接法
加权法
24
集中趋势的描述指标---几何均数---直接法
G  n X1 X 2  X n
样本含量
n 较小时
lg X 1  lg X 2    lg X n
1  lg X
)  lg (
)
n
n
例2.4 有6份血清的抗体效价为1:10,1:20,1:40,
或 G  lg 1 (
1:80,1:80,1:160, 求其平均效价。
1  lg X
1 lg10  lg 20    lg160
G  lg (
)  lg (
)
n
6
 lg1 (1.6522)  45
该6份血清的平均抗体效价为1:45。
25
集中趋势的描述指标---几何均数---加权法

计算公式:
频数表资料或样本中相同观察值较多时
f1 lg X 1  f 2 lg X 2    f k lg X k
1 f lg X
G  lg (
)  lg (
)
f1  f 2    f k
f
1

例2.5 某地区50名麻疹易感儿童接种麻疹疫苗1个
月后,测其血凝抑制抗体滴度,如表2-2中(1)、(2)
栏,求平均抗体滴度。
26
集中趋势的描述指标---几何均数---加权法
表 2-2 50 名麻疹易感儿童平均抗体滴度计算表
抗体滴度
(1)
合
f
lg X
f lg X
(2)
滴度倒数 X
(3)
(4)
(5)=(2)×(4)
1:4
1
4
0.6021
0.6021
1:8
2
8
0.9031
1.8062
1:16
6
16
1.2041
7.2246
1:32
10
32
1.5051
15.0510
1:64
16
64
1.8062
28.8992
1:128
8
128
2.1072
16.8576
1:256
5
256
2.4082
12.0410
1:512
2
512
2.7093
5.4186
计
50
—
—
87.9003
人数
27
集中趋势的描述指标---几何均数---加权法
f lg X
1 87.9003
G  lg (
)  lg (
)  lg 1 (1.758006)  57
f
50
1
即其血凝抗体滴度的平均滴度为1:57。
注意:
计算几何均数时观察值中不能有0;
一组观察值中不能同时有正值和负值。
28
集中趋势的描述指标---(3)中位数
中位数(median)是一种位置指标。
定义:将一组观察值按由小到大的顺序排列后位次居
中的数值就是中位数,小于和大于中位数的观察值个
数相等。
50%
50%
M
符号:用 M 表示。
应用:用于描述任何分布,特别是偏态分布资料以及
频数分布的一端或两端无确切数据资料的中心位置。
计算方法:直接法
频数表法
29
集中趋势的描述指标---中位数---直接法



直接法:用于样本含量 n 较小的资料。
将观察值由小到大排列,按以下公式计算:
n为奇数时,M  X ( n1) / 2
n为偶数时,M  ( X n / 2  X n / 21 ) / 2
例2.6 某病患者9名,其发病的潜伏期(d)分别为:
2, 3, 3, 3, 4, 5, 6, 9, 16,求发病潜伏期的中位数。
本例n=9,为奇数,故 M  X (n1) 2  X 5  (d)。
4
若在例2.6基础上再继续观察,在第20天又发现1例患者,
即2, 3, 3, 3, 4, 5, 6, 9, 16, 20,则n为偶数,
M  ( X n / 2  X n / 2 1 ) / 2  ( X 5  X 6 ) 2  (4  5) 2  4.5
30
适用于n 较大时
集中趋势的描述指标---中位数---频数表法
计算步骤:①按所分组段由小到大计算累计频数和累计
频率;②确定中位数所在组段,即累计频率包含50%的
组段;③求中位数。
i
M  L
(n  50%  f L )
fM
式中,L, i, f M 分别为中位数所在组段的下限、组距和频
数;f L 为小于L的各组段的累计频数。
例2.7 某疾病控制中心记录了199名沙门氏菌属食物中
毒患者发病的潜伏期(表2-3),计算平均发病潜伏期。
31
集中趋势的描述指标---中位数---频数表法
表 2-3 199 名食物中毒患者潜伏期中位数的计算
累计频率(%)
潜伏期( 小时) 人数 f
累计频数 f
( 1)
( 4) =( 3) / n
( 2)
( 3)
0~
30
30
15.1
12~
71
101
50.8
24~
49
150
75.4
36~
28
178
89.4
48~
14
192
96.5
60~
6
198
99.5
72~84
1
199
100.0
199
—
—
合计
M  L
i
( n  50%  f L )  12  12 / 71(199  50%  30)  23.75
fM
32
附:百分位数(percentile)

百分位数用 P 表示,0< x <100,是描述一组数据某百
x
分位的位置指标。Px 将全部观察值分为两部分,理论上
有x%的观察值比它小,有(100-x)%的观察值比它大。

最常用的百分位数是 P50,即中位数。

应用:①常与中位数结合应用,可以描述一组资料在某
百分位置上的水平,也可以描述资料的分布特征。
M - P5 = P95 –M 时,分布近似对称
M -P5 < P95 –M 时,分布呈正偏态
M -P5 > P95 –M 时,分布呈负偏态
P5
P95
M
33
附:百分位数(percentile)

应用:②也可用多个百分位数的结合来描述一组观察值
的分布特征,如 P25 和 P75合用时,反映中间50%观察值
的分布情况; ③百分位数可用于确定非正态分布资料的
医学参考值范围。

注意:应用百分位数,样本含量要足够大,否则不宜取
靠近两端的百分位数。

计算公式:
i
Px  Lx 
(n  x %  f L )
fx
Lx , i, f x 分别为 Px 所在组段的下限、组距和频数;f L为小
于L的各组段的累计频数。
34
百分位数
表 2-3 199 名食物中毒患者潜伏期中位数的计算
累计频率(%)
潜伏期( 小时)
人数 f
累计频数 f
( 1)
( 4) =( 3) / n
( 2)
( 3)
0~
30
30
15.1
12~
71
101
50.8
24~
49
150
75.4
36~
28
178
89.4
48~
14
192
96.5
60~
6
198
99.5
72~84
1
199
100.0
—
—
合计
199
i
P50  M  L 
( n  50%  f L )  12  12 / 71(199  50%  30)  23.75
fM
i
P5  Lx 
( n  x%  f L )  0  12 / 30(199  5%  0)  3.98
fx
P70  Lx 
i
( n  x%  f L )  24  12 / 49(199  70%  101)  33.38
fx
i
P95  Lx  ( n  x%  f L )  48  12 / 14(199  95%  178)  57.47
35
fx
二、离散程度的描述

例:分别取甲、乙、丙三人每人的耳垂血,然后红细胞
计数,每人数5个计数盘,得结果如下(万/mm3)
盘编号
甲
乙
丙
580
1
2
3
4
5
440
460
500
540
560
480
490
500
510
520
490
495
500
505
510
560
合计
2500
2500
2500
均数
500
500
500
540
520
500
480
460
440
420
甲
乙
丙
36
离散程度的描述指标---(1)全距
全距(range,简记为 R)亦称极差。
定义:指一组同质观察值中最大值与最小值之差。全距
反映了个体差异的范围:全距大,说明变异度大;反之,
全距小,说明变异度小。
应用:简单明了。常用于说明传染病、食物中毒等的最
短及最长潜伏期。
公式:R = xmax- xmin
不足:①仅考虑了最大值与最小值之差 ,不能反映组内
其它观察值的变异度;②样本含量越大,抽到较大或较
小观察值的可能性越大,故全距可能越大。因此,样本
含量相差悬殊时不宜用全距比较。
37
离散程度的描述指标---(2)四分位数间距
定义:四分位数间距(quartile interval,Q ) 为上四分
位数与下四分位数之差(或 P75 与 P25 之差)。
计算公式: Q  QU  QL  P75  P25
应用:用于描述偏态分布以及分布的一端或两端无
确切数值资料或分布类型未知资料的离散程度。
25%
25%
QL
25%
QM
25%
QU
38
离散程度的描述指标---(2)四分位数间距
四分位数间距包括了一组观察值的一半,故可把
四分位数间距看成是中间50%观察值的极差。
意义:Q 越大,变异度越大;反之,Q 越小,变异
度越小。
特点:由于四分位数间距不受两端个别极大值或
极小值的影响,因而它较全距稳定,但仍未考虑
全部观察值的变异度 。
39
离散程度的描述指标---(3)方差(4)标准差



极差和四分位数间距都只考虑了个别观察值的大小差
异,没有全面反映每个观察值的变异程度。为了克服
这一缺点,提醒我们应全面考虑每一个观察值的离散
情况。
就总体而言,即应考虑总体中每个观察值 X 与总体均
数  的差值( X   ),即离均差。
因离均差之和 ( X   )  0 ,不能反映变异度的大
小,故用离均差平方和 ( X   ) 2 (sum of squares of
deviations from mean)反映之。离均差平方和的大小除
与变异度有关外,还与变量值的个数N 有关。为了消
除这一影响,取离均差平方和的均数,称方差。
40
离散程度的描述指标---(3)方差(4)标准差

样本方差
用自由度
n-1去除!
计算公式:
总体方差
( X   )
 
N
2

(
X

X
)
样本方差 s 2 
n 1
2
2
总体标准差  
( X   )
n
2
( X  X ) 2
样本标准差 s 
n 1

n-1为自由度(degree of freedom),一般用  (niu)表示。

因方差的度量单位是原度量单位的平方,故将方差开方,
恢复其原度量单位,得总体标准差和样本标准差。
41
自由度

自由度是数学名词,在统计学中,n个数据如不受任
何条件的限制,则n个数据可取任意值,自由度为n。
若受到k个条件的限制,则只有(n-k)个自由度。

计算样本方差和样本标准差时, n个变量值本身有n个
自由度。但受到样本均数的限制,任何一个“离均差”
均可以用另外的(n-1)个“离均差”表示,所以只
有(n-1)个独立的“离均差”。因此只有(n-1)
个自由度。
42
样本标准差

离均差平方和 ( X  X ) 2
常用 SS 或 l XX 表示。
数学上可以证 SS  l XX  ( X  X ) 2  X 2  (X ) 2 / n
明:
求表2-1中100名18岁男
。故样本标准差的计算公式可写成:
大学生身高的标准差。
2
2

X

(

X
)
/n
直接法:
s
n 1
f  100 fX  17270
fX 2  2984124
2
2

fX

(

fX
)
/ f
加权法:s 
f  1
s
fX 2  (fX ) 2 / f

f  1
2984124 172702 / 100
43
 4.01
99
例题

甲:n=5 ∑x=2500 ∑x2=1260400
s甲 

n 1
1260400 25002 / 5

 50.99 (万/mm3)
5 1
乙:n=5 ∑x=2500 ∑x2=1251000
s乙 

X 2  (X ) 2 / n
X 2  (X ) 2 / n
n 1
1251000 25002 / 5

 15.81(万/mm3)
5 1
丙:n=5 ∑x=2500 ∑x2=1250250
s丙 
X 2  (X ) 2 / n
n 1
1250250 25002 / 5

 7.91(万/mm3)
5 1
44
标准差
意义:标准差大,表示观察值的变异度大;
反之,标准差小,表示观察值的变异度小。
应用:①适用于描述对称分布资料尤其是正态分布资
料的离散程度。
②结合均数,描述正态分布资料的频数分布规
律,用于估计医学参考值范围;
③结合均数,计算变异系数;
④结合样本含量,计算标准误,估计抽样误
差,用于统计推断。
45
总体
X 
XX
( X   )  0
 (X  X )  0
( X   ) 2
( X  X ) 2
方差
2

(
X


)
2 
N
2

(
X

X
)
s2 
n 1
标准差
( X   ) 2

n
( X  X ) 2
s
n 1
离均差
离均差之和
离均差平方和
样本
46
离散程度的描述指标---(5)变异系数
变异系数(coefficient of variation, CV ),是标准差与均
数的比值,用百分数表示,没有单位。

计算公式:

应用:常用于比较度量单位不同或均数相差悬殊的
s
CV   100%
X
两组(或多组)资料的变异度。
47
变异系数-例题

例2.9 某地调查100名18岁男大学生,身高(cm)
X 1为172.70, s1 为4.01;体重(kg) X 2 为55.02,s 2
为4.06,试比较两者变异度。
身高:CV  4.01  100 %  2.32%
172 .70
体重: CV  4.06  100 %  7.38%
55.02

由此可见,该地18岁男大学生体重的变异度大于身
高的变异度。
48
变异系数-例题

例 某地调查100名7岁男童的身高(cm)X 1为119.95,
s1为4.72;100名18岁男大学生的身高(cm)X 2 为
172.70, s 为4.01。试比较两者变异度。
2
4.72
CV 
100 %  3.93%
119 .95
4.01
CV

 100 %  2.32%
18岁男大学生:
172 .70
7岁男童:

由此可见,该地7岁男童身高的变异程度较18岁男大
学生大。
49
§2.3 正态分布及其应用

生物现象中有许多变量服从正态分布,如健康人群的大
部分反映身体形态、生理功能、机体代谢及免疫状况的
解剖学、生理、生化、免疫学指标,一般都基本服从正
态分布。

例2.1中,由100名18岁男大学生的身高资料所绘制的直
方图可看出,高峰位于中部,左右两侧大致对称。设想,
如果观察例数逐渐增多,组段不断分细,直方图顶端的
连线就会逐渐形成一条高峰位于中央(均数所在处),两
侧逐渐降低且左右对称,不与横轴相交的光滑曲线。该
频数曲线(或频率曲线)近似于数学上的正态分布曲线。
13
50
25
0.5
20
0.4
15
0.3
10
0.2
5
0.1
0
0
B
A
0.3
0.25
0.2
0.15
0.1
0.05
0
-5 -4 -3 -2 -1 C 0
1 2
3 4
5
图2-1 频数分布逐渐接近正态分布示意图
51
一、正态分布的概念及特征
正态分布(normal distribution),也叫高斯分布
(Gaussian distribution),是最常见、最重要的一种连续
型分布。
定义:设 x 为一随机变量,若其概率密度函数可以表
1 x 2
示为:
_ (
)
1
2 
f ( x) 
e
   x  
 2
式中, 为总体均数, 为总体标准差, 、 、π 、
2


e
皆为常量。称 x 服从均数为 、方差为 的
正态分布,记为 x ~ N (,  2 )。
52
1. 正态分布的图形

根据正态分布的概率密度函数
f ( x) 
1
 2
e
1 x 2
_ (
)
2 
f(X)
当  和  已知时,以 x 为横轴,
f (x)
为纵轴,可绘出正态分布图
形 —— 正态曲线(normal
curve)。
 
X
  
53
2. 正态分布的特征
正态曲线在横轴上方均数处最高。
正态分布以均数为中心,左右对称。
正态分布有2个参数----均数和标准差。均数决定了
曲线的位置,称为位置参数;标准差决定了曲线的
形状,称为变异度参数。
f(X)
正态分布在   1 处各有一个拐点。
正态曲线下面积的分布有一定规律。
 
   54
X
正态分布的特征
(1) 正态曲线为单峰曲线,在横轴上方均数处最高,
曲线两端均以横轴为渐近线。
(2) 正态分布以均数为中心,左右对称。

55
正态分布的特征
(3) 正态分布有2个参数,即均数 和标准差。 是位置
参数,当 固定不变时, 越大,曲线沿横轴越向右移
动;反之, 越小,则曲线沿横轴越向左移动。 是形
状参数(亦称变异度参数),当 固定不变时, 越大,曲
线越平阔; 越小,曲线越尖峭。通常用N( ,2)表示均
数为 ,标准差为 的正态分布。
 不变, 发生变化

 不变,  发生变化
56
正态分布的特征
(4) 正态分布在   处各有一个拐点。
凸
凹
凹
 

 +
(5) 正态曲线下的面积分布有一定规律。(见下文)
57
3. 标准正态分布

标准正态分布 (standard normal distribution):
均数   0 ,标准差   1的正态分布 N (0,1) 称为标准
正态分布。

概率密度函数为:
f ( x) 
1
e
2
x2

2
   x  
58
标准正态分布与一般正态分布的关系:
若 x ~N ( ,2),对 x 进行如下变换:
u
标准正态离差
标准正态变量
x
标准正态变换

则可证明,u服从标准正态分布,即 u ~N (0 ,1)。
0.6
f(X)
0.5
N ( 1,0.8 )
2
N (0,12 )
0.4
N (1,1.22 )
0.3
标准正态变换
0.2
0.1
0
-4
-3
-2
-1
0
1
2
x ~N ( ,2)
X
3
4
u ~N (0 ,1)
59
标准正态分布

标准正态曲线只有一条,因此其性质、规律都是固定
的,而普通正态分布 N (, 2 ) 又可通过 u 变换转化为
标准正态分布 N (0,1) ,从而为研究带来极大的方便。

但在实际应用中,常以样本为研究对象, 和  未知,

此时当 n 足够大时,可以样本均数 和样本标准差
X
x 。X
代替
s 和  ,则标准正态变换为

u
s
标准正态分布的密度函数为:
 (u) 
1
2
e
u2

2
   u  
60
二、正态曲线下面积的分布规律

正态曲线下面积的分布有一定规律。利用曲线下
某一区间的面积占总面积的百分比,可以估计该
区间的例数占总例数的百分比(频数分布)或估
计观察值落在该区间的概率。

正态曲线下某一区间的面积可通过对概率密度函
数积分求得。
61
1. 正态曲线下面积的计算
图1中阴影部分反映了(-,x)的
面积,计算方法如下:
正态分布的
x

1
F ( x)  
e
2
 
( x )
分布函数
2
2 2
dx
x
图2中阴影部分(代表任意区间)
的面积,理论上可以如下计算:
b
1
e
a  2
F (b )  F (a )  

( x  )2
2 2
dx
a
b
62
2. 标准正态曲线下的面积计算

对于标准正态分布,其分布函数记为
u  
u


1
e
2
u2

2
du
即标准正态曲线下(-, u)的面积,其大小随u的变
化而变化。

为了应用方便,统计学家按  (u ) 编制了标准正态分
布曲线下的面积分布表(简称 u 值表) ,可以根据u值
查表得到区间(-, u)的面积。
63
0.5
φ(u)
f(X)
0.4
-∞
u
0.3
0.2
0.1
0.0
-4
-3
-2
x1
-1
x2
0
X
u
1
2
3
4
64
附表 1
标准正态分布曲线下的面积,Φ(-u)值
u
0.00
0.01
┅
0.04
0.05
0.06
┅
0.08
0.09
-3.0
-2.9
-2.8
-2.7
-2.6
-2.5
┇
-1.9
-1.8
-1.7
-1.6
-1.5
┇
-0.4
-0.3
-0.2
-0.1
-0.0
.0013
.0019
.0026
.0035
.0047
.0062
┇
.0287
.0359
.0446
.0548
.0668
┇
.3446
.3821
.4207
.4602
.5000
.0013
.0018
.0025
.0034
.0045
.0060
┇
.0281
.0351
.0436
.0537
.0655
┇
.3409
.3783
.4168
.4562
.4960
┅
┅
┅
┅
┅
┅
┇
┅
┅
┅
┅
┅
┇
┅
┅
┅
┅
┅
.0012
.0016
.0023
.0031
.0041
.0055
┇
.0262
.0329
.0409
.0505
.0618
┇
.3300
.3669
.4052
.4443
.4840
.0011
.0016
.0022
.0030
.0040
.0054
┇
.0256
.0322
.0401
.0495
.0606
┇
.3264
.3632
.4013
.4404
.4801
.0011
.0015
.0021
.0029
.0039
.0052
┇
.0250
.0314
.0392
.0485
.0594
┇
.3228
.3594
.3974
.4364
.4761
┅
┅
┅
┅
┅
┅
┇
┅
┅
┅
┅
┅
┇
┅
┅
┅
┅
┅
.0010
.0014
.0020
.0027
.0037
.0049
┇
.0239
.0301
.0375
.0465
.0571
┇
.3156
.3520
.3807
.4286
.4681
.0010
.0014
.0019
.0026
.0036
.0048
┇
.0233
.0294
.0367
.0455
.0559
┇
.3121
.3483
.3859
.4247
.4641
注:Φ(u)= 1-Φ(-u)
65
3. 一般正态分布曲线下的面积

对于一般的正态分布 N( , 2),其曲线下(-, x)
区间的面积除与x有关外,还与 和 有关。即不同
的正态曲线,由于其位置和形状不同,同一区间内
的面积是不同的。

但可利用标准正态变换 u  ( x   ) /  ,将N( , 2)
转化为标准正态分布,再根据标准正态曲线下的面
积分布表推算。
66
查u界值表的步骤:
1. 求 u 值
当  、 和 x 已知时,按 u  ( x   ) /  求得 u 值,再
查 u 值表,求得所求区间的面积占总面积的比例;
当  、 未知且样本含量n足够大时,可用样本均
数 X 和标准差 s 分别代替  和  求得 u 的估计值。
2. 查 u 值表
根据所求的 u 值查表。
67
应用u界值表时应注意:

曲线下横轴上方的总面积为
100% 或1;

φ(u)
附表仅列出了标准正态曲线下
-∞到u的面积;

标准正态曲线下对称于0的区
间其面积相等,如 (, u ) 和
(u, ) 的面积相等,
u
即 (u)  1  (u) 。
68
例2.10

由例2.1资料得:100名18岁男大学生身高的均数
X  172.70 cm,标准差 s  4.01 cm。试估计该地18岁
男大学生身高在168cm以下者占该地18岁男大学生总
数的百分数。
本例, ,  未知但n较大,用 X 和 s 分别代替  和 ,
按 u  ( x   ) /  求得 u 值 。
u  (168 172.70) / 4.01  1.17
查附表1标准正态曲线下的面积得0.1210,即该地18岁
男大学生身高在168cm以下者,约占总数的12.10%。
69
 ,
实例:

X  1.14mmol/L,s  0.29 mmol/L,n  200 。
试估计该地正常女子血清甘油三脂在1.10 mmol/L以上
者占正常女子血清甘油三脂总人数的百分比。

本例,  ,  未知但n较大,用 X 和 s 分别代替 和 ,
按
mmol/L代入公
u  ( x 求得
 ) /  值,将x=1.10
u
式,
u  (1.10  1.14) / 0.29  0。查u界值表得1-Φ(.14
0.14)=0.5557,即该地正常女子血清甘油三脂在
1.10mmol/L以上者占总人数的55.57%。
70
实例图示
55.57%
71
4. 常用正态曲线下面积及其对应的分位数
表1
正态分布曲线下的面积及其分位数
标准正态分布 N ( 0, 1)
一般正态分布 N ( , 2)
面积(%)
-1 < u < 1
 - < x <  +
 -1.645 < x <  +1.645
 -1.96 < x <  +1.96
 -2.326 < x <  +2.326
 -2.58 < x <  +2.58
68.27
-1.645 < u < 1.645
-1.96 < u < 1.96
-2.326 < u < 2.326
-2.58 < u < 2.58
u
x

90.00
95.00
98.00
99.00
x = + u
72
68.27%
90%
15.866%
15.866%
5%
5%
-

+
-1.645
95%
2.5%
-1.96
+1.645
99%
2.5%


+1.96
0.5%
0.5%
 -2.58

73
+2.58
三、正态分布的应用

许多医学现象服从正态分布或近似正态分布,如同性
别、同年龄儿童的身高;同性别健康成年人的红细胞
数、血红蛋白含量、胆固醇、心率等生理生化指标;
医学实验中的随机误差等,一般都呈现正态或近似正
态分布,故可按正态分布规律处理。

有些医学资料虽然本身呈偏态分布,但经数据变换后
可成为正态或近似正态分布,如疾病的潜伏期、医院
病人的住院天数等,在施加对数变换后,转化成正态
分布或近似正态分布,也可以按正态分布规律处理。
74
1. 制定医学参考值范围

医学参考值范围(reference ranges),亦称医学
正常值范围,是指所谓“正常人”的解剖、生理、
生化等指标的波动范围。

所谓“正常人”不是指“健康人”,而是指排除
了影响所研究指标的疾病和有关因素的同质人群。
75
医学正常值范围的用途
①作为诊断标准,划分正常与异常的界限;
②根据传染病传染期的长短确定该病患者的隔离期限,
或根据潜伏期长短确定接触者的留验期限;
③制订卫生标准及有害物质的容许浓度,作为保护健
康的安全界限;
④制订不同性别、年龄儿童的某项生长发育指标的等
级标准;
⑤在质量控制中制订各种控制限。
76
制定医学参考值范围的步骤及要求
1. 选取研究对象,要求①样本含量足够大,②保证研
究对象的同质性;
2. 根据研究目的和使用要求选定适当的百分界值,如
80,90,95和99,常用95;
3. 根据指标的实际用途确定单侧或双侧界值,如白细
胞计数过高或过低皆属不正常,须确定双侧界值;
又如肝功能检查中转氨酶过高属不正常须确定单侧
上界,肺活量过低属不正常须确定单侧下界;
4. 根据资料的分布特点,选用恰当的界值计算方法。
77
单侧或双侧界值
异常
正常
正常
单侧下限
单侧上限
异常
双侧下限
正常
异常
异常
双侧上限
78
制定医学参考值范围常用方法
正态分布法
适用于正态或近似正态分布的资料。
双侧界值: X  u 2 s
单侧上界: X  u s ,或单侧下界:X  u s

对数正态分布法 适用于对数正态分布资料。
双侧界值:lg 1 ( X lg x  u 2 slg x )
单侧上界:lg 1 ( X lg x  u slg x ) ,或单侧下界:lg 1 ( X lg x  u slg x )
百分位数法 用于偏态分布资料以及资料中一端或两端
无确切数值的资料。
双侧界值: P2.5 和 P97.5
单侧上界: P95 ,或单侧下界: P5
79
常用 u 值表
表 2-5
常用 u 值表
参考值范围()
单侧
双侧
80
0.842
1.282
90
1.282
1.645
95
1.645
1.960
99
2.326
2.576
80
实例 1

某地调查成年男子144人红细胞数,近似正态分布,
均数 X  5.38 1012 / L ,标准差 s  0.44 1012 / L ,试估
计该地成年男子红细胞数的95%参考值范围。

因红细胞数过多或过少均为异常,故应估计双侧95%
参考值范围,代入公式可得:
X  1.96 s  5.38  1.96  0.44  4.52
X  1.96 s  5.38  1.96  0.44  6.24
即该地正常男性红细胞数的95%参考值范围为
(4.52 ~ 6.24)1012 / L
81
实例 2

某医生测量了118名健康成年男子的第一秒肺通气量
(FEV1),结果如下表,试估计95%的参考值范围。
表 1 118 名健康成年男子 FEV1
组段 L
2.0~
2.5~
3.0~
3.5~
4.0~
4.5~
5.0~
5.5~
6.0~6.5
合计
组中值 x
频数 f
2.25
2.75
3.25
3.75
4.25
4.75
5.25
5.75
6.25
1
3
11
27
36
26
10
3
1
118
X  4.24 L
s  0.69 L
因FEV1只有过低才属异常,
故应制定单侧下限。
95%单侧下限为:
X  u s  4.24  1.645  0.69  3.10( L)
即FEV1的95%参考值范
围为不低于3.10L。
82
实例 3

某年某市调查了200例健康成人血铅含量(μg/100g)
经对数变换后进行正态性检验知血铅含量为对数正
态分布,已知 X lg x  1.1558,slg x  0.2713。试估
计95%正常值范围。
因血铅过高才属异常,故求单侧95%上限,
lg 1 ( X lg x  u slg x )  lg 1 (1.1558  1.645  0.2713)
 lg 1 1.6021  40.0 (g / 100 g)
故该市健康人血铅含量的正常值范围为<40 μg/100g。
83
实例4

某年某市调查了238名无明显肝肾疾病 、无汞作业居民的
发汞含量(μmol/kg),频数表如下。试估计该市居民发
汞含量的95%参考值范围。
表2
某市某年 238 名健康成人发汞分布
发汞(μmol/kg)
1.5~
3.5~
5.5~
7.5~
9.5~
11.5~
13.5~
15.5~
17.5~
19.5~21.5
合 计
人数
20
66
60
48
18
16
6
1
0
3
238
累计频数
20
86
146
194
212
228
234
235
235
238
累计频率(%)
8.40
36.13
61.34
81.51
89.08
98.80
98.32
98.74
98.74
100.00
由于发汞含量只有过高
才属异常,故计算单侧
上限,即P95。
i
P95  Lx 
( n  95%  f L )
fx
 11.5 
2
( 238  95%  212)
16
 13.26(μmol/kg)
84
2. 正态分布是许多统计方法的理论基础

统计学上的很多分布,如 t 分布、 F 分布、 2分布
都是在正态分布的基础上推导出来的。

t 分布、二项分布、Possion分布的极限均为正态分
布,在一定条件下,可以按正态分布原理来处理。

常用的假设检验方法 — u 检验也是以正态分布为基
础的。
85
3. 质量控制

为了控制实验中的检测误差:
警戒值
x  2s
控制值
x  3s
86
标准误
反映均数抽样误差大小的指标的样本均数的标准差

s
Sx
n
87
§2.4 分类变量资料的统计描述
分类变量资料的频数表
常用相对数
应用相对数时应注意的事项
标准化
88
一、分类变量资料的频数表

分类变量资料:将观察单位按属性或类别计数所得的
资料。

各类别及其相应的观察单位数构成频数表。分类变量
资料频数表编制方法简单。
表 1 某校新生性别构成
性别
人数
男
女
580
470
合计
1050
表 2 某药疗效
疗效
人数
治愈
显效
好转
无效
10
30
50
10
合计
100
89
分类变量资料的频数表
表 2-6 某市某年各区急性传染病发病数
市区
A
急性传染病发生数
2433
B
3033
C
1650
D
1503
E
1282
F
1853
G
1130
合计
12884
90
二、常用相对数
表 1 某校新生性别构成
性别
人数
表 2 某地某年肠道传染病发病情况
构成比(%)
是否发病
人数
率(%)
男
女
580
470
55.24
44.76
发病
未发病
300
29700
1.0
99.0
合计
1050
100.0
合计
30000
100.0
表1用男、女生所占构成比反映全校性别构成情况,表2用
发病率反映肠道传染病的流行程度,这些指标都是用两个
数值之比计算出来的,此类指标通称相对数。将直接统计
得到的频数称为绝对数。实际应用中,常把相对数与绝对
数结合应用。
分类变量资料用相对数指标描述。常用的相对数指标有率、
91
构成比和相对比。
1. 率
率(rate),又称频率指标或强度指标,它说明某现象发
生的频率或强度。
计算公式:率 
发生某现象的观察单位总数
K
可能发生某现象的观察单位总数
式中,K为比例基数,常用的K有100%或1000‰、
10000/万、100000/10万等。
选择K的要点:①根据习惯用法以便于比较,如治愈率、
某病病死率、人工流产率等用百分率;出生率、婴儿
死亡率等用千分率;恶性肿瘤死亡率用十万分率;②
使算得的率至少保留1~2位整数。
92
常用的频率指标

发病率(incidence rate):指在一定期间内、一定人群中某
病新病例出现的频率。用来说明居民在一定时期内某病
的发病水平。
一定期间内某人群中某病新病例数
发病率 
k
同时期暴露人口数
k  100%,1000/ 千 , 或10000/ 万
分子是一定期间内的新发病人数,若在观察期间内一个人
多次患病时,则应多次计为新发病例数,如流感等。
分母中所规定的暴露人口是指可能会发生该病的人群,对
那些不可能患该病的人,如传染病的非易感者,已接种疫
苗的有效者,不应计入分母内。但实际工作中不易做到,
故分母多用同期平均人口数。
93
常用的频率指标

患病率(prevalence rate):也称现患率,指某特定时间
内总人口中,曾患有某病(包括新和旧病例)所占的比
例。按观察时间不同分为期间患病率和时点患病率。
某一时点一定人群中现患某病新旧病例数
时点患病率
k
该时点人口数
期间患病率
某观察期间一定人群中现患某病的新旧病例数
k
同期的平均人口数
k  100%,1000/ 千 , 或10000/ 万
94
常用的频率指标

死亡率(mortality rate):表示在一定期间内,在一定
人群中,死于某病(或死于所有原因)的频率。是测量
人群死亡危险最常用的指标。用于衡量某一时期、一
个地区人群的死亡危险性大小。常以年为单位。
死亡率 
某期间内(因某病)死亡总数
k
同期平均人口数
k  100%,1000/ 千,或10000/ 万

死亡率可按病种、年龄、性别、职业等分类计算死亡
专率,用于探讨病因和评价防治措施。
95
常用的频率指标

病死率(fatality rate):表示一定时期内(通常为1年),
患某病的全部病人中因该病死亡者的比例。
某时期内因某病死亡人数
病死率 
 100%
同期患某病的病人数

病死率表示确诊疾病的死亡概率,可表明疾病的严重
程度,也可反映医疗水平和诊断能力,通常多用于急
性传染病,较少用于慢性病。

用病死率作为评价不同医院的医疗水平时,要注意可
比性。
96
2. 构成比

构成比(proportion),又称构成指标,它说明某事物
(或现象)内部各组成部分所占的比重或分布,常以百
分数表示。

计算公式:
某一组成部分的观察单位数
构成比 
 100%
同一事物各组成部分的观察单位数
注意:①所有组成部分的构成比之和应等于100%;
②同一事物内部各组成部分的构成比,计算时小数点
后保留位数应相同。
97
3. 相对比

相对比(relative ratio),亦称比,是A、B 2个有关指
标之比,说明A为B的若干倍或百分之几。两个指标
可以是性质相同的,也可以是性质不同的;两个指
标可以是绝对数,也可以是相对数或平均数。

计算公式为:
A
相对比  (或  100%)
B
98
相对比
A、B为同类指标时,相对比用以说明两事物的相对水平。
常以百分数或倍数表示,如人口出生性别比、两病区病
床数之比。流行病学中常用的相对危险度(RR)、比数比
(OR)也为此类。
A、B为不同类指标时,如人口密度(人/平方公里)、医生
数/千人口、病床数/千人口、小鼠肝重与体重之比等。
相对比是相对数的最简单形式,常用于动态数列的分析。
动态数列是按时间顺序排列起来的一系列统计指标(包括
绝对数、相对数和平均数),用来说明某事物在时间上的
变化和发展趋势。
99
表 2-6 某市某年各区急性传染病发病数及其相对数
市区
(1)
年平均
人口数
(2)
急性传染病
发生数
(3)
各区与 A 区
发病数之比
(4)
各区传染病
发病构成(%)
(5)
各区发病率
(1/10 万)
(6)
A
636723
2433
—
18.9
382
B
389540
3033
1.25
23.5
779
C
699712
1650
0.68
12.8
236
D
328363
1503
0.62
11.6
458
E
286967
1282
0.53
10.0
447
F
317504
1853
0.76
14.4
584
G
153838
1130
0.76
8.8
735
合计
2812647
12884
—
100.0
458
100
三、应用相对数时应注意的事项
计算相对数的分母不宜过小
当分母观察例数足够多时,计算的相对数比较稳
定,能够正确反映实际情况;当分母观察例数很
少(如少于30)时,易受偶然因素的影响,不宜
计算相对数,可用绝对数表示。如必须计算率,
应同时列出可信区间。
101
应用相对数时应注意的事项(续)
分析时不能以构成比代替率
构成比是说明某现象中各组成部分的比重或分布的指标,
率则反映某现象发生的频率或强度的指标。应用时两者
不能混淆。
对观察单位数不等的几个率,不能直接相加求其平均率
对观察单位数不等的几个率求平均率时,要用各率的分
子之和与分母之和来计算。
102
应用相对数时应注意的事项(续)
比较相对数时应注意其可比性
影响率和构成比的因素很多。两个或多个率(构成比)
比较时,各组间除研究(处理)因素外,其它影响(非处
理)因素要基本相同,即各组间要具有可比性。
应注意:①影响因素在各组的内部构成是否相同;
②各组的观察对象要同质,研究方法要相同,观察时
间相等以及内外环境条件相近。如比较两种疗法的治
愈率,应注意各组病例在年龄、性别、病情、病程、
病型和疗程等内外环境条件是否基本相同。
103
应用相对数时应注意的事项(续)
对样本率(或构成比)的比较应遵循随机抽样,
并做假设检验
遵循随机抽样的原则才能保证样本具有代表性,
才能用该样本信息推断总体特征。
抽样研究中,样本率或构成比也存在抽样误差,
因此在比较两个或多个率(构成比)时,要做假设
检验。
104
四、标准化法
标准化的目的
标准化法的基本思想
标准组的选择
标准化率的计算
105
表 2-7 甲、乙两地感染性腹泻年龄别发病率(1/万)比较
年龄
甲地
人口
发病
年龄
人数
构成
(3)
比(2)
人口
发病
数
率(4)
(5)
乙地
人 口
发病
年 龄
人 数
构 成
(7)
比(6)
(岁)
人口
数
(1)
0
1398
0.0320
25
178.83
1506
0.0340
28
185.92
1
5322
0.1218
90
169.11
2746
0.0620
55
200.29
5
5463
0.1250
108
197.69
2303
0.0520
48
208.42
10
8347
0.1910
66
79.07
7575
0.1710
60
79.21
20
12937
0.2961
27
20.87
21441
0.4840
86
40.11
40
10227
0.2341
10
9.78
8727
0.1970
10
11.46
合 计
43694
1.0000
326
74.61
44298
1.0000
287
64.79
发病
率(8)
106
1. 标准化的目的
标准化(standardization)的目的在于消除混杂因素
(confounding factor)对结果的影响,使资料具有可
比性。
例如,欲比较两地的总死亡率,若两地的年龄、
性别等构成不同,而年龄、性别等又影响死亡率
时,则年龄、性别等为混杂因素,使两地总死亡
率无可比性。为消除年龄、性别等的影响,可用
标准化法。
107
2. 标准化的基本思想
标准化法的基本思想:将所比较的两组或多组
资料的构成按统一的“标准”调整后,计算标
化率,使其具有可比性。

需指定一个标准的人口构成,消除内部构成的
影响。
108
3. 标准组的选择


应根据研究目的选择有代表性、较稳定和数量较大的人
群作为标准组。例如,世界、全国、全省、本地的数据
作为标准较理想。
选择方法:①以两组资料中任一组的年龄别人口数或构
成比作为标准组;②以两组资料合并的各年龄组的人口
数或构成比作为标准组;③以公认的或便于与他人资料
比较的标准作为标准组, 例如,用全国、全省或本地区
的年龄别人口构成作为标准。
以上三种方法中,最好尽量采用第三种,这样便于与其
他地区进行比较,第一、二种方法只适用于所研究的两
组资料。
109
4. 标准化率的计算

标准化率(standardized rate),简称标化率,亦称调整率。

应用:标准化率常用于人群性别、年龄构成不同的两
地的出生率、患病率和病死率的比较;也可用于病情
轻重、病程长短不同的两组治愈率的比较;还可用于
均数的标准化,如比较两组某病平均治愈天数时,应
考虑两组病型、病情、病程等的标准化。

计算方法: 直接法
间接法
反推法
110
(1)直接法
直接法:用于已知被标化组的年龄别率,以及
已知标准组的年龄别人口数或年龄别人口构成
比时。
用标准组年龄别人口数计算
用标准组年龄别人口构成比计算
111
直接法----用标准组年龄别人口数计算
①选定标准组。本例选用甲地各年龄组的实际人口数为
标准组年龄别人口数;
②将乙地各年龄组实际发病率与相应的标准年龄别人口
数相乘,得出乙地各年龄组的预期(理论)发病数;
③将乙地各年龄组预期发病数之和除以标准人口总数,
得出乙地标准化总发病率。
N i p i
p 
N
'
112
用直接法计算标准化发病率(以甲地为标准)
用标准人口数计算
年龄
(岁)
0
1
5
10
20
40
合 计
乙地实际发
病率(1/万)
(1)
185.92
200.29
208.42
79.21
40.11
11.46
64.79
标准人口数
(甲地)
(2)
1398
5322
5463
8347
12937
10227
43694
乙地预期发病
人数
(3)=(2)×(1)
25.99
106.59
113.86
66.12
51.89
11.72
376.17
376.17
乙地标准化总发病率
 10000 万  86.09 万
43694
故甲地总发病率(74.61/万)低于乙地标化后的总发病率。
113
直接法----用标准组年龄别人口构成比计算
①选定标准组。以甲地各年龄组人口构成比作为标准
组年龄别人口构成比;
②将乙地各年龄组实际发病率与相应的标准年龄别人
口构成相乘,得出乙地各年龄组的分配发病率 ;
③乙地各年龄组的分配发病率之和86.09/万为乙地标
准化后的总发病率。结果与第1种计算方法相同。
N i p i
p 
N
'
 Ni 
p  
 pi
N 
'
114
用直接法计算标准化发病率(以甲地为标准)
用标准人口构成比计算
年龄
(岁)
0
1
5
10
20
40
合 计
乙地实际发
病率(1/万)
(1)
185.92
200.29
208.42
79.21
40.11
11.46
64.79
标准人口构
成比(甲地)
(4)
0.0320
0.1218
0.1250
0.1910
0.2961
0.2341
1.0000
乙地分配发病率
(1/万)
(5)=(1)×(4)
5.95
24.40
26.05
15.13
11.88
2.68
86.09
115
(2)间接法

间接法:用于已知被标化组的年龄别人口数与发病
(死亡)总数,但年龄别率未知,以及已知标准组年
龄别发病(死亡)率与总发病(死亡)率时。
116
表 2-7 甲、乙两地感染性腹泻年龄别发病率(1/万)比较
年龄
甲地
人口
发病
年龄
人数
构成
(3)
比(2)
人口
发病
数
率(4)
(5)
乙地
人 口
发病
年 龄
人 数
构 成
(7)
比(6)
(岁)
人口
数
(1)
0
1398
0.0320
25
178.83
1506
0.0340
-
-
1
5322
0.1218
90
169.11
2746
0.0620
-
-
5
5463
0.1250
108
197.69
2303
0.0520
-
-
10
8347
0.1910
66
79.07
7575
0.1710
-
-
20
12937
0.2961
27
20.87
21441
0.4840
-
-
40
10227
0.2341
10
9.78
8727
0.1970
-
-
合 计
43694
1.0000
326
74.61
44298
1.0000
287
-
发病
率(8)
117
间接法的计算方法和步骤
①选定标准组。选用甲地年龄别发病率为标准组,对乙
地进行标准化。
②标准组年龄别发病率和乙地各年龄组人口数相乘,可
得出乙地按标准组年龄别发病率计算出来的各年龄组
预期发病人数,合计得乙地预期的总发病人数;
③按下式计算乙地标准化总发病率。
被标化组实际发病总数
标准化总发病率 标准组总发病率
被标化组预期发病总数
r
p  P
 P  SMR
ni Pi
'
标准化死亡比
118
用间接法计算乙地标准化发病率(以甲地年龄别发病率为标准)
年龄
(岁)
0
1
5
10
20
40
合 计
标准组年龄别
乙地
乙地预期
发病率(1/万)
人口数
发病人数
(1)
(2)
(3)=(1)×(2)
178.83
169.11
197.69
79.07
20.87
9.78
1506
2746
2303
7575
21441
8727
26.93
46.44
45.53
59.90
44.75
8.54
74.61
44298
232.09
乙地标准化总发病率 74.61 / 万 
287
 92.26 / 万
232.09
119
注意事项
①标准化的目的在于消除混杂因素对结果的影响,使
计算的标准总率具有可比性;通常,直接法因其计算
简便更为常用,但若原资料中有些年龄组人口过少,
易使年龄别死亡率波动较大时宜用间接法;
②标准化率并不表示某地实际水平,只能表明对比资
料间的相对水平,且同一资料用不同“标准”标化,
所得标化率不同,但是对比时的分析结论通常不变;
120
注意事项
③对于存在混杂因素的两个总率进行比较时,若
不进行标准化,也可通过比较两组的各年龄别发
病(死亡)率,得出正确结论;
④比较两样本的标准化率时,还应进行两样本标
准化率的假设检验(见有关统计学书籍)。
121
统计图表
122
表 2-6 某市某年各区急性传染病发病数及其相对数
市区
(1)
年平均
人口数
(2)
急性传染病
发生数
(3)
各区与 A 区
发病数之比
(4)
各区传染病
发病构成(%)
(5)
各区发病率
(1/10 万)
(6)
A
636723
2433
—
18.9
382
B
389540
3033
1.25
23.5
779
C
699712
1650
0.68
12.8
236
D
328363
1503
0.62
11.6
458
E
286967
1282
0.53
10.0
447
F
317504
1853
0.76
14.4
584
G
153838
1130
0.76
8.8
735
合计
2812647
12884
—
100.0
458
123
第三节 疾病分布的形式
图2-2
124
第二节 疾病流行强度
20
发
病 15
人
数 10
5
疾病流行强度
22 24 2 4 6 8 10 12 14
9日
10日
发病时间
表2-1 某单位食物中毒的暴发
125
1998年—2005年6月医院出院病人数指标
19632
20000
17503
15000
11977
10000
13885
13116
9167
7964 8953
5000
0
1998年
2000年
2002年
2004年
住院人次
126
第三节 疾病分布的形式
图2-6
1984-2004 艾滋病职业分布
图2-8
127