第2章随机变量及其分布

Transcript 第2章随机变量及其分布

第二章
随机变量
及其分布
本章将用微积分的方法，从整体上
来研究随机现象。
1
§2.1 随机变量的概念
在实际问题中，随机试验的结果可以用数量来表
示，由此就产生了随机变量的概念.
1、某些试验结果本身与实数有关(本身就是一个数).
例如，伯努力实验中某事件发生的次数；
掷一颗骰子面上出现的点数；
某市八月份的最高气温；
某地区的年平均降雨量；
2
2、在有些试验中，试验结果看来与实数无那种“自
然”的联系，但我们可以引入一个变量来表示它的
各种结果.也就是说，把试验结果数值化.
例1 观测一粒种子的发芽实验.
显然，该试验有两个可能的结果：“发芽”或“不发
芽”。
我们引入记号：
1,
X  X ( )  
0,
  发芽
，
  不发芽
于是我们就可以用 { X  1}表示种子发芽，
而用 { X  0} 表示种子不发芽。
X就是一个随试验结果而定的量----随机变量。
3
定义设随机试验E的样本空间是Ω，若存在一
个函数X=X(ω)，对于每一个ω∈ Ω, 均有唯一确定的
实数X(ω)与之对应, 则称X=X(ω) 为一个随机变量
(random variable, 简记为r.v.)。
ω.

X(ω)
R
这种实值函数与在高等数学中大家接触到的
函数一样吗？
4
（1）它随试验结果的不同而取不同的值，因而
在试验之前只知道它可能取值的范围，而不能
预先肯定它将取哪个确切的值.
（2）由于试验结果的出现具有一定的概率，于
是这种实值函数取每个值以及每个确定范围内的
值也具有一定的概率.
随机变量通常用大写字母X,Y,Z或希腊字母  ，

等表示.
第一章随机事件及其概率是以静态的观点研究
随机现象，而本章研究随机变量则是一种动态的观
点.
5
随机变量概念的产生是概率论发展史上的重大
事件。因为我们总可以通过某种方式将随机试验的
结果数量化，于是，对随机现象统计规律的研究，
就由对事件及事件概率的研究扩大为对随机变量及
其取值规律的研究，并可以用数学分析的方法对随
机试验的结果进行广泛深入的研究和讨论，这不仅
使随机事件的表达形式上更简单，而且给我们用数
学知识研究随机现象带来了极大的方便。
随机变量的分类
离散型
随机变量
非离散型（重点是连续型）
6
§2.2 离散型随机变量及其概率分布
若随机变量的全部取值为有限个或可列无穷多个，
则称该随机变量为离散型随机变量.
对于离散型随机变量，关键是要确定两点：
1）所有可能的取值是什么？
2）以多大的可能性（概率）取这些值？
设离散型随机变量 X 的可能取值为 x1 , x2 , ，则
P{ X  xi }  pi , i  1,2,
称为离散型随机变量X的概率分布或分布律。
7
P{ X  xi }  pi , i  1,2,
或写成如下的表格形式：
X
P
x1
p1


x2
p2
xi
pi


由概率定义可知， pi 必然具有下列性质：
（ 1）非负性
pi  0 ；
（ 2）规范性
p
i
1 。
i
8
例2.2.1 从装有3只白球和2只红球的口袋中任取一球，
用X表示“取到的白球数”，求X的分布律.
解
X可能取值是0,1,
1
2
1
5
1
3
1
5
2
C
P{ X  0} 
 ,
C
5
3
C
 ,
P{ X  1} 
5
C
所以X的分布律为
X
0
1
P
2
5
3
5
9
下面介绍离散型随机变量的几种常见分布。
(一)两点分布
设随机变量X只有0，1两个可能取值，且分布律为
1k
P{X  k}  p (1  p)
k
, k  0,1 .
或者
X
P
1
p
0
1 p
10
(二) 二项分布
定义若随机变量X的分布律为
P{ X  k }  C p (1  p)
k
n
k
n k
, k  0,1,2,, n
则称X服从参数为n,p的二项分布，又叫伯努利分布
记为
X ~ B(n, p)
二项分布是伯努利研究重复独立试验所引出的
一个很重要的分布.它是应用广泛的一类重要分布.
例如机器维修问题中要了解台机床需要修理的机床
数；昆虫群体问题中要了解n个虫卵中能孵化出成虫
的个数等都服从二项分布.
11
下面我们通过例子谈谈如何应用二项分布来计算概率。
例2.2.2 某种疾病在儿童间传播，每名儿童感染此病
的概率为0.0045，今抽查100名儿童进行检测，试计
算至少有两名儿童感染此病的概率.
解设X表示“100名儿童中感染此病的儿童数”，
则
X~B(100,0.0045) ，
于是
P{ X  2}  1  P{ X  0}  P{ X  1}
其中 P{ X  0}  C (0.0045) (0.9955)
0
100
0
100
 0.6371.
1
P{ X  1}  C100
(0.0045)1 (0.9955)99  0.2879.
故
P{ X  2}  0.0751.
12
(三) 泊松分布
定义
若随机变量X的分布律为
P{ X  k } 
k
k!
e

, k  0,1,2,  , (  0)
则称X服从参数为  的泊松分布,记为 X ~ P ( ) .
历史上泊松分布是作为二项分布的近似,于1837
年由法国数学家泊松引入的。后来成功地用于描绘随
机质点在时间或空间上的分布，它在质量控制、排队
论、可靠性理论等许多领域都有重要应用．实际生活
中一般的稀有事件，如一定的时间内用户对电话交换
中心的呼叫次数；某窗口接待的顾客数；某块麦田里
13
变异植株数等都服从或近似地服从泊松分布。
例2.2.3 根据经验商店出售的某种商品月销售量X
服从λ=7的泊松分布.问在月初进货时要库存多少件
此种商品，才能以99%的概率满足顾客的需求？
解设月初库存a件，依题意
3 k 3
P( X  k ) 
e
k!
( k  0,1, 2, ...)
那么，
3k 3
P{ X  a }   e  0.99 ，
k 0 k !
a
查表，必须取a=8。
14
泊松定理在 n 重伯努利试验中 ,假设一次试验中
事件 A 出现的概率为 pn ,如果有 lim npn   , 则对
n 
于任意给定的 k,有
lim C nk pnk (1  pn )n k 
n
k
k!
e  ( k  0,1, 2, )
证略.
在实际应用中，如果 n 很大， p 很小，而  np
大小适中 ( 0 .1 ~ 10 ) ，则有近似公式
C p (1  p)
k
n
k
n k


k
k!
e ，(  np) .

15
例2.2.4 有2500名从事某种职业的职工参加人寿
保险.根据资料统计，此类人在一年中的死亡率为
0.002.参加保险者当年向保险公司支付12元保险
费，若参加保险者死亡，家属可获得2000元补偿.
试求下列事件的概率.
(1) 一年中保险公司亏本;
(2)一年中保险公司获利不少于一万元。
解设X表示这一年内参保者死亡人数,则
X ~ B(2500,0.002)
保险公司的收入是
250012=30000元
16
(1) 保险公司这一年里付出200X元.假定
200X30000，即X 15人时公司亏本.
于是
P{公司亏本}=P{ X 15}=1-P{X< 14}
由泊松定理得
  2500  0.002  5,
e 5 5k
 0.00003
P{公司亏本} 1  
k!
k 0
14
(2) 获利不少于一万元,即 30000 -200X 10000
即
X10
e 5 5k
 0.9864
P{获利不少于一万元}=P{X10}  
k!
k 0
17
10
(四) 几何分布*
定义
若随机变量X的分布律为
P{ X  k }  (1  p)
k1
p , k  1,2,
其中0<p<1,q=1-p，则称X服从参数为p的几何分布.
在伯努利试验中，每次成功的概率为p，若记
X为首次成功时所做试验的次数，则X服从的概率
分布即为几何分布。
18
例* 某人有n把钥匙，仅有一把能打开门，随机
选一把试开，开后放回，直至打开为止，求第s次
才打开门的概率.
1
解开门次数X服从几何分布， p  ,
n
1 s1 1
P { X  s }  (1  )
.
n
n
19
(五) 超几何分布*
设某批产品共有N件，其中有M件次品。按如
下两种方式从中任选n件产品，则这n个产品中所
含的次品数X是一个离散型随机变量，分布律为
C Mk C NnkM
P{ X  k } 
, k  0,1,2, , n
n
CN
称之为超几何分布。
20
§2.3 连续型随机变量及其分布密度
除了离散型随机变量之外，还存在一类重要
的非离散型随机变量——连续型随机变量.这种
随机变量可取某个区间内的一切值。
定义
设X为随机变量，若存在非负可积函数f (x)
(-∞< x< ∞),使对任意实数a , b(a<b)均有：
b
P{a  X  b}   f ( x) dx
a
则称X为连续型随机变量，称f (x)为X的分布密度
或概率密度.。
21
P{a  X  b}   f ( x ) dx ，
b
a
分布密度 f(x)的基本性质：
(1) 非负性： f ( x)  0 ， x R .
(2) 规范性：



f ( x ) dx  1 .
这两条性质是判
定一个函数 f(x)
是否为某随机变
量的概率密度的
充要条件.
f ( x)
1
0
x
22
说明：
(1) 连续型随机变量取任何一个指定值的概率为0.
即, 对于任意常数c, 有
P{ X  c }  0 .
而 {X=c} 并非不可能事件,
可见，由P(A)=0, 不能推出 A   ；
由P(B)=1, 不能推出 B   .
一般我们称A为几乎不可能事件，B为几乎必然事件.
(2) 若X是连续型随机变量,则
P{a  X  b}  P{a  X  b}
 P{a  X  b}  P{a  X  b} .
23
例1 已知随机变量X的概率密度为
 ke 3 x , x  0
b
f ( x)  
P{a  X  b}   f ( x ) dx
a
其它
 0,
试求:(1)常数k;(2)P{-1<X<1};(3)P{X>0.1}.

k
1  3 x

k

3
.
ke
d
(

3
x
)


1
，
解   f ( x ) dx 
3 0
3
P{1  X  1} 
P{ X  0.1} 



0.1
1
1
f ( x )dx  3e 3 x dx  e 3  1 ;
1
0
f ( x )dx  

0.1
3e
3 x
dx  e
0.1
24
连续型随机变量的几种常见分布
1.均匀分布
定义如果随机变量X的分
布密度为
 1
, a xb

f ( x)   b  a

其它
 0 ,
f (x )
a
b
x
则称X服从区间[ a, b]上的均匀分布，记作
X ~ U [a , b] .
25
 1
, a xb

f ( x)   b  a

 0 , 其它
若 X ~ U[a, b] ，
对 [c, d ]  [a , b] ，
P {c  X  d }  
d
c
dx
d c

.
ba ba
这表明，X 取值于[a,b]内的任一子区间的概
率与该子区间的长度成正比，而与该区间的具体
位置无关,这也正是均匀分布的概率意义。
26
例2 某公共汽车站从上午7时起，每10分钟来一班车，
如果乘客到达此站时间 X 是7:00 到 7:30 之间的均匀随
机变量, 试求他候车时间不超过5 分钟的概率.
27
解以7:00为起点0,以分为单位，依题意，X ~ U [0, 30] ,
1
 , 0  x  30
f ( x )   30
 0,
其它
为使候车时间X不超过5分钟，乘客必须在7:05到
7:10之间，或者7:15 到7:20之间，或者7:25到7:30之
间到达车站.
所求概率为：
P 5  X  10  P 15  X  20  P 25  X  30  0.5
即乘客候车时间不超过5 分钟的概率是0.5.
28
2. 指数分布
定义如果随机变量X的分
布密度为
  e  x ,
f ( x)  
 0,
f (x )

x0
x0
x
其中   0 为常数，则称 X 服从参数为  的指数分布，
记为 X ~ E ( ) .
易见 f(x)≥0,且



f ( x )dx  

0
 e   x dx  [e   x ]0  1
29
指数分布在排队论和可靠性理论中有广泛的应用，
常常用它来作为各种“寿命”的分布的近似.例如,电子
元件的寿命,机器的维修时间, 生物体的寿命,随机服务
系统中的服务时间等都可认为是近似服从指数分布.
指数分布的一个重要性质就是“无后效性”或
“无记忆性”.具体叙述如下：
有
设 X ~ E ( ) ，对s  0, t  0 ，
P{ X  s  t | X  s}  P{ X  t }
证
P{ X  s }  
 e

s
  x 
s
f ( x ) dx 
e
 s
，

s
 e x dx
30
P{ X  s }  e   s ，
P{ X  s  t }
 P{ X  s  t X  s } 
P{ X  s }
 ( s t )

e
e
 s
e
 t
 P{ X  t } .
假如把服从指数分布的随机变量解释为等待时间,
则上式表明,在在等待时间已经超过s小时的条件下,
至少需要再等待时间t 的统计规律与已经等待了多长
时间无关，就像重新开始等待一样，所以统计学中常
称指数分布为“永远年青”的分布. .
值得指出的是,我们可以证明,指数分布是唯一具
有“无记忆性”的连续型分布.
31
例3 假设电话一次通话时间 X  E (0.1), 假设甲人到达
电话亭时乙人恰好刚刚拿起话筒通话，试求：
(1) 甲人等待时间超过10分钟的概率；
(2) 甲人等待时间在10到20分钟之间的概率；
(3) 甲等待5分钟以后至少再等待10分钟的概率．
．
解由题意可知，甲人等待的时间与乙人通话的时间
是一致的，所以实际上本题分别求的是乙人通话时
间超过10分钟的概率以及乙人通话时间在10到20分
钟之间的概率．由 X  E (0.1)知X的分布密度为
 0.1e 0.1 x , x  0
f ( x)  
 0 ,x0
32
(1)“甲人等待时间超过10分钟”的概率为
P  X  10  

10
0.1e 0.1 x dx  e 1  0.368
(2)“甲人等待时间在10到20分钟之间”的概率为
P 10  X  20   0.1e
20
0.1 x
10
1
2
dx  e  e  0.233
(3)“甲等待5分钟以后至少再等待10分钟”的概率为
p{ X  15}
P{ X  5  10 X  5} 

p{ X  5}



15

5
0.1e 0.1 x dx
0.1e 0.1 x dx
1
 e  0.368
可见，(1)与(3)结果相同，这恰与指数分布的“无记
33
忆性”相吻合.
正态分布是概率分布中最重要的一种分布，这有
实践与理论两方面的原因。实践方面的原因是，正态
分布是自然界最常见的一种分布，例如测量的误差、
炮弹的落点、人的身高与体重、农作物的收获量、波
浪的高度等等都近似服从正态分布。一般来说，如果
影响某一随机变量的因素很多，而每一个因素都不起
决定性作用，且这些影响是可以叠加的，则这个随机
变量服从正态分布，这点可用下一章的极限定理来加
以证明。从理论方面来说，正态分布有许多良好的性
质，如正态分布可以导出一些其它分布，而某些分布
（如二项分布、泊松分布等）在一定的条件下可用正
态分布来近似。
34
3. 正态分布
定义
如果随机变量X的概率密度为

1
f ( x) 
e
2 
( x   )2
2 2
，    x  
其中   0 , 则称 X 服从参数为  ,  2 的正态分布 ,
记为 X ~ N (  ,  ) .
2
f (x )

x
35
正态分布密度函数的几何性态：
1
2 
 
f (x )

1
f ( x) 
e
2 

 
( x   )2
2 2
x
(1) 对称轴 x   ；
( 2 ) 渐近线 x 轴( lim f ( x )  0 )；
x 
1
( 4 ) 顶点 (最大值 )当 x   处达到最大值
；
2 
(3) 单调性在 (  ,  ) 内单调增 ,在 (  ,) 内单调减；
(5) 两个拐点 x     ；
36
正态分布密度函数的几何性态：
1
2 
 
f (x )

1
f ( x) 
e
2 

 
( x   )2
2 2
x
(6)  确定曲线在坐标系中的位置，  影响曲线的形状：
当  较大时，曲线较平坦；当  较小时，曲线较陡峭 .
37
  0,   1 的正态分布称为标准正态分布.
其密度函数常用  ( x )表示：
1
 ( x) 
e
2
x2

2
, x  
 ( x)
图形为关于y轴对称的钟形曲线.
38
§2.4
随机变量的分布函数
为了对各类随机变量作统一研究，下面给出
既适合于离散型随机变量又适合于连续型随机变
量的概念——随机变量的分布函数。
定义
设X为随机变量，称实函数
F ( x )  P{ X  x } , x  R
为X的分布函数。
对任意实数 a, b (a  b) , 有
a
x
x
b
P { a  X  b }  P { X  b}  P { X  a }
 F (b)  F (a )
39
分布函数的基本性质：F ( x )  P{ X  x } , x  R
(1) 0  F ( x )  1 , x  R
(2) F ( x )是单调不减函数
；
(3) F ()  0 , F ()  1 ；
( 4 ) F (x ) 是右连续的： lim F ( x )  F ( x0 ) .
x  x0
设X为离散型随机变量，分布律为
P{ X  xk }  pk , k  1,2,,
则
F ( x)  P{ X  x} 
p
xk  x
k
40
例1 设随机变量X的分布律为:
X
1
P
1/ 5
3
4
2/5 2/5
7
求:(1)X的分布函数F(x); (2)P{ X  0}; (3) P {1  X  }
2
解当x<-1时 F ( x )  P{ X  x}  0 ;
1
当-1≤x< 3时 F ( x )  P{ X  x}  P { X  1} 
5
当3≤x< 4时
1 2 3
F ( x )  P{ X  1}  P{ X  3}    ；
5 5 5
当x≥4时
F ( x )  P{ X  1}  P{ X  3}  P{ X  4}  1 .
41
故
x  1
 0,
1 / 5,  1  x  3

F ( x)  
 3 / 5, 3  x  4

x4
 1,
下面我们从图形上来看一下.
42
x  1
 0,
1 / 5,  1  x  3

F ( x)  
 3 / 5, 3  x  4

x4
 1,
分布函数的图形如下
F ( x)
1
2
5
2
5
1
5
1 0
3
4
x
一般，离散型随机变量的分布函数呈阶梯形.
43
例2 设 X ~ U[a, b]，求X的分布函数，画出X概率密度
f(x)和分布函数F(x),并计算P{a<X< 3}.(其中a< 3< b)
 1
, a xb

解 X的分布密度为 f ( x )   b  a

 0 , 其它
所以，当 x< a时, F ( x ) 

x

f (t )dt  
当 a ≤x≤b 时,
F ( x)  
x

f ( t )dt  
a

0dt  
当 x > b 时,
F ( x)  
x

f ( t )dt  
a

0dt  
x
a
x

1
xa
dt 
ba
ba
1
dt  
a ba
b
0 dt  0
x
b
0 dt  1
44
 0
xa
它的分布函数为 F ( x )  
ba
 1
图形分别如下：
f (x )
a
b
xa
a xb
xb
F ( x)
x
a
b
x
3 a
P{a  X  3}  P{a  X  3}  F (3)  F (a ) 
ba
45
正态变量的分布及其概率计算
若 X ~ N (0,1) ，其密度函数和分布函数常用  ( x )
和 ( x ) 表示，其中
 ( x)
1
 ( x) 
e
2
x2

2
, x  
( x )
1
( x ) 
2

x

e
t2

2
dt
46
对于标准正态分布的分布函数Φ(x)具有如下性质：
(1) (0)  0.5;
(2) ()  1;
(3) (  x )  1  ( x ) ;
(4) P{a  X  b}    b    a  .
书末附有标准正态分布函数数值表.
表中给的是x>0时, Φ(x)的值.
47
1
( x ) 
2

x

e
t2

2
dt
 ( x)
( x )
x
x
x
 (  x )  1  ( x ) .
48
任何一个一般的正态分布都可以通过线性变
换转化为标准正态分布.
X 
定理若 X ~ N (  ,  ) ，则 Y 
~ N (0, 1) .

证设 X ~ N (  ,  2 ) , 其分布函数为 F ( x ), 则
2
1
F ( x) 
2 

x



x
e

( t   )2

2
2
dt
t
令u 

u2

2
1
 x
e du  
.
  
2
49
若 X～N(0,1),
则 P{a  X  b}  (b)  (a ) .
若 X ~ N ( , ) ,
2
P {a  X  b}  P (
 (
a

b


X 

)  (

a

b

).
50
)
例1 设 X ~ N (1, 4) , 求 :(1) P{ X  2.5},(2) P{1  X  4},
(3) P{ X  2}
2.5  1
)  ( 1.75)
解 (1) P{ X  2.5}  (
2
 1  (1.75)  1  0.9599  0.0401.
41
11
(2) P{1  X  4}  (
)  (
)
2
2
 (1.5)  (0) 0.4332 .
(3) P{ X  1.5}  1  P{ X  1.5}  1  P{1.5  X  1.5}
 1  (0.25)  1  (1.25)
 2  0.5987  0.8944  0.5069 .
51
例2 某学期“概率论与数理统计”考试成绩（百分制）
服从正态分布N(μ,σ2), 已知考试成绩在75分以下的占
30%，而在90分以上的占14%，试求参数μ和σ2 ．
解
设X表示考试成绩，则
X ~ N (,  2 ) ,

 75   
 0.30  P  X  75     




 0.14  P  X  90  1    90   
  



查表得
 75  
   0.52，
解得

 90    1.08
 
．
   79.875
 2
2


9.375

52
例3 设 X ~ N (u,  ) , 则
2
P{ X    k }  P{  k  X    k }
 (k )  ( k )  2(k )  1 ，
P{ X     }  2(1)  1  0.6826；
P{ X    2 }  2(2)  1  0.9544；
P{ X    3 }  2(3)  1  0.9974.
因此可以说，若 X ~ N ( u,  ) ，则在一次试验中，
X 几乎总是落在 (   3 ,   3 ) 之中。
2
这在统计学上称作“3 原则”（三倍标准差原
53
则）.
  3   2
 
 
68.26%
  2
  3
x
95.44%
99.74%
54
§2.5
二维随机变量及其分布
前面我们只讨论了一维随机变量及其分布. 但有
些随机现象用一个随机变量来描述还不够，而需要
用几个随机变量来描述.
在射击时,弹着点的位置是由一
对随机变量(两个坐标)来描述的.
飞机的重心在空中的位置是由
三个随机变量(三个坐标）来确定
的等等.
55
一般地，我们称n个随机变量的整体X=(X1,
X2, …，Xn)为n维随机变量或随机向量.
由于从二维推广到多维一般无实质性的困难，
为简单起见，我们重点讨论二维随机变量( X , Y ) .
请注意与一维情形的比较对照 .
56
一、二维离散型随机变量及其联合分布律
定义
若二维随机变量( X , Y )全部取到的值是有限对
或可列无穷多对，则称( X , Y )是二维离散型随机变量.
若二维随机变量 ( X , Y ) 所有可能取值为（ xi , y j ），
如果
p11
p21
y2  y j 
p12  p1 j 
p22  p2 j 




xi
pi 1 pi 2  pi j 


X
P{ X  xi , Y  y j }  pi j
x1
i , j  1,2,
x2
则称二维表
为(X,Y)的联合
分布律。
Y

y1

57
显然， pi j 必须满足以下两个性质:
(1) 非负性
0  pi j  1 , i , j  1,2,
(2) 规范性
 p
ij
i
1.
j
例1 袋中有大小形状相同的6个球(2黑4白)，从袋中
不放回地依次取两个球.设随机变量X和Y分别表示第
一次和第二次取到的白球的个数，求:(1)(X,Y)的联
合分布律;(2) F ( 3 , 1 ) 。
2 2
58
解 (1)
Y
0
1
0
2 1 1
 
6 5 15
2 4 4
 
6 5 15
1
4 2 4
 
6 5 15
4 3 2
 
6 5 5
X
(2)
3 1
F( , )  
2 2 x 3
i
2

yj 
1
2
2
pi j  P{ X  0,Y  0}  P{ X  1,Y  0} 
3
59
二、二维连续型随机变量及其联合概率密度
设 ( X, Y )是二维随机变量，如果存在一个非负
可积函数 f ( x , y ) ，使得对任意的实数 x, y ，有
P ( X  x, Y  y )  
x


y

f (u, v ) dudv
则称 ( X, Y )是二维连续型随机变量，称 f ( x , y ) 为二维
连续型随机变量 ( X, Y ) 的联合概率密度函数。
60
P ( X  x, Y  y )  
x


y

f (u, v ) dudv
联合密度函数 f ( x, y) 具有以下性质：
(1) 非负性： f ( x, y )  0 .
(2) 规范性：
 
 
 
(3) P {( X , Y )  G } 
f ( x, y) dx d y  1 .
 f ( x , y ) dx d y ,
其中 G 为平面
G
上的一个区域.
61
例2 设二维随机变量(X,Y)的联合密度函数为
 ke (2 x  y ) , x  0, y  0
f ( x, y)  
其它
 0,
(1)求系数 k ； (2)求概率 P{2 X  Y  1} .
解 (1) 由规范性
 
 


f ( x, y ) dx d y  k 

0
e
2 x
dx 

0
y
e dy
1
 k  1 ， k  2 .
2
62
 2e (2 x  y ) , x  0, y  0
f ( x, y)  
其它
 0,
(2) P{2 X  Y  1}



dx 
 2 e
1
0
2 x
1 2 x

dx 
y
f ( x, y ) dy
1 2 x
0
e y dy
O
x
1
 .
3
63
下面介绍两个常见的二维连续型分布.
设D是平面上的有界区域, 其面积SD. 若二维随机
变量( X,Y)具有概率密度
 1
, ( x, y)  D

f ( x, y)   SD
 0,
其它

则称(X,Y)在D上服从均匀分布.
若( X,Y)服从区域D上的均匀分布, 则对于D中任
一子区域G, 有
SG
1
P{( X , Y )  G}   f ( x, y ) dxdy  
dxdy 
.
SD
SD
G
G
64
于是( X,Y)落在D中任一子区域G的概率与G的面
积成正比, 而与G的形状和位置无关. 在这个意义上
我们说,服从某区域上均匀分布的二维随机变量在该
区域内是“等可能”的。这一点与一维随机变量的
均匀分布类似，而且与几何概率的计算相吻合.
65
若二维随机变量(X,Y)具有概率密度
f ( x, y)

1
2 1 2 1  
其中
 ( x  1 ) 2
( x  1 )( y   2 ) ( y   2 ) 2 

2


2 
2
2
2


2 (1  )   1
2

1 2
1
2
e
1 , 2 ,  1 ,  2 , 
均为常数, 且
 1  0,  2  0, |  | 1
则称( X,Y)服从参数为
的二维正态分布.
1 , 2 ,  1 ,  2 , 
记作 ( X , Y ) ~ N ( 1 , 2 ; 12 ,  22 ;  ) .
66
三、二维随机变量的联合分布函数
二维随机变量（X,Y）
一维随机变量X
X和Y的联合分布函数
X的分布函数
F ( x , y )  P{ X  x , Y  y }
   x, y   y
F ( x )  P{ X  x }
 x  
( x, y )
O
x
67
y
y
(a , d )
( x, y )
O
(a , c )
(b, d )
( b, c )
x
O
P{a  X  b, c  Y  d }
x
a  b, c  d ,
 F (b, d )  F (b, c)  F (a, d )  F (a, c) .
68
联合分布函数的基本性质
F ( x , y )  P{ X  x , Y  y }
(1) 单调性： F ( x , y ) 关于变量 x 或 y 单调不减；
(2) 右连续性： F ( x , y ) 关于变量 x 或 y 都是右连续的；
(3) 有界性： 0  F ( x, y )  1 ；
且
F ( , y )  0 , F ( x,  )  0 ，
F ( ,  )  0 ，F ( ,  )  1 .
69
若二维离散型随机向量 ( X , Y ) 的联合分布律为
P{ X  xi , Y  y j }  pi j ，i , j  1,2, 则其联合分布函数为
F ( x , y )  P{ X  x , Y  y } 
p
xi  x y j  y
ij
.
若二维连续型随机变量 (X,Y )的联合概率密
度函数为 f ( x, y ) ，则其联合分布函数为
F ( x, y )  
x


y

f (u, v ) dudv
 2 F ( x, y )
且在 f ( x, y ) 连续点处，有
 f ( x, y ) .
x y
70
例3 设二维随机变量(X,Y)的联合密度函数为
 2e (2 x  y ) , x  0, y  0
f ( x, y)  
,
其它
 0,
求分布函数 F ( x , y ) ；
解
F ( x, y )  
x


y

f ( x, y ) dxdy
 2 x e  2 x d x   e  y d y , x  0, y  0
 0
0

 0 ,
其它
(1  e 2 x )(1  e  y ) , x  0, y  0

其它
 0,
71
§2.6 边缘分布
二维随机变量(X,Y)作为一个整体, 用联合分布
来刻画. 而X和Y都是一维随机变量, 因此也有其各
自的分布函数, 称为边缘分布函数.
若X和Y的分布函数分别记作FX(x)和FY (y)，则
FX ( x )  P{ X  x} P{ X  x, Y  } F ( x,  ) ,
即
FX ( x )  F ( x ,   )= lim F ( x , y ) ,
y 
同理, FY ( x )  F (  , y )= lim F ( x , y ) .
x 
联合分布
函数与边
缘分布函
数的关系
72
一、二维离散型随机变量的边缘分布
设( X,Y )是离散型二维随机变量，联合分布律为
P{ X  xi , Y  y j } pi j , i , j  1,2,
则(X,Y)关于X的边缘分布函数为
FX ( x )  F ( x,  ) 

 p
x i  x j 1
由 FX ( x) 
ij
, i  1,2, .

 p , 比较得 P{ X  xi }   pi j ,
xi  x
i
i  1,2, .
j 1

同理, 关于Y 的边缘分律为 P{Y  y j }   pi j , j  1,2, .
i 1
记
pi   pi j  P{ X  xi }, i  1,2,
j
p j   pi j  P{Y  yi },
i
j  1,2,
73
例1 设(X,Y)
的联合分布律
由下表给出，
求X和Y的边缘
分布.
Y
0
1
2
pi 
0
0.1
0.1
0.2
0.4
1
0.2
0.1
0.3
0.6
p j
0.3
0.2
0.5
X
Y的边缘分布
所以的边缘分布律分别为
X
0
1
P
3
5
2
5
Y
0
1
P
3
5
2
5
X
的
边
缘
分
布
74
二、二维连续型随机变量的边缘密度
设( X,Y )是二维连续型随机变量，联合概率密度为
f ( x , y ) , 由于
x
y
FX ( x )  F ( x,  )  lim   f (u, v ) dudv
y 


   f ( u, v )dv  du ，

 
 
x
所以(X,Y)关于X的边缘密度函数为
f X ( x)  


f ( x, y ) dy ，
同理, 关于Y 的边缘密度函数为
fY ( y )  


f ( x, y ) dx .
75
例2 设(X,Y)在圆域{(x,y)|x2+y2≤4}上服从均匀分布，
求关于X和Y的边缘分布密度.
解由圆的面积易知联合概率密度为：
 1
2
2
 , x  y 4
f ( x , y )   4
 0,
其它
由边缘密度定义有：
当 x   2 或 x  2时，f ( x, y )  0从而 f X ( x )  0
当 2  x  2 时，
f X ( x)  


f ( x , y )dy  
4 x 2
1
 4 x 2

dy 
2

4 x
2
76
即关于X的边缘概率密度为
2
2
4

x

f X ( x)   
 0
2 x  2
其它
由函数的对称性易得关于Y 的边缘概率密度为
2
2
4

y

fY ( y )   
 0
2 y  2
其它
77
例3 设(X,Y)的概率密度为
2e (2 x  y )
f ( x, y)  
0
x  0, y  0
其它
试求关于X和Y 的边缘分布密度
解由 f X ( x) 



f ( x, y)dy
当 x  0时 f X ( x )  0
当 x  0 时 f X ( x)  2
故

 2e 2 x
f X ( x)  
0

0
e
2 x  y
e dy  2e
x0
x0
2 x
78
同理可得
e  y
fY ( y )  
0
y0
y0
本题也可采用如下方法解决：先由联合分布函数
F(x,y)求出两边缘分布函数FX(x)和FY(y)，再利
用边缘分布函数与边缘概率率密度的关系，求导
得 f X ( x)  FX ( x) 及 f Y ( y)  FY ( y) ，同学们不妨一
试.
79
例4 设二维随机变量(X,Y )的概率密度为
  1  ( x  μ1 )2
( x  μ1 )( y  μ2 ) ( y  μ2 )2  
e xp
 2ρ



2 
2
2
2(1  ρ )  σ1
σ1 σ 2
σ2  

f ( x, y ) 
2 σ1σ 2 1  ρ2
其中的μ1 , μ2 , σ1 , σ2 , ρ 都是常数, 且 σ1  0, σ2  0, | ρ | 1.
称此( X , Y )是服从参数为μ1 , μ2 , σ1 , σ2 , ρ 的二维正态分布.
记作 N ( μ1 , μ2 , σ12 , σ 22 , ρ) ,求此 (X,Y ) 的边缘分布密度.
注意联合分布密度可改写成
2
 1
1  ( y  μ2 )
( x  μ1 )  ( x  μ1 )2 

e xp 
ρ

2

2 
2
σ
2
(
1

ρ
)
σ
σ
1

2
1



f ( x, y) 
2 σ1σ 2 1  ρ 2
80
2
 1


1
( y  μ2 )
( x  μ1 )
( x  μ1 ) 2 
e xp 
ρ



2 
2
2
(
1

ρ
)
σ
σ
2
σ

2
1
1



f ( x, y) 
2 σ1σ 2 1  ρ 2
 ( y  μ2 )
( x  μ1 ) 
ρ
t
2 
σ1 
1  ρ  σ2
1
解作替换
f X ( x)  


2 1 ρ
2
 dt
1    t 2 ( x  μ1 )2 
f ( x, y ) d y 
e xp 
dt
2



2 σ1
2σ1 
 2

1

e
2 σ1
( x  μ1 ) 2
2 σ12
1

2




1
e
同理 fY ( y)   f ( x, y) d x 
2 σ 2

,则
dy
t2
e
t2

2

1
dt 
e
2 σ1
( y  μ2 ) 2
2
亦即 X ~ N ( 1 , 12 ), Y ~ N (2 , 2 )
2 σ 22
( x  μ1 ) 2
2 σ12
二维正态分布的两边
缘分布都是一维正态
分布,且都与ρ无关.
81
二维正态分布的图形(1)
82
二维正态分布的图形(2)
83
也就是说,二维正态分布的两个边缘分布仍然为
正态分布,而且其边缘分布不依赖于参数  .因此可
以断定参数  描述了X与Y之间的某种关系!
思考
边缘分布均为正态分布的随机变量,其联合分布
一定是二维正态分布吗?
提示请研究联合分布:
1  12 ( x 2  y 2 )
f ( x, y) 
e
(1  sin x sin y )
2π
84
结果 f X ( x ) 
结论
1
e
2
 x2
2
,
fY ( y ) 
1
e
2
 y2
2
边缘分布均为正态分布的随机变量,
其联合分布不一定是二维正态分布.
再次说明联合分布和边缘分布的关系:
由联合分布可以确定边缘分布;
但由边缘分布一般不能确定联合分布.
那么, 在什么情况下, 由边缘分布可以唯一确
定联合分布呢？
我们在下一部分中回答这个问题.
85
三、随机变量的独立性
随机变量的独立性是概率论中的一个重要概念，
两事件A,B独立的定义是：
下面我们利用两个事件相互独立的概念, 引入两个随
若P(AB)=P(A)P(B)，则称事件A,B独立 .
机变量相互独立的定义.
设 F(x,y),FX(x)及FY(y) 分别是二维随机变量 (X,Y)
的联合分布函数和关于X和Y 的边缘分布函数，若对
于任意的实数x, y, 均有
P{ X  x , Y  y}  P{ X  x }  P{Y  y} ，
F ( x, y )  FX ( x )FY ( y )
则称随机变量X与Y是相互独立的.
86
P{ X  x , Y  y}  P{ X  x }  P{Y  y} ，
关于随机变量的独立性，有如下两个定理.
定理1 若( X,Y )是二维离散型随机变量，则 X与Y
相互独立的充分必要条件是对于(X,Y )的所有可能
取值(x i,y j)恒有
P{ X  xi , Y  y j } P{ X  xi }  P{Y  y j } ,
即
pi j  pi   p j , i , j  1, 2,
.
87
例6
设二维随机变量 ( X , Y ) 的分布律为
Y
1
2
3
0
1 24
18
1 12
1

38

X
求当 ， 取什么值时，随机变量 X 与 Y 相互独
立？
88
解
X 与 Y 的边缘分布律为
1 1 1 1
3
P  X  0 
   , P  X  1     
24 8 12 4
8
1
1
1
P Y  1 
  , P Y  2  , P Y  3 

24
2
12
由 X 与 Y 相互独立可得：
1  1
 1
PX  0，Y  1  P  X  0  P Y  1      
4  24
 24
1 1
 1
PX  0，Y  3  P  X  0  P Y  3       
4  12
 12
联立以上两式可解出：
1
1
  ， 
8
4
89
若 ( X , Y ) 是二维连续型随机变量， f ( x , y ) ，
f X ( x ) ， fY ( y ) 分别为 ( X , Y ) 的联合概率密度和边缘
定理 2
分布密度，则 X 与 Y 相互独立的充分必要条件是对于
任意的 x , y ，恒有
f ( x , y )  f X ( x ) fY ( y )
例3 设(X,Y )的联合密度函数为
4 xy 0  x  1, 0  y  1
f ( x, y )  
,
其它
 0
问X与Y是否相互独立？
90
解
X,Y的边缘密度分别为
2 x 0  x  1
f X ( x)  
,
其它
0
2 y 0  y  1
fY ( x )  
,
其它
0
f ( x, y )  f X ( x ) fY ( y )成立，所以X,Y相互独立。
练习设(X,Y )的联合密度函数为
8 xy 0  x  y, 0  y  1
f ( x, y )  
,
其它
 0
问X与Y是否相互独立？
91
解 X,Y的边缘密度分别为
1
 1 8 xy dy  4 x(1  x 2 ) 0  x  1
f X ( x)   x
,

0
其它
 y 8 xy dx  4 y 3 0  y  1
fY ( y )    0
,

0
其它
y
1
y x
0
x
因为 f ( x, y )  f X ( x ) fY ( y ) ，所以X,Y 不相互独立。
定理 3
2
2
(
X
，
Y
)
~
N
(

,

;

,

若
则
1
2
1
2 ; ) ，
X 与 Y 相互独
立的充要条件是   0
92
§2.7
随机变量的函数的分布
在实际中，人们常常对随机变量的函数更感兴趣.
例如，已知圆轴截面直径 d 的分布，
求截面面积 A=
d
4
2
的分布.
设随机变量X 的分布已知，Y=g (X) (设g是
连续函数)，如何由 X 的分布求出 Y 的分布？
这个问题无论在实践中还是在理论上都是
重要的.
93
一、离散型随机变量函数的分布
一维离散型随机变量函数的分布是比较容易求得的，
若X是离散型随机变量，它的分布律为
 x1
X～
 p1
则 Y=g(X)
 g ( x1 )
～
 p1
x2  xn 

p2  pn 
g ( x2 )  g ( xn ) 

p2  pn 
如果g(xk)中有一些是相同的，把它们作适当并项即
可.
94
例1 设随机变量X的分布律为
X
0
1
2
3
P
0 .1
0 .3
0 .2
0 .4
求2X+1及(X –1)2的概率分布。
解
2X  1
1
3
5
7
P
0 .1
0 .3
0 .2
0 .4
( X  1)2
0
1
4
0 .3
0 .3
0 .4
P
注意：取值相同的概率应相加。
95
对于二维离散型随机变量(X,Y )的函数的分
布可以按照如下方式求得。
设随机变量(X,Y )的联合分布律为
P{ X  xi ,Y  y j }  pij , i , j  1,2,
则由 ( X , Y )的所有可能取值情况，可以求出随
机变量 Z  g ( X , Y ) 的所有可能取值情况，不妨
设为 z1 , z 2 ,  , z k ,  ；再分析 Z  z k 由 ( X , Y )
的哪几种组合产生，从而求出事件 { Z  zk } 的
概率。下面通过具体的例子说明。
96
例2 设随机变量(X,Y )的联合分布律为
0
1
2
1
0 .1
0 .2
0 .1
1
0 .1
0 .3
0 .2
X
解
Y
P
0 .1
0 .2
分别求X+Y、X Y的分
布律。
0 .1
0 .1
( X , Y ) (1, 0) (1, 1) (1, 2) (1, 0)
0 .3
0 .2
(1, 1) (1, 2)
X Y
1
0
1
1
2
3
XY
0
1
2
0
1
2
97
0 .1
P
0 .2
0 .1
0 .1
( X , Y ) (1, 0) (1, 1) (1, 2) (1, 0)
0 .3
0 .2
(1, 1) (1, 2)
X Y
1
0
1
1
2
3
XY
0
1
2
0
1
2
X  Y 1
0
1
2
3
P
0 .1 0 .2 0 .2
XY
2 1
0
1
2
P
0 .1 0 .2
0 .2
0 .3
0 .2
0 .3 0 .2
98
二、连续型随机变量函数的分布
对于连续型随机变量 X ，其函数 Y  g  X  可能
是连续型随机变量，也可能是离散型随机变
量，但我们在这里只讨论前者.此时，我们不
Y
仅希望求出随机变量
的分布函数FY  y  ，而且
还希望求出其概率密度
fY  y  .
解决此类问题的一般方法是：
99
第一步求出 Y 的分布函数FY ( y ) 的表达式
FY ( y)  PY  y  P{g ( X )  y}  P{X  I y }
其中 I y  { x g ( x )  y } ，而 P{ X  I y } 常常可由 X 的分布函
数 FX ( x ) 来表达或用其分布密度 f X ( x ) 的积分表达式
FY ( y )  P{ X  I y } 

f X ( x)dx
xI y
来表达.
第二步利用连续型随机变量分布函数与分
布密度的关系，求导可得到 f Y ( y ) .
100
下面我们介绍几个常见的随机变量函数的分布.
1. Y  kX  b （其中k , b 为常数且 k  0 ）的分布
设随机变量 X 的分布函数和分布密度分别
为 F X (x ) ，f X (x ) ，则由分布函数的定义 Y  kX  b
的分布函数为
FY ( y)  P{Y  y}  P{kX  b  y}
y b
y b
k

0
当
时，有 FY ( y )  P{ X 
}  FX (
)
k
两端对 y 求导，得 Y 的分布密度为
1
y b
f Y ( y)  f X (
)
k
k
k
101
当 k  0 时，有 Y 的分布密度为
1
y b
f Y ( y) 
fX (
)
k
k
综上所述，不论 k 值如何（ k  0 ）
，均有
1
y b
f Y ( y) 
fX (
)
|k|
k
例如，设 X
的分布为
~ N ( ,  2 )
，由上式可得其线性函数Y  kX  b
Y ~ N (k   b , k 2 2 )
特别地，若 X ~ N (  ,  ) ，则 Y 
2
X 

N (0,1) .
这表明：正态随机变量的线性函数仍然服从正态分
布，只是参数不同而已.
102
2
2. Y  X 的分布
设 X 具有概率密度 f X (x ) , X与Y的分布函数分别为
FX(x)和FY(y),
注意到 Y  X  0 ,故当 y  0 时，FY ( y )  0 .
2
当 y  0 时，FY ( y )  P{Y  y}  P{ X 2  y}
 P{  y  X 
y }  FX ( y )  FX ( y ) ，
求导可得
 1
[ f X ( y )  f X (  y )], y  0
dFY ( y ) 
fY ( y ) 
 2 y
dy
 0,
y0
103
 1
[ f X ( y )  f X (  y )], y  0

fY ( y )   2 y
 0,
y0
设 X ~ N (0, 1) , 其概率密度为
f X ( x) 
1
e
2
x2

2
，   x  
则 Y=X 2 的概率密度为
1
y


 1

y 2e 2 ,
fY ( y )   2
0,
y0
y0
此时称Y服从自由度为1的 分布.
2
104
一般地，我们有以下定理用于计算 Y  g ( X ) （其中 g ( x)
是单调函数）的概率密度.
定理设随机变量 X 具有概率密度 f X (
又设函数 g( x ) 处处可导且恒有 g '
x( )
x) , (  x  ，
 
)
0
0 g ' x( ) ）
（或
，则
Y  g( X ) 是连续型随机变量，其概率密度为：

 f X [h( y )]  h '( y )
fY ( y )  
0


 y
其它
，
其中   min{ g(), g()} ,   max{ g(), g()} ， h( y ) 是
g ( x ) 的反函数.
105
若 f ( x ) 在有限区间[a, b] 以外等于 0，则只需假设在
[ a , b ] 上恒有 g '( x )  0 （或 g '( x )  0 ），此时
  min{ g ( a ), g (b)} ,   max{ g ( a ), g (b)}
对于具有概率密度
f ( x, y)
的二维连续型随机变量
( X , Y ) ，如果其函数 Z  g ( X , Y )
仍然是连续型随机变
量，则可求 Z  g ( X , Y ) 的概率分布，具体做法是：
（1）求 Z  g ( X ， Y ) 的分布函数
FZ ( z)  PZ  z  Pg ( X , Y )  z  P ( X , Y )  DZ 
  f ( x，y)dxdy
DZ
其中 DZ  {( X , Y ) g ( X , Y )  z}
（2）根据 f Z ( z )  FZ ( z ) 求出 Z 的分布密度即可.
106
(1) Z = X + Y 的分布
已知(X, Y)的联合概率密度 f(x,y)，则Z =X+Y 的分布
函数为
FZ(z)=P(Z≤z)=P(X+Y ≤ z)
  f ( x, y)dxdy
y
D
这里积分区域D={(x, y): x+y ≤z}
x+y=z
是直线x+y =z 左下方的半平面.
x
化成累次积分,得

z y


FZ ( z )   [ 
f ( x, y)dx ]dy
固定z和y,对方括号内的积分作变量代换, 令x=u-y,得
107
变量代换

z

z




FZ ( z )   [  f ( u  y, y)du]dy
交换积分次序
  [  f ( u  y, y)dy]du
由概率密度与分布函数的关系, 即得
Z=X+Y的概率密度为:
fZ (z)  F (z)  
'
Z


f ( z  y, y )dy
由X和Y的对称性, fZ (z)又可写成
fZ (z)  F (z)  
'
Z


f ( x, z  x )dx
以上两式即是两个随机变量和的概率密度的一般
108
公式.
特别，当X和Y独立，设(X,Y)关于X,Y的边缘
密度分别为fX(x) , fY(y) , 则上述两式化为:

f Z ( z )   f X ( z  y ) fY ( y )dy


f Z ( z )   f X ( x) fY ( z  x)dx

这两个公式称为卷积公式 .
下面我们用卷积公式来Z=X+Y
的概率密度
109
例5 设X和Y是互相独立的随机变量，且X～N(0, 1),
Y ～N(0,1)，求Z = X +Y 的概率密度。
解
1
e
由于X、Y互相独立, 由卷积公式 f X ( x) 
2

f z ( z )   f x ( x) f y ( z  x)dx


1

2

e

x2
2
1
2
e

( z  x)2
2
dx
1   { x 2  ( z  x ) 2 }

e 2 2 dx

2 
1  z 2   ( x  z ) 2

e 4  e 2 dx

2
t  x
z
2
1  z 2   t 2
e 4  e dt

2
110
x2

2
即 Z=X+Y～N(0, 2). 一般地有
（1）若X~N(1,12) , Y~N(2,22) ，且X、Y相互独立，
则有
2
2
(



,



X+Y~N
1
2
1
2)
（2）如果Xi (i=1,2,…,n)为 n 个互相独立的随机变量,
且 Xi ~ N( i，i2)，则
n
n
n
i 1
i 1
i 1
2
X
~
N
(

,

 i
 i  i)
（3）有限个相互独立的正态随机变量的线性组合均
服从正态分布.即若n 个随机变量 X 1 , X 2 ,  X n 相互独
2
X
~
N
(

，

i
i ) ( i  1，2  n )
立，且 i
为零，则有
，常数 a1 , a 2 ,  a n 不全
n
 n
2
2
ai X i ~ N   ai  i， ai  i 

i 1
i 1
 i 1

n
111
休息
End
112

第2章随机变量及其分布

Transcript 第2章随机变量及其分布

Directory