1
概率论与数理统计第 五 章随机变量的数字特征与极限定理
2
第五章 随机变量的数字特征与极限定理
在前面关于 随机变量及其分布的讨论中,我们较仔细地讨论了随机变量 的概率分布,我们看到随机变量 的概率分布 (分布函数或分布列和概率密度 )是 随机变量 的概率性质最完整的刻划,是能够完整地描述 随机变量 的统计规律的,
但是在许多实际问题中,求概率分布不是一件容易的事;另一方面,有时不需要知道 随机变量 的概率分布,而只需要知道它 的某一方面的性质,
3
例如,考察某种大批生产的元件的寿命,如果知道了它的概率分布,就可以知道寿命在任一指定的界限内的元件的百分率有多少,这对该种元件的寿命状况提供了一幅完整的图景,
下面我们将看到,根据这一分布我们可以算出元件的平均寿命值 m,这个数 m虽然不能对元件的寿命状况提供一个完整的 刻划,但却在一个重要方面,
且往往是人们最为关心的一个方面,刻划了 元件寿命的状况,因而在应用上有极重要的意义,
类似的情况很多,比如我们在了解某一个行业的经济状况时,我们首先关心的恐怕会是其平均收入,
这给了我们一个总的印象;至于收入的分布状况,
除非为了特殊的研究目的,倒反而不一定是最重要的了,
4
另一类重要的数字特征,是衡量一个随机变量 (或其分布 )取值的散布程度,
例如,两个行业工人的平均收入大体相近,但一个行业中工人收入的分配较平均,即大多数工人的收入都在平均值上下不远处,其,散布,小;另一个行业则相反,其收入远离平均值者很多,,散布,
较大,这二者的实际意义当然很不同,
又如生产同一种产品的两个工厂,各自的产品平均说来都能达到规格要求,但一个工厂的波动小,较为稳定,另一个工厂则波动大,有时质量超标准,
有时则低于标准不少,这二者的实际后果当然也不同,
5
上面提到的平均值和散布程度,是 刻划 随机变量性质的两类最重要的数字特征,
对于多维随机变量而言,则还有一类 刻划各分量之间的关系的 数字特征,
在本章中,我们将要介绍的数字特征有:数学期望、
方差、协方差、相关系数和矩,
6
引例 考试的平均成绩问题
假设有 n名同学参加了某种考试,考试后的成绩是:
第一个同学得了 a1分,第二个同学得了 a2分,…,
第 n个同学得了 an分,那么他们这种考试的平均成绩
12
1
1
n
n
i
i
a a a
x
n
a
n?
7
引例 考试的平均成绩问题
假设有 n名同学参加了某种考试,考试后的成绩是:
第一个同学得了 a1分,第二个同学得了 a2分,…,
第 n个同学得了 an分,
将他们的成绩进行了汇总,发觉得 x1分的人有 n1个,
得 x2分的人有 n2个,…,得 xk分的人有 nk个,其中
n1+n2+…+ nk=n,那么他们这种考试的平均成绩
1 1 2 2
1
1
1
1
n
kk
i
i
k
ii
i
x n x n x n
xa
nn
xn
n
8
11
1
11
nk
i i i
ii
k
i
i
i
x a x n
nn
n
x
n
9
第五章 随机变量的数字特征与极限定理
5.1 随机变量的数学期望
5.1.1 离散型随机变量的数学期望
10
定义 5.1 设 离散型随机变量 X的分布列为
P(X=xk)=pk,k=1,2,…
若 级数
1k
kk px
绝对收敛,即
1
||
k
kk px
则称 该 级数为 离散型随机变量 X的 数学期望 或 均值,
记为 EX或 E(X),即
1k
kk pxEX
11
当
1
||
k
kk px
发散时,则称 X的数学期望不存在,
定义中的 绝对收敛条件是为了保证式
1k
kk px
不受求和的次序的改变而影响其和的值,
12
如果把 x1,x2,…,xk,… 看成是 x轴上质点的坐标,而把 p1,p2,…,pk,… 看成是相应质点的质量,质量总和为
1
k
kp
则 式
1k
kk pxEX
表示质点系的重心坐标,
13
常用的离散型随机变量的数学期望
例 1 (0— 1分布 )设 随机变量 X的分布列为
X 0 1
P 1?p p
求 EX,
解 EX=0× (1?p)+1× p=p.
14
由前面可知,事件 A的示性函数 IA服从 0— 1分布:
IA 0 1
P 1?P(A) P(A)
故 EIA=P(A),即任意事件的概率等于它的示性函数的数学期望,
15
例 2 (二项 分布 )设 随机变量 X的分布列为
pqp
nkqpCkXP knkkn
1,10
,,2,1,0,)(?
求 EX,
解
16
n
k
knk
n
k
knk
n
k
knk
n
k
knkk
n
qp
knk
n
qp
knk
n
k
qp
knk
n
k
qpkCEX
1
1
0
0
)!()!1(
!
)!(!
!
)!(!
!
17
np
qpnp
qpCnp
qp
knk
n
np
qp
knk
n
npEX
n
n
k
knkk
n
n
k
knk
n
k
knk
1
1
01
)1(111
1
1
)1(11
1
1
)(
) ] !1()1[()!1(
)!1(
)!()!1(
)!1(
18
例 3 (泊松 分布 )设 随机变量 X的分布列为
,2,1,0,0,
!
)(
k
k
ekXP k
求 EX,
解
19
ee
k
e
k
e
k
k
e
kEX
k
k
k
k
k
k
1
1
1
0
)!1(
!
!
由此看出,泊松 分布的参数 λ 就是相应随机变量 X
的数学期望,
20
第五章 随机变量的数字特征与极限定理
5.1 随机变量的数学期望
5.1.2 连续型随机变量的数学期望
对以 f(x)为概率密度 的 连续型随机变量 X而言,值 x
和 f(x)dx分别相当于离散型随机变量情况下的,xk”
和,pk”,故由离散型随机变量的数学期望的定义可知,连续型随机变量的数学期望可定义如下:
21
定义 5.2 设 连续型随机变量 X的概率密度为 f(x),若积分
dxxxf )(
绝对收敛,即
dxxfx )(||
则称 该广义积分 为 连续型随机变量 X的 数学期望 或均值,记为 EX或 E(X),即
dxxxfEX )(
22
EX的物理意义可理解为以 f(x)为 质量 密度的一维连续 质点系的重心坐标,
23
常用的连续型随机变量的数学期望
例 4 (均匀 分布 )设连续型随机变量 X的 概率密度为
)(
.,0
,,
1
)(
ba
bxa
abxf
其它
求 EX,
24
解
2
2/1
)(
2
ab
a
b
x
ab
dx
ab
x
dxxxfEX
b
a
这个结果是可以预料的,因为 X在 [a,b]上服从均匀分布,它取值的平均值当然应该是 [a,b]的中点,
25
例 5 (指数分布 )设连续型随机变量 X的概率密度为
.0,0
,0,
)(
x
xe
xf
x
其中 λ 是正常数,求 EX,
26
解
1
0
11
]
0
[
)(
0
0
0
0
0
xx
x
xx
x
x
exde
dxe
dxexe
xd e
dxexdxxxfEX
27
例 6 (正态 分布 )设连续型随机变量 X~N(μ,σ 2),
求 EX,
解 EX=μ,
正态分布中的 参数 μ,表示相应随机变量 X的数学期望,
28
2
2
2
22
()
2
2
22
()
1
2
2
22
x
t
tt
EX x f x dx
x e dx
xt
t e dt
e dt t e dt
令
29
2 2 2
22
22
22
0
2 2 2
0
22
0
22
0
0
22
0
22
22
( ) ( )
0
( ) ( )
0
1 1 0
t t t
tt
tt
tt
t e dt t e dt t e dt
tt
e d e d
d e d e
ee
30
例 7 (柯西 分布 )设连续型随机变量 X的 概率密度为
x
x
xf,
1
11)(
2?
求 EX,
解 由于
0
)1l n (
1
)1(
2
)1(
||
2
0
22
x
x
x d x
x
dx
x
故 X的数学期望不存在,
31
第五章 随机变量的数字特征与极限定理
5.1 随机变量的数学期望
5.1.3 随机变量函数的数学期望
32
5.1.3 随机变量函数的数学期望
关于一维 随机变量函数的数学期望,有下面的定理
定理 5.1 设 Y=g(X),g(x)是连续函数,
(ⅰ )若 X是离散型随机变量,分布列为 P(X=xk)=pk,
k=1,2,…,且
1
|)(|
k
kk pxg
则有
1
)()(
k
kk pxgXEgEY
33
(ⅱ) 若 X是 连续型的随机变量,概率密度为 fX(x),
且
dxxfxg X )(|)(|
则有
dxxfxgXEgEY X )()()(
根据上面的这个定理 5.1可知,当求 Y=g(X)的 数学期望时,不必知道 Y的分布,只需知道 X的分布就可以了,
34
例 8 设随机变量 X的 概率密度为
.,0
,0,
2
)( 2
其它
x
x
xf
求 E(sinX).
当然,我们可以先求出 Y=sinX的概率密度 fY(y),再由连续型随机变量的数学期望的定义求出 E(sinX).
不过,这样计算要麻烦得多,
35
解
2
s i n
2
2
s i n
)(s i n)( s i n
0
2
0
2
x d xx
dx
x
x
dxxxfXE
36
例 9 设在国际市场上每年对我国某种出口商品的需求量是 随机变量 X(单位为吨 ),它在 [2000,4000]上服从均匀分布的,又设每售出这种商品一吨,可为国家挣得外汇 3万元,但假如销售不出去而囤积于仓库,则每吨需要浪费保养费 1万元,问需要组织多少货源,才能使国家的收益最大,
解 设 y为预备出口的该种商品的数量,由已知条件
X在 [2000,4000]上服从均匀分布可知,这个数量 y
可以只考虑介于 2000与 4000之间的情况,
用 Z表示国家的收益 (单位为万元 ),则由题设可得
.),(3
,,3
)(
时当时当
yXXyX
yXy
XgZ
37
(,)
3,,
3 ( ),.
3,,
4,.
Z g X y
y X y
X y X X y
y X y
X y X y
当 时当 时当 时当 时
下面求 EZ,并求使 EZ达到最大的 y值,
38
4000
2000
26
2 2 6
(,) ( ) ( )
11
( 4 ) 3
2 0 0 0 2 0 0 0
1
[ 7 0 0 0 4 1 0 ]
1000
1
[ ( 3 5 0 0 ) ( 3 5 0 0 4 1 0 ) ]
1000
X
y
y
E Z E g X y g x f x d x
x y d x y d x
yy
y
故当 y=3500时,EZ达到最大 值 8250.因此,组织
3500吨这种商品是最佳的决策,
39
定理 5.1还可以推广到二维及二维以上的 随机变量 函数的情况,以二维 随机变量 函数 Z=g(X,Y)为例,有下面的定理,
定理 5.2 设 Z=g(X,Y),g(x,y)是连续函数
(ⅰ )若 (X,Y)是 二维离散型随机变量,分布列为
pij =P(X=xi,Y=yj),i,j=1,2,…
且
1 1
|),(|
i j
ijji pyxg
则有
1 1
),(),(
i j
ijji pyxgYXEgEZ
40
(ⅱ) 若 (X,Y)是二维连续型 随机变量,概率密度为
f(x,y),且
dydxyxfyxg ),(|),(|
则有
dydxyxfyxg
YXEgEZ
),(),(
),(
41
从式
dydxyxfyxgYXEgEZ
),(),(),(
可以得到由 (X,Y)的概率密度 f(x,y)求 X与 Y的 数学期望的公式:
dydxyxyfEYEZ
dydxyxxfEXEZ
),(
),(
42
例 10 设随机变量 X,Y相互独立,且都服从 N(0,σ 2)
分布,求
22 YXE?
解 由 二维 随机变量 函数的 数学期望的公式,有
dydxeyx
dydxyfxfyx
dydxyxfyxYXE
yx
YX
2
22
2
2
22
22
2222
2
1
)()(
),(
43
0
2
2
2
0 0
2
2
2
22
2
22
2
2
2
2
2
22
1
2
1
s i n,c o s
2
1
de
ded
yx
dydxeyxYXE
yx
令
44
0
2
0
2
2
2
0
2
2
2
0
2
2
22
2
2
2
2
2
2
2
2
2
2
1
1
de
de
de
deYXE
45
dtet
de
dee
deYXE
t
0
2
0
2
0
22
0
2
22
2
2
2
2
2
2
2
2
2
]
0
[
令
46
2
2
2
1
2
2
2
2
2
0
2
22
2
2
2
dte
dte
dtetYXE
t
t
t
令
47
例 10 设 (X,Y)在区域 A上服从均匀分布,其中 A为 x
轴,y轴和直线 x+y+1=0所围城的区域 (图 5.1),求
EX,E(?3X+2Y),E(XY).
x
y
O
A
图 5.1
48
解 (X,Y)的概率密度为
.),(,0
,),(,2
),(
Ayx
Ayx
yxf
于是
dydxyxxyfEXY
dydxyxfyxYXE
dydxyxxfEX
),(
),()23()23(
),(
49
3
1
)1
3
2
(0
1
0
3
2
)1(2
2
23
0
1
0
1
0
1
xx
dxxx
dyxdxEX
x
50
3
1
2)23(
),()23()23(
0
1
0
1
x
dyyxdx
dydxyxfyxYXE
12
1
2
0
1
0
1
x
dyxydxEXY
51
5.1.4 随机变量的数学期望的性质
(ⅰ ) EC=C,C为常数;
(ⅱ) E(CX)=CEX,C为常数;
(ⅲ) E(X1+X2…+ Xn)=EX1+EX2+…+ EXn ;
(ⅳ) 若 X1,X2,…,Xn相互独立,则
E(X1X2… Xn)= EX1EX2… EXn.
在上面的性质中,均假设 数学期望是存在的,
证 (ⅰ )将 C看成一个 离散型随机变量,有分布列
P(C=C)=1.于是
EC=C× P(C=C)=C× 1=C.
52
(ⅱ) 设 X为 连续型随机变量,概率密度为 f(x).令
Y=g(X)=CEX
则由上面的定理 5.1得
dxxxfCdxxC xfCXE )()()(
故
E(CX)=CEX.
离散型随机变量的情况,可类似证明,
53
(ⅲ) 对 n=2的情况给出证明,一般的情况不难用数学归纳法推得,
先考虑连续型随机变量的情况
设 (X,Y)是二维连续型 随机变量,概率密度为
f(x,y),则由上面的定理 5.2立即可得
EYEX
dydxyxyf
dydxyxxf
dydxyxfyxYXE
),(
),(
),()()(
54
下面考虑离散型随机变量的情况
设 (X,Y)是二维 离散型随机变量,分布列为
pij =P(X=xi,Y=yj),i,j= 1,2,…
则由上面的定理 5.2立即可得
EYEXpypx
pypx
pyxYXE
j
jj
i
ii
i j
ijj
i j
iji
i j
ijji
11
1 11 1
1 1
)()(
55
(ⅳ) 对两个连续型随机变量的情况给出证明,离散型随机变量的情况,可类似证明;一般的情况不难用数学归纳法推得,
设 X,Y是两个连续型随机变量,概率密度分别 fX(x)
和 fY(y),于是由 X与 Y相互独立得 (X,Y)的概率密度
f(x,y)可由 fX(x)和 fY(y)的乘积来表达,从而
E X E Y
dyyyfdxxxf
dydxyxx y fXYE
YX
)()(
),()(
56
例 12 设 X~B(n,p),求 EX.
解 在前面的例 2中,我们已经直接用 数学期望的定义求得了 EX=np.现在利用数学期望的的性质 (ⅲ) 来作,
设在 n重 伯努利 试验中,成功的次数 为 Y,而在每次试验成功的概率为 p,则 Y与 X有相同的分布,从而有相同的 数学期望,
若设 Xi表示在第 i次试验成功的次数,i=1,2,…,n,
则 Xi的分布列为
Xi 0 1
P 1?p p
57
且
n
i
iXY
1
由 Xi的分布列得,EXi=p,于是由数学期望的的性质 (ⅲ) 得到
n
i
i npEXEYEX
1
与例 2的作法比较可见,本例的作法要简单得多,
58
例 13 设 r个人在楼的底层进入电梯,楼上有 n层,每个乘客在楼的任一层下电梯的概率是相同的,如果到楼的某一层无乘客下电梯,电梯就不停车,求直到乘客都下完时电梯停车的次数 X的数学期望,
解 设 Xi表示在第 i层电梯停车的次数,i=1,2,…,n,
则
.,1
,,0
层有人下电梯第层没有人下电梯第
i
i
X i
易见
n
i
i
n
i
i EXEXXX
11
,
59
下面求 Xi的分布列 (i=1,2,…,n)
由于每个人在楼的 任一层下电梯的概率均为 1/n,
故他不 在楼的 某一层下电梯的概率均为
n
11?
故 r个人同时不在 第 i层下电梯的概率为
r
n
)11(?
即
r
i nXP )
11()0(
60
从而
r
i nXP )
11(1)1(
于是
11
0 ( 1 ) 1 [ 1 ( 1 ) ]
1
1 ( 1 )
1,2,,
rr
i
r
EX
nn
n
in
61
因此
])11(1[
1
r
n
i
i nnEXEX
在这个例子中,若 r=10,n=10,则 EX=6.5,即电梯平均停车 6.5次,
在上面的例子中,把一个比较复杂的随机变量 X拆成 n个比较简单的 随机变量 Xi的和,然后通过这些 比较简单的 随机变量的数学期望,根据数学期望的性质 (ⅲ) 求得了 X的 数学期望,这样的方法是概率论中常采用的方法,
62
例 同时掷四颗匀质的骰子,求所得点数之和的数学期望?
解 设 X表示四颗骰子的点数之和,则 X是一个离散型的随机变量,它的取值是 4,5,…,24.
设 Xi表示第 i颗骰子的点数,i=1,2,3,4,,则
44
11
,ii
ii
X X EX EX
63
例 13 设 N个人进行验血,有两种方案:
(1)对每个人的血液逐个化验,共需进行 N次化验;
(2)将采集的每个人的血液分成两份,按 k个人一组混合后进行化验 (设 N为 k的倍数 ),若呈阴性反应,
则认为 k个人的血都是阴性反应;如果混合后血液呈阳性反应,则需要对 k个人的另一份血液逐个进行化验,这时 k个人的血总共要化验 k+1次,
假设所有人的血液呈阳性反应的概率都是 p,且各次的化验结果是相互独立的,试说明适当选取 k可使第二个方案减少化验次数,
解 设 X表示第二个方案下的总化验次数
64
解 设 X表示第二个方案下的总化验次数,Xi为第 i个分组的化验次数 (i=1,2,…,N/k),则
kN
i
i
kN
i
i EXEXXX
/
1
/
1
,
EX表示 第二个方案下的总的平均化验次数,EXi表示 第 i个分组的平均化验次数 (i=1,2,…,N/k).
下面先求 EXi.
按照第二个方案的规定,Xi可能取两个值:
混合血液呈阴性时,Xi=1;
血液呈阳性,Xi=k+1.
65
因为,Xi=1”表示,组内 k个人的血都是阴性,这个事件,又由于各次的化验结果是相互独立的,所以
k
i
k
i
qkXP
pqqqqqXP
1)1(
1;)1(?
于是
1 ( 1 ) ( 1 )
1
1,2,,/
kk
i
k
E X q k q
k k q
i N k
66
因此
)11()1( kk q
k
Nkqk
k
NEX
这就是第二个方案下的总的平均化验次数,由此可知,只要选 k使
1)11( kq
k
即
kq
k
1
67
就可以使 第二个方案减少化验次数,
当 q已知时,若 选 k使
)11()( kq
k
kf
取最小值,就可以使 化验次数 最 少,
例如,当 q=0.9时,可以证明,选 k=4可以使 f(k)最小,这时
NNEX 5929.0)9.0
4
11( 4
故当 q=0.9,k=4时,第二个方案的化验次数比第一个方案平均减少 40%.
68
例 设 X~N(4,9),Y~U[0,4],Z=2XY?5,求 EZ?
解
EZ=E(2XY?5)=2EXY?5.
若 X,Y相互独立,则
EZ=E(2XY?5)=2EXY?5=2EXEY?5.
由于 X~N(4,9),Y~U[0,4],故
EZ=E(2XY?5)=2EXY?5=2EXEY?5=11.
69
引例 考试的平均成绩问题
y
O
EX EY
x
70
第五章 随机变量的数字特征与极限定理
5.2 方差
5.2.1 方差的概念
数学期望反映了随机变量的平均值,它是一个很重要的数字特征,但是,在某些场合下只知道平均值是不够的,
例如研究灯泡的质量时,人们不仅要知道灯泡寿命
X的 平均值 EX的大小,而且还要知道这些灯泡的寿命 X离开 EX的平均偏离程度如何,
71
如果平均偏离较小,那么说明这批灯泡的寿命大部分接近它的均值,这也说明灯泡厂的生产是稳定的;
这时,如果 EX比较大,那么灯泡的质量就是比较好的,相反,如果 X离开 EX的平均偏离较大,那么即使均值较大,生产质量也是有问题的,
再如在打靶比赛中,不但要求射击准确,而且还要求稳定,如果某射手射击 10次,虽然有 7次正中靶心,
但是另外 3次却打歪了,弹孔离靶心很远,甚至子弹射到了靶外打伤了人,这也说明此人的射击技术是成问题的,
72
那么,用什么量来衡量这种平均偏离程度呢?
人们自然会想到采用 |X?EX|的平均值 E|X?EX|.
但是式 E|X?EX|带有绝对值号,运算不便,故采用
(X?EX)2的平均值 E(X?EX)2来代替 E|X?EX|.
显然,E(X?EX)2的大小完全能够反映 X离开 EX的平均偏离大小的,这个值就称为 X的 方差,
定义如下:
73
定义 5.3 设 X是一个 随机变量,若 E(X?EX)2存在,
则称 E(X?EX)2是 X的 方差,记作 DX,即
DX=E(X?EX)2.
同时,称方差的平方根是 X的 标准差 或 根 方差,记作 σ X,即
DXX
由于 σ X与 X具有相同的量纲,故在实际问题中经常被采用,
74
根据一维 随机变量函数的数学期望公式,对于离散型和 连续型 随机变量的方差可以分别得到如下的表达式:
(ⅰ) 离散 型 随机变量的情况
1
2)(
k
kk pEXxDX
其中 P(X=xk)=pk,k=1,2,…,
(ⅱ) 连续型 随机变量的情况
dxxfEXxDX )()( 2
其中 fX(x)为 随机变量 X的 概率密度,
75
关于方差的计算,常利用如下的公式
DX=EX2?(EX)2.
这个公式可用的数学期望的性质来证明,
证
22
22
22
2
)(
)(2
])(2[
)(
EXEX
EXEXEXEX
EXX E XXE
EXXEDX
76
常用的离散型、连续型随机变量的方差,
例 1 (0— 1分布 )设 随机变量 X的分布列为 (q=1?p)
X 0 1
P 1?p p
求 DX,
解 EX=0× (1?p)+1× p=p
EX2=02× (1?p)+12× p=p
DX=p2?p=p(1?p)=pq.
77
例 2 (二项 分布 )设 随机变量 X的分布列为
pqp
nkqpCkXP knkkn
1,10
,,2,1,0,)(?
求 DX,
解
0
2 2 2
0
22
( 1 )
( ),
n
k k n k
n
k
n
k k n k
n
k
EX k C p q n p
EX k C p q n n p n p
DX EX EX n p q
78
解
n
k
knk
n
k
knk
n
k
knk
n
k
knkk
n
qp
knk
n
k
qp
knk
n
k
qp
knk
n
k
qpCkEX
1
1
1
2
0
22
)!()!1(
!
)11(
)!()!1(
!
)!(!
!
79
n
k
knk
knk
n
k
n
k
knk
n
k
knk
qp
knk
n
np
qp
knk
n
k
qp
knk
n
qp
knk
n
kEX
1
1
2
1
1
2
)!()!1(
)!1(
)!()!1(
!
)1(
)!()!1(
!
)!()!1(
!
)1(
80
nppnn
npqppnn
np
qp
knk
n
pnn
qpnp
qp
knk
n
EX
n
n
k
knk
n
n
k
knk
2
22
2
22
1
2
2
)1(
)()1(
)!()!2(
)!2(
)1(
)(
)!()!2(
!
81
例 3 (泊松 分布 )设 随机变量的分布列为
,2,1,0,0,
!
)(
k
k
ekXP k
求 DX,
解
0
2 2 2
0
22
!
!
( ),
k
k
k
k
e
E X k
k
e
E X k
k
D X E X E X
82
11
1
11
2
0
22
)!1()!1(
)1(
)!1(
)11(
)!1(!
!
k
k
k
k
k
k
k
k
k
k
k
k
k
e
k
e
k
k
e
k
k
e
k
k
e
k
k
e
kEX
83
00
2
01
1
02
2
2
1
1
2
2
2
1
1
2
2
!!
2
)!1()!2(
)!1()!2(
)!1()!1(
)1(
m
m
m
m
k
k
k
k
k
k
k
k
k
k
k
k
m
e
m
ekm
k
e
k
e
k
e
k
e
k
e
k
e
kEX
令
84
2
22 eeeeEX
由此看出,泊松分布的参数 λ 既是相应随机变量 X
的数学期望又是它的方差,
85
例 4 (均匀 分布 )设 X~U[a,b],求 DX.
解 EX=(a+b)/2,而
3
)(
3
11
3
111
)(
22
33
32
22
baba
ab
ab
a
b
x
ab
dx
ab
x
dxxfxEX
b
a
86
故 22
22
2
2
()
()
32
()
.
12
D X E X E X
a ab b a b
ba
由此看出,在 [a,b]上服从均匀分布的随机变量的方差与区间长度的平方成正比,
87
例 5 (指数分布 )设 X~E(λ ),即连续型随机变量 X
的概率密度为
.0,0
,0,
)(
x
xe
xf
x
其中 λ 是正常数,求 DX.
解 EX=1/λ,而
2
22 2)(
dxxfxEX
2 2 2
22
2 1 1( ) ( ),D X E X E X
88
0
0
22
0
2
0
2
0
222
2
]
0
[
)(
dxxe
dxeex
dex
xdex
dxexdxxfxEX
x
xx
x
x
x
89
2
00
0
22
00
22
2
2
2
[]
0
22
22
0
xx
xx
xx
x
E X x e d x x d e
x e e d x
e d x d e
e
90
例 6 (正态 分布 )设连续型随机变量 X~N(μ,σ 2),
求 EX,
解 EX=μ,DX=σ 2.
正态分布 N(μ,σ 2)中的 参数 μ 和 σ 2分别 表示相应随机变量 X的数学期望和方差,
dxexDX
x
2
2
2
)(
2
2
1)(
则得令,
xt
91
2
2
2
22
2
2
2
2
2
2
2
2
22
2
2
2
1
]}[{
2
22
2
dte
dtete
t
dte
dtetDX
t
tt
t
t
92
5.2.2 随机变量的方差的性质
(ⅰ ) DC=0,C为常数;
(ⅱ) D(CX)=C2DX,C为常数;
(ⅲ) 若 X1,X2,…,Xn相互独立,则
D(X1+X2…+ Xn)= DX1+DX2+…+ DXn;
(ⅳ) DX=0的充要条件是 X取某一常数值 a的概率为
1,即
P(X=a)=1,a=EX.
在上面的性质中,均假设 方差是存在的,
证 (ⅰ )DC=E(C?EC)2=E(C?C)2.
93
证 (ⅰ )DC=E(C?EC)2=E(C?C)2.
(ⅱ) D(CX)=E(CX)2?[E(CX)]2
=C2EX2?C2(EX)2
=C2[EX2?C2(EX)2]
=C2DX
(ⅲ) 对 n=2的情况给出证明,一般的情况,证法相同
(ⅳ) 证明略,
94
2
2
22
( ) [ ( ) ( ) ]
[ ( ) ( ) ]
( ) ( )
2 ( ) ( )
D X Y E X Y E X Y
E X E X E Y E Y
E X E X E Y E Y
E X E X Y E Y
又
E X E YE X Y
E X E YY E XX E YXYE
EYYEXXE
)(
))((
95
因为 X与 Y相互独立,故
E X E YEXY?
于是
0))(( EYYEXXE
从而
DYDXYXD )(
96
应用方差的性质计算方差,常常能使运算简化,见下例
例 6 设 X~B(n,p),求 DX.
解 设在 n重 伯努利 试验中,成功的次数 为 Y,而在每次试验成功的概率为 p,则 Y与 X有相同的分布,
从而有相同的 方差 (0<p<1,q=1?p).
设 Xi表示在第 i次试验成功的次数,i=1,2,…,n,则
Xi的分布列为
Xi 0 1
P 1?p p
97
显然,Y可以用 Xi(i=1,2,…,n)表示为:
n
i
iXY
1
由 Xi的分布列可知,DXi=pq,i=1,2,…,n.由于
X1,X2,…,Xn相互独立,故 由 方差 的性质 (ⅲ) 得到
n
i
i npqDXDYDX
1
与前面的作法比较可见,本例的作法要简单得多,
98
表 5.1 几种常用分布表分布 分布列或概率密度 数学期望 方差
0— 1分布
X~B(1,p) p pq
pqp
k
qpkXP
kk
1,10
1,0
)(
1
99
分布 分布列或概率密度 数学期望 方差二项 分布
X~B(n,p) np npq
泊松分布
X~P(λ ) λ λ
pqp
nk
qpCkXP
knkk
n
1,10
,,2,1,0
)(
0
,2,1,0
!
)(
k
k
e
kXP
k
100
分布 分布列或概率密度 数学期望 方差超几何分布几何分布
),m i n (
,,1,0
)(
nMl
lk
C
CC
kXP
n
N
kn
MN
k
M
pqp
k
pqkXP
k
1,10
,2,1
)(
1
Mn
N
2
q
p
1
p
101
分布 分布列或概率密度 数学期望 方差均匀 分布
X~U[a,b]
指数分布
X~E(λ )
ba
bxa
abxf
.,0
,,
1
)(
其它
0
.0,0
,0,
)(
x
xe
xf
x
2
ba?
12
)( 2ab?
1
2
1
102
分布 分布列或概率密度 数学期望 方差正态分布
X~
N(μ,σ 2)
μ σ 2
0
2
1
)(
2
2
2
)(
x
exf
x
103
例 设 随机变量 X1,X2,X3,X4相互独立,均服从 (0,1)
上的均匀分布,而
4
1
1
5 kk
Y k X
求 DY?
解
44
11
4
1
11
55
1
()
5
kk
kk
k
k
D Y D k X D k X
D k X
104
44
11
4
1
11
55
1
()
5
kk
kk
k
k
D Y D k X D k X
D k X
44
22
11
4
2
1
1 1 1
5 5 1 2
1 1 3 0 1
( 1 4 9 1 6 ),
6 0 6 0 6 0 2
k
kk
k
D Y k D X k
k
105
第五章 随机变量的数字特征与极限定理
5.3 协方差和相关系数、矩
对二维随机变量 (X,Y)来说,数字特征 EX,EY只反映了 X与 Y各自的平均值,而 DX,DY只反映了 X与 Y
各自离开平均值的偏离程度,它们对 X与 Y之间的相互联系没有提供任何信息,
自然,我们也希望有一个数字特征能够在一定程度上反映这种相互联系,
106
2
2
22
( ) [ ( ) ( ) ]
[ ( ) ( ) ]
( ) ( )
2 ( ) ( )
D X Y E X Y E X Y
E X E X E Y E Y
E X E X E Y E Y
E X E X Y E Y
又
E X E YE X Y
E X E YY E XX E YXYE
EYYEXXE
)(
))((
107
在证明方差的性质 (ⅲ) 若 X与 Y相互独立,则
D(X+Y)= DX+DY,D(X?Y)= DX+DY
时,我们曾得到
E(X?EX)(Y?EY)= 0.
这说明当 E(X?EX)(Y?EY)≠ 0时,X与 Y肯定不独立,
进一步的研究表明 E(X?EX)(Y?EY)的数值,在一定程度上反映了 X与 Y之间的相互联系,因而引入如下的定义,
108
定义 5.4 设 (X,Y)是一个 二维随机变量,如果
E(X?EX)(Y?EY)
存在,则称它为 X与 Y的 协 方差,记作
Cov(X,Y)
即
Cov(X,Y)=E(X?EX)(Y?EY).
109
由 协 方差的定义 5.4及上节的两个等式
D(X+Y)=E(X?EX)2+E(Y?EY)2+2E(X?EX)(Y?EY)
与
E(X?EX)(Y?EY)=E(XY)?EXEY
可知,对任意的两个随机变量 X与 Y,下面的两个式子成立
D(X ± Y)=DX+DY± 2Cov(X,Y)
Cov(X,Y)=E(XY)?EXEY.
110
由 协 方差的定义,可得下面的性质:
(ⅰ ) Cov(X,Y)= Cov(Y,X);
(ⅱ) Cov(aX,bY)= abCov(X,Y),a,b为常数;
(ⅲ) Cov(X1+X2,Y)= Cov(X1,Y)+Cov(X2,Y).
111
协 方差虽然在一定程度上反映了两个随机变量 X与 Y
之间的相互联系,但它有以下两个缺点:
(1)从 协 方差的性质 (ⅱ)
Cov(aX,bY)=abCov(X,Y)
可见,它的大小依赖于计量单位;
(2)从 协 方差的定义
Cov(X,Y)=E(X?EX)(Y?EY)
可见,它的数值不仅与 X,Y本身的取值有关,而且还与各随机变量关于它们的偏差有关,
如果随机变量 X或 Y中的任何一个与其数学期望的偏差很小,那么无论 X与 Y之间的联系如何密切,它们的 协 方差也会很小,
112
为了克服以上两个缺点,引入以下的定义,
定义 5.5 设 (X,Y)是一个 二维随机变量,如果 X与 Y
的协 方差 Cov(X,Y)存在,且 DX>0,DY>0,则称
DYDX
YXCo v ),(
为 X与 Y的 相关系数,记作 ρ XY,即
(,) ( ) ( )
XY
Co v X Y E X E X Y E Y
D X D Y D X D Y
113
下面研究 相关系数 ρ XY到底表示 X与 Y之间的什么联系?
为此,介绍下面的定理,
定理 5.3 设 ρ 是 X与 Y的 相关系数,则
(ⅰ )|ρ |≤ 1;
(ⅱ) |ρ |=1的充分必要条件是
P(Y=a+bX)=1,
其中 a,b为常数,
114
35.设 X与 Y为具有二阶矩的随机变量,且设
2(,) [ ( ) ]Q a b E Y a bX
求 a,b使 Q(a,b)达到最小值 Qmin,并证明
2
m in ( 1 ),XYQ D Y
115
解
2
2
(,) [ ( ) ]
[ ] [ ( ) ]
Q a b E Y a b X
D Y a b X E Y a b X
2
2
2 c o v (,)
( ),
D Y b D X b X Y
E Y b E X a
2 ( ) 0,Q E Y b E X a
a
2 2 c o v (,) 2 ( ) 0,Q b D X X Y E X E Y b E X a
b
116
解方程组
0,
2 2 c o v (,) 2 ( ) 0,
E Y b E X a
b D X X Y E X E Y b E X a
得
c o v (,),.XYb a E Y b E X
DX
此时
117
2
m in
22
2
[ ( ) ]
[ c ov (,) ] [ c ov (,) ]
2
()
Q E Y a bx
X Y X Y
D Y D X
D X D X
2
2[ c o v (,) ] [ 1 ],
XY
XYD Y D Y
DX
118
下面研究 相关系数 ρ XY到底表示 X与 Y之间的什么联系?
为此,介绍下面的定理,
定理 5.3 设 ρ 是 X与 Y的 相关系数,则
(ⅰ )|ρ |≤ 1;
(ⅱ) |ρ |=1的充分必要条件是
P(Y=a+bX)=1,
其中 a,b为常数,
119
证 (ⅰ )为了证明 |ρ |≤ 1,只需 证明
[2Cov(X,Y)]2≤ 4DXDY.
利用初等代数中的典型方法,只要说明以 DX、
2Cov(X,Y),DY为系数的二次三项式非负即可,
事实上,对任意的实数 t,有
t2DX?2Cov(X,Y)t +DY =D(tX?Y)≥ 0.
可见,上式左端的二次三项式没有两个相异的实数根,故判别式非正,即
[2Cov(X,Y)]2≤ 4DX DY
[Cov(X,Y)]2≤ DX DY
从而 (ⅰ )得证,
120
(ⅱ) |ρ |=1,即式
[2Cov(X,Y)]2≤ 4DXDY
中等号成立的充分必要条件是式
t2DX?2Cov(X,Y)t+DY=D(tX?Y)≥ 0
左端的二次三项式有重根 t =b,即存在实数 b,使
D(bX?Y)=0.
由方差的性质 (ⅳ) 知式 D(bX?Y)=0成立的充分必要条件是
P(Y?bX=a)=1,
其中 a为常数,从而 (ⅱ) 得证,
121
由定理 5.3可知,当 |ρ |=1时,Y与 X之间存在着线性关系,这个事件的概率为 1.
由本章的习题 35可以看出,ρ 的绝对值越接近于 1,
Y与 X之间越近似的有线性关系,
Y与 X之间的 相关系数 ρ 是刻画 X与 Y之间线性相关程度的一个数字特征,
122
定义 5.6 若 X与 Y的 相关系数 ρ =0,则称 X与 Y不相关,? 定理 5.4 随机变量 X与 Y不 相关与下面的每一个结论都是等价的,
(ⅰ ) Cov(X,Y)=0;
(ⅱ) D(X± Y)=DX+DY;
(ⅲ) E(XY)=EXEY.
证明 (ⅰ )因为
DYDX
YXC o v
XY
),(
故 ρ =0与 Cov(X,Y)=0等价,
123
(ⅱ) 由
D(X± Y)= DX+DY± 2Cov(X,Y)
可知
Cov(X,Y)=0与 D(X± Y)=DX+DY
是等价的,
(ⅲ) 由
Cov(X,Y)=E(XY)?EXEY
可知
Cov(X,Y)=0与 E(XY)=EXEY
是等价的,
124
注意,随机变量 X与 Y的不 相关和 X与 Y相互独立是两个不相同的概念,
X与 Y的不 相关是指 X与 Y之间不存在线性关系,不是说它们之间不存在其它关系,即由 X与 Y的不 相关,推不出 X与 Y相互独立,
但是反过来,若 X与 Y相互独立,则 X与 Y一定不 相关,这是因为
由
Cov(X,Y)=E(XY)?EXEY
可以看出,若 X与 Y相互独立,则
Cov(X,Y)=0
必然成立,
125
例 1设连续型随机变量 X~N(0,1),Y=X2,求 X与 Y的相关系数 ρ XY,
解 因 X~N(0,1),故 EX=0,于是由
Cov(X,Y)=E(XY)?EXEY
得
Cov(X,Y)=E(XY)=EX3
而
EX3 =0.
故
Cov(X,Y)=0
即 ρ XY =0,
126
dtetdtetxt
x
dex
x
dex
dxexdxex
dxexEX
tt
xx
xx
x
2
1
2
2
1
22/
22
1
22
1
2
1
2
1
2
1
0
0
2
2
2
0
2
2
2
0
2
2
0
3
2
0
3
2
33
22
22
2
令
127
]
0
[
2
2
]
0
[
2
2
][
2
2
][
2
2
2
2
2
2
0
0
0
0
0
0
3
dtete
dtete
etddet
dtetdtetEX
tt
tt
tt
tt
128
0
]11[
2
2
2
2
2
2
0
0
3
dtedteEX
tt
129
在例 1中,虽然 X与 Y是不 相关的,但是 X与 Y并不独立,
事实上,因
{X2≤ 1}∩ {X≤?2}= Φ
且
0<P(X2≤ 1)<1
0<P(X≤?2)<1
故
P(X≤?2,Y≤ 1)≠ P(X≤?2)P(Y≤ 1)
可见,X与 Y不相互独立,
130
本节的最后介绍一下矩的概念,它将在数理统计的矩估计法中得到应用,
定义 5.7 若 EXk(k=1,2,… )存在,则称它为随机变量 X的 k阶 原点 矩 ;
若 E(X?EX)k(k=1,2,… )存在,则称它为随机变量 X
的 k阶 中心 矩,
由矩的定义可知,数学期望为一阶 原点 矩,方差是二 阶中心 矩,
又一 阶中心 矩恒为 0.
矩的计算可以利用随机变量函数的数学期望公式进行,
131
第五章 随机变量的数字特征与极限定理
5.5 大数定律
在前面 的 1.5节概率的统计定义中曾经讲过,一个事件 A发生的频率具有稳定性,即当试验次数 n增大时,
频率接近于某个常数 (A的概率 ).
在 5.1节随机变量 的 数学期望中又讲过,随机变量 X
在 n次试验中所取的 n个值的平均值也具有稳定性,
且被稳定的那个值就是 X的 数学期望,
132
这里所谓的,稳定性,,或当 n很大时,接近一个常数,等等,都是不确切的说法,只是一种直观的描述而已,
初学者常常把它理解为微积分中的变量与极限的关系,这是错误的,
因为事件的频率以及随机变量取的 n个值的平均值是随着试验的结果而变的,是随机变量,不是微积分中所描述的变量,
那么究竟如何用确切的数学语言来描述频率与概率、
平均值与数学期望之间的关系呢?大数定律回答了这个问题,
为了讲述大数定律,下面先讲一个重要的不等式,
它在实际上和理论上都有重要的应用,
133
5.5.1 切比雪夫 (Tchebysheff)不等式
定理 5.5 对任意 随机变量 X,若它的方差 DX存在,
则对任意的 ε >0有
2)|(|
DXEXXP
成立,
134
证 设 X是一个 连续型随机变量,概率密度为 f(x),
则
||
2
2
||
2
2
2
( | | ) ( )
()
()
1
( ) ( )
.
x E X
X E X
P X EX f x dx
x EX
f x dx
x EX f x dx
DX
135
当 X是 离散型随机变量时,只需在上述的证明中把概率密度换成分布列,把积分好换成求和号即可,
由于
)|(|1)|(| EXXPEXXP
故
2)|(|
DXEXXP
与
21)|(|
DXEXXP
等价,
136
式
2)|(|
DXEXXP
和式
21)|(|
DXEXXP
都称为 切比雪夫不等式,
切比雪夫不等式给出了在随机变量 X的分布未知的情况下,利用 EX,DX对 X的概率分布进行估计的一种方法,
137
例如,由 式
21)|(|
DXEXXP
可以断言,不管 X的分布是什么,对于任意的正整数 k都有
22
11
)(
1)|(|
kDXk
DXDXkEXXP
当 k=3时,有
8 88 9.0
9
11
3
11)3|(|
2 DXEXXP
138
由 3.5节例 1知,当 X~N(μ,σ 2)时,有
9 9 7 3.0)3|(|EXXP
比较上面的两个式子可知,切比雪夫不等式给出的估计比较粗糙;但要注意,切比雪夫不等式只利用了数学期望和方差,
139
例 1设 EX=2,DX=0.4,试用切比雪夫不等式估计
P(1<X<3)?
解
2
( 1 3 ) ( 1 3 )
( 1 2 3 2)
( 1 1 )
( | | 1 )
0.4
1 0.6,
1
P X P E X X E X E X
P X E X
P X E X
P X E X
140
例 2设 随机变量 X,Y的数学期望都是 2,方差分别为
1和 4,而相关系数为 0.5,则根据切比雪夫不等式估计
( | | 6 ) ( ),P X Y
解
()( | ( ) | 6 )
36
D X YP X Y E X Y
141
( ) 2 2 0E X Y E X E Y
( ) 2 (,)
1 4 2 0.5 1 4 3
D X Y D X D Y C ov X Y
( | | 6 ) ( | ( ) | 6 )
( ) 3 1
.
3 6 3 6 1 2
P X Y P X Y E X Y
D X Y
142
5.5.2 大数定律
定理 5.6(伯努利大数定律 ) 设在 n重伯努利试验中,
成功的次数为 Yn,而在每次试验中成功的概率为 p
(0<p<1),则对任意的 ε >0有
0)|(|lim
p
n
YP n
n
证 由于
Yn~B(n,p)
故
EYn=np,DYn=npq(q=1?p)
由此得
143
n
pq
DY
nn
Y
D
p
n
Y
E
n
n
n
2
1
代入切比雪夫不等式
2)|(|
DXEXXP
得
2)|(| n
pqp
n
YP n
144
故
.0)|(|lim
p
n
YP n
n
利用式
)|(|1)|(| p
n
YPp
n
YP nn
显然可得式
0)|(|lim
p
n
YP n
n
的等价形式
1)|(|lim
p
n
YP n
n
145
在式
.0)|(|lim
p
n
YP n
n
中,Yn/n是在 n重伯努利试验中成功的频率,而 p是成功的概率,
因此伯努利大数定律告诉我们:当试验次数 n足够大时,成功的频率与成功的概率之差的绝对值不小于任一指定的正数 ε 的概率可以小于任何预先指定的正数,这就是频率 稳定性的一种较确切的解释,
利用式
1)|(|lim
p
n
YP n
n
可以得到相应的等价解释,
146
根据 伯努利大数定律,在实际应用中,当试验次数
n很大时,可以用事件的频率来近似代替事件的概率,
定义 5.8 称 随机变量序列 X1,X2,…,Xn,… (或简记为 {Xn})是相互独立的,如果对任意的 n≥ 2,
X1,X2,…,Xn
是相互独立的,此时,若所有 Xi又有相同的分布函数,
则称 X1,X2,…,Xn,… 是 独立同分布的随机变量序列,
147
定理 5.7(切比雪夫 大数定律 ) 设 X1,X2,…,Xn,… 是相互独立的随机变量序列,若有常数 C,使 DXi≤ C,
i=1,2,…,则对任意的 ε >0有
0)|11(|lim
11
n
i
i
n
i
in EXnXnP
或
1)|11(|lim
11
n
i
i
n
i
in EXnXnP
148
证 因为
n
C
DX
n
XD
n
X
n
D
EX
n
X
n
E
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
1
2
1
2
1
11
1
)(
1
)
1
(
1
)
1
(
由切比雪夫不等式
2)|(|
DXEXXP
得
2
11
)|11(|
n
CEX
n
X
n
P
n
i
i
n
i
i
149
令 n?∞,则得
.0)|11(|lim
11
n
i
i
n
i
in EXnXnP
若利用式
21)|(|
DXEXXP
则可以推得式
.1)|11(|lim
11
n
i
i
n
i
in EXnXnP
150
在概率论中我们称满足 式
.0)|11(|lim
11
n
i
i
n
i
in EXnXnP
或式
.1)|11(|lim
11
n
i
i
n
i
in EXnXnP
的随机变量序列 X1,X2,…,Xn,… 服从 大数定律,
151
推论 设 X1,X2,…,Xn,… 是独立同分布的随机变量序列,具有有限的数学期望和方差,EXi =μ,
DXi=σ 2,i=1,2,…,则对任意的 ε >0有
.0)|1(|lim
1
n
i
in XnP
或
.1)|1(|lim
1
n
i
in XnP
这是因为
n
i
iEXn
1
1
故由切比雪夫 大数定律立即可得上面的两个式子,
152
容易验证伯努利大数定律的结论可以由此推论得出,
在上述的推论中,假设所讨论的 随机变量的方差是存在的,但实际上,方差存在这个条件并不是必要的,现不加证明地介绍下面的定理,
定理 5.8(辛钦 Khintchine大数定律 )设
X1,X2,…,Xn,… 是独立同分布的随机变量序列,具有有限的数学期望,EXi =μ,i=1,2,…,则对任意的 ε >0有
.0)|1(|lim
1
n
i
in XnP
或
.1)|1(|lim
1
n
i
in XnP
153
在 式
.0)|1(|lim
1
n
i
in XnP
中
n
i
iXn
1
1
可以被看作随机变量 X在 n次重复独立试验中 n个观察值的算术平均值,而 μ =EX.
因此,辛钦 大数定律告诉我们:当试验次数 n足够大时,
154
因此,辛钦 大数定律告诉我们:当试验次数 n足够大时,平均值
n
i
iXn
1
1
与 数学期望 μ 之差的绝对值不小于任一指定的正数
ε 的概率可以小于任何预先指定的正数,这就是 算术平均值稳定性的一种较确切的解释,
所以,在测量中常用多次重复测得的值的算术平均值来作为被测量的近似值,
155
一般地,设 Z1,Z2,…,Zn,… 是一个随机变量序列,a
是一个常数,若对任意的 ε >0有
1)|(|limaZP nn
则称随机变量序列 Z1,Z2,…,Zn,… 依概率收敛 于 a.
记为
)(
l i m
naZ
aPZ
P
n
n
n
或
156
按照依概率收敛的定义,伯努利大数定律表明了频率 Yn/n依概率收敛于 p,即
)( np
n
Y Pn
式
.0)|1(|lim
1
n
i
in XnP
.1)|1(|lim
1
n
i
in XnP
所表示的关系为
157
式
1)|
1
(|lim
0)|
1
(|lim
1
1
n
i
i
n
n
i
i
n
X
n
P
X
n
P
所表示的关系为
)(
1
1
lim
1
1
nX
n
PX
n
P
n
i
i
n
i
i
n
或
158
第五章 随机变量的数字特征与极限定理
5.6 中心极限定理
在前面 5.5节大数定律中,我们讨论了独立随机变量的平均值
),2,1(1
1
nX
n
n
i
i
序列的依概率收敛问题,现在我们来讨论独立随机变量和
.
1
时的分布问题当
nX
n
i
i
159
在随机变量的各种分布中,正态分布占有特殊重要的地位,
早在 19世纪,德国数学家高斯 (Gauss)在研究测量误差时,就引进了正态分布,
其后,人们又发现在实际问题中,许多随机变量都近似服从正态分布,
为什么正态分布如此广泛地存在,从而在概率论中占有如此重要的地位?
数学家从关于独立随机变量和的极限分布的研究中找到了答案,
160
20世纪前半期,概率论研究的中心课题之一,就是寻求独立随机变量和的极限分布是正态分布的条件,
因此,把这一方面的定理统称为中心极限定理,
较一般的中心极限定理表明:如果被研究的随机变量是大量的独立随机变量的和,其中每一个别随机变量对于总和只起微小作用,则可以认为这个随机变量近似服从正态分布,
这就揭示了正态分布的重要性,因为现实中许多随机变量都具有上述的性质,例如测量误差、射击弹着点的横坐标或纵坐标、人的身高或体重等都是由大量的随机因素综合影响的结果,因而是近似服从正态分布的,
161
以下叙述一个常用的中心极限定理
定理 5.9(独立同分布的中心极限定理 )
如果随机变量序列 X1,X2,…,Xn,… 独立同分布,并且具有有限的数学期望和方差,EXi = μ,
DXi=σ 2>0,i=1,2,…,则对一切 x,有
)(
2
1
})(
1
{lim
2
1
2
xdte
xnX
n
P
t
x
n
i
i
n
证明需要用到随机变量的特征函数,略,
162
从式
)(
2
1
})(
1
{lim
2
1
2
xdte
xnX
n
P
t
x
n
i
i
n
可以看出,不管 Xi (i=1,2,… )服从什么分布,只要 n
充分大,随机变量
)(1
1
nX
n
n
i
i
就近似地服从 N(0,1),而
163
随机变量
n
i
iX
1
近似地服从 N(nμ,nσ 2).
此时,我们称
)(1
1
nX
n
n
i
i
渐近地服从 N(0,1).
定理 5.9又被称为列维 — 林德伯格 (Levy— Lindeberg)
中心极限定理,
164
例 1 计算机在进行加法时,对每个被加数取整 (取为最接近于它的整数 ),设所有的取整误差是相互独立的,且它们均在 (?0.5,0.5)上服从均匀分布,若将
1500个数相加,问误差总和的绝对值不超过 15的概率是多少?
解 设 Xi表示第 i个被加数的取整误差,i=
1,2,…,1500,则
Xi~U(?0.5,0.5)
且 X1,X2,…,X1500相互独立,故
μ = EXi = 0
σ 2 = DXi =1/12.
165
令 Z=X1+X2…+ X1500,由 列维 — 林德伯格 中心极限定理
)(
2
1
})(
1
{lim
2
1
2
xdte
xnX
n
P
t
x
n
i
i
n
得
)1,0(
12/11 5 0 0
01 5 0 0 ~ NZ 近似?
166
于是,所求的概率为
( | | 15 ) ( 15 15 )
15
(
15 00 1 / 12
15
)
15 00 1 / 12 15 00 1 / 12
15 15
( ) ( )
15 00 1 / 12 15 00 1 / 12
P Z P Z
P
Z
167
8 1 9 8.0
19 0 9 9.02
1)34.1(2
1)
12/11 5 0 0
15
(2)15|(|
查表
ZP
168
定理 5.10 [德莫弗 — 拉普拉斯 (De Moivre?Laplace)
定理 ] 设在 n重伯努利试验中,成功的次数为 Yn,
而在每次试验中成功的概率为 p(0<p<1),q=1?p,
则对一切 x,有
)(
2
1
)(lim
2
2
x
dte
x
n p q
npY
P
t
x
n
n
169
证明 设 Xi表示在第 i次试验成功的次数,i=
1,2,…,n,则 Xi的分布列为
Xi 0 1
P q p
且
n
i
in XY
1
由于 X1,X2,…,Xn是独立同分布的随机变量序列分布列,且 EXi=p,DXi=pq (i=1,2,…,n )有限,故满足定理 5.9(独立同分布的中心极限定理 )的条件,
170
于是由式
)(
2
1
})(
1
{lim
2
1
2
xdte
xnX
n
P
t
x
n
i
i
n
得
)(
2
1
)(lim
2
2
xdte
x
n p q
npY
P
t
x
n
n
171
定理 5.10表明二项 分布以正态分布为极限分布
推论 对定理 5.10中的 n重 伯努利 试验,n充分大时,
有
( ) ( ) ( )n b np a npP a Y b
np q np q
证 从
)()(
n p q
npb
n p q
npY
n p q
npaPbYaP n
n
由 定理 5.10(德莫弗 — 拉普拉斯定理 )即得结论,
172
由推论可知,当 n很大时,二项 分布的概率计算问题,可以转化为正态分布来计算,这将使计算量大大减小,
例如,当 n很大时,若要计算
knk
bka
k
nn qpCbYaP
)(
工作量是惊人的,但是,用式
)()()(
n p q
npa
n p q
npbbYaP
n
只要查一下正态分布函数表就可以轻松地求出它的相当精确的近似值,
173
例 2 重复投掷硬币 100次,设每次出现正面的概率均为 0.5,问,出现正面次数大于 50,小于 61”的概率是多少?
解 设出现正面的次数为 Yn,现在
525,50,5.0,100 npqnppn
由式
)()()(
n p q
npa
n p q
npbbYaP
n
得
174
( 50 61 ) ( 50 60)
60 50 50 50
( ) ( )
55
( 2) ( 0)
0.9772 0.5
0.4772
nn
P Y P Y
175
应该指出:定理 5.10及其推论中的
Yn
是仅取非负整数值 0,1,2,…,n的随机变量,注意到正态分布是连续型的分布,所以在求概率
P(Yn≤ m)(m为正整数 )
时,为了得到较好的近似值,可以用下面的近似公式
)
2/1
(
)
2
1
()(
n p q
npm
mYPmYP
nn
176
例 3 以 X表示将一枚匀称的硬币重复投掷 40次中出现正面次数,试用 正态分布求 P(X=20)的近似值,
再与精确值比较,
解 这里 n=40,p=1/2,q=1/2,故
1 2 7 2.015 6 3 6.02
1)16.0(2)16.0()16.0(
)
10
205.19
()
10
205.20
(
)5.205.19()20(
查表
XPXP
177
而精确解为
1268.0)
2
1
(
)
2
1
()
2
1
()20(
4020
40
202020
40
C
CXP
当然,求例 3这样的概率还有德莫弗 — 拉普拉斯局部极限定理可用,这里就不予以论述了,
178
由前面的讨论可见,对 二项 分布,当 n充分大,以致 npq较大时,正态近似是相当好的近似,
进一步的分析表明,当接近于 0或 1时,用正态近似效果不好,这时就要用到泊松近似了,
由定理 2.10(二项概率 的泊松逼近定理 ),当 p(或 q)
很小,而 np(或 nq)大小适中时,泊松近似是较好的,
在实际中,一般当 0.1<p<0.9且 npq>9时,用正态近似;当 p≤ 0.1(或 p≥ 0.9)且 n≥ 10时,用泊松近似,
179
例 1 一生产线生产的产品成箱包装,每箱的重量是随机的,假设每箱的平均重量为 50千克,标准差为 5
千克,若用最大载重量为 5吨的汽车承运,试利用中心极限定理说明,每辆车最多可以装多少箱,才能保证不超载的概率大于 0.977.(Φ(2)= 0.977,其中
Φ(x)是标准正态分布函数,)
解 设 Xi(i=1,2,…,n)是装运的第 i箱的重量 (单位:
千克 ),n是所求的箱数,
由条件可以把 X1,X2,…,Xn视为独立同分布的随机变量,而 n箱的总重量
Tn=X1+X2…+ Xn
是独立同分布随机变量之和,
180
由条件知
50,5 ;
50,5,
ii
nn
E X D X
E T n D T n
根据 列维 — 林德伯格 (独立同分布的 )中心极限定理,
Tn近似服从正态分布 N(50n,25n).
箱数 n决定于条件
50 5 0 0 0 5 0( 5 0 0 0 )
55
n
n
Tn nP T P
nn
181
50 50 00 50
( 50 00 )
55
10 00 10
0,97 7 ( 2)
n
n
Tn n
P T P
nn
n
n
由此可见
1 0 0 0 1 0 2n
n
182
2
1 0 0 0 1 0 2n
n
2( 10 00 10 ) 4nn
22 5 5 0 0 1 2 5 0 0 0 0 0nn
9 8,0 2 1 0 2,0 2nn 或
从而 n<98.02,即每辆车最多可以装 98箱,才能保证不超载的概率大于 0.977.
183
48.某保险公司多年的资料表明,在索赔户中,
被盗索赔户占 20%,以表示在随机抽查 100个索赔户中因被盗而向保险公司索赔的户数,求
( 1 4 3 0 ),PX
解
30 20 14 20( 14 30 ) ( ) ( )
16 16
PX
( 2,5 ) ( 1,5 )
0,9 9 3 8 ( 1,5 ) 1
0,9 9 3 8 0,9 3 3 2 1 0,9 2 7,
184
48.某保险公司多年的资料表明,在索赔户中,
被盗索赔户占 20%,以表示在随机抽查 100个索赔户中因被盗而向保险公司索赔的户数,求
( 1 4 3 0 ),PX
解
( 14 30) ( 13.5 30.5 )
30.5 20 13.5 20
( ) ( )
16 16
P X P X
( 2,6 2 5 ) ( 1,6 2 5 )
0,9 4 4 2,?
概率论与数理统计第 五 章随机变量的数字特征与极限定理
2
第五章 随机变量的数字特征与极限定理
在前面关于 随机变量及其分布的讨论中,我们较仔细地讨论了随机变量 的概率分布,我们看到随机变量 的概率分布 (分布函数或分布列和概率密度 )是 随机变量 的概率性质最完整的刻划,是能够完整地描述 随机变量 的统计规律的,
但是在许多实际问题中,求概率分布不是一件容易的事;另一方面,有时不需要知道 随机变量 的概率分布,而只需要知道它 的某一方面的性质,
3
例如,考察某种大批生产的元件的寿命,如果知道了它的概率分布,就可以知道寿命在任一指定的界限内的元件的百分率有多少,这对该种元件的寿命状况提供了一幅完整的图景,
下面我们将看到,根据这一分布我们可以算出元件的平均寿命值 m,这个数 m虽然不能对元件的寿命状况提供一个完整的 刻划,但却在一个重要方面,
且往往是人们最为关心的一个方面,刻划了 元件寿命的状况,因而在应用上有极重要的意义,
类似的情况很多,比如我们在了解某一个行业的经济状况时,我们首先关心的恐怕会是其平均收入,
这给了我们一个总的印象;至于收入的分布状况,
除非为了特殊的研究目的,倒反而不一定是最重要的了,
4
另一类重要的数字特征,是衡量一个随机变量 (或其分布 )取值的散布程度,
例如,两个行业工人的平均收入大体相近,但一个行业中工人收入的分配较平均,即大多数工人的收入都在平均值上下不远处,其,散布,小;另一个行业则相反,其收入远离平均值者很多,,散布,
较大,这二者的实际意义当然很不同,
又如生产同一种产品的两个工厂,各自的产品平均说来都能达到规格要求,但一个工厂的波动小,较为稳定,另一个工厂则波动大,有时质量超标准,
有时则低于标准不少,这二者的实际后果当然也不同,
5
上面提到的平均值和散布程度,是 刻划 随机变量性质的两类最重要的数字特征,
对于多维随机变量而言,则还有一类 刻划各分量之间的关系的 数字特征,
在本章中,我们将要介绍的数字特征有:数学期望、
方差、协方差、相关系数和矩,
6
引例 考试的平均成绩问题
假设有 n名同学参加了某种考试,考试后的成绩是:
第一个同学得了 a1分,第二个同学得了 a2分,…,
第 n个同学得了 an分,那么他们这种考试的平均成绩
12
1
1
n
n
i
i
a a a
x
n
a
n?
7
引例 考试的平均成绩问题
假设有 n名同学参加了某种考试,考试后的成绩是:
第一个同学得了 a1分,第二个同学得了 a2分,…,
第 n个同学得了 an分,
将他们的成绩进行了汇总,发觉得 x1分的人有 n1个,
得 x2分的人有 n2个,…,得 xk分的人有 nk个,其中
n1+n2+…+ nk=n,那么他们这种考试的平均成绩
1 1 2 2
1
1
1
1
n
kk
i
i
k
ii
i
x n x n x n
xa
nn
xn
n
8
11
1
11
nk
i i i
ii
k
i
i
i
x a x n
nn
n
x
n
9
第五章 随机变量的数字特征与极限定理
5.1 随机变量的数学期望
5.1.1 离散型随机变量的数学期望
10
定义 5.1 设 离散型随机变量 X的分布列为
P(X=xk)=pk,k=1,2,…
若 级数
1k
kk px
绝对收敛,即
1
||
k
kk px
则称 该 级数为 离散型随机变量 X的 数学期望 或 均值,
记为 EX或 E(X),即
1k
kk pxEX
11
当
1
||
k
kk px
发散时,则称 X的数学期望不存在,
定义中的 绝对收敛条件是为了保证式
1k
kk px
不受求和的次序的改变而影响其和的值,
12
如果把 x1,x2,…,xk,… 看成是 x轴上质点的坐标,而把 p1,p2,…,pk,… 看成是相应质点的质量,质量总和为
1
k
kp
则 式
1k
kk pxEX
表示质点系的重心坐标,
13
常用的离散型随机变量的数学期望
例 1 (0— 1分布 )设 随机变量 X的分布列为
X 0 1
P 1?p p
求 EX,
解 EX=0× (1?p)+1× p=p.
14
由前面可知,事件 A的示性函数 IA服从 0— 1分布:
IA 0 1
P 1?P(A) P(A)
故 EIA=P(A),即任意事件的概率等于它的示性函数的数学期望,
15
例 2 (二项 分布 )设 随机变量 X的分布列为
pqp
nkqpCkXP knkkn
1,10
,,2,1,0,)(?
求 EX,
解
16
n
k
knk
n
k
knk
n
k
knk
n
k
knkk
n
qp
knk
n
qp
knk
n
k
qp
knk
n
k
qpkCEX
1
1
0
0
)!()!1(
!
)!(!
!
)!(!
!
17
np
qpnp
qpCnp
qp
knk
n
np
qp
knk
n
npEX
n
n
k
knkk
n
n
k
knk
n
k
knk
1
1
01
)1(111
1
1
)1(11
1
1
)(
) ] !1()1[()!1(
)!1(
)!()!1(
)!1(
18
例 3 (泊松 分布 )设 随机变量 X的分布列为
,2,1,0,0,
!
)(
k
k
ekXP k
求 EX,
解
19
ee
k
e
k
e
k
k
e
kEX
k
k
k
k
k
k
1
1
1
0
)!1(
!
!
由此看出,泊松 分布的参数 λ 就是相应随机变量 X
的数学期望,
20
第五章 随机变量的数字特征与极限定理
5.1 随机变量的数学期望
5.1.2 连续型随机变量的数学期望
对以 f(x)为概率密度 的 连续型随机变量 X而言,值 x
和 f(x)dx分别相当于离散型随机变量情况下的,xk”
和,pk”,故由离散型随机变量的数学期望的定义可知,连续型随机变量的数学期望可定义如下:
21
定义 5.2 设 连续型随机变量 X的概率密度为 f(x),若积分
dxxxf )(
绝对收敛,即
dxxfx )(||
则称 该广义积分 为 连续型随机变量 X的 数学期望 或均值,记为 EX或 E(X),即
dxxxfEX )(
22
EX的物理意义可理解为以 f(x)为 质量 密度的一维连续 质点系的重心坐标,
23
常用的连续型随机变量的数学期望
例 4 (均匀 分布 )设连续型随机变量 X的 概率密度为
)(
.,0
,,
1
)(
ba
bxa
abxf
其它
求 EX,
24
解
2
2/1
)(
2
ab
a
b
x
ab
dx
ab
x
dxxxfEX
b
a
这个结果是可以预料的,因为 X在 [a,b]上服从均匀分布,它取值的平均值当然应该是 [a,b]的中点,
25
例 5 (指数分布 )设连续型随机变量 X的概率密度为
.0,0
,0,
)(
x
xe
xf
x
其中 λ 是正常数,求 EX,
26
解
1
0
11
]
0
[
)(
0
0
0
0
0
xx
x
xx
x
x
exde
dxe
dxexe
xd e
dxexdxxxfEX
27
例 6 (正态 分布 )设连续型随机变量 X~N(μ,σ 2),
求 EX,
解 EX=μ,
正态分布中的 参数 μ,表示相应随机变量 X的数学期望,
28
2
2
2
22
()
2
2
22
()
1
2
2
22
x
t
tt
EX x f x dx
x e dx
xt
t e dt
e dt t e dt
令
29
2 2 2
22
22
22
0
2 2 2
0
22
0
22
0
0
22
0
22
22
( ) ( )
0
( ) ( )
0
1 1 0
t t t
tt
tt
tt
t e dt t e dt t e dt
tt
e d e d
d e d e
ee
30
例 7 (柯西 分布 )设连续型随机变量 X的 概率密度为
x
x
xf,
1
11)(
2?
求 EX,
解 由于
0
)1l n (
1
)1(
2
)1(
||
2
0
22
x
x
x d x
x
dx
x
故 X的数学期望不存在,
31
第五章 随机变量的数字特征与极限定理
5.1 随机变量的数学期望
5.1.3 随机变量函数的数学期望
32
5.1.3 随机变量函数的数学期望
关于一维 随机变量函数的数学期望,有下面的定理
定理 5.1 设 Y=g(X),g(x)是连续函数,
(ⅰ )若 X是离散型随机变量,分布列为 P(X=xk)=pk,
k=1,2,…,且
1
|)(|
k
kk pxg
则有
1
)()(
k
kk pxgXEgEY
33
(ⅱ) 若 X是 连续型的随机变量,概率密度为 fX(x),
且
dxxfxg X )(|)(|
则有
dxxfxgXEgEY X )()()(
根据上面的这个定理 5.1可知,当求 Y=g(X)的 数学期望时,不必知道 Y的分布,只需知道 X的分布就可以了,
34
例 8 设随机变量 X的 概率密度为
.,0
,0,
2
)( 2
其它
x
x
xf
求 E(sinX).
当然,我们可以先求出 Y=sinX的概率密度 fY(y),再由连续型随机变量的数学期望的定义求出 E(sinX).
不过,这样计算要麻烦得多,
35
解
2
s i n
2
2
s i n
)(s i n)( s i n
0
2
0
2
x d xx
dx
x
x
dxxxfXE
36
例 9 设在国际市场上每年对我国某种出口商品的需求量是 随机变量 X(单位为吨 ),它在 [2000,4000]上服从均匀分布的,又设每售出这种商品一吨,可为国家挣得外汇 3万元,但假如销售不出去而囤积于仓库,则每吨需要浪费保养费 1万元,问需要组织多少货源,才能使国家的收益最大,
解 设 y为预备出口的该种商品的数量,由已知条件
X在 [2000,4000]上服从均匀分布可知,这个数量 y
可以只考虑介于 2000与 4000之间的情况,
用 Z表示国家的收益 (单位为万元 ),则由题设可得
.),(3
,,3
)(
时当时当
yXXyX
yXy
XgZ
37
(,)
3,,
3 ( ),.
3,,
4,.
Z g X y
y X y
X y X X y
y X y
X y X y
当 时当 时当 时当 时
下面求 EZ,并求使 EZ达到最大的 y值,
38
4000
2000
26
2 2 6
(,) ( ) ( )
11
( 4 ) 3
2 0 0 0 2 0 0 0
1
[ 7 0 0 0 4 1 0 ]
1000
1
[ ( 3 5 0 0 ) ( 3 5 0 0 4 1 0 ) ]
1000
X
y
y
E Z E g X y g x f x d x
x y d x y d x
yy
y
故当 y=3500时,EZ达到最大 值 8250.因此,组织
3500吨这种商品是最佳的决策,
39
定理 5.1还可以推广到二维及二维以上的 随机变量 函数的情况,以二维 随机变量 函数 Z=g(X,Y)为例,有下面的定理,
定理 5.2 设 Z=g(X,Y),g(x,y)是连续函数
(ⅰ )若 (X,Y)是 二维离散型随机变量,分布列为
pij =P(X=xi,Y=yj),i,j=1,2,…
且
1 1
|),(|
i j
ijji pyxg
则有
1 1
),(),(
i j
ijji pyxgYXEgEZ
40
(ⅱ) 若 (X,Y)是二维连续型 随机变量,概率密度为
f(x,y),且
dydxyxfyxg ),(|),(|
则有
dydxyxfyxg
YXEgEZ
),(),(
),(
41
从式
dydxyxfyxgYXEgEZ
),(),(),(
可以得到由 (X,Y)的概率密度 f(x,y)求 X与 Y的 数学期望的公式:
dydxyxyfEYEZ
dydxyxxfEXEZ
),(
),(
42
例 10 设随机变量 X,Y相互独立,且都服从 N(0,σ 2)
分布,求
22 YXE?
解 由 二维 随机变量 函数的 数学期望的公式,有
dydxeyx
dydxyfxfyx
dydxyxfyxYXE
yx
YX
2
22
2
2
22
22
2222
2
1
)()(
),(
43
0
2
2
2
0 0
2
2
2
22
2
22
2
2
2
2
2
22
1
2
1
s i n,c o s
2
1
de
ded
yx
dydxeyxYXE
yx
令
44
0
2
0
2
2
2
0
2
2
2
0
2
2
22
2
2
2
2
2
2
2
2
2
2
1
1
de
de
de
deYXE
45
dtet
de
dee
deYXE
t
0
2
0
2
0
22
0
2
22
2
2
2
2
2
2
2
2
2
]
0
[
令
46
2
2
2
1
2
2
2
2
2
0
2
22
2
2
2
dte
dte
dtetYXE
t
t
t
令
47
例 10 设 (X,Y)在区域 A上服从均匀分布,其中 A为 x
轴,y轴和直线 x+y+1=0所围城的区域 (图 5.1),求
EX,E(?3X+2Y),E(XY).
x
y
O
A
图 5.1
48
解 (X,Y)的概率密度为
.),(,0
,),(,2
),(
Ayx
Ayx
yxf
于是
dydxyxxyfEXY
dydxyxfyxYXE
dydxyxxfEX
),(
),()23()23(
),(
49
3
1
)1
3
2
(0
1
0
3
2
)1(2
2
23
0
1
0
1
0
1
xx
dxxx
dyxdxEX
x
50
3
1
2)23(
),()23()23(
0
1
0
1
x
dyyxdx
dydxyxfyxYXE
12
1
2
0
1
0
1
x
dyxydxEXY
51
5.1.4 随机变量的数学期望的性质
(ⅰ ) EC=C,C为常数;
(ⅱ) E(CX)=CEX,C为常数;
(ⅲ) E(X1+X2…+ Xn)=EX1+EX2+…+ EXn ;
(ⅳ) 若 X1,X2,…,Xn相互独立,则
E(X1X2… Xn)= EX1EX2… EXn.
在上面的性质中,均假设 数学期望是存在的,
证 (ⅰ )将 C看成一个 离散型随机变量,有分布列
P(C=C)=1.于是
EC=C× P(C=C)=C× 1=C.
52
(ⅱ) 设 X为 连续型随机变量,概率密度为 f(x).令
Y=g(X)=CEX
则由上面的定理 5.1得
dxxxfCdxxC xfCXE )()()(
故
E(CX)=CEX.
离散型随机变量的情况,可类似证明,
53
(ⅲ) 对 n=2的情况给出证明,一般的情况不难用数学归纳法推得,
先考虑连续型随机变量的情况
设 (X,Y)是二维连续型 随机变量,概率密度为
f(x,y),则由上面的定理 5.2立即可得
EYEX
dydxyxyf
dydxyxxf
dydxyxfyxYXE
),(
),(
),()()(
54
下面考虑离散型随机变量的情况
设 (X,Y)是二维 离散型随机变量,分布列为
pij =P(X=xi,Y=yj),i,j= 1,2,…
则由上面的定理 5.2立即可得
EYEXpypx
pypx
pyxYXE
j
jj
i
ii
i j
ijj
i j
iji
i j
ijji
11
1 11 1
1 1
)()(
55
(ⅳ) 对两个连续型随机变量的情况给出证明,离散型随机变量的情况,可类似证明;一般的情况不难用数学归纳法推得,
设 X,Y是两个连续型随机变量,概率密度分别 fX(x)
和 fY(y),于是由 X与 Y相互独立得 (X,Y)的概率密度
f(x,y)可由 fX(x)和 fY(y)的乘积来表达,从而
E X E Y
dyyyfdxxxf
dydxyxx y fXYE
YX
)()(
),()(
56
例 12 设 X~B(n,p),求 EX.
解 在前面的例 2中,我们已经直接用 数学期望的定义求得了 EX=np.现在利用数学期望的的性质 (ⅲ) 来作,
设在 n重 伯努利 试验中,成功的次数 为 Y,而在每次试验成功的概率为 p,则 Y与 X有相同的分布,从而有相同的 数学期望,
若设 Xi表示在第 i次试验成功的次数,i=1,2,…,n,
则 Xi的分布列为
Xi 0 1
P 1?p p
57
且
n
i
iXY
1
由 Xi的分布列得,EXi=p,于是由数学期望的的性质 (ⅲ) 得到
n
i
i npEXEYEX
1
与例 2的作法比较可见,本例的作法要简单得多,
58
例 13 设 r个人在楼的底层进入电梯,楼上有 n层,每个乘客在楼的任一层下电梯的概率是相同的,如果到楼的某一层无乘客下电梯,电梯就不停车,求直到乘客都下完时电梯停车的次数 X的数学期望,
解 设 Xi表示在第 i层电梯停车的次数,i=1,2,…,n,
则
.,1
,,0
层有人下电梯第层没有人下电梯第
i
i
X i
易见
n
i
i
n
i
i EXEXXX
11
,
59
下面求 Xi的分布列 (i=1,2,…,n)
由于每个人在楼的 任一层下电梯的概率均为 1/n,
故他不 在楼的 某一层下电梯的概率均为
n
11?
故 r个人同时不在 第 i层下电梯的概率为
r
n
)11(?
即
r
i nXP )
11()0(
60
从而
r
i nXP )
11(1)1(
于是
11
0 ( 1 ) 1 [ 1 ( 1 ) ]
1
1 ( 1 )
1,2,,
rr
i
r
EX
nn
n
in
61
因此
])11(1[
1
r
n
i
i nnEXEX
在这个例子中,若 r=10,n=10,则 EX=6.5,即电梯平均停车 6.5次,
在上面的例子中,把一个比较复杂的随机变量 X拆成 n个比较简单的 随机变量 Xi的和,然后通过这些 比较简单的 随机变量的数学期望,根据数学期望的性质 (ⅲ) 求得了 X的 数学期望,这样的方法是概率论中常采用的方法,
62
例 同时掷四颗匀质的骰子,求所得点数之和的数学期望?
解 设 X表示四颗骰子的点数之和,则 X是一个离散型的随机变量,它的取值是 4,5,…,24.
设 Xi表示第 i颗骰子的点数,i=1,2,3,4,,则
44
11
,ii
ii
X X EX EX
63
例 13 设 N个人进行验血,有两种方案:
(1)对每个人的血液逐个化验,共需进行 N次化验;
(2)将采集的每个人的血液分成两份,按 k个人一组混合后进行化验 (设 N为 k的倍数 ),若呈阴性反应,
则认为 k个人的血都是阴性反应;如果混合后血液呈阳性反应,则需要对 k个人的另一份血液逐个进行化验,这时 k个人的血总共要化验 k+1次,
假设所有人的血液呈阳性反应的概率都是 p,且各次的化验结果是相互独立的,试说明适当选取 k可使第二个方案减少化验次数,
解 设 X表示第二个方案下的总化验次数
64
解 设 X表示第二个方案下的总化验次数,Xi为第 i个分组的化验次数 (i=1,2,…,N/k),则
kN
i
i
kN
i
i EXEXXX
/
1
/
1
,
EX表示 第二个方案下的总的平均化验次数,EXi表示 第 i个分组的平均化验次数 (i=1,2,…,N/k).
下面先求 EXi.
按照第二个方案的规定,Xi可能取两个值:
混合血液呈阴性时,Xi=1;
血液呈阳性,Xi=k+1.
65
因为,Xi=1”表示,组内 k个人的血都是阴性,这个事件,又由于各次的化验结果是相互独立的,所以
k
i
k
i
qkXP
pqqqqqXP
1)1(
1;)1(?
于是
1 ( 1 ) ( 1 )
1
1,2,,/
kk
i
k
E X q k q
k k q
i N k
66
因此
)11()1( kk q
k
Nkqk
k
NEX
这就是第二个方案下的总的平均化验次数,由此可知,只要选 k使
1)11( kq
k
即
kq
k
1
67
就可以使 第二个方案减少化验次数,
当 q已知时,若 选 k使
)11()( kq
k
kf
取最小值,就可以使 化验次数 最 少,
例如,当 q=0.9时,可以证明,选 k=4可以使 f(k)最小,这时
NNEX 5929.0)9.0
4
11( 4
故当 q=0.9,k=4时,第二个方案的化验次数比第一个方案平均减少 40%.
68
例 设 X~N(4,9),Y~U[0,4],Z=2XY?5,求 EZ?
解
EZ=E(2XY?5)=2EXY?5.
若 X,Y相互独立,则
EZ=E(2XY?5)=2EXY?5=2EXEY?5.
由于 X~N(4,9),Y~U[0,4],故
EZ=E(2XY?5)=2EXY?5=2EXEY?5=11.
69
引例 考试的平均成绩问题
y
O
EX EY
x
70
第五章 随机变量的数字特征与极限定理
5.2 方差
5.2.1 方差的概念
数学期望反映了随机变量的平均值,它是一个很重要的数字特征,但是,在某些场合下只知道平均值是不够的,
例如研究灯泡的质量时,人们不仅要知道灯泡寿命
X的 平均值 EX的大小,而且还要知道这些灯泡的寿命 X离开 EX的平均偏离程度如何,
71
如果平均偏离较小,那么说明这批灯泡的寿命大部分接近它的均值,这也说明灯泡厂的生产是稳定的;
这时,如果 EX比较大,那么灯泡的质量就是比较好的,相反,如果 X离开 EX的平均偏离较大,那么即使均值较大,生产质量也是有问题的,
再如在打靶比赛中,不但要求射击准确,而且还要求稳定,如果某射手射击 10次,虽然有 7次正中靶心,
但是另外 3次却打歪了,弹孔离靶心很远,甚至子弹射到了靶外打伤了人,这也说明此人的射击技术是成问题的,
72
那么,用什么量来衡量这种平均偏离程度呢?
人们自然会想到采用 |X?EX|的平均值 E|X?EX|.
但是式 E|X?EX|带有绝对值号,运算不便,故采用
(X?EX)2的平均值 E(X?EX)2来代替 E|X?EX|.
显然,E(X?EX)2的大小完全能够反映 X离开 EX的平均偏离大小的,这个值就称为 X的 方差,
定义如下:
73
定义 5.3 设 X是一个 随机变量,若 E(X?EX)2存在,
则称 E(X?EX)2是 X的 方差,记作 DX,即
DX=E(X?EX)2.
同时,称方差的平方根是 X的 标准差 或 根 方差,记作 σ X,即
DXX
由于 σ X与 X具有相同的量纲,故在实际问题中经常被采用,
74
根据一维 随机变量函数的数学期望公式,对于离散型和 连续型 随机变量的方差可以分别得到如下的表达式:
(ⅰ) 离散 型 随机变量的情况
1
2)(
k
kk pEXxDX
其中 P(X=xk)=pk,k=1,2,…,
(ⅱ) 连续型 随机变量的情况
dxxfEXxDX )()( 2
其中 fX(x)为 随机变量 X的 概率密度,
75
关于方差的计算,常利用如下的公式
DX=EX2?(EX)2.
这个公式可用的数学期望的性质来证明,
证
22
22
22
2
)(
)(2
])(2[
)(
EXEX
EXEXEXEX
EXX E XXE
EXXEDX
76
常用的离散型、连续型随机变量的方差,
例 1 (0— 1分布 )设 随机变量 X的分布列为 (q=1?p)
X 0 1
P 1?p p
求 DX,
解 EX=0× (1?p)+1× p=p
EX2=02× (1?p)+12× p=p
DX=p2?p=p(1?p)=pq.
77
例 2 (二项 分布 )设 随机变量 X的分布列为
pqp
nkqpCkXP knkkn
1,10
,,2,1,0,)(?
求 DX,
解
0
2 2 2
0
22
( 1 )
( ),
n
k k n k
n
k
n
k k n k
n
k
EX k C p q n p
EX k C p q n n p n p
DX EX EX n p q
78
解
n
k
knk
n
k
knk
n
k
knk
n
k
knkk
n
qp
knk
n
k
qp
knk
n
k
qp
knk
n
k
qpCkEX
1
1
1
2
0
22
)!()!1(
!
)11(
)!()!1(
!
)!(!
!
79
n
k
knk
knk
n
k
n
k
knk
n
k
knk
qp
knk
n
np
qp
knk
n
k
qp
knk
n
qp
knk
n
kEX
1
1
2
1
1
2
)!()!1(
)!1(
)!()!1(
!
)1(
)!()!1(
!
)!()!1(
!
)1(
80
nppnn
npqppnn
np
qp
knk
n
pnn
qpnp
qp
knk
n
EX
n
n
k
knk
n
n
k
knk
2
22
2
22
1
2
2
)1(
)()1(
)!()!2(
)!2(
)1(
)(
)!()!2(
!
81
例 3 (泊松 分布 )设 随机变量的分布列为
,2,1,0,0,
!
)(
k
k
ekXP k
求 DX,
解
0
2 2 2
0
22
!
!
( ),
k
k
k
k
e
E X k
k
e
E X k
k
D X E X E X
82
11
1
11
2
0
22
)!1()!1(
)1(
)!1(
)11(
)!1(!
!
k
k
k
k
k
k
k
k
k
k
k
k
k
e
k
e
k
k
e
k
k
e
k
k
e
k
k
e
kEX
83
00
2
01
1
02
2
2
1
1
2
2
2
1
1
2
2
!!
2
)!1()!2(
)!1()!2(
)!1()!1(
)1(
m
m
m
m
k
k
k
k
k
k
k
k
k
k
k
k
m
e
m
ekm
k
e
k
e
k
e
k
e
k
e
k
e
kEX
令
84
2
22 eeeeEX
由此看出,泊松分布的参数 λ 既是相应随机变量 X
的数学期望又是它的方差,
85
例 4 (均匀 分布 )设 X~U[a,b],求 DX.
解 EX=(a+b)/2,而
3
)(
3
11
3
111
)(
22
33
32
22
baba
ab
ab
a
b
x
ab
dx
ab
x
dxxfxEX
b
a
86
故 22
22
2
2
()
()
32
()
.
12
D X E X E X
a ab b a b
ba
由此看出,在 [a,b]上服从均匀分布的随机变量的方差与区间长度的平方成正比,
87
例 5 (指数分布 )设 X~E(λ ),即连续型随机变量 X
的概率密度为
.0,0
,0,
)(
x
xe
xf
x
其中 λ 是正常数,求 DX.
解 EX=1/λ,而
2
22 2)(
dxxfxEX
2 2 2
22
2 1 1( ) ( ),D X E X E X
88
0
0
22
0
2
0
2
0
222
2
]
0
[
)(
dxxe
dxeex
dex
xdex
dxexdxxfxEX
x
xx
x
x
x
89
2
00
0
22
00
22
2
2
2
[]
0
22
22
0
xx
xx
xx
x
E X x e d x x d e
x e e d x
e d x d e
e
90
例 6 (正态 分布 )设连续型随机变量 X~N(μ,σ 2),
求 EX,
解 EX=μ,DX=σ 2.
正态分布 N(μ,σ 2)中的 参数 μ 和 σ 2分别 表示相应随机变量 X的数学期望和方差,
dxexDX
x
2
2
2
)(
2
2
1)(
则得令,
xt
91
2
2
2
22
2
2
2
2
2
2
2
2
22
2
2
2
1
]}[{
2
22
2
dte
dtete
t
dte
dtetDX
t
tt
t
t
92
5.2.2 随机变量的方差的性质
(ⅰ ) DC=0,C为常数;
(ⅱ) D(CX)=C2DX,C为常数;
(ⅲ) 若 X1,X2,…,Xn相互独立,则
D(X1+X2…+ Xn)= DX1+DX2+…+ DXn;
(ⅳ) DX=0的充要条件是 X取某一常数值 a的概率为
1,即
P(X=a)=1,a=EX.
在上面的性质中,均假设 方差是存在的,
证 (ⅰ )DC=E(C?EC)2=E(C?C)2.
93
证 (ⅰ )DC=E(C?EC)2=E(C?C)2.
(ⅱ) D(CX)=E(CX)2?[E(CX)]2
=C2EX2?C2(EX)2
=C2[EX2?C2(EX)2]
=C2DX
(ⅲ) 对 n=2的情况给出证明,一般的情况,证法相同
(ⅳ) 证明略,
94
2
2
22
( ) [ ( ) ( ) ]
[ ( ) ( ) ]
( ) ( )
2 ( ) ( )
D X Y E X Y E X Y
E X E X E Y E Y
E X E X E Y E Y
E X E X Y E Y
又
E X E YE X Y
E X E YY E XX E YXYE
EYYEXXE
)(
))((
95
因为 X与 Y相互独立,故
E X E YEXY?
于是
0))(( EYYEXXE
从而
DYDXYXD )(
96
应用方差的性质计算方差,常常能使运算简化,见下例
例 6 设 X~B(n,p),求 DX.
解 设在 n重 伯努利 试验中,成功的次数 为 Y,而在每次试验成功的概率为 p,则 Y与 X有相同的分布,
从而有相同的 方差 (0<p<1,q=1?p).
设 Xi表示在第 i次试验成功的次数,i=1,2,…,n,则
Xi的分布列为
Xi 0 1
P 1?p p
97
显然,Y可以用 Xi(i=1,2,…,n)表示为:
n
i
iXY
1
由 Xi的分布列可知,DXi=pq,i=1,2,…,n.由于
X1,X2,…,Xn相互独立,故 由 方差 的性质 (ⅲ) 得到
n
i
i npqDXDYDX
1
与前面的作法比较可见,本例的作法要简单得多,
98
表 5.1 几种常用分布表分布 分布列或概率密度 数学期望 方差
0— 1分布
X~B(1,p) p pq
pqp
k
qpkXP
kk
1,10
1,0
)(
1
99
分布 分布列或概率密度 数学期望 方差二项 分布
X~B(n,p) np npq
泊松分布
X~P(λ ) λ λ
pqp
nk
qpCkXP
knkk
n
1,10
,,2,1,0
)(
0
,2,1,0
!
)(
k
k
e
kXP
k
100
分布 分布列或概率密度 数学期望 方差超几何分布几何分布
),m i n (
,,1,0
)(
nMl
lk
C
CC
kXP
n
N
kn
MN
k
M
pqp
k
pqkXP
k
1,10
,2,1
)(
1
Mn
N
2
q
p
1
p
101
分布 分布列或概率密度 数学期望 方差均匀 分布
X~U[a,b]
指数分布
X~E(λ )
ba
bxa
abxf
.,0
,,
1
)(
其它
0
.0,0
,0,
)(
x
xe
xf
x
2
ba?
12
)( 2ab?
1
2
1
102
分布 分布列或概率密度 数学期望 方差正态分布
X~
N(μ,σ 2)
μ σ 2
0
2
1
)(
2
2
2
)(
x
exf
x
103
例 设 随机变量 X1,X2,X3,X4相互独立,均服从 (0,1)
上的均匀分布,而
4
1
1
5 kk
Y k X
求 DY?
解
44
11
4
1
11
55
1
()
5
kk
kk
k
k
D Y D k X D k X
D k X
104
44
11
4
1
11
55
1
()
5
kk
kk
k
k
D Y D k X D k X
D k X
44
22
11
4
2
1
1 1 1
5 5 1 2
1 1 3 0 1
( 1 4 9 1 6 ),
6 0 6 0 6 0 2
k
kk
k
D Y k D X k
k
105
第五章 随机变量的数字特征与极限定理
5.3 协方差和相关系数、矩
对二维随机变量 (X,Y)来说,数字特征 EX,EY只反映了 X与 Y各自的平均值,而 DX,DY只反映了 X与 Y
各自离开平均值的偏离程度,它们对 X与 Y之间的相互联系没有提供任何信息,
自然,我们也希望有一个数字特征能够在一定程度上反映这种相互联系,
106
2
2
22
( ) [ ( ) ( ) ]
[ ( ) ( ) ]
( ) ( )
2 ( ) ( )
D X Y E X Y E X Y
E X E X E Y E Y
E X E X E Y E Y
E X E X Y E Y
又
E X E YE X Y
E X E YY E XX E YXYE
EYYEXXE
)(
))((
107
在证明方差的性质 (ⅲ) 若 X与 Y相互独立,则
D(X+Y)= DX+DY,D(X?Y)= DX+DY
时,我们曾得到
E(X?EX)(Y?EY)= 0.
这说明当 E(X?EX)(Y?EY)≠ 0时,X与 Y肯定不独立,
进一步的研究表明 E(X?EX)(Y?EY)的数值,在一定程度上反映了 X与 Y之间的相互联系,因而引入如下的定义,
108
定义 5.4 设 (X,Y)是一个 二维随机变量,如果
E(X?EX)(Y?EY)
存在,则称它为 X与 Y的 协 方差,记作
Cov(X,Y)
即
Cov(X,Y)=E(X?EX)(Y?EY).
109
由 协 方差的定义 5.4及上节的两个等式
D(X+Y)=E(X?EX)2+E(Y?EY)2+2E(X?EX)(Y?EY)
与
E(X?EX)(Y?EY)=E(XY)?EXEY
可知,对任意的两个随机变量 X与 Y,下面的两个式子成立
D(X ± Y)=DX+DY± 2Cov(X,Y)
Cov(X,Y)=E(XY)?EXEY.
110
由 协 方差的定义,可得下面的性质:
(ⅰ ) Cov(X,Y)= Cov(Y,X);
(ⅱ) Cov(aX,bY)= abCov(X,Y),a,b为常数;
(ⅲ) Cov(X1+X2,Y)= Cov(X1,Y)+Cov(X2,Y).
111
协 方差虽然在一定程度上反映了两个随机变量 X与 Y
之间的相互联系,但它有以下两个缺点:
(1)从 协 方差的性质 (ⅱ)
Cov(aX,bY)=abCov(X,Y)
可见,它的大小依赖于计量单位;
(2)从 协 方差的定义
Cov(X,Y)=E(X?EX)(Y?EY)
可见,它的数值不仅与 X,Y本身的取值有关,而且还与各随机变量关于它们的偏差有关,
如果随机变量 X或 Y中的任何一个与其数学期望的偏差很小,那么无论 X与 Y之间的联系如何密切,它们的 协 方差也会很小,
112
为了克服以上两个缺点,引入以下的定义,
定义 5.5 设 (X,Y)是一个 二维随机变量,如果 X与 Y
的协 方差 Cov(X,Y)存在,且 DX>0,DY>0,则称
DYDX
YXCo v ),(
为 X与 Y的 相关系数,记作 ρ XY,即
(,) ( ) ( )
XY
Co v X Y E X E X Y E Y
D X D Y D X D Y
113
下面研究 相关系数 ρ XY到底表示 X与 Y之间的什么联系?
为此,介绍下面的定理,
定理 5.3 设 ρ 是 X与 Y的 相关系数,则
(ⅰ )|ρ |≤ 1;
(ⅱ) |ρ |=1的充分必要条件是
P(Y=a+bX)=1,
其中 a,b为常数,
114
35.设 X与 Y为具有二阶矩的随机变量,且设
2(,) [ ( ) ]Q a b E Y a bX
求 a,b使 Q(a,b)达到最小值 Qmin,并证明
2
m in ( 1 ),XYQ D Y
115
解
2
2
(,) [ ( ) ]
[ ] [ ( ) ]
Q a b E Y a b X
D Y a b X E Y a b X
2
2
2 c o v (,)
( ),
D Y b D X b X Y
E Y b E X a
2 ( ) 0,Q E Y b E X a
a
2 2 c o v (,) 2 ( ) 0,Q b D X X Y E X E Y b E X a
b
116
解方程组
0,
2 2 c o v (,) 2 ( ) 0,
E Y b E X a
b D X X Y E X E Y b E X a
得
c o v (,),.XYb a E Y b E X
DX
此时
117
2
m in
22
2
[ ( ) ]
[ c ov (,) ] [ c ov (,) ]
2
()
Q E Y a bx
X Y X Y
D Y D X
D X D X
2
2[ c o v (,) ] [ 1 ],
XY
XYD Y D Y
DX
118
下面研究 相关系数 ρ XY到底表示 X与 Y之间的什么联系?
为此,介绍下面的定理,
定理 5.3 设 ρ 是 X与 Y的 相关系数,则
(ⅰ )|ρ |≤ 1;
(ⅱ) |ρ |=1的充分必要条件是
P(Y=a+bX)=1,
其中 a,b为常数,
119
证 (ⅰ )为了证明 |ρ |≤ 1,只需 证明
[2Cov(X,Y)]2≤ 4DXDY.
利用初等代数中的典型方法,只要说明以 DX、
2Cov(X,Y),DY为系数的二次三项式非负即可,
事实上,对任意的实数 t,有
t2DX?2Cov(X,Y)t +DY =D(tX?Y)≥ 0.
可见,上式左端的二次三项式没有两个相异的实数根,故判别式非正,即
[2Cov(X,Y)]2≤ 4DX DY
[Cov(X,Y)]2≤ DX DY
从而 (ⅰ )得证,
120
(ⅱ) |ρ |=1,即式
[2Cov(X,Y)]2≤ 4DXDY
中等号成立的充分必要条件是式
t2DX?2Cov(X,Y)t+DY=D(tX?Y)≥ 0
左端的二次三项式有重根 t =b,即存在实数 b,使
D(bX?Y)=0.
由方差的性质 (ⅳ) 知式 D(bX?Y)=0成立的充分必要条件是
P(Y?bX=a)=1,
其中 a为常数,从而 (ⅱ) 得证,
121
由定理 5.3可知,当 |ρ |=1时,Y与 X之间存在着线性关系,这个事件的概率为 1.
由本章的习题 35可以看出,ρ 的绝对值越接近于 1,
Y与 X之间越近似的有线性关系,
Y与 X之间的 相关系数 ρ 是刻画 X与 Y之间线性相关程度的一个数字特征,
122
定义 5.6 若 X与 Y的 相关系数 ρ =0,则称 X与 Y不相关,? 定理 5.4 随机变量 X与 Y不 相关与下面的每一个结论都是等价的,
(ⅰ ) Cov(X,Y)=0;
(ⅱ) D(X± Y)=DX+DY;
(ⅲ) E(XY)=EXEY.
证明 (ⅰ )因为
DYDX
YXC o v
XY
),(
故 ρ =0与 Cov(X,Y)=0等价,
123
(ⅱ) 由
D(X± Y)= DX+DY± 2Cov(X,Y)
可知
Cov(X,Y)=0与 D(X± Y)=DX+DY
是等价的,
(ⅲ) 由
Cov(X,Y)=E(XY)?EXEY
可知
Cov(X,Y)=0与 E(XY)=EXEY
是等价的,
124
注意,随机变量 X与 Y的不 相关和 X与 Y相互独立是两个不相同的概念,
X与 Y的不 相关是指 X与 Y之间不存在线性关系,不是说它们之间不存在其它关系,即由 X与 Y的不 相关,推不出 X与 Y相互独立,
但是反过来,若 X与 Y相互独立,则 X与 Y一定不 相关,这是因为
由
Cov(X,Y)=E(XY)?EXEY
可以看出,若 X与 Y相互独立,则
Cov(X,Y)=0
必然成立,
125
例 1设连续型随机变量 X~N(0,1),Y=X2,求 X与 Y的相关系数 ρ XY,
解 因 X~N(0,1),故 EX=0,于是由
Cov(X,Y)=E(XY)?EXEY
得
Cov(X,Y)=E(XY)=EX3
而
EX3 =0.
故
Cov(X,Y)=0
即 ρ XY =0,
126
dtetdtetxt
x
dex
x
dex
dxexdxex
dxexEX
tt
xx
xx
x
2
1
2
2
1
22/
22
1
22
1
2
1
2
1
2
1
0
0
2
2
2
0
2
2
2
0
2
2
0
3
2
0
3
2
33
22
22
2
令
127
]
0
[
2
2
]
0
[
2
2
][
2
2
][
2
2
2
2
2
2
0
0
0
0
0
0
3
dtete
dtete
etddet
dtetdtetEX
tt
tt
tt
tt
128
0
]11[
2
2
2
2
2
2
0
0
3
dtedteEX
tt
129
在例 1中,虽然 X与 Y是不 相关的,但是 X与 Y并不独立,
事实上,因
{X2≤ 1}∩ {X≤?2}= Φ
且
0<P(X2≤ 1)<1
0<P(X≤?2)<1
故
P(X≤?2,Y≤ 1)≠ P(X≤?2)P(Y≤ 1)
可见,X与 Y不相互独立,
130
本节的最后介绍一下矩的概念,它将在数理统计的矩估计法中得到应用,
定义 5.7 若 EXk(k=1,2,… )存在,则称它为随机变量 X的 k阶 原点 矩 ;
若 E(X?EX)k(k=1,2,… )存在,则称它为随机变量 X
的 k阶 中心 矩,
由矩的定义可知,数学期望为一阶 原点 矩,方差是二 阶中心 矩,
又一 阶中心 矩恒为 0.
矩的计算可以利用随机变量函数的数学期望公式进行,
131
第五章 随机变量的数字特征与极限定理
5.5 大数定律
在前面 的 1.5节概率的统计定义中曾经讲过,一个事件 A发生的频率具有稳定性,即当试验次数 n增大时,
频率接近于某个常数 (A的概率 ).
在 5.1节随机变量 的 数学期望中又讲过,随机变量 X
在 n次试验中所取的 n个值的平均值也具有稳定性,
且被稳定的那个值就是 X的 数学期望,
132
这里所谓的,稳定性,,或当 n很大时,接近一个常数,等等,都是不确切的说法,只是一种直观的描述而已,
初学者常常把它理解为微积分中的变量与极限的关系,这是错误的,
因为事件的频率以及随机变量取的 n个值的平均值是随着试验的结果而变的,是随机变量,不是微积分中所描述的变量,
那么究竟如何用确切的数学语言来描述频率与概率、
平均值与数学期望之间的关系呢?大数定律回答了这个问题,
为了讲述大数定律,下面先讲一个重要的不等式,
它在实际上和理论上都有重要的应用,
133
5.5.1 切比雪夫 (Tchebysheff)不等式
定理 5.5 对任意 随机变量 X,若它的方差 DX存在,
则对任意的 ε >0有
2)|(|
DXEXXP
成立,
134
证 设 X是一个 连续型随机变量,概率密度为 f(x),
则
||
2
2
||
2
2
2
( | | ) ( )
()
()
1
( ) ( )
.
x E X
X E X
P X EX f x dx
x EX
f x dx
x EX f x dx
DX
135
当 X是 离散型随机变量时,只需在上述的证明中把概率密度换成分布列,把积分好换成求和号即可,
由于
)|(|1)|(| EXXPEXXP
故
2)|(|
DXEXXP
与
21)|(|
DXEXXP
等价,
136
式
2)|(|
DXEXXP
和式
21)|(|
DXEXXP
都称为 切比雪夫不等式,
切比雪夫不等式给出了在随机变量 X的分布未知的情况下,利用 EX,DX对 X的概率分布进行估计的一种方法,
137
例如,由 式
21)|(|
DXEXXP
可以断言,不管 X的分布是什么,对于任意的正整数 k都有
22
11
)(
1)|(|
kDXk
DXDXkEXXP
当 k=3时,有
8 88 9.0
9
11
3
11)3|(|
2 DXEXXP
138
由 3.5节例 1知,当 X~N(μ,σ 2)时,有
9 9 7 3.0)3|(|EXXP
比较上面的两个式子可知,切比雪夫不等式给出的估计比较粗糙;但要注意,切比雪夫不等式只利用了数学期望和方差,
139
例 1设 EX=2,DX=0.4,试用切比雪夫不等式估计
P(1<X<3)?
解
2
( 1 3 ) ( 1 3 )
( 1 2 3 2)
( 1 1 )
( | | 1 )
0.4
1 0.6,
1
P X P E X X E X E X
P X E X
P X E X
P X E X
140
例 2设 随机变量 X,Y的数学期望都是 2,方差分别为
1和 4,而相关系数为 0.5,则根据切比雪夫不等式估计
( | | 6 ) ( ),P X Y
解
()( | ( ) | 6 )
36
D X YP X Y E X Y
141
( ) 2 2 0E X Y E X E Y
( ) 2 (,)
1 4 2 0.5 1 4 3
D X Y D X D Y C ov X Y
( | | 6 ) ( | ( ) | 6 )
( ) 3 1
.
3 6 3 6 1 2
P X Y P X Y E X Y
D X Y
142
5.5.2 大数定律
定理 5.6(伯努利大数定律 ) 设在 n重伯努利试验中,
成功的次数为 Yn,而在每次试验中成功的概率为 p
(0<p<1),则对任意的 ε >0有
0)|(|lim
p
n
YP n
n
证 由于
Yn~B(n,p)
故
EYn=np,DYn=npq(q=1?p)
由此得
143
n
pq
DY
nn
Y
D
p
n
Y
E
n
n
n
2
1
代入切比雪夫不等式
2)|(|
DXEXXP
得
2)|(| n
pqp
n
YP n
144
故
.0)|(|lim
p
n
YP n
n
利用式
)|(|1)|(| p
n
YPp
n
YP nn
显然可得式
0)|(|lim
p
n
YP n
n
的等价形式
1)|(|lim
p
n
YP n
n
145
在式
.0)|(|lim
p
n
YP n
n
中,Yn/n是在 n重伯努利试验中成功的频率,而 p是成功的概率,
因此伯努利大数定律告诉我们:当试验次数 n足够大时,成功的频率与成功的概率之差的绝对值不小于任一指定的正数 ε 的概率可以小于任何预先指定的正数,这就是频率 稳定性的一种较确切的解释,
利用式
1)|(|lim
p
n
YP n
n
可以得到相应的等价解释,
146
根据 伯努利大数定律,在实际应用中,当试验次数
n很大时,可以用事件的频率来近似代替事件的概率,
定义 5.8 称 随机变量序列 X1,X2,…,Xn,… (或简记为 {Xn})是相互独立的,如果对任意的 n≥ 2,
X1,X2,…,Xn
是相互独立的,此时,若所有 Xi又有相同的分布函数,
则称 X1,X2,…,Xn,… 是 独立同分布的随机变量序列,
147
定理 5.7(切比雪夫 大数定律 ) 设 X1,X2,…,Xn,… 是相互独立的随机变量序列,若有常数 C,使 DXi≤ C,
i=1,2,…,则对任意的 ε >0有
0)|11(|lim
11
n
i
i
n
i
in EXnXnP
或
1)|11(|lim
11
n
i
i
n
i
in EXnXnP
148
证 因为
n
C
DX
n
XD
n
X
n
D
EX
n
X
n
E
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
1
2
1
2
1
11
1
)(
1
)
1
(
1
)
1
(
由切比雪夫不等式
2)|(|
DXEXXP
得
2
11
)|11(|
n
CEX
n
X
n
P
n
i
i
n
i
i
149
令 n?∞,则得
.0)|11(|lim
11
n
i
i
n
i
in EXnXnP
若利用式
21)|(|
DXEXXP
则可以推得式
.1)|11(|lim
11
n
i
i
n
i
in EXnXnP
150
在概率论中我们称满足 式
.0)|11(|lim
11
n
i
i
n
i
in EXnXnP
或式
.1)|11(|lim
11
n
i
i
n
i
in EXnXnP
的随机变量序列 X1,X2,…,Xn,… 服从 大数定律,
151
推论 设 X1,X2,…,Xn,… 是独立同分布的随机变量序列,具有有限的数学期望和方差,EXi =μ,
DXi=σ 2,i=1,2,…,则对任意的 ε >0有
.0)|1(|lim
1
n
i
in XnP
或
.1)|1(|lim
1
n
i
in XnP
这是因为
n
i
iEXn
1
1
故由切比雪夫 大数定律立即可得上面的两个式子,
152
容易验证伯努利大数定律的结论可以由此推论得出,
在上述的推论中,假设所讨论的 随机变量的方差是存在的,但实际上,方差存在这个条件并不是必要的,现不加证明地介绍下面的定理,
定理 5.8(辛钦 Khintchine大数定律 )设
X1,X2,…,Xn,… 是独立同分布的随机变量序列,具有有限的数学期望,EXi =μ,i=1,2,…,则对任意的 ε >0有
.0)|1(|lim
1
n
i
in XnP
或
.1)|1(|lim
1
n
i
in XnP
153
在 式
.0)|1(|lim
1
n
i
in XnP
中
n
i
iXn
1
1
可以被看作随机变量 X在 n次重复独立试验中 n个观察值的算术平均值,而 μ =EX.
因此,辛钦 大数定律告诉我们:当试验次数 n足够大时,
154
因此,辛钦 大数定律告诉我们:当试验次数 n足够大时,平均值
n
i
iXn
1
1
与 数学期望 μ 之差的绝对值不小于任一指定的正数
ε 的概率可以小于任何预先指定的正数,这就是 算术平均值稳定性的一种较确切的解释,
所以,在测量中常用多次重复测得的值的算术平均值来作为被测量的近似值,
155
一般地,设 Z1,Z2,…,Zn,… 是一个随机变量序列,a
是一个常数,若对任意的 ε >0有
1)|(|limaZP nn
则称随机变量序列 Z1,Z2,…,Zn,… 依概率收敛 于 a.
记为
)(
l i m
naZ
aPZ
P
n
n
n
或
156
按照依概率收敛的定义,伯努利大数定律表明了频率 Yn/n依概率收敛于 p,即
)( np
n
Y Pn
式
.0)|1(|lim
1
n
i
in XnP
.1)|1(|lim
1
n
i
in XnP
所表示的关系为
157
式
1)|
1
(|lim
0)|
1
(|lim
1
1
n
i
i
n
n
i
i
n
X
n
P
X
n
P
所表示的关系为
)(
1
1
lim
1
1
nX
n
PX
n
P
n
i
i
n
i
i
n
或
158
第五章 随机变量的数字特征与极限定理
5.6 中心极限定理
在前面 5.5节大数定律中,我们讨论了独立随机变量的平均值
),2,1(1
1
nX
n
n
i
i
序列的依概率收敛问题,现在我们来讨论独立随机变量和
.
1
时的分布问题当
nX
n
i
i
159
在随机变量的各种分布中,正态分布占有特殊重要的地位,
早在 19世纪,德国数学家高斯 (Gauss)在研究测量误差时,就引进了正态分布,
其后,人们又发现在实际问题中,许多随机变量都近似服从正态分布,
为什么正态分布如此广泛地存在,从而在概率论中占有如此重要的地位?
数学家从关于独立随机变量和的极限分布的研究中找到了答案,
160
20世纪前半期,概率论研究的中心课题之一,就是寻求独立随机变量和的极限分布是正态分布的条件,
因此,把这一方面的定理统称为中心极限定理,
较一般的中心极限定理表明:如果被研究的随机变量是大量的独立随机变量的和,其中每一个别随机变量对于总和只起微小作用,则可以认为这个随机变量近似服从正态分布,
这就揭示了正态分布的重要性,因为现实中许多随机变量都具有上述的性质,例如测量误差、射击弹着点的横坐标或纵坐标、人的身高或体重等都是由大量的随机因素综合影响的结果,因而是近似服从正态分布的,
161
以下叙述一个常用的中心极限定理
定理 5.9(独立同分布的中心极限定理 )
如果随机变量序列 X1,X2,…,Xn,… 独立同分布,并且具有有限的数学期望和方差,EXi = μ,
DXi=σ 2>0,i=1,2,…,则对一切 x,有
)(
2
1
})(
1
{lim
2
1
2
xdte
xnX
n
P
t
x
n
i
i
n
证明需要用到随机变量的特征函数,略,
162
从式
)(
2
1
})(
1
{lim
2
1
2
xdte
xnX
n
P
t
x
n
i
i
n
可以看出,不管 Xi (i=1,2,… )服从什么分布,只要 n
充分大,随机变量
)(1
1
nX
n
n
i
i
就近似地服从 N(0,1),而
163
随机变量
n
i
iX
1
近似地服从 N(nμ,nσ 2).
此时,我们称
)(1
1
nX
n
n
i
i
渐近地服从 N(0,1).
定理 5.9又被称为列维 — 林德伯格 (Levy— Lindeberg)
中心极限定理,
164
例 1 计算机在进行加法时,对每个被加数取整 (取为最接近于它的整数 ),设所有的取整误差是相互独立的,且它们均在 (?0.5,0.5)上服从均匀分布,若将
1500个数相加,问误差总和的绝对值不超过 15的概率是多少?
解 设 Xi表示第 i个被加数的取整误差,i=
1,2,…,1500,则
Xi~U(?0.5,0.5)
且 X1,X2,…,X1500相互独立,故
μ = EXi = 0
σ 2 = DXi =1/12.
165
令 Z=X1+X2…+ X1500,由 列维 — 林德伯格 中心极限定理
)(
2
1
})(
1
{lim
2
1
2
xdte
xnX
n
P
t
x
n
i
i
n
得
)1,0(
12/11 5 0 0
01 5 0 0 ~ NZ 近似?
166
于是,所求的概率为
( | | 15 ) ( 15 15 )
15
(
15 00 1 / 12
15
)
15 00 1 / 12 15 00 1 / 12
15 15
( ) ( )
15 00 1 / 12 15 00 1 / 12
P Z P Z
P
Z
167
8 1 9 8.0
19 0 9 9.02
1)34.1(2
1)
12/11 5 0 0
15
(2)15|(|
查表
ZP
168
定理 5.10 [德莫弗 — 拉普拉斯 (De Moivre?Laplace)
定理 ] 设在 n重伯努利试验中,成功的次数为 Yn,
而在每次试验中成功的概率为 p(0<p<1),q=1?p,
则对一切 x,有
)(
2
1
)(lim
2
2
x
dte
x
n p q
npY
P
t
x
n
n
169
证明 设 Xi表示在第 i次试验成功的次数,i=
1,2,…,n,则 Xi的分布列为
Xi 0 1
P q p
且
n
i
in XY
1
由于 X1,X2,…,Xn是独立同分布的随机变量序列分布列,且 EXi=p,DXi=pq (i=1,2,…,n )有限,故满足定理 5.9(独立同分布的中心极限定理 )的条件,
170
于是由式
)(
2
1
})(
1
{lim
2
1
2
xdte
xnX
n
P
t
x
n
i
i
n
得
)(
2
1
)(lim
2
2
xdte
x
n p q
npY
P
t
x
n
n
171
定理 5.10表明二项 分布以正态分布为极限分布
推论 对定理 5.10中的 n重 伯努利 试验,n充分大时,
有
( ) ( ) ( )n b np a npP a Y b
np q np q
证 从
)()(
n p q
npb
n p q
npY
n p q
npaPbYaP n
n
由 定理 5.10(德莫弗 — 拉普拉斯定理 )即得结论,
172
由推论可知,当 n很大时,二项 分布的概率计算问题,可以转化为正态分布来计算,这将使计算量大大减小,
例如,当 n很大时,若要计算
knk
bka
k
nn qpCbYaP
)(
工作量是惊人的,但是,用式
)()()(
n p q
npa
n p q
npbbYaP
n
只要查一下正态分布函数表就可以轻松地求出它的相当精确的近似值,
173
例 2 重复投掷硬币 100次,设每次出现正面的概率均为 0.5,问,出现正面次数大于 50,小于 61”的概率是多少?
解 设出现正面的次数为 Yn,现在
525,50,5.0,100 npqnppn
由式
)()()(
n p q
npa
n p q
npbbYaP
n
得
174
( 50 61 ) ( 50 60)
60 50 50 50
( ) ( )
55
( 2) ( 0)
0.9772 0.5
0.4772
nn
P Y P Y
175
应该指出:定理 5.10及其推论中的
Yn
是仅取非负整数值 0,1,2,…,n的随机变量,注意到正态分布是连续型的分布,所以在求概率
P(Yn≤ m)(m为正整数 )
时,为了得到较好的近似值,可以用下面的近似公式
)
2/1
(
)
2
1
()(
n p q
npm
mYPmYP
nn
176
例 3 以 X表示将一枚匀称的硬币重复投掷 40次中出现正面次数,试用 正态分布求 P(X=20)的近似值,
再与精确值比较,
解 这里 n=40,p=1/2,q=1/2,故
1 2 7 2.015 6 3 6.02
1)16.0(2)16.0()16.0(
)
10
205.19
()
10
205.20
(
)5.205.19()20(
查表
XPXP
177
而精确解为
1268.0)
2
1
(
)
2
1
()
2
1
()20(
4020
40
202020
40
C
CXP
当然,求例 3这样的概率还有德莫弗 — 拉普拉斯局部极限定理可用,这里就不予以论述了,
178
由前面的讨论可见,对 二项 分布,当 n充分大,以致 npq较大时,正态近似是相当好的近似,
进一步的分析表明,当接近于 0或 1时,用正态近似效果不好,这时就要用到泊松近似了,
由定理 2.10(二项概率 的泊松逼近定理 ),当 p(或 q)
很小,而 np(或 nq)大小适中时,泊松近似是较好的,
在实际中,一般当 0.1<p<0.9且 npq>9时,用正态近似;当 p≤ 0.1(或 p≥ 0.9)且 n≥ 10时,用泊松近似,
179
例 1 一生产线生产的产品成箱包装,每箱的重量是随机的,假设每箱的平均重量为 50千克,标准差为 5
千克,若用最大载重量为 5吨的汽车承运,试利用中心极限定理说明,每辆车最多可以装多少箱,才能保证不超载的概率大于 0.977.(Φ(2)= 0.977,其中
Φ(x)是标准正态分布函数,)
解 设 Xi(i=1,2,…,n)是装运的第 i箱的重量 (单位:
千克 ),n是所求的箱数,
由条件可以把 X1,X2,…,Xn视为独立同分布的随机变量,而 n箱的总重量
Tn=X1+X2…+ Xn
是独立同分布随机变量之和,
180
由条件知
50,5 ;
50,5,
ii
nn
E X D X
E T n D T n
根据 列维 — 林德伯格 (独立同分布的 )中心极限定理,
Tn近似服从正态分布 N(50n,25n).
箱数 n决定于条件
50 5 0 0 0 5 0( 5 0 0 0 )
55
n
n
Tn nP T P
nn
181
50 50 00 50
( 50 00 )
55
10 00 10
0,97 7 ( 2)
n
n
Tn n
P T P
nn
n
n
由此可见
1 0 0 0 1 0 2n
n
182
2
1 0 0 0 1 0 2n
n
2( 10 00 10 ) 4nn
22 5 5 0 0 1 2 5 0 0 0 0 0nn
9 8,0 2 1 0 2,0 2nn 或
从而 n<98.02,即每辆车最多可以装 98箱,才能保证不超载的概率大于 0.977.
183
48.某保险公司多年的资料表明,在索赔户中,
被盗索赔户占 20%,以表示在随机抽查 100个索赔户中因被盗而向保险公司索赔的户数,求
( 1 4 3 0 ),PX
解
30 20 14 20( 14 30 ) ( ) ( )
16 16
PX
( 2,5 ) ( 1,5 )
0,9 9 3 8 ( 1,5 ) 1
0,9 9 3 8 0,9 3 3 2 1 0,9 2 7,
184
48.某保险公司多年的资料表明,在索赔户中,
被盗索赔户占 20%,以表示在随机抽查 100个索赔户中因被盗而向保险公司索赔的户数,求
( 1 4 3 0 ),PX
解
( 14 30) ( 13.5 30.5 )
30.5 20 13.5 20
( ) ( )
16 16
P X P X
( 2,6 2 5 ) ( 1,6 2 5 )
0,9 4 4 2,?