1
概率论与数理统计第 15讲本文件可从网址
http://math.vip.sina.com
上下载
(单击 ppt讲义后选择 '概率论 '子目录 )
2
协方差与相关系数
3
定性的思考通常人们在研究单个的随机变量的时候,并不关心它们的分布,而是关心它们的数学期望和方差,这也是因为分布携带了太多的信息,很难给人们一个快捷的印象,
而人们在研究两个随机变量的关系的时候,也不关心它们的联合分布,这是携带了更多信息的内容,人们关心的是,这两个随机变量是联系非常紧密呢? 还是毫无关系?即相互独立?
人们希望用一个数字就能够在相当程度上描述两个随机变量的联系程度,
4
当然,从数学上看,这是不可能的因为联合分布的信息量为许多个数,甚至无穷多个数,因此一个数不可能反映出无穷多个数携带的信息,
但是我们仍然希望能够找到描述它们之间相互关系的一个数,至少在大多数实际情况下能够描绘两个随机变量联系的紧密程度,例如,
如果这个数字越接近于零,说明这两个随机变量的联系越差,越接近于相互独立,反之则联系越紧密,越接近于相互之间有关系,
5
例如一个人的身高和体重是非常有关系的,但是又并不完全是严格的函数关系,那么关系程度究竟有多大呢?
一个人的吸烟量和他的平均寿命是有关系的,
这个关系量又有多大呢?
一种化肥的施用量和农作物的产量是有关系的,这个关系的大小又是如何呢?
这样一些问题都希望能够用一个数字就表示出来,这就是人们想到要用协方差和相关系数的原因,
6
对于两个随机变量 x和 h
当它们是完全相等的时候,联系是最紧密的了,而当它们相互独立的时候,联系是最差的了,
因此我们先研究它们的和 x+h的方差,
D(x+h)=E{x+h-E(x+h)}2
=E{x-Ex+h-Eh}2
=E{(x-Ex)2+(h-Eh)2+2(x-Ex)(h-Eh)}
=E(x-Ex)2+E(h-Eh)2+2E{(x-Ex)(h-Eh)}
=Dx+Dh+2E{(x-Ex)(h-Eh)}
7
重新写在这里,
D(x+h)=Dx+Dh+2E{(x-Ex)(h-Eh)}
关键在后一项 2E{(x-Ex)(h-Eh)},我们定义
E{(x-Ex)(h-Eh)}为 x和 h的协方差,用 cov(x,h)
表示,则
D(x+h)=Dx+Dh+2cov(x,h)
当 x和 h相互独立时,联系最不紧密,这时候
cov(x,h)=0,因此 D(x+h)=Dx+Dh
而当 x=h时,联系最紧密,这时候
Dx=Dh=cov(x,h),因此 D(x+h)=D(2x)=4Dx
8
进一步研究
cov(x,h)=E{(x-Ex)(h-Eh)}
D(x+h)=Dx+Dh+2cov(x,h)
当协方差为 0时表示 x,h联系最不紧密,但协方差多大表示 x,h联系最紧密却是与 x及 h的方差的大小有关的,为去除这个因素,因此定义
hx?hxhx
hx
hx
hx
DDDDD
DD
2)(
,,
),c o v (

则的相关系数为
9
现证明 |?|?1
令 x’=x-Ex,h’=h-Eh,则 x',h'都是期望值为 0的随机变量,对于任给的实数 t,相信 E(x'+th')2?0,
即 Ex'2+2tE(x'h')+t2Eh'2?0,即是说关于 t的一元二次方程 Ex'2+2tE(x'h')+t2Eh'2=0最多只有单个实根或者没有实根,也就说明判别式
b2-4ac?0
1||1,1
),(c o v
0''4),(c o v4
2
2
222

-

hx
hx
hxhx
或即
DD
EE
10
再考虑当 |?|=1时会是什么情况,这时方程
Ex'2+2tE(x'h')+t2Eh'2=0 存在着一个单根,
假设这单根为 t0,则有
Ex'2+2t0E(x'h')+t02Eh'2=0
即 E(x'+t0h')2=0,而当一个总是取非负值的随机变量的期望值为 0时,答案只能是此随机变量就是常数 0,即存在着实数 t0使得 x'+t0h'=0,即 x和 h的离差是正好成比例的,我们将这种情况称作 x与 h呈线性关系,
因此就有定理 (接后页 )
11
定理两个随机变量 x和 h呈线性关系的充分必要条件,是它们的相关系数的绝对值为 1,即
|?|=1
而另一方面,如果 x与 h相互独立,则它们的相关系数必为 0,即?=0.
当然,数学家们会喋喋不休地宣传当?=0时未见得 x
与 h相互独立,并在作业或者例子中经常给出反例,
但是,作为经验之谈,当?=0时,两个随机变量确实关系不大了,这也是相关系数被广泛使用的原因,
12
协方差的统计对协方差 E(x-Ex)(h-Eh)的统计是这样,先是通过试验获得了 x和 h的 n对数据
(a1,b1),(a2,b2),...,(an,bn)然后令
hx
hxhx
hx
-?
--?



n
i
ii
n
i
ii
n
i
i
n
i
i
ba
n
ba
n
b
n
a
n
1
1
11
1
))((
1
),c ov (
,
1
,
1
13
第四章 几种重要的分布
4.1 二项分布
14
在第一章介绍过独立试验概型
knkk
n qpCkP
- }{ x
作 n次相互独立的试验,每次试验事件 A出现的概率为 p,不出现的概率为 q=1-p,事件 A出现的次数 x为一离散型随机变量,则我们已经知道如假设第 i次试验时事件 A发生的次数为随机变量 xi,则 xi服从 0-1分布,
P{xi=1}=p,P{xi=0}=q=1-p,(i=1,2,...,n)
因此有 x=x1+x2+...+xn
15
定义 4.1 如果随机变量 x有概率函数其中 0<p<1,q=1-p,则称 x服从参数为 n,p的二项分布,简记作 x~B(n,p),
在这里 P{x=k}的值恰好是二项式 (q+px)n展开式中第 k+1项 xk的系数,
如果 x~B(n,p),则 x可看作是由 n个取 1概率为 p
的相互独立的 0-1分布的随机变量 xi,i=1,2,...,n
的和,
x=x1+x2+...+xn
),,1,0(}{ nkqpCkPp knkknk -x
16
x的分布函数为
-
-
-


m
lk
knkk
n
m
k
knkk
n
xk
knkk
n
qpCmlP
mlA
qpCmP
mA
qpCxF
}{
}0{
)(
0
x
x
的概率是不大于出现次数不小于事件次的概率是至多出现事件
17
例 1 某工厂每天用水量保持正常的概率为 3/4,
求最近 6天内用水量正常的天数的分布,
解 设最近 6天内用水量保持正常的天数为 x,
则 x~B(6,0.75),因此
178.0
4
3
}6{
0044.0
4
1
4
3
}1{
0002.0
4
1
}0{
4
5
1
6
6






x
x
x
P
CP
P
18
其分布表如下表所示
x 0 1 2 3 4 5 6
P 0.0002 0.0044 0.033 0.1318 0.2966 0.356 0.178
分布图,
0
0.2
0.4
0 2 4 6
P
19
例 2 10部机器各自独立工作,因修理调整的原因,每部机器停车的概率为 0.2,求同时停车数目 x的分布,
解 x~B(10,0.2),用贝努里公式计算 pk如下表所示
x 0 1 2 3 4 5 6 7 8 9 10
P 0.11 0.27 0.3 0.2 0.09 0.03 0.01 0.0 0.0 0.0 0.0
20
概率分布图如下图所示
0
0.1
0.2
0.3
0 2 4 6 8 1
P
21
例 3 一批产品的废品率 p=0.03,进行 20次重复抽样 (每次抽一个,观察后放回去再抽下一个 ),
求出现废品的频率为 0.1的概率,
解 令 x表示 20次重复抽取中废品出现的次数,
x~B(20,0.03)
0988.097.003.0
)2(1.0
20
1822
20


C
PP x
x
22
二项分布的期望和方差如 x~B(n,p),则 x可看作 n个相互独立的 0-1分布的随机变量 x1,x2,...,xn之和,
x=x1+x2+...+xn
而且我们知道 0-1分布的期望为 p,方差为 pq,
因此易得
Ex=Ex1+Ex2+...+Exn=np
Dx=Dx1+Dx2+...+Dxn=npq

npqnpqDnpE x?xx,,
23
当然,也可直接计算二项分布的数学期望和方差
24
直接计算二项分布的数学期望
npqpCnp
ki
qpCnp
qp
knk
n
qp
knk
n
kkkPE
n
i
inii
n
n
k
knkk
n
n
k
knk
n
k
knk
n
k

-?
--
-


-
--
-
-----
-
-
-
1
0
)1(
1
1
)1()1(11
1
1
00
1
)!()!1(
!
)!(!
!
}{

xx
25
计算二项分布的方差 x
考虑 E[x(x-1)]=Ex2-Ex
---
-
-
-
-
-?
----
-?-?
-
-?
-?-
n
k
knkk
n
n
k
knk
n
k
knk
n
k
knkk
n
qpCpnn
qp
knk
nnn
qp
knk
n
kk
qpCkkE
2
22
2
2
2
2
0
)1(
)]!2(2[)!2(
)!2()1(
)!(!
!
)1(
)1()]1([ xx
26
令 i=k-2
2222
2
0
2
2
2
)1(
)1()]1([
nppnpnn
qpCpnnE
n
i
inii
n
-?-?
-?-?
-
--
-
xx
即 Ex2-Ex=n2p2-np2,
因此 Ex2=n2p2-np2+np
Dx=Ex2-(Ex)2
=np-np2=np(1-p)=npq
27
二项分布的最可能值使概率 P{x=k}取最大值的 k记作 k0,称 k0为二项分布的最可能值,如图示意由上图可知 P(x=k0)?P(x=k0+1)
且 P(x=k0)?P(x=k0-1)
k0 k0+1 k0+2k0-1k0-2
......
28
因此得
pnpkpnpkpnp
qk
pkn
qpC
qpC
kpnpkpn
qk
pkn
qpC
qpC
k
kn
n
knk
knk
n
C
C
knkk
n
knkk
n
knkk
n
knkk
n
k
n
k
n
--?
-

-
-
--
-
-
--
---
-
-
00
0
0
111
00
0
0
111
1
1,1
1
)1(
)(
,)1(
1
)1(
1
!
)!1()!1(
)!(!
!
000
000
000
000
即再由得由因
29
分析 np+p-1?k0?np+p
知道 np+p比 np+p-1大了 1,因此挤在这两个数中间的整数有 1个还是 2个取决于 np+p是否正好是整数,如果正好是整数,则无论是 np+p还是 np+p-1都满足上面的不等式,这个时候就有两个最可能值 np+p-1和 np+p.
如果 np+p不是整数,则 k0取被 np+p-1和 np+p夹在中间的整数才能够满足上面的不等式,因此可以看作是不大于 np+p的最大整数,记作
[np+p]
30
一些例子如果是反复地掷硬币试验掷了 100次,则
x~B(100,0.5),最可能值是
[100?0.5+0.5]=[50+0.5]=50
如果 x~B(1000,0.3),则最可能值是
[1000?0.3+0.3]=300
在实际应用中,np+p正好是整数的情况几乎不存在,但是数学家们为了折腾人喜欢找这样一些题目,
31
例 4 某批产品有 80%的一等品,对它们进行重复抽样检验,共取出 4个样品,求其中一等品数
x的最可能值 k0,并用贝努里公式验证,
解 x~B(4,0.8),
因 np+p=4?0.8+0.8=4是整数,所以 k0=4和 k0=3
时 P{x=k}为最大,即 3和 4为最可能值,
x 0 1 2 3 4
P 0.0016 0.0256 0.1536 0.4096 0.4096
32
一般说来,在 n很大时,不等式
.
,
1
1
1
0
0
0
最大即频率为概率的可能性故近似等于零和中即
p
n
k
n
p
n
p
n
p
p
n
k
n
p
p
pnpkpnp
-

-
-?
33
作业 习题三第 77页 第 20,22,23,24题第 99页 第 1,7,8题
34
请提问