2009-7-25
1
概率论第 10讲相互独立随机变量的和相关系数本文件可从网址
http://math.vip.sina.com
上下载
(单击 'ppt讲义 '后选择 '工程数学 '子目录 )
2009-7-25
2
当一个随机变量 x服从零 -壹分布时,它的分布密度如下表所示
x 0 1
概率 1-p p
(0<p<1)
因此,Ex=0?(1-p)+1?p=p
Ex2=02?(1-p)+12?p=p
Dx=Ex2-(Ex)2=p-p2=p(1-p)
现在设随机变量 x1,x2,...,xn相互独立且每个都服从同一个零一分布,来求出
hn=x1+x2+...+xn的分布
2009-7-25
3
这里,每个 xi只能取 0,1(i=1,2,...,n),因此,
hn只能取 0,1,2,...,n,设 i为这些数字中的任一个,hn取 i等于说 x1,x2,...,xn中恰好有 i
个值取 1而其余的取 0,在 x1,x2,...,xn中 i个这些种方式的共有而其余取取,01

i
n
方式两两互斥,按诸 xi的相互独立性,每种方式出现的概率为 pi(1-p)n-i,因此
{ } ( 1 ) ( 0,1,2,,)i n in nP i p p i n
i
h - -

即 hn服从 B (n,p).
2009-7-25
4
因为 hn=x1+x2+...+xn且 x1,x2,...,xn相互独立,Exi=p,Dxi=p(1-p),i=1,2,...,n,所以
Ehn=Ex1+Ex2+...+Exn=np
Dhn=Dx1+Dx2+...+Dxn=np(1-p)
2009-7-25
5
中心极限定律,
设随机变量 x1,x2,...,xn相互独立,均值和方差都一样,设 Exi=m,Dxi=s2,i=1,2,...,n,
则当 n很大时 (通常在 100以上 ),它们的和
hn=x1+x2+...+xn近似服从正态分布 N(nm,
ns2)
推论,
当 n很大时,二项分布 B (n,p)近似服从正态分布 N(np,np(1-p))
(隶莫佛 -拉普拉斯中心极限定理 )
2009-7-25
6
第三节 相关系数
2009-7-25
7
一,线性回归 回归系数在研究实际问题时,会遇到一些相互制约的量,即它们之间存在一定的联系,这些联系中有一类是大家所熟悉的函数关系,即所谓确定性关系,譬如,自由落体运动中,物体下落的距离 s与所需的时间 t
的关系为
21
2
s gt?
2009-7-25
8
但是,经常还会遇到两个随机变量,它们并不具有函数关系,例如,一族人的身长与体重之间就是这样,一般说来,身高者,
体亦重,但这种联系不是确定性的,一个人的体重并不能完全确定其身高,对于这样两个随机变量 x,h,希望用 x的某个线性函数 ax+b(a,b都是常数 )来近似表达
h,当然问题是如何选取 a,b,使得在某种含义上近似程度尽可能好,
2009-7-25
9
以 ax+b近似表达 h时的 均方误差 为
E[h-(ax+b)]2
=E[(h-Eh)-a(x-Ex)+(Eh-aEx-b)]2
=E[(h-Eh)2+a2(x-Ex)2+(Eh-aEx-b)2
-2a(h-Eh)(x-Ex)+2(h-Eh)(Eh-aEx-b)
-2a(x-Ex)(Eh-aEx-b)]
=E(h-Eh)2+a2E(x-Ex)2+(Eh-aEx-b)2
-2aE[(h-Eh)(x-Ex)].
为了表达方便,令
[ ( ) ( ) ](,),( 1 )
( ) ( )
E E Eh h x x? x h
s x s h
--?
2009-7-25
10
E[h-(ax+b)]2
=E(h-Eh)2+a2E(x-Ex)2+(Eh-aEx-b)2
-2aE[(h-Eh)(x-Ex)].
[ ( ) ( ) ](,),( 1 )
( ) ( )
E E Eh h x x? x h
s x s h
--?
2 2 2 2
2
2
2
2 2 2
[ ( ) ] ( ) ( )
2 (,) ( ) ( ) ( )
()
( ) (,)
()
( ) [ 1 (,) ] ( )
E a b a
a E a E b
a
E a E b
h x s h s x
x h s x s h h x
sh
s x? x h
sx
s h? x h h x
-
-? - -

-


-? - -
2009-7-25
11
从表达式可以看出,为了使均方误差尽可能地小,应该取
2
22
2 2 2
()
[ ( ) ] ( ) (,)
()
( ) [ 1 (,) ] ( )
E a b a
E aE b
sh
h x s x? x h
sx
s h? x h h x

- -

-? - -
,
()
(,),
()
b E aE
a
hx
sh
x h
sx
-?
2009-7-25
12
即取
,
()
(,),
()
b E aE
a
hx
sh
x h
sx
-?

()
(,),
()
()
(,),
()
a
b E E
sh
x h
sx
sh
h? x h x
sx
-

(2)
(3)
这时,ax+b为
()(,) ( )
()
EEsh? x h x x h
sx
-?(4)
2009-7-25
13
以 x的这个线性函数 (4)作为 h的近似值时,
均方误差最小,最小值为
s2(h)[1-?2(x,h)],(5)
称 x的线性函数 (4)为 h对 x的线性回归,称线性函数 (4)的一次项的系数
()(,)
()
sh? x h
sx
(6)
为 h对 x的回归系数,记作 a(x,h).
2009-7-25
14
类似地,可以考虑以 h的线性函数近似表达 x的问题,得到 x对于 h的线性回归 为
()(,) ( ),
()
EEsx? h x h h x
sh
-?(7)
又,x对于 h的回归系数 a(h,x)为
()(,),
()
sx? h x
sh
(8)
按定义知?(x,h)=?(h,x),a(h,x)也可写成
()(,),
()
sx? x h
sh
(9)
2009-7-25
15
例 10 设二维随机变量 (x,h)的分布密度为
1 2 3 4 5
11111
1
12 24 12 12 24
1 1 1 1
20
24 24 24 24
1111
30
24 24 24 24
1 1 1 1
40
24 24 24 24
11111
5
30 30 30 30 30
h
x
求 h对于 x的线性回归及 x对 h
的线性回归,
2009-7-25
16
解 (x,h)关于 x的边缘分布密度为
1 2 3 4 5
1 1 1 1 1
3 6 6 6 6
x
概 率
(x,h)关于 h的边缘分布密度为
1 2 3 4 5
11111
55555
h
概 率
2009-7-25
17
从而推得
8
,( ) 1.49,3,( ) 1.41
3
[ ( ) ( ) ]
(,)
( ) ( )
[]
( ) ( )
()
0.06
( ) ( )
EE
E E E
E E E E E
E E E
x s x h s h
x x h h
x h
s x s h
x h x h h x x h
s x s h
x h x h
s x s h

--
--?
-

2009-7-25
18
因此,h对 x的线性回归为
1,4 1 80,0 6 3 0,0 5 6 2,8 5 ;
1,4 9 3
xx -

x对 h的线性回归为
1,4 9 80,0 6 ( 3 ) 0,0 6 3 2,5 2
1,4 1 3
hh? -
2009-7-25
19
二,相关系数 协方差
2009-7-25
20
上面已经求得,如限用 x的线性函数来近似表达 h,取 h对于 x的线性回归
()(,) ( )
()
EEsh? x h x x h
sx
-?
时,均方误差最小,最小值为
s2(h)[1-?2(x,h)],
而在误差理论中使用相对误差更为合适,
用上述均方误差 s2(h)[1-?2(x,h)]除以 s2(h)
后的商 1-?2(x,h)(以后简称相对均方误差 )
来计量上述近似程度,同理,1-?2(x,h)也可以用来计量 x对 h的线性回归作为 x的近似程度,
2009-7-25
21
由此可见,可以用 1-?2(x,h)来计量 x,h的线性联系的紧密程度,由于 1-?2(x,h)是
|?(x,h)|的单调减函数,也可用 |?(x,h)|来计量这种联系的紧密程度,
称?(x,h)为 x,h的相关系数,它是 (x,h)的一个数字特征,
2009-7-25
22
下面讨论 |?(x,h)|的大小与这种联系的关系,
首先,由于上述均方误差总不为负,所以
1-?2(x,h)?0,

|?(x,h)|?1
其次当 |?(x,h)|较大时,相对均方误差 1-
2(x,h)较小,这就表明 x,h的线性联系比较紧密,反之,就比较不紧密,
2009-7-25
23
特殊地,当 |?(x,h)|=1时,x,h的联系最紧密,这时,线性回归的均方误差均为零,
即 x与 h有线性关系
( ) ( )
EEx x h h
s x s h
--
按?(x,h)为 +1或 -1而确定等式右端为 +或为 -.
2009-7-25
24
当?(x,h)=0时,x,h的联系最不紧密,这时,
两个线性回归都是常数,它们依次为 Eh
及 Ex,称这样的 x,h为 互不相关,
2009-7-25
25
当 x,h相互独立时,x-Ex,h-Eh也相互独立,再按数学期望的性质有
E[(x-Ex)(h-Eh)]=[E(x-Ex)]E[(h-Eh)]
=(Ex-Ex)(Eh-Eh)=0
所以,这时
[ ( ) ( ) ]
(,) 0
( ) ( )
E E Ex x h h
x h
s x? h
--

2009-7-25
26
即,x,h相互独立保证 x,h互不相关,但反过来不成立,x,h互不相关并不保证 x,h相互独立,
2009-7-25
27
例 11 已知随机变量 x的分布密度为
1 0 1
1 1 1
3 3 3
x -
概 率而 h=x2,试证随机变量 x与 h不相互独立而互不相关,
证 x与 h互不相关是显然的,因为 h的值完全由 x的值所决定,
但 E(xh)=E(x3)=E(x)=0,E(x)E(h)=0
所以?(x,h)=0,故 x,h互不相关,
2009-7-25
28
当 (x,h)服从正态分布时,x,h相互独立与
x,h互不相关是等价的,
2009-7-25
29
例 12 设服从以 (x,h)
22
22
11(,) e x p ( 2 )
2 ( 1 )21
x y x x y y

- -?
-
-
为分布密度的二维正态分布,证明,?(x,h)=?.
证 按第六章例 5的结论,x,h的边缘分布密度为标准正态分布,因此
Ex=0,s2(x)=1,Eh=0,s2(h)=1.
(x,h)=E(xh)
2009-7-25
30
(x,h)=E(xh)
2
22
22
2
2
2
2
2
22
1
e xp ( 2
2( 1 )21
()
e xp
2( 1 )21
()
.
22
x
xx
xy
x x y y dy dx
x y y x
dy e dx
x x x
e dx e dx





-? -?
-
-? -?
--
-? -?

- -?

--
-

-

--





2009-7-25
31
在讨论误差时有绝对误差及相对误差一样,在讨论表达两个随机变量之间联系的紧密程度时,通常也有两种方法,上面介绍过的相关系数相应于相对误差的地位,相应于绝对误差地位的数字特征是
E[(x-Ex)(h-Eh)]=?(x,h)s(x)s(h),称这个数字特征为 x,h的协方差,记作
cov(x,h),即规定
cov(x,h)=E[(x-Ex)(h-Eh)].
显然有,cov(x,h)=cov(h,x)
2009-7-25
32
又当 x,h相互独立时,cov(x,h)=0,但是,
反之不一定成立,特殊地,对于服从二维正态分布的随机变量 (x,h)中的 x,h讲,
cov(x,h)=?s1s2,且 x,h的协方差为零等价于 x,h相互独立,
注意到,只要 x,h互不相关,便有
s2(x?h)=s2(x)+s2(h).
2009-7-25
33
第四节 契比晓夫不等式 大数定律
2009-7-25
34
方差是用来计量一个随机变量取值的分散程度的,设 x的方差为 s2(x),标准差为
s(x),要估计事件 {|x-Ex|?ks(x)}的概率,
其中 k>0为任一常数,为了简便起见,在此只讨论连续型情形,
2009-7-25
35
设 x的分布密度为?(x),则
2
22
| | ( ) | | ( )
22
2 2 2 2 2
{| | ( ) }
()
( ) ( )
()
1 1 1
( ) ( ) ( )
( ) ( )
x E k x E k
P E k
xE
x dx x dx
k
x E x dx
k k k
x s x x s x
x x s x
x

sx
x? s x
s x s x
-? -?

-?
-?
-

-

从而得到不等式
2
1{| | ( ) }P E k
k
x x s x-
2009-7-25
36
如果令 ks(x)=e,即,则上式可写为
2
1{| | ( ) }P E k
k
x x s x-
,
()
k
e
sx
2
2
(){| | }PE sxx x e
e
-
称此不等式为 契比晓夫不等式,
e为任意正数
2009-7-25
37
贝努利大数定律,设 hn服从 B (n,p),其中 0<p<1,n=1,2,...,那末,对于任一正数 e,

l im 0,n
n
Pp
n
h
e


-

2009-7-25
38
证 由于 hn服从 B (n,p),所以
Ehn=np,s2(hn)=np(1-p).
因此按契比晓夫不等式
l im 0,n
n
Pp
n
h
e


-

2
2
2 2 2
()
0 {| | }
()
( 1 ) ( 1 )
0
nn
nn
n
P E n P p
nn
n p p p p
nn
h s h
h h e e
e
ee


- -

--

证毕
2009-7-25
39
由于 hn/n可以看作在 n次重复独立试验中指定的事件 A出现的频率,而 p为每次试验中 A出现的概率,因此上述定理的结论可理解为,当 n足够大时,事件 A出现的频率与 A的概率的差的绝对值不小于任一指定的正数 e的概率可以小于任何预先指定的正数,这是频率稳定性的一种较确切的解释,
2009-7-25
40
契比晓夫大数定律 设随机变量
x1,x2,...,xn,...相互独立,每个变量分别存在数学期望 Ex1,Ex2,...,Exn,...及方差
s2(x1),s2(x2),...,s2(xn),...,并且这些方差是有界的,所有的方差小于一正常数 K
则对于任一个正数 e,有
11
11
l im 0,
nn
ii
x
ii
PE
nn
x x e



-


2009-7-25
41
证 11
22
22
11
11
,
11
()
nn
ii
ii
nn
ii
ii
EE
nn
n K K
n n n n
xx
s x s x










将契比晓夫不等式用在 上,任给 e>0,有 1
1 n
i
in
x
2
1
22
11
()
11
0
0
n
inn
i
ii
ii
n
PE
n n n
K
n
sx
x x e
e
e



-



2009-7-25
42
设随机变量 x1,x2,...,xn,...相互独立且服从同一分布,并且存在数学期望 a和方差 s2,
则 x1,x2,...,xn的算术平均数对于任一个正数 e,有
1
1
l im 0
n
i
x
i
Pa
n
xe


-

2009-7-25
43
今天无作业