第二章 随机变量及其数字特征
§2.1 随机变量和分布函数
一、 随机变量:
直观上看,所谓随机变量,就是我们在随机实验中测定的量。例如观察10只新生动物的性别,并计算其中雄性动物的数量X,显然X可能取值为0,1,…,10;但究竟取值为几,只能在实验结束时才知道。象这样在实验中所得到的取值有随机性的量,就称为随机变量。随机变量的特点就是当实验条件一定时,实验结果仍不确定。
上面所举的例子是离散型的随机变量,因为它只有有限个或可列个可能的取值。另外还有一大类随机变量,它们的取值是在某个区间中连续变化的,例如人的身高,体重,胸围…象这样的随机变量称为连续型随机变量。
二、 分布函数:
随机变量的取值是有随机性的,我们事先无法知道,但它的取值也是有规律性可循的,这种规律性就表现在各个值出现的频率上。象上面的例子,如果我们把大量的初生动物分为10只一组进行观察,那末在一般情况下X取值为0或10的机会是非常少的,而取4,5,6的机会会相当多。因此如果我们知道了离散随机变量取每个值的概率,那么我们对这个随机变量可以说知道得很清楚了,我们可以把这样的关系列成一张表:
X: 0 1 …… 10
P: P0 P1 …… P10
这样的表称为概率分布表,P称为概率函数,并记为:
P(X=x)=p(x)
显然概率函数应满足:对任意可能结果x,有
p(x)≥0, 且
这里的求和是对一切可能的结果进行的。
对于连续型随机变量来说,它的可能取值是不可列的,实际上它取到某一个确定值的可能性都为0,比如说人的体重,实际上不可能找到一个人体重为精确的100Kg而一点不差,这一方面是我们的测重手段不能无限精密,另一方面如果真的无限精密,重100Kg的人就找不到了。当然在实践中不会这样要求,我们关心的通常是某一范围内的人,如100±5Kg,100±0.5Kg、100±0.05Kg…等等,如果我们的研究越细致,我们所考虑的区间一般就越小。这样,采用类似微分的概念,我们就有:
称f(x)为随机变量X的密度函数,显然应有f(x)≥0,且可积:
而
P(a≤X<b)=
为X落在[a, b)中的概率。
定义:设X为一随机变量,称函数
F(x) = P(X<x) (-∞<x<+∞)
为X的分布函数。
这个定义适用于离散型随机变量,也适用于连续型随机变量。连续型分布函数也可表示为密度函数的积分:
显然有:
(1)
对于分布函数来说,它有如下的基本性质:
1) F(x)是不减函数,即:对任意b>a,有:
F(b)≥F(a)
2)
3) 左连续性:F(x-0)=F(x)
总结:我们研究随机变量的方法,大致有这样几种:
1. 分布列或分布表,它用于离散型随机变量,变量的一切可能取值就是样本空间的样本点,而分布列则给出了每个样本点对应的概率。
2. 密度函数,它与分布列相对应,用于连续型随机变量。它采用类似微分的概念,有了它通过积分就可以得到变量落入任何区间的概率。其性质为:
P(X=x)=0,
(分布列也有类似性质,只是求和代替了积分)
3. 为了统一起见,我们又引入了分布函数:
F(x)=P(X<x) (-∞<x<+∞)
它可用于任何随机变量。随机变量X落入任意区间[a, b)的概率为:
P(a≤X<b)= F(b)-F(a)
离散型:
连续型:
性质:1( 不减,
2(
3°左连续。
§2.2 离散型随机变量
上一节我们已经说过,对离散型随机变量X来说,我们感兴趣的不仅有它取哪些值xi,而且也要知道它取这些值的概率大小,即我们要知道:
P(X=xi) = p(xi), i=1,2,3,……
{ p(xi), i=1,2,3,……}称为随机变量X的概率分布,通常用下面的形式表示离散型随机变量X的概率分布:
它称为X的分布列或分布表。
而分布函数为:
F(x)=P(X<x)=
显然此时F(x)是一个跳跃函数,它与分布列是互相唯一确定的。因此都可用来描述X。
几种重要的离散型随机变量:
两点分布:分布列为:
其概率模型是进行一次随机试验,成功的概率为p, 失败概率为q=1-p,若令X为成功次数,则X服从两点分布。
二项分布:如果进行n次独立试验,仍用X记成功次数,则有:
称它二项分布,是因为它是n次二项式(p+q)n的展开式的第i+1项。
3 .超几何分布:对N件产品(其中有M件次品)进行不放回抽样检查,在n件样品中的次品数X显然是随机变量,它的分布是超几何分布:
0≤k≤n≤N, k≤M
它的计算是比较麻烦的,但若N>>n,它可以用二项分布来近似。
4.几何分布:连续进行独立实验,若以X记首次成功时的实验次数,则它是个随机变量,取值为1,2,……其概率分布称为几何分布:
g(k, p)=P(X=k)=qk-1(p k=1, 2, 3……
作为一种等待分布,几何分布有许多实际用途。它有一种十分有趣的性质,我们称为无记忆性。也就是说,如果已知前m次实验都未成功,第m+1次实验成功的可能性并不因此而发生变化。换句话说,你继续等待第一次成功出现的次数X仍服从原来的几何分布,因此就象是把以前的经历都忘掉了一样。这一性质可简单证明如下:
令B为前m次未成功,A为再等k次,则
仍服从原来的分布g (k, p)。
更有意思的是,可以从数学上严格证明:若X是取正整数数值的随机变量,且在已知X>k的条件下,X=k+1的概率与k无关,则X服从几何分布。证明如下:
证明:以p记上述条件概率,令qk=P (X>k) 及 pk=P (X=k)。
则 pk+1=qk-qk+1
而所求的条件概率
即: pk = (1-p)k-1·p,这正是几何分布。
5. 负二项分布(巴斯卡分布):它实际是几何分布的一种推广。它的模型是这样的:连续独立实验,以X记第k次成功时总的实验次数,则X服从负二项分布,它的分布为:
(注意X取值范围与二项分布的不同)
显然若令k=1,则为几何分布。
我们把它称为负二项分布,是因为可以把它看作
展开式中的各项系数。
它在生态学的研究中常有应用,许多生物种群的空间分布型都可以用它来描述,其参数k可作为聚集性的指标,k 越小,该生物的群集性越明显。
6. 泊松(Poisson)分布:在二项分布中,当事件出现概率特别小,(p→0),而实验次数又非常多(n→∞),使np→λ(常数)时,二项分布就趋近于泊松分布,为:
x=0,1,2,……
历史上,泊松分布是作为二项分布的近似引入的,但是目前它的意义已远远超出了这一点,成为概率论中最重要的几个分布之一。许多随机现象服从泊松分布,如电话交换台接到的呼叫数;汽车站的乘客人数;射线落到某区域中的粒子数;细胞计数中某区域里的细胞数……等等。可以证明,若随机现象具有以下的三个性质,则它服从泊松分布(以电话呼叫为例):
(1) 平稳性: 在(t0, t0+Δt)中来到的呼叫平均数只与时间间隔Δt的长短有关,而与起点t0无关。它说明现象的统计规律不随时间变化。
(2) 独立增量性(无后效性):在(t0, t0+Δt)中来到k个呼叫的可能与t0以前的事件独立,即不受它们的影响。它说明在互不相交的时间间隔内过程的进行是相互独立的。
(3) 普通性:在充分小的时间间隔内,最多来一个呼叫。即:令Pk(Δt)为长度为Δt的时间间隔中来k个呼叫的概率,则:
它表明在同一瞬间来两个或更多的呼叫是不可能的。显然具有这样特性的现象是相当普遍的。这一点从一个侧面说明了泊松分布的重要性。
如果改用细胞计数为例,则上述三条性质可描述如下:
(1)平稳性:在记数板上某一区域中观察到细胞平均数只与区域的大小有关,与这一区域位于板上的什么位置无关。这说明细胞出现在板上任何位置的可能性都是相等的。
(2)独立增量性:在某一区域中观察到k个细胞的可能性与区域外细胞的多少无关,不受它们的影响。这说明细胞出现在何处与任何其他细胞无关,细胞间既不会互相吸引,也不会互相排斥。
(3)普通性:每个细胞都可与其他细胞区分开来,不会有两个或几个细胞重叠在一起,使我们对细胞无法准确计数。
生物学中能够符合上述条件的事例是相当多的,如水中细菌数;从远处飘来的花粉、孢子数;荒地上某种植物初生幼苗数等等。关键是这些细菌,花粉,种子等互相间既不能有吸引力,也不能有排斥力,这样它们的分布就会服从泊松分布。反之,若细菌呈团块状出现,或植物长大后由于自疏现象而互相间保持一定距离,则它们的分布就不会是泊松分布了。
§2.3 连续型随机变量
连续型随机变量X可取某个区间[c, d]或(-∞,∞)中的一切值,且存在可积函数f (x),使
f(x) 称为X的(分布)密度函数,F(x) 称为X的分布函数。显然
这样,有了f (x),就可以计算X落入任何一个区间的概率,而
∴ P(X=C) = 0
即连续型随机变量取任意个别值的概率都是0。这与离散型随机变量是完全不同的,而且这还说明,一个事件的概率为0,并不一定是不可能事件。同样,一个事件概率为1,也不一定是必然事件。
例如,人的身高可认为服从连续分布,由前述说明,身高取某具体数值如1.8m的概率为0,这意味着人虽然很多,但不可能找到一个人身高精确地等于1.8m。另一方面,从人群中随意找一个人,他的身高总有一个具体值,设为1.7m。身高取1.7m的概率当然也为0,但现在却有一个人身高为1.7m,说明概率为0的事件不一定是不可能事件。同时,由于身高为1.7m的概率为0,因此身高不等于1.7m的概率为1。但由于前述至少有一人身高为1.7m,这样身高不等于1.7m的人中将不包括这个人,也就不可能是全空间,即不是必然事件了。
下面我们就来介绍一些连续型随机变量的例子:
1. 均匀分布:若a, b为有限数,则由下列密度函数定义的分布称为[a, b]上的均匀分布:
相应的分布函数为:
例:数字4舍5入后的误差分布,农药剂量在田间的分布,人工种植的果树的分布等。
2. 指数分布:指数分布的密度函数为:
其中λ>0,为常数
分布函数为:
指数分布经常用来作为各种“寿命”的分布,例如动物寿命,元件寿命,电话通话时间……等等,与几何分布类似,它也具有无记忆性:
即:已知寿命大于s 年,则再活t 年的概率与s 无关。因此也称指数分布是“永远年轻”的。可以证明,指数分布是唯一具有上述性质的连续型分布。
3. 正态分布:它的密度函数为:
其中σ>0,μ与σ均为常数。其分布函数为:
正态分布通常记为N(μ,σ2)。若μ=0,σ=1,则称为标准正态分布,记为N(0,1)。它的密度函数和分布函数分别用((x)和Ф(x)表示:
正态分布也可以作为二项分布的极限。当n(( 时,若q, p均不趋于0,此时的二项分布以N(np, npq)为其极限(注意若p或q趋于0,则二项分布以泊松分布为极限)。正态分布是概率论中最重要的分布。一方面,这是一种最常见的分布,例如测量的误差,炮弹的落点,人的身高,体重,同样处理的实验数据,……等等,都近似服从正态分布。一般说来,若影响某一数量指标的随机因素很多,而每个因素的影响又都不太大,则这个指标就服从正态分布。这一点我们还要在后边的定理中讲到。另一方面,正态分布在理论研究中也非常重要,后边的许多统计方法都是建立在随机变量服从正态分布的基础上的,所以对正态分布的特性一定要非常熟悉。
图2.1 正态分布密度函数曲线
图2.1为正态分布密度函数曲线。从图中可见,f(x) 在 x=μ=0 处达到最大值,整个图形关于直线x=μ对称,σ越大则曲线越平,σ越小,曲线越尖。
在实际应用中,我们更常使用的是标准正态分布曲线。它的密度函数曲线和分布函数曲线见图2.2。
(a) (b)
图2.2 标准正态分布密度函数曲线(a)和分布函数曲线(b)
从图2.2中可看出标准正态分布密度函数((x)的曲线有以下特征:
1( x=0时,((x) 达到最大值。
2( x取值离原点越远,((x) 值越小。
3( 关于y轴对称,即 ((x)= ((- x)
4( 在x=(1有两个拐点。
5( 曲线与x轴间所夹面积为1。
标准正态分布函数((x)的曲线是密度函数积分后的图形,它在x0点的取值为x0点左方密度函数曲线与x轴所夹的面积。分布函数曲线有以下特征:
1( 关于点(0,0.5)对称,该点也是它的拐点;
2( 曲线以y = 0和y = 1为渐近线;
3( ( (1.960) -((-1.960) = 0.95
4( ( (2.576) -((-2.576) = 0.99
后两个数值在统计推断中有重要应用,应熟记.
上述特征特别是密度函数( (x)的特征在计算函数值时常有应用,应结合图形直观印象加以熟记。
由于正态分布的重要性,它的密度函数及分布函数的数值都已被编成表格备查。这些表格用法与一般数学常用表用法相同,不再赘述。需要注意的是多数表中只给出x≥0的( (x)和((x)值,这是因为由它们的对称性,有:
因此可容易地算出x任意取值时( (x)和((x)的值。
由于上述表格均只限于标准正态分布表,对于服从一般正态分布的随机变量X,需先把它标准化,然后再查表。标准化方法如下:
设X~N(μ,σ2),令,则U ~ N(0, 1),即:
这样,只要先计算的值,就可以从标准正态分布表中查出所需要的数值了。
在查表过程中,下述一些关系式也是十分有用的。它们大多基于((x)的对称性,希望能在理解的基础上记忆它们,只有真正理解了才能牢固记忆且灵活应用。这些关系式包括:
令X~N(0,1),则:
例2.1 已知小麦穗长服从N(9.978, 1.4412),求下列概率:
(1)穗长<6.536cm,
(2)穗长>12.128cm,
(3)穗长在8.573cm与9.978cm之间。
解:
∴ 所求概率分别为:0.00842, 0.06811, 0.34134。
例2.2 从甲到乙地有两条路线,走第一条路所需时间服从N(50,100),走第二条路时间服从N(60,16),问:
(1). 若有70分钟可用,走哪条路好?
(2). 若只有65分钟呢?
解:走哪条路好可理解为走该条路在指定的时间内到达的可能性大。因此有:
(1):
显然F2(70) > F1(70),应走第二条路。
(2):
显然F1(65) > F2(65),应走第二条路。
这道题还是有一定实际意义的。第一条路可能较短,但堵车的可能性较大,因此所需时间有较大的变化范围;第二条路可能较长,但路况好,车辆少,因此所需时间变化不大。如果时间充裕,则应走第二条路,此时到达的可能性大;反之时间有限,就只能走近路碰碰运气了。
§2.4 随机向量
在有些情况下,我们所关心的随机现象需要用不只一个数值来描述,例如要全面反映一个人的健康情况,则需要血压,各种化验数据,X光透视或拍片,B超……等等。要反映温室中的环境条件,也要有温度、湿度,CO2浓度、光照强度等等。这样,当我们对类似的随机现象进行研究测量时,每个样本点所包含的将不再是一个数字,而是一组数字,它们组成一个向量:X=(X1,X2,…Xn)。其中每个数字有它特定的生物学意义,如X1代表温度,X2代表湿度…,而且每个数字均带有测量时不可避免的随机误差,因此都是随机变量。这样的向量就称为随机向量。与普通向量类似,其中包含的数字个数n称为向量的维数,每个数字称为向量的分量。显然普通随机变量可视为一维随机向量。为了方便,我们常常对随机变量与随机向量不加区分,而统一称为n维随机变量,其中n取值为自然数。
引入多维随机变量的概念主要是为了把它们作为一个整体来进行研究。在这样一个整体中,我们不仅能研究每个分量本身固有的性质,还可以研究各分量之间的关系,这在某些情况下是非常有用的。限于课时及数学基础,我们不准备对这一课题进行深入讨论,而只是介绍一些必要的概念。
一、多维随机变量与联合分布函数
与一维随机变量类似,多维随机变量也有离散型与连续型的区别。它们的取值都可视为n维空间中的点,不过离散型的概率集中在一些孤立的点上,而连续型的概率则分布在一些或大或小的区间内。对于离散型随机向量,我们同样不仅关心它能取哪些值,而且关心它取这些值的概率。因此我们仍可使用类似概率分布表的形式描述离散型随机向量,与一维随机变量的唯一区别就是它的取值不再是一个简单的数,而是一个向量。
例2.3 袋中装有4只白球和6只黑球,有放回摸球二次,令每次摸到白球记为1,摸到黑球记为0,则有如下的二维随机变量:
取值: (0,0) (0,1) (1,0) (1,1)
概率:
如果改为不放回摸球,则二维随机变量改为:
取值: (0,0) (0,1) (1,0) (1,1)
概率:
对于连续型随机向量,我们也可用类似一维的方法定义它的密度函数。以二维为例,则有:
同样与一维类似,我们可进一步定义多维情况下的分布函数:
定义:称n元函数
F(x1, x2, … xn)=P(X1<x1, X2<x2, … Xn<xn)
为n维随机变量(X1,X2,…Xn)的联合分布函数。
可以证明,这样定义的联合分布函数也有与一维类似的基本性质,如关于每个分量单调;关于每个分量左连续;以及
F(X1, X2, …, -∞, …Xn)=0
F(+∞, +∞, …, +∞)=1
如果知道了联合分布函数F,则可计算随机向量落入某一区间的概率(以二维为例):
P(a1≤X1<b1, a2≤X2<b2)= F(b1,b2) - F(a1,b2) - F(b1,a2) + F(a1,a2)
这一结果可用图2.1说明。由于网格部分被减掉了两次,因此须再加回来。
b2
a2
a1 b1
图2.3 二维概率的计算
例2.4 二维均匀分布:设Ω为R2中的有限区域,其面积为S,则由密度函数
定义的分布称为Ω上的均匀分布。
在第一章中我们曾介绍了采用几何概型的方法解决一些实际问题。那里的几何概型实际就是二维或三维的均匀分布。
例2.5 n维正态分布:*
设B=(bij)为n 阶对称矩阵,且>0, a=(a1, a2, …an), x=(x1, x2, …xn), 均为实向量,则密度函数
定义的分布称为n维正态分布,也称n元正态分布。n维正态分布可简记为N(a,B)。
显然多维连续分布的密度函数应为非负,且对全空间(即每一维均为从-∞至+∞)的积分应为1。
同样与一维情况类似,多维分布的分布函数与离散分布的概率分布表或连续分布的密度函数有以下关系:
离散:令 p(y1, y2, … yn)=P(X1=y1, X2=y2, … Xn=yn),则分布函数为:
连续:令f(y1, y2, …yn)为其密度函数,则分布函数为:
F(x1, x2, …xn) =
二、边际分布
前边已说过,我们引入多维随机变量的概念就是为了把它作为一个整体来研究,即不仅研究每个分量的性质,而且要研究各分量之间的关系。前述的联合分布就是描述多维随机变量这一整体的,而边际分布则是描述一个分量子集或一个个单独分量的。从这一角度看,有了联合分布应能推出所有边际分布;反之,即使有了所有的边际分布也未必能确定联合分布,因为边际分布只描述了一个个分量子集,但没有描述这些子集间的关系。为简单起见,我们以二维联合分布为例讨论它与其边际分布的关系。这些关系可以进一步推广到n维分布的场合。现在让我们重新看一下例2.3。
例2.3 袋中有4只白球和6只黑球,摸到白球记为1,摸到黑球记为0。以X1记第一次摸球的结果,X2记第二次摸球的结果,若为不放回摸球,则X1,X2的联合分布为:
取值:(0,0) (0,1) (1,0) (1,1)
概率:
如果我们现在只考虑X1的取值,不考虑X2的取值,则根据古典概型的计算公式,有:
同理,若只考虑X2的取值,则有:
这就是两个边际分布。上述联合分布与边际分布我们可统一写成表2.1的形式
表2.1 有放回摸球的概率分布
x1
x2
0
1
p2(x2)
0
1
p1(x1)
与上述类似,如果改为不放回摸球,则其概率分布变为表2.2。
表2.2 无放回摸球的概率分布
x1
x2
0
1
p2(x2)
0
1
p1(x1)
注意上述边际分布实际是联合分布各行、各列之和,即在联合分布中,固定X1取值,对X2的一切取值求和,则可得到X1的边际分布;再固定X2的取值,对X1的一切值求和,则可得到X2的边际分布。在连续的情况下,则是固定X1,对X2从-∞到+∞求积分,可得X1的边际分布;再固定X2,对X1从-∞到+∞求积分,可得X2的边际分布。
比较表2.1和表2.2可知,它们的两个边际分布是完全相同的,但联合分布则完全不同。这正说明联合分布中不仅包含了各分量的性质,而且包含了它们之间的联系,因此确实有必要把它们作为一个整体来研究。
三、随机变量的独立性。
在第一章中,我们介绍了事件独立性的概念。利用事件的独立性我们常常可以大大简化有关的计算。现在我们再来介绍一下随机变量的独立性。
定义:设F(x1, x2, …xn)为随机向量X= (X1, X2, …Xn)的联合分布函数,若对任意x1, x2, …xn,有:
F(x1, x2, …xn)= F1(x1)·F2(x2) … Fn(xn)
则称随机变量X1, X2, …Xn互相独立。其中F1,F2,…Fn分别为X1, X2, …Xn的分布函数。
对于离散型随机变量,独立性定义等价于对任意一组可能取值x1, x2, …xn,有:
P(X1=x1, X2=x2,… Xn=xn) = P1(X1=x1)·P2(X2=x2) … Pn(Xn =xn)
对于连续型随机变量,独立性定义等价于对一切x1, x2, …xn,有:
f(x1, x2, …xn)= f1(x1)·f2(x2) … fn(xn)
其中f为随机向量的联合密度函数,f1,f2,…fn分别为各分量的密度函数。
可以证明,若随机变量X1, X2, …Xn互相独立,则从中任意取出的一个子集合Xi1, Xi2, …Xim,也互相独立。它们的下标应满足:1≤i1<i2<…<im≤n。
从随机变量独立性的定义可知,它与事件独立性的定义是非常相似的。事件独立性是说交事件的概率等于事件概率的乘积,而随机变量独立是说联合分布函数可写成一串边际分布的乘积。因此只有在独立的情况下联合分布函数才会被边际分布函数所唯一确定。回想例2.3摸球的例子,由于有放回摸球各次结果是独立的,因此从它所构造出来的随机变量也是独立的;而无放回摸球前一次结果对第二次摸球有影响,它们不是独立的,因此从不放回摸球构造出的随机变量也不是独立的。随机变量的独立性是一个很重要的概念,我们以后要学习的各种统计方法基本上都是只能用于互相独立的随机变量。一般来说随机变量的独立性都是靠专业知识来保证,而不是验证它们的分布函数是否可写成乘积的形式。这一点与事件组的独立性也是十分相似的。
§2.5 随机变量的数字特征
以前我们都是用概率分布来描述随机变量的,这种描述虽然详尽,但却不能“集中”地反映出随机变量的变化情况和某些特征。例如有两个射手甲和乙:
击中环数 8 9 10
甲的概率 0.3 0.1 0.6
乙的概率 0.2 0.5 0.3
谁的成绩好呢?这恐怕难以一眼看出来,因此我们需要有更清楚直观地描述随机变量特征的方法。这些用来描述随机变量的概率分布特征的数字称为总体特征数,主要包括数学期望,方差和各阶矩。
一、数学期望
象上面的例题,实际是要求谁平均起来打中的环数高,设他们各打N枪,则甲乙的平均环数分别为:
甲:8×0.3N+9×0.1N+10×0.6N=9.3N
乙:8×0.2N+9×0.5N+10×0.3N=9.1N
因此甲的成绩好一些。
定义:设X为一离散型随机变量,它取值为x1, x2, x3 …,对应的概率为p1, p2, p3 …,若级数绝对收敛,则把它的极限称为X的数学期望或均值,记为E(X)。
反之,若不绝对收敛,则说X的数学期望不存在。
定义中要求级数绝对收敛,是因为各xi取值可以有正有负。在数学上可以证明一个无穷级数如果收敛而不绝对收敛,那么就可以通过重排它的各项次序而使它收敛到不同的值。对离散型随机变量来说,我们对它取值的排列顺序并无特别要求,因此级数若不绝对收敛,就意味着随机变量X的数学期望不唯一,此时我们只能认为它的数学期望不存在。
有了这个定义,我们就可以来求前面介绍过的一些分布的数学期望:
例2.6 两点分布:它的分布列为: X: 1 0
P: p q
∴E(X)=1×p+0×q=p
二项分布:
几何分布: Pk=qk-1 p, k = 1,2,…
泊松分布:
例2.7 普查某种疾病,需对N个人验血,若每人分别化验,共需要N次;若把k个人作为一组,混在一起化验,若阴性,则每组只需一次;若阳性,再逐个化验,此时每组需要k+1次化验。若每个人阳性的概率均为p,且互相独立,哪种方法较好?
解:显然k个人混合后阳性的概率为1-qk,此时每个人所需验血次数X为一随机变量,其分布列为:
∴
显然若就能减少化验次数。例如若取p=0.1,k=4,则,此时要用分组的方法平均可减少40%的工作量。显然p越小,此种方法越有利。若p已知,还可选择k使E(X)最小,此时最节省人力物力。如果在实际工作中采用此种方法,则应注意混合后当一组中只有一人阳性时仍可化验出来。若实际化验灵敏度达不到这一要求,化验结果可能出错。
对连续随机变量,则需采用下面的定义:
定义:设连续型随机变量X的分布密度函数为f(x), 当积分绝对收敛时,我们称它的极限为X的数学期望(或均值),记为E(X)。若积分不绝对收敛,则称X的数学期望不存在。
例2.8 求下列连续型随机变量的数学期望:
均匀分布:
正态分布:
(令 ,则 )
前一项被积函数为奇函数,所以积分值为0;后一项是标准正态分布的密度函数,积分值为1。因此有:
E(X)=μ
随机变量的函数的数学期望:
离散型:X的概率分布为:P(X=xi) = pi,, Y=g(X)为 X 的函数,则 Y 的期望为:
当然仍要求和式绝对收敛。
连续型:X的分布密度函数为:f(x): Y=g(X)为 X 的函数,则若积分绝对收敛,则称其值为Y=g(X)的数学期望,记为E(g(X))。
数学期望的性质和运算(C,K为常数):
性质: E(C)= C
E(X+C)= E(X)+ C
E(KX)= K·E(X)
E(KX+C)= K·E(X)+ C
证:令g(X) = KX+C,则:
X若为连续型,设f(x)为其密度函数,有:
X若为离散型:设P(xi)=pi,有:
其余各式均为此式的特例。
运算:
若X1,X2,… Xn期望均存在,则:
E(a1 X1+a2 X2+…+a nXn)=a1E(X1)+a2E(X2)+…+anE(Xn)
这个式子实际上说明均值是线性的,这一点对均值的计算是很有用的。
二、方差
随机变量的数字特征最重要的有两个,一个是前边讲的数学期望,它代表了随机变量的平均值;另一个就是方差,它代表了随机变量对其数学期望的离散程度。
定义:若E(X-E(X))2存在,则称它为随机变量的方差,并记为D(X),而称为X的根方差或标准差。
例2.9 证明:D(X)=E(X2)-[E(X)]2
证:D(X)=E(X-E(X))2
=E[X2-2X·E(X)+(E(X))2]
=E(X2)-2E(X) ·E(X)+[E(X)]2
=E(X2)-[E(X)]2
这是一个很重要的公式,在计算随机变量的方差时,我们常常用到它。
例2.10 现计算一些重要随机变量的方差:
两点分布: X: 1 0 E(X)=p
P: p q
D(X) = E[X-E(X)]2=(1-p)2·p+(0-p)2·q
= q2p+p2q = pq
二项分布:P(X=i)=pi=
(第二项是均值,令k=i-2)
∴ D(X) = E(X2)-[E(X)]2
= n(n-1)p2+np-n2p2
= np-np2
= npq
(注意离散分布方差计算中常用k2=k(k-1)+k的变换
几何分布:P(X=i)= pi = qi-1p, i=1,2,…… E(X)=
∴
泊松分布:
∴
均匀分布:E(X)=(a+b)/2
∴
正态分布:E(X)=μ
方差的性质:(C,K为常数)
证:只需证明最后一式:
三、协方差与相关系数
前面讲的数学期望和方差都是描述一个随机变量概率分布的某种特征的数值。对于随机向量来说,它的期望和方差一般就定义为各个分量的期望和方差,即有如下定义:
定义:随机向量X=(x1, x2, …xn)的数学期望为 (E(x1), E(x2),…E(xn)),方差为
(D(x1),D(x2),…D(xn)),其中E(xi)和D(xi)分别代表xi服从的边际分布的数学期望和方差。
这样定义的期望和方差对了解随机向量的特征有一定作用,但它不能反映各分量之间的联系,没有反映出随机向量作为一个整体的特征。为了反映这种分量之间的联系,还需要引入协方差与相关系数的概念。
定义:对两个随机变量X,Y,称E[(X-E(X))(Y-E(X))]为它们的协方差,记为COV(X,Y)。
对于离散型随机变量,有:
E[(X-E(X))(Y-E(Y))]=
其中p(xi, yj)=P(X=xi, Y=yj),为X,Y的联合概率分布。
对于连续型随机变量,有:
E[(X-E(X))(Y-E(Y))]=
其中f(x,y)为(X,Y)的联合分布密度函数。
可以证明,若X1,X2的方差存在,它们的协方差也存在。
定义:称为X1,X2的相关系数,记为r12。
相关系数就是标准化了的协方差,即标准化了的随机变量的协方差。
相关系数的性质:
对相关系数r,有:≤1
当=1时,意味着两随机变量有线性关系:(K,C为常数,K>0)
r=1, X1=KX2+C
r=-1, X1=-KX2+C
(2)若r=0, 则称X1与X2不相关。下列事实等价:
cov(X1,X2)=0
X1与X2不相关
E(X1·X2) = E(X1)·E(X2)
D(X1+X2) = D(X1)+D(X2)
证明:(i)与(ii)等价显然。
∵ cov(X1,X2) = E[(X1-E(X1) ·(X2 –E(X2))]
= E[X1X2-X1·E(X2)-X2·E(X1)+ E(X1)·E(X2)]
= E(X2X2)- E(X1)·E(X2)
∴ (i),(iii)等价
D(X1+X2) = E[X1-E(X1)+X2 –E(X2)]2
= E[(X1-E(X1))2+(X2 –E(X2))2+2(X1-E(X1)) (X2 –E(X2))]
= D(X1)+D(X2)+2cov(X1,X2)
∴ (i)与(iv)等价
若X,Y独立,则X,Y不相关,但逆不成立。
实际上,独立是说互相间没有任何影响,因此不存在任何函数关系;而不相关只说X,Y间没有线性关系,是否有非线性关系则不一定。
另外,期望和方差的运算也可推广到n个随机变量:
若X1,X2 …Xn不相关,则:
E(X1·X2 …Xn)= E(X1)·E(X2) …E(Xn)
D(X1+X2+…+Xn)= D(X1)+D(X2)+ …+D(Xn)
四、矩
前面所介绍的数学期望,方差,协方差等最常用的数字特征,都是某种矩。
原点矩:对正整数k, mk=E(Xk)称为随机变量X的k阶原点矩。数学期望就是一阶原点矩。
中心矩:对正整数k,Ck=E(X-E(X))k称为随机变量X的k阶中心矩。方差是二阶中心矩。
其他一些数学特征
中位数:
定义:中位数是同时满足P(X≥x)≥,P(X≤x)≥的x值。
注意:在离散型的情况下,中位数可能不唯一。
如:X: 1 5 7
P: 0.1 0.4 0.5
中位数为[5,7]中任意数。
众数:
定义:若X为离散型,则使P(X=xi)=pi达到最大值的xi称为众数;若X为连续型,则使其密度函数f(x)达到最大值的x称为众数。
在上面的例子中,众数为7。显然众数也可能不唯一。
变异系数:
由于方差,标准差的大小均与所取的单位有关,不能客观反映随机变量本身的特征,我们引入变异系数的概念:
定义:令,称为随机变量X的变异系数。
这是一个没有单位的数,使用它可以更好地直观比较各随机变量的离散程度,但一般不用于统计检验。
偏态系数(偏度):
定义:三阶中心矩除以标准差的立方称为随机变量的偏态系数,记作CS。即:
峰态系数(峭度)
定义:四阶中心矩除以标准差的4次方再减3,称为峰态系数,记作Ce。即:-3
Ce>0,密度函数图形尖;Ce<0,密度函数图形平。
正态分布的偏度和峭度均为0,这一性质常用于检验一个观测到的分布是否服从正态分布。
§2.6 大数定律与中心极限定理
如果一列随机变量X1,X2,…Xn互相独立,且有相同的边际分布函数,则称它们为独立同分布的随机变量 。连续掷币,有放回摸球等许多实验都可产生独立同分布随机变量列。
定义:称随机变量列是相互独立的,若对任何的x1,x2,…xn,有:
F(x1,x2,…xn)= F1(x1) ·F2(x2) ·…·Fn(xn)
其中F1,F2 ,…Fn分别为X1,X2,…Xn的边际分布函数,而F为其联合分布函数。即:
对离散型: P(X1= x1,X2 =x2,…Xn = xn) = P(X1= x1)·P(X2 =x2)…P(Xn = xn)
对连续型: f(x1,x2,…xn) = f1(x1) ·f2(x2) ·…·fn(xn)
若各Xi还有共同的分布函数,则称它们为独立同分布的随机变量。
大数定律:X1,X2,…Xn…是独立同分布的随机变量,且数学期望存在。设E(Xi)=a,则对任意ε>0,有:
其中
中心极限定理:设X1,X2,…Xn…是独立同分布的随机变量,且E(Xi),D(Xi)存在,则对一切实数a<b,有:
其中Sn= X1+X2+…+Xn。
这两个定理是许多数理统计方法的基础,它们的证明超出了本课程的范围。大数定律实际是说,只要实验次数足够大,样本均值就会趋近于母体的期望;而中心极限定理则证明许多小的随机因素的叠加会使总和的分布趋近于正态分布。正因为如此,统计中才能把绝大多数样本看成是取自正态母体。
另外,中心极限定理还说明不管原来的母体分布是什么,只要n足够大,即可把样本均值视为服从正态分布。
作业:
育种中,已知采用某种诱变方法后基因发生突变的概率为2.5×10-7,求在104个基因中至少有一个发生突变的概率。
在某孤立区域中捕获某种生物M只,标记后放回。第二次又捕获该生物n只,其中有k只有标记,试估计该种群个体数可能性最大的值。
某实验成功的概率为0.8,现连续实验,直到成功为止。求所需实验次数X的概率分布,并求分布函数F(∞)的值。
一批报废的零件,其中混有5%的合格品。现需从中选出5只合格品备用,试求所需检验次数的概率分布。
已知某溶液每ml所含细菌数服从参数为8的泊松分布,现任取1 ml 检验,问:
恰有5个细菌的概率。
含有细菌数大于5的概率。
设昆虫产K个卵的概率为,又设一个虫卵能孵化为虫的概率是,若卵的孵化是独立的,问此昆虫下一代有L条虫的概率。
两袋种子,各N粒,每次等可能地选一袋从中取出一粒播种,直到发现某袋种子用完为止。求此时另一袋中还剩有r颗种子的概率(r≤N)。
乘以什么常数可使变成概率密度函数?写出它的分布函数。
设随机变量X的分布函数为:
求:(1)P(X≤2),P(X>3);
(2) X的密度函数f(X)。
已知X~N(5,16),求P(X≤10),P(X≤0),P(0≤X≤15),P(X≥5),P(X>15)的值。
已知X~N(0,25),求x0,使得:P(X≤x0)= 0.025,P(X≤x0)= 0.01,P(X<x0)= 0.95,P(X>x0)=0.90。
小麦株高服从N(63.33,2.882),求下列概率:
株高小于60cm;
株高大于69cm;
株高在62—64 cm之间;
株高落在μ±1.96σ之间;
株高在多少cm以上的占全体的95%?
求超几何分布、负二项分布的数学期望和方差。
求指数分布的期望和方差。
设轮船横向摇摆的振幅X的概率密度为:
(x>0)
求:(1)A=?
(2)遇到大于其振幅均值摇摆的概率是多少?
(3)X的方差。