第二章 离散型随机变量 §2.1 —维随机变量及分布列 教学目的要求: 使学生掌握一维离散型随机变量的概念及其分布、掌握二项分布(二点分布)、普哇松分布及它们之间的联系,会应用这些概念、分布求分布列. 教 材 分 析 : 1.概括分析:概率论所要考察的是与各种随机现象有关的问题,并通过随机试验从数量的侧面来研究随机现象的统规律性.为此,就有必要把随机试验的每一个可能的结果与一个实数联系起来.随机变量正是为适应这种需要而引进的。随机变量实质上是定义在样本空间={e}上的一个实值单值函数X(e).从此,对随机事件的研究转变为对随机变量的研究,通过随机变量将各个事件联系起来,进而去研究随机试验的全部结果.而且,随机变量的引入,使我们有可能借助于微积分等数学工具,把研究引向深入.一维离散型随机变量是随机变量中最简单最基本的一种. 2.教学重点:一维离散型随机变量的概念及其分布列与分布函数. 3.教学难点:求一维离散型随机变量的分布列、分布函数. 教 学 过 程 : 在第一章里,我们研究了随机事件及其概率,细心的读者可能会注意到,在某些例子中,随机事件和实数之间存在着某种客观的联系.例如,在贝努里概型这一节中,曾经讨论过“在n重贝努里试验中,事件A出现k次”这一事件的概率,如果令 =n重贝努里试验中事件A出现的次数 则上述“n重贝努里试验中事件A出现k次”这个事件就可以简单地记作(=k),从而有 P(=k)=pkqn-k. 并且所有可能取到的数值也就是试验中事件A可能出现的次数:0,1,…,n.在另一些例子中,随机事件与实数之间虽然没有上述那种“自然的”联系,但是我们常常可以人为地给它们建立起一个对应关系.例如抛掷一枚均匀的硬币,可能出现正面,也可能出现反面,现在约定 若试验结果出现正面,令=1, 若试验结果出现反面,令=0, 这时就有: {试验结果出现正面}=(=1), {试验结果出现反面}=(=0). 在上面的讨论中,我们遇到了两个变量:和,这两个变量取什么值,在每次试验之前是不能确定的,因为它们的取值依赖于试验的结果,也就是说它们的取值是随机的.人们常常称这种变量为随机变量,由前面的两个例子可知,有了随机变量,至少使随机事件的表达在形式上简洁得多了.但是这个好处毕竟只是形式上的,在以后的讨论中,大家会看到引入“随机变量”这个概念还有更为深远的意义. 在上述第一个例子中,对每一个试验结果,“自然地”对应着一个实数,而在第二个例子中,这种对应的关系是人为地建立起来的.由此可见,无论是哪一种情形,所谓随机变量,不过是试验结果(即样本点!)和实数之间的一个对应关系,这与数学分析中熟知的“函数”概念本质上是一回事.只不过在函数概念中,函数f(x)的自变量是实数x,而在随机变量的概念中,随机变量()的自变量是样本点.因为对每一个试验结果,都有实数()与之对应,所以,()的定义域是样本空间,显然值域是实数轴.此外,重要的一点是,虽然在试验之前不能肯定随机变量()会取哪—个数值,但是对于任一实数a,我们可以研究{()=a}发生的概率,也就是()取值的统计规律.在这一章里我们先研究一类比较特殊的随机变量. 一、离散型随机变量的概念: 定义2.1 定义在样本空间上,取值于实数域R,且只取有限个或可列个(所谓“可列个”值,是指这个变量所取的值可依某种次序一一列举,排成一列例如自然数全体就是可列的)值的变量=(),称作是—维(实值)离散型随机变量,简称为离散型随机变量. [例1] 设={某无线电厂80年一季度出厂的12叶电视机},对∈,令 ()=在一年中出故障的次数 则()是上的一个一维离散型随机变量, ()的可能取值范围为(0,1,2,…).在试验(即取定某一台电视机)之前,并不能断定会取哪一个值,但是我们可以知道(=0)、(=1)、…这些事件发生的概率(也就是在总体中所占的比例).事实上,可以把这些电视机一年中发生故障次数的分布情况列成下表:  a1 a2 …  pi p1 p2 …  这对研究和改进电视机的质量当然是很有用的材料. 二、随机变量的分布列: 1.分布列的定义: 一般来说,如果离散型随机变量的可能取值为ai(i=1,2,…),也就有了相应的取值ai的概率P(=ai)=pi,人们常常习惯地把它们写成这种表格的形式: 并且称(1)或(1’)为随机变量()的分布列,也称为分布律,有时就简称为分布. [例2] 在n=5的贝努里试验中,设事件A在一次试验中出现的概率为P,令  0 1 2 3 4 5  pi q5 5pq4 10p2q3 10p3q2 5p4q p5   =5次试验中事件A出现的次数 则由(1)知: P(=k)=pkq5-k, 0≤k≤5 于是, 的分布列为: 2.分布列的性质: 由概率的性质可知,任一离散型随机变量的分布列{Pi}都有下述两个性质: (1)Pi≥0,i=1,2,…; (2)=1. 反过来,任意一个具有以上两个性质的数列的{Pi},都有资格作为一个随机变量的分布列.分布列不仅明确地给出了(=ai)的概率,而且对于任意的实数a<b,事件(a≤≤b)发生的概率均可由分布列算出,因为 (a≤≤b)= 于是由概率的可列可加性有: P(a≤≤b)== 其中={i:a≤ai≤b},即使对R中更复杂的集合B,也有 P(∈B)== 其中I(B)={i:ai∈B}.由此可知,()取各种值的概率都可由它的分布列通过计算而得到,这件事实常常说成是:分布列全面地描述了离散型随机变量的统计规律. 三、几种特殊分布: 1.二项分布: 回到本节开始时的n重贝努里试验的例子,已知有 pk=P(=k)=pkqn-k, 0≤k≤n 容易验证: (1) pk>0, 0≤k≤n; (2) ==(p+q)n=1. 在这个例子中,大家可以注意到 , 0≤k≤n恰好是二项式(p+q)n的展开式中的第k+1项,由此人们给分布列(0≤k≤n)起了一个名字,称它为二项分布,并且常常记   0 1  pi q p  一个随机变量的分布列如果是二项分布,也称该随机变量服从二项分布.所以上述例子中的是服从二项分布b(k;n,p)的随机变量. 在二项分布中,如果n=1,那么k只能取值0或1,这时显然有 p0=q, p1=p  0 1  pi 1/2 1/2  也可以表示成右表: 这个分布列称为0—1分布或二点分布,它是二项分布的特例,本节开始时讨论过的抛掷均匀硬币的例子中,随机变量的分布列为: 它就是0—1分布当p=1/2时的特例. 在第一章里曾经提到,必然事件可以作为随机事件的极端情形来看待,相应地,在上有定义的恒等于常数a的变量(虽然它的取值已经失去随机性),也可以看作为随机变量的极端形.这时,随机变量的分布列为 P(=a)=1 人们称这个分布为单点分布或退化分布. 2.几何分布: 以上是一些只取有限个值的随机变量的例子,下面进一步讨论取可列个值的随机变量的例子. [例3] 在一个贝努里试验中,每次试验成功的概率为p,失败的概率为q=1-p(0<p<1),设试验进行到第次才出现成功,求的分布列. [解] 由例1.26可知 P(=k)=pqk-1,k=1,2,… 容易看到pqk-1(k=1,2, …)是几何级数的一般项,于是人们称它为几何分布,并记pqk-1=g(k,p). 3. 普哇松(Poisson)分布: 观察某电话局在单位时间内收到用户的呼唤次数、某公共汽车站在单位时间里来站乘车的乘客数、宇宙中单位体积内星球个数、耕地上单位面积内杂草的数目等,如果相应的变量用 表示,那么实践表明的统计规律近似地为: P(=k)=,k=0,1,2, … 其中>0是某个常数,易于验证有 (1) P(=k)>0,k=0,1,2, …; (2) . 这个分布称作是参数为的普哇松(Poisson)分布,并常常记作P(k;). [例4] 在一个放射性物质的试验中,共观察了N=2608次,每次观察的时间间隔为7.5秒,并记录到达指定区域内的质点数,若观察到有k个质点的次数为Nk,则Nk/N表示有k个质点的频率,而P(k;3.870)表示参数=3.870, =k的概率,下表给出了两者的对照值. k Nk/N P(k;3.870)  0 0.0219 0.0209  1 0.0778 0.0807  2 0.1469 0.1562  3 0.2013 0.2015  4 0.2040 0.1949  5 0.1564 0.1509  6 0.1047 0.0973  7 0.0533 0.0538  8 0.0172 0.0260  9 0.0104 0.0112  K≥10 0.0061 0.0066  从表中可以看到,理论值(概率)和观察值(频率)两者都符合得相当好的.事实上,在一些相当直观和合乎实际情况的前提下,人们已经证明这个随机变量的分布列是一个普哇松分布,我们在稍后将给出一个比较直观的论证.由于许多实际问题中的随机变量都可以用普哇松分布来描述,从而使得普哇松分布对于概率论的应用来说,有着很重要的作用;而概率论理论的研究又表明普哇松分布在理论上也有其特殊重要的地位,这里我们只就二项分布与普哇松分布之间的关,人们已经证明这个随机变量的分布列呈一个普哇松分布,我们在稍后将给出一个比较直的论证.由于许多实际问题中的随机变量都可以用普哇松分布描述,从而使得井哇松分布对子概率论的应用来说,有着很重要作用;而概率论理论的研究又表明井哇松分布在理论上也有其殊重要的地位,这里我们只就二项分布与普哇松分布之间的关系证明下述定理. 四、二项分布的普哇松逼近: 定理2.1(普哇松定理)在n重贝努里试验中,事件A在一次试验中出现的概率为pn(与试验总数n有关),如果当n→时,npn→(>0为常数),则有 , k=0,1,2, … 证明 记npn=n,则 b(k;n,pn)=(1-pn)n-k= = 对于任一固定的k,显然有 ,  还有  从而  对任意的k(k=0,1,2,…)成立,定理得证. 这个定理有什么用呢?首先,它可以用来作近似计算.在二项分布中,要计算b(k;n,p)=pk(1-p)n-k,当和都比较大时,计算量是令人烦恼的,如果这时np不太大(即p较小),那么由普哇松定理就有 b(k;n,p)≈ 其中=np,而要计算,有专用的普哇松分布表可查(见本书附录),这就方便多了. k 按b(k;n,p)=pk(1-p)n-k计算 按计算   n=10 p=0.10 n=20 p=0.05 n=40 p=0.025 n=100 p=0.01 =np=1  0 0.349 0.358 0.363 0.386 0.368  1 0.385 0.377 0.372 0.370 0.368  2 0.194 0.189 0.186 0.185 0.184  3 0.057 0.060 0.060 0.061 0.061  4 0.011 0.013 0.014 0.015 0.015  >4 0.004 0.003 0.005 0.003 0.004  对于np=1(n=10,20,40,100)的四种情形,表给出了直接按二项分布计算以及按上式利用普哇松分布计算所得的值. 由表2.2可以看到,两者的结果是很接近的,而且当n越大时,近似的程度越好.下面是利用式作近似计算的一个具体例子. [例5] 己知某种疾病的发病率为1/1000,某单位共有5000人,问该单位患有这种疾病的人数超过5的概率为多大? [解] 设该单位患有这一种疾病的人数为,则 P(>5)= 其中b(k;5000,0.001)=0.001k0.9995000-k,这时如果直接计算P(>5),计算量很大.由于n很大,p很小,这时np=5000×0.001=5不很大,可以利用上述普哇松定理.取=np=5,由公式就有P(>5)=1-P(≤5)≈1-0.616 于是P(>5)≈1-0.616=0.384 在上述例子中,由于np不太大(即p较小),我们利用了普哇松定理作近似计算,比较方便地解决了问题.细心的读者也许要问,如果np也很大时怎么办呢?我们将在第四章中讨论这个问题.由普哇松定理,还可以说明前述的电话呼唤次数,来到公共汽车站的乘客人数等变量为什么可以用普哇松分布来描述.作为一个例子,我们现在来解释在一群母鸡中,每只母鸡的年产蛋量(是一个随机变量)可以用普哇松分布来描述.可以设想,把一年时间分成n等分,取n充分大,每一个等分的间隔⊿T=1/n(年)就很小(比方说小于一天):  于是在时间间隔⊿t内,母鸡或者下一个蛋,或者一个也不下(因为时间间隔很小,不会下两个或两个以上的蛋).如果在一个时间间隔内下一个蛋的概率是p,并且在各个时间间隔内是否下蛋假定是相互独立的,这时就构成了一个贝努里概型,于是在一年内下k个蛋的概率就是b(k;n,p),再利用上述的普哇松定理可得 P(=k)≈,k=0,1,2, … (其中=np),由此可知,母鸡的年产蛋量的确可以用普哇松分布来描述.类似的问题在生物学中可以说是比比皆是,这充分说明了概率论与数理统计在生物学中是有广泛的应用的.如同“母鸡下蛋”的论证,可以说明一家商店(每月)出售某种(非紧张)商品的件数也是可以用普哇松分布来描述的,知道了这一点又有什么用呢?不妨来研究一下下面的问题. 一家商店采用科学管理.为此,在每一个月的月底要制订出下一个月的商品进货计划.为了不使商店的流动资金积压,月底的进货不宜过多,但是为了保证人民的生活需要和完成每月的营业额,进货又不应该太少!这样的矛盾怎样才能合理的解决呢?那就请看下面的例子. [例6] 由该商店过去的销售纪录知道,某种商品每月的销售数可以用参数=10的普哇松分布来描述,为了以95%以上的把握保证不脱销,问商店在月底至少应进某种商品多少件? [解] 设该有店每月销售某种商品件,月底的进货为a件,则当(≤a)时就不会脱销,因而按题意要求为 P(≤a)≥0.95 因为已知服从=10的普哇松分布,上式也就是 ≥0.95 由附录的普哇松分布表知 ≈0.9166<0.95, ≈0.9513>0.95 于是,这家商店只要在月底进货某种商品15件(假定上个月没有存货),就可以95%以上的把握保证这种商品在下个月内不会脱销. §2.2 多维随机变量、联合分布列和边际分布列 教学目的要求: 使学生在掌握一维离散型随机变量的基础上,通过学习掌握n维随机变量及其联合分布与边际分布的求法. 教 材 分 析 : 1.概括分析:本节是在一维随机变量基础上,进一步讨论多维随机变量,主要是以二维随机变量的讨论为重点,讨论了基本概念性质,边际分布,联合分布等问题及应用. 2.教学重点:二维离散型随机变量的概念、性质、联合分布与边际分布. 3.教学难点:二维离散型随机变量的分布及其应用. 教 学 过 程 : 在上一节中我们讨论了一维随机变量,已经知道所谓一维随机变量无非是随机试验的结果和一维实数之间的某个对应关系.但在许多实际问题中,对于每一个试验结果,往往同时对应有一个以上的实数值.如在例2.1中,对每一台出厂的电视机来说,除了“一年中发生故障次数”以外,还可以考察“一年中实际工作的小时数”、“一年中损坏的元件数”等数据.一般地说,每个试验结果可以有n个数值与之对应,这时就称这种对应关系是一个n维随机变量,也称为n维随机向量.如同§2.1中所给出的一维离散型随机变量的定义,现在给出n维离散型随机变量的定义. 一、n维随机向量: 定义2.2设1,2,…,n是样本空间上的n个离散型随机变量,则称n维向量(1, 2,…, n,)是上的一个n维离散型随机变量或n维随机向量. 如同数学分析中大家所熟悉的那样,从一维到多维会增添许多新的问题,为了叙述和学习的方便起见,下面着重讨论二维的离散型随机变量. 二、联合分布列: 1.定义: 设(,)是一个二维离散型随机变量,它们一切可能取的值为(ai,bj),i,j=1,2,…,令 pij=P(=ai,=bj),i,j=1,2, … 称(pij;i,j=1,2,…)是二维离散型随机变量(,)的联合分布列. 2.性质: 如同一维时的论述,容易证明二维联合分布列具有下面三个性质: 非负性:pij≥0,i,j=1,2,…; 规范性:=1; 边际规范性:P(=ai)==pi·且P(=bj)==p·j 其中(1)、(2)是显然的,现在验证(3).由联合分布列的定义及全概率公式有 P(=ai)=P{(=ai)∩[]}=P{} == 同理可得: P(=bj)= 如果记=pi· , =p·j,即可得到(3). 三、边际分布列:   b1 b2 … pi·  a1 a2  p11 p12 … p21 p22 …    p1· p2·   p·j p·1 p·2 …   与一维的情形相似,人们也常常习惯于把二维离散型随机变量的联合分布列写成下表的形式. 由右表可以看到在联合分布列(pij)的右方多了一列,它是把每一行中的pij对j相加而得到的pi.,由(2.17)知道,它就是的分布列;相应地在联合分布列(pij)的下面,也增加了一行,它是把每一列中的pij对i相加而得到的p.j,恰好是的分布列.在这样的表示方式中, 和的分布列的位置就在(,)的联合分布列的边上,因而人们常常形象地称和的分布列是(,)联合分布列的边际分布. 四、应用举例:   0 1 2 3 pi·  0       1    0   2   0 0   3  0 0 0   p·j       现在看一个比较简单的例子. [例1] 把三个相同的球等可能地放人编号为1,2,3的三个盒子中,记落入第1号盒子中的球的个数为,落入第2号盒子中的球的个数为,则(,)是一个二维随机变量,其中和的可能取值为0、1、2、3.现在来找(,)的联合分布列.由条件概率的定义易知有 pij=P(=i,=j)=P(=i|=j)·P(=j), 0≤i+j≤3 这时显然有 P(=j)=,0≤j≤3 P(=i|=j)==,0≤i+j≤3 于是pij==,0≤i+j≤3 而当i+j>3或i+j<0时显然有 pij=0. 对i,j=0,1,2,3,把上面计算的结果都列在上表中. 五、联合分布列与边际分布列的关系: 由前面的讨论和例2.7的计算中,都可以看出来,如果知道了二维随机变量(,)的联合分布列,那么这时和的边际分布列即可由联合分布列求出,这件事实直观上是容易理解的,因为(,)总体的规律性(即联合分布列)如果确定了,那么它的个别分量的规律性(即边际分布列)当然也确定了.这里,有的同学可能会提出一个问题:如果反过来已知和的边际分布列,能不能由此决定二维随机变量(,)的联合分布列呢?请先看下述例子. [例2] 把3个白球和3个红球等可能地放人编号为1,2,3的三个盒子中,记落入第1号盒子中的白球个数为,落入第2号盒子中的红球个数为,则(,)是一个二维随机变量.现在来讨论(,)的联合分布列和边际分布列. 显然有 P(=i)=P(=i)=, i=0,1,2,3 这时,由事件(=i)和(=j)的独立性可得 pij=P(=i,=j)=P(=i)·P(=j)=, i,j=0,1,2,3 由此便得全部pij之值并可列成下表.   0 1 2 3 pi·  0 · · · ·   1 · · · ·   2 · · · ·   3 · · · ·   p·j       现在,比较一下例1的表和例2的表,立即可以发现,两者有完全相同的边际分布,而联合分布列却是不相同的.由此可知,由边际分布列并不能唯一地确定联合分布列,事实上,二维随机变量(,)的联合分布列的确含有比边际分布更多的内容.为理解这一点,不妨再回顾—下例1和例2.在例1中(一般情况也是如此),有 pij=P(=i,=j)=P(=i|=j)P(=j) 而在例2中,由于事件(=i)和(=j)是独立的,这个时候的条件概率 P(=i|=j)=P(=i), 从而有 pij=P(=i, =j)=P(=i)P(=j) 所以尽管两者有相同的边际分布,却由于与之间相互关系的不同而导致它们的联合分布列不相同.由此可知,( ,)的联合分布列还包含有与之间相互关系的内容,这是它们的边际分布列所不能提供的.因而对单个随机变量与的研究并不能代替对二维随机变量(,)整体的研究. 六、独立性: 现在,例2的情形可能会使大家感兴趣.在这个例子中,由于事件(=i)和(=j)是独立的,使得联合分布列和边际分布之间有着非常简单而且自然的关系: P(=i, =j)=P(=i)P(=j) 这时,称随机变量和是独立的.一般地说,就有下述定义. 定义2.3设离散型随机变量的可能取值为ai(i=1,2,…),的可能取值为bj(j=1,2,…),如果对任意的ai,bj,有 P(=ai,=bj)=P(=ai)P(=bj) 成立,则称离散型随机变量和相互独立. 由此可知例2中的随机变量和是相互独立的.在这个例子中, 取什么值和取什么值两者之间确实是互不影响的,所以称它们“相互独立”是可以理解的.现在不难把独立性的概念推广到多个离散型随机变量的场合,这就是下面的定义. 定义2.4设1,…, n是n个离散型随机变量, i的可能取值为aik(i=1,…,n;k=1,2,…),如果对任意的一组(,…, ),恒有 P(1=,…,n=)=P(1=)…P(n=) 成立,则称1,…,n是相互独立的. [例3] 在n重贝努里试验中,令 , 则i(1≤i≤n)的可能取值为1或0,对ai=1或0(1≤i≤n),容易验证有 P(1=a1,…, n=an)=P(1=a1)…P(n=an) 成立,所以1,…,n是相互独立的随机变量. §2.3 随机变量函数的分布列 教学目的要求: 使学生掌握随机变量函数的概念及其分布列的求法. 教 材 分 析 : 1.概括分析:本节是对随机变量的进一步讨论,通过随机变量的单值函数也是随机变量的这一性质,更广泛地讨论随机变量函数的分布列. 2.教学重点:随机变量函数的分布列. 3.教学难点:随机变量函数的分布列. 教 学 过 程 : 一、导入: 在实际问题中,不仅要研究随机变量,往往还要研究随机变量的函数.例如某剧院每场演出所售出的门票数是—个随机变量,而票房的收入就是售出门票数的函数(如果票子只有一种价格);又如在分子物理学中,已知分子的速度是一个随机变量,这时分子的动能,也是随机变量的一个函数.下面讨论一个实际例子. [例1] 进口某种货物n件,每件价值a元.按合同规定,如果在n件货物中每发现一件不合格品,则出口方应赔偿2a元.易知,n件货物中的不合格品的件数是一个随机变量,而出口方应赔偿的钱数=2a·又是一个随机变量.如果每件货物可能为不合格品的概率是p,则由§2.1知 P(=k)=b(k;n,p)=pkqn-k, 0≤k≤n 其中q=1-p,这是一个二项分布.因为每出现k件不合格品即当=k时,赔款数就是2ak,即=2ak;反过来,如果赔款数为2ak,则不合格品数一定为k.所以事件“=k”等价于事件“=2ak”,也就是 (=2ak)=(=k), 0≤k≤n 从而 P(=2ak)=pkqn-k, 0≤k≤n 于是的分布列由的分布列所完全决定. 二、一维离散型随机变量函数: 对一般的情形,若是一个离散型随机变量,f(x)是实变量x的单值函数,则当只取有限个或可列个值时,=f()也只取有限个或可列个值.如果的可能取值为bi(i=1,2,…),令 Bi={aj:f(aj)=bi} 则有 (=bi)=(∈Bi) 于是 P(=bi)=P(∈Bi)=, i=1,2,… (*) 所以的分布列由的分布列完全决定. [例2] 设是参数为的普哇松分布的随机变量,又 f(x)= 试求=f()的分布列. [解] 易知的可能取值为1、0、-1,并由(*)可得 P(=1)== P(=0)=P(=0)=e-1 P(=-1)== 三、二维离散型随机变量的函数: 上面讨论了单个随机变量的函数,很自然的还可以进一步讨论多维随机变量的函数,这里仍着重讨论二维随机变量的函数. 设(,)是一个二维离散型随机变量,f(x,y)是实变量x和y的单值函数,这时=f(,)仍然是一个离散型的随机变量.设,,,的可能取值分别为ci,aj,bk(i,j,k,=1,2,…),令 Ci={(aj,bk):f(aj,bk)=ci} 则有 P(=ci)=P{(,)∈Ci}= 利用这个公式,现在来解决下述问题. [例3] 设、是两个独立的随机变量,它们分别服从参数为1和2的普哇松分布,求=+的分布列. [解] 由与的独立性并利用上式可得 P(=k)=== =, k=0,1,2,… 由上述计算可知, 也是一个服从普哇松分布的随机变量,它的分布的参数1+2恰是与的分布参数1、2之和.所以两个独立的普哇松分布随机变量的和仍是一个普哇松分布的随机变量,且其参数为相应的随机变量分布参数的和.这个事实通常称作普哇松分布对加法具有封闭性,或称普哇松分布具有可加性. §2.4 数学期望的定义及性质 教学目的要求: 使学生掌握数学期望的概念及其性质,并能根据实际总是问题求相应的数学期望. 教 材 分 析 : 1.概括分析:本节是讨论描述离散型随机变量的数字特征.数学期望是随机变量的一类很重要的数字特征,它较集中地反映了随机变量变化的一些平均特征,容易求得;同时具有明确的概率意义,又有良好的性质.所以它在概率论与数理统计中有很重要的地位. 2.教学重点:数学期望的定义及性质、应用. 3.教学难点:数学期望的性质. 教 学 过 程 : 一、导入: 日走时误差(秒) -2 -1 0 1 2 3 4  只 数(Nk) 3 10 17 28 21 16 5  我们已经知道离散型随机变量的分布列全面地描述了这个随机变量的统计规律,但在许多实际问题中,这样的“全面描述”有时并不使人感到方便.举例来说,已知在一个同一品种的母鸡群中,一只母鸡的年产蛋量是一个随机变量,如果要比较两个品种母鸡的年产蛋量,通常只要比较这两个品种的母鸡的年产蛋量的平均值就可以了.平均值大就意味着这个品种的母鸡产蛋量高,当然是“较好”的品种,这时如果不去比较它们的平均值,而只看它们的分布列,虽然“全面”,却使人不得要领,既难以掌握,又难以迅速地作出判断.这样的例子可以举出很多:例如要比较不同班级的学习成绩,通常就是比较考试中的平均成绩;要比较不同地区的粮食收成,一般也只要比较平均亩产量等.既然平均值这么有用,那是值得花力气来研究一番的.现在,先看一个例子. [例1] 某手表厂在出厂产品中,抽查了N=100只手表的日走时误差,其数据如下: 这时,抽查到的这100只手表的平均日走时误差为 =1.22秒/日 由第一章知道,其中的Nk/N是“日走时误差为k秒”这—事件的频率,可记作fk,于是 平均值=. 如果另外再抽验100只手表,那么每作一次这样的检验,就得到一组不同的频率,也就有不同的日走时误差的平均值.由第一章中关于频率和概率关系的讨论可知,在求平均值时,理论上应该用概率pk去代替上述求和式中的频率fk,这时得到的平均值才是理论上的(也是真的)平均值,这个平均值,称为数学期望或简称为期望(或均值).如果随机变量为,它的数学期望记作E. [例2] 若随机变量服从二项分布b(k;n,p),试求它的数学期望E. [解] 这时 pk=P(=k)=pkqn-k, 0≤k≤n 所以 E====np(p+q)n-1=np [例3] 设随机变量服从参数为的普哇松分布,试求的数学期望E. [解] 因为 pk=P(=k)=, k=0,1,2,… 于是 E==== 由此可知普哇松分布的随机变量的数学期望就是这个分布的参数,在§2.1中已经指出,在同一品种的母鸡群中,一只母鸡的年产蛋量可以用普哇松分布来描述,如果要比较不同品种母鸡群的年产蛋量,一般不必列出它们的分布列,而只要比较它们的分布参数(即数学期望)的大小就可以了,这就方便多了. 二、离散型随机变量的数学期望: 现在给离散型随机变量的数学期望以一个严格的定义. 定义2.5若离散型随机变量可能取值为(=1,2,…),其分布列为(=1,2,…),则当时,称存在数学期望,并且数学期望为E=;如果,则称的数学期望不存在. 对于这个定义,读者也许会问,既然数学期望E=,那么只要收敛就可以了,为什么还要求,是不是有点多余?我们已经知道,离散型随机变量的取值是可依某种次序一一列举的,对同一个随机变量,它的取值的列举次序可以有所不同,当改变列举次序时它的数学期望(即均值)是不应该改变的,这就意味着无穷级数的求和次序可以改变而其和要保持不变,由无穷级数的理论知道,必须有绝对收敛,即,才能保证它的和不受求和次序变动的影响. 下面的例子给出了数学期望的一个颇有价值的应用. [例4] 在某地区进行某种疾病普查,为此要检验每一个人的血液,如果当地有N个人,若逐个检验就需要检验N次,现在要问:有没有办法减少检验的工作量? 我们先把受检验者分组,假设每组有k个人,把这k个人的血液混合在一起进行检验,如果检验的结果为阴性,这说明k个人的血液全为阴性,因而这k个人总共只要检验一次就够了,检验的工作量显然是减少了.但是如果检验的结果为阳性,为了明确k个人中究竟是哪几个人为阳性,就要对这k个人再逐个进行检验,这时k个人检验的总次数为k+1次,检验的工作量反而有所增加.显然,这时k个人需要的检验次数可能只要1次,也可能要k+1次,是一个随机变量,为了和老方法比较工作量的大小,应该求出它的平均值(也就是平均检验次数). 在接受检验的人群中,各个人的检验结果是阳性还是阴性,一般都是独立的(如果这种病不是传染病或遗传病),并且每一个人是阳性结果的概率为p,是阴性结果的概率为q=1-p,这时k个人一组的混合血液呈阴性结果的概率为qk,呈阳性结果的概率则为1-qk.现在令为k个人一组混合检验时每人所需的检验次数,由上述讨论可知的分布列为:.由此即可求得每个人所需的平均检验次数为 E=a1p1+a2p2= 而按原来的老方法每人应该检验1次,所以当<1,即q>时,用分组的办法(k个人一组)就能减少检验的次数.如果q是已知的,还可以从E=中选取最合适的整数k0,使得平均检验次数E达到最小值,从而使平均检验次数最少. 对一些不同的p值,下表给出了使E达到最小的k0值. 阳性反应率p k0 阳性反应率p k0 阳性反应率p k0 阳性反应率p k0  0.140 3 0.060 5 0.016 8 0.008 12  0.130 3 0.050 5 0.015 9 0.007 12  0.120 4 0.040 6 0.014 9 0.006 13  0.110 4 0.030 6 0.013 9 0.005 15  0.100 4 0.020 8 0.012 10 0.004 16  0.090 4 0.019 8 0.011 10 0.003 19  0.080 4 0.018 8 0.010 11 0.002 23  0.070 4 0.017 8 0.009 11 0.001 32   我国某医疗机构在一次普查中,由于采用了上述这种分组方法,结果每100个人的平均检验次数为21,减少工作量达79﹪.当然,减少的工作量的大小与p的数值有关,也与每组人数k有关. 三、随机变量函数的数学期望: 我们已经熟悉了随机变量的数学期望,由定义,在求数学期望时应该先求出该随机变量的分布列.但在求随机变量的函数g()的数学期望时,可以不必求g()的分布列而只要直接利用原随机变量的分布列就可以了,这对简化计算当然是有利的.为此需要下面的定理.  a1 a2 …  pi p1 p2 …  定理2.2若是一个离散型随机变量,其分布列为 又g(x)是实变量x的单值函数,如果,则有 Eg()= 证明 令=g(),则仍是一个离散型随机变量,设其可能取的值为bj(j=1,2,…),于是由公式有 P(=bj)= 由数学期望的定义有 Eg()=E== == 即为所证. 类似地还可以证明下述定理. 定理2.3若(,)是一个二维离散型随机变量,其联合分布列为 P(=ai,=bj)=pij,i,j=1,2,… 又g(x,y)是实变量x,y的单值函数,如果  则有 Eg(,)= 对一般的n维随机变量的函数,也有相应的定理成立,这里就不再叙述了.由于这些定理,在求离散型随机变量函数的数学期望时,就可以直接利用原来随机变量的分布列,而不必先求随机变量函数的分布列. 四、数学期望的性质: 现在进一步讨论数学期望的性质.随机变量的数学期望具有下述基本性质: (1)若a≤≤b,则E存在,且有a≤E≤b.特别地,若C是一个常数,则EC=C. (2)对任一二维离散型随机变量(,),若E、E存在,则对任意的实数k1、k2,E(k1+k2)存在且 E(k1+k2)= k1E+k2E (3)又若、是相互独立的,则E存在且E=E·E 性质(1)的证明是显然的,下面证明性质(2)和(3). 设(,)的联合分布列和边际分布列为: P(=ai, =bj)=pij,i,j=1,2,… P(=ai)=pi·,i=1,2,… P(=bj)=p·j,j=1,2,… 由定理2.3有E(k1+k2)==+ =+=k1E+k2E 这里级数绝对收敛是明显的,所以E(k1+k2)存在且(2)式成立,性质(2)得证.仍利用定理2,3并由独立性有 E()==·=E·E 这里级数的绝对收敛也是显然的,所以E存在且(3)式成立,性质(3)得证. 性质(2)和(3)都可以推广到任意n维随机变量的场合,当然,就性质(3)来说,要求这n维随机变量是相互独立的. 一个随机变量,如果它的分布列是0—1分布,则显然有E=p.现在利用上述数学期望的性质,再次讨论一下例2. [例2](续) 若随机变量服从二项分布b(k;n,p),试求的数学期望. [解] 由§2.1已经知道,可以看作是n重贝努里试验中事件A出现的次数,其中A在每次试验中出现的概率为p,现在令  显然(1≤i≤n)是服从0—1分布的随机变量,所以 E=p, 1≤i≤n 另一方面,我们所关心的随机变量可以表示为:=,于是由数学期望的性质(2)即得 E==np 在上述计算中,我们把一个比较复杂的随机变量拆成n个比较简单的随机变量之和,由数学期望的性质,只要求得这些比较简单的随机变量的数学期望,再把它们相加即可得到的数学期望.这样的方法是概率论中常用的一种方法. §2.5 方差的定义及性质 教学目的要求: 使学生了解方差的实际含义,掌握方差的定义及性质,并会求随机变量的方差. 教 材 分 析 : 1.概括分析:方差与数学期望一样,也是描述随机变量的一个重要特征,具有很好的优点.所以方差在概率统计中也很重要的地位. 2.教学重点:方差的定义、性质及应用. 3.教学难点:方差的应用. 教 学 过 程 : 一、导入: 我们已经知道数学期望反映了随机变量的平均值,在许多实际问题中,只要知道这个平均值就可以了.但是数学期望毕竟只能反映平均值,有很大的局限性,在某些场合中,仅仅知道平均值是不够的.还是以手表的日走时误差为例,如果有甲、乙两种牌号的手表,它们的日走时误差分别为1和2,各具有如下的分布列: 1: 2: 容易验证,这时有E1=E2=0.从数学期望(即日走时误差的平均值)去看这两种牌号的手表,是分不出它们的优劣的.如果仔细观察一下这两个分布列,就会得出结论:甲牌号的手表要优于乙牌号.何以见得呢? 先讨论牌号甲.已知E1=0,从分布列可知,大部分手表(有80%)的日走时误差为0,有少部分手表(占2O%)的日走时误差分散在E1的两侧(±1秒).再看牌号乙,虽然也有E2=0,但是只有少部分(40%)的日走时误差为0,却有大部分(占60%)分散在E2的两侧,而且分散的范围也比甲牌号的来得大(达±2秒).由此看来,两种牌号的手表中牌号甲的手表日走时误差比较稳定,所以牌号甲比牌号乙好!对于这样的评论,大家可能会觉得有点罗唆.那么是否可以用一个数字指标来衡量一个随机变量离开它的期望值的偏离程度呢?这正是本节所要讨论的问题. 二、方差的定义: 如果是要讨论的随机变量,E是它的数学期望,这时|-E|就衡量了随机变量和它的期望值E之间偏差的大小,但是绝对值运算有许多不便之处,人们便用(-E)2去衡量这个偏差.但是(-E)2是一个随机变量,应该用它的平均值,即用E(-E)2这个数值来衡量离开它的平均值E的偏离程度.为此,引入下述定义. 1.定义 定义2.6设是一个离散型随机变量,数学期望E存在,如果E(-E)2存在,则称E(-E)2为随机变量的方差,并记作D或Var. 方差的平方根又称为标准差或根方差,常记为. 在实际问题中标准差用得很广泛,其优点是它与具有相同的量纲(或因次). 2.方差的计算公式 如果随机变量的分布列为 则由定理2.2可得 D=E(-E)2===E2-(E)2 这是一个常用的计算方差的公式. 3.例题 现在不妨来计算一下前述甲、乙两种牌号手表的日走时误差的方差,由于E1=E2=0,利用上述公式有 D1=E=(-1)2·0.1+02·0.8+12·0.1=0.2 D2=E=(-2)2·0.1+(-1)2·0.2+02·0.4+12·0.2+22·0.1=1.2 显然有D1<D2,故牌号甲优于牌号乙.这样的比较比起前面的大段议论当然要简洁得多了.由此可知,数学期望和方差是随机变量某些特性的数值标志,因而常常称它们是随机变量的数字特征.随机变量还有许多其它的数字特征,而数学期望和方差是最基本和最常用的两个数字特征. [例1] 若服从参数为的普哇松分布,试求D. [解] 已知E=,而 E2=== ==(+1)=2+ 由公式即得 D=E2-(E)2=2+-2= 由此可知普哇松分布的随机变量的方差恰为该分布的参数. 三、方差的性质: 由方差的定义可知方差本身也是—个数学期望,所以由数学期望的性质可以推出方差有下述常用的基本性质: (1) 若C是常数,则DC=0; (2) 若C是常数,则D(C)=C2·D; (3)若、是两个相互独立的随机变量,且D、D存在,则 D(+)=D+D 性质(1)与(2)的证明是容易的,下面证明性质(3).我们有 D(+)=E(+)2-[E(+)]2=E(+)2-(E+E)2 =E2+E2+2E()-(E)2-(E)2-2E·E 因为与独立,所以 E()=E·E 从而有 D(+)=E2+E2-(E)2-(E)2=D+D 性质(3)得证.性质(3)还可以推广到n维随机变量的场合,如果1,…, n是n个相互独立的随机变量,并且Di(1≤i≤n)都存在,那么有 = 成立. 如果随机变量服从0—1分布,已知E=p,这时易知有 E2=p, D=E2-(E)2=p-p2=p·q 其中q=1-p.现在讨论下述例子. [例2] 若服从二项分布b(k;n,p),试求的方差D. [解] 由例2(续)已知 = 其中i(1≤i≤n)为n个服从相同的0—1分布的随机变量,且由例2.9知道它们是相互独立的,而Di=p·q,于是 D==npq 这里利用方差的性质(3)大大简化了计算,如果直接按定义去求D,则要麻烦得多. §2.6 条件分布与条件数学期望 教学目的要求: 使学生掌握条件分布的概念、计算与条件数学期望的概念、计算.会求条件分布与条件数学期望. 教 材 分 析 : 1.概括分析:本节是在前面讨论过的二维随机变量(,)的联合分布列的基础上,更广泛更一般地讨论随机变量的分布,并讨论条件数学期望. 2.教学重点:条件分布与条件数学期望的概念、计算. 3.教学难点:条件分布与条件数学期望的计算. 教 学 过 程 : 一、条件分布列: 我们已经知道随机变量的分布列全面地描述了随机变量的统计规律,如果要同时研究两个随机变量就需要它们的联合分布列.设二维随机变量为(,),其可能的取值为(ai,bj),i,j=1,2,…,在例2.7中,为了计算联合分布列,曾利用条件概率的公式,也就是: P(=ai,=bj)=P(=ai|=bj)P(=bj) 其中P(=ai|=bj)是表示在“=bj”的条件下,“=ai”的概率,常常记作pi|j.当固定j而变动i时,可以得到一列pi|j,i=1,2,…,容易验证这时有 (1) pi|j≥0,i=1,2,…; (2) =1. 这说明{pi|j,i=1,2,…}具有分布列的两个性质.事实上,{ pi|j,i=1,2,…}确是一个分布列,它描写了在“=bj”的条件下,随机变量的统计规律.当然,一般说来这个分布列与原来的分布列pi·不同,称为条件分布列.如果(,)的联合分布列pij为已知,则边际分布列为 p·j= 由此即可求得条件分布列 pi|j= 由对称性同时还有 pj|i= 反过来,如果已知pi|j,p·j,(或pj|i, pi·)也可求得联合分布列pij= pi|j·p·j (或= pj|i·pi·). 在§2.2中曾经讨论了随机变量的独立性,显然,当与是相互独立的随机变量时,有 pi|j=pi·, pj|I=p·j 成立. 二、条件数学期望: 1.定义 既然pi|j是一个分布列,当然可以对这个分布列求数学期望,如果的可能取值为ai(i=1,2,…),我们引入下述定义. 定义2.7若随机变量在“=bj”条件下的条件分布列为pi|j,又,则称为在“=bj”条件下的条件数学期望,简称为条件期望,并记作E{|=bj}. [例1] 某射手进行射击,每次射击击中目标的概率为p(0<p<1),射击进行到击中目标两次时停止.令表示第一次击中目标时的射击次数,表示第二次击中目标时的射击次数,试求联合分布列pij,条件分布列pi|j、pj|i及条件期望E{|=n}. [解] 据题意易知 pij=P(=i,=j)=p2qj-2,1≤i<j=2,3,… 其中q=1-p,又 pi·====pqi-1, i=1,2,… p·j===(j-1)p2qj-2, j=2,3,… 于是条件分布列为 pi|j===, 1≤i<j=2,3,… pj|I===pqj-i-1, j>i, i=1,2,… 这时 E{|=n}===. 在这个例子中,条件期望E{|=n}的意义是很直观的.如果已知第二次击中发生在第n次射击,那么第一次击中可能发生在第1,…,n-1次,并且发生在第i(1≤i≤n-1)次的概率都是,因为pi|n=,也就是说在已知“=n”的条件下, 取值为1,2,…,n-1是等可能的,从而它的均值为n/2. 2.性质 条件期望具有与普通数学期望相类似的性质,例如有 (1) 若a≤≤b,则E{|=bj}存在,且有a≤E{|=bj}≤b;特别地,当C是一个常数时,E{C|=bj}=C; (2) 若k1、k2是两个常数,又E{1|=bj}、E{2|=bj}存在,则E{(k11+k22)|=bj}存在,且 E{(k11+k22)|=bj}=k1E{1|=bj}+k2E{2|=bj} 这是在固定“=bj”的条件下考察条件期望的性质,由条件期望的定义可知,当给定时,对于的每一个可能的取值bj(j=1,2,…),就有一个确定的实数E{|=bj}与之对应.因而E{|=bj}是的单值函数,当=bj时,这个函数的值就等于E{|=bj},记这个函数为E{|}.由§2.4的定理2.2可知 E(E{|})= 而 E{|=bj}== 把它代入前面的式子中,即可得到 E(E{|})====E 由此可知,随机变量对求条件期望后再求期望,等于对这个随机变量直接求期望.这是条件期望的一个重要的基本性质.