《生物统计》
绪言
在人们的实践活动中,常常会遇到类似下面的一些问题,如:一种新的疫苗,如何判断它是否有效?吸烟会不会使得肺癌的机会增加?如何抽检几百或几千人来估计某种病的流行程度?某批产品中合格品究竟有多少?该不该报废?如何消耗最少的资源和人力来得到我们所需要的某种信息?某种实验方法,或饲料配方,有没有明显改进?……等等。
这一类问题的共同特点,就是人们只能得到他所关心的事情的不完全信息,或者是单个实验的结果有某种不确定性。例如为了知道产品合格与否或它的使用寿命,我们常常需要对它作破坏性检验,此时我们显然不能把所有的产品都检验一下,而只能满足于对少数几个样品的抽检。这样获得的信息显然是不完全的;再比如要检验疫苗的有效性,但一般来说,接种过疫苗的动物不一定全不发病,而未接种的也不会全发病。那么发病与不发病的差别究竟到多大时我们才能认为接种是有效的呢?同时,即使我们采用完全一样的实验条件再次进行实验,发病与不发病的动物数量也会有所变化,这说明类似实验的结果具有某种内在的不确定性。要想在这种情况下正确判定疫苗的有效性,就涉及了我们如何评价一些并不确定的实验结果的问题。
要从这样一些问题中得出科学的,可靠的结论,就必须依靠统计学。有人干脆给统计学下了这样的定义:“统计学就是从不完全的信息里取得准确知识的一系列技巧”,这个定义还是有一定道理的。
另外,当必须根据有限的,不完全的信息作出决策时(例如决定一批产品是出厂还是报废,某种新药是否有效等等),统计学可以提供一种方法,使我们不仅能做出合理的决策,而且知道所冒风险的大小,并帮助我们把可能的损失减至最小。
其次,如何花费最小代价取得所关心的信息,也是统计学的一大课题(实验设计)。不注意这一点可能使辛辛苦苦的工作成为一种浪费。
生物学是一门实验科学。不管你从事的是生物学的哪一个分枝,都不可能完全脱离实验,只进行逻辑推理。而实验所得到的结果几乎无例外地都带有或多或少的不确定性,即实验误差。在这种情况下不用统计学要想得到正确的结论是不可能的。可以毫不夸张地说,作为一个实验科学工作者,离开了统计学就寸步难行。希望大家通过这门课程的学习,能够掌握常用的统计方法,尤其是它们的条件,适用范围、优缺点等,从而能够应用它们去解决实践中遇到的问题。
第一章 概率论基础
§1.1 随机现象与统计规律性
概率论是研究随机现象的数量规律的数学分枝
所谓随机现象,就是在基本条件不变的情况下,各次实验或观察会得到不同的结果的现象,而且这一结果是不能准确预料的。
例:血球计数,昆虫密度调查,某一时刻车间中开动的车床数,优秀选手射击弹着分布,抽样时某一样品合格与否等等。
必然现象(或不可能事件)则是指在一定条件下必然会发生(或不发生)的事件,也可称为决定性事件。
例:早晨太阳从东方升起,水向低处流,万有引力,标准大气压,纯水100℃沸腾等等。
大部分科学实验的结果都属于随机事件,分析它们就需要概率的知识,如:
试验两种不同饲料配方对鸡增重的影响。饲养五周后,增重如下:
配方1(x):1.49kg, 1.36kg, 1.50kg, 1.65kg, 1.27kg,1.45kg, 1.38kg, 1.52kg, 1.40kg;
配方2(y):1.25kg, 1.50kg, 1.33kg, 1.45kg, 1.27kg, 1.32kg, 1.60kg, 1.41kg, 1.30kg, 1.52kg。
在例1中, ,我们是否可以说配方1比配方2好呢?也许有同学会说:“,当然就说明配方1好啦。”实际问题却不是这样简单。由于鸡的个体差异等都会影响实验的结果,因此上述实验中包含着一些无法排除的随机误差。在这种情况下,我们怎么能判断与之间的差异是随机误差造成的,还是配方1真的优于配方2?或者换句话说,与的差异大到何种程度,我们就可以较有把握地说配方1真的优于配方2?要科学地回答这一类的问题,靠我们以前学过的数学知识是解决不了的,必须依靠统计学的知识。由于吃同一种饲料的一组鸡的生活条件基本上是一致的,它们之间的差异应该是随机误差大小的一种估计,因此我们可以把上述两组鸡之间的差异与组内的差异作一下比较,如果组间差异明显大于组内的差异,则认为配方1比配方2好;否则就只能认为这两种配方差不多。根据这样的统计学理论,我们只能认为这两个配方间没有明显差异,原因是它们组内差异比较大,说明随机因素的影响很大,平均数间的差异可能是随机因素引起的。
例1.2 如果数据变成
配方1(x):1.40kg, 1.42kg, 1.50kg, 1.39kg, 1.46kg,1.45kg, 1.51kg, 1.44kg, 1.41kg, 1.38kg;
配方2 (y):1.38kg, 1.41kg, 1.35kg, 1.50kg, 1.36kg, 1.33kg, 1.42kg, 1.38kg, 1.37kg, 1.41kg
此时两组数据的平均值变化不大,直观上结果应与上题相同,但统计结论却完全变了,变为应该认为配方1明显优于配方2。这是因为组内差距变小了,x与y之间的差别不能仅用随机因素的影响来解释。
从上述例子可看出,没有概率论的知识就不能对实验结果作出科学的,有说服力的结论。
频率稳定性
随机事件的结果一般是不可预料的,那又如何研究呢?个别随机事件(结果)在一次实验或观察中可以出现或不出现,但在大量实验中,它出现的次数与总实验次数之比常常是非常稳定的。这种现象称为频率稳定性,正是随机事件内在规律性的反映。
例1.3 掷币实验:
实验者
掷币次数
正面次数
频率
蒲丰
4040
2048
0.5069
皮尔逊
12000
6019
0.5016
皮尔逊
24000
12012
0.5005
从上述实验结果可知,随着投掷次数的增加,正面出现的次数越来越接近一个常数:0.5。这一实验的结果很好地反映了多次重复的随机实验中的频率稳定性。
直观上,我们用一个数P(A) 来表示随机事件A发生可能性的大小,P(A) 就称为A的概率。一般来说,当实验次数N越来越大,直至趋于无穷时,频率也会逐渐趋近于概率。
§1.2 样本空间与事件
我们假定试验或观察可在相同的条件下重复进行。这是因为一次随机实验的结果不可预料,我们主要依靠频率稳定性来研究随机现象的内在规律,因此不可重复的实验对统计学来说是没有多少意义的。
样本空间的概念
定义:在一组固定的条件下所进行的试验或观察, 其可能出现的结果称为样本点,一般用ω表示。全体样本点的所构成的集合称为样本空间,一般用Ω表示。
例1.4 投一个硬币:ω={正},{反};Ω={正,反}
投二个硬币:ω={正正},{正反},{反正},{反反}; Ω={正正,正反,反正,反反}
样本点和样本空间是严格依赖于我们的实验设计的,不同的实验设计可能有不同的样本点和样本空间。每一个最基本、最简单的结果称为一个样本点,所有可能的样本点构成样本空间,而部分样本点的集合则构成了事件。
定义:样本点的集合称为事件。
显然有:必然事件:Ω;不可能事件:Φ。
注意:上述定义不严格,如果Ω中有不可列(个样本点,则不能把Ω的一切子集都看成事件,否则无法在其上定义概率。关于这些问题的详细讨论超出了本课程的范围。
二、事件间的关系:设A、B均为事件,则它们可能有以下关系:
包含:若A发生,则B必然发生,此时称A包含于B,或B包含A。记为:AB,或BA。
例:{正正}{两币相同}
相等:若AB,且BA,则称A与B相等,记为A=B。
例:{反反}={正面不出现}
对立:由所有不包含在A中的样本点所组成的事件称为A的逆事件,或A的对立事件,记为。(也可称为“非A”)
例:{}={正反,反正}={两币不同}
显然A逆的逆等于A, 即=A。
事件的运算
已知事件A,B,我们可以通过它们构成一些新的事件:
交:同时属于A及B的样本点的集合。记为:AB或AB,此时A与B同时发生。
若AB=Ф,则称A与B互不相容。样本点一定是互不相容的。
并:至少属于A或B中一个的全体样本点的集合,记为AB。
此时可能A,B都发生,也可能只发生一个。
若AB=Ф,则可把并称为和,且记为A+B。
注意:在集合论的运算中,和只是并的特例,要明确它们的不同,原因是:在集合论中,同一个元素只能计算一次,所以一个集合中不能有两个相同的元素。
差:包含在A中且不包含在B中的样本点的集合。记为A-B。
注意:这是三种运算中唯一不满足交换律的运算。
显然:, ,
Venn图:用图解的方法表示集合间的关系。如:
A B A B A B
相离 相交 包含
图1. 两集合A、B的三种关系。
显然两事件A与B的关系只有上述三种,这种图解的方法对我们搞清事件间的关系是很有好处的。
运算顺序:1. 逆,2. 交,3. 并或差。
运算规律:
交换律:AUB=BUA,A∩B=B∩A
结合律:(AUB)UC=AU(BUC),(AB)C=A(BC)
分配律:(AUB)∩C=(A∩C)U(B∩C),(A∩B)UC=(AUC)∩(BUC)
德莫根(De Morgan)定理:
对于n个事件,甚至对可列个事件,上述定理仍成立,可写为:
,
注意:上述集合论运算规律与算数运算的规律很相似。若把并比作算术加法,把交比作算术乘法,则交换律与结合律是相同的。但分配律有差异:集合论运算中除有交对并的分配律外,还有并对交的分配律,而后者在算术运算中是不成立的。这种差异同样来自于集合运算的规定:在集合中,同一元素只能计算一次而不能够重复计算。
例1.5 A,B,C是三个事件,请用运算式表示下列事件:
(1)A发生,B与C不发生:,或A―B―C,或A-(BUC)
(2)A与B都发生而C不发生:,或AB―C,或AB―ABC
(3)至少发生一个:AUBUC
(4)恰好发生一个:
恰好发生二个:
§1.3 概率
古典概型
从17世纪中叶,人们就开始研究随机现象,当时这种兴趣或需要主要是由赌博引起的,因此人们首先注意的是这样一类随机事件:它们只有有限个可能的结果,即只有有限个样本点,同时这些样本点出现的可能性相等。这样的概率空间称为古典概型。由于样本点是等可能的,很自然地,人们就把事件A的概率定义为A所包含的样本点数与样本点总数的比值,即
显然这样的定义同时也给出了概率的计算方法,这种方法今天还有着广泛的用途,尤其是在产品的抽样检查方面。这样建立起来的概率有如下的性质:
(1)对任意事件A,P(A)≥0 (非负性)
(2)P(Ω)=1 (规范性)
(3)若A1,A2,…,An两两互不相容,则:
(可加性)
注意:上述可加性称为有限可加性。它主要适用于样本空间只包含有限个样本点的情况。如果样本空间含有无穷多个样本点,则上述可加性也应推广为可列可加性(或称完全可加性),即:若A1,A2,… An,…互不相容,则
例1.6 五个身高不同的人,随机站成一排,问恰好是按身高顺序排列的可能性有多大?
解:五个人随机排列,则排法共有5!种。有利场合则为从高到矮,或从矮到高,共两种。因此所求概率为:
例1.7 100块集成电路中混有5块次品。任取20块检测,问至多发现一块次品的概率为多大?
解:样本空间:
有利场合:20块样品中没有次品:
20块样品中有一块次品:
∴
例1.8 10个同样的球,编号为1—10,从中任取三个,求恰有一个球编号小于5,一个球等于5,另一个大于5的概率。
解:样本空间:
有利场合:
∴ P = 20/120=1/6
例1.9 设有n个球,每个可以的等概率落入N个格子之一中,(N>n),求:
指定的n个格中各有一球的概率;
任意n个格中各有一球的概率。
解:由于每个球落入各个格中的可能都相等,这是古典概型。每个球有N种可能的位置,因此n个球在N个格中共有Nn种落法。即样本空间共有Nn个样本点。
第一问的有利场合为n个球的全排列,即n!,因此P1 = n!/ Nn
第二问中选定n个格,共有种选法,因此有利场合为,即
这一问题是统计物理中的典型问题之一。
例1.10 求某班的40位同学中至少有两位同学生日相同的概率。
解:利用例1.9第二问的答案,可很容易地得出本题的答案:令N=365,n=40,则有:
P=1-365!/(36540·(365-40)!)
(1-0.109 = 0.891
从直观上看,每年有365天,班上只有40位同学,似乎有两位同学生日相同的概率并不大。但严格的计算显示这一概率接近0.9,因此我们不能太相信自己的直觉。
例1.11:袋中有a只白球,b只黑球,不放回抽样,求第K次恰好抽到一只黑球的概率
(1≤K≤a+b)。
解法1:把所有的球编号,若把摸出的球排成一直线,可能的排法为(a+b)!。有利场合:第K个位置必须放黑球,共有b种方法;剩下的(a+b-1)个位置有(a+b-1)!个放法,∴共为:b·(a+b-1)!
即
解法2:黑球之间和白球之间不加区别,仍把它们都摸出来排成一条线。黑球有种放法。黑球放好后,白球只有一种放法,∴样本点有个。有利场合:,这是因为第K个位置必须放黑球,剩下a+b-1个位置,放b-1个黑球。
∴
解法3:取K个球排成一行,排法有:
有利场合:,因此有:
注意这里设想问题的顺序。在本题中是先取一个黑球,再随便取剩下的球。如果先取剩下的球,最后取黑球则不行,因为这时剩下什么球是不确定的。
从本题中可看出如下几点:
概率P与K无关,这正说明抽签对所有参加者都是公平的,与先后次序无关。
(2)同一问题可选用不同的模型来解决。这里主要是样本空间的选取不同,只要方法正确,结果是相同的,但要注意计算总样本点和有利场合时一定要用同一个模型,否则必然出错。
二、几何概型
古典概型概念虽然比较简单直观,但它成功地解决了一类问题的计算方法,这些问题在今天的现实生活中也还常常能碰到。古典概型计算的基础是某种事先确定的,公认的等可能性,而它最大的限制就是只能有有限个样本点。因此,历史上有不少人企图通过把类似的方法推广到有无限多结果,但又能定义某种等可能性的场合,这样就产生了几何概型。称它为几何概型,是因为此时样本点数常常是不可列的,因此无法用样本点数目之比来定义概率,而是根据问题维数的不同,改用长度、面积、或体积之比来定义概率,采用几何方法来进行计算。这种方法在今天也还有一定使用价值。
例1.12 两人约定于7点到8点在某地会面,求一人等半小时以上的概率。
y
8
7.5
x
7 7.5 8
解: 如图:x代表甲到的时间,y为乙到的时间,则对角线上的点代表两人同时到达。而图中左上与右下两个三角形部分的点代表有一人需等待半小时以上,它们的面积和为总面积的,故
在本题中,以两个座标轴分别代表甲乙二人到达的时间,这样每一个可能发生的事件(甲乙二人分别在某一时刻到达)就变成了二维平面上的一个点。由于在指定时间段内到达的可能性相同,我们就可以用代表有利场合的面积与整个指定区间面积之比来代表所求的概率。类似方法常可用于解决各种相遇问题。
例1.13 蒲丰(Buffon)投针问题
平面上画有一些平行线,线间距离均为a。向此平面随意投掷一枚长为L(L<a)的针,试求此针与任一平行线相交的概率。
X
a/2 Ω
L/2 sin(
(
0 π
解:以x表示针的中点到最近的一条平行线的距离,(表示针与平行线的交角,则针与平行线的位置关系可表示如图1.1(a):
(
x
图1.1 (a) 图1.1(b)
由题意,有:, ,因此样本空间可取为图1.1(b)中的长方形(。若要针与平行线相交,则应有:,因此有利场合为图1.1(b)中的曲线下部分。其面积为:
因此所求的概率为:
由于上述概率与(有关,曾有人利用它来计算(的数值。即多次投针后,用针与线相交的频率n/N作为概率P的估计值,代入上式解得(值:。下表为有关的历史资料:
表1 投针试验的历史资料①
实验者
年代
针长(以线距a为1)
投掷次数
相交次数
(估计值
Wolf
Smith
De Morgan, C.
Fox
Lazzerini
Reina
1850
1855
1860
1884
1901
1925
0.8
0.6
1.0
0.75
0.83
0.5419
5000
3204
600
1030
3408
2520
2532
1218.5
382.5
489
1808
859
3.1596
3.1554
3.137
3.1595
3.1415929
3.1795
这里采用的方法称为蒙特卡洛(Monte-Carlo)方法,它的基本思路是首先建立一个与我们感兴趣的量(如例1.13中的()有关的概率模型,然后进行随机试验,并通过试验结果计算所关心的量的值。由于许多随机试验可用计算机模拟的方法迅速大量地重复,这种蒙特卡洛方法目前使用也日渐广泛。
例1.14 贝特朗(Bertrand)奇论。
在半径为1的圆内随机取一弦,问其长超过该圆内接等边三角形边长的概率是多少?
解法(1):弦交圆周于2点A,B。不失一般性,固定一点A,以它为顶点作等边(AB(C(,显然B必须落在弧上才满足条件,(见图1.2(a))
A A’ A’
A
o o
A B
B’ C’ B’ C’ B’ C’
B B
图1.2(a) 图1.2(b) 图1.2(c)
解法(2):弦长只与它与圆心的距离有关,与方向无关,由于等边三角形的边距圆心距离为1/2,显然弦与圆心距离必须小于1/2。 ∴P=1/2 (见图1.2(b))
解法(3):弦被其中点唯一确定,当且仅当中点落在半径为1/2的同心圆内时,弦长大于,此小圆面积为大圆的1/4,故P=1/4。(见图1.2(c))
同一问题出现了多种不同答案,其原因在于采用了不同的等可能假设:端点在圆周上均匀分布,中点在直径上均匀分布,中点在圆内均匀分布。这可以看作是三种随机试验。对各自的实验来说,答案都是对的。
这个例子说明,采用等可能性来定义概率会产生问题,即有时不存在一种明显的、公认的等可能性。因此后来定义概率这一基本概念时就只给出它所应有的基本性质(即非负性,规范性与可加性),而不对等可能性作具体规定,这样就把各种情况都包括了。
§1.4 概率的运算
概率加法
在上一节中讨论概率性质时已经谈到对互不相容事件A和B,有:
P(A+B)= P(A)+ P(B)
对于任意二事件A和B,该如何计算P(AUB)呢?
定理:对任意事件A、B,P(AUB)= P(A)+P(B)-P(AB)
证:
又
推论:对任意事件A1,A2,…,An,有:
15袋中有红(A),黑(B),白(C)三个球,有放回地摸两次,求没有摸到红球或没有摸到黑球的概率。
解:没有红球的概率:
显然 ,
另外,由性质P(A+B)=P(A)+P(B),可以很容易地推出,这个式子在计算概率时很有用,有时P(A)很难求,而则很好求,此时利用上式就可简单地求出P(A)。
16:袋中装有N-1个黑球和一个白球,每次随机摸出一球,并换回一只黑球,这样继续下去,问第k次摸到黑球的概率为多少?
解:设A为第k次摸到黑球这一事件,则为第k次摸到白球,则由题意,为前k-1次都摸黑球,而第k次摸白球。
本题若直接计算P(A),则复杂多了。
例1.17 试求桥牌中一副牌少于4点的概率。
解:,共有16张大牌。
有利场合:A(一张大牌):一个K或Q或J,
B(2张大牌):一个Q,一个J:
二个J:
C(3张大牌):三个J,
D(无大牌):
∵A,B,C,D 不相容。
∴
二、条件概率与乘法公式
例1.18 假定男女孩出生率相同,设A为二个孩子家庭有一男孩一女孩这一事件,求P(A)。
解:显然Ω={(男男),(男女),(女男),(女女)}
∴。
这里要特别注意的是不能认为样本空间只有如下三个样本点:{(两男),(两女),(一男一女)}。上述三个样本点不是等可能的。这是因为对(两男)与(两女)来说,没有顺序问题,交换顺序后仍是两男或两女;但对一男一女来说就不同了,它实际上是由兄妹与姐弟两个样本点组成。因此只有采用{(兄弟),(兄妹),(姐弟),(姐妹)}四个样本点才能构成古典概型的样本空间,只有这样才能保证等可能性,而等可能性正是古典概型计算公式的基础。类似的情况在古典概型的计算中是经常碰到的,在通常情况下,考虑了顺序的样本点能较好地保证等可能性,这一点请务必加以注意。
例1.19 若已知该家庭至少有一女孩,则有一男一女的概率为多大?
解:设B为至少有一女孩,当B发生时,样本点只剩三个:(男女),(女男),(女女)。
∴
我们把称为条件概率,即:已知事件B发生的条件下,事件A发生的概率。从上面的例子看,已知B发生相当于样本空间缩小了,如果仍在原空间中来看,则可见
其中mAB,mB分别代表AB,B的有利场合,n为总样本点数。
上式在各种情况下都是成立的,我们用它作为条件概率的定义。
定义:若A,B为两个事件,且P(B)>0,则记
称为事件B发生的条件下事件A发生的概率。
乘法定理:
当然这一公式成立的条件是P(A)>0, P(B)>0, 否则或不存在。
推广:
例1.20 甲袋中有a只白球,b只黑球,乙袋中有α只白球,β只黑球,现从甲袋中任取2只放入乙袋,再从乙袋中任取2只,求从乙袋中取出的是两只白球的概率。
解:设A0,A1,A2分别为从甲袋中取出0,1,2只黑球的事件。B为从乙袋中取出两只白球的事件,则:
§1.5 独立性
一、定义:对任意事件A和B,若P(AB)=P(A)·P(B), 则称A,B是独立的。
显然:A,B独立等价于,即:B的发生对A没有任何影响,也没有提供任何消息,反之也一样。
独立与不相容是完全不同的概念,决不可互相混淆。实际上,若A,B概率均不为0,且不相容,则B发生可推出A不发生,即有。因此在一般情况下A与B不相容则它们必非互相独立,同理独立也必非不相容。
例1.21 袋中有a只黑球和b只白球,有放回摸球,求:(1)第二次摸黑球的概率。
已知第一次摸黑球,第二次也摸黑球的概率。
解:以A表示第一次摸黑球,B表示第二次摸黑球。则:
∴
由于,因此A与B是互相独立的。
例1.22 把例1.21中有放回摸球改为不放回摸球,仍求及。
解:
∴
这里,因此A与B不是互相独立的。这是因为是不放回摸球,摸出一球后就改变了袋中球的组成,因此第二次摸球结果的可能性依赖于第一次摸球的结果。要注意与有放回摸球相比,P(B)的值并未改变,这说明后抽签的人并不吃亏。
例1.23 某种实验,现已知甲成功的概率为0.7, 乙成功的概率为0.8。若让他们各做一次,求这两次实验至少有一次成功的概率。
解法(1):设A为至少成功一次,则为两人均失败。
∴
解法(2)设A为甲成功,B为乙成功,则由加法定理:
例1.24上题改为:二人各做两次,求至少有一次成功。
解:设A、B分别为甲,乙至少有一次成功。
或:
下面我们再来讨论多个事件的独立性。
二、多个事件的独立性:
定义:A,B,C为三个事件,若下列4式同时成立,则称它们互相独立。
(1)
(2)
根据两个事件独立的定义,我们知道(1)式成立,则A、B、C两两独立,那么从(1)式是否可能推出(2)式呢?回答是否定的。
例1.25 一个均匀正4面体,三个面分别染为红,白,黑色,第四个面同时染上红、白、黑三种颜色,以A,B,C分别记投一次出现红,白,黑的事件。则:
但
∴ A,B,C两两独立,但A,B,C不独立
例1.26 一个均匀正8面体,其第1,2,3,4面染红色,1,2,3,5面染白色,1,6,7,8面染黑色,以A,B,C表示投一次出现红,白,黑的事件,则
但
从这两个例子可以看出,(1)式不能推出(2)式,(2)式也不能推出(1)式,这两个条件是缺一不可的。
定义:A1,A2,…An为n个事件,若对任何正整数K,(2≤K≤n),有
,
其中i1, i2, … ik为满足下式的任何k个自然数:
1≤i1<i2<…<ik≤n
则称为A1,A2,…An互相独立。
从定义中易知,若n个事件独立,则其中任何m个(2≤m<n)事件也独立,从上面的例子可知,这些式子是缺一不可的。
三、独立性的应用
实际问题中两事件是否独立常常是由概率以外的专业知识判断的。显然若事件独立,有关概率乘法的计算就会大大简化。由德莫根定理,概率加法的计算也可简化。因此有:
例1.27 设每人血清中含有肝炎病毒的概率 0.4%, 混合100人血清,求此血清中含有肝炎病毒的概率。
解:
虽然每个人带肝炎病毒的可能性很少,但混合起来就很大了,这种效应在实际工作中一定要考虑。
例1.28 设每个元件的可靠性为r,若它们能否正常工作是独立的,试比较下述两系统的可靠性。
1 2 n
(1)
1 2 n
1 2 n
(2)
1 2 n
解:(1)每条通路要正常工作,必须所有元件都正常工作。
∴ 每条通路的可靠性为:R=rn
两条通路同时发生故障的概率为:(1-rn)2
∴
每对并联元件的可靠性为1-(1-r)2 = r(2-r)
系统是n对元件串联, ∴
用归纳法不难证明,n≥2时,(2-r)n>2-rn
∴
从上面例子可以看出,同样多的元件,功能也相同,但连接方式不同,它们的可靠性也不同。研究类似课题的可靠性理论已成为一个与应用联系密切的研究领域,显然它也是以概率论为基础的。
借助事件独立的概念,我们还可以定义试验的独立性。直观上看,这就是试验E1的任何一个结果都不对试验E2产生影响,反之也一样。或者说,E1的一切可能结果与E2的一切可能结果都是独立的。重复的投币,有放回的摸球等等,都可作为独立试验的例子。这种试验很重要,因为随机现象的统计规律性只能在大量重复试验中显现出来。
§1.6 全概公式与逆概公式
全概公式:若事件组A1,A2,…An…满足:
A1,A2,…An…互不相容,且P(Ai)>0, (i=1, 2,…)
A1+A2+A3+…+An+…=Ω(完全性)
则对任一事件B,有:
满足上述条件的事件组通常称为样本空间Ω的一个分割。
例1.29 一等小麦种子中混有2%二等种子,1.5%三等种子,1%四等种子,它们长出的穗含有50颗以上麦粒的概率分别为0.5,0.15,0.1,0.05。求这批种子所结的穗含有50颗以上麦粒的概率。
解:从中任选一种子,它分别为1,2,3,4等的事件记为A1,A2,A3,A4。B表示它结的穗含50颗以上麦粒。则由全概公式,有:
利用全概公式可把一复杂事件化为一系列简单事件来求其概率。
二、贝叶斯(Bayes)公式(或称逆概公式)
若事件B能且只能与两两互不相容事件A1,A2,…An,…之一同时发生,则
证明:由条件可知:
由于
∴
再利用全概公式替换P(B),即可得原式。
贝叶斯公式有着十分广泛的用途,它之所以被称为逆概公式,是因为它实际是在知道结果的情况下来推断原因:
A1,A2,…An,…是可能导致B出现的原因。P(Ai)是各种原因出现的可能性大小,一般是过去经验的总结,称为先验概率。若现在已知B出现了,我们要求它是由哪个原因引起的概率,这就是,称为后验概率。它反映了试验之后对原因发生可能性大小的新知识。例如医生诊断病人所患何病(A1,A2,…An,…中的某一个),他确定某种症状B(如体温,某种化验指标等等)出现,现在实际就是求,通过比较它们的大小就可对疾病作出诊断。此时贝叶斯公式显然是很有用的。在这里P(Ai)是人患各种病可能性大小,这可从资料中获得,而的确定则要依靠医学知识,有了它,就可求得。如果综合从多个症状所得到的条件概率,诊断会更准确一些。按照上述的思路,采用计算机进行诊断原则上也是完全可行的。
例1.30 由于通信系统会受到干扰,接收台收到的不全是正确信号,现已知发报台分别以概率0.6和0.4发“·”和“-”。发“·”时,收报台分别以0.8和0.2的概率收到“·”和“-”;发“-”时,分别以0.9和0.1的概率收到“-”和“·”。求当收报台收到“·”时是正确的概率。
解:令A为发“·”,B为收“·”。则 P(A)=0.6, P()=0.4
例1.31 中年男性人群中,20%超重,50%正常,30%低体重,他们动脉硬化的概率分别为30%,10%,1%。从中随机取一人,恰为动脉硬化者,求他分属各组的概率。
解:A1,A2,A3分别表示体重超重、正常、偏低,B表示动脉硬化。
由题意,:P(A1)=0.20, P(A2)=0.50, P(A3)=0.30
例1.32 一道题同时列出m个答案,要求学生把其中的一个正确答案选出来。设他知道哪个正确的概率为p,现有一学生答对了,求他确实知道而不是瞎猜的概率。
解:设A为该生知道正确答案这一事件,B为答对这一事件。则:
若令m=5, p=1/2, 则
例1.33 一项化验有95%的把握把患某疾病的人鉴别出来;但对健康人也有1%可能出现假阳性。若此病发病率为0.5%,则当某人化验阳性时,他确实患病的概率有多大?
解:设A:患病;B:化验阳性。则:
这个数值可能比我们预料的要小得多,这是因为:平均200人有一人患病,发现他们的可能为0.95,即化验200人发现真病人0.95个;而剩下的199个正常人我们也会发现1.99个假阳性的,因此即使化验不正常也不必太担心。
上述结论在体检时比较可靠。若考虑到在医院看病化验的人大部分已有某种症状,其发病率可能远高于0.5%,则此结论可能不正确。
例1.34 三张同样的卡片,一张两面是红色,一张两面是黑色,一张一面红一面黑,随机取出一张,其上面是红的,问下面是黑的概率是多少?
解:以A1,A2,A3分别表示上述3张卡片,以B记上面是红的这一事件。则所求为:
但从直观上看,如果上面是红的,那这张卡片只可能是两面红或一面红一面黑;由于抽到哪张卡片是等可能的,因此所求概率应为。这与前面计算出来的不同。究竟哪个错了呢?
是直观的算法错了。因为这里抽到哪张卡片确实是等可能的,但当我们看到上面是红的时,它是红红或红黑却不是等可能的。因为如果是红黑的一张,它还有的可能性是黑面向上,此时我们看到的就不是红的了。所以应认为各面向上出现的可能性相等。红色的面共有三个,其中只有一个出现时下面才会是黑的,因此所求概率应为,而不是。
从这道例题可以看到,当我们用古典概型解题时,一定要特别注意各样本点的等可能性。否则很容易出错。
作业:
绘出符合下列关系的Venn图(A,B,C为随机事件):
(1)ABC=A (2)AUBUC=A (3)ABC (4)A (5)
A,B,C,D为4个随机事件,试用它们表示:
(1)至少发生一件;(2)恰好发生二件;(3)至多发生一件;(4)都不发生。
试证
某城市发行三种报纸A,B,C,该市民居订A的占45%,订B的占35%,订C的占30%,同时订A及B的占10%,同时订A及C的占8%,同时订B及C的占5%,同时订A,B及C的占3%,试求下列百分率:
(1) 只订A的 (2)只订A及B的 (3)只订一种报的
(4) 正好订两种的 (5)至少订一种的 (6)不订任何报的
从6双不同的手套中任取4只,问其中恰有一双配对的概率是多少?
如图电路,在100天内,A,B,C损坏的概率分别为0.7, 0.5, 0.6,求断电概率。
B
A
C
7. 已知某白种人群体中A、B、O血型的基因频率分别为:IA=0.28, IB=0.06, IO=0.66, 问该群体中具有各种血型的人的比例如何?A型血的人与B型血的人婚配的概率是多少?
8. 某码头只能容纳一只船,现已知某日将独立地开来两只船,且24小时内到达可能性相等,若它们所需停泊时间分别为3小时及4小时,试求有一船要在江中等待的概率。
9. 袋中有红、黄、白球各一只,每次取一只,有放回地摸三次,求下列事件概率:
A=“全红”,B=“同色”,C=“全不同色”,D=“不全同色”,E=“无红”,
F=“无红且无黄”,G=“无红或无黄”,H=“全红或全黄”。
10. 三个孩子的家庭中,已知有一女孩,求至少有一男孩子的概率。
11. 设有N个袋子,每个装a只黑球,b只白球。从第一袋任取一球放入第二袋,再从第二袋取一放入第三袋,…问从最后一袋中取出黑球的概率为多少?
12. 飞机可分为甲,乙,丙三个部分,它们分别被击中1, 2, 3弹后,飞机才会被击落;它们的面积百分比分别为0.1, 0.2, 0.7。现已知飞机被击中2弹,求飞机坠落的概率。
13. 求证:若A,B独立,则,B;A,;,也独立。
14. 求证:若A,B,C相互独立,则A∪B,AB,A-B皆与C独立。
15. 甲,乙,丙进行某项比赛,每局中各人胜利的可能性相等,先胜三局者为胜。现已知甲胜1,3局;乙胜第2局,分别求甲,乙,丙获得最后胜利的概率。
16. 对一目标进行3次独立射击。第一、二,三次射击命中概率分别为0.4, 0.5, 0.7, 试求:(1)三次中恰好有一次击中的概率。(2)至少有二次击中的概率。
17. 高炮击中飞机的概率为0.6, 若要以99%把握击中来犯敌机,至少需多少门大炮同时开火?
18. 导弹击中飞机的概率为0.7, 击中后必落。高炮击中飞机的概率为0.4,击中一发有0.8的概率击落,击中两发必落。现发射了两枚导弹,两门大炮,求飞机被击落的概率。
19. 实验室中有12只动物可供某生理实验用。每次实验任取3只,用后放回。现求第三次实验时取出的动物均未参加过实验的概率。若已知第二次的三只也未用过,求第三次3只仍未用过的概率。
20. 已知进行某种细胞培养时,样品有4%的可能被杂菌污染。现有一种简单的检查方法,它会把2%未污染的样品误判为污染的,而把5%污染的误判为未污染。求此法认为未污染者确实未污染和认为污染而实际上没有的概率。
21. 甲袋有5个白球,4个黑球;乙袋有3个白球,6个黑球。现从两袋中各取一球,交换后放回,再从两袋各取一球,问恰为一黑一白的概率是多少?
22. 已知某样品内可能含有A,B,C三种酶之一。它们出现的可能性分别为0.3, 0.4, 0.3。由于条件限制,采用的分析方法正确鉴定酶种的概率为0.6,错误鉴定为其他两种酶的可能性均为0.2。现对该样品作4次鉴定,结果为A,B,C,A。求样品确实含有A酶的概率。