第四章 常用概率分布为了 便于读者理解统计分析的基本原理,
正确掌握和应用以后各章所介绍的统计分析方法,本章在介绍概率论中最基本的两个概念 —
—事件、概率的基础上,重点介绍生物科学研究中常用的几种随机变量的概率分布 ——正态分布、二项分布、波松分布以及样本平均数的抽样分布和 t分布。
下一张 主 页 退 出上一张第一节 事件与概率一、事 件
(一)必然现象与随机现象在自然界与生产实践和科学试验中,人们会观察到各种各样的现象,把它们归纳起来,大体上分为两大类:
下一张 主 页 退 出上一张一类是可预言其结果的,即在保持条件不变的情况下,重复进行试验,其结果总是确定的,必然发生(或必然不发生)。这类现象称为 必然现象 ( inevitable phenomena)
或 确定性现象 ( definite phenomena)。
另一类是事前不可预言其结果的,即在保持条件不变的情况下,重复进行试验,其结果未必相同。这类在个别试验中其结果呈现偶然性、不确定性现象,称为 随机现象 ( random
phenomena ) 或 不 确 定 性 现 象
( indefinite phenomena)。
下一张 主 页 退 出上一张随机现象或不确定性现象,有如下特点:
在一定的条件实现时,有多种可能的结果发生,事前人们不能预言将出现哪种结果;对一次或少数几次观察或试验而言,其结果呈现偶然性、不确定性;
但在相同条件下进行大量重复试验时,其试验结果却呈现出某种固有的特定的规律性 —
—频率的稳定性,通常称之为随机现象的统计规律性。
下一张 主 页 退 出上一张
(二)随机试验与随机事件
1、随机试验 通常我们把根据某一研究目的,在一定条件下对自然现象所进行的观察或试验统称为 试验 ( trial)。 而一个试验如果满足下述三个特性,则 称 其 为 一个 随机试验 ( random trial),简称 试验,
下一张 主 页 退 出上一张
( 1)试验可以在相同条件下多次重复进行;
( 2)每次试验的可能结果不止一个,并且事先知道会有哪些可能的结果;
( 3)每次 试验总是恰好出现这些可能结果中的一个,但在一次试验之前却不能肯定这次试验会出现哪一个结果。
例如在一定孵化条件下,孵化 6枚种蛋,观察其出雏情况 ; 又如观察两头临产妊娠母牛所产犊牛的性别情况,它们都具有随机试验的三个特征,因此都是随机试验。
下一张 主 页 退 出上一张
2、随机事件随机试验的每一种可能结果,在一定条件下可 能 发 生,也 可 能 不 发生,称为 随机事件
( random event),简称 事 件 (event),
通常用 A,B,C等来表示。
( 1)基本事件我 们 把 不 能 再 分的事件称为 基本事件
( elementary event),也 称 为 样本点
( sample point)。
下一张 主 页 退 出上一张例如,在编号为 1,2,3,…,10 的十头猪中随机抽取 1头,有 10种不同的可能结果:
,取 得 一 个 编 号 是 1”,,取得一个编号是 2”,…,,取得一个编号是 10”,这 10个事件都是不可能再分的事件,它们都是基本事件。
由若干个基本事件组合而成的事件称为 复合事件
( compound event)。如,取得一个编号是 2
的倍数,是一个复合事件,它由,取得一个编号是
2,,,是 4”,,是 6,,是 8”,,是 10”5个基本事件组合而成。
下一张 主 页 退 出上一张
( 2)必然事件我们把在一定条件下必然会发生的事件称为 必然事件 ( certain event),用 Ω表示。
例如,在严格按妊娠期母猪饲养管理的要求饲养的条件下,妊娠正常的母猪经 114天左右产仔,就是一个必然事件。
下一张 主 页 退 出上一张
( 3)不可能事件我们把在一定条件下不可能发生的事件称为 不可能事件 ( impossible event),用 ф
表示。
例如,在满足一定孵化条件下,从石头孵化出雏鸡,就是一个不可能事件。
必然事件与不可能事件实际上是确定性现象,即它们不是随机事件,但 是 为了方便起见,我们把它们看作为两个特殊的随机事件。
下一张 主 页 退 出上一张二,概 率
(一)概率的统计定义研究随机试验,仅知道可能发生哪些随机事件是不够的,还需了解各种随机事件发生的可能性大小,以揭示这些事件的内在的统计规律性,从而指导实践。这就要求有一个能够 刻划事件发生可能性大小的数量指标,这指标应该是事件本身所固有的,且不随人的主观意志而改变,人们 称之为概率 ( probability)。
事件 A的概率记为 P( A)。
下一张 主 页 退 出上一张概率的统计定义 在相同条件下进行 n次重复试验,如果随机事件 A发生的次数为 m,那么
m/n称为随机事件 A的 频率 ( frequency);
当试验重复数 n逐渐增大时,随机事件 A的频率越来越稳定地接近某一数值 p,那么 就 把 p
称为随机事件 A的 概率 。
下一张 主 页 退 出上一张这 样 定 义 的 概 率 称 为 统 计 概 率
( statistics probability),或者称 后验概率 ( posterior probability)。
例如 为了确定抛掷一枚硬币发生正面朝上这个事件的概率,历史上有人作过成千上万次抛掷硬币的试验。在表 4—1中列出了他们的试验记录。
下一张 主 页 退 出上一张表 4—1 抛掷一枚硬币发生正面朝上的试验记录下一张 主 页 退 出上一张从表 4-1可看出,随着实验次数的增多,
正面朝上这个事件发生的频率越来越稳定地接近 0.5,我们就把 0.5作为这个事件的概率。
在一般情况下,随机事件的概率 p是不可能准确得到的。通常以试验次数 n充分大时随机事件 A的频率作为该随机事件概率的近似值。
即 P( A) =p≈m/n ( n充分大) ( 4-1)
下一张 主 页 退 出上一张
(二)概率的古典定义对于某些随机事件,用不着进行多次重复试验来确定其概率,而是根据随机事件本身的特性直接计算其概率。
有很多随机试验具有以下特征:
1、试验的所有可能结果只有有限个,即样本空间中的基本事件只有有限个;
2、各 个 试验的可能结果出现的可能性相等,即所有基本事件的发生是等可能的;
3、试验的所有可能结果两两互不相容。
下一张 主 页 退 出上一张具有上述特征的随机试验,称为 古典概型
( classical model)。对于古典概型,概率的定义如下:
设样本空间由 n 个等可能的基本事件所构成,其中事件 A包含有 m个基本事件,则事件 A
的概率为 m/n,即
P( A) =m/n (4-2)
下一张 主 页 退 出上一张这样定义的概率称为 古典概率 (classical
probability)或 先验概率 (prior
probability)。
【 例 4.1】 在编号为 1,2,3,…,10的十头猪中随机抽取 1头,求下列随机事件的概率。
( 1) A=“抽得一个编号 ≤4”;
( 2) B=“抽得一个编号是 2的倍数,。
因为该试验样本空间由 10个等可能的基本事件构成,即 n=10,而事件 A所包含的基本事件有 4个,即抽得编号为 1,2,3,4中的任何一个,事件 A便发生,于是 mA=4,所以下一张 主 页 退 出上一张
P(A)=mA/n=4/10=0.4
同理,事件 B所包含的基本事件数 mB=5,
即抽得编号为 2,4,6,8,10中的任何一个,
事件 B便发生,故
P(B)=mB/n=5/10=0.5。
【 例 4.2】 在 N头奶牛中,有 M头曾有流产史,从这群奶牛中任意抽出 n头奶牛,试求,
(1)其中恰有 m头有流产史奶牛的概率是多少?
(2)若 N=30,M =8,n =10,m =2,其概率是多少?
下一张 主 页 退 出上一张我们把从有 M头奶牛曾有流产史的 N头奶牛中任意抽出 n头奶牛,其中恰有 m头有流产史这一事件 记为 A,因为从 N 头 奶 牛 中 任 意 抽 出 n 头 奶牛的基本事件总数为 ;
事件 A所包含的基本事件数为 ;
因此所求事件 A的概率为:
n
NC
mn MNmM CC
下一张 主 页 退 出上一张
n
N
mn
MN
m
M
C
CCAp,)(
将 N=30,M =8,n =10,m =2代入上式,得
= 0.0695
即在 30头奶牛中有 8头曾有流产史,从这群奶牛随机抽出 10 头奶牛其中有 2头曾有流产史的概率为 6.95%。
10
30
210
830
2
8,
C
CCAp)(
下一张 主 页 退 出上一张
(三)概率的性质
1、对于任何事件 A,有 0≤P( A) ≤1;
2、必然事件的概率为 1,即 P( Ω) =1;
3、不可能事件的概率为 0,即 P( ф) =0。
三、小概率事件实际不可能性原理随机事件的概率表示了随机事件在一次试验中出现的可能性大小。若随机事件的概率很小,例如小于 0.05,0.01,0.001,称之为小概率事件。
下一张 主 页 退 出上一张小概率事件虽然不是不可能事件,但在一次试验中出现的可能性很小,不出现的可能性很 大,以 至于实际上可以看成是不可能发生的。在统计学上,把小概率事件在一次试验中看成是实际不可能发生的事件称为小概率事件实际不可能性原理,亦称为小概率原理 。小概率事件实际不可能性原理是统计学上进行假设检验(显著性检验)的基本依据。
下一张 主 页 退 出上一张第二节 概率分布事件的概率表示了一次试验某一个结果发生的可能性大小。若要全面了解试验,则必须知道试验的全部可能结果及各种可能结果发生的概率,即必须知道随机试验的概率分布 (probability distribution)。为了深入研究随机试验,我 们 先引入随机变量
(random variable)的概念。
下一张 主 页 退 出上一张一、随机变量作一次试验,其结果有多种可能。每一种可能结果都可用一个数来表示,把这些数作为变量
x的取值范围,则试验结果可用变量 x来表示。
【 例 4.3】 对 100头病畜用某种药物进行治疗,其可能结果是,0头治愈,,,1头治愈,,
,2头治愈,,,…”,,100头治愈,。若用 x
表示治愈头数,则 x的取值为 0,1,2,…,
100。
下一张 主 页 退 出上一张
【 例 4.4】 孵化一枚种蛋可能结果只有两种,即,孵出小鸡,与,未孵出小鸡,。 若用变量 x表示试验的两种结果,则可令 x=0表示
,未孵出小鸡,,x=1表示,孵出小鸡,。
【 例 4.5】 测定某品种猪初生重,表示测定 结 果 的 变 量 x 所 取的值为一个特定范围
(a,b),如 0.5―1.5kg,x值可以是这个范围内的任何实数。
下一张 主 页 退 出上一张如果表示试验结果的变量 x,其可能取值至多为可列个,且 以各种确定的概率取这些不同的值,则 称 x 为 离 散 型 随 机 变 量
( discrete random variable);
如果表示试验结果的变量 x,其可能取值为某范围内的任何数值,且 x在其取值范围内的任一区间中取值时,其概率是确定的,则称
x为 连续 型 随 机 变 量 ( continuous
random variable)。
下一张 主 页 退 出上一张二、离散型随机变量的概率分布要了解离散型随机变量 x的统计规律,就必须 知 道它的一切可能值 xi及取每种可能值的概率 pi。
如果我们将离散型随机变量 x的一切可能取值 xi ( i=1,2,… ),及其对应的概率 pi,记作
P(x=xi)=pi i=1,2,… (4—3)
则称 ( 4—3)式为 离散型随机变量 x的概率分布或分布 。常用 分 布 列 (distribution
series)来表示离散型随机变量:
下一张 主 页 退 出上一张
x1 x2 … xn …,
p1 p2 … pn …
显然离散型随机变量的概率分布具有 pi≥0
和 Σpi=1这两个基本性质。
三、连续型随机变量的概率分布连续型随机变量 (如体长、体重、蛋重 )的概率分布不能用分布列来表示,因为其可能取的值是不可数的。我们改用随机变量 x在某个区间内取值的概率 P(a≤x<b)来表示。 下面通过频率分布密度曲线予以说明。
下一张 主 页 退 出上一张由表 2—7作 126头基础母羊体重资料的频率分布直方图,见图 4—1,图中纵座标取频率与组距的比值 。可以设想,如果样本取得越来越大 (n→ +∞),组分得越来越细 (i→ 0),
某一范围内的频率将趋近于一个稳定值 ── 概率。这时,频率分布直方图各个直方上端中点的联线 ── 频率分布折线将逐渐趋向于一条曲线,换句话说,当 n→ +∞,i→ 0时,频率分布折线下一张 主 页 退 出上一张的极限是一条稳定的函数曲线 。 对于样本是取自连续型随机变量的情况,这条函数曲线将是光滑的。 这条曲线排除了抽样和测量的误差,
完 全 反映了基础母羊体重的变动规律。 这条曲线叫 概率分布密度曲线,相应的函数叫 概率分布密度函数 。
下一张 主 页 退 出上一张
(4—4) 式 为 连 续 型 随机变量 x 在 区间 [a,b)上取值概率的表达式。可见,连续型随机变量的概率由概率分布密度函数确定。
图 4-1 表 2-7资料的分布曲线若记体 重概率分布密度函数为 f(x),则 x
取值于区间 [a,b)的概率为图中阴影部分的面积,即
P(a≤x<b)= (4-4)
ba dxxf )(
连续型随机变量概率分布的性质:
1、分布密度函数总是大于或等于 0,即
f(x)≥0;
2、当随机变量 x取某一特定值时,其概率等于 0;即
(c为任意实数 )
因而,对于连续型随机变量,仅研究其在某一个区间内取值的概率,而不去讨论取某一个值的概率。
下一张 主 页 退 出上一张
cc dxxfcxP 0)()(
3,在 一次试验中 随机变量 x之取值 必在
-∞< x< +∞范围内,为一必然事件。所以
(4-5)
(4—5)式表示分布密度曲线下、横轴上的全部面积为 1。
1)()(
dxxfxP
下一张 主 页 退 出上一张第三节 正态分布正态分布是一种很重要的连续型随机变量的概率分布。生物现象中有许多变量是服从或近似服从正态分布的。许多统计分析方法都是以正态分布为基础的。此外,还有不少随机变量的概率分布在一定条件下以正态分布为其极限分布。因此在统计学中,正态分布无论在理论研究上还是实际应用中,均占有重要的地位。
下一张 主 页 退 出上一张一、正态分布的定义及其特征
(一) 正态分布的定义 若连续型随机变量 x的概率分布密度函数为
(4-6)
其中 μ为平均数,σ2为方差,则称随机变量 x服从正态分布 (normal distribution),
记为 x~ N(μ,σ2)。相应的概率分布函数为
(4-7)
2
2
2
)(
2
1)(
x
exf
x
x
dxexF 2
2
2
)(
2
1)(
下一张 主 页 退 出上一张分布密度曲线如 图 4—2所示。
(二 ) 正态分布的特征
1、正态分布密度曲线是单峰、对称的悬钟形曲线,对称轴为 x=μ;
2,f(x) 在 x =μ 处达 到 极 大,极大值 ;
3,f(x)是非负函数,以 x轴为渐近线,分布从 -∞至 +∞;
2
1)(?f
下一张 主 页 退 出上一张
4、曲线在 x=μ± σ处各有一个拐点,即曲线在 (-∞,μ-σ)和 (μ+σ,+∞) 区间上是下凸的,在 [μ-σ,μ+σ]区间内是上凸的;
5、正态分布有两个参数,即平均数 μ和标准差 σ。
μ是位置参数,如 图 4—3所示。 当 σ恒定时,μ愈大,则曲线沿 x轴愈向右移动;反之,
μ愈小,曲线沿 x轴愈向左移动。
σ是变异度参数,如 图 4—4所示 。 当 μ恒定时,σ愈大,表示 x 的取值愈分散,曲线愈,胖,; σ愈小,x的取值愈集中在 μ附近,
曲线愈,瘦,。
下一张 主 页 退 出上一张
6、分布密度曲线与横轴所夹的面积为 1,
即:
1
2
1)( 2
2
2
)(
dxexP
x
下一张 主 页 退 出上一张二、标准正态分布由上述正态分布的特征可知,正态分布是依赖于参数 μ和 σ2 (或 σ) 的一簇 分布,正态曲线之位置及形态随 μ和 σ2的不同而不同 。 这就给研究具体的正态总体带来困难,需将一般的 N(μ,σ2) 转 换为 μ= 0,σ2=1的正态分布。
我们称 μ=0,σ2=1的正态分布为标准正态分布 (standard normal distribution)。
标准正态分布的概率密度函数及分布函数分别记作 ψ(u)和 Φ(u),由 (4-6)及 (4-7) 式得:
(4-8)
(4-9)
随机变量 u服从标准正态分布,记作 u~
N(0,1),分布密度曲线如 图 4—5所示。
2
2
2
1)( ueu
dueu u
u?
2
2
1
2
1)(
下一张 主 页 退 出上一张对于任何一个服从正态分布 N(μ,σ2)的随机变量 x,都可以通过标准化变换:
u=(x-μ)/ σ (4-10)
将 其变换为服从标准正态分布的随机变量
u。
u 称 为 标 准 正 态变量或标准正态离差
(standard normal deviate)。
下一张 主 页 退 出上一张三、正态分布的概率计算
(一)标准正态分布的概率计算设 u服从标准正态分布,则 u 在 [u1,u2 )
何内取值的概率为:
= Φ(u2)- Φ(u1) (4-11)
而 Φ(u1)与 Φ(u2)可由附表 1查得。
dueduedueuuuP u uu uu
u
u
1 22 22
1
2
2
1
2
1
2
1
21 2
1
2
1
2
1)(
下一张 主 页 退 出上一张例如,u=1.75,1.7放在第一列 0.05放在第一行 。 在附表 1中,1.7所在行与 0.05
所在列相交处的数值为 0.95994,即
Φ(1.75)=0.95994
有 时 会 遇 到 给 定 Φ(u) 值,例 如
Φ(u)=0.284,反过来查 u值。这只要在附表
1中找到与 0.284 最接近的值 0.2843,对应行的第一列数 -0.5,对应列的第一行数 值
0.07,即相应的 u值为 u = - 0.57,即
Φ(-0.57)=0.284
如果要求更精确的 u值,可用线性插值法计算。
下一张 主 页 退 出上一张由 (4-11) 式及正态分布的对称性可推出下列关系式,再借助附表 1,便能很方便地计算有关概率:
P(0≤u< u1)= Φ(u1)-0.5
P(u≥u1) =Φ(-u1)
P(| u| ≥u1)=2Φ(-u1) (4-12)
P(| u|< u1== 1-2Φ(-u1)
P(u1≤u< u2)= Φ(u2)-Φ(u1)
下一张 主 页 退 出上一张
【 例 4.6】 已知 u~ N(0,1),试求:
(1) P(u< -1.64)=?
(2) P (u≥2.58)=?
(3) P (| u| ≥2.56)=?
(4) P(0.34≤u< 1.53) =?
下一张 主 页 退 出上一张利用 (4-12)式,查附表 1得:
(1) P(u< -1.64)=0.05050
(2) P (u≥2.58)=Φ(-2.58)=0.024940
(3) P (| u| ≥2.56)
=2Φ(-2.56)=2× 0.005234
=0.010468
(4) P (0.34≤u< 1.53)
=Φ(1.53)-Φ(0.34)
=0.93669-0.6331=0.30389
下一张 主 页 退 出上一张关于标准正态分布,以下几种概率应当熟记:
P( -1≤u< 1) =0.6826
P( -2≤u< 2) =0.9545
P( -3≤u< 3) =0.9973
P( -1.96≤u< 1.96) =0.95
P (-2.58≤u< 2.58)=0.99
图 4—6 标准正态分布的三个常用概率下一张 主 页 退 出上一张
u变量在上述区间以外取值的概率分别为:
P(| u| ≥1)=2Φ(-1)=1- P(-1≤u< 1)
=1-0.6826=0.3174
P(| u| ≥2)=2Φ(-2)
=1- P( -2≤u< 2)
=1-0.9545=0.0455
P(| u| ≥3)=1-0.9973=0.0027
P(| u| ≥1.96)=1-0.95=0.05
P(| u| ≥2.58)=1-0.99=0.01
下一张 主 页 退 出上一张
(二)一般正态分布的概率计算正 态 分 布 密度曲线和横轴围成的一个区域,其面积为 1,这实际上表明了,随机变量 x
取值在 -∞与 +∞之间,是一个必然事件,其概率为 1。
若随机变量 x服从正态分布 N(μ,σ2),则 x
的取值落在任意区间 [x1,x2) 的概率,记作 P(x1≤ x < x2),等于 图 4—7 中阴影部分曲边梯形面积。即:
下一张 主 页 退 出上一张
(4-13)
对 (4-13)式作变换 u=(x-μ)/ σ,得
dx=σdu,故有其中,
dxexxxP x
x
x
2
1
2
2
2
)(
21 2
1)(
dueduexxxP
x
x
ux
x
x
/)(
/)(
2
1
2
)(
21
2
1
2
2
1
2
2
2
1
2
1)(
)()( 122
1
2
1
2
2
1 uudueu
u
u
2
2
1
1,
xuxu
下一张 主 页 退 出上一张这表明服从正态分布 N(μ,σ2)的随机变量
x 在 [ x1,x2 )内取值的概率,等 于服 从标 准 正 态 分 布 的 随 机 变 量 u 在
[(x1-μ)/σ,(x2-μ)/σ)内取值的概率 。
因此,计算一般正态分布的概率时,只要将区间的上下限作适当变换 (标准化 ),就可用查标准正态分布的概率表的方法求得概率了。
下一张 主 页 退 出上一张
【 例 4.7】 设 x服从 μ=30.26,σ2=5.102的正态分布,
试求 P(21.64≤x< 32.98)。
令则 u服从标准正态分布,故
=P(-1.69≤u< 0.53)
=Φ(0.53)-Φ(-1.69)
=0.7019-0.04551
=0.6564
)10.5 26.3098.3210.5 26.3010.5 26.3064.21()98.3264.21( xPxP
下一张 主 页 退 出上一张
10.5
26.30 xu
关于一般正态分布,以下几个概率 (即随机变量 x落在 μ加减不同倍数 σ区间的概率 )是经常用到的。
P(μ-σ≤x< μ+σ)=0.6826
P(μ-2σ≤x< μ+2σ) =0.9545
P (μ-3σ≤x< μ+3σ) =0.9973
P (μ-1.96σ≤x< μ+1.96σ) =0.95
P (μ-2.58σ≤x< μ+2.58σ)=0.99
上述关于正态分布的结论,可用一实例来印证。
从 图 2-7可以看出,126头 基础母羊体重资料的次数分布接近正态分布,现 根据 其 平均数 = 52.26 (kg),标 准差 S=5.10(kg),算出平均数加减不同倍数标准差区间内 所包括的次数与频率,列于表 4—2。
x
下一张 主 页 退 出上一张表 4—2 126头基础母羊体重在 ± kS
区间内所包括的次数与频率下一张 主 页 退 出上一张
x
x
由表 4—2可见,实际频率与理论概率相当接近,说明 126 头基础母羊体重资料的频率分布接近正态分布,从而可推断基础母羊体重这一随机变量很可能是服从正态分布的。
生物统计中,不仅注意随机变量 x落在平均数加减不同倍数标准差区间 (μ-kσ,μ+kσ)之内的概率而且 也很 关心 x落在此区间之外的概率。
我们把随机变量 x落在平均数 μ加减不同倍数标准差 σ区间之外的概率称为 双侧概率 (两尾概率 ),记作 α。
下一张 主 页 退 出上一张对应于双侧概率可以求得随机变量 x小于 μ-
kσ或大于 μ+kσ的概率,称为 单侧概率 (一尾概率 ),记作 α/ 2。
例如,x落在 (μ-1.96σ,μ+1.96σ)之外的双侧概率为 0.05,而单侧概率为 0.025。即
P(x< μ-1.96σ= = P(x> μ+1.96σ)=0.025
双侧概率或单侧概率如 图 4—8所示。
x落在 (μ-2.58σ,μ+2.58σ)之外的双侧概率为 0.01,而单侧概率
P(x< μ-2.58σ)= P(x> μ+2.58σ)=0.005
下一张 主 页 退 出上一张附表 2给出了满足 P (| u|> )=α的双侧分位 的数值。因此,只要已知双侧概率 α的值,由附表 2就可直接查出对应的双侧分位数,查法与附表 1相同。
例如,已知 u~ N(0,1)试求:
(1) P(u< - )+P(u≥ )=0.10的
(2) P(- ≤u< ﹚ =0.86的因为附表 2中的 α值是:
u
u
u
due
u
u
u
2
2
1
2
1
1
下一张 主 页 退 出上一张
u?u?u
u?u?
u
所以 ( 1) P(u< - )+ P(u≥ )
=1- P(- ≤ u< ﹚ =0.10=α
由附表 2查得,=1.644854
(2) P (- ≤u < ) =0.86,
α=1- P (- ≤u< )=1-0.86=0.14
由附表 2查得,=1.475791
对于 x~ N(μ,σ2),只要将其转换为 u~
N(0,1),即可求得相应的双侧分位数。
10.0u
14.0u
下一张 主 页 退 出上一张
u?u
u?u
u?u
u?u
【 例 4.8】 已知猪血红蛋白含量 x服从正态分布 N ( 12.86,1.332 ),若 P (x < )
=0.03,P(x≥ )=0.03,求,。
由题意可知,α/ 2=0.03,α=0.06 又因为
P(x≥)=
故 P(x< )+ P(x≥ )
= P(u< - ) + P(u≥ )
1l
2l 1l 2l
03.0)()
33.1
86.12
33.1
86.12()( 1
1
uuP
lxPlxP
03.0)()33.1 86.1233.1 86.12( 2uuPlxP
1l 2
l 下一张主 页退 出上一张
u?u
=1- P(- ≤u< )=0.06=α
由附表 2查得,=1.880794,所以
( -12.86)/1.33=-1.880794
( -12.86)/1.33=1.880794
即 ≈10.36,≈15.36。
u
06.0u
1l
2l
1l 2l
下一张 主 页 退 出上一张
u
第四节 二项分布一、贝努利试验及其概率公式将某随机试验重复进行 n次,若各次试验结果互不影响,即每次试验结果出现的概率都不依赖于其它各次试验的结果,则称这 n次试验是独立的 。
对于 n次独立的试验,如果每次试验结果出现且只出现对立事件 A与 之一,在每次试验中出现 A的概率是常数 p(0<p<1),因而出现对立事件 的概率是 1-p=q,则 称 这一串重复的独立试验为 n重贝努利试验,简称贝努利试验 (Bernoulli trials )。
A
A
下一张 主 页 退 出上一张在生物学研究中,我们经常碰到的一类离散型随机变量,如入孵 n枚种蛋的出雏数,n头病畜治疗后的治愈数,n 尾鱼苗的成活数等,
可用贝努利试验来概括。
在 n重贝努利试验中,事件 A 可能发生 0,
1,2,…,n次,现在我们来求事件 A 恰好发生 k(0≤k≤n)次的概率 Pn(k)。
先取 n=4,k=2来讨论。在 4次试验中,
事件 A发生 2次的方式有以下 种:2
4C
4321 AAAA 4321 AAAA 4321 AAAA
4321 AAAA 4321 AAAA 4321 AAAA
下一张 主 页 退 出上一张其中 Ak(k=1,2,3,4)表示事件 A在第 k次试验发生; (k=1,2,3,4)表示事件 A在第 k
次试验不发生。由于试验是独立的,按 概率的乘法法则,于是有
P( )=P( )=… = P( )
= P( )·P( )·P( )·P( )=
又由于以上各种方式中,任何二种方式都是互不相容的,按 概率的加法法则,在 4 次试验中,事件 A恰好发生 2次的概率为
kA
4321 AAAA 4321 AAAA 4321 AAAA
1A 2A 3A 4A 242?qp
下一张 主 页 退 出上一张
P4(2) = P( ) + P( ) + …
+ P( )=
一般,在 n重贝努利试验中,事件 A恰好发生
k(0≤k≤n)次的概率为
k=0,1,2…,n (4-14)
若把 (4-14)式与二项展开式相比较就可以发现,在 n重贝努利试验中,事件 A发生
k次的概率恰好等于 展开式中的第 k+1项,所以也把
(4-14)式称作 二项概率公式 。
4321 AAAA 4321 AAAA
4321 AAAA 24224?qpC
knkkkn qpCkP)(
n
k
knkk
n
n qpCpq
0
)(
下一张 主 页 退 出上一张二、二项分布的意义及性质二项分布定义如下:
设随机变量 x所有可能取的值为零和正整数:
0,1,2,…,n,且有
= k=0,1,2…,n
其中 p> 0,q> 0,p+q=1,则称 随机变量 x服从参数为 n和 p的二项分布 (binomial
distribution),记为 x~ B(n,p)。
)(kPn knC knkqp?
下一张 主 页 退 出上一张二 项 分布是一种离散型随机变量的概率分布。参数 n称为离散参数,只能取正整数;
p 是连续参数,它能取 0与 1之间的任何数值 (q
由 p确定,故不是另一个独立参数 )。
容易验证,二项分布具有概率分布的一切性质,即:
1,P(x=k)= Pn(k) (k=0,1,…,n)
2、二项分布的概率之和等于 1,即
1)(
0
n
n
k
knkk
n pqqpC
下一张 主 页 退 出上一张
3,(4-15)
4,(4-16)
5、
( m1<m2) (4-17)
二项分布由 n和 p两个参数决定:
1、当 p值较小且 n不大时,分 布 是偏倚的。但随着 n的增大,分布逐渐趋于对称,如图 4—9 所示;
m
k
knkk
nn qpCmkPmxP
0
)()(
n
mk
knkk
nn qpCmkPmxP )()(
2
1
)()( 2121
m
mk
knkk
nn qpCmkmpmxmP
下一张 主 页 退 出上一张
2、当 p 值 趋 于 0.5 时,分 布 趋于对称,如 图 4—10所示;
3、对于固定的 n及 p,当 k增加时,Pn(k)
先随之增加并达到其极大值,以后又下降。
此外,在 n较大,np,nq 较接近时,二项分布接近于正态分布;当 n→ ∞时,二项分布的极限分布是正态分布。
下一张 主 页 退 出上一张三、二项分布的概率计算及应用条件
【 例 4.9】 纯种白猪与纯种黑猪杂交,根据孟德尔遗传理论,子二代中白猪与黑猪的比率为 3∶ 1。求窝产仔 10头,有 7头白猪的概率。
根据题意,n=10,p=3/ 4=0.75,
q=1/ 4=0.25。设 10头仔猪中白色的为 x头,
则 x为服从二项分布 B(10,0.75)的随机变量。
于是窝产 10头仔猪中有 7头是白色的概率为:
2503.025.075.0!3!7 !1025.075.0)7( 3737710 CxP
下一张 主 页 退 出上一张
【 例 4.10】 设在家畜中感染某种疾病的概率为 20%,现有两种疫苗,用疫苗 A 注射了
15头家畜后无一感染,用疫苗 B 注射 15头家畜后有 1头感染。设各头家畜没有相互传染疾病的可能,问:应该如何评价这两种疫苗?
假设疫苗 A完全无效,那么注射后的家畜感染的概率仍为 20%,则 15 头家畜中染病头数 x=0的概率为
0 3 5 2.080.020.0)0( 150015 Cxp
下一张 主 页 退 出上一张同理,如果疫苗 B完全无效,则 15头家畜中最多有 1头感染的概率为由计算可知,注射 A 疫苗无效的概率为
0.0352,比 B疫苗无效的概率 0.1671小得多。
因此,可以认为 A疫苗是有效的,但不能认为 B
疫苗也是有效的。
1 6 7 1.08.02.08.02.0)1( 141115150015 CCxp
下一张 主 页 退 出上一张
【 例 4.11】 仔猪黄痢病在常规治疗下死亡率为 20%,求 5 头病猪治疗后死亡头数各可能值相应的概率。
设 5头病猪中死亡头数为 x,则 x服从二项分布 B(5,0.2),其所有可能取值为 0,1,…,5,
按 (4-6)式计算概率,用分布列表示如下:
0 1 2 3 4 5
0.3277 0.4096 0.2048 0.0512 0.0064 0.0003
下一张 主 页 退 出上一张二项分布的应用条件有三:
( 1)各观察单位 只具有互相对立 的一种结果,如阳性或阴性,生存或死亡等,属于二项分类资料;
( 2)已知发生某一结果 (如死亡 ) 的概率为
p,其对立结果的概率则为 1-P=q,实际中要求
p 是从大量观察中获得的比较稳定的数值;
( 3) n个观察单位的观察结果互相独立,即每个观察单位的观察结果不会影响到其它观察单位的观察结果。
下一张 主 页 退 出上一张四、二项分布的平均数与标准差统计学证明,服从二项分布 B(n,p)的随机变量之平均数 μ、标准差 σ与参数 n,p有如下关系:
当试验结果以事件 A发生次数 k表示时
μ=np (4-18)
σ= (4-19)
npq
下一张 主 页 退 出上一张
【 例 4.12】 求 【 例 4.11】 平均死亡猪数及死亡数的标准差。
以 p=0.2,n=5代入 (4-18)和
(4-19) 式得:
平均死亡猪数 μ=5× 0.20=1.0(头 )
标准差 σ= =
=0.894(头 )npq 8.02.05
当试验结果以事件 A发生的频率 k/ n表示时
(4-20)
(4-21)
也称为总体百分数标准误,当 p 未 知时,常以样本百分数 来估计。此时 (4-21)
式改写为:
= (4-22)
称为样本百分数标准误。
pp
npq /)(
p?
p?
nqp /)( pq?1pS
pS
下一张 主 页 退 出上一张第五节 波松分布波松分布是一种 可以用来描述和分析随机地发生在单位空间或 时间里的 稀有事件 的概率分布。要观察到这类事件,样本含量 n 必须很大 。
在生物、医学研究中,服从波松分布的随机变量是常见的。如,一定畜群中某种患病率很低的非传染性疾病患病数或死亡数,畜群中遗传的畸形怪胎数,每升饮水中大肠杆菌数,
计数器小方格中血球数,单位空间中某些野生动物或昆虫数等,都是服从波松分布的。
下一张 主 页 退 出上一张一、波松分布的意义若随机变量 x(x=k)只取零和正整数值 0,
1,2,…,且其概率分布为
,k=0,1,…… (4-23)
其中 λ> 0; e=2.7182… 是自然对数的底数,则 称 x 服 从 参 数 为 λ 的 波 松分布
(Poisson?s distribution),记 为 x~
P(λ)。
e
kkxP
k
!)(
下一张 主 页 退 出上一张波松分布重要的特征:
平均数和方差相等,都等于常数 λ,即
μ=σ2=λ
【 例 4.13】 调查某种猪场闭锁育种群仔猪畸形数,共记录 200窝,畸形仔猪数的分布情况如表 4-3所示。试判断畸形仔猪数是否服从波松分布。
下一张 主 页 退 出上一张表 4-3 畸形仔猪数统计分布样本均数和方差 S2计算结果如下:
=Σfk/n
=(120× 0+62× 1
+15× 2+2× 3+1× 4)/200
=0.51
x
下一张 主 页 退 出上一张
=0.51,S2=0.52,这两个数是相当接近的,因此可以认为畸形仔猪数服从波松分布。
52.0
1200
200/)10241322151620120(
1
/)(
222222
22
2
n
nfkfk
s
x
下一张 主 页 退 出上一张
λ是波松分布所依赖的唯一参数。 λ
值愈小分布愈偏倚,随着 λ的增大,分 布趋于对称 (如 图 4-11所示 )。当 λ= 20时分布接近于正态分布;当 λ=50时,可以认 为波松分布呈正态分布。 所以在实际工作中,当 λ≥20时就可以用正态分布来近似地处理波松分布的问题。
二、波松分布的概率计算由 (4-23)式可知,波松分布的概率计算,
依赖于参数 λ的确定,只要参数 λ确定了,把
k=0,1,2,… 代入 (4-23)式即可求得各项的概率。 但是在大多数服从波松分布的实例中,
分布参数 λ往往是未知的,只能从所观察的随机样本中计算出相应的样本平均数作为 λ 的 估计值,将其代替 (4-23)式中的 λ,计算出 k = 0,
1,2,… 时的各项概率。
下一张 主 页 退 出上一张如 【 例 4.13】 中已判断畸形仔猪数服从波松分布,并已算出样本平均数 =0.51。将
0.51代替公式( 4-23)中的 λ得:
(k=0,1,2,… )
因为 e-0.51=1.6653,所以畸形仔猪数各项的概率为:
P(x=0)=0.510/ (0!× 1.6653)=0.6005
P(x=1)=0.511/ (1!× 1.6653)=0.3063
P(x=2)=0.512/ (2!× 1.6653)=0.0781
51.0
!
51.0)( e
kkxP
k
下一张 主 页 退 出上一张
P(x=3)=0.513/ (3!× 1.6653)=0.0133
P(x=4)=0.514/ (4!× 1.6653)=0.0017
把上面各项概率乘以总观察窝数 (n=200)
即得各项按波松分布的理论窝数。 波松分布与相应的频率分布列于表 4—7中。
0 0 0 1.09 9 9 9.01)(1)4(
4
0
k
kxpxP
下一张 主 页 退 出上一张表 4—4 畸形仔猪数的波松分布将实际计算得的频率与根据 λ=0.51的泊松分布计算的概率相比较,发现畸形仔猪的频率分布与 λ=0.51 的 波松分布是吻合得很好的 。这进一步说明了畸形仔猪数是服从波松分布的。
下一张 主 页 退 出上一张
【 例 4.14】 为监测饮用水的污染情况,现检验某社区每毫升饮用水中细菌数,共得 400
个记录如下:
试分析饮用水中细菌数的分布是否服从波松分布。若服从,按波松分布计算每毫升水中细菌数的概率及理论次数并将頻率分布与波松分布作直观比较。
下一张 主 页 退 出上一张经计算得每毫升水中平均细菌数
=0.500,方差 S2=0.496。两者很接近,故可认为每毫升水中细菌数服从波松分布。以
=0.500代替( 4-23)式中的 λ,得
(k=0,1,2… )
计算结果如表 4—5所示。
5.0
!
5.0)( e
k
kxP
k
x
x
下一张 主 页 退 出上一张表 4—5 细菌数的波松分布可见细菌数的频率分布与 λ=0.5的波松分布是相当吻合的,进一步说明用波松分布描述单位容积 (或面积 )中细菌数的分布是适宜的。
下一张 主 页 退 出上一张注意,二项分布的应用条件也是波松分布的应用条件。比如二项分布要求 n 次试验是相互独立的,这也是波松分布的要求。然而一些具有传染性的罕见疾病的发病数,因为首例发生之后可成为传染源,会影响到后续病例的发生,所以不符合波松分布的应用条件。对于在单位时间、单位面积或单位容积内,所观察的事物由于某些原因分布不随机时,如细菌在牛奶中成集落存在时,亦不呈波松分布。
下一张 主 页 退 出上一张前面讨论的三个重要的概率分布中,前一个属连续型随机变量的概率分布,后两个属离散型随机变量的概率分布 。 三 者间的关系如下:
对于二项分布,在 n→ ∞,p→ 0,且 n p
=λ(较小常数 )情况下,二项分布 趋于 波 松布。在这种场合,波松分布中的参数 λ用二项分布的 n p代之;在 n→ ∞,p→ 0.5时,二项分布趋于正态分布。在这种场合,正态分布中的 μ,σ2用二项分布的 n p,n p q代之。在实际计算中,当 p< 0.1且 n 很大时,二项分布可由波松分布近似;当 p> 0.1且 n很大时,
二项分布可由正态分布近似。
下一张 主 页 退 出上一张对于波松分布,当 λ→ ∞时,波松分布以正态分布为极限。在实际计算中,当 λ≥20
(也有人认为 λ≥6)时,用波松分布中的 λ代替正态分布中的 μ及 σ2,即可由后者对前者进行近似计算。
下一张 主 页 退 出上一张第六节 样本平均数的抽样分布研究总体与从中抽取的样本之间的关系是统计学的中心内容 。对这种关系的研究可从两方面着手,一是从总体到样本,这就是研究 抽样分布 (sampling distribution)
的问题; 二是从样本到总体,这就是 统计推断 (statistical inference)问题。
下一张 主 页 退 出上一张统计推断是以总体分布和样本抽样分布的理论关系为基础的。为了能正确地利用样本去推断总体,并能正确地理解统计推断的结论,
须对样本的抽样分布有所了解。
我们知道,由总体中随机地抽取若干个体组成样本,即使每次抽取的样本含量相等,其统计量 (如,S)也将随样本的不同而有所不同,
因而样本统计量也是随机变量,也有其概率分布。我们把 统计量的概率分布称为抽样分布 。
下一张 主 页 退 出上一张一、样本平均数抽样分布由总体随机抽样 (random sampling)
的方法可分为 有返置抽样和不返置抽样 两种。
前者指每次抽出一个个体后,这个个体应返置回原总体;后者指每次抽出的个体不返置回原总体。对于无限总体,返置与否都可保证各个体被抽到的机会相等。对于有限总体,就应该采取返置抽样,否则各个体被抽到的机会就不相等。
下一张 主 页 退 出上一张设有一个总体,总体平均数为 μ,方差为 σ2,总体中各变数为 x,将 此总体称为原总体。现从这个总体中随机抽取含量为 n的样本,样本平均数记为 。
可以设想,从原总体中可抽出很多甚至无穷多个含量为 n的样本。由这些样本算得的平均数有大有小,
不尽相同,与原总体平均数 μ相比往往表现出不同程度的差异。这种差异是由随机抽样造成的,称为 抽样误差 (sampling error)。
显然,样本平均数也是一个随机变量,其概率分布叫做 样本平均数的抽样分布 。由样本平均数构成的总体称为 样本平均数的抽样总体 。
下一张 主 页 退 出上一张
x
其平均数和标准差分别记为 和 。
是样本平均数抽样总体的标准差,简称 标准误 (standard error),它 表示平均数抽样误差的大小 。统计学上已证明总体的两个参数与 x 总体的两个参数有如下关系:
=μ,(4—24)
x? x
x?
x? nx
下一张 主 页 退 出上一张设有一个 N=4 的 有 限总体,变数为 2、
3,3,4。根据 μ=Σx/ N和 σ2=Σ(x-μ)2/
N求得该总体的 μ,σ2,σ为:
μ=3,σ2=1/ 2,σ= =0.707
21
下一张 主 页 退 出上一张从有限总体作返置随机抽样,所有可能的样本数为 Nn其中 n为样本含量 。以上述总体而论,
如果从中抽取 n=2的样本,共可得 42=16 个样本;如果样本含量 n为 4,则 一 共 可 抽 得
44=256个样本。分别求这些样本的平均数,
其次数分布如表 4—6所示。
根据表 4—6,在 n=2的试验中,样本平均数抽样总体的平均数、方差与标准差分别为:
x
下一张 主 页 退 出上一张
=4/16=1/4=(1/2)/2=
316/0.48/ nx Nxf
16
16/48148/)()( 22222
n
n
n
x
x N
Nxfxf
N
xf
n/2?
nxx 2/214/12
下一张 主 页 退 出上一张表 4—6 N=4,n=2和 n=4时的次数分布下一张 主 页 退 出上一张同理,可得 n=4时:
这就验证了 =μ,的正确性。
若将表 4—6中两个样本平均数的抽样总体作次数分布图,则如 图 4-12所示。
32 5 6/7 6 8x
nx /4/)2/1(8/12 5 6/32 22
nx
42181
x? nx /
下一张 主 页 退 出上一张由以上模拟抽样试验可以看出,虽然原总体并非正态分布,但从中随机抽取样本,即使样本含量很小 (n=2,n=4),样本平均数的分布却趋向于正态分布形式。随着样本含量 n 的增大,样本平均数的分布愈来愈从不连续趋向于连续的正态分布。比较图 4—12两个分布,
在 n由 2增到 4时,这种趋势表现得相当明显。
当 n> 30时,的分布就近似正态分布了。 X
变量与 变量概率分布间的关系可由下列两个定理说明:
x
x
下一张 主 页 退 出上一张
1,若 随 机 变 量 x 服 从 正 态 分 布
N(μσ2) ;,,…,,是由 x 总体得来的随机样本,则统计量 =Σx/ n的概率分布也是正态分布,且有 =μ,,
即服从正态分布 N(μ,σ2/ n)。
2,若随机变量 x服从平均数是 μ,方差是
σ2的分布 (不是正态分布 );,,…,是由此总体得来的随机样本,则 统 计 量
=Σx/ n的概率分布,当 n相当大时逼近正态分布 N(μ,σ2/ n)。这就是中心极限定理。
1x 2x nx
x
x? nx /
1x 2x nx
x
下一张 主 页 退 出上一张中心极限定理告诉我们:不论 x变量是连续型还是离散型,也无论 x服从何种分布,一般只要 n> 30,就可认为 的分布是正态的。 若
x的分布不很偏倚,在 n> 20时,的分布就近似于正态分布了。
x
下一张 主 页 退 出上一张二、标 准 误标准误 (平均数抽样总体的标准差 )
的大小反映样本平均数 的抽样误差的大小,
即精确性的高低 。 标准误大,说明各样本平均数 间差异程度大,样本平均数的精确性低。
反之,小,说明间的差异程度小,样本平均数的精确性高。 的大小与原总体的标准差 σ
成正比,与样本含量 n的平方根成反比。从某特定总体抽样,因为 σ是一常数,所以只有增大样本含量才能降低样本平均数 的抽样误差。
nx /
x
x
x?
x?
x
下一张 主 页 退 出上一张在实际工作中,总体标准差 σ往往是未知的,因而无法求得 。此时,可用样本标准差
S估计 σ。于是,以 估计 。记 为,
称作 样本标准误或均数标准误。样本标准误是平均数抽样误差的估计值 。若样本中各观测值为,,…,,则
(4-25)
x?
nS x
nS
xS
xS
1x 2x
nx
)1(
/)(
)1(
)( 222
nn
nxx
nn
xx
n
SS
x
下一张 主 页 退 出上一张注意,样本标准差与样本标准误是既有联系又有区别的两个统计量,(4—25) 式已表明了二者的联系。二者的区别在于:
样 本 标 准 差 S 是 反 映 样 本中各 观测值,,…,变 异 程 度大小的一个指标,它的大小说明了 对 该 样本代表性的强弱。
样本标准误是样本平均数 的标准差,它是抽样误差的估计值,其大小说明了样本间变异程度的大小及精确性的高低。
kxxx,...,,21
1x 2x
nx
x
下一张 主 页 退 出上一张对于大样本资料,常将样本标准差 S与样本平均数 配合使用,记为 ± S,用以说明所考察性状或指标的优良性与稳定性。
对于小样本资料,常将样本标准误 与样本平均数 配合使用,记为 ±,用以表示 所考察性状或指标的优良性与 抽样误差的大小。
x x
xS
x x xS
下一张 主 页 退 出上一张第七节 t 分 布由样本平均数抽样分布的性质知道,若
x~ N(μ,σ2),则 ~ N(μ,σ2/n)。 将随机变量 标准化得:,则
u~ N(0,1)。 当总体标准差 σ未知时,以样本标准差 S代替 σ所得到的统计量记为 t。在计算 时,由于采用 S来代替 σ,
使得 t 变量不再服从标准正态分布,而是服从
t分布 (t- distribution)。它的概率分布密度函数如下:
x
xS
x xxu /)(
xSx /)(
下一张 主 页 退 出上一张
(4-26)
式中,t的取值范围是( -∞,+∞);
df=n-1为自由度。
t分布的平均数和标准差为:
μt= 0 (df>1),(df>2) (4-27)
t分布密度曲线如 图 4-13 所示,其特点是:
2
12
)1()2/( ]2/)1[(1)(
df
df
t
df
df
df
tf
)2/( dfdft?
下一张 主 页 退 出上一张
1,t分布受自由度的制约,每一个自由度都有一条 t分布密度曲线。
2,t分布密度曲线以纵轴为对称轴,左右对称,
且在 t= 0时,分布密度函数取得最大值。
3、与标准正态分布曲线相比,t分布曲线顶部略低,两尾部稍高而平。 df越小这种趋势越明显。 df越大,t分布越趋近于标准正态分布。当 n >30时,t分布与标准正态分布的区别很小; n >100时,t分布基本与标准正态分布相同; n→ ∞时,t 分布与标准正态分布完全一致。
下一张 主 页 退 出上一张
t分布的概率分布函数为:
(4-28)
因而 t在区间( t1,+∞)取值的概率 ——
右尾概率为 1-F t (df)。由于 t分布左右对称,t
在区间( -∞,-t1)取值的概率也为 1-F t df)。
于是 t 分布 曲线 下由 -∞到 - t 1和由 t 1到
+∞ 两 个 相 等 的 概 率 之和 ——两尾概率为
2(1-F t (df))。对于不同自由度下 t分布的两尾概率及其对应的临界 t值已编制成附表 3,即 t分布表。
1 )()( 1)( tdft dttfttPF
下一张 主 页 退 出上一张例如,当 df=15时,查附表 3得两尾概率等于
0.05的临界 t值为 =2.131,其意义是:
P(-∞<t<-2.131)= P(2.131<t<+∞)
=0.025;
P(-∞<t<-2.131)+ (2.131<t<+∞)
=0.05。
由附表 3可知,当 df一定时,概率 P越大,临界 t
值越小;概率 P越小,临界 t值越大 。 当 概 率 P 一定时,随着 df的增加,临界 t值在减小,当 df=∞时,
临界 t值与标准正态分布的临界 u值相等。
下一张 主 页 退 出上一张
正确掌握和应用以后各章所介绍的统计分析方法,本章在介绍概率论中最基本的两个概念 —
—事件、概率的基础上,重点介绍生物科学研究中常用的几种随机变量的概率分布 ——正态分布、二项分布、波松分布以及样本平均数的抽样分布和 t分布。
下一张 主 页 退 出上一张第一节 事件与概率一、事 件
(一)必然现象与随机现象在自然界与生产实践和科学试验中,人们会观察到各种各样的现象,把它们归纳起来,大体上分为两大类:
下一张 主 页 退 出上一张一类是可预言其结果的,即在保持条件不变的情况下,重复进行试验,其结果总是确定的,必然发生(或必然不发生)。这类现象称为 必然现象 ( inevitable phenomena)
或 确定性现象 ( definite phenomena)。
另一类是事前不可预言其结果的,即在保持条件不变的情况下,重复进行试验,其结果未必相同。这类在个别试验中其结果呈现偶然性、不确定性现象,称为 随机现象 ( random
phenomena ) 或 不 确 定 性 现 象
( indefinite phenomena)。
下一张 主 页 退 出上一张随机现象或不确定性现象,有如下特点:
在一定的条件实现时,有多种可能的结果发生,事前人们不能预言将出现哪种结果;对一次或少数几次观察或试验而言,其结果呈现偶然性、不确定性;
但在相同条件下进行大量重复试验时,其试验结果却呈现出某种固有的特定的规律性 —
—频率的稳定性,通常称之为随机现象的统计规律性。
下一张 主 页 退 出上一张
(二)随机试验与随机事件
1、随机试验 通常我们把根据某一研究目的,在一定条件下对自然现象所进行的观察或试验统称为 试验 ( trial)。 而一个试验如果满足下述三个特性,则 称 其 为 一个 随机试验 ( random trial),简称 试验,
下一张 主 页 退 出上一张
( 1)试验可以在相同条件下多次重复进行;
( 2)每次试验的可能结果不止一个,并且事先知道会有哪些可能的结果;
( 3)每次 试验总是恰好出现这些可能结果中的一个,但在一次试验之前却不能肯定这次试验会出现哪一个结果。
例如在一定孵化条件下,孵化 6枚种蛋,观察其出雏情况 ; 又如观察两头临产妊娠母牛所产犊牛的性别情况,它们都具有随机试验的三个特征,因此都是随机试验。
下一张 主 页 退 出上一张
2、随机事件随机试验的每一种可能结果,在一定条件下可 能 发 生,也 可 能 不 发生,称为 随机事件
( random event),简称 事 件 (event),
通常用 A,B,C等来表示。
( 1)基本事件我 们 把 不 能 再 分的事件称为 基本事件
( elementary event),也 称 为 样本点
( sample point)。
下一张 主 页 退 出上一张例如,在编号为 1,2,3,…,10 的十头猪中随机抽取 1头,有 10种不同的可能结果:
,取 得 一 个 编 号 是 1”,,取得一个编号是 2”,…,,取得一个编号是 10”,这 10个事件都是不可能再分的事件,它们都是基本事件。
由若干个基本事件组合而成的事件称为 复合事件
( compound event)。如,取得一个编号是 2
的倍数,是一个复合事件,它由,取得一个编号是
2,,,是 4”,,是 6,,是 8”,,是 10”5个基本事件组合而成。
下一张 主 页 退 出上一张
( 2)必然事件我们把在一定条件下必然会发生的事件称为 必然事件 ( certain event),用 Ω表示。
例如,在严格按妊娠期母猪饲养管理的要求饲养的条件下,妊娠正常的母猪经 114天左右产仔,就是一个必然事件。
下一张 主 页 退 出上一张
( 3)不可能事件我们把在一定条件下不可能发生的事件称为 不可能事件 ( impossible event),用 ф
表示。
例如,在满足一定孵化条件下,从石头孵化出雏鸡,就是一个不可能事件。
必然事件与不可能事件实际上是确定性现象,即它们不是随机事件,但 是 为了方便起见,我们把它们看作为两个特殊的随机事件。
下一张 主 页 退 出上一张二,概 率
(一)概率的统计定义研究随机试验,仅知道可能发生哪些随机事件是不够的,还需了解各种随机事件发生的可能性大小,以揭示这些事件的内在的统计规律性,从而指导实践。这就要求有一个能够 刻划事件发生可能性大小的数量指标,这指标应该是事件本身所固有的,且不随人的主观意志而改变,人们 称之为概率 ( probability)。
事件 A的概率记为 P( A)。
下一张 主 页 退 出上一张概率的统计定义 在相同条件下进行 n次重复试验,如果随机事件 A发生的次数为 m,那么
m/n称为随机事件 A的 频率 ( frequency);
当试验重复数 n逐渐增大时,随机事件 A的频率越来越稳定地接近某一数值 p,那么 就 把 p
称为随机事件 A的 概率 。
下一张 主 页 退 出上一张这 样 定 义 的 概 率 称 为 统 计 概 率
( statistics probability),或者称 后验概率 ( posterior probability)。
例如 为了确定抛掷一枚硬币发生正面朝上这个事件的概率,历史上有人作过成千上万次抛掷硬币的试验。在表 4—1中列出了他们的试验记录。
下一张 主 页 退 出上一张表 4—1 抛掷一枚硬币发生正面朝上的试验记录下一张 主 页 退 出上一张从表 4-1可看出,随着实验次数的增多,
正面朝上这个事件发生的频率越来越稳定地接近 0.5,我们就把 0.5作为这个事件的概率。
在一般情况下,随机事件的概率 p是不可能准确得到的。通常以试验次数 n充分大时随机事件 A的频率作为该随机事件概率的近似值。
即 P( A) =p≈m/n ( n充分大) ( 4-1)
下一张 主 页 退 出上一张
(二)概率的古典定义对于某些随机事件,用不着进行多次重复试验来确定其概率,而是根据随机事件本身的特性直接计算其概率。
有很多随机试验具有以下特征:
1、试验的所有可能结果只有有限个,即样本空间中的基本事件只有有限个;
2、各 个 试验的可能结果出现的可能性相等,即所有基本事件的发生是等可能的;
3、试验的所有可能结果两两互不相容。
下一张 主 页 退 出上一张具有上述特征的随机试验,称为 古典概型
( classical model)。对于古典概型,概率的定义如下:
设样本空间由 n 个等可能的基本事件所构成,其中事件 A包含有 m个基本事件,则事件 A
的概率为 m/n,即
P( A) =m/n (4-2)
下一张 主 页 退 出上一张这样定义的概率称为 古典概率 (classical
probability)或 先验概率 (prior
probability)。
【 例 4.1】 在编号为 1,2,3,…,10的十头猪中随机抽取 1头,求下列随机事件的概率。
( 1) A=“抽得一个编号 ≤4”;
( 2) B=“抽得一个编号是 2的倍数,。
因为该试验样本空间由 10个等可能的基本事件构成,即 n=10,而事件 A所包含的基本事件有 4个,即抽得编号为 1,2,3,4中的任何一个,事件 A便发生,于是 mA=4,所以下一张 主 页 退 出上一张
P(A)=mA/n=4/10=0.4
同理,事件 B所包含的基本事件数 mB=5,
即抽得编号为 2,4,6,8,10中的任何一个,
事件 B便发生,故
P(B)=mB/n=5/10=0.5。
【 例 4.2】 在 N头奶牛中,有 M头曾有流产史,从这群奶牛中任意抽出 n头奶牛,试求,
(1)其中恰有 m头有流产史奶牛的概率是多少?
(2)若 N=30,M =8,n =10,m =2,其概率是多少?
下一张 主 页 退 出上一张我们把从有 M头奶牛曾有流产史的 N头奶牛中任意抽出 n头奶牛,其中恰有 m头有流产史这一事件 记为 A,因为从 N 头 奶 牛 中 任 意 抽 出 n 头 奶牛的基本事件总数为 ;
事件 A所包含的基本事件数为 ;
因此所求事件 A的概率为:
n
NC
mn MNmM CC
下一张 主 页 退 出上一张
n
N
mn
MN
m
M
C
CCAp,)(
将 N=30,M =8,n =10,m =2代入上式,得
= 0.0695
即在 30头奶牛中有 8头曾有流产史,从这群奶牛随机抽出 10 头奶牛其中有 2头曾有流产史的概率为 6.95%。
10
30
210
830
2
8,
C
CCAp)(
下一张 主 页 退 出上一张
(三)概率的性质
1、对于任何事件 A,有 0≤P( A) ≤1;
2、必然事件的概率为 1,即 P( Ω) =1;
3、不可能事件的概率为 0,即 P( ф) =0。
三、小概率事件实际不可能性原理随机事件的概率表示了随机事件在一次试验中出现的可能性大小。若随机事件的概率很小,例如小于 0.05,0.01,0.001,称之为小概率事件。
下一张 主 页 退 出上一张小概率事件虽然不是不可能事件,但在一次试验中出现的可能性很小,不出现的可能性很 大,以 至于实际上可以看成是不可能发生的。在统计学上,把小概率事件在一次试验中看成是实际不可能发生的事件称为小概率事件实际不可能性原理,亦称为小概率原理 。小概率事件实际不可能性原理是统计学上进行假设检验(显著性检验)的基本依据。
下一张 主 页 退 出上一张第二节 概率分布事件的概率表示了一次试验某一个结果发生的可能性大小。若要全面了解试验,则必须知道试验的全部可能结果及各种可能结果发生的概率,即必须知道随机试验的概率分布 (probability distribution)。为了深入研究随机试验,我 们 先引入随机变量
(random variable)的概念。
下一张 主 页 退 出上一张一、随机变量作一次试验,其结果有多种可能。每一种可能结果都可用一个数来表示,把这些数作为变量
x的取值范围,则试验结果可用变量 x来表示。
【 例 4.3】 对 100头病畜用某种药物进行治疗,其可能结果是,0头治愈,,,1头治愈,,
,2头治愈,,,…”,,100头治愈,。若用 x
表示治愈头数,则 x的取值为 0,1,2,…,
100。
下一张 主 页 退 出上一张
【 例 4.4】 孵化一枚种蛋可能结果只有两种,即,孵出小鸡,与,未孵出小鸡,。 若用变量 x表示试验的两种结果,则可令 x=0表示
,未孵出小鸡,,x=1表示,孵出小鸡,。
【 例 4.5】 测定某品种猪初生重,表示测定 结 果 的 变 量 x 所 取的值为一个特定范围
(a,b),如 0.5―1.5kg,x值可以是这个范围内的任何实数。
下一张 主 页 退 出上一张如果表示试验结果的变量 x,其可能取值至多为可列个,且 以各种确定的概率取这些不同的值,则 称 x 为 离 散 型 随 机 变 量
( discrete random variable);
如果表示试验结果的变量 x,其可能取值为某范围内的任何数值,且 x在其取值范围内的任一区间中取值时,其概率是确定的,则称
x为 连续 型 随 机 变 量 ( continuous
random variable)。
下一张 主 页 退 出上一张二、离散型随机变量的概率分布要了解离散型随机变量 x的统计规律,就必须 知 道它的一切可能值 xi及取每种可能值的概率 pi。
如果我们将离散型随机变量 x的一切可能取值 xi ( i=1,2,… ),及其对应的概率 pi,记作
P(x=xi)=pi i=1,2,… (4—3)
则称 ( 4—3)式为 离散型随机变量 x的概率分布或分布 。常用 分 布 列 (distribution
series)来表示离散型随机变量:
下一张 主 页 退 出上一张
x1 x2 … xn …,
p1 p2 … pn …
显然离散型随机变量的概率分布具有 pi≥0
和 Σpi=1这两个基本性质。
三、连续型随机变量的概率分布连续型随机变量 (如体长、体重、蛋重 )的概率分布不能用分布列来表示,因为其可能取的值是不可数的。我们改用随机变量 x在某个区间内取值的概率 P(a≤x<b)来表示。 下面通过频率分布密度曲线予以说明。
下一张 主 页 退 出上一张由表 2—7作 126头基础母羊体重资料的频率分布直方图,见图 4—1,图中纵座标取频率与组距的比值 。可以设想,如果样本取得越来越大 (n→ +∞),组分得越来越细 (i→ 0),
某一范围内的频率将趋近于一个稳定值 ── 概率。这时,频率分布直方图各个直方上端中点的联线 ── 频率分布折线将逐渐趋向于一条曲线,换句话说,当 n→ +∞,i→ 0时,频率分布折线下一张 主 页 退 出上一张的极限是一条稳定的函数曲线 。 对于样本是取自连续型随机变量的情况,这条函数曲线将是光滑的。 这条曲线排除了抽样和测量的误差,
完 全 反映了基础母羊体重的变动规律。 这条曲线叫 概率分布密度曲线,相应的函数叫 概率分布密度函数 。
下一张 主 页 退 出上一张
(4—4) 式 为 连 续 型 随机变量 x 在 区间 [a,b)上取值概率的表达式。可见,连续型随机变量的概率由概率分布密度函数确定。
图 4-1 表 2-7资料的分布曲线若记体 重概率分布密度函数为 f(x),则 x
取值于区间 [a,b)的概率为图中阴影部分的面积,即
P(a≤x<b)= (4-4)
ba dxxf )(
连续型随机变量概率分布的性质:
1、分布密度函数总是大于或等于 0,即
f(x)≥0;
2、当随机变量 x取某一特定值时,其概率等于 0;即
(c为任意实数 )
因而,对于连续型随机变量,仅研究其在某一个区间内取值的概率,而不去讨论取某一个值的概率。
下一张 主 页 退 出上一张
cc dxxfcxP 0)()(
3,在 一次试验中 随机变量 x之取值 必在
-∞< x< +∞范围内,为一必然事件。所以
(4-5)
(4—5)式表示分布密度曲线下、横轴上的全部面积为 1。
1)()(
dxxfxP
下一张 主 页 退 出上一张第三节 正态分布正态分布是一种很重要的连续型随机变量的概率分布。生物现象中有许多变量是服从或近似服从正态分布的。许多统计分析方法都是以正态分布为基础的。此外,还有不少随机变量的概率分布在一定条件下以正态分布为其极限分布。因此在统计学中,正态分布无论在理论研究上还是实际应用中,均占有重要的地位。
下一张 主 页 退 出上一张一、正态分布的定义及其特征
(一) 正态分布的定义 若连续型随机变量 x的概率分布密度函数为
(4-6)
其中 μ为平均数,σ2为方差,则称随机变量 x服从正态分布 (normal distribution),
记为 x~ N(μ,σ2)。相应的概率分布函数为
(4-7)
2
2
2
)(
2
1)(
x
exf
x
x
dxexF 2
2
2
)(
2
1)(
下一张 主 页 退 出上一张分布密度曲线如 图 4—2所示。
(二 ) 正态分布的特征
1、正态分布密度曲线是单峰、对称的悬钟形曲线,对称轴为 x=μ;
2,f(x) 在 x =μ 处达 到 极 大,极大值 ;
3,f(x)是非负函数,以 x轴为渐近线,分布从 -∞至 +∞;
2
1)(?f
下一张 主 页 退 出上一张
4、曲线在 x=μ± σ处各有一个拐点,即曲线在 (-∞,μ-σ)和 (μ+σ,+∞) 区间上是下凸的,在 [μ-σ,μ+σ]区间内是上凸的;
5、正态分布有两个参数,即平均数 μ和标准差 σ。
μ是位置参数,如 图 4—3所示。 当 σ恒定时,μ愈大,则曲线沿 x轴愈向右移动;反之,
μ愈小,曲线沿 x轴愈向左移动。
σ是变异度参数,如 图 4—4所示 。 当 μ恒定时,σ愈大,表示 x 的取值愈分散,曲线愈,胖,; σ愈小,x的取值愈集中在 μ附近,
曲线愈,瘦,。
下一张 主 页 退 出上一张
6、分布密度曲线与横轴所夹的面积为 1,
即:
1
2
1)( 2
2
2
)(
dxexP
x
下一张 主 页 退 出上一张二、标准正态分布由上述正态分布的特征可知,正态分布是依赖于参数 μ和 σ2 (或 σ) 的一簇 分布,正态曲线之位置及形态随 μ和 σ2的不同而不同 。 这就给研究具体的正态总体带来困难,需将一般的 N(μ,σ2) 转 换为 μ= 0,σ2=1的正态分布。
我们称 μ=0,σ2=1的正态分布为标准正态分布 (standard normal distribution)。
标准正态分布的概率密度函数及分布函数分别记作 ψ(u)和 Φ(u),由 (4-6)及 (4-7) 式得:
(4-8)
(4-9)
随机变量 u服从标准正态分布,记作 u~
N(0,1),分布密度曲线如 图 4—5所示。
2
2
2
1)( ueu
dueu u
u?
2
2
1
2
1)(
下一张 主 页 退 出上一张对于任何一个服从正态分布 N(μ,σ2)的随机变量 x,都可以通过标准化变换:
u=(x-μ)/ σ (4-10)
将 其变换为服从标准正态分布的随机变量
u。
u 称 为 标 准 正 态变量或标准正态离差
(standard normal deviate)。
下一张 主 页 退 出上一张三、正态分布的概率计算
(一)标准正态分布的概率计算设 u服从标准正态分布,则 u 在 [u1,u2 )
何内取值的概率为:
= Φ(u2)- Φ(u1) (4-11)
而 Φ(u1)与 Φ(u2)可由附表 1查得。
dueduedueuuuP u uu uu
u
u
1 22 22
1
2
2
1
2
1
2
1
21 2
1
2
1
2
1)(
下一张 主 页 退 出上一张例如,u=1.75,1.7放在第一列 0.05放在第一行 。 在附表 1中,1.7所在行与 0.05
所在列相交处的数值为 0.95994,即
Φ(1.75)=0.95994
有 时 会 遇 到 给 定 Φ(u) 值,例 如
Φ(u)=0.284,反过来查 u值。这只要在附表
1中找到与 0.284 最接近的值 0.2843,对应行的第一列数 -0.5,对应列的第一行数 值
0.07,即相应的 u值为 u = - 0.57,即
Φ(-0.57)=0.284
如果要求更精确的 u值,可用线性插值法计算。
下一张 主 页 退 出上一张由 (4-11) 式及正态分布的对称性可推出下列关系式,再借助附表 1,便能很方便地计算有关概率:
P(0≤u< u1)= Φ(u1)-0.5
P(u≥u1) =Φ(-u1)
P(| u| ≥u1)=2Φ(-u1) (4-12)
P(| u|< u1== 1-2Φ(-u1)
P(u1≤u< u2)= Φ(u2)-Φ(u1)
下一张 主 页 退 出上一张
【 例 4.6】 已知 u~ N(0,1),试求:
(1) P(u< -1.64)=?
(2) P (u≥2.58)=?
(3) P (| u| ≥2.56)=?
(4) P(0.34≤u< 1.53) =?
下一张 主 页 退 出上一张利用 (4-12)式,查附表 1得:
(1) P(u< -1.64)=0.05050
(2) P (u≥2.58)=Φ(-2.58)=0.024940
(3) P (| u| ≥2.56)
=2Φ(-2.56)=2× 0.005234
=0.010468
(4) P (0.34≤u< 1.53)
=Φ(1.53)-Φ(0.34)
=0.93669-0.6331=0.30389
下一张 主 页 退 出上一张关于标准正态分布,以下几种概率应当熟记:
P( -1≤u< 1) =0.6826
P( -2≤u< 2) =0.9545
P( -3≤u< 3) =0.9973
P( -1.96≤u< 1.96) =0.95
P (-2.58≤u< 2.58)=0.99
图 4—6 标准正态分布的三个常用概率下一张 主 页 退 出上一张
u变量在上述区间以外取值的概率分别为:
P(| u| ≥1)=2Φ(-1)=1- P(-1≤u< 1)
=1-0.6826=0.3174
P(| u| ≥2)=2Φ(-2)
=1- P( -2≤u< 2)
=1-0.9545=0.0455
P(| u| ≥3)=1-0.9973=0.0027
P(| u| ≥1.96)=1-0.95=0.05
P(| u| ≥2.58)=1-0.99=0.01
下一张 主 页 退 出上一张
(二)一般正态分布的概率计算正 态 分 布 密度曲线和横轴围成的一个区域,其面积为 1,这实际上表明了,随机变量 x
取值在 -∞与 +∞之间,是一个必然事件,其概率为 1。
若随机变量 x服从正态分布 N(μ,σ2),则 x
的取值落在任意区间 [x1,x2) 的概率,记作 P(x1≤ x < x2),等于 图 4—7 中阴影部分曲边梯形面积。即:
下一张 主 页 退 出上一张
(4-13)
对 (4-13)式作变换 u=(x-μ)/ σ,得
dx=σdu,故有其中,
dxexxxP x
x
x
2
1
2
2
2
)(
21 2
1)(
dueduexxxP
x
x
ux
x
x
/)(
/)(
2
1
2
)(
21
2
1
2
2
1
2
2
2
1
2
1)(
)()( 122
1
2
1
2
2
1 uudueu
u
u
2
2
1
1,
xuxu
下一张 主 页 退 出上一张这表明服从正态分布 N(μ,σ2)的随机变量
x 在 [ x1,x2 )内取值的概率,等 于服 从标 准 正 态 分 布 的 随 机 变 量 u 在
[(x1-μ)/σ,(x2-μ)/σ)内取值的概率 。
因此,计算一般正态分布的概率时,只要将区间的上下限作适当变换 (标准化 ),就可用查标准正态分布的概率表的方法求得概率了。
下一张 主 页 退 出上一张
【 例 4.7】 设 x服从 μ=30.26,σ2=5.102的正态分布,
试求 P(21.64≤x< 32.98)。
令则 u服从标准正态分布,故
=P(-1.69≤u< 0.53)
=Φ(0.53)-Φ(-1.69)
=0.7019-0.04551
=0.6564
)10.5 26.3098.3210.5 26.3010.5 26.3064.21()98.3264.21( xPxP
下一张 主 页 退 出上一张
10.5
26.30 xu
关于一般正态分布,以下几个概率 (即随机变量 x落在 μ加减不同倍数 σ区间的概率 )是经常用到的。
P(μ-σ≤x< μ+σ)=0.6826
P(μ-2σ≤x< μ+2σ) =0.9545
P (μ-3σ≤x< μ+3σ) =0.9973
P (μ-1.96σ≤x< μ+1.96σ) =0.95
P (μ-2.58σ≤x< μ+2.58σ)=0.99
上述关于正态分布的结论,可用一实例来印证。
从 图 2-7可以看出,126头 基础母羊体重资料的次数分布接近正态分布,现 根据 其 平均数 = 52.26 (kg),标 准差 S=5.10(kg),算出平均数加减不同倍数标准差区间内 所包括的次数与频率,列于表 4—2。
x
下一张 主 页 退 出上一张表 4—2 126头基础母羊体重在 ± kS
区间内所包括的次数与频率下一张 主 页 退 出上一张
x
x
由表 4—2可见,实际频率与理论概率相当接近,说明 126 头基础母羊体重资料的频率分布接近正态分布,从而可推断基础母羊体重这一随机变量很可能是服从正态分布的。
生物统计中,不仅注意随机变量 x落在平均数加减不同倍数标准差区间 (μ-kσ,μ+kσ)之内的概率而且 也很 关心 x落在此区间之外的概率。
我们把随机变量 x落在平均数 μ加减不同倍数标准差 σ区间之外的概率称为 双侧概率 (两尾概率 ),记作 α。
下一张 主 页 退 出上一张对应于双侧概率可以求得随机变量 x小于 μ-
kσ或大于 μ+kσ的概率,称为 单侧概率 (一尾概率 ),记作 α/ 2。
例如,x落在 (μ-1.96σ,μ+1.96σ)之外的双侧概率为 0.05,而单侧概率为 0.025。即
P(x< μ-1.96σ= = P(x> μ+1.96σ)=0.025
双侧概率或单侧概率如 图 4—8所示。
x落在 (μ-2.58σ,μ+2.58σ)之外的双侧概率为 0.01,而单侧概率
P(x< μ-2.58σ)= P(x> μ+2.58σ)=0.005
下一张 主 页 退 出上一张附表 2给出了满足 P (| u|> )=α的双侧分位 的数值。因此,只要已知双侧概率 α的值,由附表 2就可直接查出对应的双侧分位数,查法与附表 1相同。
例如,已知 u~ N(0,1)试求:
(1) P(u< - )+P(u≥ )=0.10的
(2) P(- ≤u< ﹚ =0.86的因为附表 2中的 α值是:
u
u
u
due
u
u
u
2
2
1
2
1
1
下一张 主 页 退 出上一张
u?u?u
u?u?
u
所以 ( 1) P(u< - )+ P(u≥ )
=1- P(- ≤ u< ﹚ =0.10=α
由附表 2查得,=1.644854
(2) P (- ≤u < ) =0.86,
α=1- P (- ≤u< )=1-0.86=0.14
由附表 2查得,=1.475791
对于 x~ N(μ,σ2),只要将其转换为 u~
N(0,1),即可求得相应的双侧分位数。
10.0u
14.0u
下一张 主 页 退 出上一张
u?u
u?u
u?u
u?u
【 例 4.8】 已知猪血红蛋白含量 x服从正态分布 N ( 12.86,1.332 ),若 P (x < )
=0.03,P(x≥ )=0.03,求,。
由题意可知,α/ 2=0.03,α=0.06 又因为
P(x≥)=
故 P(x< )+ P(x≥ )
= P(u< - ) + P(u≥ )
1l
2l 1l 2l
03.0)()
33.1
86.12
33.1
86.12()( 1
1
uuP
lxPlxP
03.0)()33.1 86.1233.1 86.12( 2uuPlxP
1l 2
l 下一张主 页退 出上一张
u?u
=1- P(- ≤u< )=0.06=α
由附表 2查得,=1.880794,所以
( -12.86)/1.33=-1.880794
( -12.86)/1.33=1.880794
即 ≈10.36,≈15.36。
u
06.0u
1l
2l
1l 2l
下一张 主 页 退 出上一张
u
第四节 二项分布一、贝努利试验及其概率公式将某随机试验重复进行 n次,若各次试验结果互不影响,即每次试验结果出现的概率都不依赖于其它各次试验的结果,则称这 n次试验是独立的 。
对于 n次独立的试验,如果每次试验结果出现且只出现对立事件 A与 之一,在每次试验中出现 A的概率是常数 p(0<p<1),因而出现对立事件 的概率是 1-p=q,则 称 这一串重复的独立试验为 n重贝努利试验,简称贝努利试验 (Bernoulli trials )。
A
A
下一张 主 页 退 出上一张在生物学研究中,我们经常碰到的一类离散型随机变量,如入孵 n枚种蛋的出雏数,n头病畜治疗后的治愈数,n 尾鱼苗的成活数等,
可用贝努利试验来概括。
在 n重贝努利试验中,事件 A 可能发生 0,
1,2,…,n次,现在我们来求事件 A 恰好发生 k(0≤k≤n)次的概率 Pn(k)。
先取 n=4,k=2来讨论。在 4次试验中,
事件 A发生 2次的方式有以下 种:2
4C
4321 AAAA 4321 AAAA 4321 AAAA
4321 AAAA 4321 AAAA 4321 AAAA
下一张 主 页 退 出上一张其中 Ak(k=1,2,3,4)表示事件 A在第 k次试验发生; (k=1,2,3,4)表示事件 A在第 k
次试验不发生。由于试验是独立的,按 概率的乘法法则,于是有
P( )=P( )=… = P( )
= P( )·P( )·P( )·P( )=
又由于以上各种方式中,任何二种方式都是互不相容的,按 概率的加法法则,在 4 次试验中,事件 A恰好发生 2次的概率为
kA
4321 AAAA 4321 AAAA 4321 AAAA
1A 2A 3A 4A 242?qp
下一张 主 页 退 出上一张
P4(2) = P( ) + P( ) + …
+ P( )=
一般,在 n重贝努利试验中,事件 A恰好发生
k(0≤k≤n)次的概率为
k=0,1,2…,n (4-14)
若把 (4-14)式与二项展开式相比较就可以发现,在 n重贝努利试验中,事件 A发生
k次的概率恰好等于 展开式中的第 k+1项,所以也把
(4-14)式称作 二项概率公式 。
4321 AAAA 4321 AAAA
4321 AAAA 24224?qpC
knkkkn qpCkP)(
n
k
knkk
n
n qpCpq
0
)(
下一张 主 页 退 出上一张二、二项分布的意义及性质二项分布定义如下:
设随机变量 x所有可能取的值为零和正整数:
0,1,2,…,n,且有
= k=0,1,2…,n
其中 p> 0,q> 0,p+q=1,则称 随机变量 x服从参数为 n和 p的二项分布 (binomial
distribution),记为 x~ B(n,p)。
)(kPn knC knkqp?
下一张 主 页 退 出上一张二 项 分布是一种离散型随机变量的概率分布。参数 n称为离散参数,只能取正整数;
p 是连续参数,它能取 0与 1之间的任何数值 (q
由 p确定,故不是另一个独立参数 )。
容易验证,二项分布具有概率分布的一切性质,即:
1,P(x=k)= Pn(k) (k=0,1,…,n)
2、二项分布的概率之和等于 1,即
1)(
0
n
n
k
knkk
n pqqpC
下一张 主 页 退 出上一张
3,(4-15)
4,(4-16)
5、
( m1<m2) (4-17)
二项分布由 n和 p两个参数决定:
1、当 p值较小且 n不大时,分 布 是偏倚的。但随着 n的增大,分布逐渐趋于对称,如图 4—9 所示;
m
k
knkk
nn qpCmkPmxP
0
)()(
n
mk
knkk
nn qpCmkPmxP )()(
2
1
)()( 2121
m
mk
knkk
nn qpCmkmpmxmP
下一张 主 页 退 出上一张
2、当 p 值 趋 于 0.5 时,分 布 趋于对称,如 图 4—10所示;
3、对于固定的 n及 p,当 k增加时,Pn(k)
先随之增加并达到其极大值,以后又下降。
此外,在 n较大,np,nq 较接近时,二项分布接近于正态分布;当 n→ ∞时,二项分布的极限分布是正态分布。
下一张 主 页 退 出上一张三、二项分布的概率计算及应用条件
【 例 4.9】 纯种白猪与纯种黑猪杂交,根据孟德尔遗传理论,子二代中白猪与黑猪的比率为 3∶ 1。求窝产仔 10头,有 7头白猪的概率。
根据题意,n=10,p=3/ 4=0.75,
q=1/ 4=0.25。设 10头仔猪中白色的为 x头,
则 x为服从二项分布 B(10,0.75)的随机变量。
于是窝产 10头仔猪中有 7头是白色的概率为:
2503.025.075.0!3!7 !1025.075.0)7( 3737710 CxP
下一张 主 页 退 出上一张
【 例 4.10】 设在家畜中感染某种疾病的概率为 20%,现有两种疫苗,用疫苗 A 注射了
15头家畜后无一感染,用疫苗 B 注射 15头家畜后有 1头感染。设各头家畜没有相互传染疾病的可能,问:应该如何评价这两种疫苗?
假设疫苗 A完全无效,那么注射后的家畜感染的概率仍为 20%,则 15 头家畜中染病头数 x=0的概率为
0 3 5 2.080.020.0)0( 150015 Cxp
下一张 主 页 退 出上一张同理,如果疫苗 B完全无效,则 15头家畜中最多有 1头感染的概率为由计算可知,注射 A 疫苗无效的概率为
0.0352,比 B疫苗无效的概率 0.1671小得多。
因此,可以认为 A疫苗是有效的,但不能认为 B
疫苗也是有效的。
1 6 7 1.08.02.08.02.0)1( 141115150015 CCxp
下一张 主 页 退 出上一张
【 例 4.11】 仔猪黄痢病在常规治疗下死亡率为 20%,求 5 头病猪治疗后死亡头数各可能值相应的概率。
设 5头病猪中死亡头数为 x,则 x服从二项分布 B(5,0.2),其所有可能取值为 0,1,…,5,
按 (4-6)式计算概率,用分布列表示如下:
0 1 2 3 4 5
0.3277 0.4096 0.2048 0.0512 0.0064 0.0003
下一张 主 页 退 出上一张二项分布的应用条件有三:
( 1)各观察单位 只具有互相对立 的一种结果,如阳性或阴性,生存或死亡等,属于二项分类资料;
( 2)已知发生某一结果 (如死亡 ) 的概率为
p,其对立结果的概率则为 1-P=q,实际中要求
p 是从大量观察中获得的比较稳定的数值;
( 3) n个观察单位的观察结果互相独立,即每个观察单位的观察结果不会影响到其它观察单位的观察结果。
下一张 主 页 退 出上一张四、二项分布的平均数与标准差统计学证明,服从二项分布 B(n,p)的随机变量之平均数 μ、标准差 σ与参数 n,p有如下关系:
当试验结果以事件 A发生次数 k表示时
μ=np (4-18)
σ= (4-19)
npq
下一张 主 页 退 出上一张
【 例 4.12】 求 【 例 4.11】 平均死亡猪数及死亡数的标准差。
以 p=0.2,n=5代入 (4-18)和
(4-19) 式得:
平均死亡猪数 μ=5× 0.20=1.0(头 )
标准差 σ= =
=0.894(头 )npq 8.02.05
当试验结果以事件 A发生的频率 k/ n表示时
(4-20)
(4-21)
也称为总体百分数标准误,当 p 未 知时,常以样本百分数 来估计。此时 (4-21)
式改写为:
= (4-22)
称为样本百分数标准误。
pp
npq /)(
p?
p?
nqp /)( pq?1pS
pS
下一张 主 页 退 出上一张第五节 波松分布波松分布是一种 可以用来描述和分析随机地发生在单位空间或 时间里的 稀有事件 的概率分布。要观察到这类事件,样本含量 n 必须很大 。
在生物、医学研究中,服从波松分布的随机变量是常见的。如,一定畜群中某种患病率很低的非传染性疾病患病数或死亡数,畜群中遗传的畸形怪胎数,每升饮水中大肠杆菌数,
计数器小方格中血球数,单位空间中某些野生动物或昆虫数等,都是服从波松分布的。
下一张 主 页 退 出上一张一、波松分布的意义若随机变量 x(x=k)只取零和正整数值 0,
1,2,…,且其概率分布为
,k=0,1,…… (4-23)
其中 λ> 0; e=2.7182… 是自然对数的底数,则 称 x 服 从 参 数 为 λ 的 波 松分布
(Poisson?s distribution),记 为 x~
P(λ)。
e
kkxP
k
!)(
下一张 主 页 退 出上一张波松分布重要的特征:
平均数和方差相等,都等于常数 λ,即
μ=σ2=λ
【 例 4.13】 调查某种猪场闭锁育种群仔猪畸形数,共记录 200窝,畸形仔猪数的分布情况如表 4-3所示。试判断畸形仔猪数是否服从波松分布。
下一张 主 页 退 出上一张表 4-3 畸形仔猪数统计分布样本均数和方差 S2计算结果如下:
=Σfk/n
=(120× 0+62× 1
+15× 2+2× 3+1× 4)/200
=0.51
x
下一张 主 页 退 出上一张
=0.51,S2=0.52,这两个数是相当接近的,因此可以认为畸形仔猪数服从波松分布。
52.0
1200
200/)10241322151620120(
1
/)(
222222
22
2
n
nfkfk
s
x
下一张 主 页 退 出上一张
λ是波松分布所依赖的唯一参数。 λ
值愈小分布愈偏倚,随着 λ的增大,分 布趋于对称 (如 图 4-11所示 )。当 λ= 20时分布接近于正态分布;当 λ=50时,可以认 为波松分布呈正态分布。 所以在实际工作中,当 λ≥20时就可以用正态分布来近似地处理波松分布的问题。
二、波松分布的概率计算由 (4-23)式可知,波松分布的概率计算,
依赖于参数 λ的确定,只要参数 λ确定了,把
k=0,1,2,… 代入 (4-23)式即可求得各项的概率。 但是在大多数服从波松分布的实例中,
分布参数 λ往往是未知的,只能从所观察的随机样本中计算出相应的样本平均数作为 λ 的 估计值,将其代替 (4-23)式中的 λ,计算出 k = 0,
1,2,… 时的各项概率。
下一张 主 页 退 出上一张如 【 例 4.13】 中已判断畸形仔猪数服从波松分布,并已算出样本平均数 =0.51。将
0.51代替公式( 4-23)中的 λ得:
(k=0,1,2,… )
因为 e-0.51=1.6653,所以畸形仔猪数各项的概率为:
P(x=0)=0.510/ (0!× 1.6653)=0.6005
P(x=1)=0.511/ (1!× 1.6653)=0.3063
P(x=2)=0.512/ (2!× 1.6653)=0.0781
51.0
!
51.0)( e
kkxP
k
下一张 主 页 退 出上一张
P(x=3)=0.513/ (3!× 1.6653)=0.0133
P(x=4)=0.514/ (4!× 1.6653)=0.0017
把上面各项概率乘以总观察窝数 (n=200)
即得各项按波松分布的理论窝数。 波松分布与相应的频率分布列于表 4—7中。
0 0 0 1.09 9 9 9.01)(1)4(
4
0
k
kxpxP
下一张 主 页 退 出上一张表 4—4 畸形仔猪数的波松分布将实际计算得的频率与根据 λ=0.51的泊松分布计算的概率相比较,发现畸形仔猪的频率分布与 λ=0.51 的 波松分布是吻合得很好的 。这进一步说明了畸形仔猪数是服从波松分布的。
下一张 主 页 退 出上一张
【 例 4.14】 为监测饮用水的污染情况,现检验某社区每毫升饮用水中细菌数,共得 400
个记录如下:
试分析饮用水中细菌数的分布是否服从波松分布。若服从,按波松分布计算每毫升水中细菌数的概率及理论次数并将頻率分布与波松分布作直观比较。
下一张 主 页 退 出上一张经计算得每毫升水中平均细菌数
=0.500,方差 S2=0.496。两者很接近,故可认为每毫升水中细菌数服从波松分布。以
=0.500代替( 4-23)式中的 λ,得
(k=0,1,2… )
计算结果如表 4—5所示。
5.0
!
5.0)( e
k
kxP
k
x
x
下一张 主 页 退 出上一张表 4—5 细菌数的波松分布可见细菌数的频率分布与 λ=0.5的波松分布是相当吻合的,进一步说明用波松分布描述单位容积 (或面积 )中细菌数的分布是适宜的。
下一张 主 页 退 出上一张注意,二项分布的应用条件也是波松分布的应用条件。比如二项分布要求 n 次试验是相互独立的,这也是波松分布的要求。然而一些具有传染性的罕见疾病的发病数,因为首例发生之后可成为传染源,会影响到后续病例的发生,所以不符合波松分布的应用条件。对于在单位时间、单位面积或单位容积内,所观察的事物由于某些原因分布不随机时,如细菌在牛奶中成集落存在时,亦不呈波松分布。
下一张 主 页 退 出上一张前面讨论的三个重要的概率分布中,前一个属连续型随机变量的概率分布,后两个属离散型随机变量的概率分布 。 三 者间的关系如下:
对于二项分布,在 n→ ∞,p→ 0,且 n p
=λ(较小常数 )情况下,二项分布 趋于 波 松布。在这种场合,波松分布中的参数 λ用二项分布的 n p代之;在 n→ ∞,p→ 0.5时,二项分布趋于正态分布。在这种场合,正态分布中的 μ,σ2用二项分布的 n p,n p q代之。在实际计算中,当 p< 0.1且 n 很大时,二项分布可由波松分布近似;当 p> 0.1且 n很大时,
二项分布可由正态分布近似。
下一张 主 页 退 出上一张对于波松分布,当 λ→ ∞时,波松分布以正态分布为极限。在实际计算中,当 λ≥20
(也有人认为 λ≥6)时,用波松分布中的 λ代替正态分布中的 μ及 σ2,即可由后者对前者进行近似计算。
下一张 主 页 退 出上一张第六节 样本平均数的抽样分布研究总体与从中抽取的样本之间的关系是统计学的中心内容 。对这种关系的研究可从两方面着手,一是从总体到样本,这就是研究 抽样分布 (sampling distribution)
的问题; 二是从样本到总体,这就是 统计推断 (statistical inference)问题。
下一张 主 页 退 出上一张统计推断是以总体分布和样本抽样分布的理论关系为基础的。为了能正确地利用样本去推断总体,并能正确地理解统计推断的结论,
须对样本的抽样分布有所了解。
我们知道,由总体中随机地抽取若干个体组成样本,即使每次抽取的样本含量相等,其统计量 (如,S)也将随样本的不同而有所不同,
因而样本统计量也是随机变量,也有其概率分布。我们把 统计量的概率分布称为抽样分布 。
下一张 主 页 退 出上一张一、样本平均数抽样分布由总体随机抽样 (random sampling)
的方法可分为 有返置抽样和不返置抽样 两种。
前者指每次抽出一个个体后,这个个体应返置回原总体;后者指每次抽出的个体不返置回原总体。对于无限总体,返置与否都可保证各个体被抽到的机会相等。对于有限总体,就应该采取返置抽样,否则各个体被抽到的机会就不相等。
下一张 主 页 退 出上一张设有一个总体,总体平均数为 μ,方差为 σ2,总体中各变数为 x,将 此总体称为原总体。现从这个总体中随机抽取含量为 n的样本,样本平均数记为 。
可以设想,从原总体中可抽出很多甚至无穷多个含量为 n的样本。由这些样本算得的平均数有大有小,
不尽相同,与原总体平均数 μ相比往往表现出不同程度的差异。这种差异是由随机抽样造成的,称为 抽样误差 (sampling error)。
显然,样本平均数也是一个随机变量,其概率分布叫做 样本平均数的抽样分布 。由样本平均数构成的总体称为 样本平均数的抽样总体 。
下一张 主 页 退 出上一张
x
其平均数和标准差分别记为 和 。
是样本平均数抽样总体的标准差,简称 标准误 (standard error),它 表示平均数抽样误差的大小 。统计学上已证明总体的两个参数与 x 总体的两个参数有如下关系:
=μ,(4—24)
x? x
x?
x? nx
下一张 主 页 退 出上一张设有一个 N=4 的 有 限总体,变数为 2、
3,3,4。根据 μ=Σx/ N和 σ2=Σ(x-μ)2/
N求得该总体的 μ,σ2,σ为:
μ=3,σ2=1/ 2,σ= =0.707
21
下一张 主 页 退 出上一张从有限总体作返置随机抽样,所有可能的样本数为 Nn其中 n为样本含量 。以上述总体而论,
如果从中抽取 n=2的样本,共可得 42=16 个样本;如果样本含量 n为 4,则 一 共 可 抽 得
44=256个样本。分别求这些样本的平均数,
其次数分布如表 4—6所示。
根据表 4—6,在 n=2的试验中,样本平均数抽样总体的平均数、方差与标准差分别为:
x
下一张 主 页 退 出上一张
=4/16=1/4=(1/2)/2=
316/0.48/ nx Nxf
16
16/48148/)()( 22222
n
n
n
x
x N
Nxfxf
N
xf
n/2?
nxx 2/214/12
下一张 主 页 退 出上一张表 4—6 N=4,n=2和 n=4时的次数分布下一张 主 页 退 出上一张同理,可得 n=4时:
这就验证了 =μ,的正确性。
若将表 4—6中两个样本平均数的抽样总体作次数分布图,则如 图 4-12所示。
32 5 6/7 6 8x
nx /4/)2/1(8/12 5 6/32 22
nx
42181
x? nx /
下一张 主 页 退 出上一张由以上模拟抽样试验可以看出,虽然原总体并非正态分布,但从中随机抽取样本,即使样本含量很小 (n=2,n=4),样本平均数的分布却趋向于正态分布形式。随着样本含量 n 的增大,样本平均数的分布愈来愈从不连续趋向于连续的正态分布。比较图 4—12两个分布,
在 n由 2增到 4时,这种趋势表现得相当明显。
当 n> 30时,的分布就近似正态分布了。 X
变量与 变量概率分布间的关系可由下列两个定理说明:
x
x
下一张 主 页 退 出上一张
1,若 随 机 变 量 x 服 从 正 态 分 布
N(μσ2) ;,,…,,是由 x 总体得来的随机样本,则统计量 =Σx/ n的概率分布也是正态分布,且有 =μ,,
即服从正态分布 N(μ,σ2/ n)。
2,若随机变量 x服从平均数是 μ,方差是
σ2的分布 (不是正态分布 );,,…,是由此总体得来的随机样本,则 统 计 量
=Σx/ n的概率分布,当 n相当大时逼近正态分布 N(μ,σ2/ n)。这就是中心极限定理。
1x 2x nx
x
x? nx /
1x 2x nx
x
下一张 主 页 退 出上一张中心极限定理告诉我们:不论 x变量是连续型还是离散型,也无论 x服从何种分布,一般只要 n> 30,就可认为 的分布是正态的。 若
x的分布不很偏倚,在 n> 20时,的分布就近似于正态分布了。
x
下一张 主 页 退 出上一张二、标 准 误标准误 (平均数抽样总体的标准差 )
的大小反映样本平均数 的抽样误差的大小,
即精确性的高低 。 标准误大,说明各样本平均数 间差异程度大,样本平均数的精确性低。
反之,小,说明间的差异程度小,样本平均数的精确性高。 的大小与原总体的标准差 σ
成正比,与样本含量 n的平方根成反比。从某特定总体抽样,因为 σ是一常数,所以只有增大样本含量才能降低样本平均数 的抽样误差。
nx /
x
x
x?
x?
x
下一张 主 页 退 出上一张在实际工作中,总体标准差 σ往往是未知的,因而无法求得 。此时,可用样本标准差
S估计 σ。于是,以 估计 。记 为,
称作 样本标准误或均数标准误。样本标准误是平均数抽样误差的估计值 。若样本中各观测值为,,…,,则
(4-25)
x?
nS x
nS
xS
xS
1x 2x
nx
)1(
/)(
)1(
)( 222
nn
nxx
nn
xx
n
SS
x
下一张 主 页 退 出上一张注意,样本标准差与样本标准误是既有联系又有区别的两个统计量,(4—25) 式已表明了二者的联系。二者的区别在于:
样 本 标 准 差 S 是 反 映 样 本中各 观测值,,…,变 异 程 度大小的一个指标,它的大小说明了 对 该 样本代表性的强弱。
样本标准误是样本平均数 的标准差,它是抽样误差的估计值,其大小说明了样本间变异程度的大小及精确性的高低。
kxxx,...,,21
1x 2x
nx
x
下一张 主 页 退 出上一张对于大样本资料,常将样本标准差 S与样本平均数 配合使用,记为 ± S,用以说明所考察性状或指标的优良性与稳定性。
对于小样本资料,常将样本标准误 与样本平均数 配合使用,记为 ±,用以表示 所考察性状或指标的优良性与 抽样误差的大小。
x x
xS
x x xS
下一张 主 页 退 出上一张第七节 t 分 布由样本平均数抽样分布的性质知道,若
x~ N(μ,σ2),则 ~ N(μ,σ2/n)。 将随机变量 标准化得:,则
u~ N(0,1)。 当总体标准差 σ未知时,以样本标准差 S代替 σ所得到的统计量记为 t。在计算 时,由于采用 S来代替 σ,
使得 t 变量不再服从标准正态分布,而是服从
t分布 (t- distribution)。它的概率分布密度函数如下:
x
xS
x xxu /)(
xSx /)(
下一张 主 页 退 出上一张
(4-26)
式中,t的取值范围是( -∞,+∞);
df=n-1为自由度。
t分布的平均数和标准差为:
μt= 0 (df>1),(df>2) (4-27)
t分布密度曲线如 图 4-13 所示,其特点是:
2
12
)1()2/( ]2/)1[(1)(
df
df
t
df
df
df
tf
)2/( dfdft?
下一张 主 页 退 出上一张
1,t分布受自由度的制约,每一个自由度都有一条 t分布密度曲线。
2,t分布密度曲线以纵轴为对称轴,左右对称,
且在 t= 0时,分布密度函数取得最大值。
3、与标准正态分布曲线相比,t分布曲线顶部略低,两尾部稍高而平。 df越小这种趋势越明显。 df越大,t分布越趋近于标准正态分布。当 n >30时,t分布与标准正态分布的区别很小; n >100时,t分布基本与标准正态分布相同; n→ ∞时,t 分布与标准正态分布完全一致。
下一张 主 页 退 出上一张
t分布的概率分布函数为:
(4-28)
因而 t在区间( t1,+∞)取值的概率 ——
右尾概率为 1-F t (df)。由于 t分布左右对称,t
在区间( -∞,-t1)取值的概率也为 1-F t df)。
于是 t 分布 曲线 下由 -∞到 - t 1和由 t 1到
+∞ 两 个 相 等 的 概 率 之和 ——两尾概率为
2(1-F t (df))。对于不同自由度下 t分布的两尾概率及其对应的临界 t值已编制成附表 3,即 t分布表。
1 )()( 1)( tdft dttfttPF
下一张 主 页 退 出上一张例如,当 df=15时,查附表 3得两尾概率等于
0.05的临界 t值为 =2.131,其意义是:
P(-∞<t<-2.131)= P(2.131<t<+∞)
=0.025;
P(-∞<t<-2.131)+ (2.131<t<+∞)
=0.05。
由附表 3可知,当 df一定时,概率 P越大,临界 t
值越小;概率 P越小,临界 t值越大 。 当 概 率 P 一定时,随着 df的增加,临界 t值在减小,当 df=∞时,
临界 t值与标准正态分布的临界 u值相等。
下一张 主 页 退 出上一张