实用生物统计
要 求
? 理解并能应用统计思想
? 熟练掌握常用方法,
–假设检验、方差分析、回归分析、
实验设计等
? 了解其它统计方法的适用范围、限
制条件等
学 习 方 法
? 高效率利用课堂时间
–预习,听懂,复习
? 独立完成作业
? 多动脑,多问题,理解基础上记忆
http://course.cbi.pku.edu.cn/教学论
坛 (其它课程 )
?, 生物统计学基础,, 罗斯纳著, 孙尚拱译,
科学出版社, 2004
?, 应用数理统计方法,, 陶澍编, 中国环境科
学出版社, 1988
?, 生物统计,, 刘来福, 程书肖著, 北京师范
大学出版社, 1988
?, 统计学原理,, S.伯恩斯坦 R,伯恩斯坦,
史道济译, 科学出版社, 2002
?, 生物统计学, (第二版 ),杜荣骞著, 高等教
育出版社,2003
?, 生物统计学题解及练习,, 杜荣骞著, 高等
教育出版社,2003
前言
? 典型问题,
– 疫苗是否有效?
– 吸烟是否有害?
– 某批产品中合格品有多少?是否报废?
– 新配方是否优于旧的?
– 流行病是否增加?
– 为了保证获得单抗,需要做多少次细胞融合?
要统计的数据的共同特点
?信息不完全
?结果不确定
统计学就是从不完
全信息中取得正确知
识的一系列技巧
例 1.1 试验配方 1(x)配方 2(y)两种不同饲料配方对
鸡增重的影响。饲养 5周后,增重如下。问哪
种饲料好?
增重 /k g
配方 1 ( x ) 1.4 9,1.36,1.5 0,1.65,1.2 7,1,45,1.3 8,1.52,1.4 0
配方 2 ( y ) 1,25,1.5 0,1.3 3,1.4 5,1.2 7,1.3 2,1.6 0,1.4 1,1.3 0,1.5 2
kgx 436.1?
kgy 392.1?
配方 1 ( x ) 1,40,1,42,1,50,1,39,1,46, 1,45,1,51,1,44,1,41,1,38
配方 2 ( y ) 1,38,1,41,1,35,1,50,1,36,1,33,1,42,1,38,1,37,1,41
kgx 4 3 6 5.1?
kgy 391.1?
统计学的其它任务
? 估计风险大小,做出合理的决策
? 设计实验,以最小代价获取所需知

不掌握统计学基本知识,就不
会成为合格的生命科学工作
者!
第一章
概率论基础
1.1 随机现象与统计规律性
? 必然现象 (或不可能事件 ):一定条件
下必然发生 (或必然不发生 )的事件。
又称决定性事件。
? 随机现象:条件不变,仍会有不能
预测的结果的事件。大部分科学实
验的结果都是随机事件。
频率稳定性
随机事件的结果是不确定的。但
在大量的实验中,各种结果的频率会
逐渐趋于固定数值,即它的出现 概率 。
这种现象是随机事件内在规律性的反
映,称为频率稳定性。
1.2 样本空间与事件
样本点 ?
在一组固定的条件下所进
行的试验或观察,其可能
出现的结果
样本空间 ?
全体样本点的所构成的集

事件 A, B, C

样本点的集合
必然事件 ? 每次试验中必然发生
不可能事件 ? 每次试验中一定不发生
?
?
A
?
?
?
?
事件间的关系
包含 A ? B
若 A 发生,则 B 必然
发生
相等 A =B 若 A ? B, 且 B ? A
对立 ( 逆 )
A
由所有不包含在 A 中
的样本点所组成的事

互不相容 ( 互
斥 )
A
?
B= Ф
A 与 B 一定不会同时发

A B
A,B
A A
A B
事件的运算
交 BA ?, AB
同时属于 A 及 B 的样本
点的集合
并,

BA ?
,
??BA ?
,A +B
至少属于 A 或 B 中一个
的全体样本点的集合
差 A - B
包含在 A 中且不包含在
B 中的样本点的集合
A B
A B
A B
运算的顺序
1,逆 乘方
2,交 乘法
3,并或差 加减法
运算规律
( 1) 交换律,AUB=BUA,A∩B=B∩A
( 2) 结合律,(AUB)UC=AU(BUC),(AB)C=A(BC)
( 3) 分配律,(AUB)∩C=(A∩C)U(B∩C),
(A∩B)UC=(AUC)∩(BUC)
( 4) 德莫根 ( De Morgan) 定理,
对于 n个事件, 甚至对可列个事件,
BUABABAA U B ?? ??,
,
??
i
i
i
i AA ? ??
i
i
i
i AA ?
1.3 概 率
? 古典概型,
– 样本空间只有有限个样本点
– 这些样本点出现的可能性相等

样本点总数
的有利场合数
样本点总数
包含的样本点数 AA
n
mAP ???)(
性质
( 1) 非负性:对任意事件 A,P(A)≥0
( 2) 规范性,P(Ω)=1
( 3) 可加性:若 A1,A2,…, An两两互不相容,
如果样本空间含有无穷多个样本点, 则上述可
加性也应推广为可列可加性 ( 或称完全可加
性 ), 即:若 A1,A2,…,An,… 互不相容,
)()()()( 2121 nn APAPAPAAAP ??????? ??
??
?
?
?
?
???
?
?
???
?
11
)(
i
i
i
i APAP
? 几何概型
– 样本空间为某一可度量的几何区域,样本点
数常常是不可列的
– 该几何区域内每一样本点出现的可能性相

– 概率等于有利场合的长度 (面积、体积 )与样
本空间的长度 (面积、体积 )之比。
? Monte-Carlo方法
? Bertrand奇论
1.4 概率的运算
? 概率加法,
P(AUB)= P(A)+P(B)- P(AB)
? 条件概率,
? 乘法定理,
P(AB)=P(A) P(B|A)=P(B) P(A|B)
)(
)()(
BP
ABPBAP ?
1.5 独立性
? 两个事件的独立性
若 P(AB)=P(A)P(B),则称事件 A,B相互独立
? 三个事件的独立性
若以下 4式同时成立,则称事件 A,B,C相互独立,
P(AB)=P(A)P(B),
P(AC)=P(A)P(C),
P(BC)=P(B)P(C),
P(ABC)=P(A)P(B)P(C)
? 多个事件的独立性,
定义,A1,A2,…, An为 n个事件, 若对任何正
整数 k(2≤k≤n),有
P(Ai1 Ai2 … A ik) = P(Ai1) P(Ai2) … P(A ik),
其中 i1,i2,…,ik为满足下式的任何 k个自然数,
1≤i1<i2<… <ik≤n
则称为 A1,A2,…, An互相独立 。
?独立性的应用,
简化概率计算
?试验的独立性,
若试验 E1的一切结果与试验
E2的一切结果独立,则称试
验 E1与 E2独立。
1.6 全概公式
? 若事件组 A1,A2,…, An,… 满足,
( 1) A1,A2,…, An,… 互不相容, 且
P(Ai) > 0,(i=1,2,… )
( 2) A1 + A2 + A3 + … + An + … = Ω( 完全性 )
则对任一事件 B,有,
满足上述条件的事件组通常称为样本空间 Ω的一个
分割。
??
?
??
1
)()()(
i
ii ABPAPBP
逆概公式
? 若事件 B能且只能与两两互不相容事件 A1,
A2,…A n,… 之一同时发生,则
?
?
?
?
?
1
)()(
)()(
)(
i
ii
ii
i
ABPAP
ABPAP
BAP
统计和概率
随机变量 Random variable
? 随机变量 X——在实验中所得到的取值有随机性的量
? 例 1:连续三次抛一枚硬币,出现正面的次数 X为随机
变量。
x 概率 P(x) 0 0.125
1 0.375
2 0.375
3 0.125
? 1.00
定义:在一定条件下,每一个可
能结果 ?都唯一地对应到一个实
数值 X(?),则称实值变量 X(?)为
一个随机变量。简记 X。
可以用随机变量表示随机事件
{X=1},{X?2}
P(X=1) = P(1)=0.375
随机变量 Random variable
? 离散型随机变量 Discrete random variable
– X可能取有限个值或无限个值,并能一一列举
出来
? 连续型随机变量 Continuous random variable
– X可能取无限个值,不能一一列举出来
离散型随机变量
? P称为概率函数 —— P(X=x) = P(x) = p
– 离散型随机变量概率分布表
? 对任意可能结果 x,有 P(x)≥ 0,且
? ?
x
xp 1)(
X 0 1 2 3
P (X =x ) 0,12 5 0,37 5 0,37 5 0,12 5
连续型随机变量
? 连续型随机变量的 概率密度函数 probability density
? 而且有重要性质
? 由积分的定义
x
xxXxPxf
x ?
?????
???
)(lim)(
0
? ???? ? 1)( dxxf
0)( ?xf
f(x)


连续变量 (X)
P(a?X?b)
???? ba dxxfbXaP )()(
累积分布函数
? 定义:设 X为一随机变量,称函数
F(x) = P( X< x ) (-∞<x<+∞)
为 X的累积分布函数 (cumulative distribution
function)。
离散型累积分布函数
0
x ? 0
0.125 0<x ?1
F(x) =
0.500
1<x? 2
0.875 2<x? 3
1.000 3< x
?
?
???
xx
i
i
xpxXPxF )()()(
P(a≤ X<b) = F(b) - F(a)
例 1中 X的分布函数,
0 1 2 3
F(x) 0
0.2
0.4
0.6
0.8
1
0 1 2 3
正面数(X)0 1 2 3
连续型累积分布函数
? ????? x dyyfxXPxF )()()(
a b
F(a) F(b)
)()(
)()(
)()(
aFbF
dxxfdxxf
dxxfbXaP
b a
b
a
??
??
???
? ?
?
?? ??
F(a)
-? a b ? ? -?
F(b)
分布函数性质
1,F(x)是不减函数,即:对任意 b>a,有:
F(b)≥F(a)
2,
3,左连续性,F(x-0) =F(x)
1)(l i m,0)(l i m ?? ?????? xFxF xx
两点分布
? 分布列为,
? 其概率模型是进行一次随机试验,成功的概率
为 p,失败概率为 q=1-p
? 若 X的分布如下,则 X服从两点分布。
– P(X=1) = p
– P(X=0) = q
? 一次 Bernoulli试验
???
?
???
?
pq
10
常见的离散型随机变量分布
二项分布 (binomial distribution)
? n重 Bernoulli试验,
– 一次 Bernoulli试验只有两种可能结果,成功
或失败
– 成功的概率为 p,失败的概率为 1-p
– 各次试验间相互独立,即互不影响
? 用 X表示 n重 Bernoulli试验中成功的次数
niqpCiXP iniin ?,2,1,0,)( ??? ?
常见的离散型随机变量分布
超几何分布 Hypergeometric distribution
? 总体中有 N 件产品(其中有 M 件次品)
? 进行不放回抽样检查,得到 n 件样品,一次取
一个
? 用 X表示这个容量为 n的样本中的 次品数,则
n
N
kn
MN
k
M
C
CCkXP ????? )( 0≤ k≤ n≤ N,k≤ M
常见的离散型随机变量分布
几何分布 geometric distribution
? 连续进行独立实验,若以 X记首次成功时的实
验次数
g(k,p) = P(X=k) = qk-1?p k=1,2,3……
? 无记忆性
– 令 B为前 m次未成功,A为再等 k次,则
常见的离散型随机变量分布
pq
q
pqqBAP k
m
km
1
1
)( ?
?
????
负二项分布 negative binomial distribution
? 连续独立实验,以 X记第 k次成功时总的实验次
数,则 X服从负二项分布
? 若令 k=1,则为几何分布
? 在生态学的研究中常有应用,许多生物种群的空
间分布型都可以用它来描述,其参数 k可作为聚
集性的指标,k 越小,该生物的群集性越明显。
kxkkx ppCxXPpkxf ??? ???? )1()(),;( 11
??,1,?? kkx
常见的离散型随机变量分布
Poisson分布
? 在二项分布中,当事件出现概率特别小,
(p→ 0),而实验次数又非常多( n→∞ ),使
np→ ?(常数)时,二项分布就趋近于泊松分

x=0,1,2,……
常见的离散型随机变量分布
?? ?? e
x
xP
x
!
)(
Poisson分布
? 如,
一个特定的时间段内到达电话交换台的呼叫
次数
一种放射性物质 10秒内释放的粒子个数
一立方厘米血液中白细胞的个数
一株紫菜上生长的细菌群体数
常见的离散型随机变量分布
Poisson分布
? 用 X表示给定的时间或空间段 (单位时间或空间段的 t倍
之内 )成功的次数
? 由 为单位时间或空间段内成功的平均次数,则 t倍单
位时间或空间段内成功出现的平均次数为
? 而
– 取,则
?
t?
?,2,1,0,!)()( ???
?
xx etxXP
tx ??
?,2,1,0,!)()( ???
?
xx exXP
x ??
t?? ?
常见的离散型随机变量分布
Poisson分布 三个性质
? 平稳性,在( t0,t0+Δt)中来到的呼叫平均数只与时间间
隔 Δt的长短有关,而与起点 t0无关。它说明现象的统计规
律不随时间变化。
? 独立增量性(无后效性),在( t0,t0+Δt)中来到 k个呼叫
的可能与 t0以前的事件独立,即不受它们的影响。它说明
在互不相交的时间间隔内过程的进行是相互独立的。
? 普通性,在充分小的时间间隔内,最多来一个呼叫。即,
令 Pk(Δt)为长度为 Δt的时间间隔中来 k个呼叫的概率,则,
0
)(
lim 2
0
?
?
??
?
?
?? t
tP
k
k
t
常见的离散型随机变量分布
Poisson分布
? 如果改用细胞计数为例,
1,平稳性,在记数板上某一区域中观察到细胞平均数只
与区域的大小有关,与这一区域位于板上的什么位置
无关。这说明细胞出现在板上任何位置的可能性都是
相等的。
2,独立增量性,在某一区域中观察到 k个细胞的可能性
与区域外细胞的多少无关,不受它们的影响。这说明
细胞出现在何处与任何其他细胞无关,细胞间既不会
互相吸引,也不会互相排斥。
3,普通性,每个细胞都可与其他细胞区分开来,不会有
两个或几个细胞重叠在一起,使我们对细胞无法准确
计数。
Poisson分布
? 例, 某物理学家将一只 Geiger计数器放在一种放射物
附近,记录激发粒子的个数,2小时内每 10秒记录一次。
从获得的数据,物理学家计算出 10秒钟 (单位时间)内
粒子(成功)的平均激发数为 5.5个,假设这是一个
Poisson试验,计算 10秒内激发超过 3个的概率。
常见的离散型随机变量分布
连续型随机变量
? 连续型随机变量取任意个别值的概率都是 0
? 一个事件的概率为 0,并不一定是不可能事件。
一个事件概率为 1,也不一定是必然事件。
? ?? ???? kcck dxxfCXP 0)(l i m)(0 0
∴ P(X=C) = 0
均匀分布 uniform distribution
? X在区间 [a,b]上服从均匀分布,其概率密度为
? 分布函数
常见的连续型随机变量分布
??
?
?
?
??
??
??
bxax
bxa
abxf
或0
1
)(
?
?
?
?
?
?
??
?
?
?
?
bx
bxa
ab
ax
ax
xF
1
0
)(
指数分布 exponential distribution
? 密度函数
? 分布函数
? 无记忆性
??
?
?
?? ?
00
0)(
x
xexf x?? 其中 λ >0,为常数
?
?
?
?
??? ?
00
01)(
x
xexF x?
t
s
ts
e
e
e
sXP
tsXP
sXtsXP
?
?
?
?
?
??
??
?
??
????
)(
)(
)(
)(
常见的连续型随机变量分布
Poisson分布与指数分布
? 二者的参数有完全相同的实际意义:如果一个事件成功在单位时
间或空间段内由 Poisson过程随机产生,那么
A,一个时间或空间段内成功的次数服从 Poisson分布
B,两次成功之间的时间或空间间隔服从指数分布
C,? 为单位时间或空间内成功的次数
D,1/ ? 为成功出现的平均间隔时间或空间,即 1/? 个时间或空间
单位
? 例, 已知一家医院的急诊室在周日下午 6:00~10:00之间平均到达 5
个急救病例。如果离散随机变量 —到达个数服从 Poisson分布,则
在这段时间内,1.相继两次到达间隔时间的期望,2.前次到达的 15
分钟内有另一次到达发生的概率
正态分布 normal distribution
? N(?,?2)
? N(0,1)
???????
??
xexf
x
,
2
1)( 2
2
2
)(
?
?
??
??????? ?
??
??
xdyexF x
y
,2 1)( 2
2
2
)(
?
?
??
? ??
?
?
????????
???????
x y
x
xdyex
xex
,
2
1
)(
,
2
1
)(
2
2
2
1
2
1
?
?
?
?=0.5
?=1.0
?=1.5
常见的连续型随机变量分布
?(X)=P(X?x)


?(x)
P(a?X?b)
标准正态分布密度函数曲线和分布函数曲线
? (1.960) - ?(- 1.960) = 0.95
? (2.576) - ?(- 2.576) = 0.99 ? (- x) = ? (x) ? (- x)= 1- ? (x)
随机变量 X的标准化
? 设 X~ N(?,?2),令
? 则 U ~ N(0,1),即,
? 令 X~ N( 0,1),则,
?
??? XU
)()()( 000 ? ?? ? ??????? xxUPxXP
)()()(
)(21)(
)(2)(
)()(
2
1
)()0(
1221
00
00
00
00
xxxXxP
xxXP
xxXP
xxXP
xxXP
??????
?????
????
????
?????
? 例 2.1 已知小麦穗长服从 N( 9.978,1.4412),求下列概率,
( 1)穗长 <6.536cm,
( 2)穗长 >12.128cm,
( 3)穗长在 8.573cm与 9.978cm之间。
0 6 8 1 1.0)49.1()
441.1
978.9128.12
()128.12(
0 0 8 4 2.0)39.2()
441.1
978.9536.6
()536.6(
????
?
????
????
?
???
XP
XP
34134.015866.050000.0)1()0(
)
441.1
978.9537.8
()
441.1
978.9978.9
()978.9537.8(
????????
?
??
?
???? XP
例 2.2 从甲到乙地有两条路线,走第一条路所需时间服从 N
( 50,100),走第二条路时间服从 N( 60,16),问,
(1),若有 70分钟可用,走哪条路好?
(2),若只有 65分钟呢?
解:走哪条路好可理解为走该条路在指定的时间内到达的可
能性大。因此有,
)2()10 5070()70(1 ?????F
)5.2()4 6070()70(2 ?????F
)5.1()
10
5065()65(
1 ??
???F
)25.1()4 6065()65(2 ?????F
显然 F2(70) > F1(70),应走第二条路。 显然 F1(65) > F2(65),应走第一条路。
随机向量
? X=( X1,X2,…X n),如 X1代表温度,X2代表
湿度 …,n 维随机向量 (随机变量 )
? 离散型随机向量 ——分布列(表)
? 连续型随机向量
– 密度函数
21
22221111
0,021
),(l i m),(
21 xx
xxXxxxXxPxxf
xx ???
?????????
????
n维随机变量的联合分布函数
? F( x1,x2,… x n) =P(X1<x1,X2<x2,… X n<xn)
? F(X1,X2,…,-∞,…X n)=0
? F(+∞,+∞,…,+∞)=1
? P(a1≤ X1<b1,a2≤ X2<b2) = F(b1,b2) - F(a1,b2) -
F(b1,a2) + F(a1,a2) b2
a2
a1 b1
n维随机变量的联合分布函数
? 二维均匀分布
? n维正态分布
??
???
??
???
),(,0
),(,1),(
21
21
21
xx
xx
Sxxf
?
?
?
?
?
? ???
?
? ? )'()(
2
1e x p
)2(
1)( 1
2
1
2
axBax
B
x n
?
?
n维随机变量的联合分布函数
? 离散:令 P(y1,y2,… y n) = P(X1=y1,X2=y2,…
Xn=yn),则分布函数为,
? 连续:令 f(y1,y2,…y n)为其密度函数,则分布
函数为,
?
?
?
?
?
nn xy
xy
xy
nn yyypxxxF
?
??
,
,
2121
22
11
),,(),,(
F(x1,x2,… xn) =
n
x x x
n dydydyyyyf
n ???
2121
1 2 ),,(? ? ?
?? ?? ??
边际分布
x 1
x 2
0
1
p 2 (x 2 )
0
10
6
10
6
?
10
6
10
4
?
10
6
1
10
4
10
6
?
10
4
10
4
?
10
4
p 1 (x 1 )
10
6
10
4
x 1
x 2
0
1
p 2 (x 2 )
0
9
5
10
6
?
9
6
10
4
?
10
6
1
9
4
10
6
?
9
3
10
4
?
10
4
p 1 (x 1 )
10
6
10
4
有放回摸球的概率分布
无放回摸球的概率分布
例 2.3 袋中有 4只
白球和 6只黑球,
摸到白球记为 1,
摸到黑球记为 0。
以 X1记第一次摸
球的结果,X2记
第二次摸球的结
果 。
随机变量的独立性
? 定义:设 F(x1,x2,…x n)为随机向量 X= (X1,X2,…X n)的
联合分布函数,若对任意 x1,x2,…x n,有,
F(x1,x2,…x n)= F1(x1)·F2(x2) … F n(xn)
则称 随机变量 X1,X2,…X n互相独立 。其中 F1,
F2,…F n分别为 X1,X2,…X n的分布函数。
? 离散型随机变量独立,有,
P(X1=x1,X2=x2,… X n=xn) = P1(X1=x1)·P2(X2=x2) … P n(Xn =xn)
? 连续型随机变量独立,有,
f(x1,x2,…x n)= f1(x1)·f2(x2) … f n(xn)
离散型随机变量 数学期望 Expectation
随机变量的数字特征 (numeric characteristics)
? 击中环数 X 8 9 10
? 甲的概率 P 0.3 0.1 0.6 谁的成绩好呢?
? 乙的概率 P 0.2 0.5 0.3
? 甲,8× 0.3N+9× 0.1N+10× 0.6N=9.3N
? 乙,8× 0.2N+9× 0.5N+10× 0.3N=9.1N
离散型随机变量 数学期望 Expectation
? 定义:设 X为一离散型随机变量,它取值为 x1,
x2,x3 …,对应的概率为 p1,p2,p3 …,若级数
绝对收敛,则把它的极限称为 X的数学期望或
均值,记为 E(X)。
? 例 2.6 两点分布,X,1 0
P,p q
∴ E(X) = 1× p+0× q =p
随机变量的数字特征 (numeric characteristics)
??
?1i
ii px
E(X) =
均值 mean
二项分布 数学期望
nkqpCPkXP knkknk ?,2,1,0,)( ???? ?
??
?
?
?
??????
n
k
knkk
n
n
k
k kqpCkPXE
10
)(
npqpnp
qpCnp
kkqpCnp
kqpC
k
n
n
n
k
knkk
n
n
k
knkk
n
n
k
knkk
n
????
?
????
???
?
?
?
??
?
?
???
?
?
??
?
?
?
?
1
1
0'
')1(''
1
1
11
1
1
1
1
)(
)1'( 令
几何分布 数学期望
Pk=qk-1 p,k = 1,2,…
??
?
? ???
1
1)(
k
k kpqXE
pq
p
q
q
p
qqqp
qqp
1
)1(
1
'
1
)'(
)321(
2
32
2
?
?
??
?
?
?
?
?
?
?
?
?
??
?????
????
?
?
绝对收敛,当 |q|<1时,极限为 q/(1-q)
泊松分布 数学期望
?,2,1,0,! ?? ? kekP
k
k
??
??
?
?
?
?
?
??
?
?
?
???
?
??
?
??
??
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
ee
k
e
e
k
e
k
kXE
k
k
k
k
k
k
1
1
1
1
0
)!1(
)!1(
!
)(
?? ?????
!!2
1
2
n
e
n??
?
?? 的幂级数可以展成
? 例 2.7 普查某种疾病,需对 N个人验血,若每人分别化
验,共需要 N次;若把 k个人作为一组,混在一起化验,
若阴性,则每组只需一次;若阳性,再逐个化验,此
时每组需要 k+1次化验。若每个人阳性的概率均为 p,
阴性的概率均为 q=1-p,且互相独立,哪种方法较好?
解:显然 k个人混合后阳性的概率为 1-qk,此时每个
人所需验血次数 X为一随机变量,其分布列为,
?
?
?
?
?
?
?
?
?
?
kk qq
kk
1
1
1
1
kqqkqkXE
kkk 11)1)(11(1)( ????????
01 ?? kq k
就能减少化验次数。例如若取 p=0.1,k=4,

4 0 6 1.01 ?? kq k
连续型随机变量 数学期望 Expectation
E(X) =
???? dxxxf )(
均匀分布数学期望,
??
?
?
? ??
??
其他0
1
)( bxaabxf
?
?
??
?
?
??
?
?
?
?
??
?
??
b
a
b
a
ab
ab
abx
ab
dx
ab
x
dxxfxXE
)(
2
1
)(22
1
)()(
222
正态分布数学期望
2
2 )(2
1
2
1)( ??
??
???? xexf
dxexdxxxfXE x
2
2 )(2
1
2)()(
??
??
???
??
?
??
??? ??
dtedtet
tde
t
tt
t
??
?
?
??
??
??
?
??
??
???
???
??
?
22
2
2
1
2
1
2
1
22
)(
2
?
?
?
?
??
??
??
?
??? xt ?? ??? tx(令 则 )
= μ
随机变量的函数的数学期望
? 离散型,X的概率分布为,P(X=xi) = pi,,
Y=g(X)为 X 的函数,则 Y 的期望为,
? 连续型,X的分布密度函数为,f(x),Y=g(X)
为 X 的函数,则若积分 绝对收
敛,则称其值为 Y=g(X)的数学期望,记为
E(g(X))。
i
i
i pxgXgEYE ??? ? )())(()(
? ??? dxxgxf )()(
数学期望的性质和运算
? 性质,( C,K为常数 )
– E( C) = C
– E( X+C) = E( X) + C
– E( KX) = K·E( X)
– E( KX+C) = K·E( X) + C
CXEK
dxxfCdxxfxK
dxxfCKxCKXE
???
????
???
??
?
?
??
?
??
?
??
)(
)()(
)()()(
CXEK
pCpxK
pCKxCKXE
i i
iii
i
ii
???
???
????
? ?
?
)(
)()(
运算:若 X1,X2,… Xn期望均存在, 则,
E( a1 X1+a2 X2+… +a nXn) =a1E(X1)+a2E(X2)+… +anE(Xn),均值是线性的
方差 Variance
? E(X?E(X))2 记为 D(X)
? 标准差 (standard deviation),
代表了随机变量对其数学期望 (均值 )的离散程度
? 证明,D(X)=E(X2) -[E(X)]2
证,D(X) = E(X-E(X))2
=E[X2-2X·E(X)+(E(X))2]
=E(X2)-2E(X) ·E(X)+[E(X)]2
=E(X2)-[E(X)]2
)( XD
? ??? ? dxxfXEx )())(( 2?
?
?
?
1
2)]([
i
ii pXEx
两点分布方差
? X,1 0 E(X)=p
? P,p q
? D(X) = E[X-E(X)]2 = (1-p)2·p+(0-p)2·q
= q2p+p2q = pq
二项分布 方差
P(X=i)=pi= npXEniqpC inii
n ??? )(,,2,1,0,??
? ?
? ?
? ?
???
?
? ?
?
????
?
?
???
??????
n
i
n
i
inii
n
inii
n
n
i
n
i
inii
ni
qpCiqpC
ii
nn
ii
qpCiipiXE
2 1
2
2
0 1
22
)1(
)1(
)1(
]1)1[()(
nppnn
npqpCpnn
n
k
knkk
n
????
????? ?
?
?
??
?
2
2
0
)2(
2
2
)1(
)1(
∴ D(X) = E(X2)-[E(X)]2
= n(n-1)p2+np-n2p2
= np-np2
= npq
(第二项是均值,令 k=i-2)
pq
q
pq
p
qqqpq
p
iqqqpq
p
pqii
ippii
piXE
i
i
i
i
i i
ii
i
i
1
1
1
)(
1
))'()'3()'2((
1
)1(
)1(
)(
2
32
12
2
1
1 1
1
22
?
?
?
?
?
?
?
?
?
?
?
?
????????
??????
????
???
??
?
?
?
?
?
?
?
?
?
?
?
? ?
?
??
??
2
3
3
22
4
22
2
2
2
2
2
1
)1(
2
1
)1(
2)2()1(2
1
)1(
)1)(1(2)2()1)(22(
1
)1(
2
1
)1(
)1(2
p
pq
pq
pq
pq
qqq
pq
pq
qqqqq
pq
pq
qq
pq
pq
qqq
pq
?
?
?
?
?
?
?
????
?
?
?
???????
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
??
?
几何分布,P( X=i) = pi = qi-1p,i=1,2,…… E(X)=
p
1
222
22 12)]([)()(
p
q
pp
pqXEXEXD ??????
泊松分布 方差
?? ? ????? ? )(,2,1,0,!)( XEieipiXP
i
i ?
??
?
??
0
22 )(
i
ipiXE
? ??
?
?
?
?? ?????
1 1 !!
)1(
i i
ii
eiieiii ?? ??
??
?
?
? ?
??
?
?
? ?
?
?
?
?
2
2
2
2
)!2(i
i
e
i
22 )]([)()( XEXEXD ??
?
???
?
??? 22
均匀分布方差
E(X)=(a+b)/2
3
)(3
)(
3
1
1
)(
22
33
3
22
baba
ab
ab
x
ab
dx
ab
xXE
b
a
b
a
??
?
?
?
?
?
?
?
?
?
?
22 )]([)()( XEXEXD ??
2
2222
222
)(
12
1
)363444(
12
1
23
ab
babababa
bababa
??
??????
?
?
?
?
?
? ?
?
??
?
正态分布 方差
E(X)=μ
2
2
2
1
2
12
2
12
2
12
2
2
)(
22
2
2
)(
2
)(
2
2
)(
2
1
)()(
22
2
2
2
2
?
?
?
?
?
?
?
?
?
?
?
?
??
??
?
?
?
??
?
?
?
?
?
?
???
??
??
?
??????
?
?
?
?
?
??
?
?
??
?
?
??
?
?
??
?
?
??
?
?
dyeye
eyd
dyey
x
ydxexXE
yy
y
y
x

高阶无穷小
方差的性质
)()(
)()(
0)(
2
XDCXD
XDKKXD
CD
??
?
?
)()( 2 XDKCKXD ??
2)]([)( CKXECKXECKXD ?????
)(
))((
]))(([
)]([
2
22
22
2
XDK
XEXEK
XEXKE
XEKKXE
?
???
???
???
证,
随机向量数学期望和方差
? 随机向量 X=( x1,x2,…x n)
– 数学期望为 (E(x1),E(x2),…E(x n))
– 方差为 ( D(x1),D(x2),… D(xn))
? E(xi)和 D(xi)分别代表 xi服从的边际分布的数学期
望和方差
协方差 covariance
? 两个随机变量 X,Y
COV(X,Y), E [ (X-E(X)) (Y-E(Y) ) ]
? 离散型随机变量
E[(X-E(X))(Y-E(Y))]=
? 连续型随机变量
E[(X-E(X))(Y-E(Y))]=
? ???
ji
jiji yxpYEyXEx
,
),())() ) (((
? ????? ???? ???? d x d yyxfYEyXEx ),())(())((
相关系数 correlation coefficients
为 X1,X2的相关系数,记为 r12
? 相关系数就是标准化了的协方差,即标准化了
的随机变量 的协方差。
)()(
),c o v (
21
21
XDXD
XX
?
)(
)(,
)(
)(
2
22
1
11
XD
XEX
XD
XEX ??
相关系数的性质
? |r|≤1
当 |r|=1时,意味着两随机变量有线性关系:
( K,C为常数,K>0)
r=1,X1= KX2+C
r= -1,X1= -KX2+C
? 若 r=0,则称 X1与 X2不相关。下列事实等价,
1,cov(X1,X2)=0
2,X1与 X2不相关
3,E(X1·X 2) = E(X1)·E(X2)
4,D(X1+X2) = D(X1)+D(X2)
? 证明,
∵ cov(X1,X2) = E[(X1-E(X1) ·(X2 –E(X2))]
= E[X1X2-X1·E(X2)-X2·E(X1)+ E(X1)·E(X2)]
= E(X1X2)- E(X1)·E(X2)
∴ (1),(3)等价
D(X1+X2) = E[X1-E(X1)+X2 –E(X2)]2
= E[(X1-E(X1))2+(X2 –E(X2))2+2(X1-E(X1)) (X2 –E(X2))]
= D(X1)+D(X2)+2cov(X1,X2)
∴ (1)与 (4)等价
相关系数的性质
相关系数的性质
? 若 X,Y独立,则 X,Y不相关,但逆不成立。
? 独立是说互相间没有任何影响,因此不存在任
何函数关系
? 不相关只说 X,Y间没有线性关系,是否有非
线性关系则不一定
? n个随机变量:若 X1,X2 …X n不相关,则,
E( X1·X 2 …X n) = E(X1)·E(X2) …E ( Xn)
D( X1+X2+…+X n) = D(X1)+D(X2)+ …+D ( Xn)
矩 moment
? 原点矩 origin moment
– mk=E(Xk)称为随机变量 X的 k阶原点矩 (正整
数 k)
– 数学期望就是一阶原点矩 (k=1)
? 中心矩 central moment
– Ck=E(X-E(X))k称为随机变量 X的 k阶中心矩
(正整数 k)
– 方差是二阶中心矩 (k=2)
中位数 median
? 中位数是同时满足 P(X≥x)≥,P(X≤x)≥ 的 x

? 在离散型的情况下,中位数可能不唯一
如,X,1 5 7
P,0.1 0.4 0.5
中位数为 [5,7]中任意数
? 四分位数 quantile,Q1,Q2,Q3
? 百分位数 Percentile
2
1
2
1
众数 mode
? 若 X为离散型,则使 P( X=xi) =pi达到最大值
的 xi称为众数
? 若 X为连续型,则使其密度函数 f(x)达到最大值
的 x称为众数
? 在上面的例子中,众数为 7。显然众数也可能
不唯一。
变异系数 coefficient of variability
? 是一个没有单位的数,使用它可以更好地直观
比较各随机变量的离散程度
?
??CV
偏态系数 (偏度 ),峰态系数 (峭度 )
? 三阶中心矩除以标准差的立方称为随机变量的偏态系
数 coefficient of skewness,记作 CS。即,
– CS>0,正偏度; CS<0,负偏度 ; CS=0,对称
? 四阶中心矩除以标准差的 4次方再减 3,称为峰态系数
coefficient of kurtosis,记作 Ce。即,
– Ce>0,密度函数图形尖; Ce<0,图形平
– Ce=0,标准正态分布
3
3
?
CC
s ?
344 ?? ?CC e
大数定律 law of large numbers
? 独立同分布的随机变量,一列随机变量 X1,X2,…X n
互相独立,且有相同的分布函数
? X1,X2,…X n… 是独立同分布的随机变量,且数学期
望存在。设 E(Xi)=a,则对任意 ε>0,有,
? 只要实验次数足够大,样本均值 Sn/n就会趋近于母体
的期望
0)(lim ???
??
?anSP n
n
?
?
?
n
i
in XS
1
1)(lim 1 ??????? ??? XEnSP nn
中心极限定理 central limit theorem
? 设 X1,X2,…X n… 是独立同分布的随机变量,且 E(Xi),
D(Xi)存在,则对一切实数 a<b,有,
? 中心极限定理则证明许多小的随机因素的叠加会使 总
和 的分布趋近于 正态分布
? 中心极限定理还说明不管原来的母体分布是什么,只
要 n足够大,即可把样本 均值 视为服从 正态分布
? ??? ??? ??? ba u
i
in
n
dueb
XDn
XEnSaP 221
2
1)
)(
)((l i m
?
? ??? ???? ba u
i
i
n
duebnXD XEXaP
2
2
1
2
1)
/)(
)((lim
?
样本均值的期望方差
?? ?? XXE )(
n
XE xX
2
22 ])[( ??? ???
???? ?? )(1)1()( ii XEnXnEXE
nn
XDXD
nXnDXD
i
ii
2
2
)()(1)1()( ????? ??
),(~ 2??NX ),(~ 2
nNX
??如果 则
二项分布模拟正态分布
(中心极限定理 的说明 )
统计推断 inference
? statistics,the science of collecting and
analyzing data for the purpose of drawing
conclusions and making decisions,from Tamhane,Ajit
C.,and Dorothy D,Dunlop,Statistics and Data analysis from Elementary to
Intermediate,Prentice Hall,2000 pp.1,
? 抽样, 从总体抽取一小部分进行观察研究,从而对总体
的分布,数字特征进行推断。如何抽样, 抽多少,怎样抽
? 统计推断, 对抽样结果进行数据处理 (合理的分析,科学
的推断 )
? 如何从一些包含有随机误差,又并不完全的信息中得
出科学的、尽可能正确的结论。
信息的不确定性
1,测量过程引入的随机误差
2,取样随机性所带来的变化
3,我们所关心的性质确实发生了某种变化
统计学的任务就是在前两种干挠存在的情况
下,对第三种改变是否存在给出一个科学的
结论。
问题
? 例 3.1 某地区 10年前普查时,13岁男孩子平均
身高为 1.51m,现抽查 200个 12.5岁到 13.5岁男
孩,身高平均值为 1.53m,标准差 0.073m,问
10年来该地区男孩身高是否有 明显增长?
? 10年前 ?1=1.51m
现在 ?
? 已知, s=0.073m
),(~ 2??NX
),51.1(~ 21?NX
mx 53.1?
统计学常用术语
? 总体
? 个体
? 特性
? 总体分布
? 样本
? 简单随机样本
? 样本量
? 观测值
? 统计量
? 男孩
? 一个男孩
? 身高 (用随机变量 X表示 )
? 正态分布
? 200个男孩 X1,X2,?,X200
? 独立同分布
? 200
? xi,1.50m,1.57m,?,1.55m
?
mxnx ni i 53.11 1 ?? ??
22
1
22 073.0)(
1
1 mxx
ns
n
i
i ???? ?
?
平均数
标准差
参数
?
?
统计量
?x
s
? ?
? ? ? ?
?
?
总体
? ? ?
样本
统计量
? 样本均值
? 样本方差
? 样本协方差
? 样本 k阶原点矩
? 样本 k阶中心矩
? 分位数, 满足条件 P(X ≤ x p) ≥ p 的最小实数 xp
称为 X或其分布的 p分位数
?
?
? n
i
ixnx
1
1
?
?
???
n
i
i xxns
1
22 )(
1
1
?
?
??? n
i
ii yyxxn
1
))((11
?
?
n
i
k
ixn
1
1
?
?
?n
i
k
i xxn
1
)(1
样本线性函数的分布
? 若 X1,X2,……X n为一简单随机样本,其总体分
布为 N(μ,σ2),统计量 u为,
u=a1X1+a2X2+…+a nXn
则 u也为正态随机变量
? 若取 ai=1/n,i=1,2,…,n,则 u=为样本均值。此

21)(,)( ??
nXDXE ??
??
??
????
n
i
i
n
i
i auDauE
1
22
1
)()( ??
?2分布
? 设 X1,X2…X n相互独立,且同服从 N(0,1),则
称随机变量
? 所服从的分布为 ?2分布,记为 Y~ ?2(n),n称为
它的自由度。
?
?
?
n
i
iXY
1
2
),(~ 2??NX i )(~)( 2
1
2
2
nX
n
i
i ?
?
??
?
?
t分布 ? 设 X~N(0,1),Y~ ?2(n),且 X,Y互相独立,
则称随机变量
? 所服从的分布为 t分布,记为 T~ t(n)。 n称为它
的自由度。
nY
XT
/
?
x
t 分布与标准正态分布的比较
t 分布
t 不同自由度的 t分布
标准正态分布
t (df = 13)
t (df = 5)
z
标准正态分布
F分布
? 设 X~ ?2(m),Y~ ?2(n),且互相独立,则称随
机变量
? 所服从的分布为 F分布,记为 F~F(m,n),
(m,n)称为它的自由度
nY
mXF
/
/?
正态总体样本均值与方差的分布
? 定理:若 X1,X2…X n为抽自总体 N(?,?2)的简
单随机样本,定义
? 样本均值为,样本方差为,
? 则有,
– 与 S2相互独立; -

?
?
?
n
i
iXnX
1
1 ?
?
???
n
i
i XXnS
1
22 )(
1
1
)1,(~ 2?? nNX
? ? )1(~1 2
2
2
?? nSn ??X
)1(~)( 2
1
2
2
???
?
nXX
n
i
i ?
?
? 推论 1,统计量
)1(~
/
??? nt
nS
XT ?
正态总体样本均值与方差的分布
)1(~
)1(
)1(
2
2
2
?
?
?
?
?
?
? nt
nS
X
n
Sn
n
X
T
?
?
?
?
? 推论 2,若 X1,X2,…,X m为取自总体 N 的
样本,Y1,Y2…Y n为取自总体 N 的样本,
且它们互相独立,则,
其中 S12,S22 分别为 X1,…,Xm,Y1,…,Yn的样本
方差。
),( 211 ??
),( 222 ??
)1,1(~2
1
2
2
2
2
2
1 ???? nmF
S
SF
?
?
正态总体样本均值与方差的分布
)1,1(~
)1(
)1(
)1(
)1(
2
1
2
2
2
2
2
1
2
2
2
2
2
1
2
1
????
?
?
?
?
? nmF
S
S
n
Sn
m
Sm
F
?
?
?
?
? 推论 3,在推论 2的条件下,若 σ1=σ2,则,
正态总体样本均值与方差的分布
)2(~
)
11
(
)1()1(
)1()1(
)()(
2
2
2
1
21 ??
??
???
???
???
? nmt
nmnm
SnSm
YX
T
??
?????? ?????? nmYXDYXE 11)(,)( 221 ???
)1()1(
)1()1( 22212
???
?????
nm
SnSm?
问题
? 例 3.1 某地区 10年前普查时,13岁男孩子平均
身高为 1.51m,现抽查 200个 12.5岁到 13.5岁男
孩,身高平均值为 1.53m,标准差 0.073m,问
10年来该地区男孩身高是否有 明显增长?
? 分析, 10年前 ?1=1.51m
现在 ?
已知, s=0.073m
? 要求判断 ? >?1 是否成立?
),(~ 2??NX
),51.1(~ 21?NX
mx 53.1?
?1=151 ?
?1 ?
两个分布 N(?1,?12)和 N(?,?2),问
?和 ?1是否一样?
将样本均值与 ?1相比,如果样本
均值与 ?1相近,则说明两个分布
的均值有极大的可能是相同的,
即 ?=?1,
如果样本均值远离 ?1(给一个人
为的判断标准 a:样本均值位于 a
的右边或 -a的左边 ),则说明两
个分布的均值有很小的可能 (概
率很小 )是相同的,即 ???1,
a
假设检验 hypothesis testing
? 假设 H0 ?=?1=151 ),51.1(~
21?NX ),51.1(~ 21
nNX
?
)1,0(~1 5 1
1
NnXU ? ??
小概率事件
05.096.11 5 1 0
1
??
?
???
??
??? ??? 为真H
n
XUP
?
??
???
??
??? ?? 为真
0
1
96.11 5 1 HnX?
?1=151
0.025 0.025
XU=0
? 在 H0(?=?1=151)为真的条件下,统
计量 U~N(0,1)
? U的特定值 u 应有绝大多数位于
?=0附近,即 u在 0附近的概率 P应
很大
? 即 |u|<1.96时,
? 如果 u值位于 ?=0附近的概率 P很
小,即 u远离 0,而位于 1.96的右边
或 -1.96的左边,此时 H0为假,
? 即 |u|>1.96时,
0 U u
? ? 05.00 ?? 为真HuUP 接受 H0
? ? 05.00 ?? 为真HuUP 拒绝 H0
接受 H0
拒绝 H0
n
xu
1
1 5 1
?
??
? 由分析知:由于生活水平提高,孩子身高只会
增加,不会减少。同时,题目也是问身高是否
有增长,因此只要判断 ? >?1 是否成立即可,
?
假设检验
小概率事件
拒绝 H0
?1=151
0.05
05.064.1151
1
?
?
?
?
?
?
? ??
n
XP
?
?
?
?
?
?
? ?? 64.1151
1 n
X
?
? ?=0.01
假设检验
?1=151
小概率事件
拒绝 H0 0.005 0.01
01.033.2151
1
?
?
?
?
?
?
?
??
n
XP
?
01.058.2151
1
?
??
?
?
?
??
?
?
?
??
n
XP
?
? 问题, ?1 未知? 用样本 S 代替
? 统计量 自由度 n-1的 t分布
? t分布概率密度函数
假设检验
)1(~151 ??? nt
nS
XT
?
?
???
n
i
i xxns
1
22 )(
1
1
2/
2
)11()( nn tctf ????
t
f(t)
假设检验
? α=0.05 显著差异
? α=0.01 t > t0.99(199)≈ 2.347 有极显著差异
? 结论, 拒绝 H0,应认为 10年来该地区男孩身高
有明显增长。
小概率事件
拒绝 H0
? ? 0001.0?? tTP
05.0)1(1 5 1 95.0 ?
??
?
??
? ???? nt
nS
XTP
653.1)199(87.3200/073.0 151153/ 151 95.0 ??????? tnsxt
? t 分布 ?=0.05
– 双侧检验 单侧检验
? t 分布 ?=0.01
– 双侧检验 单侧检验
假设检验
05.0)1(95.01 ?
?
?
?
?
?
? ???? nt
nS
XP ?
05.0)1(95.01 ?
?
?
?
?
?
? ??? nt
nS
XP ?
05.0)1(975.01 ?
??
???
??
??? ??? nt
nS
XP ?
01.0)1(995.01 ?
??
???
??
??? ??? nt
nS
XP ?
01.0)1(99.01 ?
??
?
??
? ???? nt
nS
XP ?
01.0)1(99.01 ?
??
?
??
? ??? nt
nS
XP ?
假设的建立
? 零假设 (null hypothesis),H0,μ=151 μ?151 μ?151
– 通过统计检验决定接受或拒绝 H0后,可对问
题作出明确回答
– 要能根据 H0建立统计量的理论分布
? 备择假设 (alternative hypothesis),HA:μ≠151 μ>151 μ<151
– 应包括除 H0外的一切可能值
– 如有可能,应缩小备择假设范围以提高检验
精度
假设检验问题
小概率原理
? 小概率事件在一次观察中不应出现
– 这是一切统计检验的理论基础
? 注意:小概率事件不是不可能事件。观察次数
多了,它迟早会出现。因此, 一次, 这个词是
重要的。
假设检验问题
1 61 121 181
I II
?0 ?1 u?
两种类型的错误
n e g a t i v e f a l s eHH( I( 00 ??为真)|拒绝类错误)第 PP ???
p o s i t i v e t r u eHH( H(1 000 ??为真)|接受)正确接受 PP ??? ?
p o s i t i v e f a l s eHH( II( 00 ??为假)|接受类错误)第 PP ???
n e g a t i v e t ru eHH( H(-1 000 ??为假)|拒绝)正确拒绝 PP ???
假设检验问题
当接受 H0时,也可能犯错误
因为当 H0不成立时,
也可能出现
的样本值 x1,x2,?,xn
??
? u
n
x ??
1
1
单侧与双侧检验
?
?/2 ?/2
假设检验问题
假设 双侧检验
单侧检验
左侧检验 右侧检验
原假设 H0, ? = ?0 H0, ? ? ?0 H0, ? ? ?0
备择假设 H1, ? ≠?0 H1, ? < ?0 H1, ? > ?0
0
? /2 ? /2
拒绝 H0 拒绝 H0
1 - ?
0
?
1 - ?
拒绝 H0
X
X
显著性水平的选择
? 选择的主要依据是犯了两类错误后的危害性大

– 药品出厂检验, 应取较大的 α
– 钮扣出厂检验, 应取小的 α
? α的常用值为,0.05,0.01,0.1
– 大于 0.05 ——―没有显著差异”,接受 H0
– 小于 0.05 ——―差异显著”,拒绝 H0
– 小于 0.01 ——―差异极显著”,拒绝 H0就有
了更大把握
– 犯第二类错误后后果十分严重时,也可选用
0.1或其他数值
假设检验问题
正态总体的假设检验
? 单样本检验
– 全部样品都抽自一个总体,检验的目的通
常是 ? 或 ? 是否等于某一数值
? 双样本检验
– 分别抽自不同总体的两个样本,检验的目
的是看这 两个总体的 ? 或 ? 是否相等
– 最大优点, 不必知道总体的参数数值,而
只要看看它是否有变化就可以了
单样本检验步骤 ? 建立假设,包括 H
0与 HA
– H0,? = ?0,? ≤ ?0,或 ? ≥ ?0
– HA,? ≠ ?0,? > ?0,或 ? < ?0
– ?0数值的确定,
? 凭经验我们知道 μ0 应等于多少
? 根据某种理论可以计算出 μ0应等于多少
? 实际问题要求它等于多少
? 选择显著性水平 ?
? 选择统计量及其分布
– 检验均值一般选择 为统计量
– 检验方差则选择 S2 为统计量
? 建立拒绝域
? 计算统计量,并对结果作出解释
X
各种情况下的统计量理论分布
? 检验均值
– 总体方差 σ 2已知,
– 总体方差 σ 2未知,
? 检验方差
)1,0(~/ 0 NnXU ? ???
)1(~/ 0 ??? ntnSXT ?
)1(~)1( 22
0
2
2 ???? nSn ?
?
单样本方差检验
? 一发酵法生产青毒素的工厂,其产品收率的方
差分别为,现工厂测得 25个数
据,, S=0.77g/l,问该工厂的生产情况
是否稳定?
? 分析:生产中为了了解生产精度有无变化,进
行抽样,如果样本方差比总体方差变大,说明
精度变差了,则应停产检查原因。
46.021 ??
lgx /71.3?
单样本方差检验
? 例 3.2 已知某种玉米平均穗重 ?0=300g,标准差
?0=9.5g,喷药后,随机抽取 9个果穗,重量分别为
308,305,311,298,315,300,321,294,320。问 喷药
前后方差是否改变? 这种药对果穗重量是否有
影响?
? 分析, 喷药前 ?0=300g,?0=9.5g
喷药后 ?,?
? 已知, X1,X2,?,X9 对应 x1,x2,?,x9
?
?
? n
i
ixnx
1
1 ?
?
???
n
i
i xxns
1
22 )(
1
1
? H0:σ=9.5; HA:σ≠9.5 α =0.05
? 统计量
? ?2分布概率密度函数
单样本方差检验
2/2/)3(22 2)()( ??? ??? ecf n
)1(~)1( 22
0
2
2 ???? nSn ?
?
?/2 ?/2
1-?
)1(2 2 ?n?? )1(2 21 ?? n??
f(?2)
?2
单样本方差检验
? 双侧检验
? 单侧检验
– 右尾检验
– 左尾检验
单样本方差检验
)1()1( 2 222 212 ???? ? norn ?? ???? 拒绝 H0
)1(212 ?? ? n???
)1(22 ?? n???
拒绝 H0
拒绝 H0
)8(20.85.98)8( 2 975.02
2
22
025.0 ??? ??
??? S结论,无显著差异,接受 H
0,
可认为喷药不影响穗重标准
差,σ 仍为 9.5。
? 检验两个方差是否相等
– H0,?1= ?2 (?1/?2=1) HA,?1??2 (?1/?2 ? 1)
双样本方差 (方差齐性 )检验
)1,1(~2
2
2
1 ??? nmf
S
SF
?????? ?????
?????? ????
2
2
12 1
1
11)(
nmm
fnmcfff
F
f(f)
F分布的概率密度函数,
双样本方差 (方差齐性 )检验
)1,1( ??? nmff ?
小概率事件
拒绝 H0
双侧
右侧
左侧
)1,1()1,1( 221 ?????? ? nmffornmff ??
)1,1(1 ??? ? nmff ?
F f1-? ?? f? ??
拒绝
H0
拒绝
H0
双样本均值检验
? 检验两个均值是否相等
– H0,?1= ?2 or ?1- ?2 = ?
? 两总体样本均值差的理论分布
? 对于两正态总体样本的均值差服从如下正态分布,
2121 ??? ??? xx nmxx
2
2
2
12
21
??? ??
?
),(~
2
2
2
1
2121 nmNXX
???? ???
? 两总体方差 已知,u检验
2221,??
? ? ? ? )1,0(~
2
2
2
1
2121 N
nm
XXU
??
??
?
???? )1,(~
2
2
2
1
21 N
nm
XXU
?? ?
??
? ? ? ? ?? ?? ????? uUPoruUP
? ? ?? ?? 2uUP
小概率事件
拒绝 H0
双样本均值检验
? 两总体方差 未知,但它们相等,t检验 2221,??
)2(~
11
2
)1()1( 2221
21 ??
?
?
?
?
?
? ??
??
???
?
? nmt
nmnm
SnSm
XX
T
? ?
)22(~
1 2
2
2
1
21 ?
?
?
? nt
SS
n
XX
T
双样本均值检验
? ? ?? ??? )1(2 ntTP
? ? ? ? ?? ?? ????? tTPortTP
小概率事件
拒绝 H0
? 两总体方差未知,且不等:近似 t检验
n
S
m
S
XX
T
2
2
2
1
21
?
?
?
122
1
)1(
1
?
???
?
???
?
?
??
?? n
k
m
kdf )( 222121
n
s
m
s
m
sk ??
双样本均值检验
配对数据检验
? 例 3.6 10名病人服药前后血红蛋白含量如下:
问该药是否引起血红蛋白含量变化?
? 统计 对象 ——取每对材料测量值的 差
? 配对样本如下,
? 差为,
? 配对样本:两个性质相同的样本的数据一一地
有某种 正相关,例如同一个人某特征的两次测
量 (不一定正态 )
),(,),,(),,( 2122122111 nn xxxxxx ?
iii xxd 21 ??
? 差的样本均值,差的样本标准差
? 差的总体均值 差的总体标准差
? 差的样本均值的标准差
n
d
d
n
i
i?
?? 1
配对数据检验
1
)(
1
2
?
?
?
?
?
n
dd
s
n
i
i
d
21
1 ??? ???
?
?
N
d
N
i
i
d N
d
N
i
di
d
?
?
?
? 1
2)( ?
?
nSS dd ?
配对数据检验
? H0,?d = 0; HA,?d≠ 0 (单样本检验 )
? 差的检验统计量
一般地,
0?d?
)1(~
2
????? nt
nS
D
S
DT
d
d
d
d ??
配对数据检验注意的问题
? 正相关性
? r > 0,则有,即差值的方差小于
两组数据方差的和,此时采用配对检验可 提高
检验精度
? r < 0,则有,即差值的方差反而
大于两组数据方差的和,此时采用配对检验会
降低检验精度
222122212 2 SSrSSS d ????
22212 SSS d ??
22212 SSS d ??
百分数的检验
? 样本均值
? H0,p1 = p2 or p1 - p2 = 0
? H0成立时,若 n1,n2足够大,
? 统计量
2
2
2
1
1
1 ?,? n
xp
n
xp ??
pqnn xxp ?1?,?
21
21 ??
?
??
近似服从 N(0,1)
近似服从
???
?
???
?
???
?
???
? ?
21
11,0
nn
pqN21 ?? PP ?
??
?
?
??
?
?
?
????
?
21
2121
11??
)0()??(
nn
qp
ppPP
U
???
?
???
?
???
?
???
?
2
2
1
1,~?,,~? n
pqpNP
n
pqpNP
例 4.1
用 4种蛋白质含量不同的配合饲料饲养 30日龄的小鸡,
10天后计算平均日增重,得以下数据,问 4种饲料的效
果是否相同?
4210, ??? ??? ?H j)i,(,至少有一对jiAH ?? ?
蛋白质含量 X ( g ) 日增重值 Y ( g )
6 5 5 4 9 6 2 4 5 5 1
9 6 1 5 8 5 2 6 8 7 0
12 7 1 6 5 5 6 7 3 5 9
15 8 5 9 0 7 6 7 8 6 9
? Y
?X
XXY ??? ???
回归分析 regression analysis
? 用途:研究多个变量之间的关系
? 内容,
– 一元线性回归
– 相关分析
– 多元线性回归
– 非线性回归
? 按两个变量的地位分类
– 相关关系,两变量 X,Y均为随机变量,任
一变量的每一可能值都有另一变量的一个确
定分布与之对应。
– 相关分析的目的, 研究 X,Y的共同变化规律
– 回归关系,X是非随机变量或随机变量,Y
是随机变量,对 X的每一确定值 xi都有 Y的一
个确定分布与之对应。
– 回归分析的目的, 预测
? 两个变量间相关 (或回归 )的程度
– 完全相关,一个变量的值可由另一个变量
所完全决定
– 不相关,变量之间完全没有任何关系。此
时知道一个变量的值不能提供有关另一个变
量的任何信息
– 统计相关 (不完全相关 ):此时知道一个变
量的取值并不能完全决定另一个变量的取值,
但可或多或少地决定它的分布
? 按相关中涉及的公式类型分类
– 线性相关
– 非线性相关
-2
0
2
-2
0
2
-5
0
5
10
y = 3 + x1 - 2x2 多元线性回归
Y
X1
X2
Made by Cai Tao
-2
0
2
-2
0
2
-10
0
y = 3 + x1 - 2x22 非线性回归
Y
X1
X2
Made by Cai Tao
一元正态线性回归统计模型
? 条件均值
? 观察值
? 回归分析的目标, 从样本得到 ?,?的估计 a,b
? 条件均值的点估计, yi的 点 估计,
XXY ??? ???
iii xy ??? ???
),0(~ 2?? N I Di
ii bxay ???
),(~ 2??? XNY ?
ixXY bxai ??????
例 5.1 大白鼠 6-18日龄的体重
序号 1 2 3 4 5
日龄 x i 6 9 12 15 18
体重 y i 11 16.5 22 26 29
Y
X
一元线性回归
?
?
?
??
?
?
?
?
?
?
?
?
0
0
b
SS
a
SS
e
e
iii yye ???
?
?
?
?
???
??
n
i
ii
n
i
iie
bxay
yySS
1
2
1
2
)(
)?((x
i,yi )
回归直线 bxay ???
yi
iy?
xi
(xi,)
iy?
最小二乘法
?
?
?
?
?
?
?
????
????
?
?
?
?
n
i
iii
n
i
ii
bxayx
bxay
1
1
0)()2(
0))(2(
?
?
?
?
?
?
?
??
??
? ? ?
? ?
? ? ?
? ?
n
i
n
i
n
i
iiii
n
i
n
i
ii
yxxbxa
yxban
1 1 1
2
1 1
?
?
?
?
?
?
?
?
?
??
?
??
?
?
?
?
?
?
?
? ?
??
?
?
?
? ?
??
?
xbya
xx
yyxx
nxx
n
yx
yx
b
n
i
i
n
i
ii
n
i
n
i
ii
n
i
i
n
i
in
i
ii
1
2
1
1
2
1
2
11
1
)(
))((
/)(
)()(
例 5.1
?
?
?? n
i
ixx xxS
1
2)( ?
?
?? n
i
iyy yyS
1
2)( ?
?
???
n
i
iixy yyxxS
1
))((
???
???
?????? n
i
iixy
n
i
iyy
n
i
ixx yxnyxSynySxnxS
1
2
1
2
1
22,.1.1.1
6 9 9 6.2125 1 6 7.15/5.1 0 4
5 1 6 7.190/5.1 3 6
??????
???
xbya
S
S
b
xx
xy
回归方程为,y = 2.6996 + 1.5167 x
y
x
y
x
? > 0 ? < 0
? = 0 ? = 0
b的期望
?? ??? xx
xx
SS 1
?
?
?
?
?
?
?????????
?
?
?
?
?
?
??????
?
?
?
?
?
?
?
?
?
?
?
?
?
?
???
?
?
?
?
?
?
?
?
????
?
?
?
?
?
?
????
?
?
?
?
?
?
?
?
?
? ??
?
??
?
? ??
?
??
?
n
i
n
i
ii
n
i
iii
xx
n
i
iii
xx
n
i
i
n
i
ii
xx
n
i
ii
xxxx
xy
xxxxxxxE
S
xxxE
S
yxxyxxE
S
yyxxE
SS
S
EbE
1 11
1
11
1
)()()(
1
)()(
1
)()(
1
))((
1
)(
???
???
E(Sxy)
? ?
0
1
1
1
?
??
?
?
?
?
?
?
?
n
i
n
i
n
i
i
n
x
nx
xx
i
i
? ??
?
??
?
??
?
??
?
?
??
?
??
?
??
??
?
?
?
?
?
?
?
?
?
?
?
?
??
?
?
?
?
?
?
?
?
??
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
??
????
n
i
ii
n
i
i
n
i
i
i
n
i
i
n
i
i
n
i
i
n
i
i
n
i
i
n
i
ii
n
i
i
xxx
x
n
x
x
n
x
x
n
xn
n
x
x
xxxxxx
1
1
12
2
1
1
2
2
2
1
2
1
1
2
1
22
1
2
2
)2()(
b的方差
?
?
?
?
?
?
???
?
?
?
?
?
?
?????
?
?
?
?
n
i
ii
xx
n
i
ii
xx
xxyD
S
yyxxD
S
bD
1
2
1
2
)(
1
)()(
1
)(
xx
n
i
i
xx
S
xx
S
2
1
22
2
)(
1
?
?
?
?
?
?
?
?
?
??? ?
?
D(Sxy)
a的期望与方差
)
1
(
))(0
1
(
)
)()(
2
1
(
)
)(1
(
])
)(1
([
]
)(
1
[)()(
2
2
1
2
2
2
2
1
2
22
2
2
1
22
1
1
1
xx
n
i
i
xx
n
i xx
i
xx
i
n
i xx
i
n
i
i
xx
i
n
i xx
n
i
ii
i
S
x
n
xx
S
x
n
S
xxx
nS
xxx
n
S
xxx
n
y
S
xxx
n
D
S
xxyx
y
n
DxbyDaD
??
?????
??
?
?
??
?
?
??
?
??
??
????
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
???
???
?
???
????
??
xx
xbxE
xbyEaE
)(
)()(
估计 σ 2
ii
iii
bxay
yye
???
?? ?
xyyy
xx
xy
xxxyyy
n
i
iiii
n
i
ii
n
i
ii
n
i
n
i
iiie
bSS
S
S
bSbbSS
xxbxxyybyy
xxbyy
bxxbyy
xbyabxayeSS
??
????
???????
????
????
??????
?
?
?
? ?
?
?
?
? ?
)(2
])())((2)[(
)]()[(
)(
)()(
2
1
222
1
2
1
2
1 1
22
?
?
])]([)([
1
))((
)(
1
)()(
2
1
2
2
xyxy
xx
n
i
i
xy
xx
yye
SESD
S
yyE
SE
S
SESSE
????
????
?
?
??
??
???????
n
i
ii
n
i
i xxEyyE
1
2
1
2 )())(( ??????
?
?
????
n
i
ii xxE
1
2)]()([ ???
22
2
22
1
222
1 1
222
)1(
)(
)()(
??
?
??
???
???
???
????
???
????
?
? ?
?
? ?
nS
n
nnS
nES
Exx
xx
xx
n
i
ixx
n
i
n
i
ii
D(Sxy) = Sxx?2,E(Sxy) = ?Sxx
222222 )2()(1)1()( ????? ???????? nSS
SnSSSE xxxxxxxxe
2)
2()( ????? n
SSEMSE e
e
b与 a的样本方差
xx
e
b S
MSS ?2
)1(
2
2
xx
ea S
x
n
MSS ??
MSe的自由度为 n-2,a,b两方差的自由度也均为 n-2
线性回归统计检验
? 对 ?进行检验
– H0, ? = 0 HA,? ? 0 ( HA,? > 0 或 ?< 0)
)2(~ ?
?
?
?
? nt
MS
Sb
S
b
t
e
xx
b
b
?
?
?
?
?
?
?
xxS
Nb
2
,~ ??
? 对 ? 进行检验
– H0,? = 0 HA,? ? 0 (HA:? > 0 或 ? < 0)
)2(~)1(
2
????? nt
S
x
n
MSa
S
at
xx
e
a
a
?
?
?
?
?
?
?
?
?
??
?
?
??
?
?
?
xxS
x
n
Na
2
2 1,~ ??
两个回归方程的比较
? H0,?1 = ?2 H0,?1 = ?2
? 如果两 H0均被接受,则可认为两组数据是抽自
同一总体,从而可将两回归方程合并,得到一
个更精确的方程。
XXY 111 ??? ???
XXY 222 ??? ???
一元回归的方差分析 (无重复情况 )
? ? ?
? ? ?
?????
n
i
n
i
n
i
iiii yyyyyy
1 1 1
222 )?()?()(
)2/( ??? nSS
SS
MS
MSF
e
R
e
R
S yy = SSe + SS R
y 的总校正平方和 残差平方和 回归平方和
df, n - 1 n - 2 1
X
Y
),( yx
(xi,yi )
(xi,)
iy?
yi
iy?
y
x
?
?
??
n
i
iie yySS
1
2)?(
?
?
?
?
?
?
??
????
??
n
i
i
n
i
i
n
i
iR
xxb
xbabxa
yySS
1
22
1
2
1
2
)(
)(
)?(
X
iy?
y
x
F检验与 t检验是一致的
2
2
2
2 tS
b
SS
Sb
MS
MSF
bxxb
xy
e
R ??
?
???
SSR = Syy ? SSe = b ? Sxy
SSe = Syy ? b ? Sxy
xx
e
b S
MSS ?2
有重复方差分析
? 设在每一个 xi 取值上对 Y作了 m次观察, 结果
记为 yi1,yi2,……,yim
?,i = 1,2,… n,j = 1,2,… m
? 估计值仍为,
? Syy = SSR + SSLOF + SSpe
ijiij xy ??? ???
ii bxay ???
1,., )(
1 1
2 ???? ? ?
? ?
mndfyyS
n
i
m
j
ijyy ??
????
n
i
iR dfyymSS
1
2 1,..)?(
nmndfyySSndfyymSS
n
i
m
j
iijpe
n
i
iiL O F ????????? ? ??
? ?
?
?
?
1 1
2
1
2,)(2,)?(
有重复方差分析
),2(~1 nmnnF
MS
MSF
pe
L O F ???
)2,1(~2 ?
?
?
? mnF
dfdf
SSSS
MS
F
peL O F
peL O F
R
H0,线性模型合适地拟合数据
H1,线性模型不拟合数据
H0,? = 0 H1,? ? 0
α 和 β 的区间估计
)2(~/ ?? ntSMSb
xxe
?
β 的 95%置
信区间为,xxe SMSntb /)2(9 7 5.0 ??
)2(~
)1(
2
?
?
? nt
S
x
n
MS
a
xx
e
?
)1()2(
2
975.0
xx
e S
x
n
MSnta ???
? 的 95%置
信区间为,
条件均值 ?Y? X的估计
0xXY ??? 0?y
区间估计
点估计
)
)(1
()2(?
2
0
2
1
0
xx
e S
xx
n
MSnty
?
???
?
?
00000 )()()()?( xXYxbExaEbxaEyE ?????????? ???
???
?
???
? ??
?? ]
)(1[,~? 202
0 0
xx
xXY S
xx
nNy ??
在 X=x0处
]
)(1
[
]
)()())((
2)
1
([
]
))((1
[
])
))((1
([
]
)(
)(
1
[
])(
1
[
)()()?(
2
02
1
2
22
0
1 1
022
1
202
1
0
1
1
0
1
0
000
xx
n
i
xx
i
n
i
n
i
xx
i
n
i
xx
i
n
i
i
xx
i
n
i
xx
n
i
ii
i
n
i
xx
xy
i
S
xx
n
S
xxxx
nS
xxxx
n
S
xxxx
n
y
S
xxxx
n
D
S
xxy
xxy
n
D
S
S
xxy
n
D
bxxbyDbxaDyD
?
??
??
?
??
???
??
???
??
??
?
????
????
?????
?? ?
?
?
?
?
?
?? ?
?
?
?
?
?
?
?
?
对一次观察值 y0的估计
y0 点估计
区间估计
0?y
)?()()()( 0000000 yExExxEyE ????????? ????????
])(11[])(1[)?()()?(
2
02
2
022
0000
xxxx S
xx
nS
xx
nyDyDyyD
??????????? ???
)2(~
))(11(
?0?
2
0
00
?
00
00
?
???
?
?
??
?
nt
S
xx
n
MS
yy
S
yy
xx
e
yy
))(11()2(?
2
0
21
0
xx
e S
xx
n
MSnty ?????
? ?
在 X=x0处
例 5.6 江苏武进县测定 1959-1964年间 3月下旬至 4月中旬平
均温度累积值 x和一代三化螟蛾盛发期 y的关系如下表 (盛发
期以 5月 10日为起算日 ) 。 试作回归分析 。
表 5.2 平均温度累积值与一代三化螟盛发期 年代 1956 1957 1958 1959 1960 1961 1962 1963 1964
累积温 x /(d ?℃ ) 35.5 34.1 31.7 40.3 36.8 40.2 31.7 39.2 44.2
盛发期 y /d 12 16 9 2 7 3 13 9 – 1
一代三化螟盛发期置信区间
0
xXY ??
? 的 9 5 % 置信区间 y 0 的 9 5 % 置信区间
x 0
y 0
下限 上限 下限 上限
30 1 5, 6 1 0, 3 2 0, 8 6, 2 2 4, 9
32 1 3, 4 9, 2 1 7, 5 4, 6 2 2, 1
34 1 1, 2 7, 9 1 4, 4 2, 8 1 9, 5
36 9, 0 6, 3 1 1, 6 0, 8 1 7, 1
38 6, 8 4, 1 9, 4 - 1, 4 1 4, 9
40 4, 6 1, 4 7, 8 - 3, 8 1 2, 9
42 2, 4 - 1,7 6, 4 - 6, 4 1 1, 1
44 0, 2 - 5, 0 5, 3 - 9, 1 9, 4
46 - 2, 0 - 8, 3 4, 2 - 1 2, 0 7, 9
- 1 5
- 1 0
-5
0
5
10
15
20
25
30
31 33 35 37 39 41 43 45 积温
盛发期
预测值
观测值
均值下限
均值上限
预测值下限
预测值上限
用估计值进行预报的注意事项
相关分析
? 研究 X与 Y两个随机变量之间的共同变化规律
? 内容,
– 回归方程的建立
? X,Y都是随机变量
? 可以得到两条回归直线
– 相关系数的概念及用途
回归方程
Y
X
X
Y
x = 0.11y + 41575.69
yyxx
xy
n
i
i
n
i
i
n
i
ii
n
i
i
n
i
i
n
i
ii
xy
SS
S
yyxx
yyxx
n
yy
n
xx
n
yyxx
r
?
?
???
??
?
?
?
?
?
?
?
??
?
??
?
??
?
??
?
??
?
1
2
1
2
1
1
2
1
2
1
)()(
))((
1
)(
1
)(
1
))((
相关系数
COV(X,Y) = E[(X-E(X))(Y-E(Y))]
yx
YXC O VYX
???
),(),( ?
样本协方差
样本相关系数
1?n
Sxy ?
?
???
n
i
iixy yyxxS
1
))((
I II
III IV
I II
III IV
?x
?y
?x
?y
I II
III IV
?x
?y
无相关 ?=0 正相关 ?>0
负相关 ?<0
相关系数 的性质
? SSe = 0,用 可以准确预测 y值
? r = 0 SSe = Syy,回归一点作用也没有,即用
X的线性函数完全不能预测 Y的变化
? 情况介于上述二者之间,X的线性函
数对预测 Y的变化有一定作用,但不能准确预
测,这说明 Y还受其他一些因素
yy
e
yy
R
yy
xy
yyxx
xy
S
SS
S
SS
S
bS
SS
Sr ????
?? 1
2
2 1?r
1?r y?
10 ?? r
用 r进行统计检验
? 当 ρ= 0时,r的分布近似于正态分布
H0, ρ= 0 H0, ? = 0
)2(~ ?? ntSbt
b
b
2
1
)2(
1)1(1
2
22
?
???
????????
???
n
r
S
S
SnSS
SS
Sn
bSS
S
MSS
xx
yy
xxyyxx
xy
yy
xx
xyyy
xx
e
b
)2(~
1
2
1
2
1
2
222
?
?
??
?
???
?
???? nt
r
nr
r
nr
r
n
S
S
S
St
yy
xx
xx
xy
对 ?=?0 ?1=?2等进行检验
n充分大时,可证明 Z渐近正态分布
r
rZ
?
??
1
1ln
2
1
???
?
???
?
??
?
3
1,
)1(2 nn
N ?? ?
??
?
??
1
1ln
2
1
r 与 b
xxxy SSb /? yyxy SSb /' ?
'
2
2 bbrbb
SS
S
r
yyxx
xy ?????
?
?
多元线性回归
? k个自变量,线性回归模型
? 求 a,bj
?
?
??
n
p
ppe yySS
1
2)?(
),,2,1,2,1(
1
kjnpxy p
k
j
jpjp ?? ????? ?
?
???
),0(~ 2?? N I Dp
?
?
??
k
j
jpjp xbay
1
?
?
?
?
?
?
?
?
??
?
?
?
?
?
kj
b
SS
a
SS
j
e
e
,,2,10
0
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
??????
??????
??????
????
? ? ? ? ?
? ? ? ? ?
? ? ? ? ?
? ? ? ?
? ? ? ? ?
? ? ? ? ?
? ? ? ? ?
? ? ? ?
n
p
n
p
n
p
n
p
n
p
pkpkpkpkppkpkp
n
p
n
p
n
p
n
p
n
p
ppkppkpppp
n
p
n
p
n
p
n
p
n
p
ppkppkpppp
n
p
n
p
n
p
n
p
pkpkpp
yxxbxxbxxbxa
yxxxbxbxxbxa
yxxxbxxbxbxa
yxbxbxbna
1 1 1 1 1
2
2211
1 1 1 1 1
22
2
222112
1 1 1 1 1
11212
2
111
1 1 1 1
2211
??
???????
??
??
??
?
?
??
k
j
jj xbya
1
解得 b1,b2,…,b k,a
多元 回归方程 的统计检验
H0,?1 = ?2 = ……= ?k = 0
HA,至少一个 ?j≠0 1≤j≤k
? ? ?
? ? ?
??????
n
p
n
p
n
p
ppppyy yyyyyyS
1 1 1
222 )?()?()( Re SSSS ??
df,n-1,n-k-1,k
)1,(~)1/( / ?????? knkFknSS kSSMSMSF
e
R
e
R
?
?
?
k
j
jyjR SbSS
1
多元 回归系数 的统计检验
H0:βj = 0
? 方法 1,
? 方法 2,对偏回归平方和作检验
? ?
?
?
?
????
k
j
k
ij
j
jyjjyjRRi SbSbSSSSSSP
1 1
***
)1,1(~ ??? knF
MS
S S PF
e
i
)1(~ ??
?
?? knt
cMS
b
S
bt
jje
j
bj
j
F检验与 t检验等价
复相关系数和偏相关系数
yy
e
yy
R
ky S
SS
S
SSR ???
? 1,,2,1 ?
jjii
ij
kjjiiij
cc
c
r
?
?
??????,),1(),1(,),1(),1(,,2,1 ???
逐步回归
? 最优的回归方程
? 逐步回归的提出
? 怎么进行逐步回归?
– 偏回归平方和为检验标准
– 引入
– 剔除
一次只对一个 自变量
逐步回归,注意
? 具体操作时应注意,
– 自变量逐个进行引入或剔除
– Fα的值 ——自变量的个数
– 哪个自变量会进入方程,与所选择的自变量变化范
围有关
– 自变量数 k < n-1
? 逐步回归方程应用时注意,
– 对选出的变量应根据实际问题进行分析
计算机辅助药物设计中多元线性
模型的应用 ——QSAR方法
? 磺酰脲类系列化合物 ——23个 (已知样本 )
S O 2 N H C O N H
N O 2
N
N
H
H C H 3
H
S O 2 N H C O N H
C H 3
N
N
H
H C H 3
H
S O 2 N H C O N H
C O O C 2 H 5
S
N
H
H C H 3
H
S O 2 N H C O N H
C L
N
N
H
H H
H
计算机辅助药物设计中多元线性
模型的应用 ——QSAR方法
? 因变量 Y:药物的活性
– 半数有效量 ED50 EC50
? 自变量 Xi:药物分子的结构大小、电子、疏水
性等
????? ???? SEP
ED
lo g1lo g
50
X1 X3 X2 Y
M
1
S O
2
N H C O N H
L
5
L
4
L
3
L
2
L
1
R3
R1 R2
R4
磺酰脲类除草剂的设计
? 因变量 Y:药物的活性
? 自变量 Xi的个数,
– M1,L1~L5,R1~R4 的大小 (10个 )
– M1,L1~L5,R1~R4 的大小的平方项 (10个 )
– M1,L1~L5,R1~R4 的电负性 (10个 ) 42个
– M1,L1~L5,R1~R4 的电负性的平方项 (10个 )
– 分子的疏水性及疏水性的平方项 (2个 )
逐步回归分析结果
)6 5 5.0(8 3 2.23
29.3)()3 2 6.0(2 7 7.0
98.3)()2 4 4.0(2 2 8.0
82.12)()0 9 9.10(9 6 2.16
85.12)()1 4 7.0(2 4 7.0
61.13)()6 8 8.1(9 2 2.2
44.21)(2 1 9.0
03.23)()2 5 5.0(5 7 4.0
1
l o g
43
3
2
2
12
13
1
2
2
5
2
2
23
50
??
??
??
??
??
??
?
??
??
RX
LX
MX
MX
MX
LX
RX
t e s tF
ED
逐步回归的检验
n=23(已知有效的除草剂分子 )
s=0.307 R=0.948 F=18.99
yy
e
S
SSR ?? 1 ? ?
1
?
1
2
??
?
?
?
?
kn
yy
s
n
p
pp
1???? knSS
kSS
MS
MSF
e
R
e
R
非线性回归
? 已知曲线类型的回归
– 单细胞生物生长
– 生态学上种群增长
– 药物剂量与死亡率 ——―S‖形 概率对数曲线
– 酶促反应动力学中的米氏方程是一种双曲
线
– 植物叶层中的光强度分布 ——指数函数
– 散点图的方法来判断曲线类型
Logistic曲线拟合
确定曲线公式中的参数
线性化的方法
非线性函数 变量代换 线性函数
指数函数:
bx
eay ?? y ? = l n y a ? = l n a y ? =a ? + b x
幂函数,y = a x
b
y ? = l n y a ? = l n a x ? = l n x y ? =a ? + b x ?
对数函数,y = a + b l n x x ? = l n x y = a + b x ?
米氏方程:
SK
SV
V
m
?
?
?
m a x
m a xm a x
',
1
',
1
',
1
'
V
k
b
V
a
s
S
v
V
m
???? '''' SbaV ??
逻辑斯蒂方程
cx
bea
y
?
?
?
1
无法用 变量代换线性化
? 剂量:取对数
曲线对称化
? 死亡率 p,标准正
态分布 的累积概率
P(X<up) = p
? up=a+b*log(剂量 )
0
0, 2
0, 4
0, 6
0, 8
1
1, 2
0 0, 4 0, 8 1, 2 1, 6 2
剂量 / m g
死亡率
/
(
%)
概率对数变换, 用于毒理学研究中求半数致死剂量
确定曲线公式中的参数
线性化方法的优缺点
? 优点:变量代换后可按线性回归做,简单方便
? 缺点,
– 不是所有非线性方程都能用变量代换线性化
– 即使方程类型不对, 变量代换与线性回归都可照样
进行, 但结果没有任何用处, 强行使用会导致错误
– 线性回归效果好并不意味着变换前的非线性回归效
果也好, 因此必须对所得的非线性方程进行检验
– 理论上所得回归方程是对线性化后数据最优, 而不
是对原始数据最优, 因此影响回归效果 。
曲线拟合
? 优点,
– 不需变量代换, 使 误差平方和 达到极小, 可保证所
得参数至少局部最优, 回归误差小于其他方法
– 常有现成软件可用;
? 缺点,
– 需要反复搜索, 计算量大, 必须用计算机
– 由于结果 只是局部最优, 一般需要试用多个初值;
有时会出现 不收敛 的情况
– 参数数量多时, 计算量迅速增加
– 有些拟合方法需要有目标函数的一, 二阶导数
未知曲线类型的回归
? 多项式回归
k
k xbxbxbay ?????
2
21
kk xbxbxbay ????? ?2211
曲线回归的检验
? 变换前的原始数据
? 用于检验,线性化的方法和多项式逼近的方法
1,剩余平方和
2,相关指数
?
?
??
n
i
ii yySS
1
2)?(
剩余
yyS
SSR 剩余?? 12