§ 9 相关分析与回归分析相关分析与回归分析是以概率论与数理统计为基础迅速发展起来的应用性较强的科学方法,是现代应用统计学的重要分支,是研究事物间量变规律的科学方法。 回归分析着重在寻找变量之间近似的函数关系,相关分析则不着重这种关系,而致力于寻找一些数量指标,以刻划有关变量之间关系深浅的程度,
变量之间的关系可分为确定性关系和非确定性关系两类。确定性关系是指非随机变量之间的函数关系,非确定性关系指随机变量之间或非随机变量与随机变量之间的统计关系。统计关系包含相关关系和回归关系。
统计关系是一种经验关系,并不一定包含着因果关系,
有时尽管两个变量之间的 统计关系非常密切而且很有启发性,但决不能确定其间的因果联系,对于因果关系的设想只能来自统计之外,归根到底是来自某种理论或其它方面。
§ 9.1 相关分析本节要求掌握相关的概念,样本相关系数的计算及相关性的检验。
一、相关的概念两个随机变量间的关系与函数关系不同。函数关系是当变量 X取定值 x后,变量 Y一定有唯一确定的值 y与之对应。
例如变量 x,y都是非随机变量,设 y=sinx,则当 x=π/2,y
一定取值 1。然而,对随机变量 X取定值 x后,随机变量 Y并没有唯一确定的值与之对应,反之如此。
比如,人的身高与体重是两个随机变量,高度相同的人,
体重可以不尽相同 ;体重相同的人,其高度也不尽相同。但一般地讲,身材较高的人,其体重相应较重 ;身材较矮的人则体重较轻。 身高与体重这类随机变量间的关系,我们称为相关关系。
当总体分布为正态时,相关系数确实是变量之间的相关性的合理指标,而在非正态情况则只是线性相关程度的度量。
两个随机变量 X和 Y之间的相关性,可由其 总体相关系数 (或称 Pearson相关系数,亦称完全相关系数 )描述,
其中 cov(X,Y)为 X,Y的协方差,
与 分别为 X和 Y的方差。
22 )]([)]([
))]())(([(),c o v (
YEYEXEXE
YEYXEXEYX
YX
XY


22 )]([ XEXEX
22 )]([ YEYEY
相关系数 ρXY 是介于 –1和 1之间的值,不受 X,Y的量纲影响,
当 ρXY >0,X与 Y呈 正相关 ;
当 ρXY <0,X与 Y呈 负相关 ;
当 ρXY =0,X与 Y呈 零相关,即 X与 Y之间不存在线性关系。
相关系数的大小反映的是两个变量间线性相关的程度。
线性相关系数具有如下性质:
( 1) 坐标平移不改变 X与 Y的相关系数值,即
(2) 当 Y为随机变量 X的任一线性函数时,则 ρXY =± 1,即
)0(00),(?

ab
ab
abdbYcaX
XY
XY



01
01),(
a
abaXX?
例 1 已知 X~N(0,1),Y=X2,求 ρXY 。
例 2 随机变量( X,Y)服从区域上的均匀分布,试求相关系数 ρXY 。
}0,10),{( xyxyxD
二、样本相关系数
1,样本相关系数在实际问题中,总体相关系数 ρ 一般是未知的。 因此,
通常采用随机抽样的方法,从总体(即二维随机变量( X,
Y))中独立地随机抽取 n个个体,对每一个体同时观察
X和 Y的取值,获得 n对独立的观测数据( xi,yi)
i=1,2,…,n,然后借助矩法估计去估计总体相关系数 ρ,
即分别以和去 估计 V(X),V(Y) 和 Cov(X,Y)。由此得出 ρ的估计为
r称为 样本相关系数 。
2
11
2 )(
1
1,)(
1
1


n
i
i
n
i
i YYnXXn?

n
i
ii YYXXn
1
))((11
YYXX
XY
n
i
i
n
i
i
n
i
ii
LL
L
YYXX
YYXX
r?




1
2
1
2
1
)()(
))((
2、相关系数的大小和方向设有二维随机变量( X,Y)。为了考察 X与 Y的关系,人们常从总体中独立地随机抽取 n个个体,对每一个体同时观察 X和 Y的取值,获得 n对独立的观测数据( xi,yi) i=1,2,…,n并将这 n对数据标绘在平面直角坐标系中,对应的 n个点构成一幅 散点图 。
下面给出 6种常见的相关散点图。













1)1(?r 1)2(r 10)3( r
01)4( r 0)5(?r 0)6(?r
从图中得知,散点的位置和向直线的集中的程度,正好反映了相关系数的正负符号和大小。散点由左下向右上的为正相关,此时,r>0,它表示随 X增大,Y未必增大,
但总体看确有 X增大而 Y呈直线上升的趋势。散点由左上向右下分布为负相关,此时,r<0,它表明从总体看随 X
的增大 Y呈直线下降趋势。散点分布不表现为这两种趋势则为零相关,它包含 Y与 X毫无联系和 Y与 X之间是乎存在某种对称曲线联系,这时随 X的增大 Y的上升趋势与下降趋势相抵。散点分布集中在一条直线上时,r=± 1。 散点越靠近一条直线,越接近 1,散点越远离一条直线,
越接近 0。 相关系数的取值介于 -1与 1之间。
3、样本相关系数的计算
r r



n
i
i
n
i
ixx xnxxxL
1
22
1
2)(


n
i
n
i
iiyy ynyyyL
1 1
222)(



n
i
n
i
iiiixy yxnyxyyxxL
1 1
))((
yyxx
xy
LL
Lr?
例 2 某试验室用大白鼠做实验,研究一种代乳粉的营养价值。 将 10只体重不尽相同的大白鼠分笼饲养提供充足的代乳粉和必要的饮用水。经一段时间喂养后,记录进食量和体重增加量,获得原始数据如下,
动物编号 1 2 3 4 5 6 7 8 9 10
进食量 820 780 720 867 690 787 934 679 639 820
体重增量 165 158 130 180 134 167 186 145 120 158
求进食量 x与体重增量 y的相关系数 r。
三、相关系数的检验样本相关系数 r的计算依赖于样本,即使两样本来自同一总体,算出相关系数的数值也不一定相同,纵然总体相关系数 ρ =0,也不能排除由于抽样的偶然性而造成 r≠0,因此,
我们不能一看到 r≠0,就认定两个随机变量相关,必须对总体相关系数是否为零的假设
H0,ρXY = 0 ; H1,ρXY ≠ 0,作检验。
在 H0 成立时,可以证明统计量据此可以进行相关系数的检验。给定 α查附表 7得临界值
tα/2,当 ∣ t∣ > tα/2 时,拒绝 H0,否则不拒绝 H0 。
例 3 (续例 2)样本相关系数 r=0.9395,n=10,试检验 X与
Y相关是否具有统计学意义?
)2(~
1
2
2
nt
r
nrt
§ 9.2 单个自变量的线性回归对回归问题的研究最初起源于生物学界。 1886年英国生物学兼统计学家 F.Galton在他的一篇著名论文中指出,在同一种族里,父亲高的,其儿子的平均高度较父亲矮,
但比种族平均高度高,父亲矮的,其儿子的平均高度较父亲高,但比种族平均高度矮。即儿子的高度有“回归”于种族平均高度的趋势。
从相关分析与回归分析的原理来看,相关分析是分析变量间的相互关系,而回归分析是分析变量间的依存关系(如儿子的身高与父亲身高的依存关系)。相关分析所考虑的两个变量 X与 Y皆为随机变量,而回归分析则考虑的是一个随机变量 Y与另一个非随机变量 X之间的依存关系。
本节要求理解线性回归方程的概念,掌握用最小二乘法求解线性回归方程。
一、回归的概念设 X为一般变量,Y为随机变量。在考察 Y对 X的回归关系中,常称
X为自变量,Y为因变量或反应变量。 Y与 X间关系的特点,在一定范围内任意给定 X=x时,随机变量 Y虽然没有确定的值与之对应,但是 Y
的分布通常是确定的。如果这个分布的数学期望存在,则称 X与 Y相应的数学期望 E(Y︱ X=x)的函数关系 E(Y︱ X=x)=f(x)为 回归函数,其图形称为 理论回归曲线 。
在实际研究中,回归函数的解析式常常是未知的,知道的仅是若干样本观察点( xi,yi) i=1,2,…,n 。因此,要确立该回归函数,必需对其函数的类型提出假设。如假设 f(x)=α+βx,f(x)=eα+βx,
f(x)=Asin(ωx)+Bcos(ωx) 等等。由于假设中的函数类型不同,因而有线性(直线)回归与非线性(曲线)回归,若按自变量的个数多少有简单回归(单个自变量回归)和多重回归(多个自变量回归),
若按因变量的多少又有一元回归和多元回归。
回归分析首先是确立样本观察值的回归函数,并在此基础上对其参数进行区间估计和假设检验,以判断其回归效果,进而应用效果好的回归方程进行实际的预测和控制。
二、回归方程的建立
1.单个自变量线性回归模型的基本假设在回归分析中,许多资料都具有以下特性,
(1)线性性,X与 Y满足,E(Y︱ X=x ) =α+βx
α称为截距,β 称为斜率,又称为回归系数。它们都是未知参数。
(2)独立性,容量为 n的样本必须相互独立,
(3)正态性,给定 X的取值 x时,相应的 Y服从正态分布,即
Y的随机取值,在中心点 [x,E(Y︱ X=x)]上下波动,且 x变动后,中心点按上式全部在某条直线上。
(4)方差齐性,不同 x值对应 Y的变异性完全相同,即 Y的方差 σ2 不依赖于 x值的变化,即 Y~N(α+βx,σ2 ) 。
这四个可作为回归分析资料的基本假设,按它们的第一个英文字母联写起来,简记为 LINE。
满足上述 4条假设的资料用作回归分析时有两种散点图,如下图
( 1) X随机变动 ( 2) X取不同的定值
2、最小二乘估计对于满足 LINE的资料,如何为其散点图配置一条合适的直线?
下面两类直线回归模型可供选择:
( 1) E(Y︱ X=x ) =α+βx 或 Y= α+βx +ε,ε ~N(0,σ2 )
( 2) E(Y︱ X=x ) =βx 或 Y= βx +ε,ε ~N(0,σ2 )













iy
iy?
y
ii yy
yyi
X
YY
X
有截距的回归模型( 1)与无截距的回归模型( 2)究竟哪一个更适用于观察资料? 判断的方法有两个,一个是根据有关的统计检验结果(方法后面介绍);另一是根据专业理论或经验决定。如已知某药零剂量处理的动物反应为零,则可选择模型( 2),一般的情况下选择模型( 1)为宜。两种模型的区别在于,它们各自的参数估计量是不同的。
对于回归模型 (1),α和 β的真值未知,只能通过样本值
(xi,yi)i=1,2,…,n,求出它们的估计值。根据回归模型假设
(1)(线性性)在 xi处,模型的期望值 E(Y∣ X=xi)=α+βxi,
而因变量的观察值是 yi,样本观察值与期望观察值的差为
yi–(α+βxi),i=1,2,…,n 。记显然 Q(α,β)等于诸散点的高度与理论回归直线 f(x)= α +
βx 上对应点的高度之差的平方和。

n
i
ii xyQ
1
2)(),(
经典的回归分析通过寻找使 Q最小的一对数值 和 来估计 α 和 β 使,Q达到最小”这一原则称为 最小二乘原则,
所得的 和 称为 α 和 β 的最小二乘估计。
Q(α,β)的极小值点 ( )应满足即整理得
0),(,0),( QQ



n
i
iii
n
i
ii
xxy
xy
1
1
0)(2
0)(2









)2(
)1(
1 1 1
2
1 1
n
i
n
i
n
i
iiii
n
i
n
i
ii
yxxx
yxn


,?


上式称为正规方程组。其解为从而得到一个线性方程 ( 3)
通常把( 3)式称为回归模型( 1)的线性回归方程。 在直角坐标系中,相应的直线称为回归直线,当然它是理论回归直线的一个样本估计。
类似地,可得回归模型( 2)的线性回归方程
( 4)
其中
( 5)
xx
xy
n
i
i
n
i
ii
L
L
xnx
yxnyx
1
2
2
1
xy
xy
xy

n
i
i
n
i
ii
xx
xy
x
yx
L
L
1
2
1
*
*

例 4 利用第一节例 2的资料,分别按模型 (1)和模型 (2)求大白鼠体重增加量 Y关于某代乳粉进食量 X的回归方程。
解 按模型 (1)有于是回归方程为按模型 (2)有故回归方程为从实际背景看,本例不宜用模型 (2),因为进食量为零,体重应为负增长而非零增长。
2 2 1 8 9.04.7 5 9 0 6 2.1 6 8 4 3
xx
xy
L
L?
36.176.7732 2 1 8 9.03.154 xy
xy 2 2 1 8 9.036.17
1 9 9 7.0
6 0 6 0 4 7 6
1 2 1 5 0 8?
1
2
1
*
*

n
i
i
n
i
ii
xx
xy
x
yx
L
L
xy 1 9 9 7.0
§ 9.3 单个自变量线性回归的统计分析本节要求了解回归方程的有关参数的估计和假设检验,掌握回归方程的显著性检验,了解回归方程的预测和控制。
从回归模型的点估计公式知,不论 Y对 X是否有线性函数关系,总能通过样本求出 和,从而得到一个回归方程。显然这一方程并不一定真有意义。这就需要对回归方程及其参数进行相应的区间估计和假设检验。
一,参数估计量的分布进行回归方程的有关参数估计和假设检验,需要有供检验使用的统计量,这便涉及有关参数估计量的分布。
可以证明(略)
假设( LINE),Yi~N(α+βxi,σ2),i=1,2,…,n,且相互独立。则有下列结果
1 ( 1)
),(~?
2
xxL
N

2 ( 2)
3
( 3)
对无截距回归模型,Yi~N(βxi,σ2),i=1,2,…,n,且相互独立,可导出类似结果:
4 ( 4)
5 ( 5)
其中
]))(1(,[~? 2
2

xxL
xx
nxNy

])1(,[~? 2
2

xxL
x
n
N?
),(~? *
2
xxL
N
),(~? 2*
2

xxL
xxNy



n
i
iixy
n
i
ixx
xx
xy yxLxL
L
L
1
*
1
2*
*
*
,,
二、回归效果的方差分析按照前述方法无论 E(Y︱ X=x )与 X是否真的有线性关系,均可得到回归方程 。现在要问:得到的回归方程是否真的有意义? Y的变化多大成分是由 X
的变化引起的?这就需要对回归效果作方差分析。下面介绍有截距回归模型 E(Y∣ X=x)=α+βx 的方差分析原理和方法。
1、总离差平方和的分解其中
xy
回残总
SSSSyyyy
yyyyyyyy
yyyyyySSSS
n
i
i
n
i
ii
n
i
i
n
i
iii
n
i
ii
n
i
iii
n
i
iT









1
2
1
2
1
2
11
2
1
2
1
2
)?()?(
)?()?)(?(2)?(
)()(
nixy ii,,2,1,
而中间项
SST 分解成两项之和,前者称为残差平方和,记作 SS残或 SSE,而后者是 的离差平方和,称为回归平方和,
记作 SS回 或 SSR 。 SS回 反映的是 X对 Y的线性 影响产生的变异;而 SS残 则反映除 X对 Y的线性影 响以外的所有因素
(如随机因素,测量误差和非线性影响 )对 Y产生的差异。
计算公式回残总 SSSSLyySS yy
n
i
i
1
2)(
yy
xx
xy
xyxx
n
i
i LrL
LLLyySS 222
1
2)?(

)1()?( 2
1
2 rLSSSSyySS
yyRT
n
i
ii




n
i
n
i
iiiiii yxyyyyyy
1 1
))(?()?)(?(



n
i
n
i
iiiii xyyyyy
1 1
0)?(?)?()?(
iy?
2 SS回 和 SS残 的有关分布
X对 Y的线性效应是否存在? 是 β的样本估计值,
即使 β=0,也不一定为零。因此需要检验 H0,β=0,
为了给出统计量,可以证明以下结果。(证略)
定理 设 Yi~N(α+βxi,σ2),i=1,2,…,n,且相互独立。假设
β=0,则
( 1) E(SS残 )=(n-2)σ2 (β≠0时也成立 )
( 2)
( 3)
( 4)
)2(~ 22?nSS 残 )1(~ 22 回SS
相互独立与 回回残残 1/)2/( SSMSnSSMS
)2,1(~)2/( 1/ nFnSS SSMSMS
残回残回


3 回归效果的方差分析检验的假设为 H0,β=0,H1,β≠0
在 H0成立时,按 F分布的定义有给定 α,查附表 6得临界值 Fα(1,n-2),若 F>Fα(1,n-2),
则拒绝 H0,否则不拒绝 H0。
回归效果的方差分析表变异来源 离差平方和 自由度 均方 F值 临界值 显著性回归 1 MS回
F Fα(1,n-2) *
残差 n-2 MS残
)2,1(~)2/( 1/ nFnSS SSMSMSF
残回残回
xyLSS回回残 SSLSS yy
例 5 对第二节例 4中的回归方程作方差分析,并判断该方程是否确有统计学意义。
解 H0,β=0,H1,β≠0
已知,n=10,
故列方差分析表变异来源 离差平方和 自由度 均方 F值 临界值 显著性回归 3737.3 1 3737.3
60.18 11.3 **
残差 469.8 8 62.1
F>F0。 001(1,8),拒绝 H0,即认为回归效果显著,回归方程具有统计学意义。
,4.7 5 9 0 6,2.1 6 8 4 3 xxxy LL
,2 2 1 8 9.0/?,1.4 2 3 4 xxxyyy LLL?
3.37372.1684322189.0 xyLSS?回
8.4961.3 7 3 71.4 2 3 4 回残 SSLSS yy
对无截距回归模型 E(Y︱ X=x ) =βx 的方差分析。
设 E(Y︱ X=x ) =βx,则注意此时,df总 =n,df回 =1,df残 =n-1。
无截距回归模型 E(Y︱ X=x ) =βx 的方差分析表变异来源 离差平方和 自由度 均方 F值 临界值 显著性回归 1 MS回
F Fα(1,n-1) *
残差 n-1 MS残

n
i
i
n
i
ii
xx
xy
x
yx
L
L
1
2
1
*
*


n
i
iyy yLSS
1
2*
总回总残回 SSSSSSL
LLLSS
xx
xy
xyxx, *
2*
**2
*2* /)( xxxy LLSS?回回残 SSLSS yy *
最后应当指出的是,评价回归效果的方法很多,其中最常用的是决定系数,R2=SS回 /Lyy 它反映回归方程的贡献,即在总的离差平方和中,回归平方和所占比例,或说回归方程所解释的信息百分比。 R2值接近 1表示回归值与观察值接近,从样本信息看回归效果较好,接近 0则较差,即使是对非线性回归方程的评价也基本如此。
三、回归参数的区间估计和假设检验
1、回归系数 β的区间估计和假设检验由 (1)知,,σ未知时,以代替 σ,则有据此,可进行参数 β的区间估计和假设检验。 其中,置信水平为 1-α关于 β的置信区间为关于 β的假设检验即为 t检验。
),(~?
2
xxL
N 残MSS
)2(~
/
nt
LS
T
xx

xxL
snt )2(?
2/
例 6 试求例 4中回归系数 β的 95%的置信区间并检验
H0,β=0,H1,β≠0 。
解 由例 4与例 5知:
查附表 7得 t0.05/2(8)=2.306
( 1) β的 95%的置信区间,
即 [0.1559,0.2878]
(2) H0,β=0,H1,β≠0。
给定 α =0.001,查附表 7得 t0.001/2(8)=5.041,因为 ∣ t∣ >
t0.001/2(8),故否定 H0,即认为 β≠0具有统计学意义。
22189.0
4.75906,88.78/8.496 xxLMSs 残
06595.022189.0? 2/
xxL
st

7 5 8.74.7 5 9 0 6/88.7 2 2 1 8 9.0/ 0

xxLs
t?
2、截距参数 α 的区间估计与假设检验由( 3)式易得其中,故截距参数 α关于置信水平为的置信区间为对截距参数 α作假设检验,H0,α=α0,H1,α≠α0,其检验方法与步骤和 β的假设检验相似(都为 t检验)。特别,
若检验获得 α与 0无显著性差异后,则可认为该直线过原点,这时,应选用无截距模型 。
)( 2-~
1
2
nt
L
x
n
S
T
xx

残MSs?
s
L
x
n
nt
xx

2
2/
1)2(?

1
四、用回归方程进行预测和控制
1、固定 X= x0,预测 E( Y︱ X= x0 )的变化范围一个具有统计学意义的回归方程获得后,在 X的适当取值范围中,固定 x0,由方程可得到,这仅是 E(Y
︱ X= x0 )的一个点估计。由( 2)易得 的 1- α 置信区间是其中,,tα/2 的自由度为 n-2。
对无截距回归模型类似有其中,
00 xy
0?y
xxL
xx
n
sty
2
0
2/0
)(1
残MSs?
残MSs?
*
2
0
2/0
1?
xxL
x
n
sty
1,1? **
2*
**2*


ndfLL LLLLSS
yyxx
xy
yyxxyy?残例 7 在一项药物有效期的研究中,研究者按新药审批规定,在生产后不同时期从 3批药品中各任取 1片,测量其主要成分的含量。 3次重复测量,数据如下,
存放时间 x(月 ) 0 3 6 9 12 18
51 51 50 49 49 47
含量 y(mg) 51 50 52 51 48 45
53 52 48 51 47 49
平均 51.7 51 50 50.3 48 47
试对存放时间 x与主要成分含量 y作回归分析。
解 ( 1)回归方程的计算,n=18,
得回归方程
( 2)回归效果的方差分析,H0,β=0,H1,β≠0。
列方差分析表变异来源 离差平方和 自由度 均方 F值 临界值 显著性回归 44.86 1 4.86
24.65 8.53 *
残差 29.14 16 1.82
,1 7 8 2,1 4 4 18
1
218
1

i
i
i
i xx
.80.51?,267.0?,630,168
,67.49,8,44476,6984
18
1
2
18
1



xxxy
i
i
i
ii
LL
yxyyx
xy 267.080.51
因为统计量的样本观察值 F>F0.01(1,16)=8.53,故拒绝 H0,即认为
β≠0。
( 3)参数估计结果及显著性检验:
α的估计:
α的 95%的置信区间为即为 [51.35,52.25]。
α的检验,H0,α=0,H1,α≠0
统计量样本观察值给定,查附表 7得 t0.001/2(16)=4.015,因为 |t|>t0.001/2,
故拒绝 H0 。
,35.1
,82.1)2/,12.29
,85.44?,1 2 0.2)16(,80.51? 2/05.0



残残残回残回

MSs
nSSMSSSLSS
LSSt
yy
xy
91.243
1
0?
2
xxL
x
n
S
t
001.0
s
L
x
n
nt
xx

2
2/
1)2(?

β的估计:
β的 95%置信区间为即为 [-0.3811,-0.1529]。
β的检验,H0,β=0,H1,β≠0 。
统计量样本观察值给定 α=0.001,查附表 7得 t0.001/2(16)=4.015,因为 |t|>t0.001/2,故拒绝
H0 。即认为 β≠0有统计学意义。
120.2)16(,630
35.1,267.0?
2/05.0

tL
MSs
xx
,残?
6 3 0
35.11 2 0.22 6 7.0?
2/05.0
xxL
st?
96.4
630/35.1
267.0
/
0
xxLs
t?
( 4)预测 E(Y︱ X= x0 )的取值范围,
以 x0 =18为例,说明求 E(Y︱ X=1 8) 的置信区间的方法。
已知代入公式得 E(Y︱ X= 18 )的 95%置信区间为 [45.670,48.318]
一般讲,
1) 建立回归方程使用的样本点数 n越大,E(Y︱ X= x0 )
估计的精度越高。
2) 回归设计中,xi 的取点宜分散些,以使 Lxx 较大,
E(Y︱ X= x0 )估计的精度就高。
3)回归直线建立后,取预测点 时,E(Y︱ X= )
的预测精度最高,x0 偏离 越远,即 越大,E(Y︱
X= x0 )的预测精度越低。
.9 9 4.46182 6 7.080.51?,12.2)16(
,35.1,6 3 0,8,18,18
02/05.0
0


yt
MSsLxxn xx 残
xxL
xx
n
sty
2
0
2/0
)(1
xx?0 x
xx?0x
2 固定 x0 预测相应随机变量 y0 的取值范围在 x= x0处的 y0置信区间为例 8 计算例 7中 x0 =18处 y0 的 95%置信区间。
解 已知代入上面公式得 x0 =18处 y0 的 95%置信区间为
[43.840,50.147]
xxL
xx
n
Snty
2
0
2/0
)(11)2(
.9 9 4.46182 6 7.080.51?,12.2)16(
,35.1,6 3 0,8,18,18
02/05.0
0


yt
MSsLxxn xx 残
3 控制自变量 x的取值范围预测是固定自变量 x取值 x= x0 后,确定不同置信水平下,随机变量
Y相应的置信区间。控制则正好与此相反,如在实际应用中有这样的问题:
( 1)质量标准要求药品的某项指标 y在一定范围内取值,否则产品视为不合格。若标准要求,y∈ [yl,yu],yl,yu为已知量。试问对 Y
有重要影响的变量 X的取值,应控制在一个怎样的范围内,才能有较大把握保证生产出的产品符合标准呢?
( 2)利用分光光度法或原子吸收法制作吸光度 Y对浓度 X的工作曲线后,分析化学工作者常常借助回归直线查找未知试样中的被测组分的含量。这等价于有了因变量的测量值 y,借助工作曲线反推 x
(浓度),这样反推出来的 x其精度如何?
基于情形( 1)的背景,这类由因变量 Y的取值范围反推自变量
X的取值范围的问题,在统计学中常常被称为控制问题。若给定置信水平 1-α,区间 [xl,xu] 中任一点 x0,其相应的随机变量 y0的 1-α置信区间均包含在区间 [yl,yu]内。即 x0在 [xl,xu] 上,y0的 1-α置信带
(置信区间的的端点所构成的曲线)较平行带 yl≤y≤yu窄,则称 [xl,
xu] 为对应区间 [yl,yu]上控制水平为 1-α自变量 X的控制区间。
即 P{yl≤y≤yu│xl≤x≤xu}≥1–α
由此可见,按照上面定义的控制区间的概念,得到的
1- α控制区间是一个较为保守的估计。这无疑对保证 y符合“标准”是十分有利的。理论上,确定控制区间,一般涉及求解复杂的代数方程,计算起来多为不便,故其在实际应用中常常采用下面的近似求法。
设 y0是 y的 m次重复观测的平均值。根据 y对 x的回归直线可以算出 x0的点估计则 1-α置信水平的控制区间的近似计算公式为:
其中,为回归直线的斜率的点估计,
n为建立回归方程时使用的样本容量。 残
MSs?

00 yyxx

xxL
xx
nm
s
ntx
2
0
2/0
)?(11
)2(?

特别 y0是理论值(非实验数据)时,由于 y0是精确的无测量误差,则可认为 m=+∞ 。
可以证明:当 y的置信带的上、下限曲线非常接近直线时,上述近似算法与前述控制区间的结果是相似的。
由控制区间的近似计算公式可知:
1)控制区间的宽度与多项因素有关。 显然,置信水平越高,区间越宽。
2)控制区间随着 s及 偏离 的程度增大而变宽。
3)控制区间随,未知样本重复观测次数 m
及样本量 n增大而变窄。
0?x x xx?0?

小结,由一个或一组非随机变量来估计或预测某一个随机变量的观察值时,所建立的数学模型及所进行的统计分析,称为回归分析。如果这个模型是线性的就称线性回归分析。 这种方法是处理变量间相互关系的有力工具,是数理统计中的一种常用方法。 它不仅告诉我们怎样建立变量间的数学表达式,即经验公式,而且还利用概率统计知识进行分析讨论,判断出建立的经验公式的有效性,从而可以进行预测、控制或估计。
这在实际中是很有用的。