1
第四章 回归分析
32
0.0968 x
33
0.03760
y
8 7, 8 2 6 9 X3 4, 7 7 2 8Y? 1 ??
111 dY?Y ??
X6 0 9 2.318 0 7 5.41Y? 2 ??
222 dY?Y ??
2
质量控制应用案例
某钢厂生产的某种合金钢有两个重要的质量指
标:抗拉强度 (kg/mm2)和延伸率 (%)。 该合金钢的
质量标准要求:抗拉强度应大于 32kg/mm2;延伸
率应大于 33%。 根据冶金学的专业理论知识和实
践经验知道, 该合金钢的含碳量是影响抗拉强度
和延伸率的主要因素 。 其中含碳量高, 则抗拉强
度也就会相应提高, 但与此同时延伸率则会降低 。
为降低生产成本, 提高产品质量和竞争能力, 该
厂质量控制部门要求该种合金钢产品的上述两项
质量指标的合格率都应达到 99% 。
3
如何制订含碳量的控制标准?
为达到以上质量控制要求, 就需要重新修订该
合金钢冶炼中关于含碳量的工艺控制标准, 也即
要确定在冶炼中应将含碳量控制在什么范围内,
可以有 99%的把握使抗拉强度和延伸率这两项指
标都达到要求 。
为分析该合金钢的抗拉强度和延伸率与含碳量
之间的关系, 该厂质量管理科查阅了该合金钢的
质量检验纪录, 在剔除了异常情况后, 整理了该
合金钢的上述两项指标与含碳量的 92炉实测数据,
以供分析 (见所发案例 )。
4
§ 4.1 回归分析概述
一, 变量间的两类关系
1,确定性关系 确定性关系也即函数关系,即
Y=? (X) ; Y=? (X1,X2,…,X p)
或 F(X,Y)=0; F(X1,X2,…,X p; Y)=0
X




Y
销售量0 确定性关系
5
2,非确定性关系 (相关关系 )
非确定性关系指变量间虽存在着制约关系,但由于许
多无法预计和控制的因素的影响,使变量间的关系呈现
不确定性,即不能由一个或若干变量的值精确地确定另
一变量的值。
通过大量观察或试验,可以发现非确定性关系的变量
间存在着某种统计规律性 —— 称为 相关关系 或 回归关系 。
.,

.,
.,,
.,



.,







家庭收入非确定性关系0
Y家庭




Y =b0+b1X

6
案例 1 商品价格与消费量的关系
以三口之家为单位,某种食品在某年各月的家庭平均
月消费量 Y(kg)与其价格 X(元 /kg)间的调查数据如下,试
分析该食品家庭平均月消费量与价格间的关系。 价格 x
i 4,0 4,0 4,8 5,4 6,0 6,0 7,0 7,2 7,6 8,0 9,0 1 0
消费量 y i 3,0 3,8 2,6 2,8 2,0 2,9 1,9 2,2 1,9 1,2 1,5 1,6
0
1
2
3
4
5
0 1 2 3 4 5 6 7 8 9 10 11 12
Y =?0+ ?1X
y
x
7
二, 线性回归模型
由图可知,该食品家庭月平均消费量Y与价格
X间基本呈线性关系。这些点与直线
Y = ?0+ ?1X
间的偏差是由其他一些无法控制的因素和观察
误差引起的, 故可以建立 Y与 X之间关系的线性
回归模型如下;
Y= ?0+ ?1X+ ? (4.1-1)
称 X为解释变量 (自变量 ),Y为被解释变量 (因
变量 ),?0,?1是模型中的 未知参数, ? 为随机误
差项 (随机扰动项 )。
8
随机误差项产生的原因
随机误差项产生的原因主要有以下几个方面:
(1) 模型中忽略的其他因素对 Y的影响;
(2) 模型不准确所产生的偏差;
(3) 模型中包含了对 Y无显著影响的变量;
(4) 对变量的观察误差;
(5) 其他随机因素的影响。
9
线性回归模型的数据结构
当 X取不完全相同的值 x1,x2,…,xN 时, 得到 Y
的一组相应的观察值 y1,y2,…,yN,显然, 每一对观
察值 (yi,xi)都应满足 (4.1-1)式, 故一元线性回归
模型的数据结构为:
yi= ?0+ ?1xi+ ?i ; i=1,2,3,…,N (4.1-2)
其中 ? i 表示其他因素和试验误差对 yi影响的总
和。
10
三, 回归模型的经典假设条件
1,各 ? i~ N(0,?2 ),且相互独立;
2,解释变量是可以精确观察的普通变量 (非随机变
量 );
3,解释变量与随机误差项不相关 (即解释变量与随
机误差项是各自独立对被解释变量产生影响的 )。
称满足以上条件的回归模型为 经典回归模型 。本
章仅讨论经典回归模型。
但在经济领域中,经济变量间的关系通常是不会
完全满足上述条件的。例如家庭消费支出 Y与家庭收
入 X间的回归模型就不会是同方差的 (见上述条件 (1))。
11
四, 回归分析的主要内容和分析步骤
1,根据问题的实际背景、专业理论知识或通过
对观察值的分析,建立描述变量间相关关系的回
归模型;
2,利用观察值 (样本 )数据估计模型中的未知参
数,得到回归方程;
3,对模型进行检验;
4,利用通过检验的回归方程对被解释变量作预
测或控制。
12
§ 4.2 一元线性回归
一, 一元线性回归模型
由 § 4.1的分析可知,一元线性回归模型可表
示为
Y= ?0+ ?1X+ ?; ? ~ N(0,?2 )
其中 X是普通变量,?表示除 X外其他因素和试
验误差对 Y的影响,则
Y~ N( ?0+ ?1X,?2 )
称 Y的条件期望
E(Y|X) = ?0+ ?1X (4.2-1)
为 Y对 X的回归。
13
设 (yi,xi),i=1,2,...,N为 N次试验的样本观察值,
则试验数据之间有如下结构:
yi= ?0+ ?1xi+ ?i ; i=1,2,3,…,N
? i~ N(0,?2 ),且相互独立
接下来,就可以利用所得的样本数据估计模型
中的未知参数 ?0 和 ?1。
一元线性回归模型的数据结构
14
回归方程
记,分别是参数 ?0 和 ?1 的点估计,并记
为 Y的条件期望 E(Y|X)的点估计,则由 (4.2-1)
式,有
(*) (4.2-2)
称 (4.2-2)式为一元线性回归方程;并称,
为回归方程的回归系数。回归方程的图形就称为
回归直线。
对每一 xi值,由回归方程可以确定一个回归值
0?β 1?β
Xβ?β?Y? 10 ??
Y?
0?β 1

ii x10 ββ ??y? ??
15
二, 参数 ?0,?1的最小二乘估计
Y的各观察值 yi与回归值 之差反映了 yi与回归直线
之间的偏离程度,从而全部观察值与回归值的残差平方

反映了全部观察值与回归直线间总的偏离程度。显然,
Q的值越小,就说明回归直线对所有试验数据的拟和程度
越好。所谓最小二乘法,就是由
来确定, 的方法。不难求得 ?0和 ?1的 最小二乘估计
为:
m in)??( 1 ?β,β 0Q
? ?? 2ii1 )y?y()??( β,β 0Q
0?β 1?β;
)(
)yy)((?
2
i
1 ? ?
? ???
xx
xx
i
iβ x10 ?-y? ββ ?
16
最小二乘法原理示意图
yi
。 。








yi ^
x
y
0
。。
使 ? ?? m in)y?y( 2ii
17
三.最小二乘估计的性质
可以证明,在满足经典假设的条件下
1,和 分别是参数 ?0 和 ?1 的最小方差无偏估计。
2,和 的方差分别为:
以上两式说明, 回归系数 和 的估计精度不仅与 σ2
及样本容量 N有关, 而且与各 xi取值的分散程度有关 。 样
本容量 N越大, xi 的取值越分散, 则估计的方差就越小,
即对参数 ?0和 ?1的估计就越精确;反之估计的精确就差 。
了解这一点, 对指导试验 (抽样 )安排是非常重要的 。
0?β 1β?
0?β 1?β
])(N1[σ)?D( 2
2
2
0 ? ??? xx
x
i
β
? ?
? 2
2
1 )(
σ)?D(
xx iβ
0?β 1?β
18
四, 回归方程的显著性检验
对一元线性回归模型,如果变量 Y与 X之间并
不存在线性相关关系,则模型中的一次项系数 ?1
应为 0;反之,则 ?1≠0,故对一元回归模型,要
检验的原假设为
H0,?1= 0
下面,仍用方差分析方法来检验 H0。
Y的观察值 y1,y2,…,yN 之间的差异是由两方面
的原因引起的,
(1) 解释变量 X的取值 xi不同;
(2) 其他因素和试验误差的影响。
19
1,偏差平方和的分解
为检验以上两方面中哪一个对 Y取值的影响是主要的,
需要将它们各自引起的差异, 从 yi总的差异中分解出来 。
与方差分析类似地, 可以用 总的偏差平方和
来刻画全部观察值 yi总的波动量。将 ST作如下分解:
= SE+SR
称为 SR为 回归平方和, 它主要是由于变量 X的取值不
同引起的, 其大小反映了模型中 X的一次项对 Y影响的重
要程度 。 称 SE为 剩余平方和 或 残差平方和, 它主要是由
随机误差和其他因素的影响所引起的 。
? ?? 2iT )yy(S
2i2ii2iT )yy?()y?y()yy(S ???? ??? ??
20
2,检验 H0的统计量
可以证明,当 H0为真时,统计量
~ F(1,N-2)
因此,在给定显著性水平 ?下,若
F > F? (1,N-2) (*)
就拒绝 H0,并称回归方程是显著的;反之,则称回归
方程无显著意义。若不能拒绝 H0,则可能有以下原因,:
(1)Y和 X之间并非是线性关系;
(2)模型中忽略了对 Y有重要影响的其他因素;
(3)Y和 X基本无关;
(4)试验误差过大。
2)(N ?? /S
SF
E
R
21
3.方差分析表
回归方程的显著性检验过程同样可以列成如下
方差分析表:
方差分析表
来源 平方和 自由度 均方和 F 比
回归 S R 1 S R
剩余 S E N - 2 S E /( N - 2 )
总和 S T N - 1
2)/(NS
S
E
R
?
22
案例 1 商品价格与消费量的关系
以三口之家为单位,某种食品在某年各月的家庭平均
月消费量 Y(kg)与其价格 X(元 /kg)间的调查数据如下,试
分析该食品家庭平均月消费量与价格间的关系。 价格 x
i 4, 0 4, 0 4, 8 5, 4 6, 0 6, 0 7, 0 7, 2 7, 6 8, 0 9, 0 1 0
消费量 y i 3, 0 3, 8 2, 6 2, 8 2, 0 2, 9 1, 9 2, 2 1, 9 1, 2 1, 5 1, 6
0
1
2
3
4
5
0 1 2 3 4 5 6 7 8 9 10 11 12
Y =?0+ ?1X
y
x
23
案例 1分析
由所给数据,用 Excel 或 SPSS 软件求解本案例,可得
如下结果:
故所求回归方程为:
即该食品价格每上涨一元,家庭月平均消费量将下降
0.34kg,kg 为 该食品的最大月平均消费量。
方差分析表,
∵ F=28.54>F0.01(1,10)=10.4
故回归方程是高度显著的。
4.52β 0 ?? 0.34β 1 ???
0, 3 4 X4, 5 2Y? ??
4.52β 0 ??
来源 平方和 自由度 均方和 F 比
回归 4, 5 8 9 1 4, 5 8 9
剩余 1, 6 0 8 10 0, 1 6 0 8
2 8, 5 4
总和 6, 1 9 7 11
24
案例 1需要继续研究的问题
1,以 90% 的可信度预测当价格为 5.6元
/kg时,该食品的家庭平均月消费量。
2,该食品的生产商和供应商希望该食品
的家庭月平均消费量能以 90% 的把握达到
2.5kg 以上,问应将价格控制在什么水平之
下?
25
五, 预测和控制
1,预测 所谓预测就是对解释变量 X的任一给
定值 x0,估计被解释变量 Y的取值 y0的置信度为
1-? 的预测区间,类似于区间估计问题。
对任一给定的 x0,由回归方程可得 y0 的回归
值 (点估计 ),(*)
可以证明,y0的置信度为 1-?的预测区间为
(*)
01??? xββ 00y ??
)??( dyd,y 00 ??
2)/ ( NS ]
)x(x
)x(x
N
1[1 2)(N td
E2
i
2
0
/2α ??
?????
?
26
关于预测的精度
上式说明, 预测区间的大小 (预测精度 )不仅与 ?有关,
与样本容量 N及各 xi取值 的分散程度有关, 而且和 x0 有关 。
当 x0 靠近 时, d 就较小, 反之, x0 离 越远, d 就越大 。
∴ d 是 x0 的函数 d=d(x0)。 如下图所示:
x x
)(? xdy ?
)(? xdy ?
x1??? ββ 00y ??
x x0
y
27
预测区间的近似计算
当样本容量 N足够大时,下式
中方括号内的部分就近似于 1,因此 d可以使用以
下近似公式计算:
(*) (4.2-3)

(*) (4.2-4)
称 为 标准误差,它是模型中 ?的估
计 。
2)/ ( NS ]
)(
)(
N
1[1 2)(Ntd
E2
2
α /2 ??
?????
? xx
xx
i
0
2)/ ( NS2)(N Eα /2td ???
2)/(NS Eα /2d ?? Z
)2/( ?NS E
σ?
28
案例 1的预测问题分析
由所得回归方程
可解得当 x0=5.6 时,
由 Excel 或 SPSS 的输出结果可得 (标准误差 )
d≈t0.05(10)× 0.4007=1.8125× 0.4007=0.73
可求得当价格为 5.6/kg时,该食品的家庭月平
均消费量的 90% 置信预测区间为:
(1.89kg,3.35kg)
0,34 X4,52Y ???
62.26.534.052.4? ????0y
4007.0)2/( ??NS E
29
2,控 制
控制问题在质量管理及其他经济管理领域中
有着非常广泛的应用, 它是预测的反问题 。 即当
要求以 1-? 的概率将 Y的值控制在范围 (y1,y2)内
时, 应将解释变量 X的值控制在哪一范围内的问
题 。 也即要寻求 X的两个值 x1,x2;当 x1<X<x2 时,
在 1-? 的置信度下可使 y1<y<y2。 即满足
P{y1<Y<y2 | x1<X<x2 }=1- ?
30
控制问题示意图
由图可知,X的取值范围应是以下不等式组的
解。
)(? xdy?
)(? xdy?
x1??? ββ 00y ??
x0
y
x1 x2
y2
y1
x2x1
y1
y2
x
y
0
1)(? ydy ?? x
2)(? ydy ?? x
)0?( 1 ?β )0?( 1 ?β
31
从而 x1,x2 可由以下方程组解得

若解出的 x1>x2,则说明无法实现所要求的控
制目标,也即 Y的控制范围不能过小 (与 ?,N及 xi
的分散程度等都有关 )。
1?? y)d(ββ 1110 ??? xx
2?? y)d(ββ 2210 ??? xx
1?? y)d(ββ 2210 ??? xx
2?? y)d(ββ 1110 ??? xx
)0?( 1 ?β
)0?( 1 ?β
(4.2-5)
(4.2-6)
32
由 (4.2-5)或 (4.2-6)式解出
x1,x2是比较复杂的, 当样本
容量 N足够大时, 可用 (4.2-3)
式或 (4.2-4)式作为 d的近似
值 。 此时 (4.2-5)和 (4.2-6)式
可简化为:
见右图所示。
1?? ydββ 110 ??? x
2?? ydββ 210 ??? x
1?? ydββ 210 ??? x
2?? ydββ 110 ??? x
)0?( 1 ?β
)0?( 1 ?β
dy??
dy??
x1??? ββ 0y ??
x0
y
x1 x2
y2
y1
x0
y
x1 x2
y2
y1
控制范围的近似求解
33
案例 1的控制要求分析
若希望能以 90%的概率使该食品的家庭月平均消费量达
到 2.5kg以上,问应将价格控制在什么水平之下?显然,
这是一个单侧控制问题。由下图可知,即要确定 x2的值,
使
(*)
注意,对于单侧控制,应将 (4.2-3)式改为
(*) 可求得
由 4.52-0.34 x2-0.55>2.5
可解得,x2< 4.32
故应将该食品价格控制
在 4.32元 /kg 之下。 x0
y
x2
y1
0, 3 4 X4, 5 2y ???
dy??
110 ydββ ??? 2?? x
2)/(NS2)(N Etd ??? α
55.04 0 0 7.0)10(1.0 ??? td
34
质量控制应用案例
某钢厂生产的某种合金钢有两个重要的质量指
标:抗拉强度 (kg/mm2)和延伸率 (%)。 该合金钢的
质量标准要求:抗拉强度应大于 32kg/mm2;延伸
率应大于 33%。 根据冶金学的专业理论知识和实
践经验知道, 该合金钢的含碳量是影响抗拉强度
和延伸率的主要因素 。 其中含碳量高, 则抗拉强
度也就会相应提高, 但与此同时延伸率则会降低 。
为降低生产成本, 提高产品质量和竞争能力, 该
厂质量控制部门要求该种合金钢产品的上述两项
质量指标的合格率都应达到 99% 。
35
如何制订含碳量的控制标准?
为达到以上质量控制要求, 就需要重新修订该
合金钢冶炼中关于含碳量的工艺控制标准, 也即
要确定在冶炼中应将含碳量控制在什么范围内,
可以有 99%的把握使抗拉强度和延伸率这两项指
标都达到要求 。
为分析该合金钢的抗拉强度和延伸率与含碳量
之间的关系, 该厂质量管理科查阅了该合金钢的
质量检验纪录, 在剔除了异常情况后, 整理了该
合金钢的上述两项指标与含碳量的 92炉实测数据,
以供分析 (见所发案例材料 )。
36
案例分析
这是一个典型的产品质量控制问题 。 为分析抗
拉强度和延伸率这两项指标与含碳量之间的关系,
就需要建立反映它们之间相关关系的回归模型 。
设 Y1,Y2分别为该合金钢的抗拉强度和延伸率,
X为含碳量, 则
Y1 = β01 +β1 X +ε1
Y2 = β02 +β2 X +ε2
分别为该合金钢抗拉强度和延伸率关于含碳量
的一元线性回归模型 。
37
1,软件 运行输出结果分析
用 Excel 或 SPSS 软件求解本案例的两个回归
方程,可得:
,,从而得到抗拉强
度和含碳量间的线性回归方程为
再由输出的方差分析表可知, F1=342.14114,
回归方程实际达到的显著性水平约为 0,因而是
极高度显著的 。 此外还可得到标准误差为:
这一数据在求解控制问题时需要用到 。
3 4, 7 7 2 8β? 01 ? 8269.87β? 1 ?
8 7, 8 2 6 9 X3 4, 7 7 2 8Y? 1 ??
60878.2)2/(1 ??NS E
38
软件 运行输出结果分析 (续 )
同样可得到:
,, 从而得到延伸
率和含碳量间的回归方程为
再由输出的方差分析表, F=49.5617,回归方
程达到的显著性水平同样约为 0,因此也是极高
度显著的 。 同时还得到标准误差为:
这一数据在求解控制问题时需要用到 。
8 0 7 5.41β? 02 ? 6092.31β? 2 ??
X6 0 9 2.318 0 7 5.41Y? 2 ??
4669.2)2/(2 ??NS E
39
2.求含碳量 X的控制范围
由于所得到的两个回归方程都是极高度显著的, 因此
可以用来进行控制 。 由本案例所给的质量控制要求可知,
对两个指标抗拉强度 Y1和延伸率 Y2都是单侧控制要求, 即
要求含碳量 X的控制范围, 使以下两式同时满足
由于本例中样本容量 N=92很大, 因此可用近似公式求
解 d1和 d2的值 。
?=0.01,t?(N-2)=t0。 01(90)在 t分布表中通常已查不到 。
由标准正态分布是 t分布的极限分布可知, 此时可用标准
正态分布的上侧百分位点 Z0.01来代替 t0.01(90),查表可得:
Z0.01=2.23。
0, 9 9}dY?P { Y 111 ???
0, 9 9}dY?P{Y 222 ???
40
求含碳量 X的控制范围 (续 )
于是
d1=Z0.01 =2.33× 2.60878=6.0785
d2=Z0.01 =2.33× 2.4669=5.7479
参看下图 即可得:
34.7728+87.8269X-6.0785>32
41.8075-31.6092X-5.7479>33
解此不等式组, 得:
0.0376<X<0.0968
故只要在冶炼中将含碳量控制在 0.04%和 0.09%之间,
就可以有 99%的把握使该合金钢的抗拉强度大于 32kg/mm2,
延伸率大于 33%。
)2/(1 ?NS E
)2/(2 ?NS E
41
32
0.0968 x
33
0.03760
y
8 7, 8 2 6 9 X3 4, 7 7 2 8Y? 1 ??
111 dY?Y ??
X6 0 9 2.318 0 7 5.41Y? 2 ??
222 dY?Y ??
控制分析示意图
42
§ 4.3 曲线回归
在实际问题中, 变量间的关系有时是非线性的, 这时
回归分析的任务就是要为它们配置适当类型的曲线 。 在
多数情况下两个变量间的非线性关系可以通过简单的变
量代换转化为线性关系, 进而可以用线性回归方法来求
解和分析 。
一, 曲线回归的分析步骤
1,确定函数类型 正确选择变量间相关关系的函数类
型, 是提高曲线拟合精度的关键 。 通常可根据有关专业
理论知识来决定;也可通过分析样本数据的散点图后确
定 。
2,对样本数据作线性化处理。
3,用线性回归方法求解和分析。
4,代换为非线性回归方程。
43
二.非线性函数的线性化方法
1,双曲线函数,
令 y' =1/y,x' =1/x,得, y' =a + bx'
x
ba
y
1 ??
-b/a
a>0
b<0
x
y
0
1/a
y
0 x
1/a
-b/a a>0
b>0
44
2,幂函数,y=axb
(1) 若 a>0,则 lny=lna+blnx
令 y' = lny,b0 = lna,x' = lnx,得, y' = b0+bx'
(2) 若 a<0,则 ln(-y) = ln(-a)+blnx
令 y' = ln(-y),b0= ln(-a),x' =lnx,
得, y' = b0+bx'
0
b>1
0<b<1
b=1
a>0 x
y
a
a>0
1
y
x0
b<0
a
1
45
3,指数函数,y=aebx
(1) 若 a>0,则 lny = lna + bx
令 y' = lny,b0 = lna,得, y' = b0+bx
(2) 若 a<0,则 ln(-y)=ln(-a)+bx
令 y' = ln(-y),b0 = ln(-a),得, y’ = b0+bx
b>0
y
x0
b<0
x0
y
a a
a>0
46
4,负指数函数,y=aeb/x
(1) 若 a>0,则 lny = lna +b/x
令 y' = lny,b0 = lna,x' = 1/x
得,y' = b0+bx'
(2) 若 a<0,与前同样处理。
b<0
y
x0
a
0 x
y
b>0
a
47
5,对数函数,y=a+blnx
令 x' = lnx,得,y = a+bx'
b>0
x0
y
0
y
x
b<0
48
6,逆函数:
令 x' = 1/x,得 y = x’
x
bay ??
a
0 x
y
b>0
x0
y
b<0
a
49
7,S型曲线:
令 y' = 1/y,x' = e-x,得,y' = a+bx'
xbea
1y
???
x
y
0
1/a
1/(a+b)
50
配置曲线的原则
在实际问题中, 究竟应使用哪种曲线来配置解
释变量与被解释变量间的回归模型, 通常可按有
关专业理论知识决定;或通过分析样本数据的散
点图来选择合适的曲线 (仅适用于一元回归 );
但合适的曲线类型并不是一下就能选准的 。 往
往需要选择几种类型, 经数据变换后, 建立线性
回归方程, 对所建回归方程作显著性检验, 其中
显著性检验中 F比最大的曲线对试验数据的拟合
程度最好 。
51
案例 2,产品销售额与广告费投入的关系
对 10家化妆品企业某年的产品销售额 yi 与当年
广告费投入 xi 的调查数据如下:
试分析化妆品销售额与广告费投入间的关系。
x i ( 百万 ) 2, 0 3, 0 4, 5 5, 4 6, 0 6, 8 7, 6 8, 2 9, 5 1 0
y i ( 千万 ) 2, 1 1, 9 3, 2 4, 1 3, 1 4, 3 4, 0 4, 6 3, 9 4, 5
52
案例 2分析
对所给数据作散点图如下:
由图可知 Y与 X之间呈非线性相关关系, Y随 X增加
而增加, 但增长率逐渐递减, 根据这一特点可试用以下
两种曲线进行拟合:
(1) 幂函数; (2) 对数函数
0
2
4
6
0 2 4 6 8 10 12
y
x
53
(1)设 Y与 X间为幂函数关系:
令 Y'=lnY,X'=lnX,?0=lna,则得线性回归模型:
Y'= ?0+ ?1X'+?
用 Excel 软件求解,可得线性化后的回归方程 (SPSS则
直接给出曲线回归系数 )及方差分析表如下:
方差分析表
F=31.999>F0.001(1,8)=25.42,回归方程极高度显著。
0, 5 4 4 7 X '0, 2 8 6 0'Y? ??
来源 平方和 自由度 均方和 F 比
回归 0, 7 1 0 1 1 0, 7 1 0 1
剩余 0, 1 7 7 5 8 0, 0 2 2 2
3 1, 9 9 9
总和 0 8 8 7 6 9
εea 1βXY ?
54
(2)设 Y与 X间为对数关系,Y=?0+ ?1lnX+?
令 X'=lnX,得线性回归模型,Y=?0+ ?1X'+?
用 Excel 软件求解,可得线性化后的回归方程 (SPSS则
直接给出曲线回归系数 )及方差分析表如下:
方差分析表
F=29.626>F0.001(1,8)=25.42,回归方程同样极高度显著。
1, 6 5 6 6 X '6 9 1 3.0Y? ??
来源 平方和 自由度 均方和 F 比
回归 6, 5 6 7 5 1 6, 5 6 7 5
剩余 1, 7 7 3 5 8 0, 2 2 1 7
2 9, 6 2 6
总和 8, 3 4 1 0 9
55
确定最优回归曲线
本案例中,两种曲线配得的回归方程都是极高
度显著的,但其中幂函数配得的回归方程检验中
的 F 比较大,故应选用幂函数回归模型,
由 ?0=lna,还原得
因此可以认为本案例中产品销售额与广告费之
间较合适的回归方程为,
1, 3 3 1 1eea? 0,2 8 6 0β? 0 ???
0,5 44 71, 3 3 1 1 XY? ?
56
§ 4.4 多元线性回归
在许多实际问题中,对某一变量 Y有重要影响
的解释变量不止一个,此时就需要研究一个随机
变量 Y 与多个普通变量 X1,X2,…,X P 之间的回归
关系,这就是多元回归问题。本节仅讨论多元线
性回归,多元非线性回归通常也可化为多元线性
回归来求解和分析。多元线性回归分析的原理与
一元线性回归是类似的。
57
一, 多元线性回归的数学模型
设被解释变量 Y 与 P个解释变量 X1,X2,…,X P 之间存在
线性相关关系,则 Y 与 X1,X2,…,X P 之间的多元线性回归
模型为:
Y= ?0+?1X1+?2X2+…+ ?PXP+? (4.4-1)
设第 i次试验数据为 (yi; xi1,xi2,…,xip ),i=1,2,…,N,则多
元线性回归有如下数据模型:
y1=?0+?1x11+?2x12+… +?px1p+?1
y2=?0+?1x21+?2x22+… +?px2p+?2
…………………… (4.4-2)
yN=?0+?1xN1+?2xN2+… +?pxNp+?N
?i ~ N(0,?2 ),i=1,2,…,N
?
58
多元线性回归模型的矩阵形式
为便于表达和分析,引进以下矩阵,记
则 (4.4-2)式可写成如下矩阵形式
Y=X? + ? (4.4-3)
其中 ?为 N维随机向量,各分量相互独立且服从
N(0,?2 )。
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
NP
2P
1P
N2N1
2221
1211
x
.,,
x
x
.,,xx1
.,,.,,.,,.,,
.,,xx1
.,,xx1
X
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
N
2
1
y
..
y
y
Y
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
P
1
0
β
...
β
β
β
?
?
?
?
?
?
?
?
?
?
?
?
?
?
?
N
2
1
ε
.,,
ε
ε
ε
59
三, 参数 ?的最小二乘估计
设 为参数 ?的最小二乘估计,
则多元线性回归方程为
由最小二乘法的原理,不难求得 ?的最小二乘
估计为
同样称 为回归方程的回归
系数。用 Excel 或 SPSS 软件可求得各回归系数。
)???? ?? P10 β,.,,β,β(β
YXX)X(? 1 ??? ?β
)β,.,,,β,β(β P10 ?? ????
PP22110 Xβ...XβXββY ????? ?????
60
四.回归方程的显著性检验
如果变量 Y 与 X1,X2,…,X p 之间并无线性关系,
则模型 (4.4-1)式中各一次项系数应全为零,也即
要检验的原假设为
H0,?1=?2=…= ?p=0
为构造检验 H0的统计量,同样需要对总的偏差
平方和 ST作如下分解:
=SE+SR
同样称 SR为回归平方和;称 SE为剩余平方和。
2i2ii2iT )yy?()y?y()yy(S ???? ??? ??
61
检验 H0的统计量
并且同样可以证明,当 H0为真时,统计量
~ F( P,N-P-1)
因此,在给定水平 ?下,若
F > F? ( P,N-P-1)
就拒绝 H0,认为回归方程是有显著意义的;反
之,则称回归方程无显著意义,应分析查明原因
后重新建立更合理的回归模型。
检验过程同样可以列成一张方差分析表。多元
回归方差分析表的格式与一元回归完全相同。
1)P/ ( NS
/PSF
E
R
???
62
五, 回归系数的显著性检验
在多元回归中,回归方程显著的结论仅表明模
型中各 βj不全为零,但并不说明它们全不为零。
也即并不能保证每个解释变量都对 Y有重要影响。
如果模型中含有对 Y无显著影响的变量,就会降
低回归方程的预测精度和稳定性。因此,有必要
从回归方程中剔除对 Y无显著影响的变量,重新
建立更为简单的回归方程。
如果某个变量 Xk对 Y的作用不显著,则模型中
βk就可以为零。故要检验的原假设为
H0k,βk=0; k=1,2,…,P
63
1,检验 H0k的统计量
可以证明,当 H0k为真时,统计量
~ t(N-P-1)
其中 Ckk为矩阵 C=(X'X)-1中主对角线上第 k+1个
元素。
因此,在给定水平 ?下,若
tk >t?(N-P-1)
就拒绝 H0k,说明 Xk的作用显著。反之,则说
明 Xk的作用不显著。同样称 为标
准误差,它是模型中 ?的估计。
1)P/ ( NS
C/?
E
kkk
kt ???
β
)1/( ?? PNS E
64
2,存在不显著变量后的处理
若经检验,Xk的作用不显著,则应从模型中剔
除 Xk,并重新求解 Y对余下的 P-1个变量的回归方
程。
若检验中同时存在多个不显著的变量,则每次
只能剔除一个 t统计量值最小的变量,重新求解新
的回归方程,再对新的回归系数逐个检验,直至
所有变量都显著为止。
当模型中解释变量很多并且存在较多的不显著
变量时,以上方法就非常繁琐。因此通常都采用
以下介绍的“逐步回归”方法来求解多元线性回
归方程。
65
逐步回归方法简介
逐步回归的基本思想是:采用一定的评价标准,
将解释变量一个一个地逐步引入回归方程,每引
进一个新变量后,都对方程中的所有变量进行显
著性检验,并剔除不显著的变量,被剔除的变量
以后就不再进入回归方程。采用逐步回归方法最
终所得到的回归方程与前述方法的结果是一样的,
但计算量要少得多。
在 SPSS 软件的线性回归功能中就提供了逐步
回归的可选项。
66
案例 3,需求量与价格及收入间的关系
家电商品的需求量 Y与其价格 X1及居民家庭平
均收入 X2有关,下表给出了某市 10年中某家电商
品需求量与价格和家庭年平均收入水平间的数据。
求该商品年需求量 Y关于价格 X1和家庭年平均
收入 X2的回归方程。
需求量 ( 万台 ) 3.0 5,0 6,5 7,0 8,5 7,5 1 0 9,0 1 1 1 2.5
价格 ( 千元 ) 4.0 4,5 3,5 3,0 3,0 3,5 2,5 3,0 2,5 2,0
收入 ( 千元 ) 6.0 6,8 8,0 1 0 1 6 2 0 2 2 2 4 2 6 2 8
67
案例 3分析
用 Excel 或 SPSS 软件求解案例 3,可得回归方
程如下:
回归方程所达到的显著性水平为 0.0001,因而
是极高度显著的。
对回归系数的显著性检验结果为,X1的显著性
水平为 0.0268,X2的显著性水平为 0.0262,都是
一般显著的。
此外还得到标准误差为:
该值在求预测区间和控制范围时要用到。
21 0, 1 6 9 5 X1, 9 0 3 X1 1, 1 6 7Y? ???
8618.01)P/ ( NS E ???
68
案例 3需要进一步分析的问题
(1) 预计下一年度该商品的价格水平为 1800元,
家庭年平均收入为 30000元, 希望预测该商品下
一年的需求量 。
(2) 假定下一年度居民家庭年平均收入估计在
30000-310000元之间 。 若要以 90%的概率使该商
品的年需求量不低于 12万台, 问应将价格控制在
什么范围内?
69
六, 预测和控制
1,预测
在给定解释变量的一组取值 ( x01,x02,…,x0P ),
由回归方程可得回归值
它是 Y0=β0+β1X01+β2X02+βpX0p+ε0 的一个点估
计。可以证明,Y0的置信度为 1-?的预测区间为
d≈t ?/2(N-P-1) (*)
0PP0220110 β.,,βββ xxx ????0y? ?????
) dy? d,y? ( 00 ??
1)P/ ( NS E ??
70
案例 3的预测分析
预计下一年度该商品的价格水平为 1800元,家
庭年平均收入为 30000元,求该商品年需求量的
置信度为 90%的预测区间。
解,由所得回归方程,可求得
d≈t0.05(7)× 0.8618=1.63
∴ 该商品在该市下一年的年需求量的置信度为
90%的预测区间为
(11.20万台,14.46万台 )
83.12301 6 9 5.08.19 0 3.11 6 7.11y? 0 ??????
用 Excel 求解
71
2,控制
在多元回归情况下,由于解释变量有多个,若
控制问题的提法是:当要求以 1-?的概率将 Y控制
在某一给定范围内,问应将各解释变量控制在什
么范围内?显然此问题可以有无穷多个解。
因此,在多元回归情况下,控制问题的一般提
法是:若要将 Y控制在某给定范围内,在给定其
中 P-1个解释变量的取值范围时,问应将另一个
解释变量控制在什么范围之内?
多元回归的控制分析方法与一元回归完全类似,
下面以案例 3的控制问题说明求解过程。
72
案例 3的控制要求分析
假定下一年度居民家庭的年平均收入估计在
30000-310000元之间,若要使该商品在的年需求
量不低于 12万台,问应将价格控制在什么范围内?
(以 90%置信度 )。
解,此问题仍是单测控制问题,即要控制 X1的
取值范围,使
其中
= t0.1(7)× 0.8618=1.2194
90.0d}y?P { Y ???
)1/()1( ????? PNSPNtd E?
73
案例 3的控制要求分析 (续 )
由下图可知,即要使 。由所得回归
方程,可得以下不等式组
11.167-1.903x1+0.1695× 30-1.2194>12
11.167-1.903x1+0.1695× 31-1.2194>12
可解得,x1<1.594(千元 )
∴ 应将该商品价格控制在 1594元 /台之下。
12dy? ??
0
y
x1
12
21 6 9 5.09 0 3.1? XX1 1,1 67y 1 ???
dy??
x1
74
案例 4,宏观经济模型
在计划经济时期,我国钢材产量 Y主要与以下
因素有关:原油产量 X1,生铁产量 X2,原煤产量
X3,电力产量 X4,固定资产投资 X5,国民收入消
费额 X6,铁路运输能力 X7。下表给出了我国自
1975年到 1986年 12年间上述各项经济指标数据。
试建立计划经济时期影响我国钢材产量最合适的
回归模型。
75
Y X1 X2 X3 X4 X5 X6 X7
1622 7706 2449 4.82 1958 544.94 2541 88955
1466 8716 2233 4.83 2031 523.94 2424 84066
1633 9364 2505 5.50 2234 548.30 2573 95309
2208 10405 3479 6.18 2566 668.72 2975 110119
2497 10615 3673 6.35 2820 699.36 3356 111893
2716 10595 3802 6.20 3006 745.90 3696 111279
2670 10122 3417 6.22 3093 667.51 3905 107673
2920 10212 3551 6.66 3277 945.31 4290 113532
3072 10607 3738 7.15 3514 951.96 4779 118784
3372 11461 4001 7.89 3770 1185.18 5701 124074
3693 12490 4384 8.72 4107 1680.51 7498 130708
4058 13069 5064 8.94 4495 1978.50 8312 135636
钢材产量与其他经济变量数据
76
用 Excel 软件求解本案的分析步骤
回归系数的检验结果中除 X4(电力产量 )外,其
他变量都不显著,经过 4轮逐个剔除 t统计量最小
的变量后,得到最优回归方程如下:
= -35.1453-0.1275X1+0.37914X2+0.87506X4
即在计划经济时期,我国钢材产量主要受原油
产量 X1,生铁产量 X2,电力产量 X4的影响。其中
原油产量与钢材产量之间是负相关的,这主要是
因当时资金有限的原故。
本案例如果使用 SPSS 软件中的“逐步回归”
求解,可直接得到上述结果。
Y?
77
请多提宝贵意见
谢谢合作,再见!