返回
第 7章 回归分析
?第 7.1节 一元回归分析模型
?第 7.2节 回归系数的最小二乘估计
?第 7.3节 回归估计的统计推断
?第 7.4节 预测
?第 7.5节 多元回归分析
返回
返回






确定性关系或函数关系 y=f(x)
人的身高和体重
家庭的收入和消费
商品的广告费和销售额
粮食的产量和施肥量
股票的价格和时间
学生的期中和期末考试成绩,…?






如果对于任何已知的 x值,变量 y和按某个概率取
某些特殊的值,则 x和 y之间的关系为 随机的,
?
x
Y
实变量
随机变量
非确定性关系
第 7.1节 一元回归分析模型
返回
(x,y)
采集样本信息 (xi,yi)
回归分析
散点图
回归方程
回归方程的显著性检验
对现实进行预测与控制
基本思想
返回
某市场在 t时刻黄瓜销量的数据如下 (其中 qt表示 t时刻销售
黄瓜的数量,单位为,斤,pt表示 t时刻的销售价格,单位为,
元 ),
t
p
t
q
2, 5
2, 0
1, 5
1, 0
0, 5
0
1
3
5
7
9
11
这是一个确定性关系,
tt p411q ??
例如
返回
若 x,y之间的关系是随机的,例如
t
p
t
q 概率
2, 5
0
1
2
0, 2 5
0, 5 0
0, 2 5
2, 0
2
3
4
0, 2 5
0, 5 0
0, 2 5
? ? ?
0
10
11
12
0, 2 5
0, 5 0
0, 2 5
这时,方程的形式为
tt p411q ?? t??
返回
t
? 概率
-1
0
1
0, 25
0, 50
0, 25
称为随机扰动或随机误差项,t?
其中 为随机变量,t?
返回
对于回归模型,我们假设:
ji,0)(E
n,,2,1i),,0(N~
ji
2
i
??
?
??
?? ?
可得到,),bxa(N~y 2
ii ??
如果给出 a和 b的估计量分别为,则经验回归方程为:b?,a?
ii xb?a?y? ??
一般地,
iii y?ye ??
称为残差,
y称为因变量,x称为自变量,称为随机扰动,a,b称为
待估计的回归参数,下标 i表示第 i个观测值。
?
两个变量之间的线性关系,其回归模型为
iii bxay ????
残差 可视为扰动 的“估计量”。ie
i?
返回
设对 y及 x做 n次观测得数据 (xi,yi) (i=1,2,…,n ),
以 (xi,yi)为坐标在平面直角坐标系中描点,所得到的这张
图便称之为 散点图,
若散点呈直线趋势,则认为 y 与 x的关系可以用一元回归
模型来描述,
设线性回归方程为 Y=a + bx+ε
其中,ε 是随机误差,ε ~ N(0,σ 2).
将 (xi,yi) (i=1,2,…,n)逐一代入上式,
?
?
?
?
????
),0(),,2,1(
,,2,1
2??
?
Nni
nibxay
i
iii
独立同正态分布?
?
第 7.2节 回归系数的最小二乘估计
返回
二元函数 的最小值点 称为 a,b的最小二乘估
计 (简记为 OLSE ).
),( baQ )?,?( ba
??
??
????
n
i
ii
n
i
i bxaybaQ
1
2
1
2 )]([),( ?记
?
?
???????
n
1i
ii 0))bxa(y(2a
Q
?
?
???????
n
1i
iii 0x)]bxa(y[2b
Q? ??
?
?
?
??
??
??
??
n
1i
ii
n
1i
2
i yxb)x(axn
ynbxnna
,1,1
11
??
??
??
n
i
i
n
i
i ynyxnx
其中
返回
???? ?? )xnx(nxxn
xnn
D 22i2
i
0)(
1
2 ???
?
n
i
i xxn
所以方程组有解,解得
?
?
?
?
?
?
??
xx
xy
l
l
b
xbya
?
??
其中 ?
?
??
n
1i
2
ixx )xx(l
?
?
???
n
1i
iixy )yy()xx(l
即最小二乘估计所得回归方程为 xbay ??? ??
返回
例 7.2.1 某市场连续 12天卖出黄瓜的价格和数
量的调查数据如下:
价格
i
x (元 / 斤) 销量
i
y (斤)
1, 0 0
0, 9 0
0, 8 0
0, 7 0
0, 7 0
0, 7 0
0, 7 0
0, 6 5
0, 6 0
0, 6 0
0, 5 5
0, 5 0
55
70
90
1 0 0
90
1 0 5
80
1 1 0
1 2 5
1 1 5
1 3 0
1 3 0
试求:黄瓜销量对价格的 回归方程,
返回
1,a,b 的点估计
( 1)估计量 分别是 a,b的无偏估计量;b?,a?
( 2)由于 均为相互独立正态变量 的
线性组合,根据正态分布的性质,它们也一定是正态的。
b?,a? n21 y,,y,y ?
2,a,b 的点估计的方差
xxxx l
bD
l
x
n
aD
22
2 )?(),1()?( ?? ???
( 2)自变量 x的值越分散,的方差越小, ba ?,?
( 1)扰动 εi的方差 σ2越大,的方差也越大, ba ?,?
(3) 当 时,的方差最小,a?)0(0 ?? xxlx
第 7.3节 回归估计的统计推断
返回
总体方差 的一个无偏估计量是:2?
??
?
?
?
? ???
n
1i
2
i2n
1
n
1i
2
ii2n
12 e)y?y(S
xx
2
xx
2
l
S2
b?l
x
n
122
a? S),(SS ???
它们的算术平方根分别称为 a,b的 估计标准误差 。
3,的点估计和 a,b的估计标准误差2?
,代替用 22 ?S 得到 方差的无偏估计量分别是:ba ?,?
4,a和 b的区间估计
置信水平为 的区间估计是:??1
)?,?(
)?,?(
?2,?2,
?2,?2,
22
22
bnbn
anan
StbStb
StaSta
??
??
??
??
??
??
2,2 ?nt?
返回
5,的区间估计)y(E i
.)(?)()?(;)()(;)??()?(
的无偏估计为,所以,iiii
iiiiii
yEyyEyE
bxabxaEyEbxaxbaEyE
?
????????
计算得 ),)(1( 222
?
xx
i
y l
xx
ni
??? ??
)?),?((~? 2? iyii yENy ?所以,
记 ),)(1( 222
?
xx
i
y l
xx
n
SS
i
??? 则 )2(~)?(?
?
?? nt
S
yEy
iy
ii
)y(E i 的置信水平为 的区间估计是:??1
)Sty?,Sty?( i
2i2 y?2n,iy?2n,i ??
?? ??
返回
)y?y(y?y iiii ???
xb?a?y? ?? xb?a?y,xb?a?y? ii ????
)y?y()yy?(yy iiii ?????
?
?
?
n
i
i yy
1
2)( ???
???
???????
n
1i
iii
n
1i
2
ii
n
1i
2
i )y?y)(yy?(2)y?y()yy?(
?
?
??
n
1i
iii )y?y)(yy?( ?
?
??????
n
1i
iii )xb
?a?y)(xb?a?xb?a?(
?
?
?????
n
1i
iii )xb
?xb?yy)(xx(b? ])xx(b?)yy) [ (xx(b?
n
1i
iii?
?
?????
])xx(b?)yy)(xx([b?
n
1i
n
1i
2
iii? ?
? ?
????? ]ll
ll[b?
xx
xx
xy
xy ??
=0
6,y的样本变差的分解
返回
?
?
?
n
i
i yy
1
2)( ??
??
????
n
1i
2
ii
n
1i
2
i )y?y()yy?(
?
?
?
n
i
i yy
1
2)?(
其中
yxb?a?x
n
1b?a?)xb?a?(
n
1y?
n
1 n
1i
i
n
1i
i
n
1i
i ??????? ???
???

反映了回归自变量变差的贡献
?
?
?
n
i
ii yy
1
2)?( 反映了其它因素的影响





残差平方和
返回
离差平方和 =回归平方和 +残差平方和即
SST = SSR + SSE
称 R2=SSR/SST为判定系数,它度量了经验回归方程对
观测数据的拟和程度,
0≤R2≤1,它的值越大,表明因变量与自变量之间的相关
性越强,
?
?
?
n
i
i yy
1
2)( ??
??
????
n
1i
2
ii
n
1i
2
i )y?y()yy?(
返回
(1)提出原假设和备择假设
H0:b=0; H1:b≠0
(2) 选择检验统计量
成立时)0
??
()2(~
??
Hnt
S
b
S
bbZ
bb
????
(3) 对于给定的显著性水平 α,当
时就拒绝 H0,认为回归方程有显著意义,
???? |}||)2({| ZntP
7.回归方程的显著性检验
返回
成立时)0()2,1(~)2/( 1/ HnFnSSE SSRF ???
或者
(1)提出原假设和备择假设
H0:b=0; H1:b≠0
(2) 选择检验统计量
(3) 对于给定的显著性水平 α,当
时就拒绝 H0,认为回归方程有显著意义,
???? })2,1({ FnFP
注 以上两种方法检验结果相同,
后一种检验可用于多个自变量的情况,
返回
我们从一组样本数据进行回归系数的估计, 得到经验
回归方程, 因为还要进行区间估计, 显著性检验,所以
必须求出回归估计量的标准误差, 以及判定系
数, 通常可写成表达式:
,= …
( ) ( )
其中括号内填写相应的 t-检验显著性概率值 。 这样就
较全面地表述了样本回归估计式 。
b?a? S,S
2R
ii xb?a?y? ??
2R
8.回归分析的表述
返回
例 7.3.1 某市场连续 12天卖出黄瓜的价格和数量
的调查数据如下:
价格
i
x (元 / 斤) 销量
i
y (斤)
1, 0 0
0, 9 0
0, 8 0
0, 7 0
0, 7 0
0, 7 0
0, 7 0
0, 6 5
0, 6 0
0, 6 0
0, 5 5
0, 5 0
55
70
90
1 0 0
90
1 0 5
80
1 1 0
1 2 5
1 1 5
1 3 0
1 3 0
返回
由此可知:
( 1) R2 = 0.889,S = 8.360 = (698.889/10)0.5,平方和分解
SST = 6300 =5601.111+698.889=SSR+SSE,
571.12S a? ? 624.17S b? ?
( 2)回归方程的显著性检验,从 t检验和 F检验均有,显著性
概率值 p=4.34E-06<<0.05,所以认为回归方程是显著的。
( 3) a的 95%置信区间是 (182.435,238.454)
b的 95%置信区间是 ( -197.047,-118.508)
( 4) 经验回归方程:
( 1.21E-08) (4.34E-06)
ii x7 7 8.1 5 74 4 4.2 1 0y? ??
下面我们求 的 95%置信区间:)( iyE
返回
已知,对应预测因变量 y的取值为 y0,称
0xx?
00
??? xbay ?? 为 的预测值,0y
点预测值即为回归方程计算所得回归值,
1.预测值 (prediction value)
第 7.4节 预测
返回
例 7.4.1 对于例 7.2.1,预测当价格分别为 1.2,1.1,
0.85,0.75,0.45 时,黄瓜的销量情况。
解,经验回归方程为:
ii x7 7 8.1 5 74 4 4.2 1 0y? ??
x y?
1.20 21.1104
1.10 36.8882
0.85 76.3327
0.75 92.1105
0.45 139.4439
返回
实际值 与其预测值之间有预测误差,00 y?y ?
0)y?y(E 00 ??
20020020000 )?)?(())(()?()?( yyEEyEyEyyEyyD ???????
即预测误差总方差( ) = 随机扰动产生的方差( )
+ 抽样误差产生的方差( ),
2F? 2?
2y?
0?
通过计算可知,)
l
)xx(
n
11(
xx
2
022
F
???? ??
从而易见:如果要降低, 可以采取如下措施
( 1) 增大样本容量 n;
( 2) 增大样本中自变量的分散性 ( 即增大 ) ;
( 3) 减少 x0与自变量样本均值 之间的距离 。
2F?
xxl
x
返回
所求即为 x=x0时,对应 y0的 1-α 置信区间,
)2(~? 00 ?? ntS yy
F
所以 y0的 1-α预测区间为
))(11(
2
022
xx
F l
xx
nSS
????记

对给定的概率水平 1-α
?? ????
?
?
???
?
??
?
1?
2,
2
00
nF
t
S
yyP
)?,?( 2,
2
02,
2
0 FnFn StySty ?? ?? ??
2.预测区间
返回
例 7.4.2 承例 7.4.1,求每个自变量值所对应的
因变量值的预测区间。 x y? 9 5 % 下限 9 5 % 上限
1.2 21.1104 -6.48152 48.70232
1.1 36.8882 11.93739 61.83901
0.85 76.3327 56.07113 96.59427
0.75 92.1105 72.62478 111.5962
0.45 139.4439 117.7136 161.1742
返回
多元回归模型的一般形式为:
??????? kk2211 xbxbxbay ?
其中 y 是因变量,为 k个自变量,为随机扰
动,为回归参数。 k21
x,,x,x ? ?
k21 b,,b,b,a ?
对因变量和所有自变量进行 n次观测,得到样本数据
n,,2,1i),x,,x,x,y( ik2i1ii ?? ?
i?
假定第 i次观测的随机误差为,且 服从正态分布
i? ),0(N
2?
)ji(0)(E ji ???? 则
),0(,,,,,2,1
,
2
1
2211
???
?
Nni
xbxbxbay
n
iikkiii
独立同分布??
?
?
??????
第 7.5节 多元回归分析
返回
根据最小二乘法,对
kk2211 xb?xb?xb?a?y? ????? ?
例 7.5.1 某住宅小区附近的家具商城认为住宅销售户数
和新婚对数这两个因素对家具的销售额有明显的作用。
为了确定该商城每季度家具的进货和销售,他们对全市
各个小区家具店收集了 12组市场调查资料如下:
由微积分求极值方法求最小值,
?
?
??
n
i
iik yEybbbaQ
1
2
21 ))((),,,,( ?
得多元经验回归方程为,
返回
家具销售额 y ( 万元 ) 住宅销售住户 x1 结婚对数 x2
214 114 23
248 123 22
397 239 25
388 221 24
415 248 23
430 251 26
374 232 25
550 238 27
455 254 34
535 372 39
454 247 41
638 410 38
请为商城人员建立二元经验回归方程并进行统计推断。
21 x0 3 9 4 9 2.1x2 4 0 3 2 4.19 6 4 9 7.89y? ???
所求结果为
返回
(1) 提出原假设,H0:bi=0; 备择假设 H1:bi≠0(i=1,2,…,k)
(2) 选择检验统计量
1,t 检验
k,,2,1i,
S
b?
t
ib
?
i
i ???
????? |)||)1((| itkntP
(3)若
则拒绝原假设,说明对应的自变量 作用是显著的;
反之,则接受原假设,认为该自变量的作用是不显
著的。
ix
多元线性回归方程的显著性检验
返回
2,F 检验
F 检验的原假设 H0,判定系数统计量的真值等于零,
选择检验统计量
1kn/SSE
k/SSRF
???
????? )F)1kn,k(F(P若
就拒绝原假设, 认为已建立起来的线性回归模型整体
上显著有效 。
返回
例 7.5.2 天津某区关于“电脑销售量、人均收入和
电脑平均价格”的调查资料如下:
年份 t 电脑销售量 y (台) 人均收入 x1( 元 / 年 ) 平均价格 x2( 元 / 台)
1994 上 1040 5789.4 13420
1994 下 1238 5989.8 12800
1995 上 1895 7096.2 12210
1995 下 2210 7396.6 11400
1996 上 3823 8091.2 10860
1996 下 5887 8275.3 10240
1997 上 6795 8391.6 8581
1997 下 8490 8575.7 7134
1998 上 10610 8623.5 5600
试建立电脑销售量的二元经验回归方程并进行统计推断,
检验回归效果的显著性,
返回
电脑销售量的二元经验回归方程为:
21 x2 3 1 0 6.1x1 4 7 4 9.089.1 6 1 6 4y? ???
F = 103.39151,
P( F( 2,6) >103.39151) =2.242E-05<<0.05,
所以认为回归方程是显著有效的。
返回
(1)复相关分析
复相关是指一个因变量同多个自变量之间的相关关系。
复相关系数的计算指标为 R,它表明所有自变量同因变量
关系的密切程度,也是对回归模型拟和优度的测定,
(2)偏相关分析
偏相关是指多元回归中各个自变量在其它自变量固定不
变时,单个自变量同因变量的相关关系,
其相关程度用偏回归系数测定(偏相关系数的计算要使
用更高级的统计分析软件,如 SAS,SPSS等来实现)。
多元线性回归模型的相关分析