第二节 一元线性回归
在客观世界中,普遍存在着变量之间的关系.数学的一个重要作用就是从数量上来揭示、表达和分析这些关系。而变量之间关系,一般可分为确定的和非确定的两类,确定性关系可用函数关系表示,而非确定性关系则不然.
例如,人的身高和体重的关系、人的血压和年龄的关系、某产品的广告投入与销售额间的关系等,它们之间是有关联的,但是它们之间的关系又不能用普通函数来表示。我们称这类非确定性关系为相关关系。具有相关关系的变量虽然不具有确定的函数关系,但是可以借助函数关系来表示它们之间的统计规律,这种近似地表示它们之间的相关关系的函数被称为回归函数。回归分析是研究两个或两个以上变量相关关系的一种重要的统计方法。
在实际中最简单的情形是由两个变量组成的关系。考虑用下列模型表示,但是,由于两个变量之间不存在确定的函数关系,因此必须把随机波动考虑进去,故引入模型如下
其中是随机变量,是普通变量,是随机变量(称为随机误差)。
回归分析就是根据已得的试验结果以及以往的经验来建立统计模型,并研究变量间的相关关系,建立起变量之间关系的近似表达式,即经验公式,并由此对相应的变量进行预测和控制等。
本节主要介绍一元线性回归模型估计、检验以及相应的预测和控制等问题。
分布图示
★ 引言 ★ 引例
★ 一元线性回归模型 ★ 最小二乘估计
★ 例1 ★ 例2
★ 最小二乘估计的性质 ★ 回归方程的检验假设
★ 总偏差平方和的分解 ★ 回归方程的检验方法
★ 例3 ★ 例4
★ 预测问题 ★ 例5 ★ 控制问题
★ 可化一元线性回归的情形 ★ 例6
★ 内容小结 ★ 课堂练习
★ 习题8-2
★ 返回
内容要点一、引例为了研究某一化学反应过程中温度对产品得率的影响,测得数据如下:
试研究这些数据所蕴藏的规律性.
二、一元线性回归模型一般地,当随机变量与普通变量之间有线性关系时,可设
,(1)
其中为待定系数。
设是取自总体的一组样本,而是该样本的观察值,在样本和它的观察值中的是取定的不完全相同的数值,而样本中的在试验前为随机变量,在试验或观测后是具体的数值,一次抽样的结果可以取得对数据,则有
, (2)
其中相互独立。在线性模型中,由假设知
(3)
回归分析就是根据样本观察值寻求的估计.
对于给定值,取
(4)
作为的估计,方程(4)称为关于的线性回归方程或经验公式,其图像称为回归直线,称为回归系数.
三、最小二乘估计对样本的一组观察值…,对每个,由线性回归方程(4)可以确定一回归值
,
这个回归值与实际观察值之差
刻画了与回归直线的偏离度,一个自然的想法就是,对所有,若与的偏离越小,则认为直线与所有试验点拟和得越好.
令
上式表示所有观察值与回归直线的偏离平方和,刻划了所有观察值与回归直线的偏离度。所谓最小二乘法就是寻求的估计,使 利用微分的方法,求关于的偏导数,并令其为零,得
整理得
,
称此为正规方程组,解正规方程组得
(5)
其中,,若记
,,
则
或叫做的最小二乘估计,而
为关于的一元经验回归方程.
四、最小二乘估计的性质定理1 若为的最小二乘估计,则分别是的无偏估计,且
,
五、回归方程的检验假设前面关于线性回归方程的讨论是在线性假设,下进行的,这个线性回归方程是否有实用价值,首先要根据有关专业知识和实践来判断,其次还要根据实际观察得到的数据运用假设检验的方法来判断.
由线性回归模型,可知,当时,就认为与之间不存在线性回归关系,故需检验如下假设:
.
为了检验假设,先分析对样本观察值的差异,它可以用总的偏差平方和来度量,记为
,
由正规方程组,有
=
=.
令 ,,则有
上式称为总偏差平方和分解公式,称为回归平方和,它由普通变量的变化引起的,它的大小(在与误差相比下)反映了普遍变量的重要程度; 称为剩余平方和,它是由试验误差以及其它未加控制因素引起的,它的大小反映了试验误差及其它因素对试验结果的影响.关于和,有下面的性质:
定理2 在线性模型假设下,当成立时,与相互独立,且
对的检验有三种本质相同的检验方法:
—检验法;—检验法;相关系数检验法.
在介绍这些检验方法之前,先给出,,的计算方法.
1.检验法由定理1, 若令 则由定理2知,为
的无偏估计,=且与相互独立,故取检验统计量
,
由给定的显著性水平,查表得,根据试验数据计算的值,当时,拒绝,这时回归效应显著; 当时,接受,此时回归效果不显著.
2.检验法由定理2,当为真时,取统计量
由给定显著性水平,查表得,根据试验数据计算的值,若时,拒绝,表明回归效果显著;若时,接受,此时回归效果不显著.
3,相关系数检验法由第四章知,相关系数的大小可以表示两个随机变量线性关系的密切程度,对于线性回归中的变量与,其样本的相关系数为
,
它反映了普通变量与随机变量之间的线性相关程度,故取检验统计量
对给定的显著性水平,查相关系数表得 根据试验数据计算的值,当时,拒绝,表明回归效果显著; 当时,接受,表明回归效果不显著.
六、预测问题在回归问题中,若回归方程经检验效果显著,这时回归值与实际值就拟合较好,因而可以利用它对因变量的新观察值进行点预测或区间预测.
对于给定的,由回归方程可得到回归值
称为在的预测值,的测试值与预测值之差称为预测误差.
在实际问题中,预测的真正意义就是在一定的显著性水平下,寻找一个正数,使得实际观察值以的概率落入区间内,即
,
由定理1知,
,
又因与相互独立,且
所以,
,
故对给定的显著性水平,求得
故得的置信度为的预测区间为.
易见,的预测区间长度为对给定,越靠近样本均值越小,预测区间长度小,效果越好。当很大,并且较接近时,有
,
则预测区间近似为
七、控制问题控制问题是预测问题的反问题,所考虑的问题是:如果要求将控制在某一定范围内,问应控制在什么范围?
这里我们仅对很大的情形给出控制方法,对一般的情形,也可类似地进行讨论。
对给出的和置信度,令
(1)
解得
(2)
当时,控制范围为当时,控制范围为 如图8-3-3.
实际应用中,由(1)式知,要实现控制,必须要求区间的长度大于,否则控制区间不存在.
特别,当时,,故(2)近似为
八、可化为一元线性回归的情形前面讨论了一元线性回归问题,但在实际应用中,有时会遇到更复杂的回归问题,但其中有些情形,可通过适当的变量替换化为一元线性回归问题来处理.
1,+ (1)
其中是与无关的未知参数.
令则可化为下列一元线性回归模型:
2,, (2)
其中是与无关的未知参数.
在两边取对数得
令则(2)可转化为下列一元线性回归模型:
3. (3)
其中是与无关的未知参数.
在两边取对数得
令则(2)可转化为下列一元线性回归模型:
4. (4)
其中是与无关的未知参数.是的已知函数,令则(3)可转化为
注,其它,如双曲线和型曲线函数等亦可通过适当的变量替换转化为一元线性模型来处理,若在原模型下,对于有样本
就相当于在新模型下有样本
因而就能利用一元线性回归的方法进行估计、检验和预测,在得到关于的回归方程后,再将原变量代回,就得到关于的回归方程,它的图形是一条曲线,也称为曲线回归方程。
例题选讲
一元线性回归模型例1 (E01) 求引例中产品得率Y关于温度x的回归方程.
解 为了方便,列出如右计算表格.
1
100
45
10000
2025
4500
2
110
51
12100
2601
5610
3
120
54
14400
2916
6480
4
130
61
16900
3721
7930
5
140
66
19600
4356
9240
6
150
70
22500
4900
10500
7
160
74
25600
5476
11840
8
170
78
28900
6084
13260
9
180
85
32400
7225
15300
10
190
89
36100
7921
116910
1450
673
218500
47225
101570
故
而
从而
所以回归直线方程为
例2 (E02) 对某地区生产同一产品的8个不同规模的乡镇企业进行生产费用调查,得产量x(万件)和生产费用Y (万元)的数据如下:
试据此建立Y关于x的回归方程.
解 作散点图.
由散点图可见作一元线性回归较合适,
由所给数据计算如下:
从而
故
由此得到回归方程
回归方程的显著性检验例3 (E03) 以家庭为单位,某种商品年需求量与该商品价格之间的一组调查数据如下表:
(1) 求经验回归方程;
(2) 检验线性关系的显著性(,采用检验法).
解
故 经验回归方程
(2)
因故回归是显著的,
例4 对本节中例2的线性回归作显著检验(
解 假设先计算
由于 故
查 F 分布的分位数表,得
由于 故否定 即对的线性回归关系极显著.又如对于例2,由已算得的
得
取显著水平 按自由度
查相关系数表,得 由于 故认为 与之间的线性回归极显著,即 可以表达与之间存在的线性相关关系.
预测问题例5 (E04) 某建材实验室做陶粒混凝土实验室中,考察每立方米混凝土的水泥用量(kg)对混凝土抗压强度(kg/)的影响,测得下列数据.
(1) 求经验回归方程;
(2) 检验一元线性回归的显著性();
(3) 设 求的预测值及置信度为0.95的预测区间.
解
故 得经验回归方程
在水平下, 因 故回归方程显著.
则
故 所求预测区间为
可化为一元线性回归的情形例6 (E05) 电容器充电达某电压值时为时间的计算原点,此后电容器串联一电阻放电,测定各时刻的电压u,测量结果如下:
若u与t的关系为 其中未知,求u对t的回归方程.
解 两端取对数
令 则
关于及有下列数据:
故 从而 得对的回归方程为
课堂练习
1,考察温度对产量的影响,测得下列10组数据:
(1) 求经验回归方程;
(2) 检验回归的显著性();
(3) 求时产量y的预测值及置信度为0.95的预测区间.
在客观世界中,普遍存在着变量之间的关系.数学的一个重要作用就是从数量上来揭示、表达和分析这些关系。而变量之间关系,一般可分为确定的和非确定的两类,确定性关系可用函数关系表示,而非确定性关系则不然.
例如,人的身高和体重的关系、人的血压和年龄的关系、某产品的广告投入与销售额间的关系等,它们之间是有关联的,但是它们之间的关系又不能用普通函数来表示。我们称这类非确定性关系为相关关系。具有相关关系的变量虽然不具有确定的函数关系,但是可以借助函数关系来表示它们之间的统计规律,这种近似地表示它们之间的相关关系的函数被称为回归函数。回归分析是研究两个或两个以上变量相关关系的一种重要的统计方法。
在实际中最简单的情形是由两个变量组成的关系。考虑用下列模型表示,但是,由于两个变量之间不存在确定的函数关系,因此必须把随机波动考虑进去,故引入模型如下
其中是随机变量,是普通变量,是随机变量(称为随机误差)。
回归分析就是根据已得的试验结果以及以往的经验来建立统计模型,并研究变量间的相关关系,建立起变量之间关系的近似表达式,即经验公式,并由此对相应的变量进行预测和控制等。
本节主要介绍一元线性回归模型估计、检验以及相应的预测和控制等问题。
分布图示
★ 引言 ★ 引例
★ 一元线性回归模型 ★ 最小二乘估计
★ 例1 ★ 例2
★ 最小二乘估计的性质 ★ 回归方程的检验假设
★ 总偏差平方和的分解 ★ 回归方程的检验方法
★ 例3 ★ 例4
★ 预测问题 ★ 例5 ★ 控制问题
★ 可化一元线性回归的情形 ★ 例6
★ 内容小结 ★ 课堂练习
★ 习题8-2
★ 返回
内容要点一、引例为了研究某一化学反应过程中温度对产品得率的影响,测得数据如下:
试研究这些数据所蕴藏的规律性.
二、一元线性回归模型一般地,当随机变量与普通变量之间有线性关系时,可设
,(1)
其中为待定系数。
设是取自总体的一组样本,而是该样本的观察值,在样本和它的观察值中的是取定的不完全相同的数值,而样本中的在试验前为随机变量,在试验或观测后是具体的数值,一次抽样的结果可以取得对数据,则有
, (2)
其中相互独立。在线性模型中,由假设知
(3)
回归分析就是根据样本观察值寻求的估计.
对于给定值,取
(4)
作为的估计,方程(4)称为关于的线性回归方程或经验公式,其图像称为回归直线,称为回归系数.
三、最小二乘估计对样本的一组观察值…,对每个,由线性回归方程(4)可以确定一回归值
,
这个回归值与实际观察值之差
刻画了与回归直线的偏离度,一个自然的想法就是,对所有,若与的偏离越小,则认为直线与所有试验点拟和得越好.
令
上式表示所有观察值与回归直线的偏离平方和,刻划了所有观察值与回归直线的偏离度。所谓最小二乘法就是寻求的估计,使 利用微分的方法,求关于的偏导数,并令其为零,得
整理得
,
称此为正规方程组,解正规方程组得
(5)
其中,,若记
,,
则
或叫做的最小二乘估计,而
为关于的一元经验回归方程.
四、最小二乘估计的性质定理1 若为的最小二乘估计,则分别是的无偏估计,且
,
五、回归方程的检验假设前面关于线性回归方程的讨论是在线性假设,下进行的,这个线性回归方程是否有实用价值,首先要根据有关专业知识和实践来判断,其次还要根据实际观察得到的数据运用假设检验的方法来判断.
由线性回归模型,可知,当时,就认为与之间不存在线性回归关系,故需检验如下假设:
.
为了检验假设,先分析对样本观察值的差异,它可以用总的偏差平方和来度量,记为
,
由正规方程组,有
=
=.
令 ,,则有
上式称为总偏差平方和分解公式,称为回归平方和,它由普通变量的变化引起的,它的大小(在与误差相比下)反映了普遍变量的重要程度; 称为剩余平方和,它是由试验误差以及其它未加控制因素引起的,它的大小反映了试验误差及其它因素对试验结果的影响.关于和,有下面的性质:
定理2 在线性模型假设下,当成立时,与相互独立,且
对的检验有三种本质相同的检验方法:
—检验法;—检验法;相关系数检验法.
在介绍这些检验方法之前,先给出,,的计算方法.
1.检验法由定理1, 若令 则由定理2知,为
的无偏估计,=且与相互独立,故取检验统计量
,
由给定的显著性水平,查表得,根据试验数据计算的值,当时,拒绝,这时回归效应显著; 当时,接受,此时回归效果不显著.
2.检验法由定理2,当为真时,取统计量
由给定显著性水平,查表得,根据试验数据计算的值,若时,拒绝,表明回归效果显著;若时,接受,此时回归效果不显著.
3,相关系数检验法由第四章知,相关系数的大小可以表示两个随机变量线性关系的密切程度,对于线性回归中的变量与,其样本的相关系数为
,
它反映了普通变量与随机变量之间的线性相关程度,故取检验统计量
对给定的显著性水平,查相关系数表得 根据试验数据计算的值,当时,拒绝,表明回归效果显著; 当时,接受,表明回归效果不显著.
六、预测问题在回归问题中,若回归方程经检验效果显著,这时回归值与实际值就拟合较好,因而可以利用它对因变量的新观察值进行点预测或区间预测.
对于给定的,由回归方程可得到回归值
称为在的预测值,的测试值与预测值之差称为预测误差.
在实际问题中,预测的真正意义就是在一定的显著性水平下,寻找一个正数,使得实际观察值以的概率落入区间内,即
,
由定理1知,
,
又因与相互独立,且
所以,
,
故对给定的显著性水平,求得
故得的置信度为的预测区间为.
易见,的预测区间长度为对给定,越靠近样本均值越小,预测区间长度小,效果越好。当很大,并且较接近时,有
,
则预测区间近似为
七、控制问题控制问题是预测问题的反问题,所考虑的问题是:如果要求将控制在某一定范围内,问应控制在什么范围?
这里我们仅对很大的情形给出控制方法,对一般的情形,也可类似地进行讨论。
对给出的和置信度,令
(1)
解得
(2)
当时,控制范围为当时,控制范围为 如图8-3-3.
实际应用中,由(1)式知,要实现控制,必须要求区间的长度大于,否则控制区间不存在.
特别,当时,,故(2)近似为
八、可化为一元线性回归的情形前面讨论了一元线性回归问题,但在实际应用中,有时会遇到更复杂的回归问题,但其中有些情形,可通过适当的变量替换化为一元线性回归问题来处理.
1,+ (1)
其中是与无关的未知参数.
令则可化为下列一元线性回归模型:
2,, (2)
其中是与无关的未知参数.
在两边取对数得
令则(2)可转化为下列一元线性回归模型:
3. (3)
其中是与无关的未知参数.
在两边取对数得
令则(2)可转化为下列一元线性回归模型:
4. (4)
其中是与无关的未知参数.是的已知函数,令则(3)可转化为
注,其它,如双曲线和型曲线函数等亦可通过适当的变量替换转化为一元线性模型来处理,若在原模型下,对于有样本
就相当于在新模型下有样本
因而就能利用一元线性回归的方法进行估计、检验和预测,在得到关于的回归方程后,再将原变量代回,就得到关于的回归方程,它的图形是一条曲线,也称为曲线回归方程。
例题选讲
一元线性回归模型例1 (E01) 求引例中产品得率Y关于温度x的回归方程.
解 为了方便,列出如右计算表格.
1
100
45
10000
2025
4500
2
110
51
12100
2601
5610
3
120
54
14400
2916
6480
4
130
61
16900
3721
7930
5
140
66
19600
4356
9240
6
150
70
22500
4900
10500
7
160
74
25600
5476
11840
8
170
78
28900
6084
13260
9
180
85
32400
7225
15300
10
190
89
36100
7921
116910
1450
673
218500
47225
101570
故
而
从而
所以回归直线方程为
例2 (E02) 对某地区生产同一产品的8个不同规模的乡镇企业进行生产费用调查,得产量x(万件)和生产费用Y (万元)的数据如下:
试据此建立Y关于x的回归方程.
解 作散点图.
由散点图可见作一元线性回归较合适,
由所给数据计算如下:
从而
故
由此得到回归方程
回归方程的显著性检验例3 (E03) 以家庭为单位,某种商品年需求量与该商品价格之间的一组调查数据如下表:
(1) 求经验回归方程;
(2) 检验线性关系的显著性(,采用检验法).
解
故 经验回归方程
(2)
因故回归是显著的,
例4 对本节中例2的线性回归作显著检验(
解 假设先计算
由于 故
查 F 分布的分位数表,得
由于 故否定 即对的线性回归关系极显著.又如对于例2,由已算得的
得
取显著水平 按自由度
查相关系数表,得 由于 故认为 与之间的线性回归极显著,即 可以表达与之间存在的线性相关关系.
预测问题例5 (E04) 某建材实验室做陶粒混凝土实验室中,考察每立方米混凝土的水泥用量(kg)对混凝土抗压强度(kg/)的影响,测得下列数据.
(1) 求经验回归方程;
(2) 检验一元线性回归的显著性();
(3) 设 求的预测值及置信度为0.95的预测区间.
解
故 得经验回归方程
在水平下, 因 故回归方程显著.
则
故 所求预测区间为
可化为一元线性回归的情形例6 (E05) 电容器充电达某电压值时为时间的计算原点,此后电容器串联一电阻放电,测定各时刻的电压u,测量结果如下:
若u与t的关系为 其中未知,求u对t的回归方程.
解 两端取对数
令 则
关于及有下列数据:
故 从而 得对的回归方程为
课堂练习
1,考察温度对产量的影响,测得下列10组数据:
(1) 求经验回归方程;
(2) 检验回归的显著性();
(3) 求时产量y的预测值及置信度为0.95的预测区间.