第十章 相关
与回归分析
10.1概述
一、回归预测的含义
回归 (Regression) 一词是由生物学相关概念引
申而来,它是英国生物学家高尔顿 (F.Galton 〉
用来描述遗传变异现象的术语 。 1889年他在, 普
用回归定律, 一文中指出:每个人的特点和他的
亲属有相似之处, 但平均地说在程度上有一定的
差异 。 他的朋友皮尔逊后来对 1078 个家庭进行
了调查, 发现个子高的父母比矮的父母趋向于生
育个子高的子女, 但是从平均数看, 父母高,
他们的子女不一定像父母那样高,反之也不像
其父母那样矮 。 这种现象便称之为回归 。 后来这
个名词被广泛用来表示变量间的数量 关系 。
? 回归分析, 就是研究某一个随机变量
(因变量 ) 与其他一或几个变量 (自变量 )
之间的数量变动关系, 由回归分析求出的
关系式通常称为回归模型。
? 回归分析预测法, 就是从各种经济现
象之间的相互关系出发, 通过对与预测对
象有联系的现象变动趋势的分析, 推算预
测对象未来状态数量表现的一种预测法。
二、回归预测的分类
两个变量之间就其关系变化来说,可以表现
为两种数学模型形式,即函数型关系和统计型
关系,如果用 x 表示自变量,y 表示因变量,
同时 x 和 y 的关系在一定条件下是完全确
定的,那就是函数关系。反之,则是统计型
关系。
在社会经济现象中,一个变量 和另一变量
尽管有密切的关系,但是由于受到众多的难以控
制的因素的影响,实际观察得到的数据并不能构
成函数关系。例如,企业的年销售额 y 与变量
x( 人均收入、利率 的变化、产品的市场竞争状
况、季节的变化及原材料的供应等 ) 对应的关
系会形成一个统计分布。随自变量 x 的变化,
因变量也随之有一个随机变化结果。其变化的结
果所对应的曲线模型有正线性关系、负线性关系、
元数量关系、向下抛物线关系、上升指数曲 线
关系及下降指数曲线关系等。
在回归分析中,如果研究的因果关系
涉及两个变量就叫做一元回归分析或单回
归分析;如果涉及两个以上的变量,则叫
做多元回归分析或复回归分析。如果变量
之间的相关关系呈线性变化,则叫线性回
归;如果变量之间的相关关系呈非线性变
化,则叫非线性回归。
三、回归预测的一般程序
?确立相关因素:相关因素又称相关变量,它是回归分析的基
础。相关变量选择得准确与否会直接影响回归预测结果的准
确性。
?建立数学模型:根据已知的数据资料,找出变量之间相关关
系的类型,选择与其最为吻合的数学模型,代入已知数据并
经过数学运算,求得有关系数或参数,从而建立预测的数学
模型。
?检验和评价数学模型:建立的数学模型是否正确,必须用一
套数理统计方法来加以检验,并测量其误差大小和精确 (或
近似 )程度。
?运用模型进行预测:数学模型经检验后如果正确,即用所建
的数学模型进行预测和控制。
10.2一元线性回归方
程
一、一元线性回归预测方程
如果影响预测对象的主要因素只有一
个,并且它们之间呈线性关系,那么可采
用简单回归分析法预测。由于这种方法只
涉及一个自变量,故其又称为一元线性回
归分析法。
设一元线性回归方程为,
yi=a+bxi+ei (i=1,2,…,n)
式中,n 为样本容量; α 为回归常数; b 为回归
系数,即回归直线的斜率; ei 为残差值,又
称回归余项,ei 的平均值为零,其中每个 ei的
分布方差相同, 它是用 a+bxi估计因变量 yi 的数
值所造成的, 它是估计值与实际数值之间的离差,
即 ei= yi - yi 。
?
实际预测时, 残差项的是无法预测的,其
目的只是借助 a+bxi得到预测对象 yi 的估
计值,所以预测模型为,
yi =a+bxi
式中,yi为预测值 ( 又称为估计值 ) a
为回归常数 ; b为回归系数。
二、最小二乘法
(式10-1)
(式10-1)
用上述方程在预测前, 还得先知道自变量的取值 。
如 该地 2004 年人均收入的预测值为 560 元,则
该地区 2002年耐用消费品销售额的预测值为,
yi 2004 =0.2568+2.9303 × 5.6 = 166.7( 万元 )
这里得到的 166.7 万元是一个点预测值, 实际
上的数值也许高于它, 也许比它低 。 因此在进行回
归预测时, 总是在点预测为中心的基础上, 在一定
的可能性 ( 即概率 )下, 给一个预测区间 ( 又称为
置信区间 )。 若要计算点预测的置信区间, 就要计
算点预测值误差的标准差 。
三、一元线性回归预测的置信区间
在回归分析中 由于总体关系有一定程度的变
异,从实际观察值所求得的回归线只是样本
回归线 。 a 和 b 就只能看做是总体回归系数
A 和 B 的估计值, 不同的抽样就会有不同的
α 和 b,也就是说有不同的样本回归线随机
因素的存在表明, 给定任何一个 x值就可能有
许多 y 的观察值 。
进行回归分析时对于 y 的变异性是有前提
假定的,这些假定是,
? y 是一个随机变量,亦即 e 是随机变量 ;
? 给定一个 x值时,y 分布是正态的,影响 y
的其他因素的作用一般趋于互相抵消,因
此,E(e)=O,y 的平均值就在给定 x 值的
回归线上 ;
? 在任何 x值上, y 分布的方差 ( 及标准差 )
相等 。
一元线性回归标准差计算公式如下,
(式10-2)
置信区间
一元线性回归 的 置信 概率可查 t分布的双侧检验表,取置
信概率为1- α = 95%时,t0.05=2.365
则预测区间为,
y土 t0.05× S = 16.67土 2.365× 0.659 = 151.11--182.28
即预测 2004年耐用商品销售额在 151.11 万元至 182.28
万元的概率为 95% 。
预测 区间的大小与置信概率的大小为同向关系,概率取
得越高, 预测区间就越大 。 但是如果预测区间过宽, 就会
使预测结果失去意义 。
一、二元线性回归
设某国每年小麦出口量的增长率和该年小麦产量的增长率及
出口税率有线性关系,其 1994-2003 年的样本数据如图表所示。
利用图表 144 的数据,求样 本回归方程,
解,为了确定回归系数要求先求回归方程,为此,需要用 1994-2003年
小麦出口量年增长率与产量年增长率及出口税率回归分析计算表,
10.4回归模型的统计检验
一,简单相关检验
? 变量与之间是否存在线性相关的问题,可以
通过散点图用目测的方法解决,但既不精确
也不方便。现在用一种量化指标,来较精
确地描述两变量间的线性相关的密切程度,
这个指标称为简单相关系数- r,其计算公
式是:
二, F 检验
要判定回归方程在整体上是否显著
成立, 即用所配合的回归方程来解释
因变量的变化是否有效, 此时可用 F
检验法 。
F 检验法的步骤如下,
1,计算剩余平方和 S余,
S余 =Σ (yi - yi ) 2
式中,yi 为观察值,yi为拟合值
2,计算回归平方和 S回,
S回 = Σ (yi - yi ) 2
3,计算统计量 F 的值,
F= S回 / m/ S余 / (n-m-1)
式中 m 为回归方程中自变量个数。
4,查表检验显著性,
按显著性水平 α 查 F 分布表,得到临界值 Fα,如果 F> Fα,
则认为回归效果显著,否则即认为回归效果不显著。
对 上 例的回归方程做 F 检验
1.计算剩余平方和, S余 = Σ (yi - yi) 2 =2.0415
2.计算回归平方和, S回 = Σ (yi - yi ) 2 =112.49355
3.计算 F 值 (因为是一元线性回归,只有一个自变量,所
以 m = 1)
F= S回 / m/ S余 / (n-m-1)
= 112.4935/2.0415/7=385.72
4.查表检验显著性,
取显著性水平 α =0.05; m=1,第二自由度 n-m-1=7 。 查 F
分布表得 临界值 F0.05=5.59
因为 F=385.72>5.59,所以回归效果显著 。
四,t 检验
判定回归方程中系数 ( 参数 ) 的作用是否显著,可用 t
检验法。在多元回归中,如果某个自变量 X对因变量 y 的作用
不显著, 则该 X 前的系数就可视为 0。但需要注意, 回归系数
同 0的差异是否显著, 不能根据系数绝对值的大小来判断, 而
要根据统计假设检验的理论进行检验, 因为系数值的大小要受
变量计量单位的影响。如 上 例中得到的回归方程,自变量 x前
的系数是 2.9303,倘若把 x的单位由百元改为千元,则 x前的系
数就要缩小 10倍, 成为 0.29303,但实际上它们的作用完全是
等价的。
对于一元回归问题, 回归系数的 t 检验
和前述相关系数检验及回归方程检验的作用
是一致的, 只要检验其中之一就可以了。但
在多元回归中就不同, 要对各个 x前的回归系
数逐一进行统计检验,这时回归系数的检验就
显得很重要,不能用前 述的F检验和相关检验,
只能用 t检验,t检验的步骤如下:
与回归分析
10.1概述
一、回归预测的含义
回归 (Regression) 一词是由生物学相关概念引
申而来,它是英国生物学家高尔顿 (F.Galton 〉
用来描述遗传变异现象的术语 。 1889年他在, 普
用回归定律, 一文中指出:每个人的特点和他的
亲属有相似之处, 但平均地说在程度上有一定的
差异 。 他的朋友皮尔逊后来对 1078 个家庭进行
了调查, 发现个子高的父母比矮的父母趋向于生
育个子高的子女, 但是从平均数看, 父母高,
他们的子女不一定像父母那样高,反之也不像
其父母那样矮 。 这种现象便称之为回归 。 后来这
个名词被广泛用来表示变量间的数量 关系 。
? 回归分析, 就是研究某一个随机变量
(因变量 ) 与其他一或几个变量 (自变量 )
之间的数量变动关系, 由回归分析求出的
关系式通常称为回归模型。
? 回归分析预测法, 就是从各种经济现
象之间的相互关系出发, 通过对与预测对
象有联系的现象变动趋势的分析, 推算预
测对象未来状态数量表现的一种预测法。
二、回归预测的分类
两个变量之间就其关系变化来说,可以表现
为两种数学模型形式,即函数型关系和统计型
关系,如果用 x 表示自变量,y 表示因变量,
同时 x 和 y 的关系在一定条件下是完全确
定的,那就是函数关系。反之,则是统计型
关系。
在社会经济现象中,一个变量 和另一变量
尽管有密切的关系,但是由于受到众多的难以控
制的因素的影响,实际观察得到的数据并不能构
成函数关系。例如,企业的年销售额 y 与变量
x( 人均收入、利率 的变化、产品的市场竞争状
况、季节的变化及原材料的供应等 ) 对应的关
系会形成一个统计分布。随自变量 x 的变化,
因变量也随之有一个随机变化结果。其变化的结
果所对应的曲线模型有正线性关系、负线性关系、
元数量关系、向下抛物线关系、上升指数曲 线
关系及下降指数曲线关系等。
在回归分析中,如果研究的因果关系
涉及两个变量就叫做一元回归分析或单回
归分析;如果涉及两个以上的变量,则叫
做多元回归分析或复回归分析。如果变量
之间的相关关系呈线性变化,则叫线性回
归;如果变量之间的相关关系呈非线性变
化,则叫非线性回归。
三、回归预测的一般程序
?确立相关因素:相关因素又称相关变量,它是回归分析的基
础。相关变量选择得准确与否会直接影响回归预测结果的准
确性。
?建立数学模型:根据已知的数据资料,找出变量之间相关关
系的类型,选择与其最为吻合的数学模型,代入已知数据并
经过数学运算,求得有关系数或参数,从而建立预测的数学
模型。
?检验和评价数学模型:建立的数学模型是否正确,必须用一
套数理统计方法来加以检验,并测量其误差大小和精确 (或
近似 )程度。
?运用模型进行预测:数学模型经检验后如果正确,即用所建
的数学模型进行预测和控制。
10.2一元线性回归方
程
一、一元线性回归预测方程
如果影响预测对象的主要因素只有一
个,并且它们之间呈线性关系,那么可采
用简单回归分析法预测。由于这种方法只
涉及一个自变量,故其又称为一元线性回
归分析法。
设一元线性回归方程为,
yi=a+bxi+ei (i=1,2,…,n)
式中,n 为样本容量; α 为回归常数; b 为回归
系数,即回归直线的斜率; ei 为残差值,又
称回归余项,ei 的平均值为零,其中每个 ei的
分布方差相同, 它是用 a+bxi估计因变量 yi 的数
值所造成的, 它是估计值与实际数值之间的离差,
即 ei= yi - yi 。
?
实际预测时, 残差项的是无法预测的,其
目的只是借助 a+bxi得到预测对象 yi 的估
计值,所以预测模型为,
yi =a+bxi
式中,yi为预测值 ( 又称为估计值 ) a
为回归常数 ; b为回归系数。
二、最小二乘法
(式10-1)
(式10-1)
用上述方程在预测前, 还得先知道自变量的取值 。
如 该地 2004 年人均收入的预测值为 560 元,则
该地区 2002年耐用消费品销售额的预测值为,
yi 2004 =0.2568+2.9303 × 5.6 = 166.7( 万元 )
这里得到的 166.7 万元是一个点预测值, 实际
上的数值也许高于它, 也许比它低 。 因此在进行回
归预测时, 总是在点预测为中心的基础上, 在一定
的可能性 ( 即概率 )下, 给一个预测区间 ( 又称为
置信区间 )。 若要计算点预测的置信区间, 就要计
算点预测值误差的标准差 。
三、一元线性回归预测的置信区间
在回归分析中 由于总体关系有一定程度的变
异,从实际观察值所求得的回归线只是样本
回归线 。 a 和 b 就只能看做是总体回归系数
A 和 B 的估计值, 不同的抽样就会有不同的
α 和 b,也就是说有不同的样本回归线随机
因素的存在表明, 给定任何一个 x值就可能有
许多 y 的观察值 。
进行回归分析时对于 y 的变异性是有前提
假定的,这些假定是,
? y 是一个随机变量,亦即 e 是随机变量 ;
? 给定一个 x值时,y 分布是正态的,影响 y
的其他因素的作用一般趋于互相抵消,因
此,E(e)=O,y 的平均值就在给定 x 值的
回归线上 ;
? 在任何 x值上, y 分布的方差 ( 及标准差 )
相等 。
一元线性回归标准差计算公式如下,
(式10-2)
置信区间
一元线性回归 的 置信 概率可查 t分布的双侧检验表,取置
信概率为1- α = 95%时,t0.05=2.365
则预测区间为,
y土 t0.05× S = 16.67土 2.365× 0.659 = 151.11--182.28
即预测 2004年耐用商品销售额在 151.11 万元至 182.28
万元的概率为 95% 。
预测 区间的大小与置信概率的大小为同向关系,概率取
得越高, 预测区间就越大 。 但是如果预测区间过宽, 就会
使预测结果失去意义 。
一、二元线性回归
设某国每年小麦出口量的增长率和该年小麦产量的增长率及
出口税率有线性关系,其 1994-2003 年的样本数据如图表所示。
利用图表 144 的数据,求样 本回归方程,
解,为了确定回归系数要求先求回归方程,为此,需要用 1994-2003年
小麦出口量年增长率与产量年增长率及出口税率回归分析计算表,
10.4回归模型的统计检验
一,简单相关检验
? 变量与之间是否存在线性相关的问题,可以
通过散点图用目测的方法解决,但既不精确
也不方便。现在用一种量化指标,来较精
确地描述两变量间的线性相关的密切程度,
这个指标称为简单相关系数- r,其计算公
式是:
二, F 检验
要判定回归方程在整体上是否显著
成立, 即用所配合的回归方程来解释
因变量的变化是否有效, 此时可用 F
检验法 。
F 检验法的步骤如下,
1,计算剩余平方和 S余,
S余 =Σ (yi - yi ) 2
式中,yi 为观察值,yi为拟合值
2,计算回归平方和 S回,
S回 = Σ (yi - yi ) 2
3,计算统计量 F 的值,
F= S回 / m/ S余 / (n-m-1)
式中 m 为回归方程中自变量个数。
4,查表检验显著性,
按显著性水平 α 查 F 分布表,得到临界值 Fα,如果 F> Fα,
则认为回归效果显著,否则即认为回归效果不显著。
对 上 例的回归方程做 F 检验
1.计算剩余平方和, S余 = Σ (yi - yi) 2 =2.0415
2.计算回归平方和, S回 = Σ (yi - yi ) 2 =112.49355
3.计算 F 值 (因为是一元线性回归,只有一个自变量,所
以 m = 1)
F= S回 / m/ S余 / (n-m-1)
= 112.4935/2.0415/7=385.72
4.查表检验显著性,
取显著性水平 α =0.05; m=1,第二自由度 n-m-1=7 。 查 F
分布表得 临界值 F0.05=5.59
因为 F=385.72>5.59,所以回归效果显著 。
四,t 检验
判定回归方程中系数 ( 参数 ) 的作用是否显著,可用 t
检验法。在多元回归中,如果某个自变量 X对因变量 y 的作用
不显著, 则该 X 前的系数就可视为 0。但需要注意, 回归系数
同 0的差异是否显著, 不能根据系数绝对值的大小来判断, 而
要根据统计假设检验的理论进行检验, 因为系数值的大小要受
变量计量单位的影响。如 上 例中得到的回归方程,自变量 x前
的系数是 2.9303,倘若把 x的单位由百元改为千元,则 x前的系
数就要缩小 10倍, 成为 0.29303,但实际上它们的作用完全是
等价的。
对于一元回归问题, 回归系数的 t 检验
和前述相关系数检验及回归方程检验的作用
是一致的, 只要检验其中之一就可以了。但
在多元回归中就不同, 要对各个 x前的回归系
数逐一进行统计检验,这时回归系数的检验就
显得很重要,不能用前 述的F检验和相关检验,
只能用 t检验,t检验的步骤如下: