第7章 相关与回归分析 【学习目标】 本章主要介绍了相关分析和回归分析的基本理论。包括确定相关关系的判别方法以及配合回归直线及曲线的条件,掌握建立回归方程和相关回归分析需要注意的问题,达到学会预测的目的等。 【基本要求】 通过本章的学习,使学习者理解相关分析和回归分析的概念,明确相关关系的判别方法:定性判断和定量判断;掌握配合回归直线方程的条件建立回归方程的方法,学会预测,为经济管理服务等。 【学习内容】 相关与回归(Correlation and Regression)是现代统计学中非常重要的内容,相关与回归分析是处理变量数据之间相关关系的一种统计方法。通过相关分析,可以判断两个或两个以上的变量之间是否存在相关关系、相关关系的方向、形态及相关关系的密切程度;回归分析是对具有相关关系现象间数量变化的规律性进行测定,确立一个回归方程式,即经验公式,并对所建立的回归方程式的有效性进行分析、判断,以便进一步进行估计和预测。现在,相关与回归分析已经广泛应用到企业管理、商业决策、金融分析以及自然科学和社会科学等许多研究领域。 7.1 相关分析 7.1.1. 相关分析的概念、种类 1. 相关分析的概念 现实世界中的各种现象之间相互联系、相互制约、相互依存,某些现象发生变化时,另一现象也随之发生变化。如商品价格的变化会刺激或抑制商品销售量的变化;劳动力素质的高低会影响企业的效益;直接材料、直接人工的价格变化对产品销售成本有直接的影响,居民收入的高低会影响对该企业产品的需求量等等。研究这些现象之间的依存关系,找出它们之间的变化规律,是对经搜集、整理过的统计数据进行数据分析,为客观、科学地统计提供依据。 现象间的依存关系大致可以分成两种类型: 一类是函数关系,另一类是相关关系。 (1).函数关系。函数是指现象之间是一种严格的确定性的依存关系。表现为某一现象发生变化另一现象也随之发生变化,而且有确定的值与之相对应。例如,银行的1年期存款利率为年息1.98%,存入的本金用x表示,到期本息用y表示,则y=x+1.98%x(不考虑利息税);再如,某种股票的成交额Y与该股票的成交量X、成交价格P之间的关系可以用Y=PX来表示,这都是函数关系。 (2).相关关系。相关关系是指客观现象之间确实存在的,但数量上不是严格对应的依存关系。在这种关系中,对于某一现象的每一数值,可以有另一现象的若干数值与之相对应。例如成本的高低与利润的多少有密切关系,但某一确定的成本与相对应的利润却是不确定的。这是因为影响利润的因素除了成本外,还有价格、供求平衡、消费嗜好等因素以及其他偶然因素的影响;再如,生育率与人均GDP的关系也属于典型的相关关系:人均GDP高的国家,生育率往往较低,但二者没有惟一确定的关系,这是因为除了经济因素外,生育水平还受教育水平、城市化水平以及不易测量的民族风俗、宗教和其他随机因素的共同影响。 具有相关关系的某些现象可表现为因果关系,即某一或若干现象的变化是引起另一现象变化的原因,它是可以控制、给定的值,将其称为自变量;另一个现象的变化是自变量变化的结果,它是不确定的值,将其称为因变量。如资金投入与产值之间,前者为自变量,后者为因变量。但具有相关关系的现象并不都表现为因果关系,如生产费用和生产量、商品的供求与价格等。这是由于相关关系比因果关系包括的范围更广泛。 相关关系和函数关系既有区别,又有联系。有些函数关系往往因为有观察或测量误差以及各种随机因素的干扰等原因,在实际中常常通过相关关系表现出来;而在研究相关关系时,其数量间的规律性了解得越深刻的时候,则相关关系越有可能转化为函数关系或借助函数关系来表现。 2. 相关关系类型 现象之间的相关关系从不同的角度可以区分为不同类型。 (1). 按照相关关系涉及变量(或因素)的多少分为 单相关——又称一元相关,是指两个变量之间的相关关系,如广告费支出与产品销售量之间的相关关系; 复相关——又称多元相关,是指三个或三个以上变量之间的相关关系,如商品销售额与居民收入、商品价格之间的相关关系。 偏相关——在一个变量与两个或两个以上的变量相关的条件下,当假定其他变量不变时,其中两个变量的相关关系称为。例如,在假定商品价格不变的条件下,该商品的需求量与消费者收入水平的相关关系即为偏相关。 (2). 按照相关形式不同分为 线性相关——又称直线相关,是指当一个变量变动时,另一变量随之发生大致均等的变动,从图形上看,其观察点的分布近似地表现为一条直线;例如,人均消费水平与人均收入水平通常呈线性关系。 非线性相关——一个变量变动时,另一变量也随之发生变动,但这种变动不是均等的,从图形上看,其观察点的分布近似地表现为一条曲线,如抛物线、指数曲线等,因此也称曲线相关。例如,工人加班加点在一定数量界限内,产量增加,但一旦超过一定限度,产量反而可能下降,这就是一种非线性关系。 (3). 按照相关现象变化的方向不同分为 正相关——当一个变量的值增加或减少,另一个变量的值也随之增加或减少。如工人劳动生产率提高,产品产量也随之增加;居民的消费水平随个人所支配收入的增加而增加。 负相关——当一个变量的值增加或减少时,另一变量的值反而减少或增加。如商品流转额越大,商品流通费用越低;利润随单位成本的降低而增加。 (4). 按相关程度分为 完全相关——当一个变量的数量完全由另一个变量的数量变化所确定时,二者之间即为完全相关。例如,在价格不变的条件下,销售额与销售量之间的正比例函数关系即为完全相关,此时相关关系便成为函数关系,因此也可以说函数关系是相关关系的一个特例。 不完全相关——又称零相关,当变量之间彼此互不影响,其数量变化各自独立时,则变量之间为不相关。例如,股票价格的高低与气温的高低一般情况下是不相关的。 不相关——如果两个变量的关系介于完全相关和不相关之间,称为不完全相关。由于完全相关和不相关的数量关系是确定的或相互独立的,因此统计学中相关分析的主要研究对象是不完全相关。 7.1.2. 相关关系的测定 要判别现象之间有无相关关系,一是定性分析,二是定量分析。 1. 定性分析 定性分析是依据研究者的理论知识、专业知识和实践经验,对客观现象之间是否存在相关关系,以及有何种相关关系做出判断。并可在定性认识的基础上,编制相关表、绘制相关图,以便直观地判断现象之间相关的方向、形态及大致的密切程度。 (1).相关表 相关表是一种统计表。它是直接根据现象之间的原始资料,将一变量的若干变量值按从小到大的顺序排列,并将另一变量的值与之对应排列形成的统计表。 例7–1 某财务软件公司在全国有许多代理商,为研究它的财务软件产品的广告投入与销售额的关系,统计人员随机选择10家代理商进行观察,搜集到年广告投入费和月平均销售额的数据,并编制成相关表,见表7–1。 表7–1 广告费与月平均销售额相关表 单位:万元 年广告费投入 月均销售额  12.5 15.3 23.2 26.4 33.5 34.4 39.4 45.2 55.4 60.9 21.2 23.9 32.9 34.1 42.5 43.2 49.0 52.8 59.4 63.5   从表中可以直观地看出,随着广告投入的增加,销售量增加,两者之间存在一定的正相关关系。 (2).相关图 相关图又称散点图,它是用直角坐标系的x轴代表自变量,y轴代表因变量,将两个变量间相对应的变量值用坐标点的形式描绘出来,用以表明相关点分布状况的图形。根据表7–1的资料可以绘制相关图如图7–1。 图7–1 广告投入与销售额的相关图 从相关图可以直观地看出,年广告费投入与月平均销售额之间相关密切,且有线性正相关关系。 2. 定量分析–––相关系数 相关表和相关图可反映两个变量之间的相互关系及其相关方向,但无法确切地表明两个变量之间相关的程度。著名统计学家卡尔·皮尔逊设计了统计指标 ––– 相关系数。相关系数是用以反映变量之间相关关系密切程度的统计指标。依据相关现象之间的不同特征,其统计指标的名称有所不同。如将反映两变量间线性相关关系的统计指标称为相关系数(相关系数的平方称为判定系数);将反映两变量间曲线相关关系的统计指标称为非线性相关系数、非线性判定系数;将反映多元线性相关关系的统计指标称为复相关系数、复判定系数等。这里只介绍相关系数。 相关系数用r表示,它的基本公式为:  (7–1) 相关系数的值介于–1与+1之间,即–1≤r≤+1。其性质如下: (1).当r>0时,表示两变量正相关,r<0时,两变量为负相关。 (2).当|r|=1时,表示两变量为完全线性相关,即为函数关系。 (3).当r=0时,表示两变量间无线性相关关系。 (4).当0<|r|<1时,表示两变量存在一定程度的线性相关。且|r|越接近1,两变量间线性关系越密切;|r|越接近于0,表示两变量的线性相关越弱。 (5).一般可按三级划分:|r|<0.4为低度线性相关;0.4≤|r|<0.7为显著性相关;0.7≤|r|<1为高度线性相关。 根据表7–1的资料,可计算相关系数如表7–2: 表7–2 相关系数计算表 序号 广告投入(万元) x 月均销售额(万元) y x2 y2 xy  1 2 3 4 5 6 7 8 9 10 12.5 15.3 23.2 26.4 33.5 34.4 39.4 45.2 55.4 60.9 21.2 23.9 32.9 34.1 42.5 43.2 49.0 52.8 59.4 63.5 156.25 234.09 538.24 696.96 1122.25 1183.36 1552.36 2043.04 3069.16 3708.81 449.44 571.21 1082.41 1162.81 1806.25 1866.24 2401.00 2787.84 3528.36 4032.25 265.00 365.67 763.28 900.24 1423.75 1486.08 1930.60 2386.56 3290.76 3867.15  合计 346.2 422.5 14304.52 19687.81 16679.09   相关系数为0.9942,说明广告投入费与月平均销售额之间有高度的线性正相关关系。 这里需要指出的是,相关系数有一个明显的缺点,即它接近于1的程度与数据组数n相关,这容易给人一种假象。因为,当n较小时,相关系数的波动较大,对有些样本相关系数的绝对值易接近于1;当n较大时,相关系数的绝对值容易偏小。特别是当n=2时,相关系数的绝对值总为1。因此在样本容量n较小时,我们仅凭相关系数较大就判定变量x与y之间有密切的线性关系是不妥当的。例如,笔者曾就我国深沪两股市资产负债率与每股收益之间的相关关系做过研究。发现1999年资产负债率前40名的上市公司,二者的相关系数为r = –0.6139;资产负债率后20名的上市公司,二者的相关系数r = 0.1072;而对于沪、深全部上市公司(基金除外)结果却是,r沪 = –0.5509,r深 = –0.4361,根据三级划分方法,两变量为显著性相关。这也说明仅凭r的计算值大小判断相关程度有一定的缺限。 本书附表中有相关系数检验表,表中是相关系数绝对值的临界值。当计算出的变量x与y的相关系数绝对值大于表中临界值时,才可以判定x与y有线性关系。通常,当|r|大于表中α=5%相应的值,但小于表中α=1%相应的值时,称x与y有显著的线性关系;当|r|大于表中α=1%相应的值时,称x与y有高度的线性关系;如果|r|小于表中α=5%相应的值时,就判定x与y没有明显的线性关系。这种检验方法通常称临界值法,即比较|r|与r(α,n–2)的关系。 在此例中n=10,表中α=5%(n–2=8)相应的值为0.632,α=1%相应的值为0.765,r=0.9947>0.765。因此,年广告费投入与月平均销售额之间有高度的线性相关。 7.1.3. 相关分析中应注意的问题 1. 相关系数不能解释两变量间的因果关系 相关系数只是表明两个变量间互相影响的程度和方向,它并不能说明两变量间是否有因果关系,以及何为因,何为果,即使是在相关系数非常大时,也并不意味着两变量间具有显著的因果关系。例如,根据一些人的研究,发现抽烟与学习成绩有负相关关系,但不能由此推断是抽烟导致了成绩差。 因与果在很多情况下是可以互换的。如研究发现收入水平与股票的持有额正相关,并且可以用收入水平作为解释股票持有额的因素,但是否存在这样的情况,你赚的钱越多,买的股票也越多,而买的股票越多,赚的钱也就越多,何为因?何为果?众所周知,经济增长与人口增长相关,可是究竟是经济增长引起人口增长,还是人口增长引起经济增长呢?不能从相关系数中得出结论。 2. 警惕虚假相关导致的错误结论 有时两变量之间并不存在相关关系,但却可能出现较高的相关系数。 如存在另一个共同影响两变量的因素。在时间序列资料中往往就会出现这种情况,有人曾对教师薪金的提高和酒价的上涨作了相关分析,计算得到一个较大的相关系数,这是否表明教师薪金提高导致酒的消费量增加,从而导致酒价上涨呢?经分析,事实是由于经济繁荣导致教师薪金和酒价的上涨,而教师薪金增长和酒价之间并没有什么直接关系。 原因的混杂也可能导致错误的结论。如有人做过计算,发现在美国经济学学位越高的人,收入越低,笼统地计算学位与收入之间的相关系数会得到负值。但分别对大学、政府机构、企业各类别计算学位与收入之间的相关系数得到的则是正值,即对同一行业而言,学位高,收入也高。 另外,注意不要在相关关系据以成立的数据范围以外,推论这种相关关系仍然保持。雨下的多,农作物长的好,在缺水地区,干旱季节雨是一种福音,但雨量太大,却可能损坏庄稼。又如,广告投入多,销售额上涨,利润增加,但盲目加大广告投入,却未必使销售额再增长,利润还可能减少。正相关达到某个极限,就可能变成负相关。这个道理似乎人人都明白,但在分析问题时却容易忽视。 7.2 一元线性回归分析 7.2.1. 什么是回归分析 “回归”一词是由英国生物学家F.Galton在研究人体身高的遗传问题时首先提出的。根据遗传学的观点,子辈的身高受父辈影响,以X记父辈身高,Y记子辈身高。虽然子辈身高一般受父辈影响,但同样身高的父亲,其子身高并不一致,因此,X和Y之间存在一种相关关系。一般而言,父辈身高者,其子辈身高也高,依此推论,祖祖辈辈遗传下来,身高必然向两极分化,而事实上并非如此,显然有一种力量将身高拉向中心,即子辈的身高有向中心回归的特点。“回归”一词即源于此。虽然这种向中心回归的现象只是特定领域里的结论,并不具有普遍性,但从它所描述的关于X为自变量,Y为不确定的因变量这种变量间的关系看,和我们现在的回归含义是相同的。不过,现代回归分析虽然沿用了“回归”一词,但内容已有很大变化,它是一种应用于许多领域的广泛的分析研究方法,在经济理论研究和实证研究中也发挥着重要的作用。 回归分析通过一个变量或一些变量的变化解释另一变量的变化。其主要内容和步骤是,首先根据理论和对问题的分析判断,将变量分为自变量和因变量;其次,设法找出合适的数学方程式(即回归模型)描述变量间的关系;由于涉及到的变量具有不确定性,接着还要对回归模型进行统计检验;统计检验通过后,最后是利用回归模型,根据自变量去估计、预测因变量。 回归有不同种类,按照自变量的个数分,有一元回归和多元回归。只有一个自变量的叫一元回归,有两个或两个以上自变量的叫多元回归;按照回归曲线的形态分,有线性(直线)回归和非线性(曲线)回归。实际分析时应根据客观现象的性质、特点、研究目的和任务选取回归分析的方法。本节仅讨论一元线性回归分析。 7.2.2. 相关与回归分析的关系 相关分析是回归分析的基础和前提,回归分析则是相关分析的深入和继续。相关分析需要依靠回归分析来表现变量之间数量相关的具体形式,而回归分析则需要依靠相关分析来表现变量之间数量变化的相关程度。只有当变量之间存在高度相关时,进行回归分析寻求其相关的具体形式才有意义。如果在没有对变量之间是否相关以及相关方向和程度做出正确判断之前,就进行回归分析,很容易造成“虚假回归”。与此同时,相关分析只研究变量之间相关的方向和程度,不能推断变量之间相互关系的具体形式,也无法从一个变量的变化来推测另一个变量的变化情况,因此,在具体应用过程中,只有把相关分析和回归分析结合起来,才能达到研究和分析的目的。 二者的区别主要体现在以下三个方面: (1).在相关分析中涉及的变量不存在自变量和因变量的划分问题,变量之间的关系是对等的;而在回归分析中,则必须根据研究对象的性质和研究分析的目的,对变量进行自变量和因变量的划分。因此,在回归分析中,变量之间的关系是不对等的。 (20.在相关分析中所有的变量都必须是随机变量;而在回归分析中,自变量是给定的,因变量才是随机的,即将自变量的给定值代入回归方程后,所得到的因变量的估计值不是惟一确定的,而会表现出一定的随机波动性。 (3).相关分析主要是通过一个指标即相关系数来反映变量之间相关程度的大小,由于变量之间是对等的,因此相关系数是惟一确定的。而在回归分析中,对于互为因果的两个变量 (如人的身高与体重,商品的价格与需求量),则有可能存在多个回归方程。 需要指出的是,变量之间是否存在“真实相关”,是由变量之间的内在联系所决定的。相关分析和回归分析只是定量分析的手段,通过相关分析和回归分析,虽然可以从数量上反映变量之间的联系形式及其密切程度,但是无法准确判断变量之间内在联系的存在与否,也无法判断变量之间的因果关系。因此,在具体应用过程中,一定要始终注意把定性分析和定量分析结合起来,在准确的定性分析的基础上展开定量分析。 7.2.3. 一元线性回归(Simple Linear Regression)模型 对于具有线性相关关系的两个变量,由于有随机因素的干扰,两变量的线性关系中应包括随机误差项,即有:  对于x某一确定的值,其对应的y值虽有波动,但随机误差的期望值为零,即E () = 0,因而从平均意义上说(记E (y)为y),总体线性回归方程为:  我们可通过样本观察值计算a、b,用它对(6–2)式中的参数α、β作出估计,即求样本回归方程,用它对总体线性回归方程进行估计。样本回归直线方程又称一元线性回归方程,其表达形式为:  (7–2) 式中:表示因变量的估计值(回归理论值);a,b是待定参数,其中a是回归直线的起始值(截距),即x为0时的值,从数学意义上理解,它表示在没有自变量x的影响时,其它各种因素对因变量y的平均影响;b是回归系数(直线的斜率),表示自变量x每变动一个单位时,因变量y平均变动b个单位。 一元线性回归方程中的待定参数是根据数据资料求出的。其计算公式为:(由于本书旨在介绍该种方法在统计中的应用,故数学推导过程略)。   当a、b求出后,一元线性回归方程yc = a + bx便可确定了。 例7–2 江海电器有限公司2001年1-10月份产量与制造费用资料见表7–3。 解:分析制造费用对产量之间的数量关系。设回归方程为y= a+bx,x为产量,y为制造费用,计算如下表7–3。 表7–3 成本回归分析计算表 月份 产量(件) x 制造费用(元) y x2(104) y2(104) xy(104)  1 2 3 4 5 6 7 8 9 10 36000 40500 42700 45800 46000 48500 52300 54000 55800 59000 52500 54300 56400 61500 58500 61300 63800 66000 67050 68900 129600 164025 182329 209764 211600 235225 273529 291600 311364 348100 275625 294849 318096 378225 342225 375769 407044 435600 449570.3 474721 189000 219915 240828 281670 269100 297305 333674 356400 374139 406510  合计 480600 610250 2357136 3751724 2968541   利用表7–3中数据和公式(7–3),a=24821.62 b=0.753171 故有制造费用对产量的回归方程y=24827.62+0.753171x。 如果我们相信,应用最小二乘法估计的回归方程能满意地描述x、y之间的关系,那么对于一个已知的x值,去统计预测y的值将是合理的。 7.2.4. 回归估计标准误差 回归方程的一个重要作用在于根据自变量的已知值估计因变量的理论值(估计值)。而理论值yc与实际值y存在着差距,这就产生了推算结果的准确性问题。如果差距小,说明推算结果的准确性高;反之,则低。为此,分析理论值与实际值的差距很有意义。为了度量y的实际水平和估计值离差的一般水平,可计算估计标准误差。估计标准误差是衡量回归直线代表性大小的统计分析指标,它说明观察值围绕着回归直线的变化程度或分散程度。 1. 估计标准误差的计算 通常用Se代表估计标准误差,其计算公式为:  (7–4) 用表7–3的资料说明估计平均误差的计算方法。可列出计算表7–4。 表7–4 估计平均误差计算表 月份 x Y yc y- yc (y- yc)2  1 2 3 4 5 6 7 8 9 10 36000 40500 42700 45800 46000 48500 52300 54000 55800 59000 52500 54300 56400 61500 58500 61300 63800 66000 67050 68900 51941.76 55331.03 56988.01 59322.83 59473.47 61356.4 64218.44 65498.83 66854.54 69264.69 558.24 –1031.03 –588.05 2177.17 –973.47 –56.40 –418.44 501.17 195.46 –364.69 311629.3 1063023.0 345750.4 4740050 947641 3180.4 175094.9 251167.9 38204.37 132996.3   将计算表的有关资料代入公式(7–4)得:  结果表明估计标准差是1000.546元。 2. 回归估计标准差与一般标准差 回归估计标准差与第五章介绍的标准差的计算原理是一致的,两者都是反映平均差异程度和表明代表性的指标。一般标准差反映的是各变量值与其平均数的平均差异程度,表明其平均数对各变量值的代表性强弱;回归标准误差反映的是因变量各实际值与其估计值之间的平均差异程度,表明其估计值对各实际值的代表性强弱,其值越小,估计值yc(或回归方程)的代表性越强,用回归方程估计或预测的结果越准确。上述的计算结果1000.546元表明实际成本总额与估计的成本总额之间的平均相差1000.546元。 7.3 回归方程的显著性检验 当我们得到一个实际问题的经验回归方程yc=a+bx后,还不能用它去进行经济分析和预测,因为yc=a+bx是否真正描述了变量y与x之间的统计规律性,还需运用统计方法对回归方程进行检验。下面介绍两种统计方法: 7.3.1. F检验 F检验是检验回归方程是否真正线性相关的一种方法,它是建立在对总离差平方和分解的基础上进行的。 回归分析表明,因变量y的实际值(观察值)有大有小、上下波动,对每一个观察值来说,波动的大小可用离差()来表示。离差产生的原因有两个方面:一是受自变量x变动的影响;二是受其它因素的影响(包括观察或实验中产生的误差的影响)。n个观察值总的波动大小用总离差平方和表示。 从图7–2可以看出,每个观察点的离差可以分解为两部分,即:  其中:()为剩余离差;()为回归离差。 将上式两边平方,然后对所有的n点求和,则有:  图7–2 式中:交错的乘积项等于零,因而总离差平方和为:  即 总离差平方和 = 剩余平方和 + 回归平方和 剩余平方和又称残差平方和,它反映了自变量x对因变量y的线性影响之外的一切因素(包括x对y的非线性影响和测量误差等)对因变量y的作用。 回归平方和表示在总离差平方和中,由于x与y的线性关系而引起因变量y变化的部分。 上式可写成:Lyy = Q + U 其中     每个平方和都有一个自由度同它相联系。正如总离差平方和可以分解成剩余平方和Q与回归平方和U两部分一样,总离差平方和的自由度f也等于剩余平方和的自由度fQ与回归平方和的自由度fU之和,即:f = fQ + fU 其中: f = n–1 fQ = n–2 fU = f –fQ = 1 在总离差平方和Lyy中,Q大就意味着U小,U越小表示变量间线性相关性越低,当且仅当b = 0时,U是最小的。可见要检验总体两变量间是否真正线性相关,可以检验总体的回归系数β是否等于零。 提出零假设、备择假设: H0:b= 0 H1:b≠0 当x与y有线性关系时,现可以用F统计量检验零假设H0  (7–5) (证明过程从略) 其中,表示第一自由度为1,第二自由度为n–2的F分布。对于回归方程的具体检验。可放在方差分析表中。方差分析表的形式如表7–5所示。 表7–5 一元线性回归方差分析表 方差来源 平方和 自由度 F值  回 归 剩 余 总 和   1 n–2 n–1   这时,若给定显著性水平α,计算 F值与查分布表得到的F值比较(α一般取0.05,0.01等,1-α表示检验的可靠度)。如果F≤Fα(1,n–2)则称变量x与y没有明显的线性关系,接受H0,说明回归方程不明著;如果F>Fα(1,n–2),则拒绝H0。说明x与y有显著的线性关系。 仍以例7–2的资料,计算见表7–3,得   且知回归系数 b=0.75371,n =10,用F检验对制造费用与产量之间的线性关系进行检验。  由于  故  将结果列入方差分析表(略) 对于给定的,查F分布表得临界值:  由于F>F0.05(1,8),所以可以认为总体两变量间的线性相关关系是显著的,所拟合的线性回归方程具有95%的可靠度(置信概率)。 7.3.2. 样本决定系数r2 由回归平方和与剩余平方和的意义我们知道,在总的离差平方和中,回归平方和所占的比重越大,则线性回归效果越好;如果残差平方和所占的比重大,则回归直线与样本观测值拟合的就不理想。这里把回归平方和与总离差平方和之比定义为样本决定系数,记作r2,且有  (7–6) 而正是相关系数r的平方。(证明略)决定系数r2是一个回归直线与样本观测值拟合优度判定的指标。r2的值总在0和1之间。一个线性回归模型如果充分利用了x的信息,则r2越大,拟合优度就越好;反之,如r2不大,说明模型中给出的x对y的信息还不够充分,应进行修改,使x对y的信息得到充分利用。 例7–2的决定系数为:r2=0.97106,这说明在y值与的偏差的平方和中有97.1%可以通过变量x来解释。 7.3.3. 预测及应用 拟合的回归直线方程经检验具有意义,就可以进行预测。预测是回归模型在统计中的重要应用。 1. 点估计 在产量与制造费用(例7–2)的研究中,估计回归方程为y = 24827.62+0.753171x,提供了产量x与制造费用y之间关系的一种估计。我们可以用回归方程来对给定某一特定x值时y的值进行点估计,或者预测某一特定x值的y值。例如,假定11月份产量是60000件,运用回归方程,我们可以得到 yc = 24827.62+0.753171×60000 = 70017.88(元)。 因此当产量为60000件时,制造费用的点估计值是70017.88元。 2. 区间估计 对于预测问题,除了知道点估计的预测值外,还希望知道预测的精度,因为点估计不能给出与估计有关的任何准确信息。比如研究产量与制造费用的关系,可建立回归方程y=a+bx,当已知产量x = x0时,要预测制造费用,即计算出点估计值,而仅知道这一数值意义不大,我们往往更希望能给出一个预测值的变动范围,即进行区间估计。而这一预测值范围比只给更可信。这个问题也就是对于给定的显著水平,找一个区间(T1,T2),使对应于某特定的x0的实际值y0以1–的置信概率被区间(T1,T2)所包含。且可以证明置信概率为(1–)的预测区间为 ()  为的标准差,为F分布表查得的临界值 令: 则预测区间为() 从上式可看到,对于给定的显著性水平α,为了提高预测精度,样本容量n应越大越好,采集数据x1,x2……xn不能太集中。在进行预测时,所给的x0不能偏离太大,太大时,预测效果肯定不好。统计预测时,当时间序列数据发生了较大变化,即要预测未来太远时,x的取值x0肯定距当时建模时采集样本的相差太大,因此再用原模型去预测肯定不准。 当样本量n较大,或较小时,我们可用近似的预测区间。置信水平为0.95与0.99的近似预测分别为:  对于例7–3的资料,和x = 60000时点估计值的计算结果,现以1–α= 0.95的置信水平进行区间估计,则: 元 元 即在置信水平为95%的条件下,预测区间为(68016.788,72018.972)。 在统计过程中,有时也会遇到一个变量受多种变量因素的共同作用。如在进行制造费用的分析时,可能受到机器工作小时和直接人工工时的共同影响,这时可根据若干历史时期的产量、成本资料,经分析、计量后,确定变动趋势。这就是多元线性回归分析法。本书对此不再介绍,只提醒读者,在进行多元分析时,也要进行各种检验,检验通过后才能进行分析预测。 回归分析方法的应用要特别注意定性分析与定量分析相结合。当现阶段的实际情况与建模时所用数据资料的背景发生较大变化时,不能机械地死套公式,这时要重新收集数据,尽可能用近期数据,以便对模型进行修改。另外,在应用回归方程作预测时,一般适用于内插预测,不大适用于外推预测。如需扩大使用范围,应有充分的理论依据或进一步的试验根据。 说明:作为数据分析工作者,如果统计功底不深厚,可以不必注意这些检验值的手工计算,因为利用现行的许多统计软件包括最普及的Excel软件都能很容易地计算出结果。只要掌握它们的意义进行正确的判断就可以了。 * 7.4 可线性化的曲线回归 实际问题中,有许多回归模型的因变量y与自变量x之间的关系都不是线性的,但y与未知参数a,b之间的关系都是线性的。注意,线性回归是针对参数而言,而不是针对自变量而言。因此,有些因变量y对自变量x的曲线关系情形我们就可以通过变量代换转换成线性的形式。具体思路是通过作散点图或定性分析认为两个变量之间存在的相关关系为曲线相关时,可先根据变量间不同类型配合一条与其相适应的回归曲线,如指数曲线、双曲线等,然后再确定回归方程中的未知参数。对于那些可线性化的回归方程,对新变量而言,线性化后的方程都为直线方程,故其参数的确定可用线性回归方程求参数的公式计算。下面给出几种常见的非线性模型及其线性化方法。 7.4.1. 可线性化的常用曲线类型 1.指数函数(见图7–3)  (7–7) 对其两边取自然对数,得 lny = lna + bx 令  则  (a) (b) 图7–3 指数函数曲线示意图 2.幂函数(见图7–4) 图7–4 幂函数曲线示意图  (7–8) 对上式两边取对数,得  令   3.双曲线函数(见图7–5) 图7–5 双曲线函数曲线示意图  (7–9) 令 ,则得  4.对数函数(见图7–6)  (7–10) 令 ,则得  图7–6 对数函数曲线示意图 5.S形曲线(见图5–7)  (7–11) 令 ,则得  图7–7 S形曲线示意图 例7–3 某电器公司生产某种电器,生产成本与月产量的数据资料如表7–6所示。 试分析生产成本与月产量之间的关系,并建立成本对产量的回归方程。 解:从生产边际分析,单位成本与产量之间成比例变动。将表7–6中数据绘制成散点图,见图7–8所示,从图中可以看出,随着产量(x)的增加,最初生产成本(y)增加很快,以后逐渐减慢并趋于稳定,因此两变量适宜用双曲线拟合。 表7–6 生产成本与月产量资料表 月产量 (件)x 生产成本 (元/件)y 月产量 (件)x 生产成本 (元/件)y  4300 4004 4300 5013 5511 5648 5876 6651 346.23 343.34 327.46 313.27 310.75 307.61 314.56 305.72 6024 6194 7558 7381 6950 6471 6354 8000 310.82 306.83 305.11 300.71 306.84 303.44 298.03 296.21   图7–8 生产成本与月产量的散点图 双曲线回归方程为:  令  则得  为确定参数a,b,列出计算表7–7。 表7–7 回归方程计算表 x y      4300 346.23 232.56 288.83 54083.29 1488789  4004 343.34 249.75 291.26 62375.19 1374733  4300 327.46 232.56 305.38 54083.29 1408078  5013 313.27 199.48 319.21 39792.81 1570423  5511 310.75 181.46 321.80 32926.02 1712543  5648 307.61 177.05 325.09 31348.06 1737381  5876 314.56 170.18 317.90 28962.53 1848355  6651 305.72 150.35 327.10 22606.12 2033344  6024 310.82 166.00 321.73 27556.88 1872380  6194 306.83 161.45 325.91 26064.99 1900505  7558 305.11 132.31 327.75 17505.97 2306021  7381 300.71 135.48 332.55 18355.64 2219541  6950 306.84 143.88 325.90 20702.86 2132538  6471 303.44 154.54 329.55 23881.26 1963560  6354 298.03 157.38 335.54 24768.83 1893683  8000 296.21 125.00 337.60 15625.00 2369680  –––– –––– 2769.44 5133.10 7669787.61 29831553      将代入回归方程,即得双曲线回归方程为:  7.4.2. 非线性判定系数 在非线性回归分析中,可用非线性判定系数来度量两变量之间非线性相关的密切程度。的变化范围介于0与1之间,越接近于1,表明变量间的非线性相关的程度越强,所配合的曲线效果越好,反之,越接近于0,表明变量间非线性相关程度越弱,所配合的曲线效果越差。的计算公式:  (7–12) 由表7–7资料列表计算如表7–8: 表7–8 计算表 yc   330.41 333.54 330.41 322.88 317.63 316.18 313.77 305.59 312.21 310.41 296.01 297.88 302.43 307.49 308.73 291.35 250.17 96.06 8.72 92.45 47.29 73.44 0.62 0.02 1.93 12.85 82.77 8.00 19.43 16.40 114.39 23.66   由表7–7和7–8中的数字资料,并由公式  得=0.7355,另外F=38.938(计算略)有F>F0.05(1,16)=4.49,表明两变量之间有显著的非线性相关关系。 对同一个问题进行模型的确定,在实际应用中,如果变化趋势不是非常明显可采用不同的模型分别进行拟合,然后比较模型各自的残差平方和,残差平方和越小,回归模型越好,另外再结合非判定系数的比较。 7.5 EXCEL在相关与回归分析中的应用 7.5.1. 相关图的绘制 将本章表7–1中的资料建立EXCEL工作表,如图7–9所示。 图7–9 表7–1的EXCEL工作表 制作相关图的步骤如下: 选择区域A1:B11,如图7–9所示; ◆点击EXCEL图表向导; ◆在“图表类型”中选择“XY散点图”;如图7–10。 图7–10 散点图的制作 ◆在“子图表类型”中选择第一种散点图,并点击“下一步”,即可得到图7–11和7–12。 图7–11 散点图的制作 图7–12 散点图的制作 ◆点击“完成”,并对图形进行修饰编辑,最后得到如图7–13所示广告投入与月平均销售额之间的散点图。  图7–13 广告投入与月平均销售额的散点图 7.5.2. 相关系数 在EXCEL中,相关系数函数和相关系数宏提供了两种计算相关系数的方法。 1. 相关系数函数 在EXCEL中,CORREL函数和PERSON函数提供了计算两个变量之间的相关系数的方法,这两个函数是等价的。与相关系数有关的函数还有RSQ(相关系数的平方,即判定系数r2)和COVAR(协方差函数)。 在这里我们以CORREL函数和表7–1中资料为例,介绍利用函数计算相关系数的方法。 ◆首先,点击EXCEL函数图钮“fx”,选择“统计”函数; ◆在统计函数点击“CORREL”,进入函数向导; 在“array1”中输入第一个变量“广告投入”的数据区域A2:A11“array2”中输入第二个变量“月均销售额”的数据区域B2:B11样,即可在当前光标所在单元格显示函数的计算结果。如图7–14 所示。 图7–14 CORREL函数计算相关系数 2. 相关系数宏 在EXCEL数据分析宏中,EXCEL专门提供了计算相关系数宏过程。利用此宏过程,可以计算多个变量之间的相关矩阵。 仍然以表7–1中资料为例,利用相关系数宏计算相关系数矩阵的过程如下: ◆点击EXCEL“工具”菜单,选择“数据分析”过程; ◆在“数据分析”宏过程中,选择“相关系数”过程。如图7–15所示; ◆在“输入区域”中输入两个变量所在区域A2:B11,数据以列排列,输出区域选择在同一工作表中的以D1:E5区域里。计算结果如图7–16所示。 图7–15 相关系数宏 图7–16 利用相关系数宏计算的相关系数矩阵 7.5.3. 回归分析宏 除了回归分析宏外,EXCEL虽然提供了9个函数用于建立回归模型和回归预测。这9个函数列于表7–9中。但EXCEL提供的回归分析宏仍然具有更方便的特点。仍以表7–1中广告投入与销售额的关系资料为例,利用一元线性回归方程确定两个变量之间的定量关系。 表7–9 用于回归分析的工作表函数 函数名 定 义  INTERCEPT 一元线性回归模型截距的估计值  SLOPE 一元线性回归模型斜率的估计值  RSQ 一元线性回归模型的判定系数(r2)  FORECAST 依照一元线性回归模型的预测值  STEYX 依照一元线性回归模型的预测值的标准误差  TREND 依照多元线性回归模型的预测值  GROWTH 依照多元指数回归模型的预测值  LINEST 估计多元线性回归模型的未知参数  LOGEST 估计多元指数回归模型的未知参数  回归宏确定两个变量之间定量关系的过程如下: 图7–17 回归分析宏过程 ◆在“工具栏”菜单“数据分析”过程中选择“回归”宏过程; ◆在“Y值输入区域”内输入B2:B11,在“X值输入区域”输入A2:A11,如果是多元线性回归,则X值的输入区就是除Y变量以外的全部解释变量; ◆选择“标志”;置信度水平为95%,输出结果选择在一张新的工作表中; ◆选择“残差分析”,并绘制回归拟合图,点击“确定”即得到图7–18所示的回归分析结果和图7–19的残差表。 图7–18 回归分析结果 图7–19 残差分析表 实训练习 【基本练习】 单项选择 1.现象之间相互依存关系的程度越高,则相关系数值( ) ①越接近于∞ ②越接近于-1 ③越接近于1 ④越接近于-1或1 2.已知变量x与y之间存在着负相关,指出下列回归方程中哪一个肯定是错误的( ) ①=–10-0.8x ②=100-1.5x ③=–150+0.9x ④=25-0.7x 3.当所有观察值y都落在回归直线=a+bx上,则x与y之间的相关系数( ) ①r=1 ②–1<r<0 ③r=1或r=–1 ④0<r<1 4.相关系数r=0,说明两个变量之间( ) ①相关程度很低 ②不存在任何相关关系 ③完全负相关 ④不存在直线相关关系 5.在回归方程=a+bx中,回归系数b表示( ) ①当x=0时y的期望值 ②x变动一个单位时y的变动总额 ③y变动一个单位时x的平均变动量 ④x变动一个单位时y的平均变动量 多项选择 1.下列现象中属于相关关系的有( ) ①压力与压强 ②现代化水平与劳动生产率 ③圆的半径与圆的面积 ④身高与体重 ⑤机械化程度与农业人口 2.销售额与流通费用率,在一定条件下存在相关关系,这种相关关系属于( ) ①正相关 ②单相关 ③负相关 ④复相关 ⑤完全相关 3.在直线相关和回归分析中( ) ①据同一资料,相关系数只能计算一个 ②据同一资料,相关系数可以计算两个 ③据同一资料,回归方程只能配合一个 ④据同一资料,回归方程随自变量与因变量的确定不同,可能配合两个 ⑤回归方程和相关系数均与自变量和因变量的确定无关 4.确定直线回归方程必须满足的条件是( ) ①现象间确实存在数量上的相互依存关系 ②相关系数r必须等于1 ③相关现象必须均属于随机现象 ④现象间存在着较密切的直线相关关系 ⑤相关数列的项数必须足够多 5.在回归分析中,确定直线回归方程的两个变量必须是( ) ①一个自变量,一个因变量 ②均为随机变量 ③对等关系 ④一个是随机变量,一个是可控变量 ⑤不对等关系 【讨论与思考】 1.相关分析与回归分析的区别和联系。 2.相关关系与函数关系的区别与联系。 【技能练习】 1.某地高校教育经费(x)与高校学生人数(y)连续六年的统计资料如表1: 表1 教育经费x(万元) 316 343 373 393 418 455  在校学生数y(万人) 11 16 18 20 22 25  要求: ①建立回归直线方程 ②估计教育经费为500万元的在校学生数。 2.在其他条件不变的情况下,某种商品的需求量(y)与该商品的价格(x)有关,现对给定时期内的价格与需求量进行观察,得到表2所示的一组数据。 表2 价格x(元) 10 6 8 9 12 11 9 10 12 7  需求量y(吨) 60 72 70 56 55 57 57 53 54 70  要求: ①计算价格与需求量之间的简单相关系数。 ②拟合需求量对价格的回归直线。 ③确定当价格为15元时,需求量的估计值 3.某公司所属8个企业的产品销售资料如下表3: 表3 企业编号 产品销售额(万元) 销售利润(万元)  1 2 3 4 5 6 7 8 170 220 390 430 480 650 950 1000 8.1 12.5 18.0 22.0 26.5 40.0 64.0 69.0  要求: ①计算产品销售额与利润额之间的相关系数。 ②确定利润额对产品销售额的直线回归方程。 ③确定产品销售额为1200万元时利润额的估计值。 【实训提示】 单项选择 1、④ 2、③ 3、③ 4、④ 5、④ 多项选择 1、②④⑤ 2、②③ 3、①④ 4、①③④⑤ 5、①④⑤ 技能练习 1、(1)b=0.0955 a=-17.91 y=-17.91+0.0955x (2)在教育经费为500万元时,在校学生数为y=-17.91+0.0955×500=29.84(万人) 2、(1)r=-0.8538 (2)b=-3.1209 a=89.74 (3)x=15 时,y=89.74-3.1209×15=42.93(吨) 3、(1)r=0.9934 (2)b=0.0742 a=-7.273 (3)x=1200时,y=-7.273+0.0742×1200=81.77(万元)