第七章 相关与回归分析
[教学目的]: 1、理解相关与回归分析的概念与种类;
2、熟练掌握相关系数的计算方法;
3、熟练掌握回归分析和一元线性回归的分析方法。
[教学重点与难点]: 1、相关关系的判断与计算;
2、一元线性回归分析方法
[教学时数]:6课时
§1、相关与回归分析的意义和任务
一、函数关系与相关关系
(一)、函数关系:指客观现象之间确实存在的,且在数量上表现为确定性的相互依存关系。
(二)、相关关系: 指客观现象之间确实存在的,但在数量上表现为不确定的相互依存关系。
(三)、区别与联系:
1、区别:相关关系数量不确定,函数关系数量是确定的;
2、联系:函数关系往往通过相关关系表现出来,相关关系的研究中常常使用函数关系的方式。
二、相关关系的种类:
(一)、按相关程度划分:
完全相关:指某变量的变化,另一变量有一确定的值对它对应。(函数);
不完全相关:指两个变量之间有数量联系,但是数量是不确定的关系。
零相关:指两个现象在数量上完全独立,在一定的形式下,互不影响,互不相干的关系。
(“零相关”不能称为“不相关”,因为事物的联系是绝对的,而孤立是相对的,只有在某种形式下它才能互不影响,互不相干。)
(二)、按相关的方向划分:
1、正相关:指两个变量按照相同的变量变化。或者说某个现象的数量增加,另一个现象的数量增加的现象。
2、负相关:指两个变量按照相反的方向变化,或者说某个现象的数量增加,另一个现象的数量减少的现象。
(三)、按相关形式划分:
1、线性相关:指两个变量之间呈线性关系的相关。
非线性相关:指变量之间的关系为非线性的相关关系。
(四)、按变量多少划分:单相关;复相关;偏相关。
1、单相关:指两个因素之间的相关关系。
2、复(多)相关:指三个或三个以上的因素之间的相关关系。
偏相关:指在某一现象和多种现象相关的场合,假定其他变量不变,而对其中的两个变量的相关关系。
(五)、按相关性质划分:
1、真实相关:现象之间的相关确定具有内在联系的相关。
2、虚假相关:现象之间只是表面存在,实质上并没有内在联系的相关。
三、相关分析与回归分析
(一)、相关分析:用一个指标来表明现象间依存关系的密切程度。
(二)、回归分析:根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间的平均变化关系。(回归:是英国统计学家道尔顿提出,是由研究人的身高开始的,他发现父母的身高与子女的身高有一定关系,父母高的子女反而矮一些,父母矮的子女反而高一些,他称这种现象为回归,此后用他的思想来研究问题。)
(三)、两者的联系与区别:
1、联系:(1)、相关分析要依靠回归分析来表现现象数量相关的具体形式;
(2)、回归分析必须依靠相关关系来表明变量之间的密切程度。
从广义上讲,回归分析就是相关分析,从狭义上讲,相关关系只需确定变量间的关系,而回归分析还要在此基础上找了数学模型。
2、区别:(1)、相关分析不说明谁是自变量,谁是因变量,而回归分析必须首先要确定谁是自变量,谁是因变量,不能颠倒。
(2)、相关分析中的每一个变量都是随机的;回归分析中自变量是一般变量,因变量是随机变量。
3、局限性:现象之间是否存在真实相关,必须由相关学科来确定,因此,相关与回归必须要在定性分析前提下进行,不能进行纯数量的计算。
§2、简单线性相关分析
一、相关表与相关图
(一)、相关表的类型:
1、简单相关表,按一个变量排列的。
2、分组相关表,将其中一个变量先进行分组,然后再排队。
(二)、相关图及类型:
1、简单相关图;
2、分组相关图。
一、相关系数的测定与应用:(r)
(一)、概念:指表明现象之间客观存在的密切关系和程度的指标。
1、此处的“相关”指的是直线相关(或线性相关);
2、描述现象之间相关程度的指标有很多,这只是其中一种。(其它还有如关联系数、距离系数等)
(二)、公式:
(三)、评价: 1、已知0≤︱r︱≤1
①r>0时,叫正相关;
②r<0时,叫负相关;
③r=0时,叫零相关。
2、︱r︱越趋于1,x、y相关越密切,越趋于0,x、y相关越不密切。
3、︱r︱=1,x、y完全相关,即x、y是函数关系;
4、 ①︱r︱∈ (0,0.4) 时,称为低度相关;
②︱r︱∈(0.4,0.7)时,称为显著相关;
③︱r︱∈(0.7,1)时,称为高度相关。
二、相关系数与回归估计标准差和回归系数之间的关系。
通常情况下R不带“±”号,此时称R为相关指数,或可决系数。
其“±”号由b确定:b为 “+” 时,R为正;b为“—”时,R为负。
§3、一元线性回归分析
一、概念:又叫直线回归,是指两个变量之间是直线关系的模型拟合。
二、模型拟合:
(一)、确定模型方程:y=a+bx;
(二)、选定拟合方法——最小二乘法(最小平方法)
(三)、计算a、b(待定系数)
(四)、a、b意义:a——指直线的截距,表明回归直线的起始值或现象的起点。
b——指回归直线的斜率或回归系数。其经济意义为自变量X每增加一个单位,因变量y平均变化的数量,b为正表明现象之间为正查关,b为负表明现象之间为负相关。
§4、回归估计标准差(Syc)
一、概念:简称回归标准差,是指实际值y与估计值yc之间的逆差的平方和的平方根。通常用Syc表示。
二、简单直线回归估计标准误差的测定:
三、Syc的作用:从拟合函数关系上反映变量之间的相互关系的密切程度。
四、评价: Syc越大,拟合程度越差;Syc越大,拟合程度越好。