第七章 相关与回归分析 [教学目的]: 1、理解相关与回归分析的概念与种类; 2、熟练掌握相关系数的计算方法; 3、熟练掌握回归分析和一元线性回归的分析方法。 [教学重点与难点]: 1、相关关系的判断与计算; 2、一元线性回归分析方法 [教学时数]:6课时 §1、相关与回归分析的意义和任务 一、函数关系与相关关系 (一)、函数关系:指客观现象之间确实存在的,且在数量上表现为确定性的相互依存关系。 (二)、相关关系: 指客观现象之间确实存在的,但在数量上表现为不确定的相互依存关系。 (三)、区别与联系: 1、区别:相关关系数量不确定,函数关系数量是确定的; 2、联系:函数关系往往通过相关关系表现出来,相关关系的研究中常常使用函数关系的方式。 二、相关关系的种类: (一)、按相关程度划分: 完全相关:指某变量的变化,另一变量有一确定的值对它对应。(函数); 不完全相关:指两个变量之间有数量联系,但是数量是不确定的关系。 零相关:指两个现象在数量上完全独立,在一定的形式下,互不影响,互不相干的关系。 (“零相关”不能称为“不相关”,因为事物的联系是绝对的,而孤立是相对的,只有在某种形式下它才能互不影响,互不相干。) (二)、按相关的方向划分: 1、正相关:指两个变量按照相同的变量变化。或者说某个现象的数量增加,另一个现象的数量增加的现象。 2、负相关:指两个变量按照相反的方向变化,或者说某个现象的数量增加,另一个现象的数量减少的现象。 (三)、按相关形式划分: 1、线性相关:指两个变量之间呈线性关系的相关。 非线性相关:指变量之间的关系为非线性的相关关系。 (四)、按变量多少划分:单相关;复相关;偏相关。 1、单相关:指两个因素之间的相关关系。 2、复(多)相关:指三个或三个以上的因素之间的相关关系。 偏相关:指在某一现象和多种现象相关的场合,假定其他变量不变,而对其中的两个变量的相关关系。 (五)、按相关性质划分: 1、真实相关:现象之间的相关确定具有内在联系的相关。 2、虚假相关:现象之间只是表面存在,实质上并没有内在联系的相关。 三、相关分析与回归分析 (一)、相关分析:用一个指标来表明现象间依存关系的密切程度。 (二)、回归分析:根据相关关系的具体形态,选择一个合适的数学模型,来近似地表达变量间的平均变化关系。(回归:是英国统计学家道尔顿提出,是由研究人的身高开始的,他发现父母的身高与子女的身高有一定关系,父母高的子女反而矮一些,父母矮的子女反而高一些,他称这种现象为回归,此后用他的思想来研究问题。) (三)、两者的联系与区别: 1、联系:(1)、相关分析要依靠回归分析来表现现象数量相关的具体形式; (2)、回归分析必须依靠相关关系来表明变量之间的密切程度。 从广义上讲,回归分析就是相关分析,从狭义上讲,相关关系只需确定变量间的关系,而回归分析还要在此基础上找了数学模型。 2、区别:(1)、相关分析不说明谁是自变量,谁是因变量,而回归分析必须首先要确定谁是自变量,谁是因变量,不能颠倒。 (2)、相关分析中的每一个变量都是随机的;回归分析中自变量是一般变量,因变量是随机变量。 3、局限性:现象之间是否存在真实相关,必须由相关学科来确定,因此,相关与回归必须要在定性分析前提下进行,不能进行纯数量的计算。 §2、简单线性相关分析 一、相关表与相关图 (一)、相关表的类型: 1、简单相关表,按一个变量排列的。 2、分组相关表,将其中一个变量先进行分组,然后再排队。 (二)、相关图及类型: 1、简单相关图; 2、分组相关图。 一、相关系数的测定与应用:(r) (一)、概念:指表明现象之间客观存在的密切关系和程度的指标。 1、此处的“相关”指的是直线相关(或线性相关); 2、描述现象之间相关程度的指标有很多,这只是其中一种。(其它还有如关联系数、距离系数等) (二)、公式: (三)、评价: 1、已知0≤︱r︱≤1 ①r>0时,叫正相关; ②r<0时,叫负相关; ③r=0时,叫零相关。 2、︱r︱越趋于1,x、y相关越密切,越趋于0,x、y相关越不密切。 3、︱r︱=1,x、y完全相关,即x、y是函数关系; 4、 ①︱r︱∈ (0,0.4) 时,称为低度相关; ②︱r︱∈(0.4,0.7)时,称为显著相关; ③︱r︱∈(0.7,1)时,称为高度相关。 二、相关系数与回归估计标准差和回归系数之间的关系。 通常情况下R不带“±”号,此时称R为相关指数,或可决系数。 其“±”号由b确定:b为 “+” 时,R为正;b为“—”时,R为负。 §3、一元线性回归分析 一、概念:又叫直线回归,是指两个变量之间是直线关系的模型拟合。 二、模型拟合: (一)、确定模型方程:y=a+bx; (二)、选定拟合方法——最小二乘法(最小平方法) (三)、计算a、b(待定系数) (四)、a、b意义:a——指直线的截距,表明回归直线的起始值或现象的起点。 b——指回归直线的斜率或回归系数。其经济意义为自变量X每增加一个单位,因变量y平均变化的数量,b为正表明现象之间为正查关,b为负表明现象之间为负相关。 §4、回归估计标准差(Syc) 一、概念:简称回归标准差,是指实际值y与估计值yc之间的逆差的平方和的平方根。通常用Syc表示。 二、简单直线回归估计标准误差的测定: 三、Syc的作用:从拟合函数关系上反映变量之间的相互关系的密切程度。 四、评价: Syc越大,拟合程度越差;Syc越大,拟合程度越好。