1
Journalism & Communication School
新闻传播学院新闻传播学院回归与相关分析回归与相关分析
Regression & Correlation Analysis
第九讲第九讲主讲教师:沈浩主讲教师:沈浩北京广播学院新闻传播学院北京广播学院新闻传播学院 副教授副教授北京广播学院调查统计研究所北京广播学院调查统计研究所 副所长副所长新闻传播学院新闻传播学院
2
掌握相关系数的含义、计算方法和应用掌握相关系数的含义、计算方法和应用
掌握一元线性回归的基本原理和参数的最小二乘估计方法掌握一元线性回归的基本原理和参数的最小二乘估计方法
掌握回归方程的显著性检验掌握回归方程的显著性检验
利用回归方程进行预测利用回归方程进行预测
掌握多元线性回归分析的基本方法掌握多元线性回归分析的基本方法
回归诊断和哑变量回归分析回归诊断和哑变量回归分析
用用 SPSS进行回归分析进行回归分析主要内容主要内容新闻传播学院新闻传播学院
3
什么是相关分析什么是相关分析是对两个变量间的关联(联系)程度的是对两个变量间的关联(联系)程度的 度量度量相关系数相关系数由于变量的测量等级不同,相关系数的计算方法也不同。由于变量的测量等级不同,相关系数的计算方法也不同。
例如:例如:
两个定距变量间的相关系数:简单积距两个定距变量间的相关系数:简单积距 /person相关系数相关系数两个定序变量间的相关系数:两个定序变量间的相关系数,Spearman等级(秩)相关系数等级(秩)相关系数新闻传播学院新闻传播学院
4
基本概念基本概念
散点图散点图
相关系数计算公式相关系数计算公式
正相关、负相关、不相关正相关、负相关、不相关
相关分析与回归分析相关分析与回归分析
决定系数决定系数
假设检验假设检验 -总体相关系数总体相关系数新闻传播学院新闻传播学院
5











散点图散点图 - 正相关正相关
X
Y
新闻传播学院新闻传播学院
6







●●


散点图散点图 - 负相关负相关
X
Y
2
新闻传播学院新闻传播学院
7
X
Y











散点图散点图 - 不相关不相关新闻传播学院新闻传播学院
8
●●









散点图散点图 - 不相关不相关
●●









X
Y
新闻传播学院新闻传播学院
9
如何度量这种变量之间的关系如何度量这种变量之间的关系在社会现象中,变量之间的关系大致可分为两种在社会现象中,变量之间的关系大致可分为两种函数关系统计关系确定的 随机的新闻传播学院新闻传播学院
10
y
y
y
y
y
y
y
y
y
x
y
函数关系函数关系函数:变量之间按照一定的函数形式形成的一一对应关系。函数:变量之间按照一定的函数形式形成的一一对应关系。
变量变量 X和和 Y之间存在函数关系时:之间存在函数关系时:
X值一旦被指定,值一旦被指定,Y值就是唯一确定的值就是唯一确定的例:例,Y=10+1.6X
Y=SinX Y=X
2
Y=1/X
Y=e
x
Y=LnX
新闻传播学院新闻传播学院
11
统计关系统计关系两个变量之间存在某种依存关系,但变量两个变量之间存在某种依存关系,但变量 Y并不是由并不是由变量变量 X唯一确定的,唯一确定的,它们之间没有严格的一一对应关它们之间没有严格的一一对应关系,统计上称为相关关系。系,统计上称为相关关系。
例:收入与食品的消费支出的关系例:收入与食品的消费支出的关系语文成绩与数学成绩的关系语文成绩与数学成绩的关系
y
y
y
yy
y
y
y
y
x
y
新闻传播学院新闻传播学院
12
线性相关线性相关两个变量之间存在线性关系两个变量之间存在线性关系线性相关线性相关两个变量之间若存在非线性关系两个变量之间若存在非线性关系曲线相关曲线相关适当的变量变换适当的变量变换变量间的直线关系是变量间联系中最简单的一种,相关系数就是变量间的直线关系是变量间联系中最简单的一种,相关系数就是描述变量间描述变量间 线性联系线性联系 程度的度量。程度的度量。
3
新闻传播学院新闻传播学院
13
相关关系的类型相关关系的类型相关关系相关关系相关关系非线性相关非非 线性相关线性相关线性相关线性相关线性相关正相关正正相相关关正相关正正相相关关负相关负负相相关关负相关负负相相关关完全相关完全相关完全相关 不相关不不 相关相关新闻传播学院新闻传播学院
14
简单积矩简单积矩 /Person相关系数相关系数样本相关系数样本相关系数 r
度量两个定距测量尺度变量之间的线性关系度量两个定距测量尺度变量之间的线性关系总体相关系数总体相关系数 ρρ
检验检验新闻传播学院新闻传播学院
15
∑∑




22
)()(
))((
YYXX
YYXX
r
样本相关系数样本相关系数 r
-1≤ r≤ 1
r=0 不相关不相关
r>0 正相关正相关 强强 /弱正相关弱正相关
r<0 负相关负相关 强强 /弱负相关弱负相关新闻传播学院新闻传播学院
16
相关关系的测度相关关系的测度
(相关系数取值及其意义)(相关系数取值及其意义)
-1.0 +1.00-0.5 +0.5
完全负相关 无线性相关完全正相关负相关程度增加
r
正相关程度增加新闻传播学院新闻传播学院
17
样本相关系数样本相关系数 r 的直观意义的直观意义











x
y
ⅠⅡ
Ⅲ Ⅳ
xy> 0
xy< 0
xy> 0
xy< 0
∑ xy的正和负表现了
X和 Y相关的正和负
X和和 Y没有线性联系时,观测点均匀地散布在四个象限,没有线性联系时,观测点均匀地散布在四个象限,∑∑ xy=0
∑ xy= ∑ (x-X)(y-Y)
新闻传播学院新闻传播学院
18
相关系数相关系数 r 的直观意义的直观意义











X
Y




r=0.6





























4
新闻传播学院新闻传播学院
19
相关系数相关系数 r 的直观意义的直观意义











X
Y
r=1.0
线性相关 —函数关系新闻传播学院新闻传播学院
20
相关系数相关系数 r 的直观意义的直观意义











X
Y
r= -1.0
新闻传播学院新闻传播学院
21
相关系数相关系数 r 的直观意义的直观意义











X
Y
































r = - 0.8
强负相关新闻传播学院新闻传播学院
22
相关系数相关系数 r 的直观意义的直观意义











X
Y


























● ●


r=0
新闻传播学院新闻传播学院
23
相关系数相关系数 r 的直观意义的直观意义











X
Y
r= 0
不相关



























相关系数 r 仅是线性关系的一种度量,
不相关并不意味着没有关系。
新闻传播学院新闻传播学院
24
注意极端情况下的相关注意极端情况下的相关




X
Y


















r = 0.8
异常强相关
5
新闻传播学院新闻传播学院
25
相关关系的图示相关关系的图示
y
y
y
y
y
y
y
y
y
y
y
y
不相关不相关不相关
y
y
y
y
y
y
y
y y
负线性相关负线性相关负线性相关
y
y
y
y
y
y
y
y
y
正线性相关正线性相关正线性相关
y
y
y
y
y
y
y
y
y
y
y
y
非线性相关非线性相关非线性相关
y
y
y
y
y
y
y
完全负线性相关完全负线性相关完全负线性相关完全正线性相关完全正线性相关完全正线性相关
y
y
y
y
y
y
y
y
y
新闻传播学院新闻传播学院
26
总体相关系数总体相关系数 ρρ 的检验的检验样本相关系数 总体相关系数假设检验原假设 H0:ρ =0 ( X和 Y之间没有线性关系)
r ρ
(置信区间)
新闻传播学院新闻传播学院
27
利用利用 t 值检验值检验如果总体相关系数ρ=0,样本相关系数 r 的抽样分布随着 n 的增大越来越接近于服从于自由度为 n-2
的t 分布
2
1
)2(
2
=?
n
r
r
nt
新闻传播学院新闻传播学院
28
总体相关系数的总体相关系数的 t 值检验的步骤值检验的步骤
1,陈述原假设陈述原假设 H
0
:ρρ =0(( X和和 Y没有线性相关关系)没有线性相关关系)
2,计算计算 t 统计量统计量
3,求得求得 t 的概值的概值
4,比较比较 p值值 <0.05 (95%置信度)置信度)
5,对原假设做出判断对原假设做出判断 ——拒绝或接受拒绝或接受新闻传播学院新闻传播学院
29
假相关假相关 /共变关系共变关系教师的工资收入教师的工资收入 ——饮料的消费量饮料的消费量小树的高度小树的高度婴儿的身高婴儿的身高 时时 间间解释相关系数的意义时一定要慎重,要有实际意义。解释相关系数的意义时一定要慎重,要有实际意义。
新闻传播学院新闻传播学院
30
各种相关系数的使用范围及计算公式不同级别的变量要用不同类型的相关系数其它相关系数其它相关系数
6
新闻传播学院新闻传播学院
31
spearman 秩相关系数秩相关系数 R
适用预定序变量 X和定序变量 Y的相关测量把变量 X和 Y的测量值转为等级值(秩)
)1(
6
1
2
2
=

nn
D
R
不存在等值数据换算成秩计算皮尔逊相关系数=斯皮尔曼秩相关系数新闻传播学院新闻传播学院
32
为确定变量之间的联系,用一些变量的变化说为确定变量之间的联系,用一些变量的变化说明另一个变量的变化,并进一步对另一个变量的取明另一个变量的变化,并进一步对另一个变量的取值进行预测,这就是回归分析。值进行预测,这就是回归分析。
因变量(因变量( dependent variable):,要说明其变化的、对其进行预测的变量。要说明其变化的、对其进行预测的变量。
自变量自变量 (independent variable):,用以说明或预测因变量的变量用以说明或预测因变量的变量回归分析回归分析新闻传播学院新闻传播学院
33
确定变量间的关系确定变量间的关系
确定哪些自变量确定哪些自变量 x
1
、,x
2
、,x
3
、,…、,x
k
对因变量对因变量 y
是有影响的。是有影响的。
确定自变量是以什么形式影响因变量的,确定自变量是以什么形式影响因变量的,
即即 y是是 x
1
x
2
x
3
… x
k
什么形式的函数。什么形式的函数。
确定描述确定描述 y和和 x
i
联系的关系式中的未知参数。联系的关系式中的未知参数。
新闻传播学院新闻传播学院
34
回归模型的类型回归模型的类型一个自变量一个自变量 两个及两个以上自变量两个及两个以上自变量回归模型回归模型回归模型多元回归多元回归多元回归一元回归一元回归一元回归线性回归线性线性回归回归非线性回归非线性非线性回归回归线性回归线性线性回归回归非线性回归非线性非线性回归回归新闻传播学院新闻传播学院
35
各个变量之间存在着许多相互关系各个变量之间存在着许多相互关系回归模型中所包括的变量越多回归模型中所包括的变量越多模型反映现实的可能性越大模型反映现实的可能性越大解释回归分析的结果变得更为困难解释回归分析的结果变得更为困难回归模型回归模型新闻传播学院新闻传播学院
36
Y=a+bX
因变量因变量自变量自变量
(预测变量预测变量 )
截距截距 斜率斜率数学上下列方程在图形上是一条直线数学上下列方程在图形上是一条直线简单回归模型简单回归模型
7
新闻传播学院新闻传播学院
37
抽取一个样本,样本量为抽取一个样本,样本量为 n
(X
1
,Y
1
)
(X
2
,Y
2
)
(X
3
,Y
3
)
……
(X
i
,Y
i
)
(X
n
,Y
n
)
……
x
Y
散点图散点图新闻传播学院新闻传播学院
38
X
Y





理想的线性回归理想的线性回归


新闻传播学院新闻传播学院
39
X
Y





(( X,,Y)) 散点图散点图



新闻传播学院新闻传播学院
40
X
Y





(( X,,Y)) 线性回归直线线性回归直线



新闻传播学院新闻传播学院
41
X
Y





X和和 Y线性回归线性回归 ——直线方程直线方程



Y
bXaY +=
Y
d
新闻传播学院新闻传播学院
42
X
Y

X和和 Y线性回归线性回归
d
22
)(

∑∑
= YYd

Y
Y
i
bXaY +=










8
新闻传播学院新闻传播学院
43
拟合直线的准则拟合直线的准则使所有偏差和最小最小二乘法则
Y:观测值
:拟合值
22
)(

∑∑
= YYd

Y
新闻传播学院新闻传播学院
44
最小二乘法则最小二乘法则斜率,



=
2
)(
))((
XX
YYXX
b
XbYa?=
截距,
新闻传播学院新闻传播学院
45
斜率斜率 b 的意义的意义,
Y:拟合值
X
Y
0
∧ X=1
∧ Y=b
Y=a+bX
斜率 b:
X有一个单位变化时,伴随着发生的 Y的变化量新闻传播学院新闻传播学院
46
回归分析的基本要点回归分析的基本要点
1,回归目的回归目的,预测或解释预测或解释
2,观察散点图是回归分析的第一步观察散点图是回归分析的第一步
3,对回归分析的解释对回归分析的解释
4,尤其是提及因果关系时尤其是提及因果关系时,必须非常谨慎必须非常谨慎新闻传播学院新闻传播学院
47
真实的回归直线真实的回归直线
——总体中总体中 X和和 Y的回归关系的回归关系
iii
eXY ++= βα
误差项新闻传播学院新闻传播学院
48
误差项误差项 e 的来源的来源
iii
eXY ++= βα
测量误差自然现象和社会现象中不可避免的固有变化性总体中截距、斜率和误差项往往是未知的
9
新闻传播学院新闻传播学院
49
用拟合回归直线估计真实的回归直线用拟合回归直线估计真实的回归直线
XY βα +=
bXaY +=

估计新闻传播学院新闻传播学院
50
Y=αα +ββ x
Y=a+bx
Y=αα +ββ x
Y=a+bx
当当 x的值非常接近时拟合不可靠的值非常接近时拟合不可靠 当当 x的值比较分散时拟合比较可靠的值比较分散时拟合比较可靠未知的真实回归未知的真实回归未知的真实回归未知的真实回归估计回归估计回归估计回归估计回归新闻传播学院新闻传播学院
51
总体斜率总体斜率 ββ 的假设检验的假设检验 - 置信区间置信区间
0 是否落在β的置信度为 1-α的置信区间之内原假设,X和 Y之间没有什么联系,
H
0
:β =0 H
1
,β =0
在α的显著性水平下,斜率β与 0的差异在统计上是显著 (可分辨 )的
No
新闻传播学院新闻传播学院
52
统计量 t =(估计值 -原假设值 )/标准误差总体斜率总体斜率 ββ 的假设检验的假设检验 - 概值概值

==
2
xS
b
SE
b
t
查自由度为 n-2的 t 分布表,求得单侧概值原假设,X和 Y之间没有什么联系
H0:β =0 H1,β =0
新闻传播学院新闻传播学院
53
置信区间、预测区间、回归方程置信区间、预测区间、回归方程
x
p
xy
10

ββ +=
y
x
x
预测上限预测上限置信上限置信上限预测下限预测下限置信下限置信下限新闻传播学院新闻传播学院
54
120 130 140 150 160 170 180
height
20.0
30.0
40.0
50.0
60.0
70.0
80.0
w
e
i
g
h
t
R Sq Quadratic =0.522
10
新闻传播学院新闻传播学院
55
自变量为定类变量自变量为定类变量 -采用哑变量的方法采用哑变量的方法
Nx1
X1 21
01
女男只取两值
001Nx1
010Nx2
0
1
东部
Nx3
X1 32
00
西部中部有三类值定类变量有 n个类别需要 n-1个哑变量新闻传播学院新闻传播学院
56
相关和回归相关和回归 ——有着非常紧密的联系有着非常紧密的联系
∑∑




22
)()(
))((
YYXX
YYXX
r
相关系数相关系数回归斜率回归斜率



=
2
)(
))((
XX
YYXX
b
新闻传播学院新闻传播学院
57
x
y
S
S
rb =
Y 的标准差
X 的标准差相关和回归分析相关和回归分析
ρ =0 β =0 X和 Y之间没有线性联系新闻传播学院新闻传播学院
58
用方差分析的观点看待回归用方差分析的观点看待回归

利用回归减小了偏差
bXaY +=
)
YY?
=总偏差
YY?
)
=可以用回归解释的偏差不能用回归解释的偏差可以解释的变差和不可以解释的变差
X
Y
YY
)
新闻传播学院新闻传播学院
59
应用于回归的方差分析应用于回归的方差分析总变差 = 可以由回归解释的变差 + 不能解释的变差
0
H拒绝不能解释的方差可以由回归解释的方差
>=F
2
2
22
)(
t
SE
b
S
XXb
F ==
=

新闻传播学院新闻传播学院
60
四种方法可以检验原假设:四种方法可以检验原假设:
X和和 Y没有线性联系没有线性联系
ββ =0 的的 F 检验检验
ββ =0 的的 t 检验检验
ρρ =0 的的 t 检验检验
ρρ =0 的的 置信区间置信区间回归系数回归系数 相关系数相关系数两变量之间两变量之间
11
新闻传播学院新闻传播学院
61
决定系数决定系数 R-Square
决定系数 =1
所有观测值都落在一条直线上,
回归拟合解释了全部的变差决定系数 =0
回归直线什么也不能解释,
X和 Y之间没有线性联系决定系数越大表明回归方程拟合数据越好,解释力或预测力越强。
总的变差可以由回归解释的变差
=
2
R
新闻传播学院新闻传播学院
62
采用相关还是回归?采用相关还是回归?
相关模型相关模型 回归模型回归模型随机变量随机变量Y-变量变量随机变量随机变量随机变量随机变量
X-变量变量 不作要求不作要求两个变量是否一起变化两个变量是否一起变化具体的预测方程具体的预测方程 Y=a+bX
两个变量是否一起变化两个变量是否一起变化
H
0
ρρ =0 H
0
ββ =0
X和和 Y地位是一样的地位是一样的 (X,Y)
Y-因变量因变量
X-自变量自变量新闻传播学院新闻传播学院
63
注意注意相关关系相关关系回归关系回归关系因果关系因果关系有对照组的(最好双盲)的随机试验有对照组的(最好双盲)的随机试验可控制其他变量的多元回归分析可控制其他变量的多元回归分析
≠≠
回归模型有更广泛的应用,更多地被采用回归模型有更广泛的应用,更多地被采用
(复杂、检验、诊断)(复杂、检验、诊断)
相关分析主要是用来理解回归的一种辅助技术相关分析主要是用来理解回归的一种辅助技术
(直观、简单、易说明)(直观、简单、易说明)
新闻传播学院新闻传播学院
64
多元线性回归模型多元线性回归模型
一个因变量与两个及两个以上自变量之间的回归一个因变量与两个及两个以上自变量之间的回归
描述因变量描述因变量 y如何依赖于自变量如何依赖于自变量 x
1
,,x
2
,,…,,x
p
和误差项和误差项 ε 的的方程称为方程称为 多元线性回归模型多元线性回归模型
涉及涉及 p 个自变量的多元线性回归模型可表示为个自变量的多元线性回归模型可表示为
ipipii
xxxy εββββ +++++= L
22110
? β
0
,,β
1
,,β
2
,,……,,β
p
是参数是参数
? ε 是被称为误差项的随机变量是被称为误差项的随机变量
? y 是是 x
1,
,,x
2
,,……,,x
p
的线性函数加上误差项的线性函数加上误差项 ε
? ε 说明了包含在说明了包含在 y里面但不能被里面但不能被 p个自变量的线性关系所解释的变异性个自变量的线性关系所解释的变异性
? β
0
,,β
1
,,β
2
,,……,,β
p
称为偏回归系数称为偏回归系数
? β
i
表示假定其他变量不变,当表示假定其他变量不变,当 Xi 每变动一个单位时,每变动一个单位时,Y 的平均平均变动值的平均平均变动值新闻传播学院新闻传播学院
65
多元线性回归方方程的直观解释多元线性回归方方程的直观解释二元二元 线性回归模型线性回归模型
εβββ +++=
22110
xxy
(观察到的观察到的 y)
22110
)( xxyE βββ ++=
回归面回归面
β
0
ε
i
x
1
y
x
2
(x
1
,x
2
)
}
新闻传播学院新闻传播学院
66
——先先 看看
——后后 大家一起动手!大家一起动手!
案例分析案例分析
12
新闻传播学院新闻传播学院
67
多元回归分析 Multiple Regression Analysis多元回归分析
0
0.18
0 1.5
通话质量特服台服务技术支持 /咨询装机 /修机 /移机业务营业厅服务服务宣传项目话费价格话费 /查询 /准确 /缴费投诉 /纠纷急需改进区急需改进区优势保持区优势保持区次要改进区次要改进区锦上添花区锦上添花区某省电信各项总体满意度指标的重要性和满意度象限图满意度水平(表现)
重要性水平新闻传播学院新闻传播学院
68
Model Summary
b
.928
a
.861,806,7810
Model
1
R R Square
Adjusted R
Square
Std,Error
of the
Estimate
Predictors,(Constant),X2,X1a,
Dependent Variable,Yb,
ANOVA
b
18.950 2 9.475 15.534,007
a
3.050 5,610
22.000 7
Regression
Residual
Total
Model
1
Sum of
Squares df
Mean
Square F Sig.
Predictors,(Constant),X2,X1a,
Dependent Variable,Yb,
Coefficients
a
.482 1.461,330,755
.632,252,564 2.506,054
.216,108,450 1.998,102
(Constant)
X1
X2
Model
1
B Std,Error
Unstandardized
Coefficients
Beta
Standardi
zed
Coefficien
ts
t Sig.
Dependent Variable,Ya,
新闻传播学院新闻传播学院
69
新闻传播学院新闻传播学院
70
本本 讲稿仅供学生复习使用!讲稿仅供学生复习使用!
联系方法:联系方法:
北京广播学院新闻传播学院北京广播学院新闻传播学院北京广播学院研究统计研究所北京广播学院研究统计研究所 28号信箱号信箱电话:电话,0086-- 10-- 65779296
传真:传真,0086-- 10-- 65752338
手机:手机,13801157591
信箱:信箱,shenhao@public.bta.net.cn