北京大学光华管理学院 胡健颖 12010-5-13
市场调研
Marketing Research
主讲人:胡健颖教授
北京大学光华管理学院
2005年 5月
2010-5-13 北京大学光华管理学院 胡健颖 2
市场调研
第七讲 数据分析:二元变量相关和回归
参考书第 17章 P379-P385
2010-5-13 北京大学光华管理学院 胡健颖 3
1.二元变量相关分析
?二元变量分析的定义
1)对两变量间的相关度的分析的统计技术称为
二元变量技术。若涉及两个以上的变量,采用
的统计技术叫多元变量技术。
2)分析两个变量之间的相关度时,两个变量分
别被定义为自变量和因变量。自变量是指那些
可以影响因变量结果的变量。例如,价格、广
告费或零售点的数量等自变量常用于预测或解
释一个品牌的销售量或市场份额(因变量)
2010-5-13 北京大学光华管理学院 胡健颖 4
2.二元变量回归
? 二元变量回归是用来分析自变量和因变量两变
量之间关系的一种程序。例如,我们希望分析
销售量(因变量)和广告支出(自变量)之间
的关系。如果广告支出与销售量之间的关系可
用回归分析来估算的话,那么,营销研究人员
就可预测不同广告支出水平下的产品销售量。
? 二元变量回归关系的性质可通过散点图得出两
个变量之间是否存在直线或曲线关系。这里涉
及线性回归方程分析和非线性回归方程分析。
2010-5-13 北京大学光华管理学院 胡健颖 5
2.二元变量回归
y
x
a) 完全正线性相关
y
x
b)正的线性关系
y
x
d) 完全抛物线的关系
y
x
c)完全负线性相关
y
x
f ) x和 y之间无关系
* * *
* *
* *
* * *
* * *
*
** * *
y
x
e) 负的曲线关系
2010-5-13 北京大学光华管理学院 胡健颖 6
练习:二元变量回归
练习 1
某地段年销售额及平均每天车流量数据
见表 7-1
练习 1 相关与回归分析
表 7 - 1 年销售额及平均每天车流量数据
商店编号( I ) 平均每天车流量 / 千辆( Xi ) 年销售额 / 千美元( Yi )
1 62 1 121 s
2 35 766
3 36 701
4 72 1304
5 41 832
6 39 782
7 49 977
8 25 503
9 41 773
10 39 839
11 35 893
12 27 588
13 55 957
14 38 703
15 24 497
16 28 657
17 53 1209
18 55 997
19 33 844
20 29 883
2010-5-13 北京大学光华管理学院 胡健颖 8
练习 1 相关与回归分析
在确定了 20个店后,该公司在长达一个月的时间
内,每天都到每个地点做车流量的纪录,而且通
过自己的内部记录获得了这 20家店前 12个月的全
部销售数据。见表 7-1所示。
图 7-1显示了数据的散点分布。显而易见,年销
售量随日均车流量的增多而升高。现在的问题
是,如何用明确的定量的方式把这种特性表示出
来。
2010-5-13 北京大学光华管理学院 胡健颖 9
练习 1 相关与回归分析
2010-5-13 北京大学光华管理学院 胡健颖 10
练习 1 相关与回归分析
最小二乘法
最小二乘法 估计法是最能体现两变量 X 和 Y 之间关系的浅显
易懂的数学方法。 在散点图中,没有任何一条直线能完美的
表示每个观察结果。这表现为实际结 果(散点分布)和预测
结果(线所表示的值)之间不完全相符。任何一条散点图 上
的是和直线都会有客观存在的误差。能够基本反映观察结果
的直线可以画出 许多条来。
2010-5-13 北京大学光华管理学院 胡健颖 11
练习 1 相关与回归分析
最小二乘估计的结果是一条比其他线更能体现观察结
果的直线。换句话说,这条线上的离差平方和比可用于
观察结果的任意其它直线的离差平方和都小。这条线 的
简单方程为 Y=a +bX 。回归分析的估计方程是
Y a b X e
??
? ? ?
2010-5-13 北京大学光华管理学院 胡健颖 12
练习 1 相关与回归分析
式中 Y —— 因变量即年销售额的估计值,千美元;
?
a —— 估计值 y 在回归直线上的截距;
?
b —— 回归直线的估计斜率;
X
—— 自变量,即日均车流量;
e
—— 误差,即实际值和估计值之间的差额。
2010-5-13 北京大学光华管理学院 胡健颖 13
练习 1 相关与回归分析
??
ba 和 的值可计算如下,
?
?
?
?
?
?
22
)( XnX
YXnYX
b
i
ii
a Y b X
??
??
式中 X —— X 的平均数;
Y —— Y 的平均数;
n —— 样本容量例子中组数。
练习 1 相关与回归分析
表 7 - 2 最小二乘估计参数的计算表
商店 X Y X
2
Y
2
XY
1 62 1 121 3844 1256641 69502
2 35 766 1225 586756 26810
3 36 701 1296 491401 25236
4 72 1304 5184 1700416 93888
5 41 832 1681 692224 341 12
6 39 782 1521 61 152 4 30498
7 49 977 2401 954529 47873
8 25 503 625 253009 12575
9 41 773 1681 597529 31693
10 39 839 1521 703921 32721
11 35 893 1225 797449 31255
12 27 588 729 345744 15876
13 55 957 3025 915849 52635
14 38 703 1444 494209 26714
15 24 497 576 247009 1 192 8
16 28 657 784 431649 18396
17 53 1209 2809 1461681 64077
18 55 997 3025 994009 54835
19 33 844 1089 712336 27852
20 29 883 841 779689 25607
合计 816 16826 36526 15027574 734083
平均 40.8 841,3
2010-5-13 北京大学光华管理学院 胡健颖 15
练习 1 相关与回归分析
用表 7 - 2 中的数据可得出
?
b,计算公式如下,
72.14
)8.40(2036526
)3.841)(8.40(20734083
2
?
?
?
?
?
b
?
a 值计算如下,
86.240)8.40(72.143.841 ?????
??
XbYa
2010-5-13 北京大学光华管理学院 胡健颖 16
练习 1 相关与回归分析
因此,回归估计方程得出,2 4 0, 8 6 1 4, 7 2Y a b X X
??
? ? ? ?
其中,Y 是相对给定 X 值的回归估计的数值。根据估计
的回归方程,车流量( X )每增加 1000 辆车,年销售额
将增加 1 4, 7 美元( b 的估计值),
?
a 值是 24 0, 86 。在技
术上,
?
a 是自变量为 0 时因变量( Y )的估计值。
2010-5-13 北京大学光华管理学院 胡健颖 17
练习 1 相关与回归分析
回归线
表 7 - 2 中显示了根据
??
ba 和
计算的 Y 的预测值。 此
外,还显示了每一观察值的误差
)(
?
? YY
。
基于
?
Y
值得出的回归线如图 7 - 2 所示。
2010-5-13 北京大学光华管理学院 胡健颖 18
练习 1 相关与回归分析
图7 -2 最小平方回归拟合样本资料
0
200
400
600
800
1000
1200
1400
0 10 20 30 40 50 60 70 80
车流量(以千计的平均每天车流量)
销售额(千美元)
2010-5-13 北京大学光华管理学院 胡健颖 19
练习 1 相关与回归分析
相关的强度,R
2
估计的回归函数描述了 X 和 Y 之间关系的性质。此外,我们对两
变量之间关系的强度也很感兴趣。 Y 的实际值究竟与由模型得出的
预测值相差多远呢? R
2
是衡量 X 和 Y 之间线性关系强度的指标,
它表示是由 X 变差解释的 Y 的总变差百分比。 R
2
的值从 0 到 1 。
如果 X 和 Y 之间是完全直线关系,则 Y 的所有变差均可由 X 的变
差解释,那么 R
2
为 1 ;另一方面,如 X 和 Y 之间没有任何关系,
则 Y 的任意变差均不能用 X 变差解释,则 R
2
为 0 。
在上例中,R
2
计算如下 [ (表 7 - 3 )是关于
22
)()( YYYY ??
?
和 的计算 ] 。
表 7- 3 预测值与每一观测值的误差
商店 X Y
1 62 1121 1153.3 -32.2951 1043 78232
2 35 766 755.9 10.05716 101 5670
3 36 701 770.7 -69.6596 4852 19684
4 72 1304 1300.5 3.537362 13 214091
5 41 832 844.2 -12.2434 150 86
6 39 782 814.8 -32.8098 1076 3516
7 49 977 962 15.02264 226 18414
8 25 503 608.8 -105.775 11188 114447
9 41 773 844.2 -71.2434 5076 4665
10 39 839 814.8 24.19015 585 5
11 35 893 755.9 137.0572 18785 2673
12 27 588 638.2 -50.2088 2521 64161
13 55 95 1050.3 -93.2779 8701 556964
14 38 703 800.1 -97.0931 9427 19127
15 24 497 594.1 -97.0586 9420 118542
16 28 657 652 4.074415 17 33966
17 53 1209 1020 188.1556 35403 135203
18 55 997 1050.3 -53.2779 2839 24242
19 33 844 726.5 117.4907 13804 7
20 29 883 667.6 215.577 46473 1739
合计 816 16826 171604.8 871860.2
平均 40.8 841.3
Yy? 2()Yy? 2()Yy?Y
2010-5-13 北京大学光华管理学院 胡健颖 21
练习 1 相关与回归分析
2R ? 已 释 变 差 (SSR)
总 变 差 (SST)
??已 释 方 差 总 变 差 未 释 变 差
2010-5-13 北京大学光华管理学院 胡健颖 22
练习 1 相关与回归分析
22
14R b a c? ? ?
未 释 变 差 (SSE)
总 变 差 (SST)
803.0
2.8718 60
8.1716 04
1
)(
)(
1
1
2
1
2
2
???
?
?
??
?
?
?
?
?
i
ii
i
ii
YY
YY
R
在 Y (年销售额)变差中有 80% 能被 X (日均车
流量)变差解释,所以在 X 和 Y 间存在较强的线
性关系。
2010-5-13 北京大学光华管理学院 胡健颖 23
练习 1 相关与回归分析
回归结果的统计显著性
在 R
2
的计算中,Y 的总变差被分成两部分,
总变差 = 已释变差 + 未释变差(或总变差 = 回归变差 + 剩余变差)
总变差(也成为总平方和 SST )是由 Y 围绕自己的平均数变化得
到的,它测定的是 Y 值的变差而不考虑 X 值。
总变差或称总平方和 SST 可以表示为,
2
22 1
11
()
n
inn
i
ii
ii
Y
SS T Y Y Y
n
?
??
??
??
??? ? ? ?
??
??
??
?
??
2010-5-13 北京大学光华管理学院 胡健颖 24
练习 1 相关与回归分析
已解释的变差或回归平方和 SSR 可表示为,
2
1
111
2
)(
?
?
?
?
?
?
?
?
?
?
?
?
?????
?
??? ?
???
?
n
Y
YXbYaYYSSR
n
i
in
i
ii
n
i
i
n
i
i
2010-5-13 北京大学光华管理学院 胡健颖 25
练习 1 相关与回归分析
图 7 - 3,显示了回归变差的测量方法,SSR 表示 ?
iY
(由估计
回归方程预测的值)与 Y (平均值)的差异。在标准回归方程
里,回归变差在总变差中占很大比例。如果对于每一个 X 的取
值,Y i 恒等于 ?
iY
,则得到完美的拟合。此时,Y i 所有的观察值
都将落在回归直线上,当然,在此情况下,SSR 恒等于 S S T 。
2010-5-13 北京大学光华管理学院 胡健颖 26
练习 1 相关与回归分析
2010-5-13 北京大学光华管理学院 胡健颖 27
练习 1 相关与回归分析
未 解释 变量 或剩余平方和 SSE (有时也称为剩余变差),
由下式得到,
????
????
?
?????
n
i
ii
n
i
i
n
i
i
n
i
ii
YXbYaYYYSSE
111
2
1
2
)(
从图 7 - 3 可以看出,SSE 表示 Y 观察值与预测值之间的
剩余变差(误差),因此,剩余变差反映了数据在回归
直线周围分布的程度。如果这个拟合是完美的,则在回
归直线周围不会形成散点,那么 SSE 等于零。
2010-5-13 北京大学光华管理学院 胡健颖 28
练习二 阿姆德比萨饼连锁店的问题
阿姆德( Armand)比萨饼连锁店坐落在美国的 5个州内,它们
通常的位置是在大学旁边,而且管理人员相信附近大学的人数
与这些连锁店的季度销售额是有关系的。下面是 10家连锁店附
近大学的学生人数和季度销售收入的数据:
根据以上数据,你能否判断学生人数( x)如何影响到销售收
入( y)? 根据一家连锁店附近大学的人数,你能够预测该家连
锁店的季度销售收入吗?
连锁店 1 2 3 4 5 6 7 8 9 10
学生人数/ 千人 2 6 8 8 12 16 20 20 22 26
销售额/ 千元 58 105 88 118 117 137 157 169 149 202
2010-5-13 北京大学光华管理学院 胡健颖 29
描述学生人数和销售收入之间的关系
? 相关系数( 0.95),散点图;
? 根据这些你可以得到什么结论?
0
50
100
150
200
250
0 5 10 15 20 25 30
学生人数/ 千人
季度销售收入/
千元
2010-5-13 北京大学光华管理学院 胡健颖 30
相关分析不能告诉我们什么?
2
2
3
0
50
100
150
200
250
0 5 10 15 20 25 30
学生人数/千人
季度销售收入/千
元
两个不同的散点图
2010-5-13 北京大学光华管理学院 胡健颖 31
回归模型的引入
? 对于给定的学生人数,销售收入是唯一确定的
一个数,还是一个随机变量?
? 学生人数的变化如何影响到销售收入?
? 使用的模型
线性回归模型简单 )(0)(,10 ????? ???? Exy
2010-5-13 北京大学光华管理学院 胡健颖 32
假设误差 ε 服从正态分布,..
? 假设对所有的 x,都有 ε ~ N(0,σ 2)
? 销售收入的模型成为
? 后面的话题,关于以上模型的统计
推断问题
),(~ 210 ??? ii xNY ??,10,,2,1 ????i
2010-5-13 北京大学光华管理学院 胡健颖 33
估计的回归方程
? 如何估计参数 β 0 和 β 1?
? 最小二乘准则
xbby
xbyb
nxx
nyxyx
b
bb
xy
ii
iiii
n
i
ii
10
10
22
1
1010
1
2
10
,
/)(
/)(
),(
)(m i n
10
??
??
?
?
?
???
?
?
? ?
? ? ?
?
估计的回归直线
的点估计和为得出达到最小值点
求解
??
??
??
2010-5-13 北京大学光华管理学院 胡健颖 34
判定系数和相关系数的关系
2
22
Rr
rR
xy
xy
?
?
相关系数
判定系数
2010-5-13 北京大学光华管理学院 胡健颖 35
σ 2的估计
? 模型中等方差的假设
? 理解误差平方和
? σ2的一个无偏估计
s2=MSE=SSE/(n-2)
? s被称为回归方程的标准误差( Standard Error
of Regression),
2
102 )()( ?? ?????
?
iiii xbbYYYS S E
2010-5-13 北京大学光华管理学院 胡健颖 36
阿姆德连锁店的回归直线
? 估计参数
b1=5
b0=60
? 回归直线
? 你对系数 b1的含义怎
么理解?
xy 560 ???
0
50
100
150
200
250
0 5 10 15 20 25 30
学生人数/ 千人
季度销售收入/
千元
市场调研
Marketing Research
主讲人:胡健颖教授
北京大学光华管理学院
2005年 5月
2010-5-13 北京大学光华管理学院 胡健颖 2
市场调研
第七讲 数据分析:二元变量相关和回归
参考书第 17章 P379-P385
2010-5-13 北京大学光华管理学院 胡健颖 3
1.二元变量相关分析
?二元变量分析的定义
1)对两变量间的相关度的分析的统计技术称为
二元变量技术。若涉及两个以上的变量,采用
的统计技术叫多元变量技术。
2)分析两个变量之间的相关度时,两个变量分
别被定义为自变量和因变量。自变量是指那些
可以影响因变量结果的变量。例如,价格、广
告费或零售点的数量等自变量常用于预测或解
释一个品牌的销售量或市场份额(因变量)
2010-5-13 北京大学光华管理学院 胡健颖 4
2.二元变量回归
? 二元变量回归是用来分析自变量和因变量两变
量之间关系的一种程序。例如,我们希望分析
销售量(因变量)和广告支出(自变量)之间
的关系。如果广告支出与销售量之间的关系可
用回归分析来估算的话,那么,营销研究人员
就可预测不同广告支出水平下的产品销售量。
? 二元变量回归关系的性质可通过散点图得出两
个变量之间是否存在直线或曲线关系。这里涉
及线性回归方程分析和非线性回归方程分析。
2010-5-13 北京大学光华管理学院 胡健颖 5
2.二元变量回归
y
x
a) 完全正线性相关
y
x
b)正的线性关系
y
x
d) 完全抛物线的关系
y
x
c)完全负线性相关
y
x
f ) x和 y之间无关系
* * *
* *
* *
* * *
* * *
*
** * *
y
x
e) 负的曲线关系
2010-5-13 北京大学光华管理学院 胡健颖 6
练习:二元变量回归
练习 1
某地段年销售额及平均每天车流量数据
见表 7-1
练习 1 相关与回归分析
表 7 - 1 年销售额及平均每天车流量数据
商店编号( I ) 平均每天车流量 / 千辆( Xi ) 年销售额 / 千美元( Yi )
1 62 1 121 s
2 35 766
3 36 701
4 72 1304
5 41 832
6 39 782
7 49 977
8 25 503
9 41 773
10 39 839
11 35 893
12 27 588
13 55 957
14 38 703
15 24 497
16 28 657
17 53 1209
18 55 997
19 33 844
20 29 883
2010-5-13 北京大学光华管理学院 胡健颖 8
练习 1 相关与回归分析
在确定了 20个店后,该公司在长达一个月的时间
内,每天都到每个地点做车流量的纪录,而且通
过自己的内部记录获得了这 20家店前 12个月的全
部销售数据。见表 7-1所示。
图 7-1显示了数据的散点分布。显而易见,年销
售量随日均车流量的增多而升高。现在的问题
是,如何用明确的定量的方式把这种特性表示出
来。
2010-5-13 北京大学光华管理学院 胡健颖 9
练习 1 相关与回归分析
2010-5-13 北京大学光华管理学院 胡健颖 10
练习 1 相关与回归分析
最小二乘法
最小二乘法 估计法是最能体现两变量 X 和 Y 之间关系的浅显
易懂的数学方法。 在散点图中,没有任何一条直线能完美的
表示每个观察结果。这表现为实际结 果(散点分布)和预测
结果(线所表示的值)之间不完全相符。任何一条散点图 上
的是和直线都会有客观存在的误差。能够基本反映观察结果
的直线可以画出 许多条来。
2010-5-13 北京大学光华管理学院 胡健颖 11
练习 1 相关与回归分析
最小二乘估计的结果是一条比其他线更能体现观察结
果的直线。换句话说,这条线上的离差平方和比可用于
观察结果的任意其它直线的离差平方和都小。这条线 的
简单方程为 Y=a +bX 。回归分析的估计方程是
Y a b X e
??
? ? ?
2010-5-13 北京大学光华管理学院 胡健颖 12
练习 1 相关与回归分析
式中 Y —— 因变量即年销售额的估计值,千美元;
?
a —— 估计值 y 在回归直线上的截距;
?
b —— 回归直线的估计斜率;
X
—— 自变量,即日均车流量;
e
—— 误差,即实际值和估计值之间的差额。
2010-5-13 北京大学光华管理学院 胡健颖 13
练习 1 相关与回归分析
??
ba 和 的值可计算如下,
?
?
?
?
?
?
22
)( XnX
YXnYX
b
i
ii
a Y b X
??
??
式中 X —— X 的平均数;
Y —— Y 的平均数;
n —— 样本容量例子中组数。
练习 1 相关与回归分析
表 7 - 2 最小二乘估计参数的计算表
商店 X Y X
2
Y
2
XY
1 62 1 121 3844 1256641 69502
2 35 766 1225 586756 26810
3 36 701 1296 491401 25236
4 72 1304 5184 1700416 93888
5 41 832 1681 692224 341 12
6 39 782 1521 61 152 4 30498
7 49 977 2401 954529 47873
8 25 503 625 253009 12575
9 41 773 1681 597529 31693
10 39 839 1521 703921 32721
11 35 893 1225 797449 31255
12 27 588 729 345744 15876
13 55 957 3025 915849 52635
14 38 703 1444 494209 26714
15 24 497 576 247009 1 192 8
16 28 657 784 431649 18396
17 53 1209 2809 1461681 64077
18 55 997 3025 994009 54835
19 33 844 1089 712336 27852
20 29 883 841 779689 25607
合计 816 16826 36526 15027574 734083
平均 40.8 841,3
2010-5-13 北京大学光华管理学院 胡健颖 15
练习 1 相关与回归分析
用表 7 - 2 中的数据可得出
?
b,计算公式如下,
72.14
)8.40(2036526
)3.841)(8.40(20734083
2
?
?
?
?
?
b
?
a 值计算如下,
86.240)8.40(72.143.841 ?????
??
XbYa
2010-5-13 北京大学光华管理学院 胡健颖 16
练习 1 相关与回归分析
因此,回归估计方程得出,2 4 0, 8 6 1 4, 7 2Y a b X X
??
? ? ? ?
其中,Y 是相对给定 X 值的回归估计的数值。根据估计
的回归方程,车流量( X )每增加 1000 辆车,年销售额
将增加 1 4, 7 美元( b 的估计值),
?
a 值是 24 0, 86 。在技
术上,
?
a 是自变量为 0 时因变量( Y )的估计值。
2010-5-13 北京大学光华管理学院 胡健颖 17
练习 1 相关与回归分析
回归线
表 7 - 2 中显示了根据
??
ba 和
计算的 Y 的预测值。 此
外,还显示了每一观察值的误差
)(
?
? YY
。
基于
?
Y
值得出的回归线如图 7 - 2 所示。
2010-5-13 北京大学光华管理学院 胡健颖 18
练习 1 相关与回归分析
图7 -2 最小平方回归拟合样本资料
0
200
400
600
800
1000
1200
1400
0 10 20 30 40 50 60 70 80
车流量(以千计的平均每天车流量)
销售额(千美元)
2010-5-13 北京大学光华管理学院 胡健颖 19
练习 1 相关与回归分析
相关的强度,R
2
估计的回归函数描述了 X 和 Y 之间关系的性质。此外,我们对两
变量之间关系的强度也很感兴趣。 Y 的实际值究竟与由模型得出的
预测值相差多远呢? R
2
是衡量 X 和 Y 之间线性关系强度的指标,
它表示是由 X 变差解释的 Y 的总变差百分比。 R
2
的值从 0 到 1 。
如果 X 和 Y 之间是完全直线关系,则 Y 的所有变差均可由 X 的变
差解释,那么 R
2
为 1 ;另一方面,如 X 和 Y 之间没有任何关系,
则 Y 的任意变差均不能用 X 变差解释,则 R
2
为 0 。
在上例中,R
2
计算如下 [ (表 7 - 3 )是关于
22
)()( YYYY ??
?
和 的计算 ] 。
表 7- 3 预测值与每一观测值的误差
商店 X Y
1 62 1121 1153.3 -32.2951 1043 78232
2 35 766 755.9 10.05716 101 5670
3 36 701 770.7 -69.6596 4852 19684
4 72 1304 1300.5 3.537362 13 214091
5 41 832 844.2 -12.2434 150 86
6 39 782 814.8 -32.8098 1076 3516
7 49 977 962 15.02264 226 18414
8 25 503 608.8 -105.775 11188 114447
9 41 773 844.2 -71.2434 5076 4665
10 39 839 814.8 24.19015 585 5
11 35 893 755.9 137.0572 18785 2673
12 27 588 638.2 -50.2088 2521 64161
13 55 95 1050.3 -93.2779 8701 556964
14 38 703 800.1 -97.0931 9427 19127
15 24 497 594.1 -97.0586 9420 118542
16 28 657 652 4.074415 17 33966
17 53 1209 1020 188.1556 35403 135203
18 55 997 1050.3 -53.2779 2839 24242
19 33 844 726.5 117.4907 13804 7
20 29 883 667.6 215.577 46473 1739
合计 816 16826 171604.8 871860.2
平均 40.8 841.3
Yy? 2()Yy? 2()Yy?Y
2010-5-13 北京大学光华管理学院 胡健颖 21
练习 1 相关与回归分析
2R ? 已 释 变 差 (SSR)
总 变 差 (SST)
??已 释 方 差 总 变 差 未 释 变 差
2010-5-13 北京大学光华管理学院 胡健颖 22
练习 1 相关与回归分析
22
14R b a c? ? ?
未 释 变 差 (SSE)
总 变 差 (SST)
803.0
2.8718 60
8.1716 04
1
)(
)(
1
1
2
1
2
2
???
?
?
??
?
?
?
?
?
i
ii
i
ii
YY
YY
R
在 Y (年销售额)变差中有 80% 能被 X (日均车
流量)变差解释,所以在 X 和 Y 间存在较强的线
性关系。
2010-5-13 北京大学光华管理学院 胡健颖 23
练习 1 相关与回归分析
回归结果的统计显著性
在 R
2
的计算中,Y 的总变差被分成两部分,
总变差 = 已释变差 + 未释变差(或总变差 = 回归变差 + 剩余变差)
总变差(也成为总平方和 SST )是由 Y 围绕自己的平均数变化得
到的,它测定的是 Y 值的变差而不考虑 X 值。
总变差或称总平方和 SST 可以表示为,
2
22 1
11
()
n
inn
i
ii
ii
Y
SS T Y Y Y
n
?
??
??
??
??? ? ? ?
??
??
??
?
??
2010-5-13 北京大学光华管理学院 胡健颖 24
练习 1 相关与回归分析
已解释的变差或回归平方和 SSR 可表示为,
2
1
111
2
)(
?
?
?
?
?
?
?
?
?
?
?
?
?????
?
??? ?
???
?
n
Y
YXbYaYYSSR
n
i
in
i
ii
n
i
i
n
i
i
2010-5-13 北京大学光华管理学院 胡健颖 25
练习 1 相关与回归分析
图 7 - 3,显示了回归变差的测量方法,SSR 表示 ?
iY
(由估计
回归方程预测的值)与 Y (平均值)的差异。在标准回归方程
里,回归变差在总变差中占很大比例。如果对于每一个 X 的取
值,Y i 恒等于 ?
iY
,则得到完美的拟合。此时,Y i 所有的观察值
都将落在回归直线上,当然,在此情况下,SSR 恒等于 S S T 。
2010-5-13 北京大学光华管理学院 胡健颖 26
练习 1 相关与回归分析
2010-5-13 北京大学光华管理学院 胡健颖 27
练习 1 相关与回归分析
未 解释 变量 或剩余平方和 SSE (有时也称为剩余变差),
由下式得到,
????
????
?
?????
n
i
ii
n
i
i
n
i
i
n
i
ii
YXbYaYYYSSE
111
2
1
2
)(
从图 7 - 3 可以看出,SSE 表示 Y 观察值与预测值之间的
剩余变差(误差),因此,剩余变差反映了数据在回归
直线周围分布的程度。如果这个拟合是完美的,则在回
归直线周围不会形成散点,那么 SSE 等于零。
2010-5-13 北京大学光华管理学院 胡健颖 28
练习二 阿姆德比萨饼连锁店的问题
阿姆德( Armand)比萨饼连锁店坐落在美国的 5个州内,它们
通常的位置是在大学旁边,而且管理人员相信附近大学的人数
与这些连锁店的季度销售额是有关系的。下面是 10家连锁店附
近大学的学生人数和季度销售收入的数据:
根据以上数据,你能否判断学生人数( x)如何影响到销售收
入( y)? 根据一家连锁店附近大学的人数,你能够预测该家连
锁店的季度销售收入吗?
连锁店 1 2 3 4 5 6 7 8 9 10
学生人数/ 千人 2 6 8 8 12 16 20 20 22 26
销售额/ 千元 58 105 88 118 117 137 157 169 149 202
2010-5-13 北京大学光华管理学院 胡健颖 29
描述学生人数和销售收入之间的关系
? 相关系数( 0.95),散点图;
? 根据这些你可以得到什么结论?
0
50
100
150
200
250
0 5 10 15 20 25 30
学生人数/ 千人
季度销售收入/
千元
2010-5-13 北京大学光华管理学院 胡健颖 30
相关分析不能告诉我们什么?
2
2
3
0
50
100
150
200
250
0 5 10 15 20 25 30
学生人数/千人
季度销售收入/千
元
两个不同的散点图
2010-5-13 北京大学光华管理学院 胡健颖 31
回归模型的引入
? 对于给定的学生人数,销售收入是唯一确定的
一个数,还是一个随机变量?
? 学生人数的变化如何影响到销售收入?
? 使用的模型
线性回归模型简单 )(0)(,10 ????? ???? Exy
2010-5-13 北京大学光华管理学院 胡健颖 32
假设误差 ε 服从正态分布,..
? 假设对所有的 x,都有 ε ~ N(0,σ 2)
? 销售收入的模型成为
? 后面的话题,关于以上模型的统计
推断问题
),(~ 210 ??? ii xNY ??,10,,2,1 ????i
2010-5-13 北京大学光华管理学院 胡健颖 33
估计的回归方程
? 如何估计参数 β 0 和 β 1?
? 最小二乘准则
xbby
xbyb
nxx
nyxyx
b
bb
xy
ii
iiii
n
i
ii
10
10
22
1
1010
1
2
10
,
/)(
/)(
),(
)(m i n
10
??
??
?
?
?
???
?
?
? ?
? ? ?
?
估计的回归直线
的点估计和为得出达到最小值点
求解
??
??
??
2010-5-13 北京大学光华管理学院 胡健颖 34
判定系数和相关系数的关系
2
22
Rr
rR
xy
xy
?
?
相关系数
判定系数
2010-5-13 北京大学光华管理学院 胡健颖 35
σ 2的估计
? 模型中等方差的假设
? 理解误差平方和
? σ2的一个无偏估计
s2=MSE=SSE/(n-2)
? s被称为回归方程的标准误差( Standard Error
of Regression),
2
102 )()( ?? ?????
?
iiii xbbYYYS S E
2010-5-13 北京大学光华管理学院 胡健颖 36
阿姆德连锁店的回归直线
? 估计参数
b1=5
b0=60
? 回归直线
? 你对系数 b1的含义怎
么理解?
xy 560 ???
0
50
100
150
200
250
0 5 10 15 20 25 30
学生人数/ 千人
季度销售收入/
千元