第一节 相关分析概述第三节 简单线性回归模型第二节 等级相关与品质相关第四节 多元线性回归模型第十章 相关与回归联系与相互影响是普遍的现象受教育的水平工作后的收入预防疾病支出疾病的发病率事物相互间关系的质的解释:自然的、社会的、经济的、心理的 …
事物相互间关系的量的分析:两变量或多变量间的数量关系。在 可以解释的质的关系基础上 进行相关分析和回归分析
,统计学,第十章 相关与回归第十章 相关与回归相关分析的意义第一节 相关分析概述社会经济现象中,一些现象与另一些现象之间往往存在着依存关系,当我们用变量来反映这些现象的的特征时,便表现为变量之间的依存关系。
在分析变量的依存关系时,我们把变量分为两种:
自变量因变量引起其他变量发生变化的量。
受自变量的影响发生对应变化的量现象之间的相互关系,可以概括为两种不同的类型:
(一)函数关系
(二)相关关系例如:家庭收入决定消费支出,收入的变化必然引起消费支出的变化,这两个变量中收入是 自变量,而消费支出则是 因变量 。
相关分析的意义函数关系 指变量之间存在着确定性依存关系。即当一个或一组变量每取一个值时,相应的另一个变量必然有一个确定值与之对应 。
函数关系可以用一个确定的公式,即函数式
21 rS、圆面积例来表示。
),,,( 21 nxxxfy
或,Y=F( X)
相关关系 指变量之间存在着非确定性依存关系。即当一个或一组变量每取一个值时,相应的另一个变量可能有多个不同值与之对应 。
例 2、根据消费理论,商品需求量 Q与商品价格 P、居民收入 I之间具有相关关系:
相关关系可用统计模型:
21 bb IaPQ
),,,( 21 nxxxfy? 或,Y=F( X) +ε
式中,为影响 Y的除 X外的其他随机因素。
单相关 是两个变量之间存在的相关关系,即一个因变量与一个自变量之间的依存关系。因此也称为 一元相关。
复相关 也称多元相关,是指三个或三个以上变量之间存在的相关关系,
通常涉及一个因变量与两个或更多个自变量,也称 多元相关。
相关关系的种类:
1、按相关关系涉及变量的多少可分为:
直线相关 当自变量 X值每变动一个单位,因变量 Y值则随着发生大致均等的变动,这就是直线相关。亦称为简单相关或一元线性相关。
曲线相关 当自变量 X值每变动一个单位,因变量 Y值则随之发生不均等的变化,这就曲线相关。亦称为一元非线性相关 。
相关关系的种类:
2、按相关关系形式可分为:
正相关 当自变量 X值增加(或减少)时,因变量 Y值也随之增加(或减少),这样的相关关系就是 正相关,也叫 同向相关 。
负相关 当自变量 X的值增加 (或减少)时,因变量 Y的值随之而减少
(或增加),这样的相关关系就是 负相关,也叫 异向相关 。
相关关系的种类:
3、按相关的方向可分为:
体重
90807060504030
身高
180
170
160
150
线性正相关
,统计学,第十章 相关与回归支出
700600500400300200
成绩
100
80
60
40
20
0
线性负相关非线性相关体重
90807060504030
成绩
100
80
60
40
20
0
无(不)相关相关关系的种类:
4、按相关关系的密切程度分为:
完全相关 因变量完全随自变量变动而变动,存在着严格的依存关系 。即变量间的关系为 函数关系 。
不完全相关 变量之间存在着 不严格的依存关系,即因变量的变动除了受自变量变动的影响外,
还受其他因素的影响。它是相关关系的 主要表现形式。
完全不相关 自变量与因变量彼此 独立,互不影响,其数量变化 毫无联系 。。
( 1)确定现象之间有无相关关系,以及相关关系的表现形态。
( 2)确定相关关系的密切程度。
( 3)确定相关关系的数字模型,并进行参数估计和拟合优度检验。
( 4)回归预测,并分析估计标准误差。
相关分析的主要内容包括,
相关关系的测定定性分析是依据研究者的 理论知识和实践经验,对客观现象之间是否存在相关关系,以及何种关系作出判断定量分析在定性分析的基础上,通过编制 相关表,绘制 相关图,计算 相关系数与 判定系数 等方法,来判断现象之间相关的方向、形态及密切程度相关表相关关系的测定将两个变量伴随变动结果编成一张统计表,即 相关表 。
简单相关表 两个变量 均不分组 而形成的相关表。
分组相关表 对变量进行 分组 而形成的相关表。依两个变量是否同时分组,
又分为:
单变量分组相关表单变量分组相关表只对其中一个变量分组。
对两个变量同时分组。
简单相关表适用于所观察的样本 单位数较少,不需要分组 的情况分组相关表适用于所观察的 样本单位数较多,标志变异又较复杂,
需要分组的情况两种相关表的适用范围企业编号 月产量(千吨) X 生产费用(万元) Y
1
2
3
4
5
6
7
8
1.2
2.0
3.1
3.8
5.0
6.1
7.2
8.0
62
86
80
110
115
132
135
160
八个同类工业企业的月产量与生产费用简单相关表平均每昼夜产量固定资产原值
35~
40
40~
45
45~
50
50~ 55 55~ 60 60~
65
65~
70
600~ 650 1 1
550~ 600 1 2 3
500~ 550 2 1 3
450~ 500 1 5 1 7
400~ 450 2 2 4
350~ 400 0
300~ 350 2 2
2 2 3 5 4 3 1 20
(百万元)
(吨)?
Yf
Xf
20个同类工业企业固定资产原值与平均每昼夜产量分组相关表相关图相关关系的测定将变量之间的伴随变动绘于坐标图上所形成的统计图。又称 散点图 。
简单相关图 根据 未分组资料 的原始数据直接绘制的相关图。
分组相关图 根据 分组资料 绘制的相关图。
正 相 关 负 相 关 曲线相关 不 相 关 x
y
x
y
x
y
x
y
用直角坐标系的 x轴代表自变量,y轴代表因变量,将两个变量间相对应的变量值用坐标点的形式描绘出来,用以表明相关点分布状况的图形。
相关关系的测定相关图的绘制体重
90807060504030
身高
180
170
160
150
X
Y
,统计学,第十章 相关与回归在 直线相关 的条件下,用以反映 两变量 间线性相关 密切程度的统计指标,用 r表示
22
22
22
2
)(
yynxxn
yxxyn
nyynxx
nyyxx
SS
S
r
yx
xy
相关系数其基本算法是英国统计学家皮尔逊所创的乘积动差法,简称积差法。
相关关系的测定相关系数 r的取值范围,-1≤r≤1
0<|r|<1表示存在 不同程度线性相关,
|r| < 0.4 为低度线性相关;
0.4≤ |r| < 0.7为显著性线性相关;
0.7≤|r| < 1.0为 高度 显著性线性相关。
r>0 为 正相关,r < 0 为 负相关 ;
|r|=0 表示不存在线性关系;
|r|= 1 表示 完全线性相关 ;
序号 能源消耗量(十 万吨) x 工业总产值(亿元) y x2 y2 xy
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
35
38
40
42
49
52
54
59
62
64
65
68
69
71
72
76
24
25
24
28
32
31
37
40
41
40
47
50
49
51
48
58
1225
1444
1600
1764
2401
2704
2916
3481
3844
4096
4225
4624
4761
5041
5184
5776
576
625
576
784
1024
961
1369
1600
1681
1600
2209
2500
2401
2601
2304
3364
840
950
960
1176
1568
1612
1998
2360
2542
2560
3055
3400
3381
3621
3456
4408
合计 916 625 55086 26175 37887
【 例 】 计算工业总产值与能源消耗量之间的相关系数 资料
9520.09757.0
9757.0
62526175169165508616
6259163788716
)(
26175,55086,37887
,625,916,16
22
22
22
2
2
22
r
yynxxn
yxxyn
r
yxxy
yxn解:已知结论,工业总产值与能源消耗量之间存在高度的正相关关系,能源消耗量 x的变化能够解释工业总产值 y变化的 95.2﹪ 。
相关系数的计算相关系数的统计检验根据样本的相关系数,在一定的置信度水平下,总体的相关系数将在什么范围内?计算相关系数的样本,是否来自并无相关的总体?对这些的问题的研究,
就是我们所要回答的相关系数的统计推断问题。
线性相关的显著性检验相关系数的显著性检验( t检验法)
⒈ 提出假设:
0:0,10 HH
目的 检验 总体 两变量间线性相关性是否显著步骤
⒉ 构造检验统计量:
)2(~12 2 ntrnrt
相关系数的显著性检验( t检验法)
⒊ 根据给定的显著性水平?,确定临界值 ;
2?t
⒌ 计算检验统计量并做出决策。
22 ntt?
⒋ 确定原假设的拒绝规则,
22 ntt?若,则接受 H0,表示总体两变量间线性相关性不显著 ;
若,则拒绝 H0,表示总体两变量间线性相关性显著步骤学生身高 体重 估计值
A
B
C
D
E
F
G
H
I
J
158
160
162
164
166
168
170
172
174
176
47
50
48
55
62
60
52
61
70
65
24964
25600
26244
26896
27556
28224
28900
29584
30276
30976
2209
2500
2304
3025
3844
3600
2704
3721
4900
4225
7426
8000
7776
9020
10292
10080
8840
10492
12180
11440
47.29
49.45
51.61
53.76
55.92
58.08
60.24
62.39
64.55
66.71
-9.71
-7.55
-5.39
-3.24
-1.08
1.08
3.24
5.39
7.55
9.71
-10
-7
-9
-2
5
3
-5
4
13
8
1670 570 279220 33032 95546 - 0 0
2x
x
y
2y xy
y?
yy yy?
8418.0
54203300
3560
5703303210167027922010
57016709554610
)()(
22
2222
yynxxn
yxxyn
r
8 4 1 8.0?r
411.4
8418.01
2108418.0
1
2
22
r
nr
t
411.4?t
31.2)210()2( 0 2 5.02 tnt?
31.2)8(411.4 02 5.0 tt
检验统计量落入拒绝域中,故拒绝原假设,
接受备择假设。即可以认为? 明显地不等于零,相关关系是显著的。
【 例 】 检验工业总产值与能源消耗量之间的线性相关性是否显著 资料
线性相关性显著。,表示总体的两变量间拒绝有:
0
0 2 5.0
2
2
1 4 4 8.21426 6 1 6.16
6 6 1 6.169 7 5 7.012169 7 5 7.0
H
tntt
t
00:H
0:0:
,05.0,97 57.0,16
10
HH
rn
提出假设:
则解:已知当 成立时,则统计量
)2(~12 2 ntrnrt
相关关系不等于因果关系;
相关系数只度量变量间的线性关系,
因此,弱相关不一定表明变量间没有关系;
极端值可能影响相关系数。
注意相关关系成立的数据范围。
警惕虚假相关使用相关系数时应注意的问题:
,统计学,第十章 相关与回归第二节 等级相关与品质相关等级相关由于社会经济现象的复杂性,有许多情形难以以精确数字形成统计数列,而只能根据主观判断,评定等级,依次排列。如对事态轻重、才智高低、艺术水平等的评价,
都只能依据评判者的知识、经验、感受、有关规则等,
作出相对大小的等级评定。
定序尺度的变量之间的相关关系。
等级相关系数的计算
)1(
6
1 2
2
nn
d i
该公式是由斯皮尔曼提出的,故也称为斯皮尔曼等级相关系数。
等级相关见书例演员编号等级 等级差
d=x-y d
2
1999年 x 2000年 y
( 1)
( 2)
( 3)
( 4)
( 5)
( 6)
( 7)
( 8)
( 9)
( 10)
∑
1
2
3
4
5
6
7
8
9
10
--
2
1
3
8
4
7
9
6
5
10
--
-1
1
0
-4
1
1
-2
2
4
0
0
1
1
0
16
1
1
4
4
16
0
44
7 3 3 4.0)11 0 0(10 4461)1(61 2
2
nn d i?
回归:退回
regression
1877年 弗朗西斯?高尔顿爵士 遗传学研究 回归线平均身高
,统计学,第十章 相关与回归第三节 简单线性回归模型回归分析法产生的历史
回归分析法。由著名的英国生物学家、统计学家高尔顿( F.Gallton) —— 达尔文的表弟所创。
早年,高尔顿致力于化学和遗传学领域的研究。
他研究父亲们的身高与儿子们的身高之间的关系时,建立了回归分析法。
父亲们的身高与儿子们的身高之间关系的研究
1889年 F.Gallton和他的朋友 K.Pearson收集了上千个家庭的身高、臂长和腿长的记录
企图寻找出儿子们身高与父亲们身高之间关系的具体表现形式
下图是根据 1078个家庭的调查所作的散点图
(略图)
回归分析法产生的历史
y
x
160
165
170
175
180
185
140 150 160 170 180 190 200
Y
X
儿子们身高向着平均身高“回归”,以保持种族的稳定回归分析法产生的历史
从图上虽可看出,个子高的父亲确有生出个子高的儿子的倾向,同样地,个子低的父亲确有生出个子低的儿子的倾向。得到的具体规律如下:
如此以来,高的伸进了天,低的缩入了地。他百思不得其解,同时又发现某人种的平均身高是相当稳定的。最后得到结论:儿子们的身高回复于全体男子的平均身高,即“回归” ——
见 1889年 F.Gallton的论文,普用回归定律,。
后人将此种方法普遍用于寻找变量之间的规律
xy
ubxay
516.033.84
回归分析法产生的历史第三节 简单线性回归模型回归分析 通过一个变量 x或一些变量 (x1,x2,x3… )的变化解释另一变量 y的变化,即根据相关关系的数量表达式(回归方程式)与给定的 自变量 x,揭示 因变量 y在数量上的平均变化和求得因变量的预测值的统计分析方法回归:退回
regression
回归方程回归模型反映自变量和因变量之间数学联系的表达式。
某一类回归方程的总称。
自变量 (independent variable):解释变量,给定的或可以控制的、用来解释、
预测应变量的变量。
因变量 (dependent variable):响应变量,由自变量来解释其变化的变量。
X
Y
X
Y
,统计学,第十章 相关与回归回归分析的内容和步骤
1,根据理论和对问题的分析判断,
区分自变量和因变量;
2,设法找出适合的数学方程式 (即回归模型 )描述变量间的关系
3,对回归模型进行统计检验;
4,统计检验通过后,利用回归模型,根据解释变量去估计,预测因变量。
回归分析的分类根据变量的多少分为:
简单回归多元回归只有一个自变量和一个因变量的回归自变量数目在两个或两个以上根据建立的回归模型形式分为:
线性回归非线性回归从所拟合的回归模型来看,一变量表现为其它变量的线性组合。
从所拟合的回归模型来看,一变量表现为其它变量的非线性组合回归分析与相关分析
理论和方法具有一致性;
无相关就无回归,相关程度越高,
回归越好;
相关系数和回归系数方向一致,可以互相推算。
联系:
相关分析中 x与 y对等,回归分析中 x与 y
要确定自变量和因变量;
相关分析中 x,y均为随机变量,回归分析中只有 y为随机变量;
相关分析测定相关程度和方向,回归分析用回归模型进行预测和控制。
回归分析与相关分析区别:
简单线性回归模型指根据成对的两个变量的数值,配合直线方程式,根据自变量的变动,来推算因变量发展变动趋势的方法,其模型为:
iii BxAy
其中,Yi表示因变量 Y在总体中某一个具体的观察值; Xi表示在研究总体中自变量 X的具体观察数值; A与 B是参数,称为回归系数;
ε i是一个随机变量,其平均数为 0,方差为 σ 2,
总体回归模型总体一元线性回归模型:
XY 10?
模型参数误差项假定:
E(?)=0
总体一元线性回归方程:
XY 10
,统计学,第十章 相关与回归简单线性回归模型的假设
1、正态性假定
3、线性假定
2、同方差假定
4、独立性假定当确定某一个 Xi时,相应的 Y就有许多
Yi值与之对应。 Yi是一个随机变量,
这些 Yi构成一个在 X取值为 Xi条件下的条件分布、并假设其服从正态分布。
假定所有 Yi这一条件分布的方差是相等的。
假定所有 Yi这一条件分布的平均数位于一条直线上,这条直线为
Yi=A+BX,
假定 Yi之间是独立的,也就是说抽样时,Y的值在每取一个 X值的条件分布相互独立。
一元线性回归模型的假定
x
y
0?x
1xx?
2xx?
3xx? xyE)(
)(yf
xy
0)(E
0),(?jiCo v
2)()(
ii yV a rV a r
0),(?ii xC o v?
)( iyE
)( iyf
在实际应用中,我们对 X和 Y所代表的总体往往不可能全面的观察和了解,而只能从中抽取部分资料作为样本,并通过样本提供的信息来认识总体,找出总体回归模型的估计式,其估计式的方程式可写为,
简单线性回归模型
iii ebxay
其中,a,b和 ei分别为 A,B及 ε i
由于抽样的随机性,使样本回归线不可能与总体回归完全重合,从而会出现样本回归函数高估或低估总体回归函数的情况,我们能做的就是设法使样本回归函数尽可能接近总体回归函数,也就是说要使回归方程参数的估计值 a,b尽量接近总体真实参数 A,B
样本回归模型一元线性回归方程的几何意义
)(YE
X
XY
截距 斜率一元线性回归方程的可能形态
为正?为负?为 0
回归直线的拟合
BXAYEY
总体一元线性回归方程,
样本一元线性回归方程:
bxay
以样本统计量估计总体参数斜率(回归系数)截距截距 a 表示在没有自变量 x的影响时,其它各种因素对因变量 y的平均影响; 回归系数 b 表明自变量 x每变动一个单位,因变量 y平均变动 b个单位。
(估计的回归方程 )
iiii ybxay
y
yxbxay
)(
值应为的实际而变量之间的平均变动关系,
变量与是理论模型,表明随机干扰,各种偶然因素、观察误差和其他被忽视因素的影响
X对 y的线性影响而形成的系统部分,反映两变量的平均变动关系,
即本质特征。
1 0§ éú μ? éí ó? ì é¢ μ? í?
4 0
4 5
5 0
5 5
6 0
6 5
7 0
7 5
1 5 8 1 6 3 1 6 8 1 7 3 1 7 8
éí £¨ X £?
ì?
£¨Y
£?
bxay
bxay
残差 (Residual):e
一元线性回归方程中参数 a,b的确定,bxay
最小平方法基本数学要求
m in)?(
0?
2yy
yy
02
012
m i n,m i n)?(
22
xbxay
bxay
ba
bxayyy
,有求偏导数,并令其为零、分别对函数中
,有由整理得到由两个关于 a,b的二元一次方程组成的方程组:
2xbxaxy
xbnay
xby
n
x
b
n
y
a
xxn
yxxyn
b
22
)(
进一步整理,有:
1 0§ éú μ? éí ó? ì é¢ μ? í?
4 0
4 5
5 0
5 5
6 0
6 5
7 0
7 5
1 5 8 1 6 0 1 6 2 1 6 4 1 6 6 1 6 8 1 7 0 1 7 2 1 7 4 1 7 6 1 7 8
éí £¨ X £?
ì?
£¨Y
£?
学生身高
x
体重
y x
2 y2 xy 估计值
残差
y-?
A
B
C
D
E
F
G
H
I
J
158
160
162
164
166
168
170
172
174
176
47
50
48
55
62
60
52
61
70
65
24964
25600
26244
26896
27556
28224
28900
29584
30276
30976
2209
2500
2304
3025
3844
3600
2704
3721
4900
4225
7426
8000
7776
9020
10292
10080
8840
10492
12180
11440
47.291
49.448
51.606
53.764
55.921
58.079
60.236
62.394
64.552
66.709
-0.291
0.552
-3.606
1.236
6.079
1.921
-8.236
-1.394
5.448
-1.709
1670 570 279220 33032 95546 - 0
1 5 9 6.1231670 7 8 8.157
0 7 8 8.1
1 6 7 02 7 9 2 2 010
5701 6 7 09 5 5 4 610
2
a
b
xy 0 7 88.11 5 96.123
571 6 70 7 8 8.11 5 9 6.1 2 3?
1 6 7
y
x
【 分析 】 因为工业总产值与能源消耗量之间存在高度正相关关系( ),
所以可以拟合工业总产值对能源消耗量的线性回归方程。
9 5 2 0.0,9 7 5 7.0 2 rr
【 例 】 建立工业总产值对能源消耗量的线性回归方程 资料
,5 5 0 8 6,3 7 8 8 7
,625,916,16
2xxy
yxn由计算表知解:设 线性回归方程为 bxay
5 1 42.6
16
916
7 9 61.0
16
625
7 9 61.0
9165 5 08 616
6259163 7 88 716
222
xbya
xxn
yxxyn
b
即 线性回归方程为:
xy 7961.05142.6
计算结果表明,在其他条件不变时,能源消耗量每增加一个单位(十万吨),工业总产值将增加 0.7961个单位(亿元)。
最小二乘法估计的优良性质
残差之和为零
所拟合直线通过样本散点图的重心
误差项与解释变量不相关
a与 b分别是总体回归系数的无偏估计量
a与 b均为服从正态分布的随机变量
)
)(
,(~)
)(
,(~ 2
2
2
22
xx
Nb
xx
x
Na
0 e
),( yx
0))(( xxee
)()( bEaE
b与 r的关系:
r> 0 r< 0 r=0
b> 0 b< 0 b=0
x
y
y
x
S
S
rb
S
S
br ;
回归模型的检验
1、拟合优度检验确定回归直线后,需要评价这一直线方程是否有效地反映了这两变量之间的关系。评价回归方程配合好坏的一个主要指标是 判定系数 (或称确定系数 )
是相关系数的平方,用 表示;用来衡量回归方程对 y的解释程度。
2r
10 2 r判定系数取值范围,
2r
越接近于 1,表明 x与 y之间的相关性越强; 越接近于 0,表明两个变量之间几乎没有直线相关关系,2r
判定系数
1 0§ éú μ? éí ó? ì é¢ μ? í?
4 0
4 5
5 0
5 5
6 0
6 5
7 0
7 5
1 5 8 1 6 0 1 6 2 1 6 4 1 6 6 1 6 8 1 7 0 1 7 2 1 7 4 1 7 6 1 7 8
éí £¨ X £?
ì?
£¨Y
£?
y
y?
yy?
yy
yy
2)( yyS S T
2)?( yyS S E
2)?( yyS S R
误差平方和回归平方和总离差平方和总偏差 = 回归偏差 + 剩余偏差
r2表示全部偏差中有百分之几的偏差可由 x与 y的回归关系来解释
r 的符号同 b
数量关系及意义
2222 )()(
yynxxn
yxxyn
r
判定系数与相关系数的关系
2)( rbr 的符号?
))(())((
)(
2222
2
2
yynxxn
yxxyn
r
学生身高 体重 估计值
A
B
C
D
E
F
G
H
I
J
158
160
162
164
166
168
170
172
174
176
47
50
48
55
62
60
52
61
70
65
24964
25600
26244
26896
27556
28224
28900
29584
30276
30976
2209
2500
2304
3025
3844
3600
2704
3721
4900
4225
7426
8000
7776
9020
10292
10080
8840
10492
12180
11440
47.29
49.45
51.61
53.76
55.92
58.08
60.24
62.39
64.55
66.71
-9.71
-7.55
-5.39
-3.24
-1.08
1.08
3.24
5.39
7.55
9.71
-10
-7
-9
-2
5
3
-5
4
13
8
1670 570 279220 33032 95546 - 0 0
x
y
2x
2y xy
y?
yy yy?
7085.0
542
384
)(
)?(
2
2
2
yy
yy
SST
SSR
r
7 0 8 6.0
5 4 2 03 3 0 0
3 5 6 0
)5 7 03 3 0 3 210()1 6 7 02 7 9 2 2 010(
)5 7 01 6 7 09 5 5 4 610(
))(())((
)(
2
22
2
2222
2
2
yynxxn
yxxyn
r
7 0 86.0
542
05.384
57103 3 03 2 0
57109 5 54 60 7 88.15701 5 96.123
2
2
22
2
2
yny
ynxybya
r
判定系数与相关系数的区别:
判定系数 无方向性,相关系数 则有方向,
其方向与样本回归系数 b 相同;
判定系数 说明变量值的总离差平方和中可以用回归线来解释的比例,相关系数只说明两变量间关联程度及方向;
相关系数 有夸大变量间相关程度的倾向,
因而 判定系数 是更好的度量值。
22 )( yynLSST yy
22
2
)(
)(
xxn
yxxyn
USSR
2)( bxayQS S E
Lyy=U+Q
总离差平方和回归平方和误差平方和回归分析中我们最关心的是:
X 与 Y 是否有真正的相关关系。即:
0?0 11
01
01
01
,统计学,第十章 相关与回归回归系数的检验
提出假设;
确定检验统计量;
给定显著性水平,确定临界值;
确定原假设的拒绝规则;
计算检验统计量并做出决策。
0:0,1110 HH
bbt )( 1
2, t
22 ttt
,统计学,第十章 相关与回归统计理论已经证明
1)(bE
22
2
2
2
)(
1)(
x
n
x
xx
e
b
e
b
)2(~
)(
1
0
22
nt
x
n
xb
b
t
eb
2?
n
S S E
S ee?
,统计学,第十章 相关与回归学生身高 体重 估计值
A
B
C
D
E
F
G
H
I
J
158
160
162
164
166
168
170
172
174
176
47
50
48
55
62
60
52
61
70
65
24964
25600
26244
26896
27556
28224
28900
29584
30276
30976
2209
2500
2304
3025
3844
3600
2704
3721
4900
4225
7426
8000
7776
9020
10292
10080
8840
10492
12180
11440
47.29
49.45
51.61
53.76
55.92
58.08
60.24
62.39
64.55
66.71
-9.71
-7.55
-5.39
-3.24
-1.08
1.08
3.24
5.39
7.55
9.71
-10
-7
-9
-2
5
3
-5
4
13
8
1670 570 279220 33032 95546 - 0 0
2x
2y xy
y?
yy yy?x
y
0788.1?b 5 4 2?S S T 384?SSR 1 5 8?S S E
444.4?eS 41.4?t
5421057033032
)(
1
2
22
y
n
ySST
384
101 6 7 02 7 9 2 2 0
)105701 6 7 09 5 5 4 6(
)(
1
)
1
(
2
2
22
2
x
n
x
yx
n
xy
SSR
158384542
SSRSSTSSE
4 4 4.4
210
1 5 8
2
n
SSE
S e
41.4
444.4
1016702792200788.1
)(
1
2
22
e
S
x
n
xb
t
31.2)8(41.4 025.0 tt
检验统计量落入拒绝域中,故拒绝原假设,
接受备择假设。即可以认为 b 明显地不等于零,X 与 Y 是显著的。
31.2)210()2( 0 2 5.02 tnt?
F检验是基于 F分布进行的,是方差分析内容之一。
方差来源 平方和 自由度 均方 F值回归误差总计
SSR
SSE
SST
1
n-2
n-1 2
1
n
SSE
M SE
SSR
M SR
M S E
M S RF?
均方回归 均方误差
,统计学,第十章 相关与回归
当?1 = 0 时,SSR= 0,则 F值 =0。
当?1? 0 时,SSR> 0,则 F值 >0。
当我们设?1 = 0 时,则较大的 F值将推翻这一假设。
)2,1(~ nF
M S E
M S RF
384?SSR 1 5 8?S S E
32.5)8,1(),( 05.021 FnnF?
44.19
81 5 8
3 8 4
2
1
nSSE
SSR
M S E
M S RF
0:0,1110 HH
FF?
故拒绝原假设,接受备择假设,
即认为回归方程是显著的。
,统计学,第十章 相关与回归
y
bxay
x
0x
估计的前提:回归方程经过检验,证明 X 和 Y 的关系在统计上是显著的。
回归分析的点估计:对于给定的 X 值,
求出 Y 平均值的一个估计值或 Y 的一个个别值。
若 x = 169,则:
Y
y
16.59
1 6 90 7 8 8.11 5 9 6.1 2 3?
xy 0 7 88.11 5 96.123
,统计学,第十章 相关与回归
利用点估计得到的 Y平均值的点估计值和 Y的一个个别值其结果是相同的。
点估计不能提供估计量的精确度。
在样本自变量取值范围之外进行预测要特别谨慎。
,统计学,第十章 相关与回归使用点估计应注意的问题:
回归分析的区间估计:对于给定的 X 值,求出 Y 的平均值的 置信区间或 Y 的一个个别值的 预测区间 。
y
bxay
x
0x
,统计学,第十章 相关与回归
Y 的平均值的置信区间估计
XY 10
总体的回归模型
bxay
样本回归方程如果样本回归方程通过检验,则:
XyE 10)?(
如果给定 x = x0,则有:
00? bxay
分布形态?
,统计学,第十章 相关与回归可以证明,?0 是服从正态分布的,
其数学期望:
其方差:
其标准差:
0100 )?( XyE
nxx
xx
n
y 22
2
022
)(
)(1
nxx
xx
n
y 22
2
0
)(
)(1
,统计学,第十章 相关与回归
nxx
xx
n
ty
22
2
0
20
)(
)(1
对于给定的 x = x0,Y 的 1-?置信区间为:
yty?20
也就是:
2?
n
SSES
e
自由度为 n-2的 t 分布的? 水平双侧分位数
,统计学,第十章 相关与回归学生身高 体重 估计值
A
B
C
D
E
F
G
H
I
J
158
160
162
164
166
168
170
172
174
176
47
50
48
55
62
60
52
61
70
65
24964
25600
26244
26896
27556
28224
28900
29584
30276
30976
2209
2500
2304
3025
3844
3600
2704
3721
4900
4225
7426
8000
7776
9020
10292
10080
8840
10492
12180
11440
47.29
49.45
51.61
53.76
55.92
58.08
60.24
62.39
64.55
66.71
-9.71
-7.55
-5.39
-3.24
-1.08
1.08
3.24
5.39
7.55
9.71
-10
-7
-9
-2
5
3
-5
4
13
8
1670 570 279220 33032 95546 - 0 0
2x
x
y
2y xy
y?
yy yy?
xy 0788.11596.123 444.4?eS
若令?=0.05,则有 t?/2( n-2) = 2.31
257.60,743.53
41.131.257?
571670788.11596.123?
41.1
10
1
444.4
101670279220
)167167(
10
1
444.4:167
20
0
2
2
y
y
ty
y
x
当 时,得到最小值。当 时,的值随 的减少或增加而逐步增大。
xx? y
xx? y
x
1 0§ éú μ? éí ó? ì é¢ μ? í?
4 0
4 5
5 0
5 5
6 0
6 5
7 0
7 5
1 5 8 1 6 0 1 6 2 1 6 4 1 6 6 1 6 8 1 7 0 1 7 2 1 7 4 1 7 6 1 7 8
éí £¨ X £?
ì?
£¨Y
£?
x
,统计学,第十章 相关与回归
Y 的个别值的置信区间估计对于给定的 X= X0,如果要预测 Y 的一个个别值 Y0 的置信区间,则其相应的残差为:
Y 的个别值相对于其平均值的方差当 X=X0时,
所估计的 Y0
的方差组成 与用? 估计 Y平均值相联系的方差
2?
2
y?
000?YY
,统计学,第十章 相关与回归即,Y0的方差为:
nxx
xx
ny 22
2
0222
)(
)(1
0
2
y?
nxx
xx
ny 22
2
022
)(
)(1
1
0?
即:
则,Y 的一个个别值 Y0 的标准差的估计值为:
nxx
xx
n
S ey
22
2
0
)(
)(1
1
0
,统计学,第十章 相关与回归对于给定的 X0,Y 的一个个别值 Y0 的预测区间估计值为:
020 y
ty
也就是:
nxx
xx
n
Sty e
22
2
0
20
)(
)(1
1
与估计 Y的平均值公式相比,
此公式中多了一项,1”,因此,
这个置信区间要相对大一些
,统计学,第十章 相关与回归学生身高 体重 估计值
A
B
C
D
E
F
G
H
I
J
158
160
162
164
166
168
170
172
174
176
47
50
48
55
62
60
52
61
70
65
24964
25600
26244
26896
27556
28224
28900
29584
30276
30976
2209
2500
2304
3025
3844
3600
2704
3721
4900
4225
7426
8000
7776
9020
10292
10080
8840
10492
12180
11440
47.29
49.45
51.61
53.76
55.92
58.08
60.24
62.39
64.55
66.71
-9.71
-7.55
-5.39
-3.24
-1.08
1.08
3.24
5.39
7.55
9.71
-10
-7
-9
-2
5
3
-5
4
13
8
1670 570 279220 33032 95546 - 0 0
2x
x
y
2y xy
y?
yy yy?
xy 0788.11596.123 444.4?eS
若令?=0.05,则有 t?/2( n-2) = 2.31
767.67,233.46
661.431.257
571670788.11596.123
661.4
10
1
1444.4
101670279220
)167167(
10
1
1444.4:167
0
0
20
0
2
2
y
y
ty
y
x
当 时,得到最小值。当 时,的值随 的减少或增加而逐步增大。
xx?
0y
xx?
0y
x
1 0§ éú μ? éí ó? ì é¢ μ? í?
3 5
4 0
4 5
5 0
5 5
6 0
6 5
7 0
7 5
8 0
1 5 8 1 6 0 1 6 2 1 6 4 1 6 6 1 6 8 1 7 0 1 7 2 1 7 4 1 7 6 1 7 8
éí £¨ X £?
ì?
£¨Y
£?
x
,统计学,第十章 相关与回归回归方程的估计与预测估计的前提,回归方程经过检验,证明
X 和 Y 的关系在统计上是显著相关的。
对于给定的 X 值,求出 Y 平均值的一个估计值或 Y 的一个个别值的预测值。
对于给定的 X 值,求出 Y 的平均值的 置信区间 或 Y 的一个个别值的 预测区间。
点估计区间估计点估计
0x
bxay
y
x
xy 7 9 6 1.05 1 4 2.6对于若 x = 80(十万吨),则:
亿元1738.57807961.05142.6y
y
bxay
x
0x
区间估计对于给定的 x = x0,Y 的 1-?置信区间为
yty?20
自由度为 n-2的 t 分布的? 水平双侧分位数
nxx
xx
n
ty
22
2
0
20
)(
)(1
1?
即:
2
2
n
xybyay
S e
在大样本条件下,近似有:
2
2
2020
n
xybyay
ZySZy e
事物相互间关系的量的分析:两变量或多变量间的数量关系。在 可以解释的质的关系基础上 进行相关分析和回归分析
,统计学,第十章 相关与回归第十章 相关与回归相关分析的意义第一节 相关分析概述社会经济现象中,一些现象与另一些现象之间往往存在着依存关系,当我们用变量来反映这些现象的的特征时,便表现为变量之间的依存关系。
在分析变量的依存关系时,我们把变量分为两种:
自变量因变量引起其他变量发生变化的量。
受自变量的影响发生对应变化的量现象之间的相互关系,可以概括为两种不同的类型:
(一)函数关系
(二)相关关系例如:家庭收入决定消费支出,收入的变化必然引起消费支出的变化,这两个变量中收入是 自变量,而消费支出则是 因变量 。
相关分析的意义函数关系 指变量之间存在着确定性依存关系。即当一个或一组变量每取一个值时,相应的另一个变量必然有一个确定值与之对应 。
函数关系可以用一个确定的公式,即函数式
21 rS、圆面积例来表示。
),,,( 21 nxxxfy
或,Y=F( X)
相关关系 指变量之间存在着非确定性依存关系。即当一个或一组变量每取一个值时,相应的另一个变量可能有多个不同值与之对应 。
例 2、根据消费理论,商品需求量 Q与商品价格 P、居民收入 I之间具有相关关系:
相关关系可用统计模型:
21 bb IaPQ
),,,( 21 nxxxfy? 或,Y=F( X) +ε
式中,为影响 Y的除 X外的其他随机因素。
单相关 是两个变量之间存在的相关关系,即一个因变量与一个自变量之间的依存关系。因此也称为 一元相关。
复相关 也称多元相关,是指三个或三个以上变量之间存在的相关关系,
通常涉及一个因变量与两个或更多个自变量,也称 多元相关。
相关关系的种类:
1、按相关关系涉及变量的多少可分为:
直线相关 当自变量 X值每变动一个单位,因变量 Y值则随着发生大致均等的变动,这就是直线相关。亦称为简单相关或一元线性相关。
曲线相关 当自变量 X值每变动一个单位,因变量 Y值则随之发生不均等的变化,这就曲线相关。亦称为一元非线性相关 。
相关关系的种类:
2、按相关关系形式可分为:
正相关 当自变量 X值增加(或减少)时,因变量 Y值也随之增加(或减少),这样的相关关系就是 正相关,也叫 同向相关 。
负相关 当自变量 X的值增加 (或减少)时,因变量 Y的值随之而减少
(或增加),这样的相关关系就是 负相关,也叫 异向相关 。
相关关系的种类:
3、按相关的方向可分为:
体重
90807060504030
身高
180
170
160
150
线性正相关
,统计学,第十章 相关与回归支出
700600500400300200
成绩
100
80
60
40
20
0
线性负相关非线性相关体重
90807060504030
成绩
100
80
60
40
20
0
无(不)相关相关关系的种类:
4、按相关关系的密切程度分为:
完全相关 因变量完全随自变量变动而变动,存在着严格的依存关系 。即变量间的关系为 函数关系 。
不完全相关 变量之间存在着 不严格的依存关系,即因变量的变动除了受自变量变动的影响外,
还受其他因素的影响。它是相关关系的 主要表现形式。
完全不相关 自变量与因变量彼此 独立,互不影响,其数量变化 毫无联系 。。
( 1)确定现象之间有无相关关系,以及相关关系的表现形态。
( 2)确定相关关系的密切程度。
( 3)确定相关关系的数字模型,并进行参数估计和拟合优度检验。
( 4)回归预测,并分析估计标准误差。
相关分析的主要内容包括,
相关关系的测定定性分析是依据研究者的 理论知识和实践经验,对客观现象之间是否存在相关关系,以及何种关系作出判断定量分析在定性分析的基础上,通过编制 相关表,绘制 相关图,计算 相关系数与 判定系数 等方法,来判断现象之间相关的方向、形态及密切程度相关表相关关系的测定将两个变量伴随变动结果编成一张统计表,即 相关表 。
简单相关表 两个变量 均不分组 而形成的相关表。
分组相关表 对变量进行 分组 而形成的相关表。依两个变量是否同时分组,
又分为:
单变量分组相关表单变量分组相关表只对其中一个变量分组。
对两个变量同时分组。
简单相关表适用于所观察的样本 单位数较少,不需要分组 的情况分组相关表适用于所观察的 样本单位数较多,标志变异又较复杂,
需要分组的情况两种相关表的适用范围企业编号 月产量(千吨) X 生产费用(万元) Y
1
2
3
4
5
6
7
8
1.2
2.0
3.1
3.8
5.0
6.1
7.2
8.0
62
86
80
110
115
132
135
160
八个同类工业企业的月产量与生产费用简单相关表平均每昼夜产量固定资产原值
35~
40
40~
45
45~
50
50~ 55 55~ 60 60~
65
65~
70
600~ 650 1 1
550~ 600 1 2 3
500~ 550 2 1 3
450~ 500 1 5 1 7
400~ 450 2 2 4
350~ 400 0
300~ 350 2 2
2 2 3 5 4 3 1 20
(百万元)
(吨)?
Yf
Xf
20个同类工业企业固定资产原值与平均每昼夜产量分组相关表相关图相关关系的测定将变量之间的伴随变动绘于坐标图上所形成的统计图。又称 散点图 。
简单相关图 根据 未分组资料 的原始数据直接绘制的相关图。
分组相关图 根据 分组资料 绘制的相关图。
正 相 关 负 相 关 曲线相关 不 相 关 x
y
x
y
x
y
x
y
用直角坐标系的 x轴代表自变量,y轴代表因变量,将两个变量间相对应的变量值用坐标点的形式描绘出来,用以表明相关点分布状况的图形。
相关关系的测定相关图的绘制体重
90807060504030
身高
180
170
160
150
X
Y
,统计学,第十章 相关与回归在 直线相关 的条件下,用以反映 两变量 间线性相关 密切程度的统计指标,用 r表示
22
22
22
2
)(
yynxxn
yxxyn
nyynxx
nyyxx
SS
S
r
yx
xy
相关系数其基本算法是英国统计学家皮尔逊所创的乘积动差法,简称积差法。
相关关系的测定相关系数 r的取值范围,-1≤r≤1
0<|r|<1表示存在 不同程度线性相关,
|r| < 0.4 为低度线性相关;
0.4≤ |r| < 0.7为显著性线性相关;
0.7≤|r| < 1.0为 高度 显著性线性相关。
r>0 为 正相关,r < 0 为 负相关 ;
|r|=0 表示不存在线性关系;
|r|= 1 表示 完全线性相关 ;
序号 能源消耗量(十 万吨) x 工业总产值(亿元) y x2 y2 xy
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
35
38
40
42
49
52
54
59
62
64
65
68
69
71
72
76
24
25
24
28
32
31
37
40
41
40
47
50
49
51
48
58
1225
1444
1600
1764
2401
2704
2916
3481
3844
4096
4225
4624
4761
5041
5184
5776
576
625
576
784
1024
961
1369
1600
1681
1600
2209
2500
2401
2601
2304
3364
840
950
960
1176
1568
1612
1998
2360
2542
2560
3055
3400
3381
3621
3456
4408
合计 916 625 55086 26175 37887
【 例 】 计算工业总产值与能源消耗量之间的相关系数 资料
9520.09757.0
9757.0
62526175169165508616
6259163788716
)(
26175,55086,37887
,625,916,16
22
22
22
2
2
22
r
yynxxn
yxxyn
r
yxxy
yxn解:已知结论,工业总产值与能源消耗量之间存在高度的正相关关系,能源消耗量 x的变化能够解释工业总产值 y变化的 95.2﹪ 。
相关系数的计算相关系数的统计检验根据样本的相关系数,在一定的置信度水平下,总体的相关系数将在什么范围内?计算相关系数的样本,是否来自并无相关的总体?对这些的问题的研究,
就是我们所要回答的相关系数的统计推断问题。
线性相关的显著性检验相关系数的显著性检验( t检验法)
⒈ 提出假设:
0:0,10 HH
目的 检验 总体 两变量间线性相关性是否显著步骤
⒉ 构造检验统计量:
)2(~12 2 ntrnrt
相关系数的显著性检验( t检验法)
⒊ 根据给定的显著性水平?,确定临界值 ;
2?t
⒌ 计算检验统计量并做出决策。
22 ntt?
⒋ 确定原假设的拒绝规则,
22 ntt?若,则接受 H0,表示总体两变量间线性相关性不显著 ;
若,则拒绝 H0,表示总体两变量间线性相关性显著步骤学生身高 体重 估计值
A
B
C
D
E
F
G
H
I
J
158
160
162
164
166
168
170
172
174
176
47
50
48
55
62
60
52
61
70
65
24964
25600
26244
26896
27556
28224
28900
29584
30276
30976
2209
2500
2304
3025
3844
3600
2704
3721
4900
4225
7426
8000
7776
9020
10292
10080
8840
10492
12180
11440
47.29
49.45
51.61
53.76
55.92
58.08
60.24
62.39
64.55
66.71
-9.71
-7.55
-5.39
-3.24
-1.08
1.08
3.24
5.39
7.55
9.71
-10
-7
-9
-2
5
3
-5
4
13
8
1670 570 279220 33032 95546 - 0 0
2x
x
y
2y xy
y?
yy yy?
8418.0
54203300
3560
5703303210167027922010
57016709554610
)()(
22
2222
yynxxn
yxxyn
r
8 4 1 8.0?r
411.4
8418.01
2108418.0
1
2
22
r
nr
t
411.4?t
31.2)210()2( 0 2 5.02 tnt?
31.2)8(411.4 02 5.0 tt
检验统计量落入拒绝域中,故拒绝原假设,
接受备择假设。即可以认为? 明显地不等于零,相关关系是显著的。
【 例 】 检验工业总产值与能源消耗量之间的线性相关性是否显著 资料
线性相关性显著。,表示总体的两变量间拒绝有:
0
0 2 5.0
2
2
1 4 4 8.21426 6 1 6.16
6 6 1 6.169 7 5 7.012169 7 5 7.0
H
tntt
t
00:H
0:0:
,05.0,97 57.0,16
10
HH
rn
提出假设:
则解:已知当 成立时,则统计量
)2(~12 2 ntrnrt
相关关系不等于因果关系;
相关系数只度量变量间的线性关系,
因此,弱相关不一定表明变量间没有关系;
极端值可能影响相关系数。
注意相关关系成立的数据范围。
警惕虚假相关使用相关系数时应注意的问题:
,统计学,第十章 相关与回归第二节 等级相关与品质相关等级相关由于社会经济现象的复杂性,有许多情形难以以精确数字形成统计数列,而只能根据主观判断,评定等级,依次排列。如对事态轻重、才智高低、艺术水平等的评价,
都只能依据评判者的知识、经验、感受、有关规则等,
作出相对大小的等级评定。
定序尺度的变量之间的相关关系。
等级相关系数的计算
)1(
6
1 2
2
nn
d i
该公式是由斯皮尔曼提出的,故也称为斯皮尔曼等级相关系数。
等级相关见书例演员编号等级 等级差
d=x-y d
2
1999年 x 2000年 y
( 1)
( 2)
( 3)
( 4)
( 5)
( 6)
( 7)
( 8)
( 9)
( 10)
∑
1
2
3
4
5
6
7
8
9
10
--
2
1
3
8
4
7
9
6
5
10
--
-1
1
0
-4
1
1
-2
2
4
0
0
1
1
0
16
1
1
4
4
16
0
44
7 3 3 4.0)11 0 0(10 4461)1(61 2
2
nn d i?
回归:退回
regression
1877年 弗朗西斯?高尔顿爵士 遗传学研究 回归线平均身高
,统计学,第十章 相关与回归第三节 简单线性回归模型回归分析法产生的历史
回归分析法。由著名的英国生物学家、统计学家高尔顿( F.Gallton) —— 达尔文的表弟所创。
早年,高尔顿致力于化学和遗传学领域的研究。
他研究父亲们的身高与儿子们的身高之间的关系时,建立了回归分析法。
父亲们的身高与儿子们的身高之间关系的研究
1889年 F.Gallton和他的朋友 K.Pearson收集了上千个家庭的身高、臂长和腿长的记录
企图寻找出儿子们身高与父亲们身高之间关系的具体表现形式
下图是根据 1078个家庭的调查所作的散点图
(略图)
回归分析法产生的历史
y
x
160
165
170
175
180
185
140 150 160 170 180 190 200
Y
X
儿子们身高向着平均身高“回归”,以保持种族的稳定回归分析法产生的历史
从图上虽可看出,个子高的父亲确有生出个子高的儿子的倾向,同样地,个子低的父亲确有生出个子低的儿子的倾向。得到的具体规律如下:
如此以来,高的伸进了天,低的缩入了地。他百思不得其解,同时又发现某人种的平均身高是相当稳定的。最后得到结论:儿子们的身高回复于全体男子的平均身高,即“回归” ——
见 1889年 F.Gallton的论文,普用回归定律,。
后人将此种方法普遍用于寻找变量之间的规律
xy
ubxay
516.033.84
回归分析法产生的历史第三节 简单线性回归模型回归分析 通过一个变量 x或一些变量 (x1,x2,x3… )的变化解释另一变量 y的变化,即根据相关关系的数量表达式(回归方程式)与给定的 自变量 x,揭示 因变量 y在数量上的平均变化和求得因变量的预测值的统计分析方法回归:退回
regression
回归方程回归模型反映自变量和因变量之间数学联系的表达式。
某一类回归方程的总称。
自变量 (independent variable):解释变量,给定的或可以控制的、用来解释、
预测应变量的变量。
因变量 (dependent variable):响应变量,由自变量来解释其变化的变量。
X
Y
X
Y
,统计学,第十章 相关与回归回归分析的内容和步骤
1,根据理论和对问题的分析判断,
区分自变量和因变量;
2,设法找出适合的数学方程式 (即回归模型 )描述变量间的关系
3,对回归模型进行统计检验;
4,统计检验通过后,利用回归模型,根据解释变量去估计,预测因变量。
回归分析的分类根据变量的多少分为:
简单回归多元回归只有一个自变量和一个因变量的回归自变量数目在两个或两个以上根据建立的回归模型形式分为:
线性回归非线性回归从所拟合的回归模型来看,一变量表现为其它变量的线性组合。
从所拟合的回归模型来看,一变量表现为其它变量的非线性组合回归分析与相关分析
理论和方法具有一致性;
无相关就无回归,相关程度越高,
回归越好;
相关系数和回归系数方向一致,可以互相推算。
联系:
相关分析中 x与 y对等,回归分析中 x与 y
要确定自变量和因变量;
相关分析中 x,y均为随机变量,回归分析中只有 y为随机变量;
相关分析测定相关程度和方向,回归分析用回归模型进行预测和控制。
回归分析与相关分析区别:
简单线性回归模型指根据成对的两个变量的数值,配合直线方程式,根据自变量的变动,来推算因变量发展变动趋势的方法,其模型为:
iii BxAy
其中,Yi表示因变量 Y在总体中某一个具体的观察值; Xi表示在研究总体中自变量 X的具体观察数值; A与 B是参数,称为回归系数;
ε i是一个随机变量,其平均数为 0,方差为 σ 2,
总体回归模型总体一元线性回归模型:
XY 10?
模型参数误差项假定:
E(?)=0
总体一元线性回归方程:
XY 10
,统计学,第十章 相关与回归简单线性回归模型的假设
1、正态性假定
3、线性假定
2、同方差假定
4、独立性假定当确定某一个 Xi时,相应的 Y就有许多
Yi值与之对应。 Yi是一个随机变量,
这些 Yi构成一个在 X取值为 Xi条件下的条件分布、并假设其服从正态分布。
假定所有 Yi这一条件分布的方差是相等的。
假定所有 Yi这一条件分布的平均数位于一条直线上,这条直线为
Yi=A+BX,
假定 Yi之间是独立的,也就是说抽样时,Y的值在每取一个 X值的条件分布相互独立。
一元线性回归模型的假定
x
y
0?x
1xx?
2xx?
3xx? xyE)(
)(yf
xy
0)(E
0),(?jiCo v
2)()(
ii yV a rV a r
0),(?ii xC o v?
)( iyE
)( iyf
在实际应用中,我们对 X和 Y所代表的总体往往不可能全面的观察和了解,而只能从中抽取部分资料作为样本,并通过样本提供的信息来认识总体,找出总体回归模型的估计式,其估计式的方程式可写为,
简单线性回归模型
iii ebxay
其中,a,b和 ei分别为 A,B及 ε i
由于抽样的随机性,使样本回归线不可能与总体回归完全重合,从而会出现样本回归函数高估或低估总体回归函数的情况,我们能做的就是设法使样本回归函数尽可能接近总体回归函数,也就是说要使回归方程参数的估计值 a,b尽量接近总体真实参数 A,B
样本回归模型一元线性回归方程的几何意义
)(YE
X
XY
截距 斜率一元线性回归方程的可能形态
为正?为负?为 0
回归直线的拟合
BXAYEY
总体一元线性回归方程,
样本一元线性回归方程:
bxay
以样本统计量估计总体参数斜率(回归系数)截距截距 a 表示在没有自变量 x的影响时,其它各种因素对因变量 y的平均影响; 回归系数 b 表明自变量 x每变动一个单位,因变量 y平均变动 b个单位。
(估计的回归方程 )
iiii ybxay
y
yxbxay
)(
值应为的实际而变量之间的平均变动关系,
变量与是理论模型,表明随机干扰,各种偶然因素、观察误差和其他被忽视因素的影响
X对 y的线性影响而形成的系统部分,反映两变量的平均变动关系,
即本质特征。
1 0§ éú μ? éí ó? ì é¢ μ? í?
4 0
4 5
5 0
5 5
6 0
6 5
7 0
7 5
1 5 8 1 6 3 1 6 8 1 7 3 1 7 8
éí £¨ X £?
ì?
£¨Y
£?
bxay
bxay
残差 (Residual):e
一元线性回归方程中参数 a,b的确定,bxay
最小平方法基本数学要求
m in)?(
0?
2yy
yy
02
012
m i n,m i n)?(
22
xbxay
bxay
ba
bxayyy
,有求偏导数,并令其为零、分别对函数中
,有由整理得到由两个关于 a,b的二元一次方程组成的方程组:
2xbxaxy
xbnay
xby
n
x
b
n
y
a
xxn
yxxyn
b
22
)(
进一步整理,有:
1 0§ éú μ? éí ó? ì é¢ μ? í?
4 0
4 5
5 0
5 5
6 0
6 5
7 0
7 5
1 5 8 1 6 0 1 6 2 1 6 4 1 6 6 1 6 8 1 7 0 1 7 2 1 7 4 1 7 6 1 7 8
éí £¨ X £?
ì?
£¨Y
£?
学生身高
x
体重
y x
2 y2 xy 估计值
残差
y-?
A
B
C
D
E
F
G
H
I
J
158
160
162
164
166
168
170
172
174
176
47
50
48
55
62
60
52
61
70
65
24964
25600
26244
26896
27556
28224
28900
29584
30276
30976
2209
2500
2304
3025
3844
3600
2704
3721
4900
4225
7426
8000
7776
9020
10292
10080
8840
10492
12180
11440
47.291
49.448
51.606
53.764
55.921
58.079
60.236
62.394
64.552
66.709
-0.291
0.552
-3.606
1.236
6.079
1.921
-8.236
-1.394
5.448
-1.709
1670 570 279220 33032 95546 - 0
1 5 9 6.1231670 7 8 8.157
0 7 8 8.1
1 6 7 02 7 9 2 2 010
5701 6 7 09 5 5 4 610
2
a
b
xy 0 7 88.11 5 96.123
571 6 70 7 8 8.11 5 9 6.1 2 3?
1 6 7
y
x
【 分析 】 因为工业总产值与能源消耗量之间存在高度正相关关系( ),
所以可以拟合工业总产值对能源消耗量的线性回归方程。
9 5 2 0.0,9 7 5 7.0 2 rr
【 例 】 建立工业总产值对能源消耗量的线性回归方程 资料
,5 5 0 8 6,3 7 8 8 7
,625,916,16
2xxy
yxn由计算表知解:设 线性回归方程为 bxay
5 1 42.6
16
916
7 9 61.0
16
625
7 9 61.0
9165 5 08 616
6259163 7 88 716
222
xbya
xxn
yxxyn
b
即 线性回归方程为:
xy 7961.05142.6
计算结果表明,在其他条件不变时,能源消耗量每增加一个单位(十万吨),工业总产值将增加 0.7961个单位(亿元)。
最小二乘法估计的优良性质
残差之和为零
所拟合直线通过样本散点图的重心
误差项与解释变量不相关
a与 b分别是总体回归系数的无偏估计量
a与 b均为服从正态分布的随机变量
)
)(
,(~)
)(
,(~ 2
2
2
22
xx
Nb
xx
x
Na
0 e
),( yx
0))(( xxee
)()( bEaE
b与 r的关系:
r> 0 r< 0 r=0
b> 0 b< 0 b=0
x
y
y
x
S
S
rb
S
S
br ;
回归模型的检验
1、拟合优度检验确定回归直线后,需要评价这一直线方程是否有效地反映了这两变量之间的关系。评价回归方程配合好坏的一个主要指标是 判定系数 (或称确定系数 )
是相关系数的平方,用 表示;用来衡量回归方程对 y的解释程度。
2r
10 2 r判定系数取值范围,
2r
越接近于 1,表明 x与 y之间的相关性越强; 越接近于 0,表明两个变量之间几乎没有直线相关关系,2r
判定系数
1 0§ éú μ? éí ó? ì é¢ μ? í?
4 0
4 5
5 0
5 5
6 0
6 5
7 0
7 5
1 5 8 1 6 0 1 6 2 1 6 4 1 6 6 1 6 8 1 7 0 1 7 2 1 7 4 1 7 6 1 7 8
éí £¨ X £?
ì?
£¨Y
£?
y
y?
yy?
yy
yy
2)( yyS S T
2)?( yyS S E
2)?( yyS S R
误差平方和回归平方和总离差平方和总偏差 = 回归偏差 + 剩余偏差
r2表示全部偏差中有百分之几的偏差可由 x与 y的回归关系来解释
r 的符号同 b
数量关系及意义
2222 )()(
yynxxn
yxxyn
r
判定系数与相关系数的关系
2)( rbr 的符号?
))(())((
)(
2222
2
2
yynxxn
yxxyn
r
学生身高 体重 估计值
A
B
C
D
E
F
G
H
I
J
158
160
162
164
166
168
170
172
174
176
47
50
48
55
62
60
52
61
70
65
24964
25600
26244
26896
27556
28224
28900
29584
30276
30976
2209
2500
2304
3025
3844
3600
2704
3721
4900
4225
7426
8000
7776
9020
10292
10080
8840
10492
12180
11440
47.29
49.45
51.61
53.76
55.92
58.08
60.24
62.39
64.55
66.71
-9.71
-7.55
-5.39
-3.24
-1.08
1.08
3.24
5.39
7.55
9.71
-10
-7
-9
-2
5
3
-5
4
13
8
1670 570 279220 33032 95546 - 0 0
x
y
2x
2y xy
y?
yy yy?
7085.0
542
384
)(
)?(
2
2
2
yy
yy
SST
SSR
r
7 0 8 6.0
5 4 2 03 3 0 0
3 5 6 0
)5 7 03 3 0 3 210()1 6 7 02 7 9 2 2 010(
)5 7 01 6 7 09 5 5 4 610(
))(())((
)(
2
22
2
2222
2
2
yynxxn
yxxyn
r
7 0 86.0
542
05.384
57103 3 03 2 0
57109 5 54 60 7 88.15701 5 96.123
2
2
22
2
2
yny
ynxybya
r
判定系数与相关系数的区别:
判定系数 无方向性,相关系数 则有方向,
其方向与样本回归系数 b 相同;
判定系数 说明变量值的总离差平方和中可以用回归线来解释的比例,相关系数只说明两变量间关联程度及方向;
相关系数 有夸大变量间相关程度的倾向,
因而 判定系数 是更好的度量值。
22 )( yynLSST yy
22
2
)(
)(
xxn
yxxyn
USSR
2)( bxayQS S E
Lyy=U+Q
总离差平方和回归平方和误差平方和回归分析中我们最关心的是:
X 与 Y 是否有真正的相关关系。即:
0?0 11
01
01
01
,统计学,第十章 相关与回归回归系数的检验
提出假设;
确定检验统计量;
给定显著性水平,确定临界值;
确定原假设的拒绝规则;
计算检验统计量并做出决策。
0:0,1110 HH
bbt )( 1
2, t
22 ttt
,统计学,第十章 相关与回归统计理论已经证明
1)(bE
22
2
2
2
)(
1)(
x
n
x
xx
e
b
e
b
)2(~
)(
1
0
22
nt
x
n
xb
b
t
eb
2?
n
S S E
S ee?
,统计学,第十章 相关与回归学生身高 体重 估计值
A
B
C
D
E
F
G
H
I
J
158
160
162
164
166
168
170
172
174
176
47
50
48
55
62
60
52
61
70
65
24964
25600
26244
26896
27556
28224
28900
29584
30276
30976
2209
2500
2304
3025
3844
3600
2704
3721
4900
4225
7426
8000
7776
9020
10292
10080
8840
10492
12180
11440
47.29
49.45
51.61
53.76
55.92
58.08
60.24
62.39
64.55
66.71
-9.71
-7.55
-5.39
-3.24
-1.08
1.08
3.24
5.39
7.55
9.71
-10
-7
-9
-2
5
3
-5
4
13
8
1670 570 279220 33032 95546 - 0 0
2x
2y xy
y?
yy yy?x
y
0788.1?b 5 4 2?S S T 384?SSR 1 5 8?S S E
444.4?eS 41.4?t
5421057033032
)(
1
2
22
y
n
ySST
384
101 6 7 02 7 9 2 2 0
)105701 6 7 09 5 5 4 6(
)(
1
)
1
(
2
2
22
2
x
n
x
yx
n
xy
SSR
158384542
SSRSSTSSE
4 4 4.4
210
1 5 8
2
n
SSE
S e
41.4
444.4
1016702792200788.1
)(
1
2
22
e
S
x
n
xb
t
31.2)8(41.4 025.0 tt
检验统计量落入拒绝域中,故拒绝原假设,
接受备择假设。即可以认为 b 明显地不等于零,X 与 Y 是显著的。
31.2)210()2( 0 2 5.02 tnt?
F检验是基于 F分布进行的,是方差分析内容之一。
方差来源 平方和 自由度 均方 F值回归误差总计
SSR
SSE
SST
1
n-2
n-1 2
1
n
SSE
M SE
SSR
M SR
M S E
M S RF?
均方回归 均方误差
,统计学,第十章 相关与回归
当?1 = 0 时,SSR= 0,则 F值 =0。
当?1? 0 时,SSR> 0,则 F值 >0。
当我们设?1 = 0 时,则较大的 F值将推翻这一假设。
)2,1(~ nF
M S E
M S RF
384?SSR 1 5 8?S S E
32.5)8,1(),( 05.021 FnnF?
44.19
81 5 8
3 8 4
2
1
nSSE
SSR
M S E
M S RF
0:0,1110 HH
FF?
故拒绝原假设,接受备择假设,
即认为回归方程是显著的。
,统计学,第十章 相关与回归
y
bxay
x
0x
估计的前提:回归方程经过检验,证明 X 和 Y 的关系在统计上是显著的。
回归分析的点估计:对于给定的 X 值,
求出 Y 平均值的一个估计值或 Y 的一个个别值。
若 x = 169,则:
Y
y
16.59
1 6 90 7 8 8.11 5 9 6.1 2 3?
xy 0 7 88.11 5 96.123
,统计学,第十章 相关与回归
利用点估计得到的 Y平均值的点估计值和 Y的一个个别值其结果是相同的。
点估计不能提供估计量的精确度。
在样本自变量取值范围之外进行预测要特别谨慎。
,统计学,第十章 相关与回归使用点估计应注意的问题:
回归分析的区间估计:对于给定的 X 值,求出 Y 的平均值的 置信区间或 Y 的一个个别值的 预测区间 。
y
bxay
x
0x
,统计学,第十章 相关与回归
Y 的平均值的置信区间估计
XY 10
总体的回归模型
bxay
样本回归方程如果样本回归方程通过检验,则:
XyE 10)?(
如果给定 x = x0,则有:
00? bxay
分布形态?
,统计学,第十章 相关与回归可以证明,?0 是服从正态分布的,
其数学期望:
其方差:
其标准差:
0100 )?( XyE
nxx
xx
n
y 22
2
022
)(
)(1
nxx
xx
n
y 22
2
0
)(
)(1
,统计学,第十章 相关与回归
nxx
xx
n
ty
22
2
0
20
)(
)(1
对于给定的 x = x0,Y 的 1-?置信区间为:
yty?20
也就是:
2?
n
SSES
e
自由度为 n-2的 t 分布的? 水平双侧分位数
,统计学,第十章 相关与回归学生身高 体重 估计值
A
B
C
D
E
F
G
H
I
J
158
160
162
164
166
168
170
172
174
176
47
50
48
55
62
60
52
61
70
65
24964
25600
26244
26896
27556
28224
28900
29584
30276
30976
2209
2500
2304
3025
3844
3600
2704
3721
4900
4225
7426
8000
7776
9020
10292
10080
8840
10492
12180
11440
47.29
49.45
51.61
53.76
55.92
58.08
60.24
62.39
64.55
66.71
-9.71
-7.55
-5.39
-3.24
-1.08
1.08
3.24
5.39
7.55
9.71
-10
-7
-9
-2
5
3
-5
4
13
8
1670 570 279220 33032 95546 - 0 0
2x
x
y
2y xy
y?
yy yy?
xy 0788.11596.123 444.4?eS
若令?=0.05,则有 t?/2( n-2) = 2.31
257.60,743.53
41.131.257?
571670788.11596.123?
41.1
10
1
444.4
101670279220
)167167(
10
1
444.4:167
20
0
2
2
y
y
ty
y
x
当 时,得到最小值。当 时,的值随 的减少或增加而逐步增大。
xx? y
xx? y
x
1 0§ éú μ? éí ó? ì é¢ μ? í?
4 0
4 5
5 0
5 5
6 0
6 5
7 0
7 5
1 5 8 1 6 0 1 6 2 1 6 4 1 6 6 1 6 8 1 7 0 1 7 2 1 7 4 1 7 6 1 7 8
éí £¨ X £?
ì?
£¨Y
£?
x
,统计学,第十章 相关与回归
Y 的个别值的置信区间估计对于给定的 X= X0,如果要预测 Y 的一个个别值 Y0 的置信区间,则其相应的残差为:
Y 的个别值相对于其平均值的方差当 X=X0时,
所估计的 Y0
的方差组成 与用? 估计 Y平均值相联系的方差
2?
2
y?
000?YY
,统计学,第十章 相关与回归即,Y0的方差为:
nxx
xx
ny 22
2
0222
)(
)(1
0
2
y?
nxx
xx
ny 22
2
022
)(
)(1
1
0?
即:
则,Y 的一个个别值 Y0 的标准差的估计值为:
nxx
xx
n
S ey
22
2
0
)(
)(1
1
0
,统计学,第十章 相关与回归对于给定的 X0,Y 的一个个别值 Y0 的预测区间估计值为:
020 y
ty
也就是:
nxx
xx
n
Sty e
22
2
0
20
)(
)(1
1
与估计 Y的平均值公式相比,
此公式中多了一项,1”,因此,
这个置信区间要相对大一些
,统计学,第十章 相关与回归学生身高 体重 估计值
A
B
C
D
E
F
G
H
I
J
158
160
162
164
166
168
170
172
174
176
47
50
48
55
62
60
52
61
70
65
24964
25600
26244
26896
27556
28224
28900
29584
30276
30976
2209
2500
2304
3025
3844
3600
2704
3721
4900
4225
7426
8000
7776
9020
10292
10080
8840
10492
12180
11440
47.29
49.45
51.61
53.76
55.92
58.08
60.24
62.39
64.55
66.71
-9.71
-7.55
-5.39
-3.24
-1.08
1.08
3.24
5.39
7.55
9.71
-10
-7
-9
-2
5
3
-5
4
13
8
1670 570 279220 33032 95546 - 0 0
2x
x
y
2y xy
y?
yy yy?
xy 0788.11596.123 444.4?eS
若令?=0.05,则有 t?/2( n-2) = 2.31
767.67,233.46
661.431.257
571670788.11596.123
661.4
10
1
1444.4
101670279220
)167167(
10
1
1444.4:167
0
0
20
0
2
2
y
y
ty
y
x
当 时,得到最小值。当 时,的值随 的减少或增加而逐步增大。
xx?
0y
xx?
0y
x
1 0§ éú μ? éí ó? ì é¢ μ? í?
3 5
4 0
4 5
5 0
5 5
6 0
6 5
7 0
7 5
8 0
1 5 8 1 6 0 1 6 2 1 6 4 1 6 6 1 6 8 1 7 0 1 7 2 1 7 4 1 7 6 1 7 8
éí £¨ X £?
ì?
£¨Y
£?
x
,统计学,第十章 相关与回归回归方程的估计与预测估计的前提,回归方程经过检验,证明
X 和 Y 的关系在统计上是显著相关的。
对于给定的 X 值,求出 Y 平均值的一个估计值或 Y 的一个个别值的预测值。
对于给定的 X 值,求出 Y 的平均值的 置信区间 或 Y 的一个个别值的 预测区间。
点估计区间估计点估计
0x
bxay
y
x
xy 7 9 6 1.05 1 4 2.6对于若 x = 80(十万吨),则:
亿元1738.57807961.05142.6y
y
bxay
x
0x
区间估计对于给定的 x = x0,Y 的 1-?置信区间为
yty?20
自由度为 n-2的 t 分布的? 水平双侧分位数
nxx
xx
n
ty
22
2
0
20
)(
)(1
1?
即:
2
2
n
xybyay
S e
在大样本条件下,近似有:
2
2
2020
n
xybyay
ZySZy e