统计学原理
第一章绪论
第二章统计调查
第三章统计资料的整理
第四章总量指标与相对指标
第五章平均指标和变异指标
第六章时间数列
统计学原理
第七章统计指数
第八章抽样调查
第九章回归与相关分析
第十章统计预测
第十一章统计分析综述
第十二章我国国民经济核算体系
学习目标
? 1,理解相关与回归的概念
? 2,理解相关系数与回归系数的含义
? 3,能运用相关与回归分析的方法分析实
际问题
第一节 引言
一, 相关关系的概念
二, 回归与相关分析的特点及区别
三,回归与相关分析的基本内容
相关关系的概念
相关与回归
相关和回归分析是研究事物的相互关系,测定它们
联系的紧密程度,揭示其变化的具体形式和规律性
的统计方法,是构造各种经济模型、进行结构分析、
政策评价、预测和控制的重要工具。
相关分析
概念 种类 线性相关
变量之间关系
函数关系
相关关系 因果关系
互为因果关系
共变关系
确定性依存关系
随机性
依存关
系
种类
一元相关
多元相关负相关
正相关 线性相关
曲线相关
x
y
正相关 x
y
负相关 x
y
曲线相关 x
y
不相关
回归与相关分析的特点及区别
回归分析
特点 线性回归 非线性回归
回归分析和相关分析的联系和区别
1 ·理论和方法具
有一致性;
2 ·无相关就无回归,
相关程度越高,回归越好;
3 ·相关系数和回归系数
方向一致,可以互相推算。
1 ·相关分析中,x 与 y 对等,回归
分析中,x 与 y 要确定自变量和因
变量;
2 ·相关分析中 x, y 均为随机变量,
回归分析中,只有 y 为随机变量;
3 ·相关分析测定相关程度和方向,回
归分析用回归模型进行预测和控制。
第二节 相关关系的判定
一,定性判断
二,相关表和散点图
线性相关
相
关
系
数
测定两变量是否线性相关?
yx
xyr
??
?
??
yxn
yyxxr
??
? ??? ))((
定义式:
未分组:
已分组:
? ?? ?
? ? ?
??
???
2222 )()( yynxxn
yxxynr
? ?? ?
? ? ?
???????
??????
])([])([
))((
2222
yyxx
yxxy
fyfynfxfxn
fyfxfyxnr
值:
|r|=0 不存在线性关系; |r| = 1 完全线性相关
0<|r|<1 不同程度线性相关 (0~0.3 微弱; 0.3~0.5 低度;
0.5~0.8 显著; 0.8~1 高度 )
符号,r>0 正相关; r<0 负相关
计
算
公
式
相关系数的检验( t 检验)
检验统计量
21
2||
r
nrt
?
??
0:,0 10 ??? HH =:
第三节 一元线性回归与简单线性相关
一,一元线性回归方程
二,回归标准差
三,置信区间
四,离差平方和的分解与相关系数
五,显著性检验
六,等级相关系数
一元线性回归方程
一元线性回归模型
一 ·一元线性回归模型的一般形式
总体一元线性回归模型的一般形式
Y 的数学期望 E ( Y ) 随机误差
,xYE ?? +)=( 也称一元线性回归方程,是对应于自变量 X
某一取值时因变量 Y 的均值。
??,未知参数
样本的一元线性回归模型和回归方程
一元线性回归模型
,??? ++= xY
,??? bxaY =
一元线性回归方程 bxay ???
截距 斜率(回归系数)
x
y
二 ·一元线性回归模型的确定
根据实际数据,用最小平方法 (ordinary least squares),
即使残差平方和 分别对 a,b 求偏导并
令其为零,求得两个标准方程,m in)?(
2 ??? yy j
2xbxaxy
xbnay
?????
????
解联立方程,得到
22
)( xxn
yxxyn
b
n
x
bnya
???
????
?
?
???
回归系数 b 表明自变量 x 每变化一个单位因变量 y 的增(减)
量。
?b 与 r 的关系,r > 0 r < 0 r=0
b > 0 b < 0 b=0 xyyx rbbr ?
?
?
? ?? ;
是理论模型,表明 x 与 y 两变量之间的平均变动关系。bxay ??? ?
(实际值):
jjij ybxay ?? ?????
?)(
X 对 y 的线性影响而形成的系统
部分,反映两变量的平均变动关
系,即本质特征。
随机干扰:各种偶然因素,
观察误差和其他被忽视因素
的影响。
三 ·一元线性回归模型的检验,
?判定系数( ) 是对回归模型拟合优度的评价。
x
y
y
)( 0 yy ?
bxay ???
)?( 0 yy ?
)?( yy?
222 )?()?()( yyyyyy ????????
总偏差 =回归偏差 + 剩余偏差
222
222
)()?(1
)()?(
yyyyr
yyyyr
??????
?????
或
10
22
2
<< r
yny
ynxybya
??
????
?
表示全部偏差中有百分之几
的偏差可由 x 与 y 的回归关系
来解释。所占的比重越大,表明
回归直线与样本点拟和的越好,
2rr ? r 的符号同 b
r2
r2
?
?
?
?
?
??
?
?
yn
xn
b s p
y
x
b
ss
ss
b
ssss
sp
ss
ss
r
y
x
yx
y
y
2
2
2
2
2
2
?估计标准误( Sxy )
Sxy 是二元正态分布中因变量实际值( )对估计
值 ( )离散程度的量度。
iy
?
2
2
)?(
2
2
?
?????
?
?
??
??
n
xybyay
S x y
n
yy
S x y
自由度
剩余编差
Sxy 越小,拟合越好;
Sxy 越大,拟合越差。
Sxy 也是用自变量对因变量进行区
间估计的抽样误差。
?y
?y
68.27%94,45%99.73%
yj
b s pss y ??剩余偏差
四 ·应用一元回归模型进行区间估计
n ≥ 30 时
给定 x0, y0 的置信度( 1-α)的置信区间为:
S x yZbxa
2
0 )( ????
S x yZyy
2
0
?
???
n < 30 时
2
2
0
)2(
2
0
2
2
0
)2(
2
0
)(
)(1
1)(
)(
)(1
1
?
xx
xx
n
S x ytbxa
xx
xx
n
S x ytyy
n
n
??
?
???????
??
?
??????
?
?
?
?
x
y
bxay ???
X0 x0
给定的 x0 越接
,y 值估计的
精确度越高。
x
平均值估计
2
2
0
)2(
2
0
2
2
0
)2(
2
0
)(
)(1
)(
)(
)(1
?
xx
xx
n
S x ytbxa
xx
xx
n
S x ytyy
n
n
??
?
??????
??
?
?????
?
?
?
?
n < 30 时特定值估计
第四节 多元线性回归与复相关
一, 多元线性回归方程
二, 回归标准差的计算
三,多元可决系数
四,偏相关与复相关
多元线性回归模型
1 ·多元线性回归模型的性质与模型的确定
????? ?????? nn xxxy ?22110?
二元线性回归模型:
总体多元线性回归模型的一般形式
???? ???? 22110? xxy
Y 的数学期望 E
( Y ) 随机误差
,22110 xxYE ??? ++)=( 表明自变量,21 xx、
共同变动引起的 Y 的平均变动也称总体的二元线性回归方差。。
0?
1?
1x 2x
常数项,和 Y 构成的平面与 Y 轴的截距
偏回归系数,表示在固定时每变化一个单位引起的 Y
的平均变动;
1x2x
2?
偏回归系数,表示在固定时每变化一个单位引起的
Y 的平均变动; 2
x1x
? 随机误差,其理论假定与一元线性回归模型中的一样。 ?
在多元回归模型中,还要求各自变量之间不存在显著相
关,或高度相关也即不得存在多重共线性。
样本多元线性回归模型的一般形式
?????????? nn xbxbxbay 2211
二元线性回归模型为:
????? 2211 xbxbay
其数学期望
2211 xbxbayE ???)(
也称样本(或估计的)二元线性回归方程。
二元线性回归方程的确定
根据实际资料,用最小平方法,即使,分别对一,b1,b2
求编导并令其为零,求得三个标准方程:
最小??? 2)?( yy j
)?( 2211 xbxbay ???
2
2221122
212
2
111
2211
xbxxbxayx
xxbxbxayx
xbxbnay
j
j
j
???????
???????
??????
解此联立方程便可得到一,b1,b2 。
2 ·多元线性回归模型的判定系数和估计标准误
?判定系数
2
2
2
)(
)?(
yy
yyr
j ??
????
总偏差
回归偏差
22
2
2211
)(
)(
yny
ynyxbyxbya
j
jjj
??
??????? 0 < r2 < 1
修正的判定余数:
1
1)1(1 22
??
????
pn
nrr
?
?估计标准误( Sy ( x1,x2 ))
3
)?( 2
),( 21 ?
???
n
yyS j
xxy 3
2211
?
????????
n
yxbyxbyay jjjj
r2 和 Sy ( x1,x2 )都是对回归模型拟合优度的评价指标。
Sy ( x1,x2 )也是用自变量对因变量进行区间估计的抽样误
差。
3 ·多元回归模型的显著性检验
?对偏回归系数的 t 检验
H0,β 1=0,H1,β 1 ≠ 0;H0,β 2=0,H1,β 2 ≠ 0 。
检验统计量:
2
2
1
1 ? ||||,? ||||
bb
btbt
??
??
2
2211
2
22
2
11
2
22
),(1 )])(([)()(
)(?
21 xxxxxxxx
xxS
xxyb ???????
?????
2
2211
2
22
2
11
2
22
),(
2
2 )])(([)()(
)(?
21 xxxxxxxx
xxS
xxyb ???????
????
按显著性水平 α和自由度( n-3 )查 t 表可得
到临界值
)3(
2
?nt?
t
0 )3(
2
?nt?)3(
2
?? nt?
?模型整体的 F 检验
检验统计量:
)1/()(
/)?(
)1/(
/
2
2
????
???
??? knyy
kyy
kn
kF
j剩余偏差
回归偏差 ( k — 自变量个数)
)3/()(
2/)?(
2
2
???
???
nyy
yyF
j )1(2
)3(
)3/()1(
2/
2
2
2
2
r
nr
nr
rF
?
??
???
或
按给定的 α和自由度( 2 )
和( n-3 )查 F 表可得到
临界值 F
α
)( mnF,?
)( 3,2 ?nF?
4 ·多元回归中的相关分析
?复相关:指一个因变量同多个自变量的相关关系。
复相关系数恒取正值。
2
2
2
12 )(
)?(
yy
yyrr
j
ny ??
????
?
?偏相关(净相关)指各个自变量在其他自变量固定不变时,
单个变量同因变量的相关关系。
计算偏相关系数需借助相关系数矩阵表的资料。
二元回归中的相关系数矩阵表
y
y
x1
x1
x2
x2
ry1
ry2 r12
1.00
1.00
1.00
x1 与 y 的偏相关系数:
2
12
2
2
1221
)2(1
)(1)(1 rr
rrr
r
y
yy
y
???
??
?
x2 与 y 的偏相关系数:
2
12
2
1
1212
)1(2
)(1)(1 rr
rrr
r
y
yy
y
???
??
?
5 ·应用多元回归方程进行区间估计
Y 的平均值的区间估计
Y 的特点值的区间估计
式中,是
即区间估计的抽样误差。
0213
2
0
^
0 CXXStYYE yn ),()=( )( ?? ?
021 CXXS y ),(
^Y 的抽样分布的标准差,
0213
2
0
^
0 1 CXXStYY yn ?? ? ),(= )(?
式中,
021 1 CXXS y ?),(
是 ^Y 的抽样分布的标准差,
即区间估计的抽样误差。
第五节 曲线回归与曲线相关
一, 曲线关系的判断和函数形式的选择
二, 二次曲线回归与相关指数
三,指数曲线回归与相关指数
非线性回归模型
当自变量与因变量存在某种曲线相关关系时,可拟合曲线回归
模型例如:。
双曲线:
x
bay ??
> 0 b > 0
> 0 b<0
x
x
y y
指数曲线,y=aebx b > 0b<0
xx
y y
幂函数曲线,y=axb
> 0 b > 0
x
y
b<1
b=1b>1
曲线模型的判别方法,理论和经验判断;
观察散点图
曲线模型的确定方法:
通常用变量代换法将曲线转换为直线按线性模型求解参数,而
后再变换为曲线模型。。
例如:双曲线模型
x
bay 1? ??
'?,1' bxay
x
x ??? 则有令
指数曲线模型
bxaey ??
x
ex
bxayLnaaLnyy
?
?????
'
'''''
,,则有令
本章小结
1.引言
2.相关关系的判断
3.一元线性回归与简单线性相关
4.多元线性回归与复相关
5.曲线回归与曲线相关
6.回归与相关分析的应用
结 束