统计学原理
第一章绪论
第二章统计调查
第三章统计资料的整理
第四章总量指标与相对指标
第五章平均指标和变异指标
第六章时间数列
统计学原理
第七章统计指数
第八章抽样调查
第九章回归与相关分析
第十章统计预测
第十一章统计分析综述
第十二章我国国民经济核算体系
学习目标
? 1,理解相关与回归的概念
? 2,理解相关系数与回归系数的含义
? 3,能运用相关与回归分析的方法分析实
际问题
第一节 引言
一, 相关关系的概念
二, 回归与相关分析的特点及区别
三,回归与相关分析的基本内容
相关关系的概念
相关与回归
相关和回归分析是研究事物的相互关系,测定它们
联系的紧密程度,揭示其变化的具体形式和规律性
的统计方法,是构造各种经济模型、进行结构分析、
政策评价、预测和控制的重要工具。
相关分析
概念 种类 线性相关
变量之间关系
函数关系
相关关系 因果关系
互为因果关系
共变关系
确定性依存关系
随机性
依存关

种类
一元相关
多元相关负相关
正相关 线性相关
曲线相关
x
y
正相关 x
y
负相关 x
y
曲线相关 x
y
不相关
回归与相关分析的特点及区别
回归分析
特点 线性回归 非线性回归
回归分析和相关分析的联系和区别
1 ·理论和方法具
有一致性;
2 ·无相关就无回归,
相关程度越高,回归越好;
3 ·相关系数和回归系数
方向一致,可以互相推算。
1 ·相关分析中,x 与 y 对等,回归
分析中,x 与 y 要确定自变量和因
变量;
2 ·相关分析中 x, y 均为随机变量,
回归分析中,只有 y 为随机变量;
3 ·相关分析测定相关程度和方向,回
归分析用回归模型进行预测和控制。
第二节 相关关系的判定
一,定性判断
二,相关表和散点图
线性相关




测定两变量是否线性相关?
yx
xyr
??
?
??
yxn
yyxxr
??
? ??? ))((
定义式:
未分组:
已分组:
? ?? ?
? ? ?
??
???
2222 )()( yynxxn
yxxynr
? ?? ?
? ? ?
???????
??????
])([])([
))((
2222
yyxx
yxxy
fyfynfxfxn
fyfxfyxnr
值:
|r|=0 不存在线性关系; |r| = 1 完全线性相关
0<|r|<1 不同程度线性相关 (0~0.3 微弱; 0.3~0.5 低度;
0.5~0.8 显著; 0.8~1 高度 )
符号,r>0 正相关; r<0 负相关




相关系数的检验( t 检验)
检验统计量
21
2||
r
nrt
?
??
0:,0 10 ??? HH =:
第三节 一元线性回归与简单线性相关
一,一元线性回归方程
二,回归标准差
三,置信区间
四,离差平方和的分解与相关系数
五,显著性检验
六,等级相关系数
一元线性回归方程
一元线性回归模型
一 ·一元线性回归模型的一般形式
总体一元线性回归模型的一般形式
Y 的数学期望 E ( Y ) 随机误差
,xYE ?? +)=( 也称一元线性回归方程,是对应于自变量 X
某一取值时因变量 Y 的均值。
??,未知参数
样本的一元线性回归模型和回归方程
一元线性回归模型
,??? ++= xY
,??? bxaY =
一元线性回归方程 bxay ???
截距 斜率(回归系数)
x
y
二 ·一元线性回归模型的确定
根据实际数据,用最小平方法 (ordinary least squares),
即使残差平方和 分别对 a,b 求偏导并
令其为零,求得两个标准方程,m in)?(
2 ??? yy j
2xbxaxy
xbnay
?????
????
解联立方程,得到
22
)( xxn
yxxyn
b
n
x
bnya
???
????
?
?
???
回归系数 b 表明自变量 x 每变化一个单位因变量 y 的增(减)
量。
?b 与 r 的关系,r > 0 r < 0 r=0
b > 0 b < 0 b=0 xyyx rbbr ?
?
?
? ?? ;
是理论模型,表明 x 与 y 两变量之间的平均变动关系。bxay ??? ?
(实际值):
jjij ybxay ?? ?????
?)(
X 对 y 的线性影响而形成的系统
部分,反映两变量的平均变动关
系,即本质特征。
随机干扰:各种偶然因素,
观察误差和其他被忽视因素
的影响。
三 ·一元线性回归模型的检验,
?判定系数( ) 是对回归模型拟合优度的评价。
x
y
y
)( 0 yy ?
bxay ???
)?( 0 yy ?
)?( yy?
222 )?()?()( yyyyyy ????????
总偏差 =回归偏差 + 剩余偏差
222
222
)()?(1
)()?(
yyyyr
yyyyr
??????
?????

10
22
2
<< r
yny
ynxybya
??
????
?
表示全部偏差中有百分之几
的偏差可由 x 与 y 的回归关系
来解释。所占的比重越大,表明
回归直线与样本点拟和的越好,
2rr ? r 的符号同 b
r2
r2
?
?
?
?
?
??
?
?
yn
xn
b s p
y
x
b
ss
ss
b
ssss
sp
ss
ss
r
y
x
yx
y
y
2
2
2
2
2
2
?估计标准误( Sxy )
Sxy 是二元正态分布中因变量实际值( )对估计
值 ( )离散程度的量度。
iy
?
2
2
)?(
2
2
?
?????
?
?
??
??
n
xybyay
S x y
n
yy
S x y
自由度
剩余编差
Sxy 越小,拟合越好;
Sxy 越大,拟合越差。
Sxy 也是用自变量对因变量进行区
间估计的抽样误差。
?y
?y
68.27%94,45%99.73%
yj
b s pss y ??剩余偏差
四 ·应用一元回归模型进行区间估计
n ≥ 30 时
给定 x0, y0 的置信度( 1-α)的置信区间为:
S x yZbxa
2
0 )( ????
S x yZyy
2
0
?
???
n < 30 时
2
2
0
)2(
2
0
2
2
0
)2(
2
0
)(
)(1
1)(
)(
)(1
1
?
xx
xx
n
S x ytbxa
xx
xx
n
S x ytyy
n
n
??
?
???????
??
?
??????
?
?
?
?
x
y
bxay ???
X0 x0
给定的 x0 越接
,y 值估计的
精确度越高。
x
平均值估计
2
2
0
)2(
2
0
2
2
0
)2(
2
0
)(
)(1
)(
)(
)(1
?
xx
xx
n
S x ytbxa
xx
xx
n
S x ytyy
n
n
??
?
??????
??
?
?????
?
?
?
?
n < 30 时特定值估计
第四节 多元线性回归与复相关
一, 多元线性回归方程
二, 回归标准差的计算
三,多元可决系数
四,偏相关与复相关
多元线性回归模型
1 ·多元线性回归模型的性质与模型的确定
????? ?????? nn xxxy ?22110?
二元线性回归模型:
总体多元线性回归模型的一般形式
???? ???? 22110? xxy
Y 的数学期望 E
( Y ) 随机误差
,22110 xxYE ??? ++)=( 表明自变量,21 xx、
共同变动引起的 Y 的平均变动也称总体的二元线性回归方差。。
0?
1?
1x 2x
常数项,和 Y 构成的平面与 Y 轴的截距
偏回归系数,表示在固定时每变化一个单位引起的 Y
的平均变动;
1x2x
2?
偏回归系数,表示在固定时每变化一个单位引起的
Y 的平均变动; 2
x1x
? 随机误差,其理论假定与一元线性回归模型中的一样。 ?
在多元回归模型中,还要求各自变量之间不存在显著相
关,或高度相关也即不得存在多重共线性。
样本多元线性回归模型的一般形式
?????????? nn xbxbxbay 2211
二元线性回归模型为:
????? 2211 xbxbay
其数学期望
2211 xbxbayE ???)(
也称样本(或估计的)二元线性回归方程。
二元线性回归方程的确定
根据实际资料,用最小平方法,即使,分别对一,b1,b2
求编导并令其为零,求得三个标准方程:
最小??? 2)?( yy j
)?( 2211 xbxbay ???
2
2221122
212
2
111
2211
xbxxbxayx
xxbxbxayx
xbxbnay
j
j
j
???????
???????
??????
解此联立方程便可得到一,b1,b2 。
2 ·多元线性回归模型的判定系数和估计标准误
?判定系数
2
2
2
)(
)?(
yy
yyr
j ??
????
总偏差
回归偏差
22
2
2211
)(
)(
yny
ynyxbyxbya
j
jjj
??
??????? 0 < r2 < 1
修正的判定余数:
1
1)1(1 22
??
????
pn
nrr
?
?估计标准误( Sy ( x1,x2 ))
3
)?( 2
),( 21 ?
???
n
yyS j
xxy 3
2211
?
????????
n
yxbyxbyay jjjj
r2 和 Sy ( x1,x2 )都是对回归模型拟合优度的评价指标。
Sy ( x1,x2 )也是用自变量对因变量进行区间估计的抽样误
差。
3 ·多元回归模型的显著性检验
?对偏回归系数的 t 检验
H0,β 1=0,H1,β 1 ≠ 0;H0,β 2=0,H1,β 2 ≠ 0 。
检验统计量:
2
2
1
1 ? ||||,? ||||
bb
btbt
??
??
2
2211
2
22
2
11
2
22
),(1 )])(([)()(
)(?
21 xxxxxxxx
xxS
xxyb ???????
?????
2
2211
2
22
2
11
2
22
),(
2
2 )])(([)()(
)(?
21 xxxxxxxx
xxS
xxyb ???????
????
按显著性水平 α和自由度( n-3 )查 t 表可得
到临界值
)3(
2
?nt?
t
0 )3(
2
?nt?)3(
2
?? nt?
?模型整体的 F 检验
检验统计量:
)1/()(
/)?(
)1/(
/
2
2
????
???
??? knyy
kyy
kn
kF
j剩余偏差
回归偏差 ( k — 自变量个数)
)3/()(
2/)?(
2
2
???
???
nyy
yyF
j )1(2
)3(
)3/()1(
2/
2
2
2
2
r
nr
nr
rF
?
??
???

按给定的 α和自由度( 2 )
和( n-3 )查 F 表可得到
临界值 F
α
)( mnF,?
)( 3,2 ?nF?
4 ·多元回归中的相关分析
?复相关:指一个因变量同多个自变量的相关关系。
复相关系数恒取正值。
2
2
2
12 )(
)?(
yy
yyrr
j
ny ??
????
?
?偏相关(净相关)指各个自变量在其他自变量固定不变时,
单个变量同因变量的相关关系。
计算偏相关系数需借助相关系数矩阵表的资料。
二元回归中的相关系数矩阵表
y
y
x1
x1
x2
x2
ry1
ry2 r12
1.00
1.00
1.00
x1 与 y 的偏相关系数:
2
12
2
2
1221
)2(1
)(1)(1 rr
rrr
r
y
yy
y
???
??
?
x2 与 y 的偏相关系数:
2
12
2
1
1212
)1(2
)(1)(1 rr
rrr
r
y
yy
y
???
??
?
5 ·应用多元回归方程进行区间估计
Y 的平均值的区间估计
Y 的特点值的区间估计
式中,是
即区间估计的抽样误差。
0213
2
0
^
0 CXXStYYE yn ),()=( )( ?? ?
021 CXXS y ),(
^Y 的抽样分布的标准差,
0213
2
0
^
0 1 CXXStYY yn ?? ? ),(= )(?
式中,
021 1 CXXS y ?),(
是 ^Y 的抽样分布的标准差,
即区间估计的抽样误差。
第五节 曲线回归与曲线相关
一, 曲线关系的判断和函数形式的选择
二, 二次曲线回归与相关指数
三,指数曲线回归与相关指数
非线性回归模型
当自变量与因变量存在某种曲线相关关系时,可拟合曲线回归
模型例如:。
双曲线:
x
bay ??
> 0 b > 0
> 0 b<0
x
x
y y
指数曲线,y=aebx b > 0b<0
xx
y y
幂函数曲线,y=axb
> 0 b > 0
x
y
b<1
b=1b>1
曲线模型的判别方法,理论和经验判断;
观察散点图
曲线模型的确定方法:
通常用变量代换法将曲线转换为直线按线性模型求解参数,而
后再变换为曲线模型。。
例如:双曲线模型
x
bay 1? ??
'?,1' bxay
x
x ??? 则有令
指数曲线模型
bxaey ??
x
ex
bxayLnaaLnyy
?
?????
'
'''''
,,则有令
本章小结
1.引言
2.相关关系的判断
3.一元线性回归与简单线性相关
4.多元线性回归与复相关
5.曲线回归与曲线相关
6.回归与相关分析的应用
结 束