高级统计学哈尔滨工业大学管理学院葛 虹高级统计学研究的对象
多指标或多变量数据
企业管理:产值、单位成本、原材料消耗、工资、劳动生产率、
销售收入、利润、全要素生产率
居民家庭消费:家庭收入、家庭人口、阶层、中高档消费品支出等等研究内容
简化数据结构箱式数据平面数据变换主成分分析
Principle
Analysis
因子分析
Factor
Analysis
按观测点分类或按变量分组
分类比较是一切科学比较的基础和开端
对观测点分类,银行发放贷款对各企业财务指标、信用状况进行分析
对变量分组,股票市场是宏观经济的晴雨表经济指标与股票市场各种指标间的群组关系聚类分析判别分析
Cluster Analysis
Discriminant Analysis
回归分析
Regression Analysis
结构方程
Structural Equation Model
变量间的依存关系 +关系的强弱分析
寻找变量间的依存关系是一切科学研究的主要内容
寻找一般的规律:预测、控制内容提要回归分析1
定性数据的建模2
聚类分析3
判别分析4
主成分分析5
因子分析6
结构方程7
教学内容结构回归分析
One
Two
Three
定性数据建模聚类分析判别分析主成分分析因子分析高级统计学结构方程预 测 回归分析定性数据建模分 类 聚类分析判别分析判 别主成分分析因子分析结构方程关联性分析综合评价统计学方法的应用以及内容之间的逻辑关系应用范围教学内容参考书
多元统计分析 (何晓群 编著)
中国人民大学出版社
应用统计 (陆璇 编著)
清华大学出版社预备知识
ONE
TWO
随机向量及其分布随机向量的数字特征
THREE
FOUR
随机向量的样本及其数字特征多元正态分布随机向量及其分布
P维随机向量,
联合分布函数,
联合密度函数,
),,,( 21 pXXX?
),,,(
),,,(
2211
21
pp
p
xXxXxXP
xxxF










1 2
212121
2121
21
),,,(),,,()3(
1),,,()2(
0),,,()1(
x x x
ppp
pp
p
p
dxdxdxxxxfxxxF
dxdxdxxxxf
xxxf


随机向量的数字特征
随机向量的数学期望
随机向量的方差阵
))(,),(),(()( 21 pXEXEXEE?

),c o v (),c o v (),c o v (
),c o v (),c o v (),c o v (
),c o v (),c o v (),c o v (
))(()(
21
22212
12111
pppp
p
p
XXXXXX
XXXXXX
XXXXXX
EEED

随机向量的相关系数阵
1
1
1
21
212
121
,,
,,
,,

XXXX
XXXX
XXXX
pp
p
p
R



)()(
),c o v (
,
ji
ji
XX XDXD
XX
ji

随机向量的样本及其数字特征
P维随机向量的一个容量为 n的样本:
),,,( 21 pXXX?
pn
n
n
pp
x
x
x
x
x
x
x
x
x

2
1
2
22
12
1
21
11
,,,
的样本1X
的样本的样本
2X
pX
样本均值
pn
n
n
pp
x
x
x
x
x
x
x
x
x

2
1
2
22
12
1
21
11
,,,
n
i
pi
n
i
i
n
i
i
p
x
n
x
n
x
n
X
X
X
1
1
2
1
1
2
1
1
1
1
样本离差阵与样本方差阵









n
i
ppi
n
i
ippi
n
i
ippi
n
i
ppii
n
i
i
n
i
ii
n
i
ppii
n
i
ii
n
i
i
XxXxXxXxXx
XxXxXxXxXx
XxXxXxXxXx
S
1
2
1
22
1
11
1
22
1
2
22
1
1122
1
11
1
2211
1
2
11
)())(())((
))(()())((
))(())(()(

SnV 1?
样本离差阵样本方差阵样本相关系数阵


















1
)()(
))((
)()(
))((
)()(
))((
1
)()(
))((
)()(
))((
)()(
))((
1
2
22
2
22
2
11
2
11
22
22
22
2
11
2
22
1122
22
11
11
2
22
2
11
2211

XxXx
XxXx
XxXx
XxXx
XxXx
XxXx
XxXx
XxXx
XxXx
XxXx
XxXx
XxXx
R
ippi
ippi
ippi
ippi
ppii
ppii
ii
ii
ppii
ppii
ii
ii
与 的样本相关系数
1X pX
多元正态分布
定义 1 q维标准正态分布设 独立同分布于,则称随机向量 服从 q 维正态分布,记
Y~
密度函数,
qYYY,,,21? )1,0(N
),,,( 21 qYYYY?
),( qqN
)21e x p ()2( 1)](21e x p [)2( 1),,,( 222221221 yyyyyyyyf qqqqY
定义 2 p 维一般正态分布设,B为 实数矩阵,为维实数向量,则是 维正态随机向量,记为:
其中 为非负定阵。
),( qqNY qp p
11 qqpp YBX?
p
),( ppNX
BB
X? 定理 1 若 服从,则
( 1),
( 2) 密度函数,
定理 2 与 分别是 和 的无偏估计,即
),(pN
EXDX



)()(21e x p
)2(
1),;( 1
212 xxxf p
X S
n 1
1

)( XE
)1
1( S
nE
回归分析一元回归模型的建立1
回归模型的诊断以及 SPSS实现2
回归模型的矩阵表示3
多元回归模型的建立4
多元回归模型的诊断以及 SPSS实现5
为什么要建立线性模型一般函数线性化 …
特殊函数线性化 …
简单易分析 …
相关性 =线性性 …
线性模型一元回归的 SPSS实现
观察散点图
Graphs Scatter
点击 1
点击 2
点击 1 点击 2
点击 3
点击 4
点击
执行回归过程
Analyze Regression Linear
点击 1 点击 2
点击 3
点击 4
点击 5
点击 1
点击 2
点击 3
点击 1
点击 5
点击 2
点击 3
点击 4
点击 6
点击点击 2
可选 点击 1
一元回归模型的建立
观察由 n个样本 构成的散点图或计算样本相关系数,若呈现明显的相关性,建立数学模型
~
其中 是未知参数,需要利用样本对它们进行估计,
),(,),,(),,( 2211 nn yxyxyx?
xy 10? ),0( 2?N
210,,
散点图( 1)

x
y
xy 10
ix
iy
i?
参数 的最小二乘估计( 1)
模型 1
最小二乘解,
10,

),0(...,,,221
10


Ndii
xy
n
iii


n
i
i
n
i
ii
xx
yyxx
xy
0
2
1
1
10
)(
))((


矩阵偏导数与样本矩阵表达
n
y
y
y
Y
2
1
n
x
x
x
X
1
1
1
2
1



2
1

n
2
1
AxxAxx 2 u
x
xu?

模型 2
最小二乘解:
( 1) 为 y关于 x的回归方程
( 2) 称 为方程的回归系数 ( )
( 3) 称 为残差,为残差向量
( 4) 称 为残差平方和
),(
),(
2
2 nn
nn
XNY
N
XY






YXXX 1)(
xy 10
)?,?(? 10
iii yy
)?()?( YYYYS E
YY
XY?
参数 的最小二乘估计( 2)
10,
散点图( 2)

x
y
xy 10
ix
iy
iy?
iiiii xyyy 10
与 的性质性质 1 ~

~
~
ES
))(,( 122XXN
0 ))(,( 2
2
2
0?
xx
xN
i
i
))( 1,( 221 xxN
i
1
00c
11c

性质 2 ~  ̄,且即 的无偏估计是性质 3 与 相互独立
2?ES 2 2?n? 2))2((nSE
E
2? )2(? 2 nS
E?
ES
性质 4 若,则
~
于是 的 置信区间 是:
i
S
ii


2?nt
iicS i
i? )%1(
))2(?,)2(?(?2?2
ii
StSt nini
的样本标准差
i
一元回归模型的有效性
决定系数法
R Square + Adjusted-R Square
回归方程的显著性检验方差分析 = F-检验决定系数法
总平方和分解
决定系数
222 )?()?()( iiii yyyyyy
ERT SSS
T
E
T
R
S
S
S
SR 12
T
E
S
S
n
nRA d j
2
112

总平方和回归平方和残差平方和df = n-1
df = n-2df = 1
方差分析法 (回归方程的显著性检验 )
零假设
检验统计量
0,10H
含义?
)2(?
nS
SF
E
R )2,1(?nF
~
拒绝域
)2,1(?nF?
))2,1(( nFFP
)2,1( nFF?
方差分析表( ANOVA)
Analysis of Variance
Model dfSS MS F
residual
Total
regression 1
2?n
1?n
RS
ES
TS
RS
)2(?nS E
)2(?nS
S
E
R
回归系数的显著性检验( 1)
零假设
检验统计量
0,00H
含义?
0
0
S
T? 2?nt
~
拒绝域
)2(2nt)2(2 nt
)2(2 ntT
2))2(( 2ntTP
2))2(( 2ntTP
回归系数的显著性检验( 2)
零假设
检验统计量
0,10H
1
1
S
t? 2?nt
~
2t ~ )2,1(?nF
一元回归模型的诊断
i?
前提假设等方差性独立性正态性
),0(..,2 Ndiii
误差的估计
残差与残差图
)( 10 iiiii xyyy ni,,2,1


i
iy?
残差图 (独立、等方差 )
残差图












残差不独立异方差检验 的正态性 ( Q-Q图)?


)(?i?
)?,0( 2?N th
n
i
)2(? 2 nS E?
的 分位数理论分位数样本分位数
Q-Q图 (Quantile-Quantile Plot)


)(?i?
)1(
)(?n?
)1( nx )( nix )( nnx
回归分析过程
建模过程
显著性检验过程
回归诊断过程回归方程的显著性 — F检验回归系数的显著性 — t检验残差图
Q-Q图参数估计误差估计多元回归模型的建立
模型基本形式:
~
样本表达:
矩阵表达:
pp xxxy?22110? ),0( 2?N

),0(...,,,221
22110


Ndii
xxxy
n
iippiii
),(),( 22 nn
nn
XNYN XY




参数 和 的估计? 2?
参数 的最小二乘估计是
参数 的无偏估计是其中 是残差平方和
YXXX 1)(
2?
)1(? 2 pnS E?
)?()?( YYYYS E
与 的性质
ES
性质 1  ̄
性质 2  ̄ 即是 的无偏估计
性质 3 与 相互独立
))(,( 121XXN p
2?
ES 2
1 pn?
ES
)1(? 2 pnS E? 2?
性质 4 若,则
~
于是 的 置信区间是:
i
S
ii


1 pnt
iicS i
i? )%1(
))2(?,)2(?(?1?1
ii
StSt pnipni
的第 i+1个对角元
1)(XX
性质 5 若
( 1) ~
( 2) ~ 且与 相互独立
( 3) ~
021 p
2?
TS
2 1?n?
2?
RS 2
p? ES
)1( pnS
pSF
E
R )1,( pnpF
多元回归模型显著性检验( 1)
决定系数法
方差分析法零假设:
检验统计量与其分布,
~
T
E
T
R
S
S
S
SR 12
T
E
S
S
pn
nRA d j
1
112


0,210 pH
)1( pnS
pSF
E
R )1,( pnpF
含义?
回归系数的显著性检验( 2)
零假设
检验统计量与其分布:
~
其中 是 的第 j+1个对角元
0:0?jjH?
j
SpnS
c
T j
E
jjj

)1(

)1( pnt
jjc
1)(XX
含义?
多重共线性
什么是多重共线性
p个自变量 在某种程度上是线性相关的
多重共线性可以造成参数的估计值严重偏离实际值一个解释,~
的共线性使 接近奇异阵,从而使 中的对角分量或 的方差很大,
pxxx?,,21
))(,( 121XXN p
pxxx?,,21 XX?
1)(XX
i
随机模拟方法
多重共线性对参数估计影响的例原线性模型:
的观测值:
正态随机数:
由模型得到:
回归模型:
21 3210 xxy
),( 21 xx
)5.2,4.2(),4.2,3.2(),1.2,0.2(),8.1,9.1(),8.1,8.1(
),9.1,8.1(),7.1,7.1(),8.1,7.1(),5.1,4.1(),1.1,1.1(
5.0,5.1,6.0,9.1,9.1,2.0,5.0,4.0,5.0,8.0
0.22,3.20,9.20,1.21,9.20,5.19,0.18,2.19,8.16,3.16?Y
21 5 9 0 7.63 0 7 3.112 9 2 4.11 xxy
多重共线性的判定
方法 1 相关系数法若自变量间的相关系数 ≈1,则相应的两个变量之间有较强的共线性。
方法 2 方差膨胀系数法 ( )
若 是把第 j个自变量看作因变量,用其余 p-1个变量作线性回归所得到的决定系数,则第 j个自变量的方差膨胀系数为:
ijr
2jR
21
1
j
j RVIF
pj,,2,1
105或?VIF
方法 3 检查统计量的显著性,很大,
但没有几个显著的 t统计量或 F统计量高度显著,而每个 t统计量都不显著,
方法 4 检查系数的标准差,如果几个系数的标准差都很高,而且从方程中去掉一个或几个变量会降低剩下几个变量系数的标准差,此时有可能存在多重共线性,
2R
共线性诊断的 SPSS实现点击点击克服多重共线性的统计方法逐步回归岭回归主成分回归消除多重共线性主成分回归
第一步:寻找主成分



ppppp
pp
pp
pp
XuXuXu
XuXuXu
XuXuXu
Y
Y
Y
X
X
X
2211
2222121
1212111
2
1
2
1
)()()( 21 pYDYDYD
0),(?ji YYC O V pji,,2,1,
第二步:如果第一和第二主成分的累积贡献率超过 85%,则建立回归模型
22110 YYy
pp xaxaxaa22110
随机模拟例的主成分回归结果
第一主成分的贡献率为 0.993
y关于第一主成分的回归模型为,
最后的整理结果为,
41.0
86.17 0 7 1.0
38.0
81.17 0 7 1.0 21
1
xxy
11 6 7 4.15.19 yy
21 0133.21723.28234.11 xxy
岭回归岭估计
YXkIXXk 1)()(
最小二乘估计
YXXX 1)(
逐步回归引进变量过程 剔除变量过程按某种法则将变量逐个引进每引进一个变量后剔除不显著的选入变量
3ix
1ix
4ix
2ix
7ix
6ix 5ix
习题 一
方差分析表
source dfSS MS F
residual
Total
regression
33.240
2
9
13.740?
参数估计表
constant
x1
x2
B Std,Error
11.307
-6.591
1.463
4.719
-1.486
t
7.719
回答如下问题
写出回归方程的表达式
回归方程是显著的吗?
回归系数是显著的吗?回归系数不显著的原因是什么?
计算决定系数和调整的决定系数
总体标准估计误差是多少?
临界值,7 3 7 4.4)7,2(
05.0?F
3646.2)7(025.0?t
科研案例刘小玄,民营化改制对中国产业效率的效果分析 —— 2001年全国普查工业数据分析,
经济研究,2004,(8):16-26
内容提要本项研究利用了第二次全国基本单位普查数据 ( 2001年 ),在全部工业的基础上,
考察了最新的民营化发展动态,考察 20多年来形成的改制面和所产生的相应绩效效果 。
按照现行的国家规定的企业产权注册的详细分类指标,我们得以将改制企业从一般公有制或私有制中加以分离,从而能够通过相应的实证模型,来检验不同所有权因素,尤其是改制形式的不同股权类型对于产业效率的影响及程度 。 主要的发现如下,( 1) 国有企业 ( 包括传统国有,国有独资企业 )
对于效率具有明显的负效率,私营企业,股份制企业和三资企业则都表现为积极地对于效率的正相关推动作用 。 其中,私营企业推动产业效率的作用最强,三资和股份合作企业其次,再次则是股份企业和集体企业 。
( 2) 对于改制企业的不同资本股份来说,
个人资本普遍具有最显著的对于效率的正相关的积极效果,法人资本表现为显著性不稳定的正相关作用,集体资本表现与效率不相关的结果,而国家资本则表现出十分显著的负相关效果 。 ( 3) 对于股份有限,有限责任和股份合作企业这三种股份企业之间差异的分析表明:股份有限公司的规模效益作用明显小于股份制企业,这是较多的国有产权的消极作用抵消了规模效益的积极作用的结果 。 相对于股份有限公司,股份合作或有限责任公司的劳动贡献率明显高于资本贡献率,
表明这类改制企业在改制后初期主要依靠
,劳动推动,或,人力资本推动,来提高企业效率 。
产业效率决定因素的估计模型
)()(lnlnlnln LAOWLKAY
销售收入固定资产净值就业人数所有权结构变量规模变量
所有权变量的度量,不同注册类型企业的实收资本占该行业总资本的比重
(国有、集体、私营、股份合作、有限公司、股份有限、港澳台合资、港澳台独资、外商合资、外商独资和其他,
总共 11种产权变量)
规模变量的度量:一行业内大型、中型或小型企业的市场份额影响产业效率的国有因素因变量参数估计
(T检验值 )
截距
2.699
(14.36)
LK
0.424
(12.56)
LL
0.577 0.566 -0.5550.801
(16.44) (3.21)(6.93) (-8.37)
大型 中型 国有
9 4 1 3.02?R 1 9 3 6?F 605?N
影响产业效率的其他所有制因素
股份公司中的不同资本所有权对于效率的作用
股份公司中的国家资本所有权对于效率的作用读书报告 (研究生网站上下载 )
至少两篇文献 (所学专业 )
报告内容包括:
研究的目的和意义
研究内容
研究方法
模型、变量的选择;模型的估计结果
结论
参考文献 (格式按研究生毕业论文要求 )
研究报告 (用于上机实验 )
寻找与本专业研究方向有关的数据
通过对数据的整理建立相关模型并说明,
研究的目的和意义
研究内容
研究方法
模型、变量的选择;模型的估计结果
结论
参考文献 (格式按研究生毕业论文要求 )