zf
MULTIVARIATE STATISTICS ANALYSIS
多元统计分析
2011-10-16 2
cxt
1,Univariate versus Multivariate Analysis
? Univariate analysis
Solely interested in an isolated characteristic of
a set of objects,irrespective of other variable
characteristics possessed by the objects
? Examples
? the study of the achievement test scores of
students
? the salaries of workers
2011-10-16 3
cxt
? Multivariate analysis
We are concerned with the simultaneous investigation
of two or more variable characteristics which are
measured over a set of objects,
? Examples
? the study of the relationships that exist among career
performance,academic achievement,and aptitude test
scores
? the study of the relationships among product sales,
pricing,and advertising levels
2011-10-16 4
cxt
? 多元统计分析是运用数理统计的方法来研究
多变量(多指标)问题的理论和方法,是 一
元统计学的推广 。
? 多元统计分析是研究多个随机变量之间相互
依赖关系以及内在统计规律的一门统计学科
2011-10-16 5
cxt
? 有了一元统计的理论和方法,为什么还要多
元统计分析呢?
? 将多个变量用一元方法进行处理,问题不就
解决了吗?
事实却与此相悖!!
2011-10-16 6
cxt
? 例 1:甲股票看涨这一事件发生的概率为
0.85,乙股票看跌的概率为 0.90。即,
P(A)=0.85 P(B)=0.90
甲股价上涨和乙股价下跌都发生的可能性是
多少?即,P(AB)=
A,B相互独立,P(AB)= P(A)
P(B)= 0.85*0.90= 0.765
事实上,A,B往往是不独立的,那么 P(AB)=
2011-10-16 7
cxt
? 多元统计分析就是要考虑 A,B之间的联系,
才能做出联合的判断,知道 P(AB)是多少。
? 面对股票市场中众多的股票行情,可想到用
多元统计分析的重要性 。
2011-10-16 8
cxt
? 例 2:考察某高中三年级学生的学习情况。
随机抽取 12名学生政治、语文、外语、数学、
物理等 5门主课期末考试的成绩。
2011-10-16 9
cxt
序号 政治 X1 语文 X2 外语 X3 数学 X4 物理 X5
1 99 94 93 100 100
2 99 88 96 99 97
3 100 98 81 96 100
4 93 88 88 99 96
5 100 91 72 96 78
6 90 78 82 75 97
7 75 73 88 97 89
8 93 84 83 68 88
9 87 73 60 76 84
10 95 82 90 62 39
11 76 72 43 67 78
12 85 75 50 34 37
2011-10-16 10
cxt
? 若用一元统计方法,每次分析处理一门课程
的成绩。其 缺点,
丢失的信息太多,分析的结果不能客观全
面地反映该年级学生的学习情况。
? 要同时分析多门课程的成绩,分析各门课程
之间的相关关系、相对重要性等问题。需要
借助, 多元统计, 。
2011-10-16 11
cxt
? 我们用多元统计,
1、用各科成绩的总和作为综合指标,来比
较学生学习的好坏。
2、根据各科成绩相近程度对学生进行分类
(成绩好的与差的;文科成绩好的和理科成
绩好的等等)
3、各科成绩之间的关系(如物理与数学成
绩的关系;文科成绩与理科成绩的关系等)
2011-10-16 12
cxt
?多元统计分析优点,分析问题更全面更透彻
? 能使我们对所研究的问题更全面,更深刻的认识,
帮助我们透过现象看本质,发观事物之间内在的本
质规律。
? 多元统计分析是研究多个随机变量之间相互
依赖关系以及内在统计规律的一门统计学科
2011-10-16 13
cxt
2,Types of Multivariate Techniques
? Dependence Techniques – variables are divided into dependent
and independent,Dependence techniques attempt to explain or predict the
dependent variable(s) on the basis of two or more independent
variables.include Multiple Regression (MR),Discriminant Analysis
(DA),Multivariate Analysis of Variance (MANOVA),Canonical
Correlation Analysis (CCA),
? Interdependence Techniques – all variables are analyzed
simultaneously,with none being designated as either dependent or
independent,The goal of interdependence techniques is to give meaning to
a set of variables or seek to group things together,No one variable,or
variable subset is to be predicted from the others or explained by them,
include Principal Components Analysis (PCA),Factor Analysis (FA),
Cluster Analysis (CA),Multidimensional Scaling (MDS),
2011-10-16 14
cxt
? Dependence Techniques
1,Multiple Regression (MR)
2,Discriminant Analysis (DA)
3,Multivariate Analysis of Variance
(MANOVA)
4,Canonical Correlation Analysis (CCA)
2011-10-16 15
cxt
? Interdependence techniques
1,Principal Components Analysis (PCA)
2,Factor Analysis (FA)
3,Cluster Analysis (CA)
4,Multidimensional Scaling (MDS)
2011-10-16 16
cxt
? Variable-directed techniques
concerned with relationships that might exist among the
response variables being measured,Include correlation
matrics,principal components analysis,factor analysis,
regression analysis,and canonical correlation analysis,
? Individual-directed techniques
concerned with relationships that might exist among the
experimental units and /or individuals being measured,
Include discriminant analysis,cluster analysis,and
multivariate analysis of variance( MANOVA)
2011-10-16 17
cxt
? 1,简化数据结构
如:主成分分析、因子分析、对应分析
? 2、分类与判别
如:聚类分析、判别分析
? 3、变量之间的相关关系
如:回归分析、典型相关分析等
? 4、统计推断
2011-10-16 18
cxt
Dependence Techniques,
? 1,Multiple Regression(MR) –the objective of
MR is to predict changes in a single metric
dependent variable in response to changes in
several metric independent variables,A related
technique is multiple correlation,
? General Form
Y = X1 + X2 + X3 + …,+Xn,
where Y and the X’s are metric variables
2011-10-16 19
cxt
例 3,肾小球滤过率的影响因素研究
临床观测 61例患者的肾小球滤过率 y,及 10种观察指标,年龄 X1,糖化
血红蛋白 X2,饭后两小时血糖 X3,胰岛素 X4,胆固醇 X5,肌肝 X6,
平均动脉压 X7,体重 X8,肾脏体积 X9,尿白蛋白排泄率 X10。
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
病例 X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 y
──────────────────────────────────
1 36 9 16 31 5 53 101 304 355 1 177
2 39 14 24 17 7 69 90 25 310 23 130
3 42 14 29 7 4 82 96 24 293 3 101
,,,,,,,,,,,,,,,,,,,,,,,,
61 45 20 22 10 3 101 90 20 310 1 116
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
? 试分析这 10项指标与肾小球滤过率间的关系。
2011-10-16 20
cxt
? 变量 系数 标准误 t值 P值
截距 71.02 27.66 2.567 0.0133
X1 0.14 0.27 0.510 0.6124
X2 -0.62 0.95 -0.656 0.5149
X3 1.01 0.48 2.084 0.0423 *
X4 0.06 0.16 0.382 0.7039
X5 2.33 1.86 1.255 0.2153
X6 -0.64 0.19 -3.369 0.0015 **
X7 0.02 0.18 0.157 0.8757
X8 -0.24 0.78 -0.308 0.7594
X9 0.23 0.04 5.008 0.0001 **
X10 -0.21 0.14 -1.524 0.1337
? P值可以看出,在十个变量中,X3饭后两小时血糖,X6肌肝 t
和 X9 肾脏体积对肾小球滤过率影响有显著性意义,其它的
7个变量没有显著性意义。
2011-10-16 21
cxt
? 2,Discriminant Analysis(DA) – the objective
of DA is to predict group membership for a
single non-metric dependent variable using
several metric independent variables,
2011-10-16 22
cxt
? 3,Multivariate Analysis of Variance
(MANOVA)
? simultaneously analyzes the relationship of 2 or
more metric dependent variables and several non-
metric independent variables
? Provides a significance test of mean difference
between groups for two or more dependent
variables
2011-10-16 23
cxt
? 例 4,调查某中学同年级 22名男女生,测量其身高
( cm),体重 (kg)和胸围 (cm),数据见表。试检验
该中学全体男女生的身体发育状况有无差别 。
2011-10-16 24
cxt
某中学 22名男, 女生身体测量资料
─────────────────────────────
男 生 女 生
──────── ───────────
编号 身高 体重 胸围 编号 身高 体重 胸围
─────────────────────────
1 171 58.5 81.0 1 152 44.8 74
2 175 65 87 2 153 46.5 80
3 159 38 71 3 158 48.5 73.5
4 155.3 45 74 4 150 50.5 87
5 152 35 63 5 144 36.3 68
6 158.3 44.5 75 6 160.5 54.7 86
7 154.8 44.5 74 7 158 49 84
8 164 51 72 8 154 50.8 76
9 165.2 55 79 9 153 40 70
10 164.5 46 71 10 159.6 52 76
11 159.1 48 72.5
12 164.2 46.5 73
2011-10-16 25
cxt
一元方差分析的结果
━━━━━━━━━━━━━━━━━━━━━━━━━
身高 体重 胸围
── ─────── ────── ──────
组别 平均值 标准差 平均值 标准差 平均值 标准差
─────────────────────────
男 161.9 6.8 48.1 8.3 74.4 5.9
女 154.2 5.0 47.3 5.6 77.4 6.6
─────────────────────────
F值 8.7** 0.1 1.3
** P<0.01
? 从表可以看出,该校男、女生的身高差异有显著性意义,而体重、
胸围差异无显著性意义。那么,该年级全体男女生的身体发育状
况有无差别,我们不能得到一个明确的结论。
2011-10-16 26
cxt
? 多元方差分析,
可用男、女生的身高、体重、胸围组成的样本均数向量推论该
年级男、女生身体发育指标的总体均数向量 μ1 和 μ2 相等与否,
得到,
F=8.8622,P=0.0008。 拒绝该年级男女生身体发育指标的
总体均数向量相等的假设,从而可认为该校男女生身体发育状
况不同。
2011-10-16 27
cxt
? 4,Canonical Correlation(CCA)-
simultaneously correlates several metric dependent
variables and several metric independent
variables.Note that this procedure can be
considered an extension of MR,where there is only
one metric dependent variable,
2011-10-16 28
cxt
Interdependence techniques
? 1,Principal Components Analysis (PCA) –
used to reduce many original variables to a few
linear combinations of them that best represent
the original data,
2011-10-16 29
cxt
? 2,Factor Analysis (FA) – used to analyze the
interrelationships among a large number of
variables and then explain these variables in terms
of their common,underlying dimension,
2011-10-16 30
cxt
? 简化数据结构(降维问题)
将具有错综复杂关系的多个变量综合成数
量较少且互不相关的变量,使研究问题得到
简化但损失的信息又不太多。
2011-10-16 31
cxt
? 例 5:对上市公司治理好坏的评价,通常选
用指标有,
公司股权集中度 (X1),股权性质 (X2),经
理人持股比例 (X3),经理人薪酬 (X4),经理
人是否兼任董事长一职 (X5),董事会规模
(X5),独立董事比例 (X6)等等指标
2011-10-16 32
cxt
? 指标与指标可能存在相关关系
信息重叠,分析偏误
? 指标太多,增加问题的 复杂性 和 分析难度
如何避免?
选用主成分分析或因子分析
2011-10-16 33
cxt
? 例 6:美国的统计学家斯通 (stone)在 1947年
关于国民经济的研究。他曾利用美国 1929一
1938年各年的数据,得到了 17个反映国民收
入与支出的变量要素,例如雇主补贴、消费
资料和生产资料、纯公共支出、净增库存、
股息、利息外贸平衡等等。
2011-10-16 34
cxt
? 运用主成分分析以 97.4%的精度,用 三新变
量 就取代了原 17个变量。根据经济学知识,
斯通给这三个新变量分别命名为总收入 F1、
总收入变化率 F2和经济发展或衰退的趋势 F3。
更有意思的是,这三个变量其实都是可以直
接测量的。斯通将他得到的主成分与实际测
量的总收入 I,总收入变化率 ⊿ I以及时间 t
因素做相关分析,得到下表,
2011-10-16 35
cxt
F1
F2
F3
i
i
t
F1
1
F2
0
1
F3
0
0
1
i
0.995
-0.041
0.057
l
Δ i
-0.056
0.948
-0.124
-0.102
l
t
-0.369
-0.282
-0.836
-0.414
-0.112
1
2011-10-16 36
cxt
? 主成分分析得到的主成分(新变量)与原始变
量之间的关系,
1,主成分保留了原始变量绝大多数信息 。
2,主成分的个数大大少于原始变量的数目 。
3,各个主成分之间互不相关 。
4,每个主成分都是原始变量的线性组合 。
2011-10-16 37
cxt
? 3,Cluster Analysis (CA) – used to classify a
sample into several mutually exclusive groups
based on similarities and differences among the
sample components,
2011-10-16 38
cxt
例 5:根据信息基础设施的发展状况,对世界 20个国家
和地区进行分类。
考察指标有 6个,
1,X1,每千居民拥有固定电话数目
2,X2,每千人拥有移动电话数目
3,X3,高峰时期每三分钟国际电话的成本
4,X4,每千人拥有电脑的数目
5,X5,每千人中电脑使用率
6,X6,每千人中开通互联网的人数
2011-10-16 39
cxt
? 具体数据参见(于秀林、任学松,多元统计
分析,第 92页)
? 分析结果:将 20个国家分为两类
第 1类(基础设施落后),巴西、墨西哥、
波兰、匈牙利、智利、俄罗斯、泰国、印度、
马来西亚
第 2类(基础设施发达),瑞典、丹麦、
美国、中国台湾、韩国、日本、德国、法国、
新加坡、英国、瑞士
2011-10-16 40
cxt
? 如果:我们想知道我国基础设施发展属于哪
一类型?
运用判别分析
依据,20个国家的分类结果
2011-10-16 41
cxt
? 例 6,Smith先生被指控偷了邻居家的鸡。但
Smith先生宣称他家冰箱里的鸡是野鸡。
? 如何判定,
Smith先生究竟是否偷了邻居的鸡呢??
2011-10-16 42
cxt
? 4,Multidimensional Scaling (MDS) – a
technique used to transform similarity scalings
into distances in a multidimensional space,
2011-10-16 43
cxt
三、多元统计的发展
? 起源于,20世纪 20年代
1928年威沙特( Wishart)发表的《多元正
态总体样本协方差矩阵的精确分布》为开端
? 30年代多元分析在理论上得到迅速发展
费希尔( Fisher),霍特林( Hotelling)等
进一步发展多元统计。
? 40年代在心理学、教育学等领域进行应用
因计算量大,发展受到影响
2011-10-16 44
cxt
? 20世纪 50年代中期 ——,多元统计在地质、气象、
医学、社会学等方面得到广泛应用
因计算机的出现和发展
? 我国,70年代初期才开始重视多元统计在各领域的
应用
2011-10-16 45
cxt
四、多元统计的应用
? 1、教育学
? 2、医学
? 3、气象学
? 4、环境科学
? 5、地质学
? 6、考古学
? 7、经济学
? 8、社会科学
等等
2011-10-16 46
cxt
? 教育学,
测试学生入学后的考试成绩与入学考试
成绩的相关关系?
现行教育模式是否合理?
? 经济学,
如:衡量一个地区的经济发展情况,需观测
的指标有:人均收入、就业率、物价、信贷、
税收、年财政收入、基础设施建设等等 。
2011-10-16 47
cxt
? 医学,
通过检测:血压、心脏脉搏跳动的次数、
白血球等等,判定一个人是有病还是没病?
根据某病人的体温、白血球、恶心、呕
吐、腹部压疼感等判别此人是患何种类型阑
尾炎?急性、慢性、有无穿孔?
2011-10-16 48
cxt
? 气象学,
根据目前空气湿度、风向、风力等指标判
断未来 24小时内天气情况
? 社会学,
随着经济的发展,居民的幸福感是增强呢
还是减弱呢?
农民工的工资支付情况是否明显好转?
2011-10-16 49
cxt
? 文学,
,红楼梦》前 80回和后 40回是否出自同一
作者?
2011-10-16 50
cxt
多元统计无处不在
2011-10-16 51
cxt
五、课程的主要安排和要求
一、了解各种多元统计学方法的适用前提条件
和用应范围
二、掌握一种统计软件 —— SPSS
三、正确解释软件输出结果及结论
讲授与上机实习结合
四、成绩考核
平时成绩占 30%
期末考试成绩占 70%。
2011-10-16 52
cxt
六、多元分析的基本步骤
? 1、研究什么问题?
明确分析的问题
? 2、如何获取数据?
? 3、如何分析数据?
? 4、如何解释分析结果?
2011-10-16 53
cxt
? 在前期的准备过程中要注意两点,
1、样本量要足够的大!
一般认为,本数是研究变量个数的 10倍左右。
2、变量类型及其数量化
2011-10-16 54
cxt
1、为什么需要足够多的观测样本呢?
? 如:抛掷硬币的试验结果
━━━━━━━━━━━━━━━━━━━━━
试验者 抛掷次数 (n) 正面次数 (k) 频率 (k/n)
─────────────────────
TONG 3 3 1.00
5 4 0.80
10 3 0.30
20 7 0.35
50 27 0.54
100 52 0.52
500 246 0.492
━━━━━━━━━━━━━━━━━━━━━
2011-10-16 55
cxt
? 历史上许多著名科学家做过抛掷硬币的试验,抛掷
硬币试验结果如表
━━━━━━━━━━━━━━━━━━━━━━━━━
试验者 抛掷次数 (n) 正面次数 (k) 频率 (k/n)
─────────────────────────
De Morgan 2048 1061 0.518
Buffon 4,040 2,048 0.5069
Pearson 12,000 6,019 0.5016
Pearson 24,000 12,012 0.5005
━━━━━━━━━━━━━━━━━━━━━━━━━
2011-10-16 56
cxt
? 观测样本(次数)越少,抽样误差越大,样
本的对研究总体的代表性就小。
2011-10-16 57
cxt
?2、变量类型,
⑴ 定量变量
是对研究单位的定量特征的描述 。 诸如个体年龄,
身高, 体重等变量均可经测量取得数值 。 将这类变
量视为连续型变量,或定量变量 。
⑵ 定性变量
是对研究单位的定性特征的描述, 有类别 。 亦
称分类变量, 如性别分男, 女为二分类变量 。 血型
可分为 A,B,AB,O四类型,为四分类变量 。
2011-10-16 58
cxt
? 对定性变量数量化
如:性别,男= 0,女= 1
病情,轻= 0,中= 1,重= 2
2011-10-16 59
cxt
? 数据的整理,
设研究问题中含有 p个指标变量 x1,x2,…,xp,及 n个观察对象,
其数据结构为,
━━━━━━━━━━━━━━━
编号 X1 X2 X3 …, XP
━━━━━━━━━━━━━━━━
1 x11 x21 x31 … x1p
2 x12 x22 x32 … x2p
3 x13 x23 x33 … x3p
… … … … … …
n x1n x2n x3n … xnp