zf
MULTIVARIATE STATISTICS ANALYSIS
多元统计分析
2011-10-16 2
cxt
一、什么是多元统计分析
? 多元统计分析是运用数理统计的方法来研究
多变量(多指标)问题的理论和方法,是 一
元统计学的推广 。
? 多元统计分析是研究多个随机变量之间相互
依赖关系以及内在统计规律的一门统计学科 。
2011-10-16 3
cxt
? 有了一元统计的理论和方法,为什么还要多
元统计分析呢?
? 将多个变量用一元方法进行处理,问题不就
解决了吗?
事实却与此相悖!!
2011-10-16 4
cxt
? 例 1:甲股票看涨这一事件发生的概率为
0.85,乙股票看跌的概率为 0.90。即,
P(A)=0.85 P(B)=0.90
甲股价上涨和乙股价下跌都发生的可能性是
多少?即,P(AB)=
A,B相互独立,P(AB)= P(A)
P(B)= 0.85*0.90= 0.765
事实上,A,B往往是不独立的,那么 P(AB)=
2011-10-16 5
cxt
? 多元统计分析就是要考虑 A,B之间的联系,
才能做出联合的判断,知道 P(AB)是多少。
? 面对股票市场中众多的股票行情,可想到用
多元统计分析的重要性 。
2011-10-16 6
cxt
? 例 2:考察某高中三年级学生的学习情况。
随机抽取 12名学生政治、语文、外语、数学、
物理等 5门主课期末考试的成绩。
2011-10-16 7
cxt
序号 政治 X1 语文 X2 外语 X3 数学 X4 物理 X5
1 99 94 93 100 100
2 99 88 96 99 97
3 100 98 81 96 100
4 93 88 88 99 96
5 100 91 72 96 78
6 90 78 82 75 97
7 75 73 88 97 89
8 93 84 83 68 88
9 87 73 60 76 84
10 95 82 90 62 39
11 76 72 43 67 78
12 85 75 50 34 37
2011-10-16 8
cxt
? 若用一元统计方法,每次分析处理一门课程
的成绩。其 缺点,
丢失的信息太多,分析的结果不能客观全
面地反映该年级学生的学习情况。
? 要同时分析多门课程的成绩,分析各门课程
之间的相关关系、相对重要性等问题。需要
借助, 多元统计, 。
2011-10-16 9
cxt
? 我们用多元统计,
1、用各科成绩的总和作为综合指标,来比
较学生学习的好坏。
2、根据各科成绩相近程度对学生进行分类
(成绩好的与差的;文科成绩好的和理科成
绩好的等等)
3、各科成绩之间的关系(如物理与数学成
绩的关系;文科成绩与理科成绩的关系等)
2011-10-16 10
cxt
?多元统计分析优点,
分析问题更全面更透彻
? 能使我们对所研究的问题更全面,更深刻的认识,
帮助我们透过现象看本质,发观事物之间内在的本
质规律。
2011-10-16 11
cxt
二、多元统计分析的内容和方法
? 1、简化数据结构(降维问题)
将具有错综复杂关系的多个变量综合成数
量较少且互不相关的变量,使研究问题得到
简化但损失的信息又不太多。
( 1)主成分分析
( 2)因子分析
( 3)对应分析等
2011-10-16 12
cxt
? 例 3:对上市公司治理好坏的评价,通常选
用指标有,
公司股权集中度 (X1),股权性质 (X2),经
理人持股比例 (X3),经理人薪酬 (X4),经理
人是否兼任董事长一职 (X5),董事会规模
(X5),独立董事比例 (X6)等等指标
2011-10-16 13
cxt
? 指标与指标可能存在相关关系
信息重叠,分析偏误
? 指标太多,增加问题的 复杂性 和 分析难度
如何避免?
选用主成分分析或因子分析
2011-10-16 14
cxt
? 例 4:美国的统计学家斯通 (stone)在 1947年
关于国民经济的研究。他曾利用美国 1929一
1938年各年的数据,得到了 17个反映国民收
入与支出的变量要素,例如雇主补贴、消费
资料和生产资料、纯公共支出、净增库存、
股息、利息外贸平衡等等。
2011-10-16 15
cxt
? 运用主成分分析以 97.4%的精度,用 三新变
量 就取代了原 17个变量。根据经济学知识,
斯通给这三个新变量分别命名为总收入 F1、
总收入变化率 F2和经济发展或衰退的趋势 F3。
更有意思的是,这三个变量其实都是可以直
接测量的。斯通将他得到的主成分与实际测
量的总收入 I,总收入变化率 ⊿ I以及时间 t
因素做相关分析,得到下表,
2011-10-16 16
cxt
F1
F2
F3
i
i
t
F1
1
F2
0
1
F3
0
0
1
i
0.995
-0.041
0.057
l
Δ i
-0.056
0.948
-0.124
-0.102
l
t
-0.369
-0.282
-0.836
-0.414
-0.112
1
2011-10-16 17
cxt
? 主成分分析得到的主成分(新变量)与原始变
量之间的关系,
1,主成分保留了原始变量绝大多数信息 。
2,主成分的个数大大少于原始变量的数目 。
3,各个主成分之间互不相关 。
4,每个主成分都是原始变量的线性组合 。
2011-10-16 18
cxt
? 2、分类与判别(归类问题)
对所考察的变量按相似程度进行分类。
( 1)聚类分析:根据分析样本的各研究
变量,将性质相似的样本归为一类的方法。
( 2)判别分析:判别样本应属何种类型
的统计方法。
2011-10-16 19
cxt
例 5:根据信息基础设施的发展状况,对世界 20个国家
和地区进行分类。
考察指标有 6个,
1,X1,每千居民拥有固定电话数目
2,X2,每千人拥有移动电话数目
3,X3,高峰时期每三分钟国际电话的成本
4,X4,每千人拥有电脑的数目
5,X5,每千人中电脑使用率
6,X6,每千人中开通互联网的人数
2011-10-16 20
cxt
? 具体数据参见(于秀林、任学松,多元统计
分析,第 92页)
? 分析结果:将 20个国家分为两类
第 1类(基础设施落后),巴西、墨西哥、
波兰、匈牙利、智利、俄罗斯、泰国、印度、
马来西亚
第 2类(基础设施发达),瑞典、丹麦、
美国、中国台湾、韩国、日本、德国、法国、
新加坡、英国、瑞士
2011-10-16 21
cxt
? 如果:我们想知道我国基础设施发展属于哪
一类型?
运用判别分析
依据,20个国家的分类结果
2011-10-16 22
cxt
? 例 6,Smith先生被指控偷了邻居家的鸡。但
Smith先生宣称他家冰箱里的鸡是野鸡。
? 如何判定,
Smith先生究竟是否偷了邻居的鸡呢??
2011-10-16 23
cxt
? 3、变量间的相互联系
一是:分析一个或几个变量的变化是否
依赖另一些变量的变化。(回归分析)
二是:两组变量间的相互关系(典型相
关分析)
2011-10-16 24
cxt
例 7,肾小球滤过率的影响因素研究
临床观测 61例患者的肾小球滤过率 y,及 10种观察指标,年龄 X1,糖化
血红蛋白 X2,饭后两小时血糖 X3,胰岛素 X4,胆固醇 X5,肌肝 X6,平
均动脉压 X7,体重 X8,肾脏体积 X9,尿白蛋白排泄率 X10。
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
病例 X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 y
──────────────────────────────────
1 36 9 16 31 5 53 101 304 355 1 177
2 39 14 24 17 7 69 90 25 310 23 130
3 42 14 29 7 4 82 96 24 293 3 101
,,,,,,,,,,,,,,,,,,,,,,,,
61 45 20 22 10 3 101 90 20 310 1 116
━━━━━━━━━━━━━━━━━━━━━━━━━━━━━
? 试分析这 10项指标与肾小球滤过率间的关系。
2011-10-16 25
cxt
? 变量 系数 标准误 t值 P值
截距 71.02 27.66 2.567 0.0133
X1 0.14 0.27 0.510 0.6124
X2 -0.62 0.95 -0.656 0.5149
X3 1.01 0.48 2.084 0.0423 *
X4 0.06 0.16 0.382 0.7039
X5 2.33 1.86 1.255 0.2153
X6 -0.64 0.19 -3.369 0.0015 **
X7 0.02 0.18 0.157 0.8757
X8 -0.24 0.78 -0.308 0.7594
X9 0.23 0.04 5.008 0.0001 **
X10 -0.21 0.14 -1.524 0.1337
? P值可以看出,在十个变量中,X3饭后两小时血糖,X6肌肝 t
和 X9 肾脏体积对肾小球滤过率影响有显著性意义,其它的
7个变量没有显著性意义。
2011-10-16 26
cxt
? 4、多元数据的统计推断
点估计
参数估计 区间估计
统 u检验
计 参数 t检验
推 F检验
断 假设 相关与回归
检验 卡方检验
非参 秩和检验
秩相关检验
2011-10-16 27
cxt
?主要讲解:多元正态分布的均值向量
及协方差矩阵的估计和假设检验
? 例 8,调查某中学同年级 22名男女生,测量其身高
( cm),体重 (kg)和胸围 (cm),数据见表。试检验
该中学全体男女生的身体发育状况有无差别 。
2011-10-16 28
cxt
某中学 22名男, 女生身体测量资料
─────────────────────────────
男 生 女 生
──────── ───────────
编号 身高 体重 胸围 编号 身高 体重 胸围
─────────────────────────
1 171 58.5 81.0 1 152 44.8 74
2 175 65 87 2 153 46.5 80
3 159 38 71 3 158 48.5 73.5
4 155.3 45 74 4 150 50.5 87
5 152 35 63 5 144 36.3 68
6 158.3 44.5 75 6 160.5 54.7 86
7 154.8 44.5 74 7 158 49 84
8 164 51 72 8 154 50.8 76
9 165.2 55 79 9 153 40 70
10 164.5 46 71 10 159.6 52 76
11 159.1 48 72.5
12 164.2 46.5 73
2011-10-16 29
cxt
一元方差分析的结果
━━━━━━━━━━━━━━━━━━━━━━━━━
身高 体重 胸围
── ─────── ────── ──────
组别 平均值 标准差 平均值 标准差 平均值 标准差
─────────────────────────
男 161.9 6.8 48.1 8.3 74.4 5.9
女 154.2 5.0 47.3 5.6 77.4 6.6
─────────────────────────
F值 8.7** 0.1 1.3
** P<0.01
? 从表可以看出,该校男、女生的身高差异有显著性意义,而体重、胸
围差异无显著性意义。那么,该年级全体男女生的身体发育状况有无
差别,我们不能得到一个明确的结论。
2011-10-16 30
cxt
? 多元方差分析,
可用男、女生的身高、体重、胸围组成的样本均数向量推论该
年级男、女生身体发育指标的总体均数向量 μ1 和 μ2 相等与否,
得到,
F=8.8622,P=0.0008。 拒绝该年级男女生身体发育指标的
总体均数向量相等的假设,从而可认为该校男女生身体发育状
况不同。
2011-10-16 31
cxt
三、多元统计的发展
? 起源于,20世纪 20年代
1928年威沙特( Wishart)发表的《多元正
态总体样本协方差矩阵的精确分布》为开端
? 30年代多元分析在理论上得到迅速发展
费希尔( Fisher),霍特林( Hotelling)等
进一步发展多元统计。
? 40年代在心理学、教育学等领域进行应用
因计算量大,发展受到影响
2011-10-16 32
cxt
? 20世纪 50年代中期 ——,多元统计在地质、气象、
医学、社会学等方面得到广泛应用
因计算机的出现和发展
? 我国,70年代初期才开始重视多元统计在各领域的
应用
2011-10-16 33
cxt
四、多元统计的应用
? 1、教育学
? 2、医学
? 3、气象学
? 4、环境科学
? 5、地质学
? 6、考古学
? 7、经济学
? 8、社会科学
等等
2011-10-16 34
cxt
? 教育学,
测试学生入学后的考试成绩与入学考试
成绩的相关关系?
现行教育模式是否合理?
? 经济学,
如:衡量一个地区的经济发展情况,需观测
的指标有:人均收入、就业率、物价、信贷、
税收、年财政收入、基础设施建设等等 。
2011-10-16 35
cxt
? 医学,
通过检测:血压、心脏脉搏跳动的次数、
白血球等等,判定一个人是有病还是没病?
根据某病人的体温、白血球、恶心、呕
吐、腹部压疼感等判别此人是患何种类型阑
尾炎?急性、慢性、有无穿孔?
2011-10-16 36
cxt
? 气象学,
根据目前空气湿度、风向、风力等指标判
断未来 24小时内天气情况
? 社会学,
随着经济的发展,居民的幸福感是增强呢
还是减弱呢?
农民工的工资支付情况是否明显好转?
2011-10-16 37
cxt
? 文学,
,红楼梦》前 80回和后 40回是否出自同一
作者?
2011-10-16 38
cxt
多元统计无处不在
2011-10-16 39
cxt
五、课程的主要安排和要求
一、了解各种多元统计学方法的适用前提条件
和用应范围
二、掌握一种统计软件 —— SPSS
三、正确解释软件输出结果及结论
讲授与上机实习结合
四、成绩考核
平时成绩占 30%
期末考试成绩占 70%。
2011-10-16 40
cxt
六、多元分析的基本步骤
? 1、研究什么问题?
明确分析的问题
? 2、如何获取数据?
? 3、如何分析数据?
? 4、如何解释分析结果?
2011-10-16 41
cxt
? 在前期的准备过程中要注意两点,
1、样本量要足够的大!
一般认为,本数是研究变量个数的 10倍左右。
2、变量类型及其数量化
2011-10-16 42
cxt
1、为什么需要足够多的观测样本呢?
? 如:抛掷硬币的试验结果
━━━━━━━━━━━━━━━━━━━━━
试验者 抛掷次数 (n) 正面次数 (k) 频率 (k/n)
─────────────────────
TONG 3 3 1.00
5 4 0.80
10 3 0.30
20 7 0.35
50 27 0.54
100 52 0.52
500 246 0.492
━━━━━━━━━━━━━━━━━━━━━
2011-10-16 43
cxt
? 历史上许多著名科学家做过抛掷硬币的试验,抛掷
硬币试验结果如表
━━━━━━━━━━━━━━━━━━━━━━━━━
试验者 抛掷次数 (n) 正面次数 (k) 频率 (k/n)
─────────────────────────
De Morgan 2048 1061 0.518
Buffon 4,040 2,048 0.5069
Pearson 12,000 6,019 0.5016
Pearson 24,000 12,012 0.5005
━━━━━━━━━━━━━━━━━━━━━━━━━
2011-10-16 44
cxt
? 观测样本(次数)越少,抽样误差越大,样
本的对研究总体的代表性就小。
2011-10-16 45
cxt
?2、变量类型,
⑴ 定量变量
是对研究单位的定量特征的描述 。 诸如个体年龄,
身高, 体重等变量均可经测量取得数值 。 将这类变
量视为连续型变量,或定量变量 。
⑵ 定性变量
是对研究单位的定性特征的描述, 有类别 。 亦
称分类变量, 如性别分男, 女为二分类变量 。 血型
可分为 A,B,AB,O四类型,为四分类变量 。
2011-10-16 46
cxt
? 对定性变量数量化
如:性别,男= 0,女= 1
病情,轻= 0,中= 1,重= 2
2011-10-16 47
cxt
? 数据的整理,
设研究问题中含有 p个指标变量 x1,x2,…,xp,及 n个观察对象,
其数据结构为,
━━━━━━━━━━━━━━━
编号 X1 X2 X3 …, XP
━━━━━━━━━━━━━━━━
1 x11 x21 x31 … x1p
2 x12 x22 x32 … x2p
3 x13 x23 x33 … x3p
… … … … … …
n x1n x2n x3n … xnp