多元统计分析的定义
多元统计分析是运用数理统计的方法来研究多变量(多指标)问题的理论和方法,是一元统计学的推广。
多元统计分析是研究多个随机变量之间相互依赖关系以及内在统计规律的一门统计学科。
多元统计分析的内容和方法
简化数据结构(降维问题)
将具有错综复杂关系的多个变量综合成数量较少且互不相关的变量,使研究问题得到简化但损失的信息又不太多。
(1)主成分分析
(2)因子分析
(3)对应分析等
2、分类与判别(归类问题)
对所考察的变量按相似程度进行分类。
(1)聚类分析:根据分析样本的各研究变量,将性质相似的样本归为一类的方法。
(2)判别分析:判别样本应属何种类型的统计方法。
3、变量间的相互联系
一是:分析一个或几个变量的变化是否依赖另一些变量的变化。(回归分析)
二是:两组变量间的相互关系(典型相关分析)
多元统计分析的理论基础
1、矩阵
2、多元正态分布
欧氏距离和马氏距离
1、欧氏距离(直线距离)
(1)优点
(2)缺陷:权重被忽略和量纲不一致时处理不当
2、马氏距离
(1)优点:克服量纲、克服指标间相关性影响
(2)缺点:确定协方差矩阵困难
假设检验的基本原理
小概率事件原理
小概率思想是指小概率事件(P<0.01或P<0.05等)在一次试验中基本上不会发生。反证法思想是先提出假设(检验假设H0),再用适当的统计方法确定假设成立的可能性大小,如可能性小,则认为假设不成立;反之,则认为假设成立。
假设检验的步骤
(1)提出一个原假设和备择假设
(2)确定检验统计量
(3)确定显著性水平α
(4)计算检验统计量的值并进行判断
均值向量的检验
正态总体均值检验的类型
1)根据样本对其总体均值大小进行检验( One-Sample T Test ):如妇女身高的检验。
2)根据来自两个总体的独立样本对其总体均值的检验( Indepent Two-Sample T Test ):如两个班平均成绩的检验。
3)配对样本的检验( Pair-Sample T Test ):如减肥效果的检验。
4)多个总体均值的检验
SIM手机高、中、低三种收入水平被调查者的用户满意度是否有显著性差异
即:研究被调查者的收入水平是否会影响其对SIM手机的满意程度。
SPSS处理:Analyze — Compare Mean — One-Way ANOVA
结果如下:
Sumof Squares
df
Mean Square
F
Sig.
Between Groups
6.863
2
3.432
0.674
0.51
Within Groups
1333.341
262
5.089
Total
1340.204
264
表中Sum of Squares表示组内和组间的变动情况,df代表自由度,Mean Square代表均方差,F检验值0.674,显著性水平0.51。一般情况下,显著性水平0.1以下差异显著。对于SIM手机来说,不同收入水平方差分析F值显著性水平0.51,没有通过显著性水平检验,说明三种收入的被调查者的用户满意度没有显著性差异,即被调查者的收入水平并不影响其对SIM手机的满意程度。
方差分析的应用条件
(1)可比性,若资料中各组均数本身不具可比性则不适用方差分析。
(2)正态性,各组的观察数据,是从服从正态分布的总体中随机抽取的样本。即偏态分布资料不适用方差分析。对偏态分布的资料应考虑用对数变换、平方根变换、倒数变换、平方根反正弦变换等变量变换方法变为正态或接近正态后再进行方差分析。
(3)方差齐性,各组的观察数据,是从具有相同方差的相互独立的总体中抽取得到的。即若组间方差不齐则不适用方差分析。
聚类分析
是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。
将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。
聚类分析类型及方法
1、聚类分析的类型有:
对样本分类,称为Q型聚类分析
对变量分类,称为R型聚类分析
Q型聚类是对样本进行聚类,它使具有相似性特征的样本聚集在一起,使差异性大的样本分离开来。
R型聚类是对变量进行聚类,它使具有相似性的变量聚集在一起,差异性大的变量分离开来,可在相似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数,达到变量降维的目的
2、聚类分析的方法:
系统聚类(层次聚类)
非系统聚类(非层次聚类)
系统聚类法包括:凝聚方式聚类、分解方式聚类
非系统聚类法包括:模糊聚类法、K-均值法(快速聚类法)等等
以当前某个样本与已经形成的小类中的各样本距离中的最小值作为当前样本与该小类之间的距离。
例1:为了研究辽宁省5省区某年城镇居民生活消费的分布规律,根据调查资料做类型划分
省份
x1
x2
x3
x4
x5
x6
x7
x8
辽宁
浙江
河南
甘肃
青海
7.90
7.68
9.42
9.16
10.06
39.77
50.37
27.93
27.98
28.64
8.49
11.35
8.20
9.01
10.52
12.94
13.30
8.14
9.32
10.05
19.27
19.25
16.17
15.99
16.18
11.05
14.59
9.42
9.10
8.39
2.04
2.75
1.55
1.82
1.96
13.29
14.87
9.76
11.35
10.81
G1={辽宁},G2={浙江},G3={河南},G4={甘肃},G5={青海}
采用欧氏距离:
d12=[(7.9-7.68)2+(39.77-50.37)2+(8.49-11.35)2+(12.94- 13.3)2+(19.27-19.25)2+(11.05-14.59)2+(2.04-2.75)2+(13.29-14.87)2]0.5=11.67
d13=13.80 d14=13.12 d15=12.80 d23=24.63 d24=24.06 d25=23.54 d34=2.2 d35=3.51 d45=2.21
1 2 3 4 5
D1= 1 0
2 11.67 0
3 13.80 24.63 0
4 13.12 24.06 2.20 0
5 12.80 23.54 3.51 2.21 0
d61=d(3,4)1=min{d13,d14}=13.12 d62=d(3,4)2=min{d23,d24}=24.06
d65=d(3,4)5=min{d35,d45}=2.21
6 1 2 5
6 0
D2= 1 13.12 0
2 24.06 11.67 0
5 2.21 12.80 23.54 0
d71=d(3,4,5)1=min{d13,d14,d15}=12.80
d72=d(3,4,5)2=min{d23,d24,d25}=23.54
7 1 2
D3= 7 0
1 12.80 0
2 23.54 11.67 0
d78=min{d71,d72}=12.80
7 8
D4= 7 0
8 12.8 0
河南3*******
******
甘肃4*******
*************************
青海5*************
*****
辽宁1****************************
**********
浙江2****************************
判别分析与聚类分析的比较:
1、判别分析是在已知研究对象分成若干类型并已取得各种类型的一批已知样本的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样本进行判别分类。
2、聚类分析则是对研究对象的类型未知的情况下,对其进行分类的方法。
3、判别分析和聚类分析往往联合使用。当总体分类不清楚时,先用聚类分析对一批样本进行分类,再用判别分析构建判别式对新样本进行判别。
距离判别基本思想:
即:首先根据已知分类的数据,分别计算各类的重心即各组(类)的均值,判别的准则是对任给样品,计算它到各类平均数的距离,哪个距离最小就将它判归哪个类。
贝叶斯(Bayes)判别基本思想:
贝叶斯判别法是通过计算被判样本x属于k个总体的条件概率P(n/x),n=1,2…..k. 比较k个概率的大小,将样本判归为来自出现概率最大的总体(或归属于错判概率最小的总体)的判别方法。
判别分析类型及方法
(1)按判别的组数来分,有两组判别分析和多组判别分析
(2)按区分不同总体所用的数学模型来分,有线性判别和非线性判别
(3)按判别对所处理的变量方法不同有逐步判别、序贯判别。
(4)按判别准则来分,有费歇尔判别准则、贝叶斯判别准则
试用贝叶斯判别法将样本x0判到G1、G2、G3中的一个。考虑与不考虑误判损失的结果如何?
1、考虑误判损失:
误判到G1的平均损失为
ECM1=0.55*0.46*0+0.15*1.5*400+0.30*0.70*100=
误判到G2的平均损失为
ECM2=0.55*0.46*20+0.15*1.5*0+0.30*0.70*50=
误判到G3的平均损失为
ECM3=0.55*0.46*80+0.15*1.5*200+0.30*0.70*0=
其中ECM2最小,故将x0判别到G2。
2、不考虑误判损失:
将x0判别到G1的条件概率为:
P(G1/x0) =(0.55*0.46)/(0.55*0.46+0.15*1.5+0.30*0.70)=
将x0判别到G2的条件概率为:
P(G2/x0) =(0.15*1.5)/(0.55*0.46+0.15*1.5+0.30*0.70)=
将x0判别到G3的条件概率为:
P(G3/x0) =(0.30*0.70)/(0.55*0.46+0.15*1.5+0.30*0.70)=
其中P(G1/x0) 取值最大,故将x0判别到G1。
例7:设有,和三个类,欲判别某样本属于哪一类.已知,,现利用后验概率准则计算属于各组的后验概率:
例9:下表是某金融机构客户的个人资料,这些资料对一个金融机构来说,对于客户信用度的了解至关重要,因为利用这些资料,可以挖掘出许多的信息,建立客户的信用度评价体系。所选变量为:
x1: 月收入
x2:月生活费支出
x3:虚拟变量,住房的所有权,自己的为“1”,租用的“0”
x4:目前工作的年限
x5:前一个工作的年限
x6:目前住所的年限
x7:前一个住所的年限
x8: 家庭赡养的人口数
x9:信用程度,“5”的信用度最高,“1”的信用度最低。
主成分分析定义
主成分分析:将原来较多的指标简化为少数几个新的综合指标的多元统计方法。
主成分:由原始指标综合形成的几个新指标。依据主成分所含信息量的大小成为第一主成分,第二主成分等等。
满足如下的条件:
1、每个主成分的系数平方和为1。即
2、主成分之间相互独立,即无重叠的信息。即
3、主成分的方差依次递减,重要性依次递减,即
F1、F2….Fp分别称为原变量的第一、第二….第p个主成分。
例1:设的协方差矩阵为:
从协方差矩阵出发,求解主成分.
(1)求协方差矩阵的特征根
依据求解.
(2)求特征根对应的特征向量
(3)主成分:
(4)各主成分的贡献率及累计贡献率:
第一主成分贡献率:
第二主成分贡献率:
第三主成分贡献率:
第一和第二主成分的累计贡献率:
由此可将以前三元的问题降维为两维问题.第一和第二主成分包含了以前变量的绝大部分信息97.875%.
样本主成分的性质:
1、第K个主成分yk的系数向量是第K个特征根λk所对应的标准化特征向量。
2、第K个主成分的方差为第K个特征根λk,且任意两个主成分都是不相关的,也就是y1,y2,…,yp的样本协方差矩阵是对角矩阵
3、样本主成分的总方差等于原变量样本的总方差,为p
4、第K个样本主成分与第j个变量样本之间的相关系数为:(因子载荷量)
主成分个数的选取
1.累积贡献率达到85%以上
2.根据特征根的变化来确定
数据标准化情况下:
3.作碎石图
描述特征值的贡献
因子分析的基本理论
因子分析是主成分分析的推广,也是利用降维的思想,由研究原始变量相关矩阵或协方差矩阵的内部依赖关系出发,把一些具有错综复杂关系的多个变量归结为少数几个综合因子的一种多元统计分析
因子分析的基本思想:
把每个研究变量分解为几个影响因素变量,将每个原始变量分解成两部分因素,一部分是由所有变量共同具有的少数几个公共因子组成的,另一部分是每个变量独自具有的因素,即特殊因子。
主成分分析分析与因子分析的联系和差异:
因子分析是主成分分析的推广,是主成分分析的逆问题。主成分分析是将原始变量加以综合、归纳;因子分析是将原始变量加以分解、演绎。
(1)主成分分析仅仅是变量变换,而因子分析需要构造因子模型。
(2)主成分分析:原始变量的线性组合表示新的综合变量,即主成分; 因子分析:用潜在的假想变量(公共因子)和随机影响变量(特殊因子)的线性组合表示原始变量。用假设的公因子来“解释”相关矩阵内部的依赖关系。
(3)主成分分析中主成分个数和变量个数相同,它是将一组具有相关关系的变量变换为一组互不相关的变量,在解决实际问题时,一般取前m个主成分;因子分析的目的是用尽可能少的公因子,以便构造一个结构简单的因子模型。
因子分析模型:
设个变量,如果表示为
称为公共因子,是不可观测的变量,他们的系数称为因子载荷。是特殊因子,是不能被前m个公共因子包含的部分。其中:
(1) 相互独立即不相关;
(2)
即互不相关,方差为1。
(3)
即互不相关,方差不一定相等,。
满足以上条件的,称为正交因子模型.
如果(2)不成立,即各公共因子之间不独立,则因子分析模型为斜交因子模型.
公因子F1
公因子F2
共同度hi
特殊因子δi
x1=代数1
0.896
0.341
0.919
0.081
x2=代数2
0.802
0.496
0.889
0.111
x3=几何
0.516
0.855
0.997
0.003
x4=三角
0.841
0.444
0.904
0.096
x5=解析几何
0.833
0.434
0.882
0.118
特征值 G
3.113
1.479
4.959
0.409
方差贡献率(变异量)
62.26%
29.58%
91.85%
F1 体现逻辑思维和运算能力,F2 体现空间思维和推理能力
因子分析模型中的几个重要统计量的意义:
(1)因子负荷量(或称因子载荷)----是指因子结构中原始变量与因子分析时抽取出的公共因子的相关程度。
在各公共因子不相关的前提下,(载荷矩阵中第i行,第j列的元素)是随机变量xi*与公共因子Fj的相关系数,表示xi*依赖于的程度。反映了第i个原始变量在第j个公共因子上的相对重要性。因此绝对值越大,则公共因子与原有变量的关系越强。
(2)共同度----又称共性方差或公因子方差(community或common variance)就是变量与每个公共因子之负荷量的平方总和(一行中所有因素负荷量的平方和)。变量的共同度是因子载荷矩阵的第i行的元素的平方和。记为
从共同性的大小可以判断这个原始实测变量与公共因子间之关系程度。如因子分析案例中
共同度= + =0.919
特殊因子----各变量的特殊因素影响大小就是1减掉该变量共同度的值。如=1- 0.919 = 0.081
(3)特征值----是第j个公共因子Fj对于X*的每一分量Xi*所提供的方差的总和。又称第j个公共因子的方差贡献。即每个变量与某一共同因素之因素负荷量的平方总和(因子载荷矩阵中某一公共因子列所有因子负荷量的平方和)。
如因子分析案例中
F1的特征值
G=+ + ++ =3.113
(4)方差贡献率----指公共因子对实测变量的贡献,又称变异量
方差贡献率=特征值G/实测变量数p,
是衡量公共因子相对重要性的指标,Gi越大,表明公共因子Fj对X*的贡献越大,该因子的重要程度越高
如因子分析案例中
F1的贡献率为3.113/5=62.26%
因子载荷矩阵求解的方法:
(1)基于主成分模型的主成分分析法
(2)基于因子分析模型的主轴因子法
(3)极大似然法
(4)最小二乘法
(5)a因子提取法
(6)映象分析法
例: 假定某地固定资产投资率,通货膨胀率,失业率,相关系数矩阵为
试用主成分分析法求因子分析模型。
(1)求解特征根
(2)求解特征向量:
(3)因子载荷矩阵:
(4)因子分析模型:
可取前两个因子F1和F2为公共因子,第一公因子F1物价就业因子,对X的贡献为1.55。第一公因子F2为投资因子,对X的贡献为0.85。共同度分别为1,0.706,0.706。
什么是对应分析?
对应分析是利用“降维”的方法,以两变量的交叉列联表为研究对象,通过图形的方式,直接揭示变量之间以及变量的不同类别之间的联系,特别适合于多分类属性变量研究的一种多元统计分析方法。
对应分析的基本思想:
首先,编制两品质型变量的交叉列联表,将交叉列联表中的每个数据单元看成两变量在相应类别上的对应点;
然后,对应分析将变量及变量之间的联系同时反映在一张二维或三维的散点图上,并使联系密切的类别点较集中,联系疏远的类别点较分散;
最后,通过观察对应分布图就能直观地把握变量类别之间的联系.
什么是典型相关分析?
典型相关分析是研究两组变量之间相关关系的多元统计分析方法.它借用主成分分析降维的思想,分别对两组变量提取主成分,且使两组变量提取的主成分之间的相关程度达到最大,而从同一组内部提取的各主成分之间互不相关,用从两组之间分别提取的主成分的相关性来描述两组变量整体的线性相关关系.
对定性变量间关系的描述可用交叉列联表。但交叉列联表存在以下缺陷:
(1)不能充分分析多变量交互效应,不能有效分析多变量之间的关联。
(2)在进行两个变量之间的关联分析时缺乏对其他变量影响的有效控制。
(3)不能准确定量描述一个变量对另一个变量的作用幅度。
交叉列联表
描述属性变量(定类或定序尺度变量)的各种状态或是相关关系。
当属性变量A和B的状态较多时,很难透过列联表作出判断。
怎样简化列联表的结构?
利用降维的思想。如因子分析和主成分分析。但因子分析的缺陷是在于无法同时进行R型因子分析和Q型因子分析。
怎么办?