多元统计分析考试重点勾画
一、什么是多元统计分析
多元统计分析是运用数理统计的方法来研究多变量(多指标)问题的理论和方法,是一元统计学的推广。
多元统计分析是研究多个随机变量之间相互依赖关系以及内在统计规律的一门统计学科。
二、多元统计分析的内容和方法
1、简化数据结构(降维问题)
将具有错综复杂关系的多个变量综合成数量较少且互不相关的变量,使研究问题得到简化但损失的信息又不太多。
(1)主成分分析
(2)因子分析
(3)对应分析等
2、分类与判别(归类问题)
对所考察的变量按相似程度进行分类。
(1)聚类分析:根据分析样本的各研究变量,将性质相似的样本归为一类的方法。
(2)判别分析:判别样本应属何种类型的统计方法。
例5:根据信息基础设施的发展状况,对世界20个国家和地区进行分类。
考察指标有6个:
1、X1:每千居民拥有固定电话数目
2、X2:每千人拥有移动电话数目
3、X3:高峰时期每三分钟国际电话的成本
4、X4:每千人拥有电脑的数目
5、X5:每千人中电脑使用率
6、X6:每千人中开通互联网的人数
3、变量间的相互联系
一是:分析一个或几个变量的变化是否依赖另一些变量的变化。(回归分析)
二是:两组变量间的相互关系(典型相关分析)
4、多元数据的统计推断
点估计
参数估计 区间估计
统 u检验
计 参数 t检验
推 F检验
断 假设 相关与回归
检验 卡方检验
非参 秩和检验
秩相关检验
1、假设检验的基本原理
小概率事件原理
小概率思想是指小概率事件(P<0.01或P<0.05等)在一次试验中基本上不会发生。反证法思想是先提出假设(检验假设H0),再用适当的统计方法确定假设成立的可能性大小,如可能性小,则认为假设不成立;反之,则认为假设成立。
2、假设检验的步骤
(1)提出一个原假设和备择假设
例如:要对妇女的平均身高进行检验,可以先假设妇女身高的均值等于 160 cm (u=160cm )。这种原假设也称为零假设( null hypothesis ),记为 H 0 。
2.1 均值向量的检验
1、正态总体均值检验的类型
根据样本对其总体均值大小进行检验( One-Sample T Test )
如妇女身高的检验。
根据来自两个总体的独立样本对其总体均值的检验( Indepent Two-Sample T Test )
如两个班平均成绩的检验。
配对样本的检验( Pair-Sample T Test )
如减肥效果的检验。
多个总体均值的检验
A、总体方差已知
用u检验,检验的拒绝域为
即
B、总体方差未知
用样本方差 代替总体方差 ,这种检验叫t检验.
例1:如果你买了一包标有 500g 重的一包红糖,你觉得份量不足。于是你找到监督部门;当然他们会觉得一包份量不够可能是随机的。于是监督部门就去商店称了 50 包红糖(数据在 sugar.sav );其中均值(平均重量)是 498.35g ;这的确比 500g 少,但这是否能够说明厂家生产的这批红糖平均起来不够份量呢?于是需要统计检验。
首先,可以画出这些重量的直方图(下图)
判断样本是否服从正态分布
判断样本是否服从正态分布
(2)根据来自两个总体的独立样本对其总体均值的检验
目的是推断两个样本分别代表的总体均数是否相等。其检验过程与上述两种t检验也没有大的差别,只是假设的表达和t值的计算公式不同。
两样本均数比较的t检验,其假设一般为:
H0:μ1=μ2,即两样本来自的总体均数相等.
H1:μ1>μ2或μ1<μ2,即两样本来自的总体均数不相等,检验水准为0.05。
计算t统计量时是用两样本均数差值的绝对值除以两样本均数差值的标准误。
相应的假设检验问题为:
H0:μ1=μ2
H1: μ1大于μ2
μ1 为第一组的总体均值,而μ2 为第二组的总体均值。
用 SPSS 处理数据:
Spss 选项:Analyze—Compare Means — Independent-Samples T Test
3、配对样本的检验( paired samples )
(针对同样的样本)考察实验前后样本均值有无差异。能够很好地控制非实验因素对结果的影响注意:实验前后两个样本两个样本并不独立
注意:同一样本实验前后并不独立,但不同样本之间却相互独立。
配对样本的检验实际上是用配对差值与总体均数“0”进行比较,即推断差数的总体均数是否为“0”。故其检验过程与依据样本均数推断总体均数大小的t检验类似,即:
A、建立假设
H0:μd=0,即差值的总体均数为“0”,H1:μd>0或μd<0,即差值的总体均数不为“0”,检验水平为α 。
B. 计算统计量
进行配对设计t检验时 t值为差值均数与0之差的绝对值除以差值标准误的商,其中差值标准误为差值标准差除以样本含量算术平方根的商。
C. 确定概率,作出判断
以自由度v(对子数减1)查t界值表,若P<α,则拒绝H0,接受H1,若P>=α,则还不能拒绝H0。
例4:要比较50个人在减肥前和减肥后的重量。这样就有了两个样本,每个都有50个数目。
这里不能用前面的独立样本均值差的检验;这是因为两个样本并不独立。
每一个人减肥后的重量都和自己减肥前的重量有关。但不同人之间却是独立的。令减肥前的重量均值为 μ1 ,而减肥后的均值为μ2 ;这样所要进行的检验为:
H0: μ1=μ2
H1: μ1大于μ2
一、方差分析的基本思想
1、定义
方差分析又称变异数分析或F检验,其目的是推断两组或多组资料的总体均数是否相同,检验两个或多个样本均数的差异是否有统计学意义。
2、了解方差分析中几个重要概念:
(1)观测因素或称为观测变量
如:考察农作物产量的影响因素。农作物产量就是观测变量。
(2)控制因素或称控制变量
进行试验(实验)时,我们称可控制的试验条件为因素(Factor),因素变化的各个等级为水平(Level)。
影响农作物产量的因素,如品种、施肥量、土壤等。
如果在试验中只有一个因素在变化,其他可控制的条件不变,称它为单因素试验;
若试验中变化的因素有两个或两个以上,则称为双因素或多因素试验 。
方差分析就是从观测变量的方差入手,研究诸多控制变量(因素)中哪些变量是对观测变量有显著影响的变量
3、方差分析的基本原理
设有r个总体,各总体分别服从 …… ,假定各总体方差相等。现从各总体随机抽取样本。透过各总体的样本数据推断r个总体的均值是否相等?
:至少有一组数据的平均值与其它组的平均值有显著性差异。
分析的思路:用离差平方和(SS)描述所有样本总的变异情况,将总变异分为两个来源:
(1)组内变动(within groups),代表本组内各样本与该组平均值的离散程度,即水平内部(组内)方差
(2)组间变动(between groups),代表各组平均值关于总平均值的离散程度。即水平之间(组间)方差
即:SS总=SS组间+SS组内
消除各组样本数不同的影响--离差平方和除以自由度(即均方差)。从而构造统计量:
方差分析的基本思想就是通过组内方差与组间方差的比值构造的F统计量,将其与给定显著性水平、自由度下的F值相对比,判定各组均数间的差异有无统计学意义。
零假设否定域:
例2 SIM手机高、中、低三种收入水平被调查者的用户满意度是否有显著性差异
即:研究被调查者的收入水平是否会影响其对SIM手机的满意程度。
SPSS处理:Analyze — Compare Mean — One-Way ANOVA
多元方差分析(操作参见书例2.1,第36页):
SPSS 选项: Analyze— General Linear Model — Multivariate
可用男、女生的身高、体重、胸围组成的样本均数向量推论该年级男、女生身体发育指标的总体均数向量μ1和μ2相等与否, 得到:
F=8.8622,P=0.0008。拒绝该年级男女生身体发育指标的总体均数向量相等的假设,从而可认为该校男女生身体发育状况不同。
4、方差分析的应用条件
(1)可比性,若资料中各组均数本身不具可比性则不适用方差分析。
(2)正态性,各组的观察数据,是从服从正态分布的总体中随机抽取的样本。即偏态分布资料不适用方差分析。对偏态分布的资料应考虑用对数变换、平方根变换、倒数变换、平方根反正弦变换等变量变换方法变为正态或接近正态后再进行方差分析。
(3)方差齐性,各组的观察数据,是从具有相同方差的相互独立的总体中抽取得到的。即若组间方差不齐则不适用方差分析。
依据涉及的分析变量多少分为:一元方差分析、多元方差分析
依据对分析变量的影响因素的数量分为:单因素方差分析、多因素方差分析
一、什么是聚类分析?
聚类分析(P54)
是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。
将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。
聚类分析的目的(P54)
使类内对象的同质性最大化和类间对象的异质性最大化。
二、聚类分析的基本思想:
是根据一批样品的多个观测指标,具体地找出一些能够度量样品或指标之间相似程度的统计量,然后利用统计量将样品或指标进行归类。把相似的样品或指标归为一类,把不相似的归为其他类。直到把所有的样品(或指标)聚合完毕.
相似样本或指标的集合称为类。
1、聚类分析的类型有:
对样本分类,称为Q型聚类分析
对变量分类,称为R型聚类分析
Q型聚类是对样本进行聚类,它使具有相似性特征的样本聚集在一起,使差异性大的样本分离开来。
R型聚类是对变量进行聚类,它使具有相似性的变量聚集在一起,差异性大的变量分离开来,可在相似变量中选择少数具有代表性的变量参与其他分析,实现减少变量个数,达到变量降维的目的。
2、聚类分析的方法:
系统聚类(层次聚类)
非系统聚类(非层次聚类)
系统聚类法包括:凝聚方式聚类、分解方式聚类
非系统聚类法包括:模糊聚类法、K-均值法(快速聚类法)等等
常用距离:
(1)、明考夫斯基距离(Minkowski distance)
明氏距离有三种特殊形式:
(1a)、绝对距离(Block距离):当q=1时
(1b)欧氏距离(Euclidean distance):当q=2时
(1c)切比雪夫距离:当 时
当各变量的单位不同或测量值范围相差很大时,不应直接采用明氏距离,而应先对各变量的数据作标准化处理,然后用标准化后的数据计算距离。常用的标准化处理:
其中 为第j个变量的样本均值;
为第j个变量的样本方差。
(4)马氏距离
马氏距离与上述各种距离的主要不同就是马氏距离考虑了观测变量之间的相关性。如果假定各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵,则马氏距离就退化为用各个观测指标的标准差的倒数作为权数进行加权的欧氏距离。因此,马氏距离不仅考虑了观测变量之间的相关性,而且也考虑到了各个观测指标取值的差异程度,为了对马氏距离和欧氏距离进行一下比较,以便更清楚地看清二者的区别和联系,现考虑一个例子。
1、类的定义
相似样本或指标的集合称为类。
(数学表达见63-64页定义3.1-3.4)
2、类的特征描述:
设类G这一集合有 m为G内的样本数。其特征:
(1)均值(或称为重心)
(2)协方差矩阵
(3) G的直径
d12=[(7.9-7.68)2+(39.77-50.37)2+(8.49-11.35)2+(12.94-13.3)2+(19.27-19.25)2+(11.05-14.59)2+(2.04-2.75)2+(13.29-14.87)2]0.5=11.67
d13=13.80 d14=13.12 d15=12.80 d23=24.63 d24=24.06 d25=23.54 d34=2.2 d35=3.51 d45=2.21
1 2 3 4 5
D1= 1 0 河南与甘肃的距离最近,
2 11.67 0 先将二者(3和4)合为
3 13.80 24.63 0 一类 G6={G2,G4}
4 13.12 24.06 2.20 0
5 12.80 23.54 3.51 2.21 0
判别分析
根据已知对象的某些观测指标和所属类别来判断未知对象所属类别的一种统计学方法。
如何判断(判断依据)? 利用已知类别的样本信息求判别函数,根据判别函数对未知样本所属类别进行判别
判别分析的特点(基本思想)
1、是根据已掌握的、历史上若干样本的p个指标数据及所属类别的信息,总结出该事物分类的规律性,建立判别公式和判别准则。
2、根据总结出来的判别公式和判别准则,判别未知类别的样本点所属的类别。
判别分析的目的:识别一个个体所属类别
3、判别分析和聚类分析往往联合使用。当总体分类不清楚时,先用聚类分析对一批样本进行分类,再用判别分析构建判别式对新样本进行判别。此外判别分析变量情况:
被解释变量为属性变量;
解释变量是定量变量。
判别分析类型及方法
(1)按判别的组数来分,有两组判别分析和多组判别分析
(2)按区分不同总体所用的数学模型来分,有线性判别和非线性判别
(3)按判别对所处理的变量方法不同有逐步判别、序贯判别。
(4)按判别准则来分,有费歇尔判别准则、贝叶斯判别准则
距离判别
基本思想即:首先根据已知分类的数据,分别计算各类的重心即各组(类)的均值,判别的准则是对任给样品,计算它到各类平均数的距离,哪个距离最小就将它判归哪个类。
(一)两个总体的距离判别法
1、方差相等
先考虑两个总体的情况,设有两个协差阵(相同的p维正态总体,对给定的样本Y,判别一个样本Y到底是来自哪一个总体,一个最直观的想法是计算Y到两个总体的距离。故我们用马氏距离来给定判别规则,有:
2、当总体的协方差已知,且不相等
贝叶斯(Bayes)判别 ---------(考计算题)
贝叶斯判别法是通过计算被判样本x属于k个总体的条件概率P(n/x),n=1,2…..k. 比较k个概率的大小,将样本判归为来自出现概率最大的总体(或归属于错判概率最小的总体)的判别方法。
一、最大后验概率准则
例7:设有 , 和 三个类,欲判别某样本 属于哪一类.已知
现利用后验概率准则计算 属于各组的后验概率:
贝叶斯公式:
所谓Fisher判别法,就是用投影的方法将k个不同总体在p维空间上的点尽可能分散,同一总体内的各样本点尽可能的集中。用方差分析的思想则可构建一个较好区分各个总体的线性判别法 -------- (只作了解)
例:设先验概率、误判损失及概率密度如下:
试用贝叶斯判别法将样本x0判到G1、G2、G3中的一个。考虑与不考虑误判损失的结果如何?
1、考虑误判损失:
误判到G1的平均损失为
ECM1=0.55*0.46*0+0.15*1.5*400+0.30*0.70*100=
误判到G2的平均损失为
ECM2=0.55*0.46*20+0.15*1.5*0+0.30*0.70*50=
误判到G3的平均损失为
ECM3=0.55*0.46*80+0.15*1.5*200+0.30*0.70*0=
其中ECM2最小,故将x0判别到G2。
2、不考虑误判损失:
将x0判别到G1的条件概率为:
P(G1/x0) =(0.55*0.46)/(0.55*0.46+0.15*1.5+0.30*0.70)=
将x0判别到G2的条件概率为:
P(G2/x0) =(0.15*1.5)/(0.55*0.46+0.15*1.5+0.30*0.70)=
将x0判别到G3的条件概率为:
P(G3/x0) =(0.30*0.70)/(0.55*0.46+0.15*1.5+0.30*0.70)=
其中P(G1/x0) 取值最大,故将x0判别到G1。
主成分分析的重点
1、掌握什么是主成分分析?
2、理解主成分分析的基本思想和几何意义?
3、理解主成分求解方法:协方差矩阵与相关系数矩阵的差异?
4、掌握运用SPSS或SAS软件求解主成分
5、对软件输出结果进行正确分析
主成分分析:将原来较多的指标简化为少数几个新的综合指标的多元统计方法。
主成分:由原始指标综合形成的几个新指标。依据主成分所含信息量的大小成为第一主成分,第二主成分等等。
主成分分析得到的主成分与原始变量之间的关系:
1、主成分保留了原始变量绝大多数信息。
2、主成分的个数大大少于原始变量的数目。
3、各个主成分之间互不相关。
4、每个主成分都是原始变量的线性组合。
满足如下的条件:
1、每个主成分的系数平方和为1。即
2、主成分之间相互独立,即无重叠的信息。即
3、主成分的方差依次递减,重要性依次递减,即
F1、F2….Fp分别称为原变量的第一、第二….第p个主成分。
根据旋转变换的公式:
旋转变换的目的:为了使得n个样品点在Fl轴方向上的离散程度最大,即Fl的方差最大。
总体主成分的求解及其性质
矩阵知识回顾:
(1)特征根与特征向量
A、若对任意的k阶方阵C,有数字 与向量 满足: ,则称 为C的特征根, 为C的相应于 的特征向量。
B、同时,方阵C的特征根 是k阶方程 的根。
(2)任一k阶方阵C的特征根 的性质:
(3)任一k阶的实对称矩阵C的性质:
A、实对称矩阵C的非零特征根的数目=C的秩
B、k阶的实对称矩阵存在k个实特征根
C、实对称矩阵的不同特征根的特征向量是正交的
D、若 是实对称矩阵C的单位特征向量,则
若矩阵 ,是由特征向量 所构成的,则有:
因子分析的重点
1、什么是因子分析?
2、理解因子分析的基本思想
3、因子分析的数学模型以及模型中公共因子、因子载荷变量共同度的统计意义
4、因子旋转的意义
5、结合SPSS软件进行案例分析
1、什么是因子分析?
因子分析是主成分分析的推广,也是利用降维的思想,由研究原始变量相关矩阵或协方差矩阵的内部依赖关系出发,把一些具有错综复杂关系的多个变量归结为少数几个综合因子的一种多元统计分析方法。
2、因子分析的基本思想:
把每个研究变量分解为几个影响因素变量,将每个原始变量分解成两部分因素,一部分是由所有变量共同具有的少数几个公共因子组成的,另一部分是每个变量独自具有的因素,即特殊因子。
4、主成分分析分析与因子分析的联系和差异:
因子分析是主成分分析的推广,是主成分分析的逆问题。主成分分析是将原始变量加以综合、归纳;因子分析是将原始变量加以分解、演绎。
(1)主成分分析仅仅是变量变换,而因子分析需要构造因子模型。
(2)主成分分析:原始变量的线性组合表示新的综合变量,即主成分; 因子分析:用潜在的假想变量(公共因子)和随机影响变量(特殊因子)的线性组合表示原始变量。用假设的公因子来“解释”相关矩阵内部的依赖关系。
(3)主成分分析中主成分个数和变量个数相同,它是将一组具有相关关系的变量变换为一组互不相关的变量,在解决实际问题时,一般取前m个主成分; 因子分析的目的是用尽可能少的公因子,以便构造一个结构简单的因子模型。
共同度----又称共性方差或公因子方差(community或common variance)就是变量与每个公共因子之负荷量的平方总和(一行中所有因素负荷量的平方和)。变量 的共同度是因子载荷矩阵的第i行的元素的平方和。记为
从共同性的大小可以判断这个原始实测变量与公共因子间之关系程度。如因子分析案例中 共同度h12=(0.896)平方+(0.341)平方=0.919
因子负荷量(或称因子载荷)----是指因子结构中原始变量与因子分析时抽取出的公共因子的相关程度。