在医学统计中的 简单应用
内容
? 概述
? SPSS13.0的界面的认识
? 变量的定义和数据的输入
? 数据常用的一些编辑
? 常用统计学方法
? 曲线的绘制
概述
? SPSS的全称是,Statistical Program for
Social Sciences,即社会科学统计程序。该软件
是公认的最优秀的统计分析软件包之一。
? 作为统计分析工具,理论严谨、内容丰富,数据
管理、统计分析、趋势研究、制表绘图、文字处
理 等功能,几乎无所不包。本次讲课以 SPSS for
Windows 13.0为蓝本,以医学领域的相关资料
为例子,简单明了地介绍我们可能用到的常用使
用方法。
? 优点 使用简便,不用编程( SAS需编程);同
excel转换,强大的统计功能等
内容
? 概述
? SPSS的界面的认识
? 变量的定义和数据的输入
? 数据常用的一些编辑
? 常用统计学方法
? 曲线的绘制
SPSS的界面
SPSS的主窗口名为 SPSS for Windows,包括,
1、主菜单,包括 10个项目
2、快捷编辑菜单
3、数据管理窗口,包括 变量的定义 和数据的输入
4、状态栏,窗口底部即 SPSS Processor is ready
5、此外,还有一个 输出窗口,即 OUTPUT,是非活动窗口
主菜单
1,File:文件管理菜单,有关文件的调入、存储、显示和打印等;
2,Edit:编辑菜单,有关文本内容的选择、拷贝、剪贴、寻找和替换等;
3,View:视图;
4,Data,数据管理菜单,有关数据变量定义、数据格式选定、观察对象的选择、
排序、加权、数据文件的转换、连接、汇总等;
5,Transform:数据转换处理菜单,有关数值的计算、重新赋值、缺失值替代
等;
6,Analyze,统计菜单,有关一系列统计方法的应用;
7,Graphs,作图菜单,有关统计图和表的制作;
8,Utilities:用户选项菜单,有关命令解释、字体选择、文件信息、定义输出
标题、窗口设计等;
9,Windows:窗口管理菜单,有关窗口的排列、选择、显示等;
10,Help:求助菜单,有关帮助文件的调用、查寻、显示等。
内容
? 概述
? SPSS13.0的界面的认识
? 变量的定义和数据的输入
? 数据常用的一些编辑
? 常用统计学方法
? 曲线的绘制
变量的定义和数据的输入
? Name 变量名
? Type 变量类型
? Width 变量宽度
? Decimals 小数点
? Label 变量标签
? Values 变量值标签
? Missing 缺失值
? Columns 变量显示宽度
? Align 变量对齐方式
内容
? 概述
? SPSS13.0的界面的认识
? 变量的定义和数据的输入
? 数据常用的一些编辑
? 常用统计学方法
? 曲线的绘制
在 SPSS中,数据文件的编辑、整理等功能被集中
在了 Data和 Transform两个菜单项中,这两个菜单
的内容如下所示,
Data菜单项 Transform菜单项
数据的编辑
? 数据的 打开 File==>Open==>Data/output
? 数据的 增删、复制、粘贴, insert,cut或 clear,copy
? 数据的 排序, Sort升序或降序
? 数据的 搜索, Go to Case或 Find
? 数据的 复制, Copy或 paste
? 数据的 编码,对于一些连续变量如年龄等可通过 recode等进
行编码
? 数据的 计算, Compute
? 秩和检验中计算秩次,Ranks-Mean
? 文件的 拆分, Select cases(物理) 和 split(形式) sex
? 文件的 合并, add或 Merge
? 对于频数表资料( ?2 检验 )要进行 加权,即 Weight
? 数据文件的 保存, 可转换为 excel等格式
? 奇异数据的发现和检查 可用 Frequencies或 Explore等
数据的打开 File==>Open==>Data/output
数据的 增删,复制、剪切、粘贴等
数据的 排序, Sort升序或降序
数据的 搜索, Go to Case或 Find
数据的 编码,对于一些连续变量如
年龄等可通过 recode等进行编码
进行数据的计算, Compute
文件的 拆分, Select cases(物理) 和 split(形式)
文件的 合并, Merge
数据的 加权 weight
数据加权是对观测数据赋以权重,常用于频数表资料。加权后
的数据被解释为 频数 。请选择菜单 Data Weight Case命令,启
动加权对话框。如图。
数据文件的 保存, 可转换为 excel等格式
内容
? 概述
? SPSS13.0的界面的认识
? 变量的定义和数据的输入
? 数据常用的一些编辑
? 常用统计学方法
? 曲线的绘制
SPSS Analyze统计菜单功能介绍
? 描述性统计分析-- Descriptive Statistics菜单
? 均数间的比较-- Compare Means菜单
? 一般线性模型 ―― General Linear Model菜单
? 相关分析 ―― Correlate菜单
? 多元线性回归与曲线拟合 ―― Regression菜单
? 对数线性模型 —— Loglinear菜单
? 聚类分析与判别分析 —— Classify菜单
? 因子分析与对应分析 —— Data Reduction菜单
? 信度分析与多维尺度分析 —— Scale菜单
? 非参数检验 ―― Nonparametric Tests菜单
? Survival菜单
?描述性统计分析-- Descriptive Statistics
1.1 Frequencies过程的特色是产生频数表
1.2 Descriptives过程进行一般性的统计描述;
1.3 Explore过程用于对数据概况不清时的探索性分析;
1.4 Crosstabs过程则完成计数资料和等级资料的统计描
述和一般的统计检验,我们常用的 X2 检验也在其中
完成。
描述性统计分析是统计分析的第一步,做好这第一步是下
面进行正确统计推断的先决条件。 SPSS的许多模块均可完
成描述性分析,但专门为该目的而设计的几个模块则集中
在 Descriptive Statistics菜单中,最常用的是列在最前
面的四个过程,
?均数间的比较-- Compare Means
该菜单集中了几个用于计量资料均数间比较的过程。具体有,
2.1 Means过程 对准备比较的各组计算描述指标,进行预分析,也可直接比
较。
2.2 One-Samples T Test过程 进行样本均数与已知总体均数的比较。
2.3 Independent-Samples T Test过程 进行两样本均数差别的比较,即通常
所说的两组资料的 t检验。
2.4 Paired-Samples T Test过程 进行配对资料的显著性检验,即配对 t检验。
2.5 One-Way ANOVA过程 进行两组及多组样本均数的比较,即成组设计的方
差分析,还可进行随后的两两比较。
?一般线性模型 ―― General Linear Model
一般线性模型可不是用一章就可以说清楚的,因为它
包括的内容实在太多了。
那么,究竟我们用到的哪些分析会包含在其中呢?简
而言之,凡是和方差分析粘边的都可以用他来做。 比如成
组设计的方差分析(即单因素方差分析),配伍设计的方
差分析(即两因素方差分析),交叉设计的方差分析、析
因设计的方差分析、重复测量的方差分析、协方差分析等
等。因此,能真正掌握 GLM菜单的用法,会使大家的统计分
析能力有极大地提高。
实际上一般线性模型包括的统计模型还不止这些,我这
里举出来的只是从用 SPSS作统计分析的角度而言的一些。
3.1 Univariate子菜单,四个菜单中的大哥大,绝大部分的
方法分析都在这里面进行。
3.2 Multivariate子菜单:当结果变量(应变量)不止一个
时,可用他来分析。
3.3 Repeated Measures子菜单:顾名思义,重复测量的数据
就要用他来分析;用前两个菜单似乎都可以分析出来结果,
但在许多情况下该结果是不正确的,应该用重复测量的分析
方法才对。
3.4 Variance Components子菜单:用于作方差成份模型的
包括的四个子菜单,
?相关分析 ―― Correlate
在数据分析中经常要遇到分析两个或多个变
量间关系的情况,有时是希望了解某个变量对另
一个变量的影响强度,有时则是要了解变量间联
系的密切程度,前者用下一章将要讲述的回归分
析来实现,后者则需要用到本章所要讲述的相关
分析实现。
SPSS的相关分析功能被集中在 Analyze菜单的
Correlate子菜单中,他一般包括以下三个过程,
4.1 Bivariate过程 此过程用于进行两个 /多个变量间的参数 /
非参数相关分析,如果是多个变量,则给出两两相关的分析结
果。这是 Correlate子菜单中最为常用的一个过程,实际上我
们对他的使用可能占到相关分析的 95%以上。
4.2 Partial过程 如果需要进行相关分析的两个变量其取值均
受到其他变量的影响,就可以利用偏相关分析对其他变量进行
控制,输出控制其他变量影响后的相关系数,这种分析思想和
协方差分析非常类似。 Partial过程就是专门进行偏相关分析
的。
4.3 Distances过程 调用此过程可对同一变量内部各观察单位
间的数值或各个不同变量间进行距离相关分析,前者可用于检
测观测值的接近程度,后者则常用于考察预测值对实际值的拟
合优度。该过程在实际应用中用的非常少。
?多元线性回归与曲线拟合 ―― Regression
回归分析是处理两个及两个以上变量间线性依存关系
的统计方法。回归分析就是用于说明这种依存变化的数学关
系。下面三个过程是 Regression菜单的子菜单,是 SPSS提供
的用于回归分析的工具,
5.1 Linear过程 —— 调用此过程可完成二元或多元的线性回归分析。
在多元线性回归分析中,用户还可根据需要,选用不同筛选自变量
的方法(如:逐步法、向前法、向后法,等)。
5.2 Curve Estimation过程 —— Curve Estimation过程可以用与拟
合各种各样的曲线,原则上只要两个变量间存在某种可以被它所描
述的数量关系,就可以用该过程来分析。但这里我们要指出,由于
曲线拟合非常的复杂,而该模块的功能十分有限,因此最好采用将
曲线相关关系通过变量变换的方式转化为直线回归的形式来分析,
或者采用其他专用的模块分析。
5.3 Binary Logistic过程 —— 所谓 Logistic模型,或者说 Logistic回归模型,
就是人们想为两分类的应变量作一个回归方程出来,可概率的取值在 0~1之间,
回归方程的应变量取值可是在实数集中,直接做会出现 0~1范围之外的不可能
结果,因此就有人耍小聪明,将率做了一个 Logit变换,这样取值区间就变成
了整个实数集,作出来的结果就不会有问题了,从而该方法就被叫做了
Logistic回归。
随着模型的发展,Logistic家族也变得人丁兴旺起来,除了最早的两分类
Logistic外,还有配对 Logistic模型,多分类 Logistic模型、随机效应的
Logistic模型等。由于 SPSS的能力所限,对话框只能完成其中的两分类和多分
类模型,下面我们就介绍一下最重要和最基本的两分类模型。
?对数线性模型 —— Loglinear
对数线性模型是一种纯粹应用于分类变量分析的多元统计方法。
它是一种比较新型的分析方法,在分析高维列联表时优势尤为突出。
由以下三个过程组成,
6.1 General过程 —— 用于进行一般对数线性模型分析,主要用于证实性研究。
此时研究人员只对某些特定效应感兴趣,即已经有关于模型的假设,此时就可以
采用一般模型来检验这一假设是否正确、充分,它可以对总模型和各个参数给出
详细的检验结果。对变量不分因变量自变量,在分析中一视同仁,最后在结果解
释时才由研究人员来做出判断。
6.2 Logit过程 —— 当研究人员已经有了一些线索,知道因变量自变量时,如
果应变量为两分类,就可以用这个过程来分析。
6.3 Model Selection过程 —— 分层对数线性模型。一般线性对数模型可以对
每个系数及总模型给出非常丰富和详细的信息,但是它要求研究人员心中已经有
了一定的思路或线索,或只对某些特定效应项感兴趣,即已经有关于简约模型的
假设。如果在探索性分析中研究人员中只是设想若干分类变量之间可能有关系,
但是并无明确假设,也没有具体分出哪个是应变量、哪个是自变量,此时比较适
宜采用分层对数线性模型分析。
?聚类分析与判别分析 —— Classify
聚类分析和判别分析都是将记录或变量分类的方法,所不同
的是聚类分析是把没有分类信息的资料按相似程度归类,有一定
探索性的味道;而类别分析则是从已知的分类情况中总规律,为
以后判断新观测所属类别提供依据。 Classify菜单提供如下三个
过程,
7.1 K-means Cluster过程 —— 对记录进行快速聚类,当明确所需要分出的
类别数时,采用快速聚类可以节省运算时间。根据经验,如果样本量大于 100,
则有必要考虑是否使用快速聚类。
7.2 Hierarchical Cluster过程 —— 习惯上翻译成系统聚类法,该过程提供
了全面而强大的聚类分析能力,可对记录或变量进行聚类。更为重要的是,参
与系统聚类分析的变量不再像快速聚类一样限于连续性变量,它们可以是两分
类或多分类变量。
7.3 Discriminant过程 —— 提供了全面的类别分析功能,所用变量可一次进
入,也可以使用逐步法筛选出最优类别方程。
?因子分析与对应分析 —— Data Reduction
该方法主要目的都是浓缩数据,或称数据化简,即以最少
的信息丢失为代价将众多的观测变量浓缩为少数几个因素,从
而简化问题,或发现事物的内在联系,
8.1 Factor过程 —— 提供因子分析 /主成分分析方法,它们是最为常用的
数据简化方法,用于考察多个定量变量间的内在结构,或者提取数据的主要
信息。
8.2 Correspondence Analysis过程 —— 进行简单对应分析,该方法同样
以数据简化的原则力图直观的给出各两个分类变量各个类别之间的联系,当
各个变量的类别越多时,该方法的优势就越明显。
8.3 Optimal Scaling过程 —— 进行最优尺度分析,该方法的核心目的也
是力图在低维度空间表述两个或多个变量之间的内在联系。所分析的变量以
分类变量为主,但也可以为连续性变量。该方法实际上包括,但不仅仅限于
对应分析方法。
?信度分析与多维尺度分析 —— Scale
在 Scale菜单提供的几种统计方法都属于尺度分析的范畴,
它们是探索研究事物间的相似性 /不相似性的专用技术。具体来
说,这些方法和用途是,
9.1 信度分析:用于评价问卷这种测量工具的稳定性或可靠性,具体来
说就是用问卷对同一事物进行重复测量时,所得结果的一致性程度。
Reliability Analysis过程可以进行内在信度分析,即评价问卷中各个问题
是否测量的是同一个概念。
9.2 多维尺度分析:用于反映多个研究事物间的相似(不相似)程度,
通过适当的降维方法,将这种相似(不相似)程度在低维空间中用点与点之
间的距离表示出来,并有可能帮助识别那些影响事物间相似性的潜在因素。
这种方法在市场研究中应用得非常广泛。 Multidimensional Scaling过程和
Multidimensional Scaling(PROXSCAL)过程都是专门用于多维尺度分析的过
程。
?非参数检验 ―― Nonparametric Tests
作为二十一世纪统计理论的三大发展方向之一,非参数统计是
统计分析的重要组成部分。可是与之很不相称的是他针对一般性统
计分析的理论发展远远不及参数检验完善,因而比较完善的可供使
用的方法也不多。比如多组均数间的两两比较,虽然已有好几种方
法可资利用,但由于在理论上仍存在争议,几种权威的统计软件
(如 SAS和 SPSS)均没有提供这方面的方法。
虽然这些洋统计软件没有提供两两比较的非参数方法,但国产
的统计软件大都是提供了的(国情不同嘛),因此建议大家:如果
真的要做这方面的非参数分析,不如直接用 PEMS,SPLMWIN,NOSA
等国产软件,免得用 SPSS等只能做一半。在 SPSS中,几乎所有的非
参数分析方法都被放入了 Nonparametric Tests菜单中,具体来讲
有以下几种,
? Chi-square test:用卡方检验来检验变量的几个取值所占
百分比是否和我们期望的比例没有统计学差异。比如我们在人
群中抽取了一个样本,可以用该方法来分析四种血型所占的比
例是否相同(都是 25%),或者是否符合我们所给出的一个比例
(如分别为 10%,30%,40%和 20%,我随便写的)。请注意该检
验和我们一般所用的卡方不太一样,我们一般左的卡方要用
crosstable菜单来完成,而不是这里。
? Binomial Test:用于检测所给的变量是否符合二项分布,
变量可以是两分类的,也可以使连续性变量,然后按你给出的
分界点一刀两断。
? Runs Test:用于检验某变量的取值是否是围绕着某个数值
随机地上下波动,该数值可以是均数、中位数、众数或人为制
定。一般来说,如果该检验 P值有统计学意义,则提示有其他变
量对该变量的取值有影响,或该变量存在自相关。
? One-Sample Kolmogorov-Smirnov Test:采用柯尔莫诺夫
-斯米尔诺夫检验来分析变量是否符合某种分布,可以检
验的分布有正态分布、均匀分布,Poission分布和指数分
布。
? Two-Independent-Samples Tests:即成组设计的两样本
均数比较的非参数检验。
? Tests for Several Independent Samples:成组设计的
多个样本均数比较的非参数检验,此处不提供两两比较方
法。
? Two-Related-Samples Tests:配对设计两样本均数的非
参数检验。
? Tests for Several Related Samples:配伍设计多个样
本均数的非参数检验,此处同样不提供两两比较。
数据的分析和统计
?首先要分析实验数据是正态分布资料或非正态
分布资料,可通过正态性检验对资料检测;对
于方差分析还有进行方差齐性检验。
?Analyze统计菜单下:包括强大的统计功能,我
们主要介绍其中的几种,
?descriptive statistics 即统计 描述
?compare means 均数比较,包括 t检验、
方差分析等
?卡方检验 四格表的 χ2检验
?T检验 —— 两组计量资料的均数作统计学检验,
包括配对 t检验、两组独立样本的 t检验
( split; 1 sample K-S检验; t检验)
?方差分析 —— 多组均数之间的显著性检验,
以及两两之间的比较;包括单因素、随机
区组设计以及多因素的方差分析,以及析
因实验;
单因素方差分析
随机区组方差分析
四格表 χ2检验
四格表 χ 2检验是行 × 列表 χ 2检验的特例, 即只有二行二列 。
在四格表的 χ 2检验中, 如果出现理论值小于 5,SPSS for
Windows会自动校正 χ 2或用 Fisher exact probability test。
某医院将 376例胃痛患者随机分为两组,分别用中药和西药
治疗,结果见下表。问两种药物疗效的差别有无意义?
±í 7 - 1 á? ? ò? ?? ?? á? 3 7 6 ày ?? ?? í′ ?? ?? μ? á? D§ ( ày êy )
×é ±e n óD D§ ?T D§ óD D§?ê £¨ % £?
?D ò? 2 7 6 2 7 1 5 9 8, 1 9
?÷ò? 1 0 0 7 4 26 7 4, 0 0
o? ?? 3 7 6 3 4 5 31 9 1, 7 6
Pearson Chi-Square,为未矫正卡方检验结果;
Continuity Correction,为矫正卡方检验结果;
Likelihood Ratio,为似然比检验结果;
Fisherˊ s Exact Test,为确切概率。
关于何种情况下需要校正要参考理论频数 (又称期望值、期望频数;简写为 T )、自由
度 (ν )和总例数 (n),亦可参考有以下原则,
① 1< T< 5且 n ≥ 40,用校正卡方或确切概率法 (Fisherˊ s Exact Test),
② T ≤1 或 n < 40,用确切概率法;
③ ν > l,时无需校正。
内容
? 概述
? SPSS13.0的界面的认识
? 变量的定义和数据的输入
? 数据常用的一些编辑
? 常用统计学方法
? 曲线的绘制
应用 SPSS绘制曲线或直方图
? SPSS提供了许多产生统计图形和表格的方
法,包括条形图、饼图、线图、直方图、
散点图及各种表格等等
不同药物浓度作用细胞株后生长曲线的绘制(见例
题)
资料的输入
曲线的绘制和编辑