spss 10.0 讲义（注释版）：spss10.0讲义注释版

分类：计算机格式：pdf 日期：2007年01月31日

返回总目录返回总目录返回总目录返回总目录目目目目录录录录第1章 SPSS 10.0概述导言 1.1 SPSS 10.0的特点 1.2 SPSS 10.0对环境的要求 1.3 SPSS 10.0的安装及启动退出思考题第2章 SPSS的系统简介导言 2.1 SPSS的命令类型 2.2 系统的运行管理及帮助思考题第3章数据输入与交换导言 3.1 数据类型 3.2 文件 3.3 数据输入 3.4 数据编辑 3.5 数据交换 3.6 结果输出 3.7 数据或结果的打印思考题第4章为分析作好准备导言 4.1 数据文件的整理 4.2 对数据进行分类汇总 4.3 对数据进行变换和计算思考题第5章统计分析功能概述导言 5.1 SPSS 统计功能概述 5.2 SPSS数值分析过程 5.3 SPSS 图形分析过程思考题第6章统计描述导言 6.1 频数分布表分析(Frequencies) 6.2 Descriptives过程 6.3 平均数分析Means 思考题第7章相关分析导言 7.1 相关分析的概念与相关分析过程 7.2 两个变量的相关分析 7.3 偏相关分析 7.4 距离分析思考题第8章均值比较与T检验导言 8.1 均值比较与均值比较的检验过程 8.2 单样本T检验 8.3 独立样本T检验 8.4 配对样本T检验思考题第9章方差分析导言 9.1 方差分析的基本概念及方差分析过程 9.2 单因素方差分析 9.3 简单方差分析过程 9.4 协方差分析 9.5 多元方差分析过程 9.6 重复测量设计的方差分析思考题第10章回归分析导言 10.1 线性回归 10.2 曲线拟合 10.3 逻辑回归分析 10.4 bCOX回归分析 10.5 概率单位回归思考题第11章聚类与判别导言 11.1 聚类判别分析及其分析过程 11.2 快速样本聚类 11.3 分层聚类 11.4 判别分析思考题第12章因子分析导言 12.1 因子分析和因子分析Factor过程简介 12.2 因子分析思考题第13章列联表分析导言 13.1 Crosstabs过程 13.2 四格表卡方检验 13.3 R×C表卡方检验思考题第14章非参数检验导言 14.1 卡方检验 14.2 二项分布检验 14.3 游程检验 14.4 单样本K-S检验 14.5 两个独立样本检验 14.6 多个独立样本检验 14.7 两个相关样本检验 14.8 多个相关样本检验思考题第15章常用统计图导言 15.1 统计图概述 15.2 条形图(Bar Charts) 15.3 线图(Line Charts) 15.4 面积图(Area Charts) 15.5 圆图(Pie Charts) 15.6 高低图(High-Low Charts) 15.7 直条构成线图(Pareto Charts) 15.8 质量控制图(Control Charts) 15.9 箱图(Boxplots) 15.10 误差条图(Error Bar Charts) 15.11 散点图(Scatterplots) 15.12 直方图(Histogram) 15.13 正态概率分布图(Normal P-P Plots) 15.14 正态概率单位分布图(Normal Q-Q Plots) 15.15 普通序列图(Sequence Charts) 15.16 时间序列图(Time Series Charts) 思考题第1章 SPSS 10.0 概述导言本章不仅简介了SPSS 10.0原有的一些主要功能和基本概念而且还简要介绍了SPSS 的新界面新增功能和一些新特点另外本章还就SPSS对安装环境的要求进行了阐述特别的为了便于那些对于电脑使用和软件运用不太熟练的读者本章对于SPSS的安装和启动做了较为详尽的介绍今天的世界真是一个变化太快的世界尤其在计算机软件方面软件的发展真是太快了当很多人还刚刚学会熟练使用SPSS 9.0版的时候SPSS最新的10.0版又来了那么和以前的版本相比SPSS这次的更新又加进了些什么内容呢 1.1 SPSS 10.0的特点 SPSS for Windows是SPSS/PC的Windows版本因此具有Windows软件的共同特点它又是世界上流行的三大统计分析软件之一除了社会科学自然科学领域的统计分析也少不了它它正在社会各个领域发挥越来越大的威力下面着重介绍SPSS 10.0的新特点 1.1.1 界面的改进 SPSS在界面的易用性上继承了以往的风格仍然是把界面的易用性放在了首位这次更新中也在这一方面下了一番工夫一打开SPSS你就会发现它的界面已经有了一些明显的改变请看图1-1所示图1-1 SPSS 10.0 for Windows界面其实这个数据编辑窗口是完全重新设计的比较明显的改变是以前的数据管理窗口就是一个数据表而现在则变成了两张表格像EXCEL一样那里出现了Data View和 Variable View两个标签不要忽视这点变化现在SPSS的变量管理方式和以前大不相同了以前我们只要选择菜单Data==>Define Variable或直接在列变量名上双击系统就会弹出定义变量对话框现在这个对话框已经消失了如果选择菜单则系统只会傻乎乎的加入诸如Var00001之类的一个新变量根本不给你选择余地真是让人哭笑不得而如果在列变量名上双击则系统会自动跳转到Variable View表让你自己定义变量使用过数据库软件的朋友一定会对这个界面倍感亲切不错它的使用方法和FoxPro ACCESS等的变量定义窗口非常类似在很多人眼里这是一大进步因为当需要定义一大堆变量的时候这可比以前方便多了图1-2 在Data Editor窗口中输入数据另外SPSS 10.0的数据栏也做了变动现在左部的位置框成了灰色并且当移动到空白单元格时也会同步显示出该单元格所在的行列数数据表也被限制为40*40的有限表以节约系统资源不再是无限表格加快了计算机的运行速度 1.1.2 数据接口的增强很多使用者说SPSS的数据接口是统计软件中做得最好的即便如此这一次它又有了进一步的增强以前在读取EXCEL ACCESS等流行数据文件类型时需要调用ODBC 接口使用起来比较麻烦对使用者的要求也较高而现在SPSS已经可以直接读取5.0 版以上的EXCEL数据文件(包括EXCEL 2000)了也就是说要打开EXCEL文件已简单到只要在文件类型中选择EXCEL(*.xls)类型然后选中文件名就可以了SPSS会自动识别具体是哪个版本不会有任何的数据丢失另外File菜单也做了一些改动9.0版和 10.0版的File菜单分别如下所示图1-3所示菜单上面加入了Print Preview另外将Recent File List变为了Recently Used Data和 Recently Used Files两个子菜单使用上更方便但最引人注目的是新加入的Cache Data 菜单项现在你可以将所用的数据全部读入内存以大大加快运算速度 9.0版的File菜单 10.0版的File菜单图1-3 9.0版与10.0版对比 1.1.3 新的统计地图功能 SPSS 10.0在统计图中新增了统计地图功能其菜单如下所示这个功能有什么用呢举个例子吧比如说微软公司想看看D版Windows 2000在亚洲的销售情况只需要按要求输入具体数据再在地图上选择Aisa就会绘制出精美的统计地图来当然里面销售记录高高在上的就是咱们中国啦 1.1.4 提高了运行速度 SPSS的软肋是慢悠悠的运算速度当然这是华丽的外表必需付出的代价在10.0版中为提高运算速度下了不少工夫经过重新设计的数据管理窗口现在数据处理速度明显提高和以前相比简直称得上是奇快无比(也就是说当其他统计软件在飞的时候SPSS还在爬现在终于学会了跑)还有前面提到的数据缓存等都使得10.0版的运行速度比以前有明显的进步虽然在高档机器上这不算什么但当你要在P133机器上分析1万人的队列时你就会觉得这一进步实在是非常必要的 1.1.5 统计功能的完善版本号都升到10.0了可统计功能和7.0相比也没见有多大进步比较新的统计方法如多水平统计模型MCMC分类树与回归树神经网络分析等它竟然一个都没引入到底还想不想在统计软件界混了哎下面是SPSS 10.0版Help中列出的新增统计功能图1-4 Graphs菜单项你们自己看吧好像是有了一点改进和完善 Distributed analysis分布分析用一个远程服务器来进行大量数据工作的计算能极大地提高运算速度使用SPSS 10.0版本进行分布分析你不必在本地计算机的桌面上输入成千上万的数据就可进行对有着大量数据的数据文件进行统计分析用ROC曲线进行多检验变量Roc曲线过程ROC Curve procedure已经可以进行多检验变量的比较了通用多元对数模型Polytomous Logit Universal Models简称PLUM使得你能将回归分析应用于序数变量如低中高之类表示序列的数据该分析是高等统计分析功能的一种 SPSS 10.0还增加了一种新的最优比例过程非线性基本元素分析过程(nonlinear principal components analysis procedure简称CATPCA) 1.1.6 其他的进步 SPSS 10.0改善了数据读取方式现在SPSS读取数据时不会再自动生成临时数据文件因此分析大型数据就不再需要大量硬盘空间做内存交换了多任务特性现在你可以在SPSS运行时选择下一个命令SPSS会自动将这些指令排队依次执行所有的对话框均比以前放大了许多文字也大了几号这样一来以前经常出现的对话框中的文字被截断的现象基本绝迹使用更方便了 Logistic回归和Cox回归的结果输出做了改进从纯文本变成了标准的SPSS统计表格使其变的更漂亮更容易阅读 1.1.7 结束 SPSS走的是一条大众化路线即发展重点放在操作界面的友好易用性和结果的美观上统计功能的增强被放在了比较次要的位置10.0版正好和这一设计思想相一致对系统的界面做了较多的增强大大提高了软件的易用性因此SPSS 10.0版和以前的版本一样都是非统计专业人士工作中的首选统计软件 1.2 SPSS 10.0对环境的要求 1.2.1 SPSS 10.0 for Windows 对硬件环境的要求决定所需硬盘空间的大小主要取决于选择的功能模块和分析模块不同版本的SPSS功能模块对硬盘的需求不同其中语法指南可以从光盘中读取不需要装入硬盘根据一般的习惯硬盘容量应该在装配了软件之后自由空间占总容量的30%以上否则会明显影响计算机的运行速度用户可以据此选择功能模快以合适自己的硬盘大小运行Windows系列的软件最低要求内存容量为4M由于SPSS是统计分析软件数据量一般会比较大矩阵运算要求的内存空间就比较大因此为了保证软件正常运行最好配备16M以上内存 1.2.2 对软件环境的要求 SPSS for Windows 目前没有汉化版本如果要输入汉字可以在一些中文平台上运行例如中文之星等一般用户可以在以下环境中运行SPSS 1中文Windows95或中文Windows98 SPSS for Windows在此环境下运行对话框中的按钮功能能以中文显示可以使用中文设置变量标签和值标签在要点表中显示中文标签打印的时候只能把正排汉字正常打印图形中被旋转了的汉字打印的结果是乱码 2英文Windows95或英文Windows98 加中文平台以便定义和输出中文标签 1.3 SPSS 10.0的安装及启动退出 1首先你的机器上要安装了Windows95或是Windows98操作系统 2把SPSS 10.0的安装光盘放入光驱 3找到光盘中的setup.exe文件双击它即启动SPSS 10.0的安装程序我们下面详细介绍SPSS 10.0的安装过程 4双击setup.exe应用文件系统自动进行准备工作用户可以按照提示一步一步的往下走特别提醒的是每步操作都要认真阅读屏幕显示的信息和提示 5用户最先阅读版权声明看完后单击next按钮进入下一个界面在这个画面用户会看到一个协议你只有选择同意才能进入下一步否则单击no 将退出安装 6在这个界面中你将指定把SPSS for windows 安装在哪个目录中选择一个合适的目录把程序安装在这个目录中单击next按钮确认并显示下一个界面继续进行安装如果想中断安装单击cancel按钮将退出安装在这个界面填写用户名单位名称系列号 7选择安装的类型Typical典型安装将安装对大多数用户来说最常用的模块 Compact(最低要求安装)只安装基本的模块Custom(自定义安装)已经熟悉SPSS软件的用户可以选择此项安装的模块由用户自己指定 8怎样选择安装的组件单击各项的复选项进行选择选中的项复选框中打勾单击NEXT按钮显示下一个界面继续安装单击BACK按钮显示前一个界面单击 CANCEL按钮结束并退出安装程序下一个界面要求你选择个人计算机还是安装在网络服务器上由用户共享默认的选择是安装在个人计算机上 9 SPSS的退出完成SPSS的统计分析后退出该系统的方法是选择File菜单的Exit项回答系统提出的有关是否需要存储原始数据计算结果和SPSS命令之后即退到Windows 的程序管理器中思考题 1学会从光盘上安装SPSS 10.0熟悉SPSS的安装过程和安装过程选项的选择 2初步熟悉SPSS 10.0的新界面第 2 章 SPSS 的系统简介导言本章主要对SPSS系统进行简介包括如下几方面SPSS的操作命令数据文件的编辑系统的运行方式各个主要窗口的简介和功能介绍系统参数的选择特别详细介绍了SPSS帮助(Help)的使用方法这一点突出了本书要授读者以渔而不是鱼的特点读者在学习的过程中要重视实际的应用要在不断使用中熟悉SPSS系统 2.1 SPSS的命令类型 2.1.1 操作命令一切统计分析都是以数据为基础的因此统计软件的数据管理能力非常重要SPSS 以其豪华的界面为依托为用户提供便捷的数据管理功能下面我们介绍它的各种命令和传统的软件相似SPSS中数据文件的管理功能基本上都集中在了File菜单上该菜单的组织结构和Word极为相似因此这里我们只介绍比较有特色的几个菜单项 1新建数据文件我们开始进行一个新的课题把数据收集上来要做统计分析自然需要新建一个数据库然后将所有的数据输入到计算机里在SPSS中新建一个数据库是很容易的容易到什么都不用做的地步是这样当你进入SPSS系统时系统就已经生成了一个空数据文件即你看到的空白的数据管理界面你只要按自己的需要定义变量输入数据然后存盘就是了 2打开其他格式的数据文件 (1) 直接打开 SPSS 10.0的版本可以直接读入许多格式的数据文件其中包括EXCEL各个版本的数据文件选择菜单File ? Open ? Data或直接单击快捷工具栏上的按钮系统就会弹出Open File对话框单击“文件类型”列表框在里面能看到直接打开的数据文件格式文件后缀名及其含义如表2-1所示选择所需的文件类型然后选中需要打开的文件SPSS就会按要求打开你要使用的数据文件并自动转换为数据SPSS格式表 2-1 spss 中的数据文件 SPSS(*.sav) SPSS数据文件6.0 10.0版 SPSS/PC+(*.sys) SPSS 4.0版数据文件 Systat(*.syd) *.syd格式的Systat数据文件 Systat(*.sys) *.sys格式的Systat数据文件 SPSS portable(*.por) SPSS便携格式的数据文件 EXCEL(*.xls) EXCEL数据文件从5.0版2000版 Lotus(*.w*) Lotus数据文件 SYLK(*.slk) SYLK数据文件 dBase(*.dbf) dBase系列数据文件从dBase II IV Text(*.txt)纯文本格式的数据文件 data(*.dat)纯文本格式的数据文件 (2) 使用数据库查询打开 SPSS可以直接打开许多类型的数据文件但这并不是说它可以打开所有类型的数据文件比如FoxPro 3.0以上版本的*.dbf文件就不能直接打开为此SPSS还提供了另一个适用范围更广但使用上较为专业的数据接口数据库查询 SPSS在这里使用的是一种叫ODBC(Open Database Capture)的数据接口该接口被大多数数据库软件和办公软件(如MS Office)支持通过它应用程序可以直接访问以结构化查询语言(SQL)做为数据访问标准的数据库管理系统由于SPSS 10.0可以直接打开EXCEL所有系列的数据文件因此数据库查询接口的用处不是很大但是在9.0及以前的版本中该查询仍是直接打开EXCEL 95 97及2000 数据文件的唯一办法 ODBC数据引擎是独立于各种应用软件直接安装到Windows系统中的因此你所用的系统中ODBC所支持的数据类型取决于所安装的ODBC引擎的情况还好大多数支持该接口的软件都会在安装光盘上附送该引擎的安装文件(如MS Office)不过有一点要提醒大家许多机器的OBDC数据引擎安装有问题(尤其是盗版)在SPSS中使用它往往要死机选择菜单File ? Open Database ? New Query系统会弹出数据库向导的第一个窗口其中会列出你使用的机器上已安装的所有数据库驱动程序选中所需的数据源然后单击下一步向导会一步一步的提示你如何做直至将数据读入SPSS (3) 使用文本导入向导读入文本文件选择菜单File ? Read Text Data系统就会弹出Open File对话框和前面的情况完全一样只是文件类型自动跳到了Text (*.txt)实际上该功能在SPSS中已被整合到了Open File对话框中之所以在菜单上保留该条目有两个原因 z读入纯文本的情况非常普遍放在这里更加醒目 z为了和SPSS老版本的使用上保持兼容 [例2-1] 现有一数据文件以纯文本的形式存为c:\Li2_1.txt且第一行为变量名请将其读入SPSS 在Open File对话框里选中相应的文件名并单击“确定”系统会自动启动文本导入向导对话框如图2-1所示图2-1 SPSS第一步在SPSS 10.0中该向导并没有重新设计因此仍然有问题被截断无法显示完的情况出现可以看到该向导共分6步这是第一步中部为一对单选按钮问题为你的文本文件和预定义格式相一致吗下方为按预定义格式读入的数据文件的预览显然SPSS 的预定义格式并没有正确识别该文件因此选择No并单击下一步系统弹出向导的下一个对话框如图2-2所示图2-2 SPSS第二步最上方的问题是你的变量是如何排列的下面的选项分别为Delimite(用某种字符区分)和Fixed Width(固定宽度)一般都是Delimite第二个问题是变量名包括在文件最前面了吗我们当然选Yes单击下一步系统弹出第三个对话框图2-3 SPSS第三步最上方的句子意为第一条记录从第几行开始右侧可以输入行数由于我们所用的数据第一行为变量名因此这里输入2下面的问题是你的记录是怎样存储在文件中的可以是每一行代表一条记录或者每**个变量代表一条记录数据一般都是第一种情况下一个问题是你想导入多少条记录可以是所有记录前 **条或随机导入**%的记录一般也选前者单击下一步第四个对话框如图 2-4所示图2-4 SPSS第四步我这里介绍得非常详细但实际使用中你可以不管大多数问题因为SPSS一般都能自动正确设置最上方的问题为变量间用的是哪种分隔符可选的有Tab键空格逗号分号或自行定义的其他符号本数据采用的是空格可见系统已经自动识别并选择了空格而下方的数据预览窗口显示出了正确的数据读入情况单击下一步第五个对话框如图2-5所示图2-5 SPSS的第五步上方的提示为定义在数据预览窗口中所选择的变量顾名思义在这个对话框中你可以在数据预览窗口中选择某一列变量然后更改其变量名和类型当然在这里我们不用这样做直接单击下一步系统弹出文本导入向导的最后一个对话框如图2-6所示图2-6 SPSS第六步最上面的问题为你愿意保存这次的文件(读入)格式设置以备下次使用吗第二个问题为你是否愿意将以上操作粘贴为SPSS语句一般这两个问题我们都可以不管单击完成系统最终成功地读入了Li2_1.txt 3保存数据文件在对数据做了修改后保存数据文件是必不可少的工作之一选择菜单File==>Save 如果数据文件曾经存储过则系统会自动按原文件名保存数据否则就会弹出和选择Save as 菜单时相同的Save as对话框里面可以保存的数据类型和可以打开的几乎一样多选择合适的类型确定就是了 Save命令的快捷键为Ctrl S如果你曾经领教过Windows死机的巨大潜力那么你一定会理解习惯性地随手按Ctrl S至少不能算是一个坏习惯如果你准备将数据存为SPSS以外的其他类型要注意有些设置可能会丢失如标签和缺失值等尤其是缺失值如果想存的数据格式不支持缺失值那你的数据可能会变的面目全非 4 File菜单中的其他条目 Disp Data Info 该菜单项用于显示数据的基本信息选择它后会弹出非常类似于打开文件的一个对话框用于选择数据文件选择好后按OK系统就会在结果窗口中列出所选数据的基本情况如建立时间标签设置记录数变量设置等 Apply Data Dictionary 即使用数据字典该功能使你可以直接在新数据集中套用以前定义好的变量设置(格式标签等但不包括数据类型)举个例子吧请打开Li1_1.sav文件将变量x的长度从8改为4标签删掉然后选择菜单File ? Apply Data Dictionary在文件对话框中选择Li1_1.sav并按OK (即将Li1_1.sav的变量设置按相同变量名一一套用在现在的数据集上)怎么样一切都变回去了吧 Cache Data 建立数据缓冲区以前SPSS每执行一条命令都会重新读取所需的数据如果是从远程用SQL调用数据库这会非常费时现在使用Cache Data可以将数据全部读入暂存盘建立活动数据的缓冲区大大加快了处理速度不过我特意试了一下如果是处理本机数据的话该命令对速度的提升不是非常明显 Print和Print Preview 这两个菜单项用于将数据管理窗口中的数据以表格的形式打印出来其中Print Preview是新增加的使用上和WPS2000的打印预览非常相似(其实它用的是同样的程序) 不过和SPSS结果的打印程序一样用SPSS直接打印数据非常浪费纸张用不用你自己决定吧 Stop Processor 用于停止执行当前的SPSS命令由于SPSS处理速度非常的慢如果你正在对一个大型的数据执行统计命令等了半天都没有结束此时你的另一半约你逛街的时间又要到了可是你的结果还没有存执行命令时又存不了怎么办呢试试这个命令吧 2.1.2 编辑数据文件在SPSS中数据文件的编辑整理等功能被集中在了Data和Transform两个菜单项中这两个菜单的内容如图2-7所示 Data菜单项 Transform菜单项图2-7 Data和Tansform菜单项下面我们介绍几个主要的菜单项功能重点说说Define Dates... 1定义新变量 (1) 直接定义新变量大多数情况下我们需要从头定义变量在SPSS 10.0中定义变量的操作界面和FoxPro 等数据库非常相似只需单击左下方的Variable View标签就可以切换到变量定义界面开始定义新变量如Li1_1.sav的变量定义如图2-8所示图2-8 在Data Editor中输入数据以变量x为例变量名为x类型为Numeric宽度为4小数位数2位(因小数点还要占一位故整数位只有一位)变量标签位为血磷值右侧在图中未能看到的依次为Values 用于定义具体变量值的标签Missing用于定义变量缺失值Colomns定义显示列宽Align 定义显示对齐方式Measure定义变量类型是连续有序分类还是无序分类使用该窗口我们可以一次定义许多新变量不会像老版本那样一个一个的定义了由于SPSS是英文软件变量名采用中文会有潜在的冲突(100%的兼容性是不存在的典型的例子就是微软公司的产品) 对于喜欢搞点花样的用户这里有必要介绍一下SPSS中标签和缺失值的定义方法标签和老版本不同现在变量标签和变量值标签被分开设置变量标签就在Label框中直接输入变量值标签则在它右侧的Value框中定义以group为例单击Value框右半部的省略号会弹出变量值标签对话框如图2-9所示图2-9 Value Labels对话框上部的两个文本框分别为变量值输入框和变量值标签输入框分别在其中输入1 和克山病患者此时下方的Add按钮变黑单击它该变量值标签就会被加入下方的标签框内与此类似定义变量值2为健康人最后按OK变量值标签就设置完成此时你做任何分析在结果中都有相应的标签出现如果你现在就想看效果切换回Data View界面然后选择菜单View==>Value Labels怎么样看到了吗 (2) 缺失值单击missing框右侧的省略号会弹出 Missing Values(缺失值)对话框如图2-10所示 2再简略介绍几个主要的菜单项 Insert Variable插入一个变量如果在数据编辑器中想再插入一个新的变量就可以用到这项功能在这里不多说了 Insert Case插入一个观测量其作用和 insert variable差不多 Go to case...定位到指定的观测量 Sort Cases...按某变量值对观测量进行排序 Transpose求数据文件的转置 Merge Files合并数据文件 Aggregate...对数据进行分类和不分类的汇总 Split File拆分数据文件 Select Cases...选择观测量 Weight Cases...对观测量进行加权处理图2-10 Missing Values对话框 2.2 系统的运行管理及帮助 2.2.1 系统运行方式 1完全窗口菜单运行管理方式 SPSS for Windws启动后即在屏幕上显示主画面即数据编辑窗口如图2-11所示图2-11 SPSS数据编辑窗口主画面的最上行是由10个菜单项组成的主菜单这些菜单如表2-2所示表 2-2 主菜单项说明 1 File 文件操作 2 Edit 文件编辑 3 View 视图编辑 4 Data 数据文件建立与编辑 5 Transform 数据转换 6 Analyze 统计分析 7 Graphs 统计图表的建立与编辑 8 Utilities 实用程序 9 Window 窗口控制 10 Help 帮助每个菜单项包括一系列功能当在New Data窗中输入了数据或读入了一个数据文件后可以使用各主菜单项的各功能进行工作鼠标光标对准选中的菜单项单击鼠标键可以打开菜单或展开小菜单进一步选择细分功能或展开执行选中功能有关的对话框用户可以通过对话框选择参与分析的变量按对话框中的功能按钮展开对话框进一步选择分析参数以便执行选中的功能在分析过程的主对话框中用鼠标光标对准OK按钮单击鼠标键即可执行选择分析过程分析结果显示在输出窗中 2程序运行管理方式程序运行管理方式是在语句窗口Syntax中直接运行编写好的程序的一种方式在该窗口中输入SPSS命令组成的程序利用主菜单的Edit菜单项对窗口中的程序进行修改在Syntex窗中的程序可以分析数据窗中的数据也可以用有关的语句指定外语数据文件对其进行分析 3混合运行管理方式混合运行管理方式是以上两种方法的结合方式首先在数据窗中输入数据或利用主菜单的File菜单项打开已经存在的数据文件即把数据读入数据窗然后利用对话框选择分析过程和分析参数选择完成后不马上执行而是用aste按钮将选择的过程及参数变换成相应的命令语句置于Syntax窗中在该语句窗中添加没有包括的语句和参数或修改子命令中的参数然后按窗中的Run按钮将程序提交系统执行 2.2.2 窗口及其功能 1数据编辑窗口数据编辑窗口最上方标有SPSS Data Editor在SPSS for Windws启动后屏幕显示在主画面上的激活窗口即是该数据编辑窗窗口中有一个可扩展的平面二维表格可在该窗中编辑数据文件利用系统菜单Data菜单项可以完成定义变量的属性录入数据修改变量的属性移动记录指针插入记录观测量或插入一个新变量等操作还可以对已经录入的数据记录进行排序转置等操作利用Edit菜单项Save Data Save as功能可以把该窗口中的数据存入一个数据文件或存入另一个新命名的数据文件在SPSS运行期间不能同时打开两个以上数据文件进行SPSS过程分析另外还可以显示数据的有关信息利用View可以进行视图编辑进行窗口外观控制利用Analyze菜单项中的各分析过程可对该窗口中的数据进行统计分析利用Graphs可以进行各种统计图表的建立和编辑 Utilities项含有变量列表文件信息定义与使用集合自动到新观测量运行稿本文件菜单编辑器等等 Windows可进行所有窗口的最小化和最大化激活窗口表列 Help中有关于SPSS使用语法介绍方面的帮助用户不能关闭数据窗即不能把它从屏幕上移开只能把它缩小成为一个图标在数据窗中的操作详见第3章 2输出窗口 (1) 激活输出窗口如图2-12所示图2-12 Output1输出窗口1 方法有以下两种 z当使用Analyze进行统计分析产生数据输出时输出窗口自动激活输出窗口最上方标有Outpiut1 SPSS Viewer在SPSS for Windows启动后显示在屏幕的主画面上是非激活窗口在该窗口中显示SPSS处理的输出如果处理成功则显示处理结果如果处理过程中发生错误使处理失败则在该窗口中显示系统给出的错误信息 z从File ? New ? Output可产生输出窗口 (2) 主菜单在标题栏的下面包括File Edit View Insert Format Analyze Graphs Utilities Windows Help共10个菜单其中Analyze Graphs Utilities Windows Help中的功能和命令项与数据编辑窗口中的相同 File菜单项中比数据编辑窗口增加了关闭窗口保存时设置密码输出页面设置打印预览发送邮件等功能 Edit菜单项中增加了选择全选特殊粘贴在…后粘贴等功能 View菜单项包括显示/隐藏切换表格特有的隐藏/显示功能及字体设置等功能 Insert菜单项包括插入/删除分页符图表编辑功能的命令项 Format菜单项包括对齐功能行列装置页行列转置功能和调整表格各元素尺寸等功能 (3) 功能图标按钮包括 z输出信息操作功能图标按钮包括打开文件Open File保存文件Save File 打印Print打印预览Print Preview输出Export对话框再调入Dialog Recall撤销/恢复操作Undo查找数据Goto Data定位观测Goto Case 显示变量信息Variables使用集合Use Sets选择最后一个输出Select Last Output及指定当前窗口Designate Window z导航功能图标按钮包括向前定位输出组Promote先后定位输出组Demote 展开Expand折叠输出组Collapse打开输出项Show隐藏输出项 Hide插入表头Insert Heading插入标题Insert Title插入文本Insert Text等按钮图标按钮还可根据需要增减 (4) 输出文本窗口图标按钮的右半边是一个文本窗口可对其中的内容进行编辑 (5) 输出导航窗口图标按钮的左半边是一个导航窗口也可对其中内容进行编辑 (6) 多个输出窗口的建立与主窗口的概念利用File菜单中的New可以新开一个输出窗新开的输出窗按先后顺序标有 Output2 Output3只有主输出窗的窗标题前带有叹号这是主输出窗的第一标记表明各过程执行结果只会倾注到主输出窗中主输出窗中的叹号图标按钮是灰色的这是主输出窗的第二标记非主输出窗中的叹号图标按钮是加亮的改变输出窗是否主窗只决定输出信息是否倾注其中主窗不能关闭工作输出窗或称当前输出窗只能有一个将鼠标光标移到一个输出窗中单击鼠标左键就把该输出窗激活为工作窗该输出窗自动成为当前工作窗窗口标题栏显示文件的存储路径和文件名如果当前工作输出窗的主窗叹号图标按钮不是加亮的或窗口标题栏中的标题不带有叹号将其变为主输出窗的方法有二将鼠标光标对准叹号按钮单击鼠标左键使其变为灰色使用鼠标单击主菜单的Utilities项展开下拉菜单用鼠标点击选中Designate Window菜单项当前工作输出窗变为主输出窗 (7) 关闭输出窗口可以被关闭的输出窗有两个条件必须不是主输出窗必须是当前工作的输出窗只要使用鼠标关闭对准输出窗左上角的方框双击鼠标左键即可关闭该输出窗如果窗中的输出信息未存盘系统显示提示对话框输出信息存盘后窗口关闭有关文件存盘及窗口中信息的编辑等操作可见本书第三章的有关内容 3语句窗口Syntax 语句窗口如图2-13所示上方标有 Syntaxl因为SPSS软件最基本的窗口是 Data Editor和Output两个窗口因此Syntax 窗口在SPSS启动后是否显示在主画面上取决于系统的初始状态设置 (1) 打开语句窗口要打开一个语句窗口的方法与步骤是 z鼠标光标对准主菜单的File菜单项单击鼠标左键展开下拉菜单 z鼠标光标对准下拉菜单中的New菜单项展开小菜单小菜单中有五项 Data Syntax Output Draft Output Script选择Syntax 单击鼠标键就打开了一个Syntax窗口 Paste按钮在几乎所有SPSS对话框中均存在它是专门为编程准备的作用是把过程语句粘贴到Syntax窗口上例如我们可以在对话框中写入如下的程序 T-TEST GROUPS=group(1 2) /MISSING=ANALYSIS /VARIABLES=x /CRITERIA=CIN(.95) . 这就是把我们想做的工作输入到SPSS系统中如果运行它就可以得到结果怎么运行选择菜单Run-all是不是很容易另外再说几句Paste按钮如何能生成程序在SPSS中操作界面实际上起的就是“操作界面”的作用当你用对话框选定某项操作单击OK后SPSS就将你的选择在Syntax窗口中翻译成程序语句然后提交系统执行如果单击Paste按钮SPSS就图2-13 Syntax窗口不将生成的程序语句提交执行而是传送到程序编辑窗中供你折腾说得再广一些不光 SPSS SAS等其他统计软件也是这么做的从上面的语句也可以看到SPSS程序的基本结构一条语句可占多行最前面为语句主体具体的选项用斜杠和语句主体相连最后用小数点结束语句如果使用主菜单Edit中的Preference功能设置在启动SPSS时就打开了一个 Syntax窗那么启动SPSS后Syntax窗将与Data Editor Outputl两个窗口同时出现在主画面上 (2) 语句窗的功能语句窗的功能有以下几个方面 z各个SPSS过程的主对话框均有一个标有Paste的图标按钮它把SPSS过程的命令语句以及各选择项对应的子命令语句按照SPSS语言的语法组成一个或若干个完整的程序粘贴到主语句窗口中在语句窗中可以使用键盘输入SPSS命令编写的SPSS程序用主菜单的Edit菜单项中的各种功能修改编辑窗中的程序用主菜单的File菜单项的各功能把窗中的程序作为文件保存到磁盘中或关闭该窗口可以把已经存放在磁盘中的另一个程序文件调入独占该窗口或与已经存在于该窗口中的程序合并为一个程序作业以便合并一次运行 z当使用鼠标选择了一个完整的程序后鼠标光标对准RUN按钮单击鼠标键就把该窗中的程序提交系统执行 z鼠标光标对准Syntax按钮单击鼠标键屏幕显示光标所在行上的SPSS命令语句供你查阅 (3) 同时使用多个语句窗口 z在主语句窗口主语句窗口的标志是语句窗口标题栏变为高亮彩色语句窗口中的叹号图标按钮为灰暗色主语句窗口的功能不同与非主语句窗口各过程对话中选择形成的命令语句和子命令组成的程序只能粘贴到主语句窗口中用前面介绍的方法可以同时打开若干个语句窗在SPSS运动期间首先打开的语句窗的窗标为Syntax1第二个打开的语句窗窗标为Syntax2但只能有一个主窗口主窗口不能关闭 z在当前工作窗用鼠标光标移动到一个Syntax窗口范围中单击鼠标左键该窗口被激活成为当前工作语句窗被激活工作窗的窗标底色为彩色非激活窗口的窗标底色为白色一切操作均对激活的工作窗有效将当前工作窗变为主窗如果当前工作语句窗不是主窗叹号图标按钮是加亮的窗口标题栏中的标题不带有叹号将其变为主语句窗的方法有二一为鼠标光标对准叹号按钮单击鼠标左键使其变为灰色二为使用鼠标单击主菜单的Utilities项展开下拉菜单选择Designate Window菜单项用鼠标单击之当前工作语句窗变为主语句窗 (4) 关闭语句窗口可以关闭激活的当前工作语句窗只要使用鼠标对准语句窗左上角的方框双击鼠标左键即可关闭该语句窗如果窗中的程序未存盘系统显示提示对话框程序存盘后窗口关闭有关文件存盘及窗口中信息的编辑等操作可见本书第三章的有关内容 4统计图形编辑窗口(Chart Editor) Chart Editor窗口如图2-14所示是一个图形编辑器在该窗中可以对图形进行编辑修改打印图2-14 Chart Editor统计图形编辑窗口在图形编辑窗中对图形可以进行如下操作 Fill pattern按钮改变填充图形的花纹 Color按钮改变指定图形的颜色 Marker按钮改变图形中所用的符号 Line Style按钮改变图形中使用的线形 Bar Style按钮改变直方图的显示方式 Bar Label按钮允许在图中标注数字 Interpolation按钮改变插值方法 Text按钮改变字体和字号 3-D Rotation按钮用表明坐标轴的对话框改变坐标轴反向使三维图形旋转 Swap Axis按钮允许改换坐标轴 Explode Slice按钮把饼图中指定的片分离开饼图主体 Break line at Missing设置线图中是否在缺失值断开 Spin按钮自旋按钮 Output按钮退出图形编辑器返回到输出窗建立显示图形信息之处 5帮助窗口Help 几乎每个对话框中或大部分子对话框中都有一个Help按钮用鼠标键单击该按钮就可以打开一个Help窗窗中显示的帮助信息与当时的操作有关或与当时打开的对话框中的内容有关 2.2.3 对话框及其使用方法对话框就是提供人机对话环境和内容的窗口主菜单中各项功能的完成总要通过对话框选择命令语句变量或者参数提交系统执行才能得到要求的结果通过各种选择按钮下拉菜单等指定选择项执行命令打开另一个对话框(子对话框) 1常见对话框类型 SPSS中使用的对话框主要有两种文件操作对话框和统计分析主对话框 (1) 文件操作对话框可从SPSS 10.0 for Windows的主菜单File中打开的各种功能的对话框例如从File ? Open ? Data的Open File打开的数据文件对话框如图2-15所示还有保存文件打印等功能项打开的对话框均为此类型的对话框图2-15 Open File对话框 (2) 统计分析主对话框主菜单Analyze的每一个子菜单对应于一个过程分析进入一个子菜单打开的第一个对话框均为统计分析对话框在该对话框中选择参与分析的各类变量是该对话框的主要任务另外还有根据分析方法不同而选择不同的选择项例如选择分析中的算法输出选择项等图2-16即为Means对话框图2-16 Means对话框 (3) 其他选择项对话框 SPSS 10.0 for Windows主菜单的其他菜单项各功能对应的对话框或统计分析菜单项各分析过程的二级对话框这种对话框只在限定范围内提供选择的内容如图2-17所示的 Means Options对话框图2-17 Means Options对话框 2对话框的构成 (1) 按钮按钮的主要功能是激活选择项它告诉系统去做什么包括 z移动变量按钮按钮中央是箭头它把变量表中选中的变量加到变量框中例如选择参与分析的变量指定分类变量或者指定因变量自变量等该按钮有时也用于构成模型时的变量选择按钮的指向是可以改变的当使用鼠标键选择了原始变量左面矩形框中时箭头按钮指向右方表示可以将选择的变量移到右面的变量表中去了当在右面的变量表中选择了变量时箭头按钮指向左面表示可以把变量表中的变量送回原始变量表中去即从选择中剔除 z打开下一级对话框的特点是按钮中的单词是下一级对话框的名字按钮中字符后面有省略号 z执行功能按钮每个对话框中都有这样几个功能执行按钮 OK按钮鼠标单击这个按钮时把经过主菜单分菜单对话框直到子对话框等等选择的带有参数的命令过程语句提交系统执行执行经过显示在输出窗中当选择或指定的变量参数不符合运行相应过程的要求时按钮为灰色此时鼠标单击该按钮系统不做任何反应 Paste按钮鼠标单击该按钮时把通过对话框的各种操作组成的带有指定参数的过程命令语句显示到主语句窗中当选择或指定的变量参数不符合执行相应过程的要求时该按钮为灰色表示没有具备生成可执行文件的条件灰色按钮不能响应鼠标单击的操作 Reset按钮清除单击该按钮之前在对话框中进行的一切选择和设置恢复到选择和设置前的状态准备接受新的选择和设置 Cancel按钮作废本次打开对话框的操作返回到上一级对话框或菜单 Help按钮打开帮助窗口显示与当前对话框及其各项有关的帮助信息 Continue按钮一般是二级对话框中的按钮单击该按钮表明确认在二级对话框中的参数选择返回前一级对话框 (2) 单选项单选项又叫择其一按钮其形状像一个收音机旋钮如图2-18中的按钮总是多个带有旋钮的选择项排列在一起这些选择项只能择其一不能同时选择两个或两个以上被选中的一项前面的圆圈旋钮中出现黑点并列的若干项中必须选择其中的一项而且只能选择一项如果只有一项无与之并列的项选择与否均可图2-18 单选项 (3) 复选项复选项又叫并列选择框形状为方框被选中的项前的方框中有出现可以同时选择多个也可以不选任一项但任何一项都不选时有时会产生不希望产生的结果或是输出窗中没有分析结果输出甚至于出错如图2-19所示图2-19 复选项 (4) 箭头按钮矩形框右面有向下箭头按钮的矩形框是下拉清单的折叠框单击向下箭头按钮可以展开下拉清单可以选择的项目列于清单中再用鼠标单击选定的项下拉清单收回矩形框中显示选定的项目如图2-20所示图2-20 箭头按钮矩形框 (5) 文本选择框文本框是一个可以输入数据或其他指定内容的矩形框移动鼠标光标使I形光标移至矩形框中单击鼠标键选中文本框框中有插入点光标闪动此时即可在插入点位置输入系统要求范围内的信息了如图2-21所示图2-21 文本选择框 2.2.4 系统参数设置系统初始状态和系统默认值的设置是通过Options对话框完成的Options功能项在Edit菜单中参数与状态设置生效的时间不同有的在确认(用OK按钮)后立即生效有的则要在下次启动SPSS for Windows时才生效但无论何时生效只要生效设定的状态或参数即代替了原来系统给定的默认值鼠标单击菜单的Edit菜单项展开下拉菜单在下拉菜单中选择最后一项Options 打开相应的对话框如图2-22所示图2-22 Options对话框在Options对话框中进行系统状态参数的设置过程中有以下几种可能的情况需要操作对话框右面的按钮当完成任何参数或状态设置后认为没有其他需要设置的内容了即可用鼠标单击确定按钮确认所作的设置并返回到SPSS for Windows主画面有些参数或状态设置在确认并退出Options对话框后立即生效有些则要在重新启动SPSS for Windows时才生效如果在Options对话框中一系列设置完成后认为设置的不够满意要重新设置可以单击取消按钮返回SPSS for Windows主画面然后再进入Options对话框重新设置如果暂时不需要进行设置工作时也可以按取消按钮退出Options对话框返回到SPSS for Windows主画面同时刚刚设置的参数作废上述设置的内容虽然较多但并不难于掌握当读者对Options对话框中的一个功能卡如General掌握熟练之后其它的功能可举一反三故而在本节中只举出几个典型常用的功能并不一一介绍如果对如何设置系统状态参数等工作需要进一步的解释和帮助可以按帮助按钮展开与该对话框各项有关的帮助窗口查看有关说明 1通用参数设置 General功能卡上设置各种通用参数 (1) 设置运行记录的文件与写入方式确定是否存入日志文件及设置日志文件写入方式在一个SPSS运行期间的所有操作过程的有关信息都可以保存在一个日志文件中Options对话框左上角的矩形框是定义运行日志文件之处在Session Joumal下面的矩形框中有一个标有矩形选择框的项Record Syntax in Journal该项指定是否把系统执行的语句记录到日志文件中用鼠标键单击该项使其前面的矩形框显示则表示要求存入框中两个单选项表明存入方式 Append要求每次运行的语句接在前一次运行并存入日志文件的信息后面存放 Overwrite要求每次运行的语句存入日志文件时覆盖前一次存入文件的内容 (2) 设定日志文件名按Browse按钮展开保存日志文件对话框如图2-23指定保存日志文件的文件名指定的文件名显示在Session Joumal矩形框的第一行上如果不指定文件名则将运行信息保存在系统日志文件中即保存在C: \windows\temp\spss.jnl中图2-23 指定存储日志文件的对话框指定日志文件名的简单方法是鼠标单击Browse按钮展开另存为对话框鼠标的 I形光标移至文件名下矩形框中的文件名后面单击鼠标键在文件名后显示插入点光标按Backspace键删除系统给出的或是上一次指定的日志文件名在文件名矩形框中直接键入带有路径的日志文件名例如想把日志信息存入D盘AAA子目录中文件名为ABC.JNL则键入D \AAA\ABC.JNL 回车或用鼠标键单击保存按钮返回Options对话框 (3) 设定内存工作区在设定日志文件有关参数的矩形框下面第二栏有Special Workspace Memory Limit 字样在矩形框中直接输入根据你的机器情况设置的作为SPSS for Windows计算统计量时使用的预留内存总容量系统默认容量为512K字节根据你的机器内存配置可以设置到高达16000K字节但是如果设置容量高于机器所能使用的容量磁盘存取速度会大大下降设定的预留内存容量在本次SPSS期间不起作用只有退出SPSS for Windows并再次启动后本次设定值才生效 2 Data数据功能卡 (1) 转换与合并生效时间选择 Data功能卡如图2-24所示中的Transformation & Merge Option下面的矩形框中的选择项设定怎样执行Compute Count Recode Read ASCII Data Add Cases和Add Files 命令可选择的方式有 Calculate Values Immediately指定立即执行方式即计算读取数据或合并文件均在选择并单击按钮确定之后立即执行此为系统默认方式 Calculate Values before used将这些命令保留到下次处理数据文件时执行这段保留时间中数据编辑器失效直到这些命令执行完图2-24 显示Data功能卡的Options对话框 (2) 新变量的显示格式 Display Format foe New Numeric Variable下面的矩形框中设定数据编辑器中定义的新变量默认的显示宽度和小数位数将系统默认的宽度和小数位数键入到两个矩形框中即可只是设定显示格式对数据精度无影响 3语句窗的初始显示形式设置系统原始的默认方式是在启动SPSS for Windows时Syntax窗不显示在主画面上这一形式可以通过设定或不设定General功能卡中的选择项Open a syntax window at startup to run SPSS command syntax决定 4统计图输出参数设定在Options对话框中用鼠标键单击Charts按钮打开统计图输出参数设定的对话框如图2-25所示图2-25 显示Chats功能卡的对话框在对话框中设定如下参数 (1) Font字体在Current Setting下面的矩形框中设定变量标签和输出标题注脚所使用的字体可以选择的字体有多种选定的字体显示在Font下面的矩形中若想改变字体只要单击下面一个矩形框右边的向下箭头展开字体表列滚动在表列右边的小块或单击滚动条两端的小箭头按钮即可改变表列中的显示内容从显示的字体名称中选择一种单击鼠标选中的字体名称将显示于矩形框中另外还可以用右边的选择项设定是否打印机也使用设定的字体 (2) 图形元素的选择在Fill Patterns and Line Styles矩形框图中选择默认的对图形元素初始的修饰符号包括填充图形用的花纹与绘图线型可以选择的有两种二者择其一 Cycle through colors then patterns如果你的显示器为彩色显示器选择此项可以在屏幕上获得比较精确的图形显示效果 Cycle through patterns如果你的显示器为单色显示器选择此项可以在屏幕上获得比较精确的图形显示效果 (3) 框架的选择 Charts功能卡右下角的Frame矩形框提供了两种图形框的选择项 Outer 在整个统计图的外围加框 Inner 只把统计图标题表列标签等等框在框内 (4) 坐标线的选择 Charts功能卡右下角的Grid Lines矩形框提供两种坐标轴线的选择项 Scale axis设定是否在坐标轴上显示刻度 Category axis设定是否使用分类坐标轴 (5) 设置统计图外框线的宽高比例在Chart Aspect Ratio矩形框中设置图形外框线的宽高比 5数值型变量自定义格式的设置 SPSS 10.0 for Windows允许用户自己设定常用的数值型变量的格式用鼠标在Options 对话框中单击Currency按钮展开相应的对话框进行设置如图2-26所示图2-26 显示Currency功能卡的对话框从对话框中共可设置五种自定义格式分别命名为CCA CCB CCC CCD和CCE 需要设定的参数有 (1) 所有值的首尾字符在All Values矩形框中的Prefix后面填写首字符系统默认值是空格在 Suffix 后面填写尾字符系统默认值是空格 (2) 负数的首尾字符在Negative Values矩形框中的Prefix后面键入负数首字符系统默认值是-在 Suffix后面键入尾字符默认值是空格 (3) 小数点符号在Decimal Separator矩形框中设置使用的小数点符号两个选择项择其一 Period使用园点此为系统默认值 Comma使用逗点以上参数设置完毕按格式表达的数值字样显示在Sample Out矩形框中上面一个是正数样例下面一个是负数样例选择格式的命名后即可按确定按钮确认定义的格式并返回SPSS主画面定义的格式即可在定义数值型变量时使用了 6设置输出标签在Options对话框中用设备单击Output Label按钮进入对应的Output Label对话框如图2-27所示图2-27 显示Output Labels功能卡的Options对话框在Outline Labeling结果标签栏中设定输出图形时是否使用标签 Variables in item labels shown as设置变量标识栏 Variable values in item labels设置变量值标识栏在Pivot Table Labeling要点表格标签栏中设定输出表格时是否使用标签 2.2.5 Windors 菜单项的功能与屏幕画面状态设置光标对准主菜单中的菜单项Window单击鼠标键展开如图2-28所示下拉菜单 1窗口状态的选择用鼠标单击Window菜单中的Minimize All Windows命令则当前所有的窗口最小化即变成一个图标按钮显示在Window的状态栏内 2各窗口之间的切换在Minimize All Windows命令下面是已经打开的窗口列表打开的窗口名称前面有对钩的是最大化显示的窗口没有对钩的是最小化显示的窗口将鼠标对准主菜单中的菜单项View单击展开一个下拉菜单如图2-29所示图2-28 Windows菜单中的命令项图2-29 View菜单中的命令项其中Status Bar当选中时前面有对钩相应的编辑窗口如Data Editor Output 等等显示位于主画面最下面的状态栏没有选中时状态栏消失主画面变大 Toolbars工具栏鼠标点击它将弹出Show Toolbars对话框如图2-30所示图2-30 Show Toolbars对话框 (1) Document栏可选择所要显示的窗口 (2) 点击该栏的下拉箭头将显示All Data Editor Viewer Draft Viewer Chart等项 (3) Show Tooltips选中时当光标移到主画面上的图标时出现英文提示 (4) Large Buttons选中时主画面上的图标变成大图标 New Toolbar单击该按钮弹出如图2-31所示对话框可选择要显示工具条的窗口图2-31 Toolbar Properties对话框 (5) Customize按钮单击该按钮弹出如图2-32对话框可选择要显示图标按钮的图标图2-32 Customize Toolbar对话框 3 Fonts字体选择选择字体字样和大小如图2-33所示图2-33 字体选择对话框 4 Grid Lines网格线选中时Data Editor呈表格形式不选中时表格中的线条消失 5 Value Labels变量标识可将数值型变量转变为字符型变量如将1值转变为Yes等 2.2.6 系统帮助 Help 鼠标点击菜单Help展开一个下拉菜单如图2-34 所示图2-34 Help菜单中的命令项 1 Topics点击之进入帮助主题SPSS for Windows对话框如图2-35所示它是关于各种主题的帮助而且可以用目录查询也可输入关键字索引在图2-35中我们选择一所需项双击之则弹出SPSS for Windows帮助对话框如图2-36所示读者可以查阅图2-35 帮助主题SPSS for Windows对话框图2-36 SPSS for Windows帮助对话框 2 Turorial点击之进入帮助主题Tutorial对话框如图2-37所示它是关于 SPSS各种使用过程的指南可以用目录查询也可输入关键字索引选择一项所需项双击之弹出Tutorials对话框如图2-38所示在此对话框中可一步步地得到帮助图2-37 帮助主题Tutorial对话框可以点击Prevous Next按钮查询前一步帮助或后一步帮助点击Contents 按钮返回帮助主题Tutorial对话框用光标指向图中不明白的地方当光标变成小手的时候可单击之弹出相应的英文帮助图2-38 Tutorials对话框 3 SPSS Home Page单击之可连接到SPSS主页网址是WWW.SPSS.COM/在该网站上可获得在线帮助 4 Syntax Guide语句指南单击进入下一级菜单有Base基础部分Regression Model回归模型Advanced Model高级模型三个部分点击之可打开相应的PDF帮助文件要利用这一帮助必须先安装Acrobat Reader软件 5 Statistics Coach统计分析指南单击弹出如下图2-39所示的Statistics Coach对话框图2-39 Statistics Coach对话框在What do you want to do中可选择所要进行的统计分析在左侧栏中有相应的帮助和指南可点击Back Next来前后查看帮助单击More Examples可得到更多的例子示范 6 About是关于SPSS版权的一些说明思考题 1进入SPSS的主画面后点击主画面上的Open图标按钮或从菜单File ? Open ? Data进入SPSS目录选择一个数据文件对其进行编辑练习 2从系统选项中浏览输出窗口中输出表格的各种形式并选择一种您喜欢的输出格式为以后学习过程中输出结果作准备 3任选一个菜单中的命令如Transform中Compute命令点击该命令进入主对话框点击Help按钮弹出SPSS for Windows对话框尝试阅读英文帮助第 3 章数据输入与交换导言本章主要是关于数据输入和交换的首先介绍了 SPSS 的数据类型怎样定义和使用一个变量后介绍 SPSS 的文件类型特别介绍了 SPSS 使用最频繁的一种文件数据文件本章第三四部分介绍数据输入和编辑方法这一部分的内容相当重要读者务必熟练掌握为了便于读者理解和掌握本章特意举出一个例子来说明数据输入和编辑的方法我们在前面提到过 SPSS 的窗口如结果输出窗口和命令编辑窗口这两个窗口是系统用于接收或输出文本的用户在实际工作中经常需要对之进行必要的编辑 SPSS 的文本编辑是借助于主窗口的 File Edit 等菜单完成的我们先介绍 SPSS 的文本编辑方法 3.1 数据类型 3.1.1 常量与变量 1 SPSS 常量一个 SPSS 的常量就是一个数值一个括在单 (双 )引号中的字符串或是按日期格式表示的日期时间和日期时间常用的 SPSS 常量有数值型字符型和日期型 (1) 数值型常量数值型常量就是程序在 SPSS 语句中的数字一般使用两种书写方式一种是普通书写方式例如 26 38.4 等另一种书写方式是科学记数法用于表示特别大或特别小的数字例如 1.23E18 2.56E-16 等 (2) 字符串常量字符串常量是被单引号或双引号括起来的一串字符如果字符串中带有字符则该字符串常量必须使用双引号括起来例如 BOY S BOOK 2 SPSS 变量 SPSS 中的变量与在数学中的变量定义是一致其值可变的量称为变量 SPSS 中的变量属性有四个变量名变量类型变量标签变量长度定义有关 SPSS 变量至少要定义变量名和变量类型另两个属性可采用默认值 (1) 为变量命名应该遵循以下原则 SPSS 变量的旧式名由不多于 8 个字符组成首字母是字母其后可为字母或数字或除和 * 以外的字符但应该注意不能以下划线 _ 和园点 . 作为变量名的最后一个字符变量名不能与 SPSS 保留字相同 SPSS 的保留字有 ALL AND BY EQ GE GT LE LT NE NOT OR TO WITH 系统不区分变量名中的大小写字符例如 ABC 和 abc 被认为是同一个变量 (2) 变量类型与默认长度 SPSS 变量有三种基本类型数值型字符型日期型数值型变量又按不同的要求分为五种因此共可定义八种类型的变量系统默认的变量类型为标准数值变量 (Numeric) 每种类型的变量由系统给定默认长度所谓长度指显示该变量值所占的字节数也就是用字符当数表示的显示宽度小数点或其他分界符包括在总长度之内变量长度的系统默认长度可以用主菜单的 Edit 中的 Options 功能重新设置标准数值型变量 Numeric 默认总长度 8 小数位数 2 标准数值型变量的值用标准数值格式显示不指定长度则使用默认长度小数点用园点定义为标准数值格式的变量值可以用标准数值格式输入也可以用科学记数法输入输入时使用科学记数法显示出来的格式还是标准数值格式的带逗号的数值型变量 Comma 默认总长度 8 小数点数 2 定义为带逗号点的数值型变量其值在显示时整数部分自右向左每三位用一个逗号作为隔符用圆点作小数与整数间的分界符不指定宽度则使用默认宽度定义为带逗点的数值格式的变量值可以输入带逗点的数值也可以输入不带逗点的数值还可以用科学记数法输入输入时使用科学记数法显示的还是圆点作小数点逗点作三位分隔符的数值圆点数值型变量 Dot 默认总长度 8 小数点 2 定义为带圆点的数值型变量显示方式与带逗点的数值型变量正好相反其值在显示时整数部分自右向左每三位用一个圆点作为分隔符用逗点作小数与整数间的分界符不指定宽度则使用默认宽度定义为带圆点数值格式的变量值可以输入带圆点的数值也可以输入不带逗点的数值还可以用科学记数法输入输入的数据使用了科学记数法回车后显示的还是用逗点作小数点圆点作三位分隔符的数值科学记数法 Scienmtific Noation 默认总长度 8 小数位数 2 对于数值很大或很小的变量可以使用科学记数法这种变量的值可以有指数部分也可以没有指数部分表示指数的字母可以用 E 也可以用 D 指数部分可以带正负号也可以不带甚至指数部分不用字母 D 和 E 只用符号表示也是可以被接收的例如表示一百二十三可以用以下方式输入 1.23E2 123 1.23D2 1.23E+2 1.23+2 带美元符号的数值变量默认总长度 8 小数位数 2 定义为带美元符号的数值型变量其值在显示时有效数字前带有 $ 用逗点作分隔符用圆点作为小数与整数间的分界符变量总长度包括 $ 符号在内不指定长度则使用默认长度定义为带 $ 的数值型变量值输入时可以带 $ 也可以不带显示在数据表格中的数值由系统自动加上 $ 符号和分隔符还可以用记数法输入如果数值不超过定义的长度则显示在数据表格中的数值自动变换为定义的格式带美元符号的数值型变量的具体格式还可以通过一个小菜单选择选定的格式只对在数据表格中的显示形式有效当输入的数值小数位数超过规定时系统自动进行四舍五入处理如果输入的整数位数超出规定的格式显示时自动去掉作为三位分隔符的逗号读者应该根据数据中最大数值的位数指定显示格式以便使显示与输入的值一致自定义型 Custom Currency 自定义型是一种由用户利用 Edit 菜单的 Preference 功能定义的定义方法见第二章的有关内容日期型变量 Date SPSS 的日期型变量可以表示日期也可以表示时间日期型变量的值按指定的格式输入和显示不能直接参与运算要想使用日期变量的值进行运算必须通过有关的日期函数转换后才行日期型变量的具体格式显示在一个可以滚动翻页的小菜单中用户可以根据具体的数据和处理要求选择一种格式输入日期型变量的值可以使用 / 和 - 作为分隔符显示在数据编辑器中相应单元格中的值则是按指定的日期格式显示的关于日期格式的几点说明 z m 在年与日 (字母 y 与 d)之间表示月份在时与秒 (字母 h 与 s)之间表示分钟 z mmm 三个字母 m 表示要求书写英文月份单词的前三个字母组成的缩写 z ddd 三个字母 d 表示要求用从元月一日算起的日数表示日期 z 指定了日期型变量的格式不一定在输入时就使用指定的格式输入可以输入用 / 或 - 作分隔符的具体日期回车后系统自动将输入的日期转换为指定的格式显示在单元格中字符型变量 String 默认总长度 8 字符型变量的值是一串字符字符串长度是任意的但使用时分为两种情况 z 短字符串变量其值由 8 个以下 (包括 8 个 )字符组成使用范围比较宽 z 长字符串变量其值由 8 个以上字符组成在使用时受限制字符型变量不能参与运算字符串中的大写字母与小写字母被系统认为是截然不同的两个字符这一点在使用时要特别注意建议读者使用短字符串变量 (3) 变量的标签与值标签变量标签 Variable Labels 变量标签是对变量名附加的进一步说明变量名只能由不超过 8 个字符组成但 8 个字符不足以表示变量的含义在变量比较多时尤其需要对变量名的含义加以解释变量标签就起到这样的作用在统计分析过程的输出中在与变量名相对应的位置显示该变量的标签有助于分析输出结果得出的结论如果 SPSS for Windows 是运行在中文之星的中文平台上不熟悉英文的用户也可以给变量名附加中文标签例如变量名 H 对应的变量标签 Height W weight Ser 性别 Age 年龄 (变量 )值标签 Value Labels 变量值标签是对变量的可能的取值所附加的进一步说明对分类变量往往要定义其取值标签当然变量值标签也是一个可选择的属性可以定义也可以不定义例如变量值值标签 Sex f Female M Male H 1 <=1.49m 1.50-1.59m 1.60-1.69m 170-1.79m >=1.80m (4) 变量的格式变量的格式包括的内容有 z 宽度指在数据窗中该变量所占的列数应该区分定义变量类型时指定的宽度与定义格式时的宽度定义变量格式宽度应该综合考虑变量类型定义的总长度和变量名所占宽度取其较大的一个作为该变量定义格式宽度时可取的最小值即格式宽度 >=变量总长度同时格式宽度 >=变量名长度如果变量总长度 >格式宽度变量名在数据窗中显示不完全 z 对齐方式左对齐右对齐中间对齐一般情况下属于数值型变量默认的对齐方式为右对齐字符型变量默认的对齐方式为左对齐也可以指定为中间对齐方式 z 缺失值 Missing Value 在实际的科研工作中往往会因为某种原因使记录的数据失真或没有测到或没有记录例如对少年身高体重的测量与自然状况的填写分开进行测量了身高体重没有填写年龄性别性别根据回忆填写了正确值但年龄无从查问其他数据在某些分析中还可以使用对于这个少年的数据记录年龄成为缺失值另一个少年测量记录中记录的身高是 2.58(m) 显然是错误的在该少年的测试记录中这个数据是失真数据不能使用该记录中的身高也应该记作缺失值在 SPSS 中对字符型变量默认的缺失值为空格对数值型变量默认的缺失值为零用户可以定义自己的缺失值标记 3.1.2 操作符与表达式 SPSS 的基本运算共有三种数学运算关系运算逻辑运算相应运算的算符如下数学运算操作符关系运算符逻辑运算符 + 加 <(LT) :小于 & (And) :与 - 减 >(GT) :大于 | Or :或 * 乘 <=(LE): 小于等于 ~ Not 非 / 除 >=(GE) : 大于等于 * * 幂 =EQ 等于 ( ) 括号 ~=NT 不等于 (1) 算术运算符与算术表达式算术运算符可以连接数值型的常量变量和函数构成算术表达式其运算结果为数值型常量例如 X+Y* 2/(A+B)-1+ABS(A*Z)就是一个合法的算术表达式在算术运表达式的运算中运算的优先顺序为按先括号函数乘方 (幂 ) 乘或除加或减的顺序同一优先级的位于左面的先算 (2) 比较算符与比较表达式比较算符建立的是两个量之间的比较关系由系统判断关系是否成立如果比较关系成立比较表达式的值为真否则为假相互比较的两个量必须类型一致无论进行比较的两个量是字符型还是数值型比较的结果均是逻辑型常量比较算符表中列出的比较算符均有两种表示方法括号中的比较算符与括号前的算符是等价的例如 A>3 和 A GE 3 是等价的如果 A=4 则表达式 A>3 为真其值为 1 如果 A=3 则表达式 A>3 的值为假其值为 0 (3) 逻辑运算符与逻辑表达式逻辑算符即布尔算符括号前的算符与括号中的算符等价例如 A&B 与 A and B 是等价的逻辑算符与逻辑型的变量或其值为逻辑型的比较表达式构成逻辑表达式逻辑表达式的值为逻辑型常量与运算或 and 前后的两个量均为真时逻辑表达式构成逻辑表达式的值为真否则为假或运算 | 或 or 前后的两个量只要有一个为真只有当操作符号假非运算 ~ 或 NOT 是前置算符它对其后面的量作非运算 NOT 后面的量值为真则 NOT 运算结果为假后面的量值为假 NOT 运算的结果为真示例逻辑表达式 A>B & C>0 只有当 A 的值大于 B 的值而且 C 为正数时该逻辑表达式的值为真对于 A=3 B=2 C=6 该逻辑表达式的值为真如果 c=-6 则该逻辑表达式的值为假逻辑表达式 A>B | C>0 只要 A>B 成立无论 C 为何值表达式的值均为真或者只要 C>0 成立无论 A 与 B 为何值该表达式的值均为真逻辑表达式 NOT(A>0)A 为正数逻辑表达式的值为假 A 为负数或 A 为 0 逻辑表达式的值均为真 3.1.3 定义一个变量输入数据之前首先要定义变量定义变量即要定义变量名变量类型变量长度 (小数位数 )变量标签 (或值标签 )和变量的格式 (显示宽度对齐方式缺失值标记等 ) 定义变量的步骤如下鼠标光标置于数据窗平面表格的一个空列的第一个或某任意单元格位置单击鼠标左键使该单元格边框加重显示光标对准主画面 Data Editor 下的左下方的 Variable View 按钮单击鼠标左键打开定义变量对话框这种由主画面直接打开的对话框称为一级对话框如图 3-1 所示 (1) 对变量的系统默认定义默认的变量名定义变量对话框中的第一行 Variable Name 后面给出系统默认的第一个变量名 VAR00001 插入点光标在变量名框最后一个字符后面闪烁若使用默认变量名且不定义其他属性则回车确认或按 OK 按钮确认返回主画面系统按变量的定义顺序给出的变量名默认值为 VAR00001 VAR00002 VAR00003 依此类推图 3-1 定义变量画面 (2) 定义增加的变量名若想自己定义变量名按 Backspace 键删掉默认变量名然后用键盘输入自己定义的变量名例如我们输入 SEX 作为变量名 1 变量的其他属性的默认值输入变量名后先不要急于回车先查看下面的矩形框中对变量的描述在变量描述框中显示的是变量的默认属性依次解释如下 Variable Description 变量描述 Type Numberic8.2 变量类型数值型长度 8 小数位数 2 Variable Label 变量标签 (无 ) Missing Values 缺失值无定义 Alignment Right 对齐方式右对齐如果对矩形框中变量属性的描述不满意可以利用下面一个矩形框改变设置矩形框 (Change Setting)中的四个按钮展开相应的对话框 (二级对话框 ) 设置所需的变量属性 Change Settings 改变设置 z 单击 Type 按钮设置变量类型 z 单击 Missing Values 按钮设置缺失值定义 z 单击 Lables 按钮设置变量标签 z 单击 Column Format 按钮设置列格式 2 定义变量类型与宽度鼠标光标对准按钮 Type 单击鼠标键展开定义变量类型对话框如图 3-2 所示 (1) 定义变量类型定义变量类型对话框的左半部列有八种可供选择的变量类型自上至下标明的变量类型为 Numeric(标准数值型 ) Comma(带逗点的数值型 ) Dot(逗点作小数点的数值型 ) Scientific Notation(科学记数法 ) Date(日期型 ) Dollar(带有美元符号的数值型 ) Custom Currency(自定义型 ) String(字符型 ) 每个类型前面有一个圆圈初始显示的是在 Numeric 前的圆圈中有一个黑点表示默认的变量类型是标准数值型图 3-2 定义变量类型对话框用户想选择哪种类型就用鼠标光标对准那种类型的名字前面的圆圈单击鼠标键该圆圈中增加一个黑点标明当前选中的变量类型原来的 Numeric 前圆圈中的黑点消失 (2) 定义变量宽度下一步定义变量的总宽度和小数位数当前选中的变量类型的默认的总宽度和小数位数显示在对框中部 Width 后面的方框内显示的是总宽度 Decimal Places 后面的方框中显示的是小数位数对话框刚刚展开时显示的是系统默认的标准数值型变量的默认值总宽度 8 小数位数 2 要改变其值可将插入点光标移至方框内 ( I 型光标移至方框内单击鼠标键 ) 即可用键盘删除原值输入合适的值例如我们定义的变量 SEX 因为变量性别要作为分类变量参与统计分析不能定义为字符型因此我们定义它为标准数值型由于我们考虑用值 1 表示男性值 2 表示女性因此其值的长度只需要一个字节因此把 Width 中的数字改为 1 Decimal places: 中的数值改为 0 确认选择的变量类型和变量长度参数是正确的后按 Continue 按钮关闭该定义变量类型对话框返回到上一级对话框继续其他属性的定义若还想保持原有定义不变可按 Cancel 按钮取消本次定义的内容返回上一级对话框继续其他属性的定义若想查询有关变量类型的帮助信息可按 Help 按钮 3 定义变量标签定义变量标签有两项内容一是定义注释变量名含义的变量标签 (Variable Label) 另一个是定义变量值的标签注释变量各值代表的数据范围或含义在主画面对话框中单击 Values 栏中的按钮展开 Value Labels 定义标签对话框定义变量的二级对话框如图 3-3 所示在该对话框中可以定义变量标签同时可以定义变量值标签 (1) 定义变量名标签在对话框中的第一行的方框中有插入点光标在闪烁说明等待你输入描述变量名的标签 (以下简称变量标签 ) 如果无需定义该变量值的标签回车或单击 OK 按钮则完成变量标签的定义返回上一级对话框图 3-3 定义变量标签对话框例如我们定义了变量 SEX 系统运行在中文之星的汉字平台上可以给出汉字标签在第一行的方框中输入性别作为变量 SEX 的标签 (2) 定义变量值标签在定义标签对话框的下部有一个大方框标有 Value Labels 包含有三个较小的矩形框用这三个矩形框定义值标签在第一个矩形框中输入变量值在第三个矩形框中输入对应值的标签第三个框显示值标签清单只要在第一个小矩形框中输入变量的一个值再把插入点光标移至第二个小矩形框中输入对该值含义解释的标签按较大矩形框左面的第一个按钮 Add 一个值标签就加入到值标签清单中例如我们定义的变量 SEX 值 1 表示男性值 2 表示女性则先在第一个小框中输入 2 再把插入点光标移至第二个矩形框中输入女按 Add 按钮清单中显示 2= 女然后再在第一个小矩形框中输入 1 在第二个矩形框中输入男再按 Add 按钮清单中增加了一个值标签显示 1= 男至此值标签定义完毕按 Continue 按钮确认定义的变量标签和值标签正确无误并返回上一级对话框继续定义变量的其他属性要取消本次定义则按 Cancel 按钮返回上一级对话框若需要帮助信息按 Help 按钮 (3) 修改变量名标签和值标签对变量名标签的修改很简单只要在 Variable Label 后的矩形框中删除原标签重新输入新定义即可要想修改值标签需要按如下步骤进行首先在定义值标签的第一个矩形框中输入新的值如果不改值只改标签也需重新输入变量值然后在第二个矩形框中输入新标签如果改值不改标签仍需要再次输入标签如图 3-3 所示就是对值 2 给以新标签男在清单中已经有了值 2 的标签女输入结束后按 add 按钮屏幕显示 SPSS 警告对话框框中显示提示和问话 There is a already defined for this value,Replace it? 意为该值已经有了一个定义了是否替换它按钮 OK 则在清单中对同一个值新标签代替原标签清单中显示的只有 2= 男对于修改后的内容与原内容是标签相同值不同按 add 按钮清单中显示两个具有相同标签的不同变量值这是不允许的必须修改一个或删除一个修改操作还可以这样进行鼠标光标对准清单中要修改的值标签表达式单击鼠标键使这一项变为彩色底色同时该值标签表达式的值显示在 Value 后面的矩形框中标签显示在 Value Label:”后面的矩形框中此时如果按 Remove 按钮该选中的值标签表达式消失如果想修改则随便修改哪一个按 Change 按钮修改后的值和标签显示在清单区中 4 定义用户缺失值在定义变量对话框中按 Missing Values 按钮展开定义变量用户缺失值的对话框如图 3-4 所示对话框标题为 Missing Values 后面还给出当前要定义缺失值的具体变量的变量名图 3-4 中的对话框标题为 Missing Values 图 3-4 Missing Values 对话框定义用户缺失值的方式有 4 种无缺失值这也是系统的默认状态如果当前变量的值测试记录完全正确没有遗漏则可选择此项被选中的缺失值定义方式前的圆圈中有黑点离散缺失值标题为 Discrete missing values 下面有三个矩形框选择这种方式定义缺失值可以在下面的三个矩形框中输入三个确切的可能出现在相应的变量中的缺失值也可以少于三个在进行统计分析时系统遇到这几个值则作为缺失值处理例如对于性别变量值为 0 3 4 都被认为是非法的在输入数据过程中很有可能输入了这几个数据则可把这三个值分别输入到三个矩形框中定义缺失值范围标题为 Range of missing values 下面有两个分别标有 Low 和 High 的矩形框用这种方式定义缺失值主要针对连续变量的值指定某一范围的值如果出现在当前定义的变量值中则被当作缺失值处理在 Low 后面的矩形框中输入缺失值例如对于性别变量值在输入时输入了 3 4 5 6 可以在 Low 后面输入 3 在 High 后输入 6 但要注意这个定义的范围中不能包括合法值一个范围加一个离散值标题为 Range plus one missing value 标题下面有三个矩形框供输入范围的下限为 Low 范围上限为 High 和一个该范围包括不了的范围外的值 Discrete value 例如如果在定义变量 HEIGHT 的值中输入的错误数据有 1.40 和 1.90 1.95 2.03 而且在 1.90-2.03 之间没有正确的身高测试值正确值范围均大于 1.40 小 1.90 则可选择此种定义缺失值的方式在 Low 后面的矩形框中输入 1.90 在 High 后面的矩形框中输入 2.03 在 Discrete Value 后面的矩形框中输入 1.40 确认定义的用户缺失值表达正确按 Continue 按钮返回到上一级对话框即定义变量对话框取消本次定义的全部内容按 Cancel 按钮要求显示有关的帮助信息按 Help 按钮如果这四种定义用户缺失值的方式不能把所有的非法值包括在内则要在数据文件中查出错误数据进行修改修改成系统缺失值或者在 Syntax 窗口中利用程序语句解决定义缺失值的问题 5 定义变量的显示格式变量的显示格式包括两个内容一是变量的显示宽度一是变量显示的对齐方式 (1) 定义显示用的列宽度 Column 显示当前的变量所占的列宽度如果在定义变量类型时定义了变量长宽则在 Column Width 后面的矩形框中显示的是这一变量长宽例如变量 SEX 的列宽度在刚刚展开对话框时显示的是 1 因为变量长度已经在定义 sex 的类型时指定总长度为 1 但是变量名 SEX 由三个字符组成要想把变量名在数据编辑器中显示完全最低限度要定义显示的列宽度为 3 改变的方法是将插入点光标移至 Column width”:后的矩形框中删除原来的数值 1 输入定义的数值 3 (2) 定义显示时的对齐方式在对话框下部的矩形框中有三个可选择的对齐方式自左至右依次为 Left(左对齐 ) Center(中间对齐 ) Right(右对齐 ) 每个对齐方式前有一个圆圈选中的对齐方式前面的圆圈中有一个黑点对数值型变量系统默认的对齐方式是 Right 对字符型变量系统默认的对齐方式是 Left 如果要改变默认的对齐方式可将鼠标光标对准选中的对齐方式的圆圈单击鼠标黑点移到限制的对齐方式的圆圈中修改变量的各种属性操作方法与步骤同上只是在进入一级菜单时显示的变量名和属性参数不一定是默认值可能是经过定义或修改的二级对话框显示的属性参数也不一定是默认值了 3.1.4 概率事件观测量在数据编辑器的二维表格中每行都是数据文件的一个记录在统计学中称作一个概率事件在 SPSS 的菜单中或帮助信息中用 Cases 这个单词表示每个 Cases 是由各变量的一定的值组成是一个事件或者说是对一个被观测对象的各种特征的实测值组成因此相对应变量来说可以称之为观测量单元格中的数据即是某个观测量中的一个值因此可以称之为变量值也可以称之为某个观测值在 Help 信息中往往使用 Case 这个单词由于许多操作的叙述颇费文字我们在此之后约定简化的叙述方法鼠标光标对准屏幕画面上的某个图标按钮单击鼠标左键在本书中均简单叙述为按按钮应该是图标按钮上标注的按钮名称或其按钮功能的中文含义鼠标光标对准屏幕画面上的某个图形单击鼠标左键在本书中简单叙述为单击按钮应该是对屏幕上图形的描述例如鼠标光标对准选中的变量类型名前面的圆圈单击鼠标左键简单叙述为单击选中的变量类型鼠标光标在可从键盘进行输入的区域内显示为 I 形在 I 形光标停留处单击鼠标左键使插入点光标显示在 I 形光标所在处并输入这一操作过程在本书以后的部分简单描述为将插入点光标移至图标处其中图标是对目的地点的描述或更简要地叙述为在图标处输入或键入 3.2 文件 3.2.1 文件类型 z SPSS(*.sav) 保存为 SPSS for Windows 数据文件 z SPSS (*.sys) 保存为 SPSS/PC 数据 z SPSS Portable (*.por) 保存为 ASCII 码文件变量类型标签值标签变量格式和用户定义的缺失值都会另加保存这种格式是保存为另一种格式的最好方法但占用存储空间比其他两种 SPSS 文件要多保存后不要对其进行编辑只在 SPSS 软件中使用的数据不要使用这种类型的格式存盘 z Tab-delimited (*.dat) 保存为 ASCII 码文件用回车换行符号作为两个观测量之间的分隔符如果一个软件不能读取其他任何格式的数据文件可以使用此格式保存数据在保存数据到此格式文件的同时变量标签值标签缺失值定义均丢失 z Fixed ASCII (*.dat) 保存为 ASCII 码文件 z Excel (*.xls) 保存为 Excel 软件可以读取的表格文件每个观测量占一行每个变量占若干列用此种格式保存数据文件时变量标签值标签缺失值定义均丢失 z 1-2-3 Rel 3.0 (*.wk3) 保存为 3.0 版本的 Lotus 1-2-3 能读取的数据文件 z 1-2-3 Rel 2.0 (*.wkl) 保存为 2.0 版本的 Lotus 1-2-3 能够读取的数据文件 z 1-2-3 Rel 1.0 (*.wks) 保存为 1.0 版本的 Lotus 1-2-3 能够读取的数据文件 z SYLK (*.slk) 保存为表格文件用此格式保存数据文件时变量标签值标签缺失值定义均丢失 z dBASEIV(*.dbf) 保存为 dBASE 的数据库文件扩展名为 .dbf” z dBASEIII(*.DBF) 保存为 dBASE 的数据库文件扩展名为 .dbf” z dBASEII(*.dbf) 保存为 dBASE 的数据库文件扩展名为 .dbf” 保存为数据库文件时变量标签值标签缺失值定义丢失 3.2.2 数据文件在数据编辑器中定义变量输入修改数据形成一个可供 SPSS 分析的数据文件使用 Edit 菜单项中的各种功能可以对数据文件进行编辑处理如果将数据文件存盘磁盘数据文件的扩展名为 SAV 利用菜单项 File 的 Data 或 Save As 功能展开的对话框指定存储路径位置和磁盘文件名将数据窗中的数据保存为其他的数据文件如数据库文件 ASCII 码文件等等此外菜单项 New 为重新建立一个数据文件菜单项 Open 为打开一个已经存在的磁盘数据文件显示在数据编辑器中 Display Data info 为显示当前数据文件中变量的有关信息 Print 为打印数据文件等等建立一个正确的数据文件是为了进行统计分析进行哪种统计分析要求计算什么统计量可以通过菜单项 Analyze 的各种功能实现 3.3 数据输入 3.3.1 数据输入方法定义了变量就可以开始输入数据了操作方法是多种多样的可以定义了一个变量就先输入这一个变量的值也可以按观测量来输入即输入完一个观测量的各变量值再输入第二个观测量的值数据编辑器的二维表格中顶部标有定义的变量名左侧标有观测量序号一个变量名和一个观测量序号就指定了唯一的一个单元格二维表格的上方有两个格右侧的是数据输入区从键盘输入的数据在回车前显示在该区中左侧的是被激活的单元格所属的变量和观测量号表格中的每个单元格是一个变量与一个观测量的交叉点变量名显示在二维表格顶部观测量序号显示在表格的左侧确定了变量和观测量号单元格就被唯一地确定了在二维表格中鼠标光标变为十字形当十字形鼠标光标移动到某个单元格中单击鼠标键该单元格边框加黑该单元格被激活在表格上方的左边格子中显示出该单元格的所属变量和观测量序号数据编辑器的二维表格是可以延伸的显示在屏幕上的只是数据编辑窗口 (简称数据窗 ) 内的部分因此可以使用鼠标或键盘移动数据窗观察更多的变量和数据方法如下向上 (或向下 )移动一行鼠标单击窗口右侧滚动条中的向上 (或向下 )单箭头按钮向上 (或向下 )移动一页鼠标单击滚动条中向上箭头与滚动块无标记按钮之间的部分数据窗向上移动一页鼠标单击滚动条中向下箭头与滚动块之间的部分数据窗向下移动一页向上 (或向下 )不定量移动鼠标光标对准右侧滚动条中的滚动块按下鼠标左键在滚动条中向上 (或向下 )移动滚动块松开鼠标键窗口定位不动向左或向右移动数据窗要操作数据窗下部的滚动条中的单箭头按钮和滚动块或者其间的空条操作与上述方法类似如果使用键盘可以使用四个光标移动键使窗口向上向下移动一行向左向右移动一列使用 PgUp PgDn 键将数据窗向上或向下移动一页使用 Home End 键把当前单元格加黑边框移至行首行尾即该观测量与第一个变量的交叉处或与最后一个变量的交叉处 1 按单元格输入数据要想输入某个观测量的某个变量值可以将鼠标的十字光标移动到相应的单元格单击鼠标键被定位的单元格边框加黑显示 (在以后的章节中把该过程简述为输入单元格定位 )也可以用键盘的光标键将加黑的单元格框移至相应的位置输入数据注意从键盘输入的数据显示在数据输入区内按光标移动键后数据才显示到定位的单元格中按哪个光标移动键取决于下一个要输入的数据与刚键入数据的位置关系 2 按变量输入数据定义了一个变量可以马上输入该变量的数值一般都是从第一个变量值开始输入将输入单元格定位于该变量与第一个观测量的交叉点单元格输入变量的第一个值回车或按向下移动键黑框单元格定位于观测量序号为 2 的单元格输入第二个数据 3 按观测量输入数据按观测量输入数据实际上是要首先确定要输入的观测量将观测量最左边的单元格激活输入该观测量的第一个变量值按 Tab 键数据编辑器接收输入的数值同时激活右面一个单元格接下来在被激活的单元格中输入该观测量的第二个变量的值在该观测量所在的行中用 Tab 键激活右边一个单元格用 Shift + Tab 键激活左边一个单元格如果输入的值个数超过了定义的变量数即在输入位置超过了定义的最后一个变量的右边界则自动生成一个新变量变量名为系统默认值使用光标移动键也可以激活邻近的单元格 4 设置输入数据时光标控制方式录入了一个变量值后是否光标自动下移也可以设置设置的方法是鼠标单击系统菜单的 Utilities 展开下拉菜单选择菜单项 Auto New Case 鼠标单击之当该菜单项前出现 3 时表示该功能被激活那么在录入完一个变量值后数据编辑窗中的光标自动移到下一个单元格内 Auto New Case 命令前没有 3 时表示该功能未被激活录入完一个变量值后数据编辑窗中的光标仍停留在这个变量值上必须使用鼠标或键盘的 Tab 键或光标移动键手动移动光标 5 格线显示设置用户可以根据自己的习惯显示或隐藏数据编辑窗口中的单元格线仍然是展开 Utilities 下拉菜单用鼠标单击 Grid Lines 菜单项可使该项前的 3 显示或消失即可控制单元格的显示与否 3.3.2 输入带有值标签的数据对于分类变量离散变量往往定义其值的标签如果你对一个变量的值定义了标签那么输入该变量的值时可以显示输入值也可以显示输入值的标签以哪种方式显示可以通过 Utilities 菜单选择选择方法是单击主菜单的 Utilities 菜单项展开下拉菜单在下拉菜单的最下面一栏中的中间一项为 Variable Labels 如果想在数据编辑器中输入变量值在被激活的单元格中显示变量值鼠标光标对准该项单击鼠标键使该项前面的 3 消失同时关闭下拉菜单如果想在数据编辑器中输入变量值在被激活的单元格中显示变量标签单击 Variable Labels 使其前面出现 3 同时关闭 Utilities 下拉菜单输入变量值显示的方法有二 1 直接在数据输入区输入变量值在相应的单元格中显示标签 2 鼠标十字光标置于该变量的单元格中单击鼠标右键 (或按 Shift F2 键 ) 在当前单元格旁边显示定义的值标签表用鼠标或光标移动键在表中选择一个标签双击鼠标左键或按回车键 Enter 选中的标签显示于单元格中由于定义了变量值的标签就必须按规定输入变量值否则系统会把其值当作缺失值处理如果忘记了定义哪些变量值则可查看变量信息方法是单击主菜单的 Utilities 菜项展开下拉菜单选择 Variables 菜单项打开对话框 Variables 如图 3-5 所示图 3-5 Variables 对话框对话框中左半部分是变量列表列出当前数据编辑器中定义的所有变量名变量前带有 < 符号的是字符型变量对话框右半部分是变量信息显示区 Variable Information 列出指定变量的属性对话框刚刚打开时该区显示数据编辑器中当前变量的属性信息如果想列出另一个变量的属性可用鼠标单击变量表列中另一个变量的变量名则在变量信息显示区显示指定变量的属性信息注意 Variable Information 中只能显示一个变量的属性信息不能同时显示两个变量的信息按 Go To 按钮在数据编辑器中变量信息区中的变量被激活为当前变量并把该窗口激活按 Paste 按钮变量信息区中的变量被拷贝到 Syntax 窗口中的插入点处按 Close 按钮关闭变量对话框返回到数据窗口继续录入定义了值标签的变量值 Go To 按钮和 Paste 按钮都不会使屏幕显示自动返回到数据窗必须使用 Close 按钮才能看到 Go To 和 Paste 按钮功能执行的结果 3.3.3 文件信息变量定义工作完成后可以利用 Utilities 的功能查看所有定义的变量方法是单击系统菜单的 Utilities 菜单项展开下拉菜单选择 File Info 项鼠标单击之当前数据编辑窗口中变量的有关信息显示在输出窗口中其中包括变量在数据编辑窗口中的位置序号变量名变量标签变量值标签格式和缺失值 3.3.4 数据输入实例 [例 3-1] 定义以下变量名 Name Sex X1 X2 X3 Y 其列方向的字串或数值是该变量的数据输入数据到 SPSS Data Editor 数据表表 3-1 待输入的数据 Name Sex X1 X2 X3 y Wang M 35 69 0.70 1 600 Ning F 40 74 2.50 2600 Peng M 42 64 2.00 21 00 Gu M 40 74 3.00 2650 Hu F 37 72 1 . 1 0 2400 You M 45 68 1 .50 2200 Lu F 43 78 4.30 2750 Lou M 37 66 2.00 1 600 Chan M 44 70 3.20 2750 Shen F 42 65 3.00 2500 Zhou F 41 64 2.70 2400 Deng M 38 72 2.5 2200 每定义一个变量后按列方向输入数据或定义完全部变量后按行或列输入数据在如图 3-6 或图 3-1 所示的 Data Editor 主画面的定义变量对话框中定义变量图 3-6 定义变量名对话框在输入数据的数据编辑窗口中输入数据如图 3-7 所示图 3-7 数据编辑窗口输入数据 3.4 数据编辑 3.4.1 数据编辑器 SPSS for Windows 启动成功后屏幕显示的 SPSS 主画面中有一个标有彩色底色白字 Untitled 的窗口这就是 SPSS 的数据编辑器也称数据窗如图 3-1 所示用户在该窗口进行建立数据文件的一切工作 1 数据编辑器的组成 (1) 窗口标题栏标有窗口名称 Untitled 激活状态时窗口标题栏一般为兰底白字 (2) 窗口状态栏在窗口标题栏下面有两栏左边一栏为窗口状态栏显示当前变量名和当前记录号 (3) 数据输入栏在窗口标题栏下面的两栏中右边一栏为数据输入栏原样显示用户直接从键盘输入的变量值从键盘输入的数据先显示在该栏中回车后系统根据定义的变量长度选择合适的形式显示在定位的单元格中 (4) 数据显示区窗口状态栏和数据输入区的下面是数据显示区它是一个二维平面表格在表格顶部显示变量名在它下面的空白单元格中显示各变量值其中一个单元格边框是加黑的称作选定单元格选定单元格中的数据的内部值显示在数据输入栏中 2 数据编辑器的功能概述数据编辑器的编辑功能主要是通过主菜单的 Data Edit 两个菜单项来实现的其主要功能如下 (1) 变量与观测量的编辑功能使用鼠标和 Data 菜单项的功能实现其中包括定义与修改一个变量的属性 (Define Variable ) 定义与修改一个变量模板 (Templates ) 插入一个变量插入一个观测量 (Insert Variable Insert Cases ) 定位到指定的观测量 (Goto Case ) 按某变量值对观测量进行排序 (Sort Cases ) 求数据文件的转置 (Transpose ) 合并数据文件拆分数据文件 (Merge Files Split Files ) 选择观测量 (Select Cases ) 对数据进行分类与不分类的汇总 (Aggregate ) 对观测量进行加权处理 (Weight Cases ) (2) 数据编辑功能可以使用鼠标和 Edit 菜单项中的功能实现其中包括剪切指定的数据到剪贴板 (Cut) 把指定的数据拷贝到剪贴板 (Copy) 删除刚刚输入或恢复修改的数据 (Undo typing 或 Undo Change Value) 清除数据编辑器中选定的变量或观测量 (Clear) 查找数据 (Search for Data) 3.4.2 已输入数据的修改 1 在一个区域中修改数据如果错误数据集中在某个区域中可以先定义这个区域为当前工作区然后让光标只在区域中移动方法是鼠标光标 (十字 )对准该区域的左上角一个单元格按下鼠标键拖拽至该区域的右下角单元格当反向显示的区域包括要修改数据的区域时松开鼠标键这样就定义了一个工作区这时 Enter 键的有效范围在该区的顶部到该区的底部 Tab 键的有效范围在该区的左端至该区的右端此时修改数据很方便工作单元格是正向显示的 2 恢复删除或修改前的数据如果对本次的修改与删除不满想恢复操作前的状态只要使用鼠标单击系统菜单中的 Edit 展开下拉菜单选择第一项 Undo 鼠标单击之即可 3.4.3 数据的剪切复制与粘贴有时数据输入位置发生错误需要移动有时相同的数据需要拷贝简便的操作方法是利用 Edit”菜单项的剪切拷贝粘贴功能首先要指定操作对象方法是 (1) 选择变量十字形光标置于选择的变量名上单击鼠标键该变量各单元格反向显示 (2) 选择观测量十字形光标置于选择的观测量序号上单击鼠标键该观测量一行上的各单元格反向显示 (3) 选择属于某个变量的若干个连续的单元格如选择某个变量的第三个到第五个值则把十字形光标先置于第三个变量值单元格上按下鼠标左键向下拖拽鼠标使选中的单元格除选中的第一个单元格外全部反向显示即第三四五个单元格选中反向显示然后松开鼠标键 (4) 选择属于某个观测量的若干个连续的单元格方法同 3 只是按下鼠标键后横向拖拽鼠标直到选中的单元格全部变为反向显示时松开鼠标键 1 剪切与拷贝如果选中的内容要移到另一个位置或者删除则应单击主菜单的 Edit 菜单项展开下拉菜单选择 Cut 单击鼠标键选定的内容从数据编辑器中消失转移到一个假想的剪贴板上保存起来 2 拷贝操作如果选中的内容要拷贝到另一位置则应单击主菜单的 Edit 展开下拉菜单选择 Copy 单击鼠标键选定的内容仍然显示在原位置上其备份被粘贴到假想的剪贴板上如果此次保存在剪贴板上的内容不作任何处理下次被剪切或拷贝到剪贴板上的内容会覆盖原有的内容原有的内容全部消失相当于剪切的内容被删除 3 拷贝选定内容到另一位置 (1) 拷贝一个变量按 1 和 2 选定变量并拷贝到剪贴板上在选定位置上插入一个空变量单击主菜单的 Edit”菜单项展开下拉菜单选择 Paste”单击鼠标键结果拷贝在剪贴板上的变量诸值全部填充在插入的空变量的各单元格中拷贝变量的操作完成变量名仍是 Var000n”的形式但它的属性与原系统默认值相同如果需要还应该重新定义变量名及其属性 (2) 拷贝一个观测量先指定观测量并拷贝到剪贴板上按本节介绍的方法在选定的位置上插入该空观测量单击主菜单的 Edit”菜单项展开下拉菜单选择 Paste 单击鼠标键结果拷贝在剪贴板上的观测量的各变量值全部填充在插入的空观测量的各单元格中拷贝观测量的操作完成 (3) 拷贝变量或观测量部分内容的操作与 (1) (2)类似不同点在于变量和观测量都是已经存在的要找好拷贝目标地的起始位置 3.4.4 变量观测量的插入与删除 1 插入一个变量如果在现存变量的右边界右面增加一个变量 ,只要把十字光标定位于最右边一个变量的右面一个变量列上 ,单击鼠标右键弹出一个菜单选择 Insert Variable 如果要定义的变量想放在已经存在的变量之间就是要插入一个变量操作步骤如下 (1) 把十字光标定位于新变量要占据的那一列的任意行上单击鼠标键 (2) 单击主菜单 Data 菜单项展开下拉菜单 (3) 在下拉菜单中选择 Insert Variable 单击鼠标键当然也可单击鼠标右键来进行选择效果是一样的结果在选定的位置上插入一个变量名为 Var0000n 的变量其中的 n 是系统定义的变量序号如果已经定义了 3 个变量则新插入变量的变量名为 Var00004 原来占据此位置的变量和及其右侧的变量右移按照 3.3 节介绍的方法定义这个插入的变量可以对其重新命名并定义其属性 2 删除一个变量删除一个变量按下述步骤进行 (1) 十字形光标置于选定的变量序号上单击鼠标键该变量全部单元格反向显示 (2) 单击主菜单 Edit 菜单项展开下拉菜单 (3) 在下拉菜单中选择 Cut 项单击鼠标键选中的变量暂时消失 (存入剪贴板 )还可以用 Paste 恢复如果用鼠标单击 Clear 则为不可恢复的删除无论使用哪种方法进行变量的删除其结果均为被选定的变量消失其下面的诸变量上移以上 (2) (3)两步可以用单击 Delete 键代替 3 插入一个观测量观测量的排列无关紧要其排列次序可以用排序功能整理如果确实需要插入一个观测量可以使用下述步骤 (1) 十字形光标置于要插入观测量的一行的任意单元格中单击鼠标键 (2) 单击主菜单 Data 菜单项展开下拉菜单 (3) 在下拉菜单中选择 Insert Case 单击鼠标键结果在选中的一行上增加一个空行可以在此行上输入该观测量的各变量值 4 删除一个观测量删除一个观测量按下述步骤进行 (1) 十字形光标置于选定的观测量序号上单击鼠标键该观测量全部单元格反向显示 (2) 单击主菜单的 Edit 菜单项展开下拉菜单 (3) 在下拉菜单中选择 Cut 项单击鼠标键选中的观测量暂时消失存入剪贴板但还可以用 Paste 恢复如果用鼠标单击 Clear 则为不可恢复的删除无论使用哪种方法进行观测量的删除其结果均为被选定的观测量消失其下面的各观测量上移以上 (2) (3)两步可以用单击 Delete 键代替 3.4.5 恢复删除或修改前的数据如果对本次的修改与删除不满想恢复操作前的状态只要使用鼠标单击系统菜单中的 Edit 展开下拉菜单选择第一项 Undo 鼠标单击之即可 3.5 数据交换 3.5.1 保存数据保存数据文件是把数据窗中的数据以文件形式保存到外部存储介质中的操作保存有两种一种是直接保存为 SPSS for Windows 数据文件一种是保存为其他格式的数据文件以便其他软件使用保存数据文件可以使用 File 菜单项中的 Save 和 Save as 1 Save date 的功能及操作方法从磁盘中读入 (打开 )的数据文件如果要存盘并存入原来的文件名使用 Save data 项的功能一般在修改数据后使用该项功能保存数据到原名文件中操作方法是用鼠标单击 File 菜单项展开下拉开菜单选择 Save 菜单项单击鼠标键数据窗中的数据立即保存到原名文件中屏幕仍然显示数据窗如图 3-8 所示如果数据窗中的数据均为刚刚输入的数据还没有存过盘第一次存盘也用上述方法选择 Save 功能选择后展开保存数据文件的对话框操作与本节 2 叙述的方法相同 2 Save as 的功能与操作方法当需要把窗中的数据保存在另一个文件名中时或是想以另一种格式保存以便用其他软件进一步处理时可以选择此项功能操作方法是用鼠标单击 File 菜单项展开下拉菜单选择 Save as 菜单项展开需要的对话框 Save Data as 如图 3-8 所示图 3-8 Save Data As 对话框指定存储位置和文件类型的操作与打开数据文件的对应操作完全相同应该说明的是如何选择保存数据文件的类型可选择的类型与打开数据文件的相同但由于各软件高低版本之间的兼容性问题可保存数据文件格式的小菜单对应不同版本有不同的选择项应该小心选择否则保存的数据文件在其他软件中可能打不开无法使用其中的数据还应该注意有时会丢失某些信息确定了保存格式扩展名就确定了在文件名 ”下面的矩形框中显示主名为 * 的文件名鼠标光标定位于 * 前并将其变为具体的文件名确定数据文件存储形式在对话框最下面有两个存储形式选择项 z Compress SPSS data 压缩 SPSS 数据即要求存盘时进行压缩只有 SPSS SPSS/PC 两种文件要求选择是否进行压缩存储 z Write variablename to spreadsheet 把变量名写入表格 Tab-delimited Excel 各种版本的 Lotus 1-2-3 SYLK 文件格式要求这个选择允许进行存储形式选择时相应的选择项加亮只要用鼠标单击该项使前面的圆圈中的黑点出现或消失即可确认以上选择后单击 OK 按钮或在输入完文件名时回车即可按要求的类型保存数据文件如果在指定存储位置上已经有一个同名文件存在则系统显示一个要求确认是否改变原有的数据文件的对话框同意覆盖原文件单击 Yes 按钮执行存盘否则单击 No 按钮若改变主意单击 Cancel 按钮可作废各步骤操作 3 另存为数据文件实例为了说明将数据窗中的数据另存为固定格式的 ASCII 码文件的操作下面以保存数据窗中的有关学生身高体重等数据为例进行说明数据文件 hw.sav 中有六个变量 no 编号 name 姓名 sex 性别 age 年龄 h 身高 w 体重在主菜单中选择 File 菜单中的 Display Data Info 功能在展开的对话框中选择 e: \ spsslu \sav \hw.sav 把数据保存为固定格式的 ASCII 码文件的操作如下在主菜单中选择 File 展开下拉菜单在其中选择 Save as 小菜单展开另存为对话框在 Save as(另存为 )对话框中指定存储位置 (驱动器目录 ) 选择文件类型为 Fixed ASCII 并输入文件名其扩展名为 .dat 单击 OK 按钮在文件以 ASCII 码形式存入指定位置的同时在 output 窗中产生一个存储变量信息表 3.5.2 打开文件打开数据文件就是把外部数据文件读入到数据窗中操作步骤如下鼠标单击主菜单中的 File 菜单项展开下拉菜单选择 Open 单击鼠标键展开小菜单在小菜单中选择 Data 展开打开数据文件对话框 Open File 如图 3-9 所示图 3-9 Open File 打开文件对话框找到或输入要打开的数据文件方法如下在搜寻 I 右端的矩形框中指定文件操作的磁盘单击矩形框右侧的向下箭头展开磁盘清单单击清单右侧滚动条中的滚动块上下方的空白处移动滚动快使清单显示出文件所在的磁盘符号单击之清单回收选中的磁盘符号显示在矩形框中该步骤完成后在其上方的矩形框中显示指定磁盘的目录选择数据文件所在的子目录滚动条中无滚动块说明矩形框中已包括了所有子目录滚动条中有滚动块则说明矩形框中没有显示完全鼠标单击滚动条上下空白处可上下移动滚动块找到数据文件所在的子目录双击之如果文件存在下一级子目录中双击后矩形框中显示下一级子目录用与上述同样的方法指定子目录确定文件类型在对话框左下角的矩形框中用与上述步骤相同的方法指定文件类型在数据窗中建立并保存的文件一般扩展名为 .sav 其他类型的数据文件大致有以下几种 z SPSS *.sav SPSS for Windows 建立的数据文件扩展名为 .sav” z SPSS/pc + (*.sys) SPSS/pc 或 SPSS/pc plus 建立的数据文件扩展名为 *.sys z SPSS portable (*.por) 是准备用于其他软件的一种 ASCII 码文件变量类型标签值标签以及用户的定义缺失值都另外单独保存着 z Excel *.xls 是 Excel 建立的表格数据文件 z STKJ *.slk 是表格数据文件 z Dbase *.dbk 是数据库格式文件扩展名为 .dbk 可以是各种版本的 dBASE 或 FoxBase 建立的数据库文件记录转换成数据窗口中的一个观测量 z Lotus *.w* 是用 Lotus1-2-3 格式写的数据文件可以是 1A 版 2 版 3 版的 Lotus1-2-3 记录的数据文件它的一行转换成一个观测量变量转换成一列 z Tab-Delimited(*.dat)是用 ASCII 码写的数据文件可能由其它任何软件建立指定了文件类型在文件类型 (T) 矩形框中显示选定的类型完成该步后文件名上面的矩形框中显示使用统配符表示的同类文件查找并指定所需数据文件该文件名显示在上面一个矩形框中确认文件方法有两种 z 鼠标光标移至文件名后面按回车键 z 鼠标单击 OK 按钮在数据窗中显示指定的数据文件中的数据打开数据文件工作结束如果要打开的数据文件的存储位置和文件名均很清楚则在显示了 Open Data File 对话框时可以直接在 File name 下面的小矩形框中输入带有路径的文件名回车或单击 OK 按扭均可直接打开指定的数据文件如果打开一个数据文件之前数据窗中已经有数据存在新的数据文件将占据数据窗原来的数据将会消失当原数据未存盘时系统会通过对话框提示是否保存数据窗中的数据如果放弃窗中的数据则单击 No 按钮当打开一个指定数据文件时原来在数据窗中的数据消失如果需要保存这些数据单击 Yes 按钮打开保存文件对话框如果改变主意不想打开任意一个数据文件了则单击 Cancel 按钮显示返回数据窗在保存文件对话框中的操作可见 3.5.1 节中的介绍 3.6 结果输出 3.6.1 选择结果在 Open File 对话框中单击 “打开 ”按钮激活 SPSS Output Navigator 窗口如图 3-10 所示图 3-10 Output 输出窗口 3.6.2 编辑结果用鼠标单击某结果该结果四周出现实线方框表示选择该结果双击之可任意编辑这一结果在结果与说明的选择状态选择 Edit ? Copy 或 Copy Objects 可以复制结果与说明的文本部分或表格和图形复制的结果可在 SPSS Output 窗口和 Word 中粘贴如图 3-11 所示图 3-11 Output 窗口中的 Edit 菜单 3.7 数据或结果的打印用户可将文本打印出来以便阅读或保存先激活需要打印的窗口然后选 File 菜单的 Print... 命令项弹出 Print 对话框用户确定是全部打印 (All)还是选择部分打印 (Selection) 并确定打印份数 (Copies)后点击 OK 钮即可将文本内容送往打印机系统在 File 菜单中还提供了 Printer Setup... 命令项选择此命令项可对打印机类型纸张尺寸打印边界打印输出方向打印分辩率和打印颜色深浅度进行设定思考题 1 将下列表格中的数据输入到数据编辑窗口中并保存为数据文件然后对其中的一些变量值进行修改和编辑 2 试着将两个数据文件中数据进行合并 3 试着从一个数据文件中选择部分数据将其复制到一个新的数据文件中 4 尝试从 Word 和 Excel 中将表格中的数据复制到数据文件中第 4 章为分析作好准备导言本章主要要求读者掌握一些数据的整理分类变换和计算方法这些方法是进行数据分析的基础有时我们可能要在数据分析前使用其中的一些方法也有可能是在数据分析的过程中也有可能是对数据的后处理数据文件的整理主要是一些关于数据的排序排秩数据文件的行列转置数据文件的合并分割病例(观测值)的选择和加权等数据的分类汇总本身就是一个统计方法在数据的变换和计算方面Compute过程功能强大用法灵活而且要经常用到当我们把前面所有的工作都做完后对该数据文件就可以进行分析了在许多情况下 SPSS的分析过程往往对数据有特殊的要求需要对数据文件进行进一步的加工才能调用分析过程对数据进行分析对输出信息的标题分页等也可能要进行事先的安排本章主要对分析前可能需要的工作进行介绍 4.1 数据文件的整理 4.1.1 观测量的排序在进行数据的处理时有时需要按某个变量值重新排列各观测量在数据文件中出现的先后顺序当建立或读入一个SPSS数据文件到数据窗中后可按下列步骤对数据文件中的观测量进行排序 1在主菜单中找到并单击DATA菜单项展开DATA下拉菜单 2在下拉菜单中选择Sort Cases项打开Sort Cases对话框如图4-1所示图4-1 Sort Cases对话框 3想好根据哪一个或哪些变量的值对观测量进行排序这些变量我们可以称之为B 变量在左边的源变量框中选择这些变量并通过单击向右箭头按钮将选中的变量移到右面的Sort by下面的矩形框中应该注意如果选择了两个以上的变量观测量排序的结果与BY变量在Sort by栏内的顺序有关列在首位的称之为第一变量其后的顺序称之为第二变量第三变量 4想好观测量是根据变量的升序还是降序排列然后进行如下操作在Sort by栏目选择一个变量在Sort Order 栏目内选择一种排序方式 z scending按所选择的BY变量的升序排列如果选择此项选中的BY变量名后面的括号中显示字母A z Descending按所选择的BY变量的降序排列如果选择此项选中的BY变量名后面的括号中显示字母D 5重复4的操作可以指定下一个BY变量的排序方式 4.1.2 变量值的排秩有些过程在分析之前自动先对变量求秩序有时需要人工事先排好秩求变量的秩的工作可以由菜单Tansform ? Rank Cases”命令项实现求得的秩序在数据编辑窗口中建立一个新变量来保存从Tansform ? Rank Cases进入Rank Cases对话框如图4-2所示图4-2 Rank Cases对话框选择变量x1 x2 x3 y进入Variable(s)变量栏中以便对每个选入的变量产生一个秩变量新生成的秩变量的名称以原变量名称前加字母r的形式出现在原文件中 1点击Rank Types按钮选择排秩的方式弹出Rank Types对话框如图4-3所示在此对话框中有许多排秩类型 Rank复选项数据文件中的新变量就是秩变量这是默认方式 Savage score复选项依据指数分布所得 Fractional Rank复选项某一观测量的秩值为某秩序除以非缺失值观测量的权重之和 Fractional Rank as %复选项某一观测量的秩值为某秩序除以所有合法值的观测量数目之和乘以100 Sum of case weights复选项某一观测量的秩值等于各观测量权重之和在同组中新变量是一个常数 Ntile复选项并在其参数栏中输入一个大于1的整数观测量的秩值是按观测量占的百分比位置来决定的图4-3 Rank Cases Types对话框在对话框的右下角有一个More按钮点击之展开如图4-3所示的对话框 Proportion estimates比例估计选项是与一个特别秩的分布的累计比的估计 Normal Scores正态分数选项即与估计累计比相应的Z分数选择了以上两项时Proportion Estimation Formula栏中的Blom Tukey Rankit Van der Waerden选项变亮表示可选择这些项 2点击Ties按钮进入Rank Cases Ties对话框如图4-4所示图4-4 Rank Cases Ties对话框 Mean选项相同值的秩取平均值 Low选项相同值的秩取最小值 High选项相同值的秩次取最大值 Sequential ranks to unique values选项相同值的秩次取第一个出现的秩次值 4.1.3 行列转置 Transpose行列转置过程的功能是将数值型变量的数据旋转90度从Analyze ? Transpose进入Transpose行列转置对话框如图4-5所示图4-5 Transpose行列转置对话框 Variable(s)栏放入将要行列转置的变量名在数据文件中未放入栏中的变量会遗失字串变量不能转置如果强迫转置变量值转变为系统缺失值 Name variable变量命名栏在左侧源变量栏选择一个变量放入name variable栏即该变量的数据作为转置后的变量名以图4-6所示的数据文件为例图4-6 用于行列转置示例的数据文件变量x1 x2 x3和Y行列转置定义变量id的数据为转置后的新变量名变量id取值为0到11的整数选择Data ? Transpose激活Transpose对话框在左侧源变量栏选择变量x1 x2 x3和Y放入Variable(s)栏在左侧源变量栏选择变量id放入Name variable栏单击OK按钮如图4-7所示结果解释变量name和sex遗失变量x1 x2 x3 Y行列转置变量id值前面加v组成v0 v1 v2 v3 v4等变量名图4-7 行列转置后的数据文件 4.1.4 合并文件合并文件的功能是某处外部文件与当前数据合并成一个新工作数据新工作数据包括病例或变量的增加注意增加变量时外部文件与当前数据必须是升序排列文件从Data ? Merge files可以看到下一级菜单中有两个命令项Add Cases和Add Variables 点击Add Cases进入Add case read file读取外部文件增加病例(数据纵向合并) 对话框如图4-8所示图4-8 Add case read file读取外部文件增加病例对话框文件名栏放入外部文件名文件类型栏选择外部文件类型从外部选择一个数据文件点击打开按钮进一步弹出Add cases from增加病例对话框如图4-9所示图4-9 Add cases from增加病例对话框 Unpaired variable不匹配变量栏指变量名相同而变量定义不同的变量或变量名不同的变量 Variables in new working data新工作数据变量栏 Indicate case source as variable指示病例来源的变量选项数值0表示源工作数据的病例数值1表示外部文件的病例选择该项后也可以输入任一变量名作为指示病例来源的变量系统默认值的变量名为source01 (*)=Working Data File:星号表示工作数据文件 (+)=E:\chengxu\spss\cars.sav加号表示外部文件从Data ? Merge files ? Add Variables进入Add Variables: Read File读取外部文件增加变量(数据横向合并)对话框如图4-10所示图4-10 Add Variables: Read File对话框文件名栏放入外部文件名文件类型栏选择外部文件类型选择一数据文件点击打开弹出ADD Variables from增加变量对话框如图4-11 所示图4-11 ADD Variables from增加变量对话框 Excluded Variables拒绝变量栏.外部文件与当前数据的同名变量,拒绝加到新工作区中 New Working Data新工作数据变量栏 Match Case on Key Variable in Sort排序文件中按关键变量匹配病例选项 Both files provide case由外部文件和当前数据两者提供病例 External file is keyed table外部文件为关键表以当前数据为基准外部文件匹配当前数据的关键变量值如果匹配成功外部文件的新变量值加入到当前数据的新变量中匹配不成功则不加入 Working Data File is keyed table当前数据为关键表以外部文件为基准当前数据匹配外部文件的关键变量值如果匹配成功外部文件的新变量值加入到当前数据的新变量中匹配不成功则舍去当前数据的该病例 Key Variables关键变量栏在拒绝变量栏选择某变量作为关键变量 Indicate case source as variable指示病例来源的变量选项.数值0表示原工作数据的病例,数值1表示外部文件的病例选择该项可以输入任意变量名作为指示病例来源的变量, 系统默认值的变量名为source01 (*)=Working Data File星号表示工作数据文件 (+)=E:\chengxu\spss\cars.sav加号表示外部文件 4.1.5 分割文件 Split File分割文件的功能是把当前工作分割成两个或两个以上的组随后的分析将对每个分组进行从Data ? Split File进入Split File分割文件对话框如图4-12所示 Analyze all cases do not create groups分析全部病例选项不建立分组是系统默认值选择此项可恢复未分割前的状态 Compare groups对照组选项若选择此项则分割文件的各分组以对照组的形式显示分析结果与说明 Organize output by groups按分组变量组织输出选项若选此项则对每个分割文件的分组逐个显示分析的结果 Groups Based on分组变量存放栏从变量表所选的变量是分组分析的依据变量最多同时可选8个分组变量 Sort the file by grouping variables按分组变量对数据文件排序的选项系统默认值 File is already sorted数据文件已排序选项选此项表示数据文件已按分组变量排序系统不需重做排序图4-12 Split File分割文件对话框以图4-13所示的数据文件为例图4-13 用于分割文件示例的数据文件从Data ? Split File进入Split File分割文件对话框如图4-12所示选择Compare groups激活Groups Based on栏将变量x3 sex选中进入Groups Based on栏中因原来数据文件未对变量sex和x3进行排序故保留Sort the file by grouping variables选项得到结果如图4-14所示图4-14 文件分割后的数据文件 4.1.6 选择病例 Select Cases选择病例的功能是选择某些符合条件的病例以图4-6所示的数据文件为例选择女性(sex F )或变量x3在2.00到3.00数值范围内的病例选择Data ? Select Cases进入Select Cases对话框如图4-15所示选择If condition is satisfied激活If单击If按钮进入If对话框在该对话框中的条件表达式栏中输入SEX F OR X3>=2.00ANDX3<=3.00条件表达式如图4-16所示单击 Continue按钮在Select Cases对话框中单击OK按钮图4-15 Select Cases对话框图4-16 Select Cases If对话框得到结果如图4-17所示图4-17 Select Cases后的数据文件 4.1.7 加权病例加权病例的功能是设定某变量为频数变量从Data ? Weight Cases进入Weight Cases对话框如图4-18所示图4-18 Weight Cases对话框 Do not weight cases非加权病例对话框系统默认值 Weight cases by加权病例变量选项 Frequency频数变量栏放入频数变量以图4-6所示数据文件为例设定x1为频数变量在Weight Cases对话框中选择 Weight Cases By激活Frequency栏把左侧的变量x1放入Frequency栏中单击OK 按钮即可 4.2 对数据进行分类汇总 4.2.1 汇总的概念对数据进行分类汇总就是按指定的分类变量值观测量进行分组对每组观测量的各变量求描述统计量生成新数据文件在新数据文件中应分类变量的每个值产生一个观测量 4.2.2 进行分类汇总的方法当读入或建立一个数据文件后可以按如下步骤操作 1打开data菜单选择Aggregate展开Aggregate Data对话框如图4-19所示图4-19 Aggregate Data对话框 2在左侧的源变量框中选择一个或多个变量作为分类变量进入分类变量(Break Variable[s])框中 3在左侧的源变量框中选择一个或多个变量作为要求汇总的变量进入汇总变量 (Aggregate Variable(s))框中即要求对这些变量的值进行分类汇总 4 name & label (名称与标签)单击此按钮可以修改组合后所生成的新变量的名称以及标签如图4-20所示可以在Name后面的矩形框中输入新变量名在Label后面的矩形框中输入新变量的标签单击Continue按钮继续图4-20 Aggregate Data Variable Name and Label对话框如果不选择该选择项则系统对每个新变量赋予的变量名均为对应的原始变量名后面加下划线和数字1 5 Function函数选择此项可以确定汇总变量的描述内容系统的默认函数为平均数单击此按钮展开Aggregate Data: Aggregate Function对话框如图4-21所示 (1) 一组包括八个单选项两个可以并列选择的选择项八个单选项中只能择其一 Mean of values 源变量分组中的算术平均数 Fist Value 源变量分组中的第一个观测值 Last value 源变量分组中的最后一个观测值 Number of cases 源变量分组中加权观测量的数目 Standard deviation 源变量分组中的标准值 Mininum value 源变量分组中最小的观测值 Sum of values 源变量分组中所有观测量的和 Maximum Value 源变量分组中最大的观测值图4-21 Aggregate Data Aggregate Function对话框两个并列选择项是 Missing 源变量分组中缺失值的数目 Unweighted 源变量分组中未加权的观测量的数目如果Missing没有被选择则此选择项显示源变量中未被加权的缺失的数目 (2) 二组位于对话框左下角的矩形框中包括四个单选项只要选择某个选择项激活该组的Value选择项在其后的矩形框中输入一个值 Percentage abve 在源变量分组中观测值大于设定值的观测量数占该组总数的百分数 Percentage below 在源变量分组中观测值小于设定值的观测量测量数占该组总数的百分数 Fraction above 确定在源变量中的观测值大于设定值的比率 Fraction below 确定在源变量中的观测值小于设定值的比率 (3) 第三组位于对话框右下角的矩形框中包括四个单选项只要选择某个选择项激活该组的Law和Hight选择项在其后的矩形框中各输入一个值Law值应该小于Hight值 Percentage inside 确定在Law~Hight之间的观测值的百分数 Percentage outside 确定在Law~Hight之外的观测值的百分数 Fraction inside 确定在Law~Hight之间的观测值的比率 Fraction outside 确定在Law~Hight之外的观测值的比率选择函数完成后单击Continue按钮返回主对话框 6 Save number of cases in break group sa variable选择此项各分组的观测量的数目作为一个新的变量保存在生成的新数据文件中在接下来的框中键入你为该变量取的变量名 7关于生成变量的存储参照3.5.1小节 8 Create new data file选择此项新变量存储与新文件中选择此项激活File 按钮单击File按钮展开对话框在对话框中指定保存新数据文件的存储路径和文件名操作与打开数据文件的操作相同单击Continue按钮返回主对话框指定的数据文件的文件名和存储路径显示在File按钮后面 Replace working data file选择此项包含汇总变量的新数据文件替代当前工作文件 9单击OK按钮执行汇总功能 4.3 对数据进行变换和计算 4.3.1 Compute 的概念菜单Transform的Compute”命令项是一个在统计分析中经常要用到的功能例如分析变量x y的线性相关性时我们发现x y并不线性相关但我们若将y进行对数变换得到一个新变量z则有可能重新发现x z是具有某种相关性的通过这种变换我们将非线性问题线性化这是数学中的一个非常重要的思想变量的变换和计算是基于其他变量的数值转换的利用Compute过程我们至少可完成以下四个方面的工作 1计算数值型或字符型变量的值 2创建新变量或取代已存在的变量对于新变量依然可以指定变量的类型和标识 3在一定的逻辑条件下有选择地计算数据子集的值 4可以使用近70种已建立好的函数功能如数值函数统计函数分布函数字符函数等等进行变量的计算和转换 4.3.2 Compute 过程打开数据文件如图4-6所示从Transform ? Compute进入Compute Variable对话框如图4-22所示图4-22 Compute Variable对话框例如我们要实现对变量x1取常用对数然后再乘以10新得到的变量称为x4具体操作如下在Functions栏中已有的功能函数中选择LG10[numexpr]点击向上的箭头按钮将此函数放入Numeric Expression栏中在左侧的变量名栏中选择变量x1点击向右的箭头按钮将x1放入Numeric Expression栏中这样Numeric Expression栏的表达式变为LG[x1] 将光标移至表达式前面用鼠标点击对话框中间的面板上的按钮1 0和*得到表达式10*LG[x1]如图4-23所示图4-23 输入表达式后的Compute Variable 点击OK按钮得到新的数据文件如图4-24所示图4-24 新得到的数据文件若要在某一逻辑条件式下对数据的某一子集进行计算或变换在图4-22或图4-23 中点击If按钮弹出Compute Variable If对话框如图4-25所示图4-25 Compute Variable If对话框 Include all cases包括所有变量和观测量(或称之为病例)系统默认值 Include if case satisfied conditions包括符合条件的观测量或称之为病例在其下的方框中输入表达式方法同在Numeric Expression栏中输入表达式的方法思考题 1将下列表格中的数据输入到数据编辑窗口中并保存为数据文件然后将其行列转置变为如下形式 2选择一组大量数据要求变量不少于三个病例(观测量)不少于30进行数据分类汇总 3选择题1中的subject变量对其进行自然对数变换并保存变换后的数据第 5 章统计分析功能概述导言从本章开始系统的进入SPSS的统计分析方法本章主要是对SPSS常用的一些数值分析功能进行系统的介绍由于在下面的章节中还要对各种方法进行更为具体详细的介绍和阐述因此本章只进行简要介绍读者从本章中还能了解到各种方法的基本概念这对于使用SPSS软件而言已经足够另外本章还简要介绍了SPSS强大的图形功能 5.1 SPSS 统计功能概述前面介绍了SPSS的基本操作目的就是要为SPSS的统计分析服务数值分析过程可在Analyze中得到通过菜单Analyze中的各个过程可对数据进行分析而在Graphs 菜单中可调用各种统计图形分析过程绘制各种统计图形以便于理解结果按由易到难由简单到复杂的顺序分类SPSS的统计功能可分为三类 1基础统计包括描述性统计探索性统计列联表分析线性组合测量t检验单因素方差分析多重响应分析线性回归分析相关分析非参数检验等等 2专业统计包括判别分析因子分析聚类分析距离分析可靠性分析等等 3高级统计分析包括Logistic回归分析多变量方差分析重复测量方差分析多协变量方差分析非线性回归Probit回归分析Cox回归分析曲线估计等等由于上述功能涉及内容复杂繁多故而不可能面面俱到本书只选择常用的功能加以阐述对于不常用的一些功能读者可查阅帮助和根据本书介绍的其他功能举一反三加以掌握 5.2 SPSS数值分析过程点击菜单Analyze进入下拉菜单如图5-1所示从图5-1可以看出SPSS的数值分析过程主要由以下功能组成 1 Reports报告功能 2 Descriptives Statistics描述性统计分析 3 Compare Means比较均值分析 4 General Linear Model一般线性模型分析 5 Correlate相关分析 6 Regression回归分析 7 Loglinear对数线性模型分析 8 Classify聚类分析 9 Data Reduction简化数据处理主要是因子分析图5-1 Analyze的下拉菜单 10 Scale比例分析 11 Nonparametric Tests非参数检验 12 Survival生存分析 13 Multiple Response多重响应分析 5.2.1 Reports 包含的分析功能从Analyze ? Report再进入下一级菜单如图5-2所示图5-2 Reports下一级菜单从图5-2可以看出Reports分析包含的分析功能有 1 OLAP Cubes过程 OLAP(Online Analytical Processing)Cubes过程按分类变量对连续变量计算其总数均数和其他单变量的统计量一个分类变量值在表格中生成一个分层 2 Case Summaries过程该过程按分类变量值分类然后计算其他变量细分组的统计量 3 Report Summaries in Rows过程该过程按行格式显示指定范围内的指定的综合描述统计量 4 Report Summaries in Columns过程该过程按列格式显示在指定范围内计算的指定的综合描述统计量 5.2.2 Descriptives Statistics 包含的分析功能从Analyze ? Descriptives Statistics再进入下一级菜单如图5-3所示图5-3 Descriptives Statistics下一级菜单从图5-3可以看出Descriptives Statistics分析包含的分析功能有 1 Frequencies过程 SPSS for Windows数值分析过程均包含在Analyze的下拉菜单中该过程可以作单变量的频数分布表显示数据文件中由用户指定变量不同值发生的频数还可以用来获得某些描述统计量和描述数值范围的统计量 2 Descriptives过程该过程可以计算单变量的描述统计量例如可以计算商店顾客的平均收入并可以查看围绕这个平均值变换的范围有多大或计算高于或低于增均值的某个范围内有多少个观测量如果要求对观测量进行分组分析,可以事先使用Split File功能拆分数据文件,或是使用 Means 或Explore功能进行分析 3 Explore过程该过程用于计算指定变量的综合描述统计量它既可以对观测量整体分析也可以进行分组分析从这个过程可以获得箱线图直方图正态检验频数表等统计方法来表明和检验连续变量的数值分布情况该过程可以完成对观测量按两个以上分类的变量值组合分组计算描述统计量和描绘统计图 4 Crosstabs过程列联表过程可以作为两变量或多变量的各水平组合的频数分布表又称为频数交叉表或简称为交叉表计算综合描述统计量并进行检验通常选择分类变量或者选择离散变量做交叉表 5.2.3 Compare Means 包含的分析功能从Analyze ? Compare Means再进入下一级菜单如图5-4所示图5-4 Compare Means下一级菜单从图5-4可以看出Compare Means分析包含的分析功能有 1 Means过程该过程对指定的变量进行单变量的综合描述统计量的计算它可以对指定的变量进行分组分析分组是按分类变量对其他变量进行的分类 2 One-Sample T Test过程该过程对样本与总体均值进行比较检验样本均值是否来自己知均值的总体 3 Independent-Samples T Test过程该过程进行独立样本T检验即检验两个相关的样本是否来自具有相同均值的总体如果分组多于两个要对它们的均值进行比较应该选用One-Way ANOVA过程如果两组之间彼此不独立例如想比较培训前后职工的工作效率应该选用Paired -Samples T Test菜单项如果想要进行比较的变量明显是非正态分布时应该考虑使用Nonparametric Tests中的某个功能进行分析如果想要进行比较的变量是分类变量则应该使用Crosstabs 功能作交叉表进行卡方检验 4 Paired-Sample T Test过程该过程对配对样本进行T检验即检验两个相关样本是否来自均值相等的总体相关或配对样本常常是对同一个观测对象在试验前和试验后观测的结果 5 One-Way ANOVA过程该过程进行一维方差分析即单变量方差分析检验几个(两个以上)彼此独立的组是否来自均值相同的总体例如可以根据体重减轻的重量检验三种训练方案对减肥的作用是否有显著性差异或者查看哪一组效果比其他各组更明显或者检验同一个训练方案对不同性别的人减肥效果是否相同 5.2.4 General Linear Model 包含的分析功能从Analyze ? General Linear Model再进入下一级菜单如图5-5所示图5-5 General Linear Model下一级菜单从图5-5可以看出General Linear Model分析包含的分析功能有 1 Univariate过程该菜单项调用ANOVA(方差分析)过程进行单因变量多因素的回归分析和方差分析可以指定协变量进行协方差分析还可以指定一种分解偏差平方和方法在单因素设计中检验每个因素单独的效应和交互效应该过程允许用户指定高阶交互效应并建立包括低于和等于指定阶次的所有阶次的模型如果只想在模型中包括某些特定阶次的交互效应应该使用Univariate分析过程如果只考虑一个因素检验一个因素各水平上的均值差异是否有统计意义应该使用One-Way ANOVA菜单项调用相应的分析过程进行单因素方差分析 2 Multivariate过程该过程属于高级统计模块中的分析过程它进行有两个或多个相关因变量的方差和协方差分析多变量方差分析检验相互有关的因变量集与一个或几个因素或分组变量之间的关系假设仅在当有两个或两个以上相关的因变量时才可以选择这个过程进行多变量方差分析如果只有一个因变量或是虽然有两个以上的因变量当它们彼此之间不相关则不能选择这个过程而应该使用Univariate过程如果在同一个课题中的几种不同情况下测定同一个因变量应该使用Repeated Measure过程进行方差分析 3 Repeated Measures过程该过程属于高级统计模块中的分析过程当每个被研究对象的同一个因变量在不止一种条件下测定时它可用于检验因变量的均值的假设例如每个受试者进行三项训练并在每次训练后测试心率比较三项训练对心率的影响又例如测定每个受试者在强应激刺激弱应激刺激的一种情况下进行工作可以检验应激刺激和强化效应的假设和应激刺激与强化交互效应的假设受试者也可分为相互独立的组别如男性或女性或工作的类型那么可以检验有关组间变量效应或组内变量效应以及它们之间交互效应的假设 4 Variance Components过程该过程估测混合效应模型中每个随机效应对因变量的贡献可以用于诸如裂区设计随机区组设计的混合模型分析 5.2.5 Correlate 包含的分析功能从Analyze ? Correlate再进入下一级菜单如图5-6所示图5-6 Correlate下一级菜单从图5-6可以看出Correlate分析包含的分析功能有 1 Bivariate过程该过程计算Pearson积矩相关矩阵和Kendall Speaman非参数相关同时计算相关的显著性水平并根据选择计算单变量的统计量相关系数用数字表示两个变量之间线性相关的程度Pearson相关系数仅用于计算等间隔测度的变量或表示比例水平的变量Spearman 和Kandall相关系数是非参测度对数据包含有奇异值或当变量的分布为非正态时这两种相关测度特别有用这两种相关系数是根据变量值的秩计算的 2 Partial过程该过程在校正了一或几个附加变量的影响情况下计算两个变量间的相关系数如果需要根据一组自变量的值预测因变量的值可以使用Linear Regression过程如果没有需要控制的变量可以使用Bivariate Correlation过程标称变量不能用于偏相关分析 3 Distance过程 Distance距离分析过程过程属于专业统计模块中的分析过程它计算许多相似度或非相似度相似性测量用大值表明很相似小值表明有很少相似非相似性测量估计两个观测量的距离和非相似度大的非相似性须考虑数据的特性特定的测量可用于等间隔测度的数据频数和二分数据还必须决定是否对原始数据或距离测度数据进行标准化如果要根据相似性或非相似性测量将观测量分类应该使用Cluster过程 5.2.6 Regression 包含的分析功能从Analyze ? Regression再进入下一级菜单如图5-7所示图5-7 Regression下一级菜单从图5-7可以看出Regression分析包含的分析功能有 2-Stage Least Squares过程 1 Liner过程该过程用于确定一个因变量和一组自变量之间的关系自变量和因变量二者都必须是连续变量(即等间隔测度的)如果你已收集了大量的自变量并希望建立一个只包括与因变量关系有统计意义的变量的回归模型可以选择一种变量选择方法来选择自变量要想观察该过程建立的模型与数据拟合得如何可以检验残差和该过程提供的其他诊断方法如果因变量是二分变量即变量仅有两个相反的取值例如一个特定任务是否完成雇员合同是否到期是否患病生或死等等那么应该选择Logistic回归如果因变量是删截变量例如手术后的生存时间应该选用 Life Tables Kaplan-Meier过程或比例机遇过程 2 Curve Estimation过程 Curve Estimation曲线估计过程以曲线直线化原理按最小二乘法拟合曲线方程该过程生成曲线估计回归统计量和相关的11种曲线估计回归模型图形 3 Binary Logistic过程该过程属于高级统计模块中的分析过程它用于估计因变量来为二分变量的回归模型例如可以使用Logistic回归根据钢锭的加热时间和保温时间来估计是否可以热轧的回归方程或者可以根据患者的特征疾病的严重程度估计患者将死亡的概率还可以使用一种可变的选择方法来指定一个与所关心的结果有关联的自变量子集该过程还具有很多诊断方法可以用于估计模型拟合度并标识影响点如果因变量有两个以上分类值可以使用Discriminant过程确定变量这对分配观测量到各个分组是有用的如果因变量是连续变量可以使用Linear过程从一组自变量预测因变量的值 4 Multinomial Logistic过程该过程属于高级统计模块中的分析过程它用于估计因变量为多分变量的回归模型可以对一组预测值进行分类该过程与Binary Logistic过程相似但由于它不局限于二分变量故而有着更为广泛的应用 5 Ordinal过程 Ordinal 序数回归分析可以就对预测值的一系列序数响应的交互性进行建模这些预测值可以是因变量和协变量的观测值 6 Probit过程该过程属于高级统计模块中的分析过程它完成概率分析这种分析测度刺激强度与响应比之间的关系例如可以使用该过程确定植物死亡的比率与施用杀虫剂的强度之间的关系或者检查购买某产品的人的比例与给予奖励刺激的力度之间的关系仅当所研究的响应是诸如买/不买生/死这样的二分变量而且几组研究对象暴露在不同水平的刺激下时应该选用这个过程对每种刺激水平数据必须包括总暴露数和总响应数如果响应变量是二分变量但没有自变量相同值的观测量分组那么应该选用该过程 7 Nonlinear过程该过程是高级统计分析模块中的分析过程它可以估计非线性回归模型包括被限定的模型如果知道一个其参数是要估计的方程并且方程不能写成参数乘以自变量的某些函数的和的形式应该使用非线性回归过程在非线性回归分析过程中参数是通过迭代获得的如果这个方程是线性的或者可以转换成线性方程应该选用Linear回归过程 8 Weight Estimation过程该过程属于专业统计模块中的过程它可以估计带有表明观测精度的不等权数的线性回归模型如果因变量的方差不是对所有自变量的值均是一个常数时与因变量方差成反比的权重可以被并入分析中这样会得到比较好的分析结果如果已知每次观测的权重可以使用线性回归过程获得加权最小加权平方解线性回归过程提供了大量诊断统计方法这些统计法有助于评价回归模型对数据的拟合 9 2-stage Least Squares过程该过程属于专业统计模块中的分析过程它可以完成二阶最小平方回归在模型中误差项与预测值有关联例如建立一个对产品要求作价格广告费用材料成本和某些经济指标的函数模型可以发现模型的误差项与一个或多个自变量有关二阶最小平方可以估计这样的回归模型 5.2.7 Loglinear 包含的分析功能从Analyze ? Loglinear再进入下一级菜单如图5-8所示图5-8 Loglinear下一级菜单从图5-8可以看出Loglinear分析包含的分析功能有 1 General过程该过程是高级统计模块中的分析过程它是用最大似然法估计一般对数线性模型的参数检验其效应对数线性模型用数认定分类变量间的关系例如建立对数线性模型去研究政治团体成员人数种族地域和社会经济学状况之间的关系对数线性回归分析的起始点是多维交叉表如果在分析中一个分类变量作为因变量可以使用该过程进行分析如果要建立分层对数线性回归模型可以使用Model Selection过程Model Selection 拟合分层对数线性模型参数估计可用于渗透模型 2 Logit过程该过程用于检查一个分类因变量和一个或几个分类自变量间的关系便如探查对工作的满意程度与种族性别以及工种之间的关系或者检查对妇女工作的看法与回答问题者受教育水平年龄和收入等级之间是否有关该过程分析的起始点是所有分类变量的多维交叉表如果因变量是二分变量有关的几个自变量是连续变量应该考虑使用Logestic回归过程如果想检查一组分类变量之间的关系当它们中的一个变量被设置成因变量时应该考虑使用General和Model Selection两种对数线性回归 3 Model Selection过程该过程用于建立多维交叉表中变量间关系的模型例如在受教育水平工作满意程度婚姻状况和性别的交叉表中可以观测是否存在着变量间的交互作用或它们是否彼此独立使用分层分析过程帮助识别模型中具有统计意义的重要项目如果希望建立非分层的对数线性模型可以使用General Loglinear过程如果能指定一个分类变量作为因变量可以使用Logit过程进行分析 5.2.8 Classify 包含的分析功能从Analyze ? Classify再进入下一级菜单如图5-9所示图5-9 Classify下一级菜单从图5-9可以看出Classify分析包含的分析功能有 1 K-Means Cluster过程 K-Means Cluster过程使用一种可以处理大量观测量聚类算法的完成聚类分析执行快速样本聚类使用K均值分类法对观测量进行聚类可以完全使用系统默认值执行该命令也可以对聚类过程设置各种参数进行人为的干预 2 Hierarchical Cluster过程此过程可完成系统聚类分析在系统聚类分析中用户事先无法确定类别数系统将所有例数均调入内存且可执行不同的聚类算法系统聚类分析有两种形式一是对研究对象本身进行分类称为Q型聚类另一种是对研究对象的观察指标进行分类称为R型聚类 3 Discriminant过程 Discriminant过程根据已知的观测量分类和表明观测量特征的变量值推导出判别函数并把各观测量的自变量值回代到判别函数中根据判别函数对观测量所属类别进行判别对比原始数据的分类和判别函数所判的分类给出错分概率判别分析可以根据类间协方差矩阵或类内协方差矩阵进行 5.2.9 Data Reduction 包含的分析功能从Analyze ? Data Reduction 再进入下一级菜单Factor如图5-10所示图5-10 Data Reduction下一级菜单从图5-10可以看出Classify分析包含的分析功能只有Factor因子分析调用Data Reduction菜单的Factor过程命令项可对多指标或多因素资料进行因子分析因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系即将相关比较密切的几个变量归在同一类中每一类变量就成为一个因子(之所以称其为因子是因为它是不可观测的即不是具体的变量这与上一章的聚类分析不同)以较少的几个因子反映原资料的大部分信息 5.2.10 Scale 包含的分析功能从Analyze ? Scale 再进入下一级菜单如图5-11所示图5-11 Scale下一级菜单从图5-11可以看出Classify分析包含的分析功能有 1 Reliability Analysis可靠性分析过程该过程通过计算一些诸如Cronbach’s alpha等级普通可靠性的度量来完成加性等级的项目分析当有一个通过求对独立项目响应而得到的等级就可以了解这些项目的相关程度例如如果设计了一个比例这个比例通过观察老年人完成各种日常生活事务来度量他们的人体能力最后了解所有的事务是否与组成的分数相关可以观察度量项目和等级的其项目之间的相关还可以将测验分成两部分并计算它们的相关也可以计算可靠系数这个系数度量等级项目之间有多大的彼此相关所有的这些统计都在Reliability Analysis过程中 2 Multidimensional Scaling多维比例分析过程该过程代表多维空间的对象从配对对象之间的相似性和距离方阵估计对象的位置该过程可用于观察政治侯选人消费产品相似或距离配对矩阵的任何类型的对象选择对象之间的地理距离是由于这对对象的相似性和距离之间可能有很强的关系SPSS中有很多不同类型的多维等级分析 5.2.11 Nonparametric Tests 包含的分析功能从Analyze ? Nonparametric Tests再进入下一级菜单如图5-12所示图5-12 Nonparametric Tests下一级菜单从图5-12可以看出Nonparametric Tests分析包含的分析功能有 1 Chi-square test卡方检验该过程用于检验落入几个互不相交组的观测量数目相对比例的假设例如有六种不同品牌的谷物要检验有意购买这六种品牌谷物的人数相等的假设可以统计购买每种品牌谷物的人数根据这六个统计到的数字使用本过程检验这一假设每一分类组中的期望比例可以不相等还可以指定任何想要检验的假设比例 2 Binomial test 二项分布检验该过程用于检验的假设是一个来自二项分布的总体的变量具有指定事件发生的概率该变量只能有两个值例如检验组装生产线上一种工件的废品率为1/10即P=0.1 可以抽取300个工件查看并记录每个工件是否是废品使用本过程检验这个概率 3 Run test游程检验该过程用于检验二分变量的两个值是否是随机序列发生游程检验仅适用于在数据文件中观测量的顺序为有意义的情况例如你正监测从生产线上下来的工件是正品还是废品使用游程检验去观察废品是否集中 4 1-Sample K-S test一个样本柯尔莫哥洛夫一斯米诺夫检验该过程用于检验一个样本是否来自一种指定的分布可以对照一致分布正态分布或 Poisson分布进行检验例如可以检验彩票号码的分布是一致分布另一种正态性检验可以使用Summarize子菜单中的Explore过程在Graphs菜单中的P-P图和Q-Q图也可以用于检验正态分布的假设 5 2 Independent Samples test两个独立样本检验该过程用于比较一个变量在两个不相关的组中的分布Mann-Whitney的U检验是两个样本的t检验之一等级代替数据的实际值Kolmogorov-Smirnow检验是基于两组被观测累积分布之间的差分Wald-Woflowits游程检验从小到大排序数据的值然后根据组号进行游程检验极值反应的Moses检验常用于检验两组之间的极差 6 K Independent Samples test多个独立样本检验该过程用于比较一个变量在两个或两个以上组别之间的分布Kruskal-Wallis检验一种等级替换数据实际值的单因素方差分析中位数检验计算每组高于和低于混合中位数的观测量数目然后进行卡方检验 7 2 Related Samples test两个相关样本检验该过程用于比较两个相关变量的分布Wilcoxon检验和符号检验是一种非参数的配对样本t检验Wilcoxon检验比符号检验效率高 8 K Related Samples test多个相关样本检验该过程用于比较两个或两个以上相关变量的分布Friedman检验是一种非参数单因子反复度量的方差分析当对一个被测试对象在不同情况下用相同测量时可以用这个检验例如请每个顾客对5种产品的满意度做等级评判时再用Friedman检验比较顾客对这5 种产品的满意度 5.2.12 Survival 包含的分析功能从Analyze ? Survival再进入下一级菜单如图5-13所示图5-13 Survival下一级菜单从图5-13可以看出Survival分析包含的分析功能有 1 Life Tables过程调用此过程时系统将采用即寿命表分析法完成对病例随访资料在任意指定时点的生存状况评价 2 Kaplan-Meier过程调用此过程系统将采用Kaplan-Meier方法对病例随访资料进行生存分析在对应于每一实际观察事件时点上作生存率的评价 3 Cox Regression过程调用此过程可完成对病例随访资料中事件发生时点与一系列相关独立变量之间关系的评价即建立Cox回归模型(亦称比例风险模型) 4 Cox w/Time-Dep Cov过程在时间函数是一个或一个以上的自变量时该过程执行COX回归例如一个有意义的自变量的收缩血压和在研究期间每个患者每个月的收缩压读数收缩血压是一个有关时间的协变量与此相同如果想要使用患者目前的年龄作为自变量年龄是一个与有关时间的协变量(如果仅用诊断的年龄那么年龄就不是一个时间因变量的协变量) 5.2.13 Multiple Response 包含的分析功能从Analyze ? Multiple Response再进入下一级菜单如图5-14所示图5-14 Multiple Response下一级菜单从图5-14可以看出Multiple Response分析包含的分析功能有 1 Define Sets过程该过程指定变量组成一个多重响应或多重两分数集并应用于频数表和交叉列表 2 Frequencies过程该过程对定义的多重响应或多重两分数提供一个频数表 3 Crosstabs过程该过程提供带有另一种变量的已定义的多重或多重两分数据集交叉表 5.3 SPSS 图形分析过程点击Graphs菜单进入下拉菜单如图5-15所示由图5-15可以看出SPSS的统计图形可分为以下几类 1条形图(Bar Charts) 2线图(Line Charts) 3面积图(Area Charts) 4圆图(Pie Charts) 5高低图(High-Low Charts) 6直条构成线图(Pareto Charts) 7质量控制图(Control Charts) 8箱图(Boxplots) 9误差条图(Error Bar Charts) 10散点图(Scatterplots) 11直方图(Histogram) 12正态概率分布图(Normal P-P Plots) 13正态概率单位分布图(Normal Q-Q Plots) 14普通序列图(Sequence Charts) 15 ROC曲线图(ROC Curve ) 16时间序列图(Time Series Charts) 思考题 1针对各种统计功能进入其主对话框熟悉其各种按钮和选项的形状和位置熟悉主对话框的界面 2请思考统计图的作用相对于数据结果而言它的优点和缺点是什么 3读者若愿深入了解各种统计功能的数理统计背景可参考数理统计方面的书籍图5-15 Graphs菜单项第 6 章统计描述导言统计描述只对统计数据的结构和总体情况进行描述并不能深入了解统计数据的内部规律统计描述主要分三方面的内容(1)频数分布表分析(Frequencies) (2)统计描述分析 (Descriptive) (3)平均数分析过程(Means)统计描述几乎在以后的每个过程中都用到了而平均数分析中的T检验是验证分析是否有统计意义的重要方法描述性统计分析是统计分析的第一步做好这第一步是下面进行正确统计推断的先决条件SPSS的许多模块均可完成描述性分析但专门为该目的而设计的几个模块则集中在 Descriptive Statistics菜单中最常用的是列在最前面的四个过程Frequencies过程的特色是产生频数表Descriptives过程则进行一般性的统计描述Explore过程用于对数据概况不清时的探索性分析Crosstabs过程则完成计数资料和等级资料的统计描述和一般的统计检验我们常用的X 2 检验也在其中完成 6.1 频数分布表分析(Frequencies) 频数分布表是描述性统计中最常用的方法之一Frequencies过程就是专门为产生频数表而设计的它不仅可以产生详细的频数表还可以按要求给出某百分位点的数值以及常用的条图圆图等统计图 6.1.1 界面说明 Frequencies对话框的界面如图6-1所示图6-1 Frequencies对话框该界面在SPSS中实在太普通了无须多言重点介绍一下各部分的功能 Display frequency tables复选框确定是否在结果中输出频数表 Statistics按钮单击后弹出Statistics对话框如图6-2所示用于定义需要计算的其他描述统计量图6-2 Statistics 对话框现将各部分解释如下 Percentile Values复选框组定义需要输出的百分位数可计算四分位数(Quartiles)每隔指定百分位输出当前百分位数(Cut points for equal groups)或直接指定某个百分位数 (Percentiles)如直接指定输出P2.5和P97.5 Central Tendency复选框组用于定义描述集中趋势的一组指标均数(Mean)中位数 (Median)众数(Mode)总和(Sum) Dispersion复选框组用于定义描述离散趋势的一组指标标准差(Std.deviation)方差 (Variance)全距(Range)最小值(Minimum)最大值(Maximum)标准误(S.E.mean) Distribution复选框组用于定义描述分布特征的两个指标偏度系数(Skewness)和峰度系数(Kurtosis) Values are group midpoints复选框当你输出的数据是分组频数数据并且具体数值是组中值时选中该复选框以通知SPSS免得它犯错误 Charts按钮单击弹出Charts对话框用于设定所做的统计图如图6-3所示 Chart type单选钮组定义统计图类型有四种选择无条图Bar chart圆图(Pie chart)直方图 Histogram其中直方图还可以选择是否加上正态曲线(With normal curve) Chart Values单选钮组定义是按照频数还是按百分比做图(即影响纵坐标刻度) Format按钮单击弹出Format对话框如图6-4所示用于定义输出频数表的格式不过用处不大一般不管图6-3 Frequencies Charts对话框图6-4 Frequencies Format对话框 Order by单选钮组定义频数表的排列次序有四个选项 Ascending values数值按升序从小到大的频数分布 Descending values数值按降序从大到小的频数分布 Ascending counts频数按升序从少到多的频数分布 Descending counts频数按降序从多到少的频数分布 Multiple Variables单选钮组如果选择了两个以上变量做频数表则Compare variables可以将他们的结果在同一个频数表过程输出结果中显示以便于互相比较 Organize output by variables将结果在不同的频数表过程输出结果中显示 Suppress Tables more than...复选框当频数表的分组数大于下面设定数值时禁止它在结果中输出这样可以避免产生巨型表格 6.1.2 分析实例 [例6-1] 某地25例健康男子的血清总胆固醇值测定结果如下请绘制频数表直方图计算均数标准差变异系数CV中位数M p2.5和p97.5 4.40 4.55 5.38 3.89 4.60 4.47 4.08 4.79 5.30 4.97 3.18 3.97 4.77 3.37 6.14 3.95 3.56 4.23 3.64 4.34 5.16 5.10 4.31 4.71 5.02 为节省篇幅这里只给出精确频数表的做法假设数据已经输入完毕变量名为X 具体解法如下从Analyze ? Descriptive Statistics ? Frequencies进入Frequencies对话框将x选入Variables框单击Statistics钮进入Stataistics对话框选中Mean Std.deviation Median复选框选中Percentiles在其后的方框中输入2.5单击Add输入97.5单击Add单击Continue按钮返回Frequencies对话框单击Charts按钮进入Charts对话框选中Bar charts单击Continue按钮返回对话框单击OK可得到结果得出结果后手工计算出CV 6.1.3 结果解释输出结果如下表 6-1 统计结果 N Valid Missing Mean Median Std. Deviation Percentiles 2.5 97.5 25 0 4.4752 4.4700 .6925 3.1800 6.1400 表6-1中最上方为表格名称左上方为分析变量名可见样本量N为101例缺失值0例均数Mean=4.4752中位数Median=4.4700标准差STD=0.6925 P2.5=3.1800 P97.5=6.1400 表6-2中为各病例的概况依次为该病例的频数在整个数据中所占的百分比有效百分比累计百分比系统对变量x作频数分布表此处只列出了开头部分Vaild右侧为原始值Frequency 为频数Percent为各组频数占总例数的百分比包括缺失记录在内Valid percent为各组频数占总例数的有效百分比Cum Percent为各组频数占总例数的累积百分比表 6-2 各有效病例概况 Frequency Percent Valid Percent Cumulative Percent Valid 3.18 3.37 3.56 3.64 3.89 3.95 3.97 4.08 4.23 4.31 4.34 4.40 4.47 4.55 4.60 4.71 4.77 4.79 4.97 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 8.0 12.0 16.0 20.0 24.0 28.0 32.0 36.0 40.0 44.0 48.0 52.0 56.0 60.0 64.0 68.0 72.0 76.0 (续表) Frequency Percent Valid Percent Cumulative Percent 5.02 5.10 5.16 5.30 5.38 6.14 Total 1 1 1 1 1 1 1 4.0 4.0 4.0 4.0 4.0 4.0 100.0 4.0 4.0 4.0 4.0 4.0 4.0 100.0 80.0 84.0 88.0 92.0 96.0 100.0 6.2 Descriptives过程 Descriptives过程是连续资料统计描述应用最多的一个过程它可对变量进行描述性统计分析计算并列出一系列相应的统计指标这和其他过程相比并无不同但该过程还有个特殊功能就是可将原始数据转换成标准正态评分值并以变量的形式存入数据库供以后分析 6.2.1 界面说明 Save standardized values as variables复选框确定是否将原始数据的标准正态评分存为新变量 Options钮弹出Options对话框大部分内容均在前面Frequencies过程的Statistics对话框中见过只有最下方的Display Order单选钮组是新的可以选择为变量列表顺序字母顺序均数升序或均数降序 6.2.2 结果解释下面是一个典型的Descriptives过程结果统计表表 6-3 Descriptives 过程结果统计表 N Minimum Maximum Mean Std.Deviation X Valid N(Listwise) 25 25 3.18 6.14 4.4752 .6925 这里的大部分内容都在上一节见过因此就不再多解释了讲了两个过程也许大家已经发现结果中的统计专业单词多数在对话框中就已经出现因此我们以后会详细解释对话框的内容结果中相同的单词不再重复解释 6.3 平均数分析Means 知道吗在计算机领域中有个著名的80/20规则即奔腾及更早的CPU所采用的CISC 指令集中有80%的任务是被20%的最常用指令所完成的换言之另外80%的复杂指令只完成20%的不常用任务好了言归正传现在我要非常高兴地向大家宣布80/20规则在SPSS的使用中同样有效仅以Analyze菜单为例其中最常用的子菜单为 Discriptive Statistics Compare Means General Linear Model(第一项) Correlate Regression(前半截) 只要掌握了它们的使用秘籍你就可以理直气壮地宣称你已经可以用SPSS解决80% 的统计学难题了在以上五个菜单中Compare Means是最简单的一个但使用频率却几乎最高下面让我们大家一起踏上学习Compare Means之旅该菜单集中了几个用于计量资料均数间比较的过程具体有 Means过程对准备比较的各组计算描述指标进行预分析也可直接比较 One-Samples T Test过程进行样本均数与已知总体均数的比较 Independent-Samples T Test过程进行两样本均数差别的比较即通常所说的两组资料的t检验 Paired-Samples T Test过程进行配对资料的显著性检验即配对t检验 One-Way ANOVA过程进行两组及多组样本均数的比较即成组设计的方差分析还可进行随后的两两比较 6.3.1 Means 过程和上一章所讲述的几个专门的描述过程相比Means过程的优势在于各组的描述指标被放在一起便于相互比较并且如果需要可以直接输出比较结果无须再次调用其他过程这显然要方便的多Means过程的主对话框如图6-5所示图6-5 Means对话框 1界面说明 Dependent List框用于选入需要分析的变量 Independent List框用于选入分组变量 Options按钮单击之弹出Options对话框选择需要计算的描述统计量和统计分析 Statistics框可选的描述统计量它们是 sum number of cases 总和记录数 mean, geometric mean, harmonic mean 均数几何均数修正均数 standard deviation variance standard error of the mean标准差均数的标准误方差 median, grouped median 中位数频数表资料中位数 minimum maximum range 最小值最大值全距 kurtosis, standard error of kurtosis 峰度系数峰度系数的标准误 skewness, standard error of skewness 偏度系数偏度系数的标准误 percentage of total sum, percentage of total N 总和的百分比样本例数的百分比 Cell Statistics 框用于选入的描述统计量 Statistics for First layer 复选框组有如下两组 Anova table and eta 对分组变量进行单因素方差分析并计算用于度量变量相关程度的 eta值 Test for linearity 检验线性相关性实际上就是上面的单因素方差分析 2结果解释有了上几节的基础Means过程的输出看起来就不太困难了以3.2.4小节的数据为例输出如下表 6-4 病例处理概况 Cases Included Excluded Total N Percent N Percent N Percent Y*X1*X2*X 12 100.0% 0 .0% 12 100.0% 表6-4还是缺失值报告表 6-5 统计报表 X1 X2 X3 Mean N Std.Deviation 69.00 .70 Total 1600.0000 1600.0000 1 1 35.00 Total .70 Total 1600.0000 1600.0000 1 1 37.00 66.00 2.00 Total 1600.0000 1600.0000 1 1 续表 X1 X2 X3 Mean N Std.Deviation 37.00 72.00 1.10 Total 2400.0000 2400.0000 1 1 Total 1.10 2.00 Total 2400.0000 1600.0000 2000.0000 1 1 2 565.6854 72.00 2.50 Total 2200.0000 2200.0000 1 1 38.00 Total 2.50 Total 2200.0000 2200.0000 1 1 74.00 2.50 3.00 Total 2600.0000 2650.0000 2625.0000 1 1 2 35.3555 40.00 Total 2.50 3.00 Total 2600.0000 2650.0000 2625.0000 1 1 2 35.3555 为了节省篇幅表6-5只是结果的一部分常用统计描述量报表这里按默认情况输出均数样本量和标准差由于我们选择了分组变量因此三项指标均给出分组及合计值以这种方式列出统计量可以非常直观地进行各组间的比较 6.3.2 T 检验 T Test 过程 T 检验是常用的统计工具在第八章将详细介绍这里只作粗略介绍 One-Samples T Test过程用于进行样本所在总体均数与已知总体均数的比较可以自行定义已知总体均数为任意值 Independent-Samples T Test过程用于进行两样本均数的比较即常用的两样本t检验 Paired Samples T Tests过程用于进行配对设计的差值均数与总体均数比较的t检验对统计学比较熟悉的朋友可以看出他的功能实际上是和One-Samples T Test过程相重复的 (等价于已知总体均数为0的情况)但Paired-Samples T Test过程使用的数据输入格式和前者不同即我们所称的统计表格格式因此仍然有存在的价值 One-Way ANOVA过程用于进行两组及多组样本均数的比较即成组设计的方差分析如果做了相应选择还可进行随后的两两比较甚至于在各组间精确设定哪几组和哪几组进行比较思考题 1对下列数据进行频数分布表分析 2求出上述数据表格中变量Spvol的平均值标准差标志误等统计描述量第 7 章相关分析导言相关分析是对自然界和社会中的两种或多种现象是否相关进行分析的方法这种统计分析方法对我们大家来说都比较熟悉有时在实际工作中也在自觉或不自觉地用到本章的特点是 (1)系统的介绍相关分析方法 (2)介绍了两种不常用的相关分析偏相关分析和距离分析 (3)备有大量的示例和实例读者甚至不必完全了解和熟悉 SPSS 的使用方法只需进行简单的依照例题模仿便可得出想要的结论这给那些时间紧张的读者提供了极大的方便从哲学上说任何事物的存在都不是孤立的而是相互联系相互制约的但是怎样判断不同因素 (或称之为变量 )间是否存在较为密切的关系这个关系到底密切到什么程度数学上用相关分析定量来说明这个问题利用 SPSS 作不同变量间的相关分析非常方便 7.1 相关分析的概念与相关分析过程 7.1.1 相关分析的基本概念相关分析是研究不同变量间密切程度的一种十分常用的统计方法大家对相关系数一定不陌生它是描述两个变量间的线性关系程度和方向的统计量涉及相关系数的数学工具是线性相关分析又称直线相关分析它研究两个变量间的线性程度相关系数通常用 r 表示它没有单位其值在 -1~+1 之间 r 等于 +1 或 -1 时其中一个变量记为 Y 可以确切地用另一变量记为 X 的线性函数来表示 r 的绝对值越接近 1 则变量 X Y 间线性相关的程度就越大若变量 Y 随着变量 X 的增减而增减即两变量变化的方向一致则这种相关称为正向相关 r 大于零若变量 Y 随着变量 X 的增加而减少变化方向相反则称为负相关 r 小于零若 r 等于零则可认为变量 X Y 不是线性相关由于我们通常是通过抽样方法利用样本研究总体的特性但是由实际情况抽样而得到的数据总存在抽样误差即样本中两变量间相关系数不为 0 不能说明总体中两个变量间的相关系数不是 0 同样样本中两变量间相关系数不为 0 也不能保证实际中这两个变量不相关因此相关分析必须通过检验检验的假设是总体中两个变量间的相关系数为 0 SPSS 的相关分析过程给出该假设成立的概率一般的我们给出假设成立概率 p 的域值为 5 当概率 p 小于 5 时则认为原假设不成立否则接受原假设认为总体两变量相关系数为 0 另外在 SPSS 的相关分析过程的输出中还给出相关系数的值偏相关分析是相关分析中的重要部分它主要用在当控制了一个或几个变量的影响下两变量间的相关性例如可以控制体重影响作用对人的身高与肺活量进行偏相关分析 7.1.2 相关分析的功能和应用变量之间有关但是又不能由一个或几个变量值去完全和唯一确定另一个变量值的这种关系称为相关关系相关关系是普遍存在的函数关系仅是相关关系的特例值得注意事物之间有相关关系不一定是因果关系也可能仅是伴随关系但如果事物之间有因果关系则两者必然相关相关关系多种多样归纳起来有六种类型 1 强正相关关系其特点是一变量 X 增加导致另一变量 Y 明显增加说明 X 是影响 Y 的主要因素 2 弱正相关关系其特点是一变量 X 增加也导致另一变量 Y 增加但不明显说明 X 是影响 Y 的因素但不是唯一因素 3 强负相关关系其特点是 X 增加导致 Y 明显减少说明 X 是影响 Y 的主要因素 4 弱负相关关系其特点是一变量 X 增加也导致另一变量 Y 减少但不明显说明 X 是影响 Y 的因素但不是唯一因素 5 非线性相关关系其特点是 X Y 之间虽然没有通常所指的那种线性关系却存在着某种非线性关系说明 X 仍是影响 Y 的因素 6 不相关关系其特点是 X Y 之间不存在相关关系说明 X 不是影响 Y 的因素从以上对相关关系的分析可以看出相关分析的一些功能和用途它是研究和处理变量之间相关关系的数理统计方法通过相关图的描绘和回归方程的建立可以从影响着某个变量的许多变量中判断哪些变量是显著的哪些是不显著的并可利用回归方程进行预测和控制近年来相关分析方法广泛应用于生物学心理学教育学经济学医学等各个方面相关分析对于实验数据的处理经验公式的建立管理标准的测定自然现象经济现象的统计预报自动控制中数学模型的确定等是一种应用极其有效而广泛的数理统计工具例如在一般条件下施肥量适当增加农作物收获量也会相应的提高劳动生产率提高产品成本将会下降产品价格的高低变动也会影响其销售量的大小能源的发展速度提高会促进整个工业发展的提高等等把上述例子中的施肥量劳动生产率产品的价格能源的发展速度等看作自变量而把农作物收获量产品成本销售量及整个工业发展速度可以看作因变量自变量和因变量之间是相关的 7.1.3 相关分析的应用示例下面举出一个实例来说明利用 SPSS 计算二元变量间的相关系数 [例 7-1] 分析居民非商品支出与居民文化生活服务支出的关系表 7-1 居民非商品支出与居民文化生活服务支出数据表 1:s1 2:s2 3:s3 1:s1 9999.999 9999.999 2:s2 9999.999 9999.999 3:s3 9999.999 9999.999 4:s4 9999.999 9999.999 9999.999 5:s5 9999.999 9999.999 9999.999 6:s6 9999.999 9999.999 9999.999 7:s7 9999.999 9999.999 9999.999 8:s8 9999.999 9999.999 9999.999 9:s9 9999.999 9999.999 9999.999 10:s10 9999.999 9999.999 9999.999 利用 SPSS 将上述表格数据输入数据文件从菜单 Graphs 选择 Scatter 作出 X Y 的相关图 (散点图 )(如图 7-1 所示 ) 文化生活服务支出 2.01.81.61.41.21.0 非商品支出 5.5 5.0 4.5 4.0 3.5 3.0 2.5 图 7-1 非商品支出与居民文化生活服务支出的相关图 (散点图 ) 当然读者在相关分析时也不必作出相关统计图可以直接利用相关分析功能菜单进行相关分析不过对于初学者先作相关图就能从相关统计图看出变量之间的大致关系显得更为直观这对 SPSS 计算结果的理解有帮助从菜单 Analyze ? Correlate ? Bivariate 打开双变量相关分析主对话框 ( Bivariate Correlations ) 在左侧的源变量栏中选择文化生活服务支出 [X] 非商品支出 [Y] 进入变量栏 ( Variables ) 其余使用系统默认值单击 OK 按钮运行程序双变量相关分析主对话框的界面如图 7-2 所示图 7-2 双变量相关分析主对话框得到输出结果 (如表 7-2 所示 ) 表 7-2 相关系数 Correlations 文化生活服务支出非商品支出文化生活服务支出 Pearson Correlation Sig.(2-tailed) N 1.000 . 8 .982* .000 8 非商品支出 Pearson Correlation Sig.(2-tailed) N .982** .000 8 1.000 . 9 **. Correlation is significant at the o.01 level(2-tailed). 对于上述结果解释如下 Pearson 相关系数为 0.982 P=0 应拒绝总体中这两个变量的相关系数为零的假设故可以认为居民非商品支出与居民文化生活服务支出呈强的且为正的直线相关回过头来我们看一看图 7-1 就很容易理解这一结果相关图上的变量基本上在一条直线上因而两变量是强正相关关系 7.1.4 相关分析的 SPSS 过程有了上一小节的示例作基础我们再来学习相关分析的 SPSS 过程就会事半功倍在 Analyze 下拉菜单的 Correlate 命令项具有三个相关分析功能子命令它们分别是 Bivariate Partial 和 Distance 对应于相关分析偏相关分析和距离分析 1 Bivariate 计算指定的两个变量间的相关系数可以选择 Pearson 相关 (积差相关 ) Spearman 等级相关和 Kendall 相关 (这三种不同的相关计算相关系数的公式不同有兴趣的读者可查阅统计学方面的书籍 ) 同时对相关系数进行假设检验可选择进行单尾或双尾检验给出相关系数为 0 的概率当资料不服从双变量正态分布或总体分布型未知或原始数据是用等级表示时宜用 Spearman 或 Kendall 相关 2 Partial 计算两个变量间再控制了其他变量影响下的相关系数即偏相关系数可以进行单尾或双尾检验检验的假设是偏相关系数为 0 然后给出偏相关系数为 0 的概率还可以计算其他描述统计量 3 Distance 对变量或观测值进行相似性或不相似性测度因此分析的变量可以是连续变量表频数分布的变量某些测度还可以适用于二值变量可以对原始数据和计算出的距离数据进行标准化 7.2 两个变量的相关分析多数情况下我们进行的相关分析都是在两两变量之间的这就要用到两个变量间的相关分析这比起多元变量的相关分析也要简单一些两个变量间的相关分析使用同一个命令项 Bivarate 通过选择不同的分析方法调用不同的分析过程选择哪种分析方法要看具体的数据类型对于连续变量和等级变量选择不同的分析方法有时不同的分析方法会得出迥然相异的结论 7.2.1 二元变量相关分析的基本概念二元变量的相关分析只能就两个变量之间的相关关系进行说明在 7.1.1 节中已对其阐述得较为清楚 7.2.2 二元变量相关分析的功能和应用在相关分析中平时用得最多的就是二元变量的相关分析了它所研究的是两个现象变量之间的相关关系这种关系称为单相关即这种相关关系只涉及一个自变量和一个因变量三个或三个以上现象变量之间的相关关系称为复相关这种相关涉及到一个因变量与两个以上的自变量例如同时研究亩产量与降雨量施肥量种植密度之间的关系就是复相关关系在实际工作中如果存在多个自变量与一个因变量的关系可以抓住其中最主要的因素研究其相关关系或将复相关化为单相关问题进行研究由上可见实际中二元变量的相关分析用得最为普遍只要涉及到相关分析就少不了二元变量的相关分析或者一些复杂的问题也可化简用为二元变量的相关分析问题因此二元变量的相关分析广泛应用于自然科学和一些社会科学如经济学心理学教育学等等因而对读者而言掌握好这种基本却十分常用有效的方法是非常重要的调用 Bivariate 过程命令时允许同时输入两个变量或两个以上变量但系统输出的是变量间两两相关的相关系数 7.2.3 二元变量相关分析的应用示例下面用一个例题来说明二元变量的相关分析 [例 7-2] 尽管采取了时速限制及改进路面等措施公路死亡人数仍在年复一年的上升某安全负责人相信速度与事故数有联系并从 12 个州搜集到如下资料数据如表 7-3 所示表 7-3 公路平均速度 T 与公路死亡增长百分比 Y 数据表公路平均速度 53.2 54.7 55.0 55.8 56.8 52.0 57.3 59.0 55.5 63.0 69.4 68.3 公路死亡增长百分比 5.0 5.3 7.0 8.0 9.4 11.0 11.3 12.0 15.0 17.1 23.0 25.7 将公路平均速度 T 作自变量公路死亡增长百分比 Y 作为因变量把上述表格中的数据输入到数据文件如图 7-3 所示图 7-3 公路平均速度 T 和公路死亡增长百分比 Y 相关分析的数据文件从菜单 Analyze ? Correlate ? Bivariate 打开双变量相关分析主对话框 Bivariate Correlations 如图 7-4 所示在左侧的源变量栏中选择公路平均速度 [t] 公路死亡增长百分比 [y] 进入变量栏 ( Variables ) 其余使用系统默认值 (如图 7-5 所示 ) 单击 OK 按钮运行程序图 7-4 选择前双变量相关分析主对话框图 7-5 选择后双变量相关分析主对话框输出结果如图 7-6 所示表 7-4 相关系数公路平均速度公路死亡增长百分比公路平均速度 Pearson Correlation Sig.(2-tailed) N 1.000 . 12 .900* .000 12 公路死亡增长百分比 .900** .000 12 1.000 . 12 **. Correlation is significant at the o.01 level(2-tailed). 对输出结果进行分析 Pearson 相关系数为 0.900 P=0.00 故可以认为公路平均速度 [T]和公路死亡增长百分比 [Y]之间呈强正线性相关 7.2.4 二元变量相关分析过程我们再来详细的研究二元变量相关分析的 SPSS 过程由上一小节的示例可以看出对于一个二元变量相关分析的 SPSS 过程主要包括以下三个步骤 1 建立或调用数据文件 2 选择分析变量选择项提交运行 3 输出结果和解释结果下面分开详述 1 建立或调用数据文件在 SPSS 的数据编辑器 ( SPSS Data Editor )中录入数据并加以保存即可或者打开已存在的数据文件 (后缀名为 .sav ) 2 选择分析变量选择项提交运行从菜单 Analyze ? Correlate ? Bivariate 展开双变量相关分析主对话框 Bivariate Correlations 可参见图 7-2 图 7-4 图 7-5 在图 7-4 的对话框中选中左边变量表中欲用于相关分析的变量然后鼠标点击位于左右变量表之间的向右箭头按钮或者直接双击所选中的变量将选择的变量移入 Variables 变量表中若其他的选择项采用系统默认值则可点击右上角的 OK 按钮运行此相关分析过程从主对话框可以看出来对相关系数 Correlation Coefficients 系统默认为 Pearson 即皮尔逊相关只有等间距测度的变量才使用这种相关分析对于显著性检验 Test of Significance 系统默认为双尾 T 检验 Two Tailed 该检验要求显示实际的显著性水平对于二元变量相关分析的选择项主要有两类的选择项一为在主对话框中的选择项一为 Options 对话框中的选择项 (1) 主对话框中的选择项 z 分析方法选择项主对话框中有三种相关系数对应于三种分析方法 Pearson 相关复选项积差相关计算连续变量或是等间距测度的变量间的相关分析 Kendall 复选项等级相关计算分类变量间的秩相关 Spearman 复选项等级相关计算斯皮尔曼相关对于非等间距测度的连续变量因为分布不明可以使用等级相关分析也可以使用 Pearson 相关分析对于完全等级的离散变量必须使用等级相关分析相关性当资料不服从双变量正态分布或总体分布型未知或原始数据是用等级表示时宜用 Spearman 或 Kendall 相关 z 选择显著性检验类型 Two tailed 双尾检验选项当事先不知道相关方向 (正相关还是负相关 )时选择此项 One tailed 单尾检验选项如果事先知道相关方向可以选择此项 Flag significant Correlations 复选项如果选中此项输出结果中在相关系数数值右上方使用 * 表示显著水平为 5 用 ** 表示其显著水平为 1 (2) Options 对话框中的选择项在主对话框的右下角有一个 Options 按钮单击它便进入 Options 对话框 (如图 7-6 所示 ) 图 7-6 二元变量相关分析的 Options 对话框 z 统计量选择项在 Statistics 栏中有两个有关统计量的选择项只有在主对话框中选择了 Pearson 相关分析方法时才可以选择这两个选择项选择了这些项在输出结果中就会得到样本的相应的统计量数值它们是 Means and standard deviations 为均值与标准差复选项 Cross-product deviations and covariances 为叉积离差阵和协方差阵复选项 z 缺失值处理方法选择项在 Missing Values 栏中有两个关于缺失值处理方法的选择项 Exclude cases listwise 选项仅剔除正在参与计算的两个变量值是缺失值的观测量这样在多元相关分析中或多对两两相关分析中有可能相关系数矩阵中的相关系数是根据不同数量的观测量计算出来的 Exclude cases listwise 选项剔除在主对话框中 Variables 矩形框中列出的变量带有缺失值的所有观测量这样计算出来的相关系数矩阵每个相关系数都是依据相同数量的观测量计算出来的 3 输出结果和解释结果对于输出结果可参见表 7-2 表 7-4 表中显示的数值意义如下 (1) 第一行中的数值是行变量与列变量的相关系数矩阵行列变量相同的相关系数自然为 1 (2) 第二行中的数值是相关系数为零的假设成立的概率 (3) 第三行中的数值是参与该相关系数计算的观测量数目即数据文件上数据的对数对计算结果的解释主要是考察 0 假设检验是否成立当 P 小于 1%或 5 时相关系数数值右上方使用 * 表示显著水平为 5 用 ** 表示其显著水平为 1 ) 则应拒绝相关系数为 0 的假设可以认为两个变量之间是相关的下面用几个例子来考察一下不同的相关分析方法 [例 7-3] 某地一年级 12 名女大学生的体重 kg X 与肺活量 L Y 数据如下表 7-5 试计算肺活量与体重的相关系数并检验两者间是否有直线相关关系表 7-5 体重与肺活量的数据表体重 kg 42 42 46 46 46 50 50 50 52 52 58 58 肺活量 L 2 55 2 20 2 75 2 40 2 80 2 81 3 41 3 10 3 46 2 85 3 50 3 00 由表 7-5 建立数据文件如图 7-7 所示图 7-7 体重与肺活量数据文件从菜单 Analyze ? Correlate ? Bivariate 展开双变量相关分析主对话框将变量体重 [x] 肺活量 [y] 选择进入变量栏其余使用默认值点击 OK 按钮运行程序得出的输出结果如表 7-6 所示表 7-6 相关分析结果体重肺活量体重 Pearson Correlation Sig.(2-tailed) N 1.000 . 12 .749* .005 12 肺活量 Pearson Correlation Sig.(2-tailed) N .749* .005 12 1.000 . 12 **. Correlation is significant at the 0.01 level(2-tailed). Pearson 相关系数为 0.749,P=0.005 故认为一年级女大学生体重与肺活量之间呈正的直线相关下面举出一道 Spearman 等级相关分析例题 [例 7-4] 某地在作肝癌病因研究时调查了 10 个乡肝癌死亡率 (1/10 万用 X 表示 ) 与某种食物中黄曲霉毒素的相对含量 (用 Y 表示 ) 其数据见图 7-8 所示的数据文件试作等级相关分析图 7-8 肝癌死亡率与黄曲霉毒素相对含量数据文件从 Analyze ? Correlate ? Bivariate 进入双变量相关分析主对话框将变量肝癌死亡率 [x] 黄曲霉毒素相对含量 [y] 选择进入变量栏相关系数类型中只选择 Spearman 等级相关其余使用默认值点击 OK 按钮运行程序得到的输出结果如表 7-7 所示表 7-7 Spearman 相关系数肝癌死亡率黄曲毒毒素相对含量 Spearman’s rho 肝癌死亡率 Correlation Coefficient Sig.(2-tailed) N 1.000 . 10 .745* .013 10 黄曲霉素相对含量 Correlation Coefficient Sig.(2-tailed) N .745* .013 10 1.000 . 10 *. Correlation is significant at the .05 level(2-tailed). 对以上结果的解释是 Spearman 等级相关系数为 0.745 P=0.013 相关具有统计学意义故可以认为黄曲霉毒素相对含量与肝癌死亡率间存在正相关虽然不是很强的正相关下面再给出使用 Kendall 相关方法的例题它适用于有序数据或不满足正态分布的数据 [例 7-5] 为研究平均工资与劳动生产率的关系从一总体中抽选 20 个企业而获得 20 对数据并以劳动生产率 (单位万元 /人 )为自变量平均工资 (单位元 /人 )为因变量编制成数据文件如图 7-9 所示从 Analyze ? Correlate ? Bivariate 进入双变量相关分析主对话框将变量劳动生产率 [x] 平均工资 [y] 选择进入变量栏在相关系数类型中只选择 Kendall tau-b 等级相关其余使用默认值点击 OK 按钮运行程序图 7-9 企业劳动生产率与平均工资数据文件得到的输出结果如表 7-8 所示表 7-8 Kendall 相关系数劳动生产率平均工资劳动生产率 Correlation Coefficient Sig. (2-tailed) N 1.000 . 20 .919* .000 20 Kendall’s tau-b 平均工资 Correlation Coefficient Sig. (2-tailed) N .919** .000 20 1.000 . 20 **. Correlation is significant at the .01 level (2-tailed). 对以上结果的解释是 Kendall 等级相关系数为 0.919 P=0.00 相关具有统计学意义故可以认为劳动生产率与平均工资间存在正相关下面举出一个例子试用不同的相关分析方法分析同一例题我们考察它们之间的差异 [例 7-6] 某地区 10 名健康儿童头发和全血中的硒含量 1000ppm 如下试作发硒与血硒的相关分析将发硒作为自变量 X 血硒作为因变量 Y 相关分析的数据见数据文件如图 7-10 所示并尝试输出 X Y 的均数与标准差以及 XY 交叉乘积的标准差与协方差图 7-10 发硒与血硒数据文件激活 Statistics 菜单选择 Correlate 中的 Bivariate 命令项弹出双变量相关分析 Bivariate Correlation 主对话框在对话框左侧的变量列表中选中发硒 [x] 血硒 [y] 使之进入 Variables 矩形框在相关系数类型中将 Pearson Spearman Kendall tau-b 都选上点击 Options 按钮弹出 Bivariate Correlation:Options 对话框本例尝试输出 X Y 的均数与标准差以及 XY 交叉乘积的标准差与协方差故选上 Means and standard deviations 和 Cross-product deviations and covariances 项而后点击 Continue 按钮返回 Bivariate Correlation 对话框再点击 OK 按钮即可输出结果发硒 X 血硒 Y 的均数与标准差如下 7-9 所示表 7-9 发硒血硒的均数与标准差 Mean Std. Deviation N 发硒血硒 75.4000 10.8000 12.2945 3.3267 10 10 Pearson 相关系数及 XY 交叉乘积的标准差与协方差如表 7-10 所示表 7-10 Pearson 相关系数及 XY 交叉乘积的标准差与协方差发硒血硒发硒 Pearson Correlation Sig.(20-tailed) Sum of squares and Cross-products Covariance N 1.000 . 1360.400 151.156 10 .872** .001 320.800 35.644 10 血硒 Pearson Correlation Sig.(20-tailed) Sum of squares and Cross-products Covariance N .872** .001 320.800 35.644 10 1.000 . 99.600 11.067 10 **. Correlation is significant at the0 .01 level (2-tailed). 上表中的第三四数值分别为 XY 交叉乘积的标准差与协方差非参数测度的相关分析系数 Spearman 相关系数和 Kendall 相关系数计算结果如表 7-11 所示表 7-11 pearman 相关系数和 Kendall 相关系数发硒血硒 Kendall’s tau—b 发硒 Correlation Coefficient Sig.(2-tailed) N 1.000 . 10 .767* .003 10 续表发硒血硒血硒 Correlation Coefficient Sig.(2-tailed) N .767* .003 10 1.000 . 10 发硒 Correlation Coefficient Sig.(2-tailed) N 1.000 . 10 .890* .001 10 Spearman’s rho 血硒 Correlation Coefficient Sig.(2-tailed) N .890* .001 10 1.000 . 10 **. Correlation is significant at the 0 .01 level 从上述计算结果可以看出不同的相关分析方法相关系数是不一样的相关系数零假设成立的概率也有可能不一样表 7-12 列出了它们之间的差异表 7-12 不同的相关分析方法和不同相关系数的对比相关系数零假设成立概率 Pearson 相关分析 0.872 0.001 Kendall 相关分析 0.767 0.003 Spearman 相关分析 0.890 0.001 从以上结果可以得出结论这三种分析方法的相关系数是有显著意义的 (显著水平为 0.01) 发硒与血硒间存在正相关但相关系数不是很高在此例中用 Kendall 是不恰当的因为它适用于分类变量的等级相关分析从表 7-12 可看出 Kendall 等级相关系数比其它两种都要小些若本例中不恰当地使用了 Kendall 等级相关分析方法则有可能得出相关系数偏小的结论因此选择合适的相关分析方法对于二元变量的相关分析的使用是很重要的如果使用不恰当则可能得出相关系数偏小或偏大的结论 (在本例中为偏小 ) 从而考察不到不同变量间存在的密切关系对于一般情况我们都默认数据是服从正态分布的故使用 Pearson 分析方法 7.3 偏相关分析有时影响一个问题的因素过多我们常用假设其中某些因素不变化即固定该因素去考察其他一些因素对该问题的影响从而达到简化研究的目的偏相关分析正是源于这一思想的但又与此思路不尽相同 7.3.1 偏相关分析的基本概念相关分析计算两个变量之间的相互关系分析两个变量间线性关系的程度往往因为第三个变量的作用使得相关系数不能真实地反映两个变量间的线性相关程度这样也就决定了二元变量的相关分析的不精确性例如身高体重与肺活量之间的关系如果使用 Pearson 相关计算其相关系数可以得出肺活量身高和体重均存在较强的线性相关性质但实际上呢对体重相同的人而言是否身高值越大其肺活量也越大呢答案是否定的正是因为身高与体重有着线性关系肺活量与体重有着线性关系因此得出了身高与肺活量之间存在较强的线性关系的错误结论偏相关分析就是在研究两个变量之间的线性相关关系时控制可能对其产生影响的变量偏相关系数衡量任何两个变量之间的关系而使与这两个变量有联系的其他变量都保持不变例如我们研究销售额与人口数销售额与总收入之间的关系人口数量的多少会影响销售额总收入的大小亦会影响销售额由于人口数量的变化总收入的大小也在经常的变化之中应用简单相关系数往往不能说明现象之间的关系程度这时必须在消除其他变量的影响后来研究两个变量之间的相互关系这种相关分析称为偏相关分析这种相关系数称为偏相关系数例如在研究销售额和总收入的相互关系时可假定人口数量不变在研究销售额与人口数的相互关系时可假定总收入不变例如变量 X Y Z 之间彼此存在着关系为了衡量 X 和 Y 之间的关系就必须假定 Z 保持不变计算 X 和 Y 的偏相关系数我们用 r xy 表示 r xy 称为 Z 保持不变时 X 和 Y 的偏相关系数偏相关系数是由简单相关系数决定的但是偏相关系数的数值和简单相关系数的数值常常是不同的在计算简单相关系数时所有其他自变量不予考虑在计算偏相关系数时要考虑其他自变量对因变量的影响只不过是把其他自变量当作常数处理了 7.3.2 偏相关分析的功能与应用通过以上对偏相关分析基本概念的介绍我们对它的基本功能应有一定的了解应用 SPSS 的偏相关分析过程可对变量进行偏相关分析在偏相关分析中系统可按用户的要求对两相关变量之外的某一或某些影响相关的其他变量进行控制输出控制其他变量影响后的相关系数偏相关分析的主要用途如下根据观测资料应用偏相关分析计算偏相关系数可以判断哪些自变量对因变量的影响较大而选择作为必须考虑的自变量至于哪些对因变量影响较小的自变量则可舍去不顾这样在计算多元回归分析时只要保留起主要作用的自变量用较少的自变量描述因变量的平均变动量偏相关分析应用的领域也非常广 ,涉及自然科学和社会科学的各个方面 7.3.3 偏相关分析应用示例下面举例说明偏相关分析的应用 [例 7-7] 某农场在一块试验地作测定施肥量 X 害虫危害程度 Y(用数值表示数值越大表示危害约严重 ) 和亩产 Z 的试验所得数据如表 7-13 所示表 7-13 施肥量 X 害虫危害程度 Y 和亩产 Z 数据表第一年第二年第三年第四年施肥量 X 14 27 39 67 害虫危害程度 Y 43 15 9 2 亩产 Z 3.0 7.6 8.5 12 将表 7-13 的数据输入数据文件如图 7-11 所示图 7-11 施肥量害虫危害程度和亩产数据文件选择 Statistics 菜单 ? Correlate ? Partial 命令项弹出 Partial Correlations 对话框现欲在控制施肥量 X 的影响下对变量害虫危害程度 Y 与亩产 Z 进行偏相关分析故在对话框左侧的变量列表中选变量变量害虫危害程 [y] 与亩产 [z] 点击箭头按钮使之进入 Variables矩形框选要控制的变量施肥量 [x] 点击箭头按钮使之进入 Controlling for 矩形框中在 Test of Significance 框中选双尾检验然后点击 OK 按钮提交运行即可运行所得结果如表 7-14 所示对计算结果的解释相关系数 r yz = 0.9597,P 0.181 这虽然通过计算在控制施肥量不变的情况下害虫危害程度 Y 与亩产 Z 的偏相关系数的绝对值较大接近于 1 但是从零假设成立的概率 P=0.181 来看害虫危害程度 Y 与亩产 Z 不相关的概率较高这说明影响亩产的不仅仅是害虫危害程度其他因素的影响也很重要在某种意义上说害虫危害程度对亩产的影响并不是太显著但是对害虫危害程度 Y 与亩产 Z 进行二元变量的相关分析即使用 Bivariate 过程得到的结果就大为不同了二元变量的相关分析的输出结果见表 7-14 表 7-14 害虫危害程度 Y 与亩产 Z 的偏相关分析结果控制变量施肥量 X ---PARTIAL CORRELATION COEFFICIENTS--- - Controlling for.. X Y Z Y 1.0000 -.9597 ( 0) ( 1) P= . P= . 181 Z -. 9597 1.0000 ( 1) ( 0) P= .181 P= . (Coefficient / (D.F. ) / 2- tailed Significance) 表 7-15 害虫危害程度 Y 与亩产 Z 的二元变量相关分析结果害虫危害程度亩产害虫危害程度 Pearson Correlation Sig.(2-tailed) N 1.000 . 4 -964* .036 4 亩产 Pearson Correlation Sig.(2-tailed) N -.964* .036 4 1.000 . 4 *.Correlation is significant at the 0.05 level (2-tailed). 从二元变量相关分析的结果来看相关系数为 -0.964 P=0.036 可以认为害虫危害程度 Y 与亩产 Z 之间存在较强的线性相关关系由偏相关分析和二元变量大的相关分析所得结果的差异可以看出这两种相关分析方法是不相同的 7.3.4 偏相关分析过程我们来详细研究一下偏相关分析的 SPSS 过程由上一小节的示例可以看出偏相关分析的 SPSS 过程与二元变量相关分析的过程相似主要也包括以下三个步骤 1 建立或调用数据文件 2 选择分析变量选择项提交运行 3 输出结果和解释结果下面分开详述 1 建立或调用数据文件与二元变量相关分析的相似可参阅二元变量相关分析过程中相关内容 2 选择分析变量选择项选择 Analyze ? Correlate ? Partial 命令项 ,展开偏相关分析主对话框 ( Partial Correlations ) 如图 7-12 所示在图 7-12 中所示的对话框中左边有一个较大的矩形框右边有两个较小的矩形框一个叫做 Valiables 框存放用于偏相关分析的变量一个叫做 Controlling for 框用来存放控制变量在这些矩形框之间有一上一下两个向右箭头按钮选中左边变量表中欲用于偏相关分析的变量 ,然后鼠标点击位于左右变量表之间上面的向右的箭头按钮使之进入 Valiables 框选中左边变量表中欲用于控制的变量即分析保持不变的变量 ,然后鼠标点击位于下面的向右箭头按钮使之进入 Controlling for 框中如图 7-13 所示图 7-12 选择之前的偏相关分析主对话框图 7-13 选择之后的偏相关分析主对话框若其他的选择项采用系统默认值则可点击右上角的 OK 按钮运行此相关分析过程由图 7-12 图 7-13 可以看出对于偏相关分析的选择项主要有两类的选择项一为在主对话框中的选择项一为 Options 对话框中的选择项 (1) 主对话框中的选择项 z 假设检验类型的选择在 Test of Significance 栏中有如下两个选择项 Two tailed 双尾检验选项当事先不知道相关方向 (正相关还是负相关 )时选择此项用于正负相关两种可能的情况是系统默认值 One tailed 单尾检验选项如果事先知道相关方向可以选择此项用于只可能是正向或只可能是负向的情况 z 是否显示实际的显著性水平选择 Display actual significance level 在显示相关系数的同时显示实际的显著性概率不选择此项其显著性概率使用星号来代替一个星号 * 表示其显著性概率在 5 ~1 之间两个星号 ** 表示其显著性水平小于或等于 1 (2) Options 对话框中的选择项在主对话框的右下角有一个 Options 按钮单击它便进入 Options 对话框 (如图 7-14 所示 ) 对话框中显示有如下两组选择项 z Statistics 统计量选择项 Means and standard deviations 复选项要求 SPSS 计算并显示各分析变量的均值和标准差 Zero-order correlations 复选项要求显示零阶相关矩阵即 Pearson 相关矩阵 z Missing Values 处理缺失值观测量的选择项 Exclude case listwise 选项剔除所用带有缺失值的观测值系统默认为此项 Exclude cases pairwise 选项成对剔除带有缺失值的观测值选择完成之后单击 Continue 按钮返回主对话框图 7-14 偏相关分析的 Options 对话框 3 输出结果和解释结果对于输出结果可参见表 7-14 表中显示的数值意义如下 (1) 第一行中的数值是偏相关系数行列变量相同的偏相关系数为 1 (2) 第二行中的数值是用括号括起来的表示计算时的自由度数自由度数的计算公式为 D.F.=观测量数变量数 -1 (3) 第三行中的数值是使零的假设成立的概率也称为实际显著性概率下面介绍偏相关分析的实例 [例 7-8] 某地 29名 13岁男童身高 X1(cm) 体重 X2(kg)和肺活量 Y(ml)的数据如表 7-16 试对该资料作控制体重影响作用的身高与肺活量做相关分析表 7-16 身高 cm 体重 kg 和肺活量 ml 数据表编号身高体重肺活量编号身高体重肺活量 1 135.1 32.0 1750 16 153.0 47.2 1750 2 139.9 30.4 2000 17 147.6 40.5 2000 3 163.6 46.2 2750 18 157.5 43.3 2250 4 146.5 33.5 2500 19 155.1 44.7 2750 5 156.2 37.1 2750 20 160.5 37.5 2000 6 156.4 35.5 2000 21 143.0 31.5 1750 7 167.8 41.5 2750 22 149.4 33.9 2250 8 149.7 31.0 1500 23 160.8 40.4 2750 9 145.0 33.0 2500 24 159.0 38.5 2500 10 148.5 37.2 2250 25 158.2 37.5 2000 11 165.5 49.5 3000 26 150.0 36.0 1750 12 135.0 27.6 1250 27 144.5 34.7 2250 13 153.3 41.0 2750 28 154.6 39.5 2500 14 152.0 32.0 1750 29 156.5 32.0 1750 15 160.5 47.2 2250 建立数据文件如图 7-15 所示图 7-15 身高 cm 体重 kg 和肺活量 ml 数据文件从菜单选择 Analyze ? Correlate ? Partial 命令项 ,展开偏相关分析主对话框现欲在控制体重的影响下对变量身高与肺活量进行偏相关分析故在对话框左侧的变量列表中选变量身高 [x1] 肺活量 [y] 点击靠上的箭头按钮使之进入 Variables 矩形框选要控制的变量体重 [x2] 点击靠下箭头按钮使之进入 Controlling for 矩形框中在 Test of Significance 中选双尾检验单击 Options 按钮在选择项对话框中选择 Statistics 栏中 Means and standard deviations 以显示每个变量的均数与标准差还在此栏中选择 Zero-order correlations 以显示所有变量的零阶相关系数即 Pearson 相关系数其余使用系统默认值然后点击 OK 按钮提交运行得到的计算结果如下面各表表 7-17 各变量的均数 Means 标准差 Standard Dev 和例数 Cases Variable Mean Standard Dev Cases X1 152.5759 8.3622 29 Y 2206.8966 448.5541 29 X2 37.6517 5.7455 29 表 7-18 各变量间的零阶相关系数即 Pearson 相关系数 P A R T I A L C O R R E L A T I O N C O E F F I C I E N T S - Zero Order Partials X1 Y X2 X1 1.0000 .5884 .7194 ( 0) ( 27) ( 27) P= . P= .001 P= .000 Y .5884 1.0000 .6127 ( 27) ( 0) ( 27) P= .001 P= . P= .000 X2 .7194 .6127 1.0000 ( 27) ( 27) ( 0) P= .000 P= .000 P= . (Coefficient / (D.F.) / 2-tailed Significance) 相关系数/自由度数/双尾显著性检验概率 " . " is printed if a coefficient cannot be computed 表 7-19 身高 x1 与肺活量 y 的偏相关分析结果控制变量体重 x2 P A R T I A L C O R R E L A T I O N C O E F F I C I E N T S Controlling for.. X2 X1 Y X1 1.0000 .2688 ( 0) ( 26) P= . P= .167 Y .2688 1.0000 ( 26) ( 0) P= .167 P= . (Coefficient / (D.F.) / 2-tailed Significance) " . " is printed if a coefficient cannot be computed 对以上结果的解释如下从 Pearson 相关系数来看身高 (X1)与肺活量 (Y)之间 (r=0.5884 P=0.001) 体重 (X2)与肺活量 (Y)之间 (r=0.6127 P=0.000)均有相关关系但从偏相关系数来看当体重 (X2)固定 (或控制 )时身高 (X1)与肺活量 (Y)的相关无显著性 (r yx1 =0.2688 P=0.167) 这是因为身高与体重之间有较为密切的关系 (r=0.7194 P=0.000) 在分析身高与肺活量的 Pearson 相关时也包括了体重的正效应当扣除了体重的影响后身高与肺活量就看不出有相关关系了如果控制变量改为身高则得到如下结果 (如表 7-20 所示 ) 体重与肺活量的相关系数为 0.3373 P=0.079 故体重与肺活量存在一定的线性相关虽然不是很显著可见肺活量与身高和体重均有关系但是通过以体重为控制量对身高与肺活量之间的偏相关分析与和以身高为控制量对体重与肺活量的偏相关分析的比较我们发现前者的偏相关系数大显著性水平更高这样我们就得出一个结论如果仅仅研究其中一个变量与肺活量的相关关系时那么研究身高与肺活量的相关关系比研究体重与肺活量的相关关系会有更大意义表 7-20 体重 x2 与肺活量 y 的偏相关分析结果控制变量身高 x1 - - - P A R T I A L C O R R E L A T I O N C O E F F I C I E N T S Controlling for.. X1 X2 Y X2 1.0000 .3373 ( 0) ( 26) P= . P= .079 Y .3373 1.0000 ( 26) ( 0) P= .079 P= . (Coefficient / (D.F.) / 2-tailed Significance) " . " is printed if a coefficient cannot be computed 7.4 距离分析二元变量的相关分析偏相关分析主要是研究变量之间的线性相关关系但是现实生活中有很多情况是要考测事物间是否相似这时就要用到另一种相关分析的方法距离分析 7.4.1 距离分析的基本概念距离分析是对观测量之间或变量之间相似或不相似的程度的一种测度是计算一对变量之间或一对观测量之间的广义的距离这些相似性或距离测度可以用于其他分析过程例如因子分析聚类分析或多位定标分析有助于分析复杂的数据集例如是否可以根据一些特性如发动机的大小 MPG 和马力来测度两种汽车的相似性通过计算汽车间的相似性可以对这些汽车获得一些认识哪些汽车彼此类似哪些汽车彼此不同更正规地分析可以考虑对相似性使用分层聚类分析或多元定标分析去探测深层结构与距离分析有关的一些统计量 1 不相似性测度 z 对等间距数据的不相似性 (距离 )测度可以使用的统计量有欧几米德 (欧氏 )距离欧氏距离平方切贝谢夫曲组米考斯基或自定义统计量 z 对计数数据使用卡方或斐方 z 对二值 (只有两种取值 )数据使用欧氏距离欧氏距离平方尺寸差异模式差异方差形或兰斯和威廉斯 2 相似性测度 z 等间距数据使用统计量皮尔逊相关或余弦 z 测度二元数据的相似性使用的统计量有 20 余种在 SPSS for Windows 中距离分析属于专业统计分析过程 (Professional Statistics opitions) 如果没有安装则在菜单中不会有调用该过程的菜单项总而言之距离分析为观测量之间距离的分析和变量间距离的分析 7.4.2 距离分析的功能与应用调用距离分析过程可对变量内部各观察单位间的数值进行距离相关分析以考察相互间的接近程度也可对变量间进行距离相关分析常用于考察预测值对实际值的拟合程度也可用于考察变量的相似程度同时距离分析还可用于其他统计分析过程如因子分析聚类分析或多位定标分析等等 7.4.3 距离分析的功能与应用下面举出一个例子来说明距离分析的应用 [例 7-9] 某医师对 10 份标准血红蛋白样品作三次平行检测分别记为 time1 time2 time3 数据见表 7-21 问检测结果是否一致表 7-21 标准血红蛋白样品检测数据表样品 1 样品 2 样品 3 样品 4 样品 5 样品 6 样品 7 样品 8 样品 9 样品 10 第一次测量 12.36 12.14 12.31 12.32 12.12 12.28 12.24 12.41 12.33 12.17 第二次测量 12.40 12.20 12.28 12.25 12.22 12.34 12.31 12.30 12.22 12.24 第三次测量 12.18 12.22 12.35 12.21 12.10 12.25 12.20 12.46 12.36 12.11 将原数据输入数据文件并加上一个标识字符型变量 sample 如图 7-16 所示图 7-16 标准血红蛋白样品检测数据文件激活 Analyze 菜单选择 Correlate 中的 Distance 命令项弹出 Distances 主对话框在对话框左侧的变量列表中选变量 time1 time2 time3 点击箭头按钮使之进入 Variables 框在 Compute Distances 栏中有两个选项 Between cases 表示作变量内部观察值之间的距离相关分析 Between variables 表示作变量之间的距离相关分析在本例中因三次平行测量结果分别置于三个变量中故选择后者在 Measure 栏中有两种测距方式 Dissimilarities 为不相似性测距 Similarities 为相似性测距若选 Dissimilarties 并点击 Measure 钮弹出 Distance:Dissimilarity Measure 对话框用户可根据数据特征选用测距方法本例选择了 Similarties 项并以 Pearson correlation 为测量距离点击 Continue 按钮返回 Distance 对话框再点击 OK 按钮提交运行即可输出结果见下表 7-22 表 7-23 表 7-22 观测量统计处理简明表 Cases Valid Missing Total N Percent N Percent N Percent 10 90.9% 1 9.1% 11 100.0% 表 7-23 标准血红蛋白样品距离分析计算结果 Correlation between vectors of values TIME1 TIME2 TIME3 TIME1 TIME2 TIME3 .573 .731 .573 .088 .731 .088 结果解释如下在结果输出窗口中可看到三次测量结果的相关系数矩阵第一次测量与第二次测量结果的 r=0.573 第一次测量与第三次测量结果的 r=0.731 第二次测量与第三次测量结果的 r=0.088 由此可见后两次测量的结果一致性较差这意味着第一次恰好是后两次的均值即一致性程度上第一次测量位于第二次和第三次之中故对该指标作重复测量意义不大 7.4.4 距离分析过程距离分析的 SPSS 过程比二元变量的相关分析偏相关分析都来得复杂它不仅牵涉的数学知识比较复杂而且距离分析选择项的选择更为复杂 Compute Distances 栏中有两个选项 Between cases 和 Between variables Measure 栏中有两种测距方式 Dissimilarities 和 Similarities 组合起来就是四种点击 Measure 之后又有许多选项下面分开详述 1 第一步还是建立或调用数据文件与二元变量相关分析偏相关分析的相似 2 选择分析变量选择项从菜单选择 Analyze ? Correlate ? Distance 命令项 ,展开偏相关分析主对话框 ( Distance Correlations ) 如图 7-17 所示在图 7-17 所示的对话框中左边有一个较大的矩形框右边有两个较小的矩形框 Valiables 框存放用于距离分析的变量 Label Case by 框存放标识观测量的字符型变量且只有在 Compute Distances 一栏中选择了 Between cases 后才能将字符型变量选入该栏在这些矩形框之间有一上一下两个向右箭头按钮选中左边变量表中欲用于距离分析的变量 ,然后鼠标点击位于左右变量表之间上面的向右箭头按钮使之进入 Valiables 框选中左边变量表中欲用于标识用的字符型变量 ,如果此时位于下面的向右箭头按钮变成亮色时你就可以用鼠标点击该字符型变量将其选入 Label case by 若有必要的话如图 7-18 所示图 7-17 选择之前的距离分析主对话框图 7-18 选择之后的距离分析主对话框若其他的选择项采用系统默认值则可点击右上角的 OK 按钮运行此相关分析过程由图 7-17 图 7-18 可以看出对于距离分析的选择项主要有两类的选择项一为在主对话框中的选择项一为 Measure 对话框中的选择项将此类选择项分成两种情况一为 Similarity Measure 对话框另一个为 Dissimilarity Measure 对话框 (1) 主对话框中的选择项 z Compute Distances 计算距离栏 Between Cases 选项即计算每对观测量间的距离 Between Valiables 选项即计算每对变量间的距离 z Measure 按钮栏选择测度距离的类型 Dissimilarities 选项选择该选项计算不相似性矩阵此为系统默认的类型系统默认使用 Euclidean distance 即欧氏距离测度其不相似性 Similarities 选项选择该选项计算相似性矩阵系统默认使用 Pearson 相关进行相似性测度选择一种测度类型后系统默认的计算方法将显示在 Measure 按钮的右边读者也可点击 Measure 按钮进入 Measure 对话框选择另外一种合适的计算方法系统也将其显示在 Measure 按钮的右边 2 Dissimilarity Measure 对话框选择有关不相似性测度的选择项在 Measure 栏中选择了不相似性分析 Dissimilarities 之后点击其下方的 Measure 进入 Dissimilarity Measure 不相似性测度对话框如图 7-19 所示 z 不相似性测度方法的选择项选择一种测度需要首先选好数据类型然后在选中的数据类型组的下拉菜单中选择与数据类型一致的可用的测度计算方法数据类型及其可以使用的测度计算方法如下 Interval 等间距变量 (即连续变量 )选项在选择此项后点击其右方的矩形框中的向下箭头有许多测度计算方法在下拉列表中可以选择不同的测定计算方法图 7-19 不相似性测度 Dissimilarity Measure 对话框 1) Euclidean distance 欧氏距离两项之间的距离是两变量之差的平方和的平方根 2) Squared Euclidean distance 欧氏距离的平方两项之间是两个变量的平方和 3) Chebychev 切贝谢夫距离两项之间的距离是两项之差的最大绝对值 4) Block 布洛克距离两项之间的距离是每个变量的两个值之间差的绝对值之和 5) Minkowski 明可夫斯基两项之间的距离是每个变量值之差自乘 p 次幂的绝对值之和开 p 次方的根指定此选择项还需要指定自乘幂次和开方的根次值 6) Customized 距离两项之间的距离是每个变量值之差自乘 p 次幂的绝对值之和开 t 次方根指定此选择项还需指定自乘幂次 p 和开方的根次 t 值选择 Minkowski 和 Customized 两种的不相似性测度激活 Interval 下面的两个小矩形框的一个或全部选择 Minkowski 则激活一个 Power 框因为对于 Minkowski 方法而言自乘幂次和开方的根次值相等选择 Customized 则激活两个矩形框 Power 和 Root 框可以在 Power 或 Root 后面键入数值此数值就是自乘幂次或开方的根次值也可用矩形框右边的上下箭头增加或减少数值对于这两种不相似性分析自乘幂次和开方的根次值的系统默认值是 2 Counts 计数变量选项在选择此选项后单击其后矩形框右侧的向下箭头可以选择如下不同的不相似测度计算方法 1) Chi-square measure 2 测度 ,该不相似性测度基于两组频数相等的卡方检验测度的数量级取决于被近似计算的两个变量或观测量的总频数 2) Phi-square measure 2 测度 ,该测度设法把样本的大小考虑进去以减少实际观测频数对测度值的影响 2 测度通过把不相似性的卡方测度除以联合频数平方根使它正规化 Binary 二元变量 (表示某种特性有无的变量 )选项选择该项后激活其下的其他选项在 Present 框中键入表明特性存在的变量值在 Absent 框中键入表明不存在某特性的变量值系统默认的变量值是用 1 表明存在用 0 表明特性不存在对于二元变量可以进行如下选择 1) Euclidean distance 欧氏距离二元欧氏距离最小值为 0 无上限根据四格表计算 SQRT(b+c) 此处的 b 和 c 是在一项中出现而在另一项中不出现的对角元素 2) Squared Euclidean distance 欧氏距离的平方二元欧氏距离的平方最小值为 0 无上限计算不一致的观测数 3) Size difference 大小不同的测度用最小值为 0 无上限测度不相似性 4) Pattern difference 是一个从 0 到 1 的不相似性测度根据四格表计算 bc/n 2 其中 b 和 c 是在一项中出现而在另一项中不出现的对角元素 n 是观测量总数 5) Variance 不对称指数该测度范围为 0~1 从四格表计数 (b c)/4n 其中 b 和 c 是在一项中出现而在另一项中不出现的对角元素 n 是观测量总数 6) Shape 该距离测度范围是从 0 到 1 7) Lance and Williams 兰斯和威廉斯不相似性测度与 Bray Curtis 非矩阵系数一样该测度的值在 0 到 1 之间根据四格表计算 (b+c)/(2a+b+c) 其中 a 是与两项均出现的观测相对应的元素 b 和 c 是在一项中出现而在另一项中不出现的对角元素用户可在 Present 和 Absent 后面的矩形框中输入表明某特性出现和不出现的值系统默认 0 为某特性不出现 1 为某特性出现 z TransformValues 转换数值栏 Transform Values 栏位于不相似性测度对话框的左下角矩形框中该组允许在进行近似计算之前对观测量或变量进行标准化但对于二元变量不能进行标准化进行标准化的方法可从 Standardized 后面的下拉列表中看到单击矩形框右面的箭头按钮展开下拉列表可选择的标准化方法如下 1) None 不进行标准化这是系统默认的 2) Z-Score 值被标准化到 Z 分数标准化后其均值为 0 标准差为 1 3) Range 0 to 1 标准化到其值的范围为 0 到 1 之间对被标准化的观测量或变量的每一个值减去最小值然后除以范围 (最大值与最小值的差 ) 4) Range -1 to +1 标准化到单位范围即标准化后其值范围为 -1 到 +1 该标准化的方法是把观测量或变量的值除以范围如果该组值的范围为 0 所有值保持不变 5) Maximum magnitude of 1 标准化到最大值为 1 即对变量或观测量的每一个值都除以最大值若该组最大值为 0 则用最小值的绝对值加 1 作除数 6) Mean of 1 标准化到单位均值该方法对观测量或变量的每一个值除以均值如果均值为 0 将所有数值加 1 以使均值为 1 7) Standard deviation of 1 标准到标准差为 1 该方法对要被标准化的观测量或变量的每一个值用标准差除如果标准差为 0 其值保持不变 z 除 None 选择项外选择其他任意一种标准化方法均应该指定标准化对象共有两个选择项 1) By variable 选项即对变量进行标准化 2) By cases 选项即对观测量进行标准化 z Tansform Measures 转换测度栏转换测度栏允许对距离测度的结果进行转换在距离测度计算完成后才进行对测度的转换共有 3 个转换方法可以选择每种转换方法给出一种转换结果这三种转换方法可以同时选择 Absolute Value 复选项即对距离取绝对值当符号表明的是相关的方向且仅对相关的数值感兴趣时使用这种转换 Change sign 复选项即改变符号把相似性测度值转换成不相似性测度值或相反使用这种转换通过加负号颠倒距离测度的顺序 Rescale to 0-1 range 复选项即先减去最小值然后除以范围使距离标准化对已经按有意义的方法标准化的测度一般不再使用此方法进行转换 (3) Similarity Measure 相似性测度的选择项当在主对话框中选择了相似性测度并使用鼠标单击 Measure 按钮进入 Distances Similarity Measure 相似性测度对话框如图 7-20 所示 Measure 栏有关相似性测度方法的选择项与不相似性测度一样在选择具体的测度方法之前必须首先选择变量类型然后在选中的实际类型组的下拉菜单中选择与实际类型一致的可用的测度行相似性测度的数据类型只有两种等间隔变量和二元变量与这两个类型相应的可以选择的测度方法如下图 7-20 相似性测度选择项对话框 1) Interval 等间隔变量选项可以选择以下相似性测度计算方法 Pearson correlation 皮尔逊相关是值向量间的相关是其值为 -l 到 +l 之间的线性关的测度 0 值表示无线性关系对于这个相似性计算方法要详细的说明一下关键在于理解什么叫做值向量从 SPSS 的数据文件上看值向量指的就是数据文件上的一行这一行也称为一个 case 如图 7-16 标准血红蛋白样品检测数据文件第一行 [12.36 12.40 12.18]就是一值向量在用变量 sample 标识以后此值向量可称为名叫 s1 的值向量或 case Cosine 用两个向量间的余弦测度相似性其值在 -l 到 +l 之间 0 值表明两个向量正交即相互垂直 2) Binary 对二元数据的相似性测度 SPSS 为每对项目构造一个 2 2 的列联表可用的测度是如下 4 类匹配系数条件概率可预测性测度和其他测度可以从下拉列表中选择一种测度在进行测度方法选择之前应该指定表明某特点出现 Present 和不出现 Absent 的变量值系统默认特点出现其值为 1 特点不出现其值为 0 用户可以指定其他整数表明特性的存在与不存在可以选择以下相似性测度关于匹配系数有以下 9 种测度方法 Russell and Rao 罗素一劳的二项点积匹配系数的分母包括所有匹配的对不匹配的无特点的从分子中剔除该系数等于分配给匹配与不匹配相等的权重 Simple Matching 简单匹配相似性测度是匹配数与匹配与不匹配之总数的比值给匹配与不匹配的权重相等 Jaccard 杰卡德相似性系数是一个指数 ,相似比匹配系数的分子分母均剔除了不出现的给匹配与不匹配的权重相等 Dice 戴斯相似性系数匹配指数分子分母均剔除了不匹配的并给予匹配者以双倍权重 Regers and Tanimoto 所有匹配的对均包括在分母中不匹配的 (没有对的 )包括在分子中给不匹配的以双倍权重 Sokal and Sneath l 匹配系数分母包括所有的匹配的分子包括所有不匹配的给匹配的以双倍权重 Sokal and Sneath 2 匹配系数不匹配的从分子分母中剔除给不匹配的以双倍权重 Sokal and Sneath 3 匹配系数为匹配与不匹配数的比所有匹配的从分母中剔除不匹配的包括在分子中给匹配与不匹配的以相等的权重如果没有不匹配的这是理论上的假定然而当值不确定或大于 9999.999 时给距离一个 9999.999 的任意值 Kulczynski 1 匹配系数 ,是一个联合出现与所有不匹配数的比值所有的匹配的从分母剔除或缺的从分子中剔除对匹配与不匹配的给以相同的权重该测度最小值为 0 无上限如果没有不匹配的这是理论上的假定然而当值不确定或大于 9999.999 时给距离一个 9999.999 的任意值属于条件概率的测度有以下 3 种 Kulczynski 2 是一个基干条件概率的指数该概率是一个特性在一项中发生导致该特性在另一项中出现的平均概率 Sokal and Sneath 4 是一个基于条件概率的指数该概率是一项中的特性与在其他项中值匹配的概率每一项中的值该测度是作为预测因子的以上两项的平均值 Hamann 该指数给出在两项中特性状态相同 (在两项中均出现或均不出现 )的概率 (匹配数 )减去在两项特性状态不同 (在一项中出现而在另一项中不出现 )的概率 (不匹配数 )之差除以项目总数其值范围为 -l 到 +l 属于可预测性的测度有以下 4 种 Lamda 相似性测度 (Goodman and Kruskal 相似性测度 )表示在两个方向上进行预测时当用一项预测另一项时误差降低的比例 Anderberg's D 与类似 D 统计量测度的是当在两个方向上进行预测时用一项预测另一项时实际降低的误差率其值范围在 0 到 1 之间 Yule's Y 尤尔的 Y 综合指数该测度是 2 2 表交叉率的函数不取决于边际总数范围在 -1 到 l 之间 Yule’s Q Goodman 和 Kruskal 的的 2 2 的倒数该测度是 2 2 表交叉率的函数与边际总数无关其值范围在 -l 到 +l 之间其他测度有以下 4 种该组是对连续变量二元等价关系的测度或项与项之间特殊特性的测度 Ochiai Cosin 余弦测度的二元方式范围在 0 到 1 之间 Sokal and Sneath 5 该指数是正负匹配条件概率的几何平均值的平方它不依赖于项目编码该测度范围为 0 到 1 Phi 4 point correlation 皮尔逊积矩相关的二元形式范围 0 到 l Disersion 范围 -l 到 +l 的一个距离指数 Transform Values 转换数值栏在 Transform Values 组位于相似性测度对话框的左下角该组允许在进行近似计算之前对观测量或变量进行标准化对二元变量不能进行标准化标准化方法的选择进行标准化的方法在 Standized 后面的下拉列表中单击矩形框右面的箭头按钮展开下拉列表可选择的标准化方法如下 None 不进行标准化这是系统默认的 Z-Score 标准化到 Z 分数 Range -1 to +1 标准化到单位范围即标准化后其值范围为 -l 到 +l 该标准化的方法是把观测量或变量的值除以范围如果该组值的范围为 0 所有值保持不变 Range 0 to 1 标准化到其值的范围在 0 到 l 之间对被标准化的观测量或变量的每一个值减去最小值然后除以范围 (最大值与最小值之差 ) 如果范围值为 0 观测量或变量的所有值均被置成 0.5 Maximum magnitude of 1 标准化到最大值 1 即对变量或观测量的每一个值都除以最大值如果该组最大值为 0 则用最小值的绝对值加 1 作除数 Mean of 1 标准化到单位均值这方法对观测量或变量的每个值除以均值如果均值为 0 将所有数值加 1 以使均值为 1 Standard devition of 1 标准化到标准差为 1 该方法对要被标准化的观测量或变量的每一个值用标准差除如果标准差为 0 其值保持不变标准化对象的选择以上除了 None 选择项外选择其他任意一种标准化的方法均应该同时指定标准化对象共有两个选择项 By valiables 选项即对变量进行标准化 By case 选项即对观测量进行标准化 Transform Values 转换测度栏转换测度组允许对距离测度的结果进行转换在距离测度计算完成后才进行对测度的转换共有 3 个转换方法可以选择每种转换方法给出一种转换结果 3 种转换方法可以同时选择 Abosolute values 复选项即对距离取绝对值当符号表明的是相关的方向且仅对相关的数值感兴趣时使用这种转换 Change sign 复选项即改变符号把相似性测度值转换成不相似性测度值或相反使用这种转换通过加负号颠倒距离测度的顺序 Rescale to 0~1 range 复选项即先减去最小值然后除以范围使距离标准化对已经按有意义的方法标准化的测度一般不再使用此方法进行转换下面就 [例 7-9]作进一步的分析数据参见表 7-21 如果对变量内部各观察值间的一致性进行考核 (假定本例 time1 变量中的数据为对一个标准试样的十次平行测定 ) 那么需将 time1 变量选入 Valiables 栏将 sample 变量选入 Label Case by 栏 time2 和变量 3 留在左边的矩形框中然后在 Distancs 主对话框中选 Between cases 项并选 Dissimilarities 项在 Dissimilarity Measures 对话框中选择 Euclidean distance 测度方法点击 Continue 按钮回到主对话框再点击 OK 按钮即可运算结果如表 7-24 表 7-24 time1 变量中观测量之间不相似性分析运行结果 Proximity Matrix .220 .050 .040 .240 .080 .120 .050 .030 .190 .220 .170 .180 .020 .140 .100 .270 .190 .030 .050 .170 .010 .190 .030 .070 .100 .020 .140 .040 .180 .010 .200 .040 .080 .090 .010 .150 .240 .020 .190 .200 .160 .120 .290 .210 .050 .080 .140 .030 .040 .160 .040 .130 .050 .110 .120 .100 .070 .080 .120 .040 .170 .090 .070 .050 .270 .100 .090 .290 .130 .170 .080 .240 .030 .190 .020 .010 .210 .050 .090 .080 .160 .190 .030 .140 .150 .050 .110 .070 .240 .160 1:s1 2:s2 3:s3 4:s4 5:s5 6:s6 7:s7 8:s8 9:s9 10:s 10 1:s1 2:s2 3:s3 4:s4 5:s5 6:s6 7:s7 8:s8 9:s9 10:s10 Euclidean Distance This is a dissimilarity matrix 在不相似性测量系数矩阵中最大值为第五个观察值与第八个观察值间的值仅为 0.290 其余的值均较之更小最小的为第三个观察值与第四个观察值间的值仅为 0.010 可见观察值间的不相似性差不相似性系数愈接近 1 不相似性愈好不相似性系数愈接近 0 不相似性愈差则意味着测定结果的一致性好为作对比分别假定变量 time2 和 time3 中的数据为对一个标准试样的十次平行测定将 time2 变量或 time3 变量选入 Valiables 栏将 sample 变量选入 Label Case by 一栏其余留在左边的矩形框中然后在 Distancs 对话框中选 Between cases 项并选 Dissimilarities 项在 Similarity Measure 对话框中选择 Euclidean distance 测度方法点击 Continiue 按钮回到主对话框再点击 OK 按钮运算结果如表 7-25 和表 7-26 表 7-25 time2 变量中观测量之间不相似性分析运行结果 Proximity Matrix .200 .120 .150 .180 .060 .090 .100 .180 .160 .200 .080 .050 .020 .140 .110 .100 .020 .040 .120 .080 .030 .060 .060 .030 .020 .060 .040 .150 .050 .030 .030 .090 .060 .050 .030 .010 .180 .020 .060 .030 .120 .090 .080 .000 .020 .060 .140 .060 .090 .120 .030 .040 .120 .100 .090 .110 .030 .060 .090 .030 .010 .090 .070 .100 .100 .020 .050 .080 .040 .010 .080 .060 .180 .020 .060 .030 .000 .120 .090 .080 .020 .160 .040 .040 .010 .020 .100 .070 .060 .020 1:s1 2:s2 3:s3 4:s4 5:s5 6:s6 7:s7 8:s8 9:s9 10:s 10 1:s1 2:s2 3:s3 4:s4 5:s5 6:s6 7:s7 8:s8 9:s9 10:s10 Euclidean Distance This is a dissimilarity matrix 表 7-26 time3 变量中观测量之间不相似性分析运行结果 Proximity Matrix .040 .170 .030 .080 .070 .020 .280 .180 .070 .040 .130 .010 .120 .030 .020 .240 .140 .110 .170 .130 .140 .250 .100 .150 .110 .010 .240 .030 .010 .140 .110 .040 .010 .250 .150 .100 .080 .120 .250 .110 .150 .100 .360 .260 .010 .070 .030 .100 .040 .150 .050 .210 .110 .140 .020 .020 .150 .010 .100 .050 .260 .160 .090 .280 .240 .110 .250 .360 .210 .260 .100 .350 .180 .140 .010 .150 .260 .110 .160 .100 .250 .070 .110 .240 .100 .010 .140 .090 .350 .250 1:s1 2:s2 3:s3 4:s4 5:s5 6:s6 7:s7 8:s8 9:s9 10:s 10 1:s1 2:s2 3:s3 4:s4 5:s5 6:s6 7:s7 8:s8 9:s9 10:s10 Euclidean Distance This is a dissimilarity matrix 从表 7-25 可以看出在不相似性测量系数矩阵中最大值为第一个观察值与第二个观察值间的 0.200 其余的值均较之更小最小的为第九个观察值与第五个观察值间的 0.000 可见观察值间的不相似性较变量 time1 更差 ,则意味着测定结果的一致性更好从表 7-26 可以看出在不相似性测量系数矩阵中最大值为第五个观察值与第八个观察值间的 0.360 最小的为 0.010 可见观察值间的不相似性较变量 time1 比 time1 和 time2 要好但仍然较差测定结果的一致性还是较好由以上三种不同情况下的不相似分析可知这三次测量中观测量之间的一致性还是较好的我们对 [例 7-9]进行相似性分析再次假定本例 time1 变量中的数据为对一个标准试样的十次平行测定然后在 Distancs 主对话框中选 Between cases 项并选 Similarities 项进入 Similarity Measure 对话框选 Pearson distance 测度方法点击 Continue 再点击主对话框的 OK 按钮即可 ,运算结果如表 7-27 所示表 7-27 time1 变量中观测量之间相似性分析运行结果 Proximity Matrix 9999.9999999.9999999.9999999.9999999.9999999.9999999.9999999.9999999.999 9999.999 9999.9999999.9999999.9999999.9999999.9999999.9999999.9999999.999 9999.9999999.999 9999.9999999.9999999.9999999.9999999.9999999.9999999.999 9999.9999999.9999999.999 9999.9999999.9999999.9999999.9999999.9999999.999 9999.9999999.9999999.9999999.999 9999.9999999.9999999.9999999.9999999.999 9999.9999999.9999999.9999999.9999999.999 9999.9999999.9999999.9999999.999 9999.9999999.9999999.9999999.9999999.9999999.999 9999.9999999.9999999.999 9999.9999999.9999999.9999999.9999999.9999999.9999999.999 9999.9999999.999 9999.9999999.9999999.9999999.9999999.9999999.9999999.9999999.999 9999.999 9999.9999999.9999999.9999999.9999999.9999999.9999999.9999999.9999999.999 1:s1 2:s2 3:s3 4:s4 5:s5 6:s6 7:s7 8:s8 9:s9 10:s10 1:s1 2:s2 3:s3 4:s4 5:s5 6:s6 7:s7 8:s8 9:s9 10:s10 Correlation between Vectors of Values This is a similarity matrix 思考题 1 对下面数据进行分析分析年龄 (Age)与时间 (time) age 与 pathsize 是否相关 2 如上述数据在控制年龄时分析 pathsize 与 time 是否相关第 8 章均值比较与 T 检验导言 T 检验是检验差异显著性的十分重要的统计工具这种差异显著性的检验是样本均值间的比较因此 T 检验也可以称为一种均值比较分析它包括单样本 T 检验独立样本 T 检验配对样本 T 检验本章包括了大量的示例和实例读者只阅读应用示例部分就可基本掌握该过程的使用方法实际工作中经常会遇到这样的问题 :总体的数量水平有没有变化即总体的均值是否相同例如假定以往的铁水含碳量平均水平是 4.55 单位 ,现在生产条件有了一些变化 ,含碳量的平均水平有没有改变呢 ?又如为了鉴定两种操作方法对产品抗折强度影响是否有显著差异通过样本抗折强度均值水平比较来作出结论等这就需要统计分析作出检验和判断统计上对均值差异显著性检验的方法很多较为常见的有 T 检验 U 检验 8.1 均值比较与均值比较的检验过程 8.1.1 均值比较的概念统计分析常常采取抽样研究的方法即从总体中随机抽取一定数量的样本进行研究来推论总体的特性由于总体中的每个个体间均存在差异即使严格遵守随机抽样原则也会由于多抽到一些数值较大或较小的个体致使样本统计量与总体参数之间有所不同又由于实验者测量技术的差别或测量仪器精确程度的差别等等也会造成一定的偏差使样本统计量与总体参数之间存在差异由此可以得出这样的认识均值不相等的两个样本不一定来自均值不同的总体能否用样本均数估计总体均数两个变量均数接近的样本是否来自均值相同的总体换句话说两个样本某变量均值不同其差异是否具有统计意义能否说明总体差异这是各种研究工作中经常提出的问题这就要进行均值比较对来自正态总体的两个样本进行均值比较常使用 T 检验的方法 T 检验要求两个被比较的样体来自正态总体两个样本方差相等与不等时使用的计算 t 值的公式不同有兴趣的读者可以参阅统计学方面的书籍进行方差齐次性检验使用 F 检验对应的零假设是两组样本方差相等 P 值小于 0.05 说明在该水平上否定原假设方差不齐否则两组方差无显著性差异 U 检验是用服从正态分布的检验量去检验总体均值差异情况的方法在这种情况下总体方差通常是已知的虽然 t 检验法与 u 检验法所解决的问题大体相同但在小样本且均方差未知的情况下就不能用 u 检验法了为了正确地进行检验需要正确回答以下三个问题 1 数据的样本是一个还是两个如果是两个样本那么各项数据是否都取自同一来源如果是那么这两个样本就不是独立样本这样的样本称为配对样本或成对样本 2 样本差是否已知或者必须由估计求得 3 样本是否是大容量的一般以样本观测值数 n 30 作为大样本应该采用的统计量类型已列于表 8-1 中该表也说明了不同检验量应用的范围表 8-1 均值检验时数据分类样本情况总体 6 是否已知样本数 n 是否已知应用统计量类型 (检验类型 ) 一个已知未知未知大小均可大小 U U T 两个相互独立已知未知未知大小均可大小 U U T 两个互不独立配对未知未知大小 U T 8.1.2 进行均值比较及检验的过程 SPSS for Windows 提供了以下计算变量的描述统计量的过程和对均值进行检验的过程它们是 Means 过程 One-Sample T test 单样本 T 检验过程 Indepentdent-Samples T test 独立样本 T 检验过程 Paried-Samples T test 配对样本 T 检验过程和 One-Way Anova 一元方差分析过程 (如图 8-1 所示 ) 图 8-1 菜单 Compare Means”包含的 SPSS 过程 1 MEANS 过程 MEANS 过程计算指定变量的综合描述统计量当观测量按一个分类变量分组时 MEANS 过程可以进行分组计算例如要计算工作人员上班路程的平均公里数 SEX 变量把工作人员按性别分为女人男人两组 MEANS 过程可以分别计算男人女人上班路程的公里数用于形成分组的变量是其值数量少且能明确表明其特征的变量使用 MEANS 过程求若干组的描述统计量目的在于比较因此必须分组求均值这是与 Descriptives 过程不同之处 MEANS 过程在第六章已作过详细介绍在此不再赘述 2 T test T 检验过程 T test 过程是对样本进行 T 检验的过程按不同的比较方式分为 3 个功能 (1) One-Sample T test 单样本 T 检验过程检验单个变量的均值是否与给定的常数之间存在差异样本均数与总体均数之间的差异显著性检验属于单一样本 T 检验 (2) Indepentdent-Samples T test 独立样本 T 检验过程独立样本的 T 检验用于检验是否两个相关的样本来自具有相同均值的总体例如想知道购买你的产品的顾客与不购买你的产品的顾客平均收入是否相同可以合用对独立样本进行 T 检验的功能必须注意使用这种检验的条件是必须具有来自两个不相关组的观测量其均值必须是对你想在两组中都计算的变量的综合测度如果分组样本彼此不独立例如测度的是工人在技术培训前后某项技能的成绩要求比较培训前后均值是否有显著性差异应该使用配对 T 检验的功能 (Paired Simple T test) 如果分组不止两个应该使用 One Way ANOVA 一元方差分析过程进行单变量方差分析如果你试图比较的变量明显不是正态分布的则应该考虑使用一种非参数检验过程 (Nonparametric test) 如果用户想比较的变量是分类变量应该使用 Crosstabs 功能 (3) Paried-Samples T test 配对样本 T 检验过程配对 T 检验 (Paired Sample T test)用于检验两个相关的样本是否来自具有相同均值的总体这种相关的或配对的样本常常来自这样的实验结果在实验中被观测对象在实验前后均被观测例如想要知道技术培训以后是否提高了工作效率可以在这个研究中在培训前后完成一道工序的时间在构成数据文件时一个工人培训前后完成一道工序的时间形成一个观测量两个变量可以是 BEFORE AFTER 配对分析的测度也不是必须来自同一个观测对象可以两者组合而成例如根据实验前学习成绩和智商均相同的两个孩子分别进行不同教学方法进行一段实验教学后比较参与实验的两组学生平均成绩差异是否具有统计意义 3 One Way ANOVA 一元方差分析过程一元方差分析用于检验几个独立的组是否来自均值相同的总体例如可以检验三个减肥训练计划体重量下降的效果 (均值 )是否相同同时想看看哪一种训练计划效果最好或者三个训练计划中哪两个之间的差别最显著应该使用 One Way ANOVA 过程如果按性别体重级别对肥胖患者再进行分组进行三个训练计划的实验不但要想知道哪一种训练计划对降体重最有效而且想知道同一种训练方法对不同性别是否具有不同的效果或者想作每天的进食量对分析结果的影响应该选择 ANOVA Models 子菜单中的各个功能进行多元方分析如果分析变量的分布明显是非正态分布的应该选择非参数检验过程非参数检验的内容参见第十四章 One Way ANOVA 过程以及多因素方差分析的内容请见第 9 章 8.2 单样本 T 检验 8.2.1 单样本 T 检验的基本概念单样本 T 检验单个变量的均值是否与给定的常数之间存在差异例如研究人员想知道一组学生的 IQ 平均分数与 100 人的差异如果已知总体均数进行样本均数与总体均数之间的差异显著性检验也属于单一样本的 T 检验例如一个谷类工厂要求产品重量为 1.3 磅从某生产线上取出几盒样品检查样品的平均重量在 95%水平上与 1.3 磅是否存在显著差异其中 1.3 磅是生产要求的重量可以看作是总体均数检验这条生产线的产品是否合格的问题就是进行样本均数与总体均数之间的差异显著性检验即进行单一样本 T 检验的问题设总体 X 服从正态分布 N( ,б 2 ),其中б 2 未知从中抽取子样 (X 1 X 2 ... X n ) 现要检验假设 H 0 0 H 1 0 其中 0 为已知常数在方差б 2 已知的情况下对总体均值作假设检验时选用统计量 1/ 0 ? ? = n X U σ μ 但现在其中б的未知所以不能直接采用 U 作检验统计量通常在标准差б未知时我们用子样标准差 S 来代替总体标准差得到新的统计量 1/ 0 ? ? = nS X T μ 由抽样分布定理可知若 H 0 成立则统计量 T 服从自由度为 n 1 的 t 分布对于给定的由 t 分布表可查得临界值 t /2 (n 1) 使 α α =?> )}1(t|TP{| 2/ n 如果算得 T 的值 t 落入其拒绝域 C: t t /2 (n 1)内 ,则拒绝 H 0 我们也可得出一个推论当样本平均值大于 0 时在假设 0 与假设 0 下得出的结论是等价的也就是说当样本平均值大于 0 时 ,若我们拒绝或接受 0 也必然拒绝或接受 < 0 若我们拒绝或接受 0 也必然拒绝或接受 0 8.2.2 单样本 T 检验的功能与应用执行 One-Sample T Test 过程 SPSS 将显示每个检验变量的统计量的均值标准差和均值的标准误检验样本是否来自总体均数为一指定总体的结果显示样本值与常数之差以其 95 的可信区间 8.2.3 单样本 T 检验的应用示例下面举出一个实际例子来说明单样本 T 检验过程 [例 8-1] 某轮胎厂的质量分析报告中说明该厂某轮胎的平均寿命在一定的载重负荷与正常行驶条件下会大于 25000 公里平均轮胎寿命的公里数近似服从正态分布现对该厂该种轮胎抽取一容量为 15 个的样本试验结果得样本均值为 27000 公里能否作出结论该厂产品与申报的质量标准相符数据如下图 8-2 数据文件所示图 8-2 轮胎寿命数据文件 X X 由于该正态总体的方差未知且样本数为 15 个小于 30 为小样本可用 T 检验法作假设 H 0 25000(或 25000) H 1 >25000(或 25000) 取显著性水平为 0.05 由于轮胎寿命不可能为负值故这里是右侧单边检验实际问题中当样本值不能取负值时都是右侧单边检验由 T 分布查得临界值为 T 0.05 14 1.76 从 SPSS 的 Analyze ? Compare Means ? One-Sample T Test 进入 One-Sample T Test 单样本 T 检验主对话框如图 8-3 所示选中对话框左边矩形框中的变量轮胎寿命公里数 [x] 点击向右的箭头键使之进入 Test Variable(s)变量矩形框在 Test Value 检验值栏中填入 25000 其余使用系统默认值如图 8-4 所示图 8-3 选择前单样本 T 检验主对话框图 8-4 选择后单样本 T 检验的主对话框然后点击 OK 按钮提交运行所得的结果如表 8-2 表 8-3 所示表 8-2 轮胎质量单样本 T 检验计算所得统计量值 N Mean Std.Deviation Std.Error Mean 轮胎寿命公里数 15 26166.67 4704.3546 1214.6591 表 8-3 轮胎质量单样本 T 检验结果 Test value=25000 95% Confidence Interval of the Difference t df Sig.(2-tai led) Mean Difference Lower Upper 轮胎寿命公里数 1.671 14 .117 2000.000 567.7794 1567.7794 表 8-2 中 N 表示样本数 Mean 表示该样本的平均数 Std. Deviation 为标准差 Std. Error Mean 为标准误表 8-3 中 t 表示 T 检验之 t 值 df 表示自由度数 Sig(2 tailed)表示双尾 T 检验概率 Mean Difference 表示样本均值与检验值之差 95 Confidence Interval of the Difference 表示在 95 的可信度下差值的可信区间 lower 表示该区间的下限 Upper 表示该区间的上限从结果可知由于 t<1.76 不能拒绝假设 H 0 25000 即是说样本数据的信息并不支持轮胎真正寿命大于 25000 公里的结论 8.2.4 单样本 T 检验过程本节详细分析了单样本 T 检验的 SPSS 过程单样本 T 检验的 SPSS 过程一般分为四步建立无效假设 H 0 ,假设 0 建立数据集 (数据文件 ) 仅有一个变量对话框选项的选择结果分析下面就 3.对话框选项的选择详细阐述按 Analyze ? Compare Means ? One-Sample T Test 进入 One-Sample T Test 单样本 T 检验主对话框如图 8-3 在此对话框中选中左边的源变量矩形框中唯一的变量点击源变量框与 Variable 变量框之间的向右按钮将变量移入变量框在 Test Value 检验值一栏中填入 0 的大小选择后的主对话框如图 8-4 所示单击 Options 按钮弹出 Options 选择项对话框如图 8-5 所示图 8-5 单样本 T 检验 Options 选择项对话框此对话框中 Confidence Interval 一栏为可信水平系统默认为 95 读者可以改写在 Missing Values 一栏中有两个选项一为 Exclude cases analysis by analysis 选项带有缺失值的观测量当它与分析有关时才被剔除一为 Exclude cases listwise 选项剔除在主对话框中 Variables 矩形框中列出的变量带有缺失值的所有观测量点击 Continue 按钮可返回主对话框下面再举出一例 [例 8-2] 正常人的脉搏平均 72 次 /分现测得 10 例某病患者的脉搏 (次 /分 ) 54 67 68 78 70 66 67 70 65 69 试问此病患者与正常人有无明显差异 1 建立无效假设 H 0 该病患者的脉搏与正常人的脉搏平均相等 2 建立数据文件如图 8-6 所示图 8-6 某病患者脉搏的数据文件 3 单样本 T 检验选项的选择从 Analyze ? Compare Means ? One-Sample T Test 进入 One-Sample T Test 单样本 T 检验主对话框将变量病患者脉搏 [pulse] 选入 Test Variable(s)变量矩形框在 Test Value 检验值中输入 72 单击 OK 按钮提交运行 4 所得结果如表 8-4 表 8-5 所示表 8-4 某病患者脉搏单样本 T 检验计算所得统计量值 N Mean Std. Deviation Std.Error 病患者脉搏 10 67.4000 5.9292 1.8750 样本平均数为 67.4 次 /秒小于正常人脉搏 72 次 /秒虽然如此但是还要检验其统计意义因为这一差异很有可能是抽样误差或测量误差造成的表 8-5 某病患者脉搏单样本 T 检验结果 Test value=72 95%Confidence Interval of the Difference t df Sig.(2-tailed) Mean Difference Lower Upper 病患者脉搏 -2.453 9 .037 -4.6000 -8.8415 -.3585 由表 8-5 得 t=-2.453 df 9 双尾检验 P=0.037<0.05 故可认为此病患者与正常人的脉搏差异是有统计意义的两均数之差为 67.4 72=-4.6 其 95 可信区间为 -8.8415 到 -0.3585 8.3 独立样本 T 检验进行独立样本 T 检验要求被比较的两个样本彼此独立即没有配对关系要求样本均来自正态总体而且均值对于检验是有意义的描述统计量独立样本 T 检验和配对样本的 T 检验均使用 T test 过程但是使用的菜单不同对于数据文件结构的要求和所使用的命令语句也有区别 8.3.1 独立样本 T 检验的基本概念 Indepentdent-Samples T Test 过程是进行两样本均数的比较设总体 X 服从设正态分布 N( 1 ,б 2 ) Y 服从设正态分布 N( 2 ,б 2 ) 其中公共б 2 未知分别从总体中抽取样本 (X 1 X 2 ... X n1 )和 (Y 1 Y 2 ... Y n2 ) 且两样本互相独立现要检验假设 H 0 1 2 H 1 1 2 与单样本 T 检验相似构造新统计量 21 11 nn S YX T w + ? = 其中 2 21 2 22 2 112 ?+ + = nn SnSn S w S 1 2 和 S 2 2 分别为两总体的子样本方差 n 1 和 n 2 分别为两样本的样本数如果假设成立根据抽样分布定理可知统计量 T 服从自由度为 n 1 n 2 2 的 t 分布对于给定的由 t 分布表可查得临界值 t /2 (n 1 n 2 2) 使 α α =?+> )}2(t|TP{| 212/ nn 如果算得 T 的值 t 落入其拒绝域 C: t t /2 (n 1 n 2 2)内 ,则拒绝 H 0 8.3.2 独立样本 T 检验的功能与应用执行 Independent-Sample T Test 独立样本 T 检验过程 SPSS 将显示每个检验变量的统计量的均值标准差标准误和样本含量检验两样本是否来自相等的 Levene 检验结果假定方差齐性时检验两样本均数是否来自同一总体均数的 t 检验结果假定方差不齐时检验两样本均数是否来自同一总体均数的 t 检验结果差值的均数标准差标准误和可信区间 8.3.3 独立样本 T 检验的应用示例 [例 8-3] 某物质在处理前与处理后分别抽样分析其含脂率如下处理前 (Xi) 0.19 0.18 0.21 0.30 0.41 0.12 0.27 处理后 (Yi) 0.15 0.13 0.07 0.24 0.19 0.06 0.08 0.12 假定处理前后的含脂率都服从正态分布且方差相同问处理前后的含脂率的平均值是否有显著变化 ?( =0.05) 将上述数据输入数据文件其中变量 group 为分组变量用 1 标识处理前数据用 2 标识处理后数据如图 8-7 所示图 8-7 处理前后的含脂率的数据文件选择从 Analyze ? Compare Means ? Indepentdent-Sample T Test 激活 Independent-Sample T Test 独立样本 T 检验主对话框如图 8-8 所示图 8-8 选择前独立样 T 检验主对话框将变量处理前后 [xy] 选中点击靠近 Test Variable(s)检验变量栏的向右箭头按钮使之进入该矩形栏选中变量分组 [group] 点击靠近 Grouping Variable 分组变量栏的向右箭头按钮使之进入该矩形栏点击 Define Groups 按钮弹出 Define Groups 定义分组对话框选择 Use specified value 并在 Group 1 或 2 后面的矩形框中输入变量 group 的两个值 1 和 2 如图 8-9 所示点击 Continue 按钮返回主对话框如图 8-10 所示在主对话框中点击 OK 按钮提交运行图 8-9 Define Groups 定义分组对话框图 8-10 选择后的独立样 T 检验主对话框得到的计算结果如表 8-6 表 8-7 所示表 8-6 独立样本 T 检验计算所得统计量分组 N Mean Std.Deviation Std.Error Mean 处理前后 1 2 7 8 .2400 .1300 9.557E-02 6.234E-02 3.612E-02 2.204E-02 表 8-7 独立样本 T 检验结果 Independent Samples Test 1.375 .262 2.676 13 .019 .1100 4.110E-02 .0212 .1988 2.600 10.10 .026 .1100 4.231E-02 .0158 .2042 Equal variances assumed 假定方差相等 Equal variances not assumed假定方差不相等处理前后 F Sig. 方差相等概率 Levene's Test for Equality of Variances方差相等之 Levene检验 t df自由度 Sig. (2-tail ed)双尾检验概率 Mean Diffe rence 均数之差 Std. Error Difference 均数之差标准误 Lower 下限 Upper 上限 95% Confidence Interval of the Difference95 可信区间 t-test for Equality of Means均数相等检验由表 8-6 表 8-7 可得出以下结论 1 Levene 方差齐性检验 F=1.375 P=0.262>0.05,可以认为两样本方差相等 2 进行方差齐性检验时 t=2.676 P=0.019<0.05,可以认为处理前与处理后的含脂率是有统计意义的 3 处理前样本的均数为 0.2400 标准差为 0.09557 处理后样本的均数为 0.1300 标准差为 0.06234 两样本均数之差为 0.1100 均数之差的标准误为 0.041 以及 95 水平的可信区间为 0.0212 到 0.1988 下面举出一个两独立样本几何均数比较的示例 [例 8-4] 选甲型流感病毒血凝抑制抗体滴度 (对数 ) 共 24 人随机分为两组每组 12 人用甲型流感病毒活疫苗进行免疫一组用气雾法另一组用鼻腔雾法免疫后一月采血分别测定血凝抑制抗体滴度结果如下问两法的效果有无差异气雾组 1 40 20 30 25 10 15 25 30 40 10 15 30 鼻腔雾组 2 50 40 30 35 60 70 30 20 25 70 35 25 建立数据文件变量有血凝抑制抗体滴度对数 [x]与组别 [group] 如图 8-11 所示图 8-11 血凝抑制抗体滴度对数 [x]与组别 [group]数据文件选择 Transform ? Compute 激活 ComputeVariable 新变量赋值主对话框令 lgx=lg(x) 如图 8-12 所示点击 OK 按钮执行数据文件新增变量 lgx 如图 8-13 所示然后选择 Analyze ? Compare Means ? Independent-Sample T Test 进入 Independent-Sample T Test 独立样本 T 检验对话框 (如图 8-14 所示 ) 将变量 lgx 放入 Test Variable(s)检验变量栏把组别 [group] 放入 Grouping Variable 分组变量栏单击 Define Groups 按钮激活 Define Groups 定义分组对话框选择 Use specified values 并在两个 Group 矩形框后分别输入 1 和 2 如图 8-9 所示单击 Continue 按钮返回 Independent-Sample T Test 独立样本 T 检验对话框 ,如图 8-15 所示图 8-12 ComputeVariable 新变量赋值主对话框图 8-13 新生成的数据文件图 8-14 生成新变量的独立样本 T 检验主对话框图 8-15 进入计算准备时的独立样本 T 检验主对话框点击 OK 按钮得到的计算结果如表 8-8 表 8-9 所示由表 8-8 表 8-9 可得出以下结论 1 Levene 方差齐性检验 F=0.420 P=0.524>0.05 可以认为两样本方差相等 2 进行方差齐性检验时 t=-2.934 P=0.008<0.05 可以认为两法免疫的效果有统计意义 3 气雾组样本的均数为 1.3404 标准差为 0.2104, 鼻腔雾组样本的均数为 1.5757 标准差为 0.1814 两样本均数之差为 -0.2353 均数之差的标准误为 0.0802 以及 95 水平的可信区间为 -0.4017 到 0.0690 表 8-8 独立样本 T 检验计算所得统计量组别 N Mean Std. Deviation Std. Error Mean LGX 1 2 12 12 1.3404 1.5757 .2104 .1814 6.074E-02 5.238E-02 表 8-9 独立样本 T 检验计算结果 Independent Samples Test .420 .524 -2.934 22 .008 -.2353 8.020E-02 -.4017 -6.90E-02 -2.934 21.535 .008 -.2353 8.020E-02 -.4019 -6.88E-02 Equal variances assumed Equal variances not assumed LGX F Si g. Levene's Test for Equality of Variances t df Sig. (2-ta iled) Mean Difference Std. Error Difference Lower Upper 95% Confidence Interval of the Difference t-test for Equality of Means 8.3.4 独立样本 T 检验过程 Independent-Sample T Test 独立样本 T 检验过程与单样本 T 检验过程一样基本上可分为四步 1 建立无效假设 H 0 1 2 H 1 1 2 2 建立数据文件 3 对话框选项的选择 4 结果分析下面就 “3.对话框选项的选择 ”详细阐述从 Analyze ? Compare Means ? Independent-Sample T Test 进入 Independent-Sample T Test 独立样本 T 检验主对话框如图 8-8 图 8-14 在此对话框中选中左边的源变量矩形框中的用于检验的变量点击源变量框与 Variable 变量框之间的向右按钮将其移入 Test Variable(s)检验变量框中选中用于标识分组的变量用同样的方法将其移入 Grouping Variable 分组变量框如图 8-10 和图 8-15 单击 Options 按钮弹出 Options 选择项对话框如图 8-16 所示它是用来确定可信度和控制缺失值的处理的图 8-16 独立样本 T 检验 Options 选择项对话框此对话框中的 Confidence Interval 栏为可信水平系统默认为 95 读者可以改写在 Missing Values 栏中有两个选项一为 Exclude cases analysis by analysis 选项带有缺失值的观测量当它与分析有关时才被剔除一为 Exclude cases listwise 选项剔除在主对话框中 Variables 矩形框中列出的变量带有缺失值的所有观测量点击 Continue 按钮可返回主对话框在主对话框中单击 Define Groups 按钮可进入 Define Groups 子对话框如图 8-17 所示 (1) (2) (3) 图 8-17 Define Groups 定义分组子对话框的三种状态对于 Use specified values 使用指定值栏如果是分组变量时分类变量则选用此项此变量可以是数值型变量 (如图 8-17(2)) 也可以是短字符串型变量 (如 Yes 和 No male 和 female) 在 Group1 Group2 后的矩形框中可输入分组变量值以标识不同的组以便做不同样本组间均值的比较对于 Cut point 分割点栏如果分组变量是连续变量则选用此项并在其后的矩形框中输入分割值此值把数据分为两部分 ,大于或等于此值的数据为一组小于此值的为一组下面再举例来说明两独立样本均数比较和两独立样本几何均数比较独立样本均数比较例题 [例 8-5] 在某克山病区测得 11 例克山病患者与 13 名健康人的血磷值 mmol/L 如下问该地区急性克山病患者与健康人的血磷值是否不同患者 0.84 1.05 1.20 1.20 1.39 1.53 1.67 1.80 1.87 2.07 2.11 健康人 0.54 0.64 0.64 0.75 0.76 0.81 1.16 1.20 1.34 1.35 1.48 1.56 1.87 首先添加一分组变量 group,建立数据文件如图 8-18 所示图 8-18 急性克山病患者与健康人的血磷值的数据文件选择 Analyze ? Compare Means ? Independent-Sample T Test 激活 Independent-Sample T Test 独立样本检验主对话框把变量血磷值 [x] 选入 Test Variable(s) 检验变量栏中把变量分组 [group] 选入 Grouping Variable 分组变量栏中单击 Define Groups 按钮激活 Define Groups 定义分组对话框选择 Use specified values 并在两个 Group 矩形框后分别输入 1 和 2 单击 Continue 按钮返回 Independent-Sample T Test 独立样本 T 检验对话框点击 OK 按钮提交运行所得结果如表 8-10 表 8-11 所示表 8-10 独立样本 T 检验计算所得统计量分组 N Mean Std. Deviation Std.Error Mean 血磷值 1 2 11 13 1.5209 1.0846 .4128 .4221 .1272 .1171 表 8-11 独立样本 T 检验结果 Levene’s Test for Equality of Variances t=test for Equality of Means 95% Confidence Interual of the Difference F Sig. t Df Sig.(2- tailed) Mean Difference Std.Error Difference Lower Upper 血磷值 Equal variances assumed Equal Variances Not assumed .032 .860 2.52 2.52 22 21.353 .019 .020 .4363 .4363 .1729 .1729 7.78E-02 7.72E-02 .7948 .7954 由表 8-6 表 8-7 可得出以下结论 1 Levene 方差齐性检验 F=0.032,P=0.860>0.05 可以认为两样本方差相等 2 进行方差齐性检验时 t=2.52 P=0.019<0.05 可以认为该地区克山病患者与正常人血磷值之间是有统计意义的 3 患者样本的均数为 1.5209 标准差为 0.4218 健康人样本的均数为 1.0846 标准差为 0.4221 两样本均数之差为 0.4363 均数之差的标准误为 0.1729 以及 95 水平的可信区间为 0.07777 到 0.7948 [例 8-6] 对用二种不同的热处理方法加工的金属材料做抗拉强度试验得到试验数据如下甲种方法 31 34 29 26 32 35 38 34 30 29 32 31 乙种方法 26 24 28 29 30 29 32 26 31 29 32 28 设此两法所加工金属材料的抗拉强度都服从正态分布且两总体方差相等给定显著水平 =0.05 问两种方法所得金属材料的平均抗拉强度有无显著差异将上述数据输入数据文件将两种方法测得的样本值统一用变量 x 来存放并增加分组变量 group 将甲种方法标识为 1 乙种方法标识为 2 选择 Analyze ? Compare Means ? Independent-Sample T Test 激活 Independentt-Sample T Test 独立样本检验主对话框将变量 x 选入检验变量栏将变量 group 选入分组变量栏在 Define Groups 定义分组对话框中选择 Use specified values 并在两个 Group 矩形框后分别输入 1 和 2 点击 OK 键提交运行得到的计算结果如表 8-12 表 8-13 表 8-12 独立样本 T 检验计算所得统计量分组 N Mean Std. Deviation Std.Error Mean 抗拉强度 1 2 12 12 31.75 28.67 3.19 2.46 .92 .71 表 8-13 独立样本 T 检验计算结果 Levene’s Test for Equality of Variances t-test for Equality of Means 95% Confidence Interual of the Difference F Sig. t Df Sig.(2-tai led) Mean Differenc e Std.Error Difference Lower Upper 抗拉强度 Equal variances assumed Equal Variances Not assumed .557 .463 2.648 2.648 22 20.659 .015 .015 3.08 .3.08 1.16 1.16 .67 .66 5.50 5.51 由表 8-12 表 8-13 可得出以下结论 1 Levene 方差齐性检验 F=0.557 P=0.463>0.05 可以认为两样本方差相等 2 进行方差齐性检验时 t=2.648 P=0.015<0.05 可以认为甲种方法和乙种方法之间是有统计意义的 3 甲种方法样本的均数为 31.75 标准差为 3.19 乙种方法的均数为 28.67 标准差为 2.46 两样本均数之差为 3.08 均数之差的标准误为 1.16 以及 95 水平的可信区间为 0.67 到 5.50 作 T 检验时应首先检验方差是否相等以上例子都是经检验后两样本方差相等的下面举出一个经检验后方差不相等的例子 [例 8-7] 甲乙两矿坑平均产煤中含矸率 ( )指标是服从正态分布的今分别从两坑所产煤中各抽取 7 个样品测得含矸率指标如下甲坑 (x) 5.9 3.8 6.5 18.3 18.2 16.1 7.6 乙坑 (y) 7.6 0.4 1.1 3.2 6.5 4.1 4.7 能否判断出它们的含矸率有显著差异 ( =0.05) 首先建立数据文件用变量 xy 存放两坑样品的观测值用分组变量 group 标识甲乙两坑 1 标识甲坑 2 标识乙坑对话框各选择项的选择与上例类似点击 OK 按钮提交运行所得结果如表 8-14 表 8-15 所示表 8-14 独立样本 T 检验计算所得统计量分组 N Mean Std. Deviation Std.Error Mean 甲乙坑 1 2 7 7 10.9143 3.9429 6.3344 2.6362 2.3942 .9964 表 8-15 独立样本 T 检验计算结果 Levene’s Test for Equality of Variances t-test for Equality of Means 95% Confidence Interval of the Difference F Sig. t df Sig.( 2- tailed ) Mean Differ ence Std.Error Differen ce Lower Upper 甲乙坑 Equal variances assumed Equal variances 19.78 .001 2.688 2.688 12 8.018 .020 .028 6.9714 6.9714 2.5932 2.5932 1.321 .9937 12.622 12.949 由表 8-14 表 8-15 得 1 Levene 方差齐性检验 F=19.78 P=0.001<0.05 因而认为两样本方差不相等 2 由于经检验两样本方差不相等故在表 8-15 中应看 Equal Variances not assumed 一行 t=2.688 P=0.028<0.05 可以认为甲乙两坑之间的含矸率是有统计意义的可以认为两坑的含矸率有显著差异 3 甲坑样本的均数为 10.9143 标准差为 6.3344 处理后样本的均数为 3.9429 标准差为 2.6362 两样本均数之差为 6.9714 均数之差的标准误为 6.9714 以及 95 水平的可信区间为 0.9937 到 12.949 8.4 配对样本 T 检验在实际中有些数据是天然相关成对的为了需要有时也要设计试验使数据间成为相关成对无论是天然相关的还是人为设计的两样本间的方差并不相等这时两总体平均值有无显著性差异的检验要用配对样本 T 检验过程 8.4.1 配对样本 T 检验的基本概念进行配对样本的 T 检验要求被比较的两个样本有配对关系要求两个样本均来自正态总体而且均值是对于检验有意义的描述统计量均值的配对比较是比较常见的 (见以下几个例子 ) 1 同一窝实验用小白鼠按性别体重相同配对再随机分到实验组和对照级分别喂加入海藻的饮料和普通饮料三个月后分别将每对白鼠置于水中测量其到溺死前的游泳时间比较两组白鼠游泳时间均值从而比较两种饮料对抗疲劳的作用 2 同一组高血压病人在进行体育疗法前后测量其血压每个病人在体育疗法前后的血压测量值构成观测量对可以是这组病人体育疗法前后血压的平均值进行配对 T 检验分析体育疗法对降血压的疗效 3 在研究人体各部位体温是否有差别时一个人的两个部位的温度构成一对数据测量若干人的同样部位的温度数据可以比较这两个部位平均温度是否有显著性差异使用配对 t 检验配对样本 T 检验实际上是先求出每对测量值之差值对差值求均值检验配对变量均值之间的差异是否显著其实质检验的假设实际上是差值的均值与零均值之间差异的显著性如果差值均值与 0 均值无显著性差异说明配对变量均值之间无显著性差异设总体 X 服从设正态分布 N( 1 ,б 1 2 ) Y 服从设正态分布 N( 2 ,б 2 2 ) 其中б 1 2 б 2 2 未知它们未必相等分别从总体中抽取样本 X 1 X 2 ... X n1 和 Y 1 Y 2 ... Y n2 我们引进一个新的随机变量 Z=X-Y 对应的一组子样值 (Z 1 Z 2 ... Z n ) 其中 Z i X i -Y i ,i=1,……n X Y 的差异反映在数据 Z I 上若无显著差异则应有 z 0 因此问题归结为检验假设 H 0 z 0 H 1 z 0 X Y 服从正态分布时变量 Z 也服从正态分布其中 z E Z 构造新统计量 1/ ? = nS Z T z 如果假设成立根据抽样分布定理可知统计量 T 服从自由度为 n-1 的 t 分布对于给定的由 t 分布表可查得临界值 t /2 (n-1) 使 α α =?+> )}2(t|TP{| 212/ nn 如果算得 T 的值 t 落入其拒绝域 C: t t /2 (n 1 n 2 2)内 ,则拒绝 H 0 8.4.2 配对样本 T 检验功能与应用配对样本 T 检验过程师进行配对样本均数的比较执行该过程 SPSS 将显示每个变量的均数标准差标准误和样本含量每对变量的相关系数每对变量差值得均数标准差标准误和可信区间检验每对变量差值的均数是否来自总体均数为 0 的 t 检验结果配对样本 T 检验与独立样本 T 检验均使用 T TEST 过程但两者调用该过程的菜单不同对数据文件结构的要求不同和所使用的命令语句也有区别在进行配对样本 T 检验的数据文件中一对数据必须作为同一个观测量中的两个变量值 Indepentdent-Samples T Test 过程是进行两样本均数的比较 8.4.3 配对样本 T 检验的应用示例举出一个示例说明配对样本 T 检验的 SPSS 过程是如何运用的 [例 8-8] 某单位研究饮食中缺乏维生素 E 与肝中维生素 A 含量的关系将同种属的大白鼠按性别相同年龄体重相近者配成对子共 8 对并将每对中的两头动物随机分到正常饲料组和维生素 E 缺乏组过一定时期后将大白鼠杀死测得其肝中维生素 A 的含量结果如表 8-16 所示问不同饲料的大白鼠中维生素 A 含量有无差别表 8-16 不同饲料组大白鼠维生素 A 含量数据表大白鼠对号 12345678 正常饲料组 3550 2000 3000 3950 3800 3750 3450 3050 维生素 A 缺乏组 2450 2400 1800 3200 3250 2700 2500 1750 将其输入到数据文件中如图 8-19 所示图 8-19 数据文件然后选择 Analyze ? Compare Means ? Paired-Sample T Test 激活 Paired-Sample T Test 配对样本检验主对话框如图 8-20 所示图 8-20 Paired-Sample T Test 配对样本检验主对话框单击正常饲料组 [x1] x1 出现在 Current Selection 当前选择栏中的 Variable 1 后面单击维生素 E 缺乏组 [x2] x1 出现在 Variable 2 后面如图 8-21 所示点击两个变量栏之间的向右箭头按钮使 Current Seletion 的变量进入右边的 Paired Variable(s) 配对变量栏如图 8-22 所示图 8-21 选中配对变量时的配对 T 检验主对话框图 8-22 即将运行时的配对 T 检验主对话框单击 OK 按钮提交运行所得的输出结果如表 8-17 表 8-18 和表 8-19 所示表 8-17 Paired Samples Statisticsp 配对样本统计量 Mean 均数 N例列数 Std. Deviation 标准差 Std.Erro r 标准误 Paior 正常饮料组 1 维生素 E 缺乏组 3318.75 2506.25 8 8 632.42 555.13 223.59 196.27 表 8-18 Paired Samples Statisticsp 配对样本相关系数 N例数 Correlation Sig.S概率 Pair 正常饮料组 & 1 维生素 E缺乏组 8 .584 .129 表 8-19 Paired Samples Test 配对样本检验结果 Paired Differences 配对差 95% Confidence Interval of the Difference 差之 95%可信区间 Mean 均数 Std. Deviation 标准差 Std.Erro r Mean 标准误 Lower 下限 Upper 上限 t df 自由度 Sig.(2-4 ailed) 双尾检验概率 Pair 正常饮料组 - 1 维生素 E 缺乏组 812.50 546.25 193.13 355.82 1269.18 4.207 7 .004 由表 8-17 表 8-18 和表 8-19 得结果如下 1 相关系数 r=0.584 P=0.129 认为两配对变量无相关关系 2 t=4.207 自由度 df=7 双尾检验概率 P 0.004<0.05 故可认为不同饲料的大白鼠肝中维生素 A 含量有统计意义 3 配对数差之均数 =3318.75-2506.25=812.50 标准差为 546.25 标准误为 193.13 95% 的可信区间为 355.82 到 1269.18 8.4.4 配对样本 T 检验过程由上例可以看出配对样本 T 检验过程有以下四个步骤 1 建立无效假设这一步基本上可省略 2 建立数据文件 3 选择好对话框的选择项 4 结果分析下面重点介绍选择好对话框的选择项部分在 Paired Variable Ttest 配对样本 T 检验主对话框 (如图 8-20 图 8-21 和图 8-22 所示 ) 中选择好配对变量主对话框左边的源变量栏中只有两个变量的选择方法在例 8-8 中已有介绍这里不再赘述唯一要补充说明的是当源变量栏中有三个或三个以上的变量时的选择方法先选择一对配对变量使之进入 Paired Variable(s)配对变量栏然后再选中下一对配对变量使之进入 Paired Variable(s)配对变量栏 ,这样就可以指定多对配对变量同时进行分析在配对变量栏中配对变量名处于同一行中间有连接在配对样本 T 检验主对话框的右下角有一个 Options 按钮点击该按钮弹出 Options 选择项对话框如图 8-23 所示图 8-23 独立样本 T 检验 Options 选择项对话框此对话框与图 8-5 图 8-26 完全相同 Confidence Interval 一栏为可信水平系统默认为 95 读者可以改写 Exclude cases analysis by analysis 选项当带有缺失值的观测量与分析有关时才被剔除 Exclude cases listwise 选项剔除在主对话框中 Variables 矩形框中列出的变量带有缺失值的所有观测量点击 Continue 按钮可返回主对话框点击 OK 按钮便可运行该过程下面举出一道多对配对变量的 T 检验例题 [例 8-9] 为了检验甲乙丙三种分离机在析出某种有用物质效能上的高低今抽取 8 批溶液每批均分成三份分别由甲乙丙机分解处理其析出效果数据如表 8-20 所示试问甲乙丙三种机在析出效能上有无差异 (ɑ =0.05)? 表 8-20 甲乙丙三种机析出效能数据表样号 12345678 甲 (X 4.0 3.5 4.1 5.5 4.6 6.0 5.1 4.3 乙 (Y) 3.0 3.0 3.8 2.1 4.9 5.3 3.1 2.7 丙 (Z) 3.2 3.8 4.3 3.6 4.0 4.9 4.7 2.4 将其输入数据文件如图 8-24 所示图 8-24 甲乙丙三机析出效能数据文件选择 Analyze ? Compare Means ? Paired-Sample T Test 激活 Paired-Sample T Test 配对样本检验主对话框将三个变量甲机 [x] 乙机 [y] 和丙机 [z] 两两配对组成三对配对变量进行 T 检验其余使用系统默认值即将提交运行时的配对样本 T 检验主对话框如图 8-25 所示图 8-25 即将提交运行时的配对样本 T 检验主对话框单击 OK 按钮提交运行该过程得到的结果如下表 8-21 表 8-22 和表 8-23 所示表 8-21 Paired Samples Statisticsp 配对样本统计量 Mean N Std.Deviation Std. Error Mean Pair 甲机 1 乙机 Pair 甲机 2 丙机 Pair 乙机 3 丙机 4.638 3.488 4.638 3.862 3.488 3.862 8 8 8 8 8 8 .838 1.105 .838 .814 1.105 .814 .296 .391 .296 .288 .391 .288 表 8-22 Paired Samples Statisticsp 配对样本相关系数 N Correlation Sig. Pair 1 甲机 &乙机 Pair 2 甲机 &丙机 Pair 3 乙机 &丙机 8 8 8 .309 .486 .596 .456 .222 .119 表 8-23 Paired Samples Test 配对样本检验结果 Paired Differences 95% Confidence Interval of the Difference Mean Std. Deviation Std. Error Mean Lower Upper t df Sig.(2-tailed) Pair1 甲机 -乙机 Pair2 甲机 -丙机 Pair3 乙机 -丙机 1.150 .775 -3.75 1.163 .838 .900 .411 .296 .318 .178 7.446E-02 -1.128 2.122 1.476 .378 2.798 2.616 -1.178 7 7 7 .027 .035 .277 由表 8-21 表 8-22 和表 8-23 得结果如下 1 甲机与乙机的相关系数 r=0.309 P=0.456>0.05 可认为两配对变量无相关关系甲机与丙机 r=0.486 P=0.222>0.05 故可认为两配对变量无相关关系乙机与丙机 r=0.596 P=0.119>0.05 也可认为两配对变量无相关关系 2 对于第一对甲机与乙机 t=2.798 自由度 df=7 双尾检验概率 P=0.027<0.05 故可认为甲乙机之间有明显差异对于第二对甲机与丙机 t=2.616 P=0.035<0.05 故也可认为甲丙机之间有明显差异对于第三对乙机与丙机 t=-1.178 P=0.277>0.05 故可认为乙丙机之间的差异不是特别大若取显著性概率为 70 可以说两者之间是存在差异的 3 甲机与乙机配对数差之均数 =1.150 标准差为 1.163 标准误为 0.411 95%的可信区间为 0.178 到 2.122 甲机与丙机配对数差之均数 =0.775 标准差为 0.838 标准误为 0.296 可信区间为 0.0745 到 1.476 乙机与丙机配对数差之均数 = 0.375 标准差为 0.900 标准误为 0.318 可信区间为 -1.128 到 0.378 思考题 1 比较单样本 T 检验独立样本 T 检验和配对样本 T 检验的异同思考何时何种情况下该选择何种检验 2 深入理解假设检验的实际意义 3 学会怎样判断检验的显著性有无统计意义理解检验概率的实际意义第 9 章方差分析导言方差分析和回归分析是使用最多的两种统计方法方差分析是一种定性的统计方法而回归分析是一种定量的方法方差分析主要分析各效应的显著性即方差齐次性主要有以下几个内容单因素方差分析双因素方差分析多因素方差分析协方差分析多元方差分析重复设计方差分析等等这些方法在现实生活中有着极大的应用范围方差分析是一套通过试验获取数据并进行分析的统计方法通过对试验进行精心的设计使得在有限的物质条件下 (时间金钱人力等 ) 所得到的试验数据能够在尽可能少的试验中最大限度地包含有用的信息而方差分析就是相应的从试验数据中提取这种信息的统计分析方法在科学试验和现代工业质量控制中这套统计方法得到广泛的应用并产生了巨大的效果 9.1 方差分析的基本概念及方差分析过程 9.1.1 方差分析的基本概念通常一个复杂的事物其中往往有许多因素互相制约又互相依存例如某农作物的产量受到选种施肥水利等条件的影响橡胶配方中不同的促进剂不同份量的氧化锌和不同的硫化时间都会影响橡胶制品的质量反复通过试验或观测得到一批数据之后我们希望基于这批数据来分析一下哪些因素对该事物有显著影响有显著影响的因素何时效果最好因素间有没有交互作用从这些分析中找出事物的主要矛盾方差分析就提供解决这类问题的一个有效的统计方法 1923 年费歇尔 (R.A. Fisher)在一篇文章中首先提出了方差分析所以通常认为他是这一方法的创始人从此之后首先是在生物学和农业实验上其后又在许多科学研究中方差分析成为了一种非常有用的统计分析方法严格讲方差分析所分析的并非方差而是研究数据间的变异是在可比较的群组中把总的变异按各指定的变异来源进行分解的一种技巧对变异的度量可以说唯一有效的方法是离差平方和方差分析方法就是从总离差平方和中分解出可追溯到指定来源的部分离差平方这是一个很重要的基本思想 1 方差分析原理 (1) 随机误差例如测量误差造成的差异称为组内差异记作 L 组内 (2) 实验条件即不同的处理造成的差异称为组间差异用变量在各组的均值与总均值之偏差平方和表示记作 L 组间 L 组间 L 组内除以各自的自由度得到其均方值即组间均方 MS 组间和组内均方 /MS 组内一种情况是处理没有作用即各样本均来自同一总体 MS 组间 /MS 组内 l 考虑抽样差的存在则有 MS 组间 /MS 组内 l 另一种情况是处理确实有作用组间均方是由于误差与不同处理共同导致的结果各样本来自不同总体那么组间均方会远远大于组内均方即 MS 组间 MS 组内 MS 组间 /MS 组内比值构成 F 分布用 F 值与其临界值比较推断各样本是否来自相同的总体 2 方差分析的假设检验假设有 m 个样本如果原假设 H 0 样本均数都相同即 1 2 3 … m , 则 m 个样本有相同的б 2 则 m 个样本来自具有共同的方差б 2 和相同的均数的总体如果经过计算组间均方远远大于组内均方的 F>F 0.05 f 组间 f 组内 (括号中的两个 f 是自由度 )则 p<0.05 推翻原假设说明样本来自不同的正态总体说明处理造成均值的差异有统计意义否则 F<F 0.05 f 组间 f 组内 p>0.05 承认原假设样本来自相同总体处理无作用 9.1.2 方差分析的一些术语方差分析中的一些常用术语有必要了解常用的术语有以下几个 1 因素与处理因素是影响因变量变化的客观条件处理是影响因变量变化的人为条件也可以通称为因素例如影响农作物产量的因素有气温降雨量日照时间等研究不同肥料对不同种系农作物产量的影响时农作物的不同种系可称为因素所施肥料可视为不同的处理一般情况下 factors 与 Treatments 在方差分析中可作相同理解在要求进行方差分析的数据文件中均作为分类变量出现即它们的值只有有限个取值即使是气温降雨量等平常看作是连续变量的在方差分析中如果作为影响产量的因素进行研究就应该将其数值用分组定义水平的方法事先变为具有有限个取值的离散变量 2 水平因素的不同等级称作水平例如性别因素在一般情况下只研究两个水平男女化学实验或生物实验中的剂量必须离散化为几个有限的水平数如 1ml 2ml 4ml 三个水平应该特别注意的是在 SPSS 数据文件中作为因素出现的变量不能是字符型变量必须是数值型变量例如性别变量 SEX 定义为数值型取值为 0 或 l 换句话说因素变量的值实际上是该变量实际值的代码代码必须是数值型的可以定义值标签 F M 或 Female Male 来表明 0 l 两个值的实际含义以便在阅读方差分析结果时使用使结果更加具有可读性 3 单元 (Cell) 在方差分析中 Cell 指各因素的水平之间的每个组合例如研究问题中的因素有性别 Sex 取值为 0 l 有年龄分三个水平 1 10 岁 2 20 岁 3 30 岁两个变量的组合共可形成六个单元 l 1 1 2 l 3 [2 l 2 2 2 3 代表两种性别与三种年龄的六种组合 4 因素的主效应和因素间的交互效应这是在科学实验和生产实践中常常遇到的问题举例说明之有 A B 两种药物治疗缺铁性贫血患者 12 例分为 4 组实验方案是第一组用一般疗法第二组在一般疗法的基础上加用 A 药第三组在一般疗法的基础上加用 B 药第四组在一般疗法基础上 A B 两药同时使用一个月后观察红细胞增加数要求分析两种药物的疗效 (数据见表 9-l 所示 ) 数据来源于医用统计方法 (金丕焕人民卫生出版社 ) 表 9-1 实验数据第一组第二组第三组第四组红细胞增加数百万 /m 3 0.8 1.3 0.9 2.1 0.9 1.2 1.1 2.2 0.7 1.1 1.0 2.0 各组平均值 0.8 1.2 1.0 2.1 这是个双因素方差分析的问题因素 A 与因素 B 每个因素均有用该药与不用该药两个水平研究药物 A 和 B 是否对红细胞的增加有显著影响时对红细胞增加数的均值作以下比较 (1) 比较第二组的均值与第一组的均值是否有显著性差异 (2) 比较第三组的均值与第一组的均值是否有显著性差异前两项研究的是 A B 两因素的主效应 (3) 除了比较第四组的均值与第一组的均值是否有显著性差异外还要研究 A 药对 B 药的疗效是否有影响若 A 药对 B 药疗效无影响那么除采样误差外第四组与第二组均值之差应该等于第三组均值减去第一组均值但是实际上这两个差分别为 2.1-1.2=0.9 1.0-0.8=0.2 相差 0.7 这 0.7 的差值包括采样误差和 A B 药物的相互作用这种因素之间的相互作用在统计学上称为交互效应如果交互效应存在则说明两个因素不是相互独立的此例将在下节 9.1.3 方差分析的应用示例运用 SPSS 过程详细分析 5 均值比较均值的相对比较是比较各因素对因变量的效应的大小的相对比较例如研究 A B 效应之和是否等于它们的交互效应或者研究 A B 对红细胞增加数的效应是否相等等情况例如研究 A B 药物对红细胞增加数的疗效是否存在显著性差异 6 协方差分析在一般进行方差分析时要求除研究的因素外应该保证其他条件的一致作动物实验往往采用同一胎动物分组给予不同的处理研究各种处理对研究对象的影响就是这个道理又如研究身高与体重的关系时要求按性别分别进行分析这样消除性别因素的影响不同年龄的身高对体重的关系也是有区别的被测对象往往是不同年龄的要消除年龄的影响应该采用协方差分析 7 重复测量在社会学研究中常常遇到的问题是研究社会某些条件对人类特定方面的特性的影响社会调查数据采集量相当大往往是在某一个地区采样 100 另一个地区采样 100 两个地区的社会条件对研究对象来说可能是独立的但同一地区的 100 个个体同处于相同的社会条件下彼此并不独立进行方差分析时修正条件不独立造成的误差或者比较组间因素与组内因素的效应以便得出正确的分析结论使用重复测量的方差分析 9.1.3 方差分析的应用示例 [例 9-1] 下面对表 9-1 中 A B 药物对红细胞增加数的疗效的实验数据运用 SPSS 进行分析用数值 1 标识用药用数值 2 标识不用药这样 A 药和 B 药都有 1 2 种水平将表 9-1 转化为如表 9-2 表 9-2 A 和 B 两药治疗后病人红细胞增加数百万 /m 3 A药 B药用 1 不用 2 2.1 0.9 2.2 1.1 用 (1) 2.0 1.0 1.3 0.8 1.2 0.9 不用 2 1.1 0.7 设 X 为观测数据变量变量 A 为使用 A 药状态变量 B 为使用 B 药状态建立数据文件如图 9-1 所示图 9-1 A B 药物疗效数据文件为分析 A B 药物的交互效应使用 General Linear Model(简称 GLM)过程从 Analyze ? General Linear Model ? Univariate 激活 Univariate 主对话框如图 9-2 所示点击靠近 Dependent Variable 栏的向右箭头键将变量 x 放入该栏变量 a 和 b 放入 Fixed Factor(s)一栏如图 9-3 所示图 9-2 Univariate 主对话框图 9-3 选好变量的 Univariate 对话框点击 Options 激活 Options 对话框把 Factor(s) and Factor Interactions 栏中的所有因素放入 Display Mean for 栏中选择 Descriptive statistics Estimates of effect size Observed power Homogeneity tests 和 Spread vs level plot 等如图 9-4 所示单击 Continue 按钮返回主对话框图 9-4 Options 对话框点击 Plots 按钮激活 Profile Plot 对话框在 Univariate Profile Plot 对话框中把 Factors 栏的变量 a 放入 Horizontal Axis 栏变量 b 放入 Separate Lines 栏点击 Add 按钮如图 9-5 所示再点击 Continue 按钮返回主对话框图 9-5 Plots 对话框在 Univariate 主对话框中单击 OK 按钮提交运行得到如下几表表 9-3 各目标因素因素水平 N例数 A B 1 2 1 2 6 6 6 6 表 9-4 统计描述 1 1 2 Mean均数 Std. Deviation 标准差 N例数 Total 2 1 1.2000 1.6500 1.0000 1.000E-01 0.5010 0.1000 3 6 3 2 Total Total 1 0.8000 0.9000 1.5500 0.1000 0.1414 0.6091 3 6 6 2 Total 1.0000 1.2750 .2366 .5259 6 12 表 9-5 方差齐性的 Levene 检验 F Df1 第一自由度 Df2 第二 Sig.概率 .000 3 8 1.000 Tests the null hypothesis that the error variance of the dependent variable is equal across groups.检验的无效假设为名交叉组即各格子的响应变量的方差相等 a.Design: Intercep+A+B+A*B 模型设计截距 +因素 A+因素 B+因素 A*B 表 9-6 估计边缘均数 95% Confidence Interval 可信区间 Mean 均数 Std.Error 标准误 Lower Bound 下限 Upper Bound 上限 1.275 .029 1.208 1.342 A Mean Std.Error 95% Confi dence Interval 1 2 1.650 .900 .041 .041 1.556 .806 1.744 .994 95% Confidence Interval B Mean Std. Error Lower Bound Upper Bound 1 2 1.550 1.000 .041 .041 1.456 .906 1.644 1.094 95% Confidence Interval A B Mean Std.Error Lower Bound Upper Bound 1 1 2 2.100 1.200 .058 .058 1.967 1.067 2.233 1.333 2 1 2 1.000 .800 .058 .058 .867 .667 1.133 .933 表 9-7 各目标效应检验 Tests of Between-Subjects Effects Dependent Variable: X 2.963 b 3 .988 98.750 .000 .97 296.250 1.000 19.507 1 19.5 1951 .000 1.0 1950.750 1.000 1.688 1 1.688 168.7 .000 .95 168.750 1.000 .908 1 .908 90.750 .000 .92 90.750 1.000 .368 1 .368 36.750 .000 .82 36.750 .999 8.0E-02 8 .010 22.550 12 3.043 11 Source 变异来源 Corrected Model Intercept A B A * B Error Total Corrected Total Type III Sum of Squares 三类平方差 df 自由度 Mean Squa re均方 F值 Sig. P值 Eta Squ are d Eta 平方 Noncent. Parameter 非中心参数 Obser ved Power 观测效能 a Computed using alpha = .05计算使用的检验水平为 0.05a. R Squared = .974 (Adjusted R Squared调整 R平方 = .964)b. 下面为 SPSS 的一些统计图 Spread vs. Level Plot of X Groups: A * B Level (Mean) 2.22.01.81.61.41.21.0.8.6 Spread (Variance) .6 .4 .2 -.0 -.2 -.4 -.6 图 9-6 纵坐标为方差的响应变量 X 的散点图 Estimated Marginal Means of X A 21 Estimated Marginal Means 2.2 2.0 1.8 1.6 1.4 1.2 1.0 .8 .6 B 1 2 图 9-7 响应变量 X 的估计边缘均数图由以上图表得出结论如下 1 表 9-3 显示 (1) 因素 A 为使用 A 药状态分 2 个水平水平 1 为用 A 药水平 2 为不用 A 药每个水平有 6 例 (2) 因素 B 为使用 B 药状态分 2 个水平水平 1 为用 B 药水平 2 为不用 B 药每个水平有 6 例 2 表 9-4 显示各个格子和总的均数标准差和例数 3 表 9-5 显示方差齐性的 Levene 检验的 P=l 000 按 0 05 检验水准接受无效假设可认为各格子应变量的方差齐同 4 表 9-6 显示各水平和各格子和总的均数标准误和 95 可信区间 5 表 9-7 显示 (1) 因素 A F=均方因素 A/均方残差 =168.7 P=0.000 按 0.05 检验水准拒绝无效假设可认为因素 A 效应显著使用 A 药与不用 A 药之间有显著差异 (2) 因素 B F=均方因素 B/均方残差 =90.750 P=0.000 按 0.05 检验水准拒绝无效假设可认为因素 B 效应显著使用 B 药与不用 B 药之间有显著差异 (3) 因素 A*B 的交互作用 F=均方因素 A*B/均方残差 =36.750 P=0.000 按 0.05 检验水准拒绝无效假设可认为因素 A*B 的交互效应显著即 A 药与 B 药存在交互作用 (4) 结合表 9-4 和表 9-6 各格子的均数当因素 A 和 B 均为水平 1 时 (即 A 和 B 两药同时使用 ) 均数 =2.l 为最大当因素 A 为水平 1 和因素 B 为水平 2 时 (即单独使用 A 药 )均数 =1.2 当因素 A 为水平 2 和因素 B 为水平 1 时 (即单独使用 B 药 ) 均数 =1.0 当因素 A 为水平 2 和因素 B 为水平 2 时 (即不用 A 和 B 两药 ) 均数 =0.8 为最小由于因素 A 因素 B 和因素 AB 的效应均显著可以认为 A 和 B 两药同时使用的作用最大单独使用 A 药的作用稍大于 B 药 A 和 B 两药不用时作用最小 (5) Eta 平方 Eta 2 A>Eta 2 B>Eta 2 A*B 可认为各因素对总变异的贡献是因素 A 因素 B 因素 A*B 非中心参数各 F值其效应自由度观察效能观察效能 A l.000 观察效能 B=1.000 观察效能 A*B=0.999 可认为各因素的检验效能均很大无须增加样本含量 6 图 9-5 和 9-6 显示均数与标准差或均数与方差均不成比例提示各格子方差齐同 7 图 9-7 显示两线不平行提示因素 A 和因素 B 存在交互作用 9.1.4 方差分析过程 SPSS 10.0 for Windows 提供的方差分析过程有 1 One-Way ANOVA 过程 One-Way ANOVA 过程是单因素简单方差分析过程它在菜单 Analyze 中的 Compare Means 过程组中可以进行单因素方差分析均值多重比较和相对比较 2 General Linear Model 简称 GLM 过程 GLM 过程由 Analyze 菜单直接调用这些过程可以完成简单的多因素方差分析和协方差分析不但可以分析各因素的主效应还可以分析各因素间的交互效应该过程允许指定最高阶次的交互效应建立包括所有效应的模型如果想在模型中包括某些特定的交互效应的模型就要用到该过程 GLM 过程属于专业统计和高级统计分析过程在安装时显示的 SPSS 过程表中处于 Adv.stats 组中如果没有安装这组统计过程则在 Analyze 菜单中不会显示相应的调用菜项 General Liner Model 过程可调用四命令分别完成不同的分析任务这四个命令均在主菜单 Analyze 的子菜单 General Linear Models 中它们的主要功能分别是 (1) Univariate 命令 Univariate 命令调用 GLM 过程完成一般的单因变量多因素方差分析可以指定协变量即进行协方差分析在指定模型方面有较大的灵活性并可以提供大量的统计输出例如如果以公司四个部门中的两个级别的职工为观察对象研究生产率刺激机制可以设计一个因子实验以便检验您感兴趣的假设由于在新刺激机制引入之前的原生产率可能对新刺激机制引入之后的生产率的比较发生很大影响可以把原生产率作为协变量进行协方差分析如果想看看协变量效应对两个级别的职工来说是否相同也可以使用 Univariate 菜单项调用 GLM 过程进行分析 (2) Multivariate 命令 Multivariate 命令调用 GLM 过程进行多因变量的多因素分析当研究的问题具有两个或两个以上相关的因变量时要研究一个或几个因素变量与因变量集之间的关系时才可以选用 Multivariate 菜单项调用 GLM 过程例如当你研究数学物理的考试成绩是否与教学方法学生性别以及方法与性别的交互作用有关时使用此菜单项如果只有几个不相关的因变量或只有一个因变量应该使用 Univariatel 菜单项调用 GLM 过程 (3) Repeated Measures 命令 Repeated Measures 命令调用 GLM 过程进行重复测量方差分析当一个因变量在同一课题中在不只一种条件下进行测度要检验有关因变量均值的假设应该使用该过程 (4) Variance Components 命令 Variance Components 调用 GLM 过程进行方差估计分析通过计算方差估计值可以帮助我们分析如何减小方差 9.2 单因素方差分析 9.2.1 单因素方差分析的基本概念为了介绍单因素方差分析的概念先看几个具体例子 [例 1] 设有 m 台机器生产同一种产品记录下每台日产量我们发现不但不同机器的日产量各不相同就是同一台机器 n 天中的日产量也不同要问这种日产量的差异是由于不同机器 (即不同机器的生产能力不同 )造成的呢还是由于随机波动造成的这里要考虑的因素是不同机器的生产能力 [例 2] 对同种原料织成的一批布用 m 种不同的染整工艺进行处理然后从每种工艺处理的布中各选取几块布样做缩水试验结果每块布的缩水率各不同要问缩水率的差异是否主要由处理工艺的不同所造成的这里要分析的因素是染整工艺 [例 3] 今有 m 个水稻品种我们要考虑它们在某地区种植对亩产量的影响以决定选用最适合该地区种植的优良品种为此土地肥力水利条件等都相同的土地分划成一些小块每个品种种植 n 块这里要分析的是水稻品种这一因素 [例 4] 某灯泡厂用 4 种不同配料方案制成的灯丝生产了 4 批在每批灯泡中随机地抽取若干又进行寿命试验问这 4 种灯丝生产的灯泡的使用寿命有无显著差异若无显著差异我们自然期望选取一种既经济又方便的配料方案如有显著差异便选灯泡寿命长的配料方策这里要分析的是配料方案这个因素 [例 5] 假定某药物研究者为检验 a b 两种化学物质的抗癌效果要作动物试验通常的作法如下所述他将一些患有某种癌的白鼠随机地分成三组其中两组分别注射 a b 两种化学物质而第三组则不作处理作为对照记第 1 组注射 a 物质第 2 组注射 b 物质第 3 组不作处理 (对照 ) 经过一段时间观察后他得到所有参加试验的白鼠的寿命数据这是一批分组的数据假定每组有 J 只白鼠它们的寿命分别记为 y ij ,j 1,…,J;i 1 2 3. 在这批数据中第一个下标 i 是组号第二个下标 j 是组内的编号通过这批数据药物研究者想知道与未使用药物的白鼠相比较使用药物的白鼠的平均寿命是否有所不同以及使用不同药物的白鼠的平均寿命是否有所不同这种例子很多在每个问题中都只考查一个因素故称单因素方差分析模型又称单向分类模型或一种方式分组模型我们也可称因素 (factor) 为因子不妨统一把它们理解为工艺条件 m 个不同的工艺条件称为该因素的 m 个水平它们是因素的不同状态因子的某一水平可以指一台机器一个水稻品种一种染整工艺或一种灯丝配料方案等在这些分组试验中对试验对象所观测记录的变量称为响应变量或因变量 (response) 在从而可以建立一个统一的数学模型 9.2.2 单因素方差分析的功能与应用单因素方差分析也称作一维方差分析它检验由单一因素影响的一个 (或几个相互独立的 )因变量的各因素水平分组的均值之间的差异是否具有统计意义它检验由单一因素影响的几个 (两个以上 )彼此独立的组是否来自均值相同的总体还可以对该因素的若干水平分组中哪一组与其他各组均值间具有显著性差异进行分析即进行均值的多重比较 One-Way ANOVA 过程要求因变量属于正态分布总体如果因变量的分布明显的是非正态不能使用该过程而应该使用非参分析过程如果几个因变量之间彼此不独立应该用 Repeated Measures 命令调用 GLM 过程 9.2.3 单因素方差分析的示例 [例 9-2] 下表 9-8 为某职业病防治院对 31 名石棉矿工中的石棉肺患者可疑患者和非患者进行了用力肺活量 (L)测定的数据问三组石棉矿工的用力肺活量有无差别表 9-8 三组石棉矿工的用力肺活量石棉肺患者 1.8 1.4 1.5 2.1 1.9 1.7 1.8 1.9 1.8 1.8 2.0 可疑患者 2.3 2.1 2.1 2.1 2.6 2.5 2.3 2.4 2.4 非患者 2.9 3.2 2.7 2.8 2.7 3.0 3.4 3.0 3.4 3.3 3.5 新建变量 g 标识三种患者数值 1 标识石棉肺患者 2 标识可疑患者 3 标识非患者用变量 X 存放测量值由上表建立数据文件如图 9-8 所示图 9-8 石棉矿工用力肺活量数据文件从 Analyze ? Compare Means ? One-Way ANOVA 激活 One-Way ANOVA 单因素方差分析对话框如图 9-9 所示将变量肺活量 [x] 移入 Dependent List 独立列表栏将变量组别 [g] 移入 Factor 栏如图 9-10 所示图 9-9 选择前单因素方差分析对话框图 9-10 选择后单因素方差分析对话框点击 OK 按钮提交运行得结果如表 9-9 表 9-9 使用系统默认值的单因素方差分析结果 Sum of Squares df Mean Square F Sig Between Groups Within Groups Total 9.266 1.534 10.800 2 28 30 4.633 5.480E-02 84.54 .000 由上表可知方差来源于两部分即组间 Between Groups 和组内 Within Groups 其自由度 (df)分别为 2和 28 总自由度为 30 离差平方和 (Sum of Squares) 组间离差平方和为 9.266 组内离差平方和为 1.534 总的离差平方和为 10.800 均方 (Mean Squares) 组间均方为 4.633 组内均方为 0.0548 F 值为 84.544 P=0.000<0.001 根据以上结果可以否定无效假设 ,说明三组石棉矿工 (石棉肺患者可疑患者和非患者 )的用力肺活量有显著差异但是以上结果只是表明总的说来三组石棉矿工的用力肺活量有显著差异但并不说明任何两两组间矿工的用力肺活量均有差异如果要了解具体那两组均数间有差异就需要在使用 One-Way ANOVA 进行单因素方差分析时使用选择项 9.2.4 单因素方差分析过程 One-Way ANOVA 单因素方差分析主对话框见图 9-9 图 9-10 在主对话框的右下端我们发现三个功能按钮 Contrasts 可以指定一种要用 t 检验来检验的 priori 对比 Post Hoc 可以指定一种多重比较检验 Options ,可以指要输出的统计量指定处理缺失值的方法点击这些按钮可激活相应的对话框然后进行选择 1 Contrasts 对话框鼠标单击 Contrasts 按钮可打开 Contrasts 对话框用来进行均值的多项式比较如图 9-11 所示图 9-11 Contrasts 多项式比较对话框均值的多项式比较是包括两个或更多个均值的比较例如图 9-11 中显示的是要求计算 2 mean1 1 mean4 的值检验的假设 H 0 第一组均值的 2 倍与第四组的均值相等单因素方差分析的 One-Way ANOVA 过程允许进行高达 5 次的均值多项式比较多项式的系数需要由读者自己根据研究的需要输入具体的操作步骤如下 (1) 选中 Polynomial 复选项以激活其右面的 Degree 参数框 (2) 单击 Degree 参数框右面的向下箭头展开阶次菜单可以选择 Linear 线性 Quadratic 二次 Cubic 三次 4th 四次 5th 五次多项式 (3) 为多项式指定各组均值的系数方法是在 Coefficients 框中输入一个系数单击 Add 按钮 Coefficients 框中的系数进入下面的方框中依次输入各组均值的系数在方形显示框中形成一列数值因素变量分为几组输入几个系数如果多项式中只包括第一组与第四组的均值的系数必须把第二个第三个系数输入为 0 值如果只包括第一组与第二组的均值则只需要输入前两个系数第三四个系数可以不输入可以同时建立多个多项式一个多项式的一组系数输入结束激活 Next 按钮单击该按钮后 Coefficients 框中清空准备接受下一组系数数据如果认为输入的几组系数中有错误可以分别单击 Previous 或 Next 按钮前后翻找出错的一组数据单击出错的系数该系数显示在编辑框中可以在此进行修改修改后单击 Change 按钮在系数显示框中出现正确的系数值当在系数显示框中选中一个系数时同时激活 Remove 按钮单击该按钮将选中的系数清除 (4) 单击 Previous 或 Next 按钮显示输入的各组系数检查无误后按 Continue 按钮确认输入的系数并返回到主对话框要取消刚刚的输入单击 Cancel 按钮需要查看系统的帮助信息单击 Help 按钮 2 Post Hoc Multiple Comparisons 各组均数的多重比较对话框在主对话框中单击 Post Hoc 按钮展开 Post Hoc Multiple Comparisons 多重比较对话框如图 9-12 所示在该对话框中选择进行均值多重比较的方法图 9-12 Post Hoc Multiple Comparisons 多重比较对话框进行多重比较是对每两个组的均值进行如下比较 MEAN(j) MEAN(i) 4.6625 RANGE SORT(1/N(i)+1/N(j)) 其中 j i 分别是组序号 MEAN(i) MEAN(j)分别是第 i j 组的均值 ;N(i),N(j)分别为第 i j 组中观测量数各组间均值的算法不同 RANGE 值也不同多重比较有如下选择项 (1) 方差具有齐次性时 (Equal variance assumed) 该矩形框中有如下选择方法 z Least-significant difference (LSD)复选项用 t 检验完成各组均值间的配对比较对多重比较误差率不进行调整 z Bonferroni (LSDMOD)复选项用 t 检验完成各组间均值的配对比较但通过设置每个检验前误差率来控制整个误差率 z Sidak 复选项计算 t 统计量进行多重配对比较可以调整显著性水平比 Bonfferroni 方法的界限要小 z Scheffe 复选项对所有可能的组合进行同步进入的配对比较这些选择项可以同时选择若干个以便比较各种均值比较方法的结果 z R-E-G-W-F(Ryan-Einot-Gabriel-Welsch F)复选项用 F 检验进行多重比较检验 z R-E-G-W Q(Ryan-Einot-Gabriel-Welsch range test)复选项正态分布范围进行多重配对比较 z S-N-K(Student Newman Keuls)复选项用 Student Range 分布进行所有各组均值间的配对比较如果各组样本含量相等或者选择了 Harmonic average of all groups 即用所有各组样本含量的调和平均数进行样本量估计时还用逐步过程进行齐次子集 (差异较小的子集 )的均值配对比较在该比较过程中各组均值从大到小按顺序排列最先比较最末端的差异 z TUKEY(Tukey’s honestly significant difference)复选项用 Student-Range 统计量进行所有组间均值的配对比较用所有配对比较误差率作为实验误差率 z Tukey’s-b 复选项用 Student- Range 分布进行组间均值的配对比较其精确值为前两种检验相应值的平均值 z Duncan(Duncan’s multiple range test)复选项指定一系列的 Range 值逐步进行计算比较得出结论 z Hochberg’s GT2 复选项用正态最大系数进行多重比较 z Gabriel 复选项用正态标准系数进行配对比较在单元数较大时这种方法较自由 z Waller-Duncan 复选项用 t 统计量进行多重比较检验使用贝叶斯逼近 z Dunnett 复选项指定此方法进行配对比较方法是选择最后一组为对照其他各组和它比较选定此方法后激活下面的 Control Catetory 参数框展开小菜单选择对照组 (2) 方差不具有齐次性时 (Equal variance not assumed) 检验各均数间是否有差异的方法有四种可供选择 z Tamhane’ s T2 复选项用 t检验进行配对比较 z Dunnett’s T3 复选项正态分布下的配对比较 z Games Howell 复选项方差不具齐次性时的配对比较该方法较灵活 z Dunnett’s C 复选项正态分布下的配对比较 (3) 显著性水平的输入在 Significance level 一栏后的矩形框中读者可输入显著性水平 3 Options 输出统计量的选择对话框在主对话框中单击 Options 按钮展开 options 对话框如图 9-13 所示这一组选择项全按选择产生所要求的统计量并按要求的方式显示这些统计量在该对话框还可以选择对缺失值的处理要求各组选择项的含义如下 (1) Statistics 栏中输出统计量的选择项 z Descriptive 复选项要求输出描述统计量选择此项会计算并输出观测量数目均值标准差标准误最小值最大值各组中每个因变量的 95%置信区间图 9-13 输出统计量对话框 z Homogeneity-of-variance 复选项要求进行方差齐次性检验并输出检验结果用 Levene lest 检验即计算每个观测量与其组均值之差然后对这些差值进行一元方差分析 (2) Means plot 复选项即均数分布图根据各组均数描绘出因变量的分布情况 (3) Missing Value 栏中选择缺失值处理方法 z Exclude cases analysis by analysis 选项对含有缺失值的观测量根据缺失值是因变量还是自变量从有关的分析中剔除 z Exclude cases listwise 选项对含有缺失值的观测量从所有分析中剔除以上三组选择项选择完成后按 Continue 按钮确认选择返回主对话框单击 Cancel 按钮作废此次选择单击 Help 按钮显示帮助信息 [例 9-3] 对例 9-2 中三组石棉矿工的用力肺活量做两两比较打开相应的数据文件单击单因素方差分析主对话框的 Post Hoc 按钮进入各组均数的多重比较对话框在 Equal Variance Assumed 栏中选择 LSD S-N-K Duncan 和 Dunnett 四种方法如图 9-14 所示单击 Continue 按钮返回单因素方差分析主对话框单击主对话框中 Options 按钮打开选择输出统计量的对话框将 Descriptives Homogeneity-of-variance 和 Mean plot 都选上如图 9-15 所示单击 Continue 回到主对话框图 9-14 选择均数多重比较的对话框图 9-15 选择输出统计量的对话框在主对话框中单击 OK 按钮提交运行得结果如下表 9-10 表 9-11 表 9-12 表 9-13 表 9-14 和图 9-16 所示表 9-10 Descriptives 描述统计量 95% Confidence Interval for Mean N Mean Std.Devia tion Std.Error Lower Bound Minimum Maximum 1 2 3 Total 11 9 11 31 1.791 2.311 3.082 2.400 .020 .183 .293 .600 6.098E-02 6.111E-02 8.823E—02 .108 1.655 2.170 2.885 2.180 1.927 2.452 3.278 2.620 1.4 2.1 2.7 1.4 2.1 2.6 3.5 3.5 表 9-11 单因素方差分析齐次性检验结果 Levene Statistic Df1 Df2 Sig. 2.852 2 28 .075 表 9-12 单因素方差分析结果 ANOVA Sum of Squares df Mean Square F Sig Between Group Within Groups Total 9.266 1.534 10.800 2 28 30 4.633 5.480E-02 84.54 .000 表 9-13 均数多重比较检验结果 95% Confidence Interval (I)组别 J 组别 Mean Difference (I-J) Std. Error Sig. Lower Bound Upper Bound 1 2 3 -.520* -1.291* .105 .100 .000 .000 -.736 -1.495 -.305 -1.086 2 1 3 .520* -.771* .105 .105 .000 .000 .305 -.986 .736 -.555 LSD 3 1 2 1.291* .771* .100 .105 .000 .000 1.086 .555 1.495 .986 1 3 -1.291* .100 .000 -1.524 -1.058 Dunnett t (2-sided)a 2 3 -.771* .105 .000 -1.016 -.525 *. The mean difference is significant at the .05 level a. Dunnett t-tests treat one group as a control, and compare all other groups against it. 表 9-14 均衡性子集 Subset for alpha=.05 组别 N 1 2 3 Student-Newman-keuls 1 2 3 Sig,. 11 9 11 1.791 1.000 2.311 1.000 3.082 1.000 Duncan a,b 1 2 3 Sig, 11 9 11 1.791 1.000 2.311 1.000 3.082 1.000 组别 321 M e a n o f 肺活量 3.2 3.0 2.8 2.6 2.4 2.2 2.0 1.8 1.6 图 9-16 均值散点图由上述图表结果分析如下 (1) 表 9-10 为选择了 Options 对话框中的 Descriptives 项所得输出结果分别有组别各组例数 (N) 均数 (Mean) 标准差 (Std. Deviation) 标准误 (Std. Error) 均值 95 可信区间的下限 (LowerBound)和上限 (Upper Bound) 最小值 (Minimum)和最大值 (Maximum) (2) 表 9-11 为单因素方差分析齐次性检验结果 t’值为 2.852 两个自由度分别为 2 和 28 双尾显著性概率为 0.075 因此不拒绝方差齐次的假设 (3) 表 9-12 为单因素方差分析结果 (同表 9-9 的说明 ) (4) 表 9-13 为采用 LSD 法和 Dunnett 法进行均值多重比较的结果 LSD 法是 T 检验完成值间的两两比较结果表明两两组间 (l 与 2 1 与 3 2 与 3)的均值均有显著性 Dunnett 法是指定一组作为对照组然后将其逐个与其他组进行两两比较本例在图 9-14 中指定后一组 (Last)作为对照组 (即第 3 组 ) 结果亦表明 1 与 3 组 2 与 3 组间的均值之间差异有显著性 (5) 表 9-14为均衡性子集是均值多重比较另一表达形式采用的是 S-N-K法和 Duncan 法本例各组的样本含量不等称之为不平衡数据样本含量用各组样本含量的倒数的平均值的倒数来估计称作调和平均数 (Harmonic Mean) 结果亦表明 1 与 2 组 1 与 3 组和 2 与 3 组间的均值都有显著性差异 (6) 图 9-16 是以因素变量组别为横轴以独立变量肺活量为纵轴而绘制的均数散点图可看出各组均数的分布下面举出一个平衡数据的单因素方差分析的例子 [例 9-4] 设有五种治疗麻疹的药要比较它们的疗效假定将 30 个病人分成五组每组 6 人令同组病人使用一种药并记录下病人从使用药物开始到痊愈所需时间 (天 ) 得到如下记录如表 9-15 所示表 9-15 麻疹治疗的原始数据药物治愈所需天数 1 5 8 7 7 10 8 2 4 6 6 3 5 6 3 6 4 4 5 4 3 4 7 4 6 6 3 5 5 9 3 5 7 7 6 输入数据文件 9-17 所示以变量 x 记录响应变量的值变量 g 进行分组变量图 9-17 麻疹治疗的数据文件这里的药物是因素共有五个水平要检验的无效假设为所有药物的效果都是没有差别的从 Analyze ? Compare Means ? One-Way ANOVA 使变量治愈所需天数 [x] 进入 Dependent List 栏使变量药物种类 [g] 进入 Factor 栏鼠标单击 Contrasts 按钮打开 Contrasts 多项式比较对话框选择一次多项式比较各组均值共指定了两组多项式系数 z 第一组 1.0 mean1 1.0 mean2 1.0 mean3 1.0 mean4 检验药物对治疗的效果 1 3 药物效应和与 2 4 药物效应和是否有明显差异 z 第二组 1.0 mean1 1.0 mean3 1.0 mean4 1.0 mean5 检验 1 4 药物效应和与 3 5 药物效应和是否有明显差异如图 9-18 图 9-19 所示图 9-18 第一组多项式比较对话框图 9-19 第二组多项式比较对话框单击如图 9-19 对话框中的 Continue 按钮返回主对话框鼠标点击 Post Hoc 按钮打开 Post Hoc Multiple Comparisons 对话框选择多重比较 z 在 Equal Variance Assumed 栏中选择 LSD Duncan 两种方法 z 在 Equal Variance Not Assumed 栏中选择 Tamhane’s T2 方法单击该对话框中 Continue 按钮返回主对话框单击 Options 按钮展开 Options 对话框选择输出统计量选择项 z 选中 Descriptive 复选项要求输出描述统计量 z 选中 Homogeneity-of-variance 复选项作方差齐次性检验 z 选中 Means plot 复选项作分布图 z 选择 Exclude cases analysis by analysis 项缺失值仅在特定的分析中剔除单击 Continue 按钮返回主对话框单击主对话框中的 OK 按钮得到输出结果如下列图表所示表 9-16 描述统计量结果分析表 95% Confidence Interval for mean N Mean Std. Deviation Std. Error Lower Bound Upper Bound Minimum Maximum 1 2 3 4 5 Total 6 6 6 6 6 30 7.50 5.00 4.33 5.17 6.17 5.63 1.64 1.26 1.03 1.47 2.04 1.81 .67 .52 .42 .60 .83 .83 5.78 3.67 3.25 3.62 4.02 4.96 9.22 6.33 5.42 6.71 8.31 6.31 5 3 3 3 3 3 10 6 6 7 9 10 表 9-17 方差齐次性检验结果 Levene Statistic df1 df2 sig 552 4 25 .699 表 9-18 单因素分析结果 Sum of Squares df Mean Square F Sig Between Broups Within Groups Total 36.467 58.500 94.967 4 25 29 9.117 2.340 3.896 .014 表 9-19 多项式比较系数药物种类 Contrast 1 2 3 4 5 1 2 1 1 -1 0 1 -1 -1 1 0 -1 表 9-20 多项式比较结果 Cont Rast Value of Contrast Std. Error t df Sig.(2-tailed) 1.67 2.17 1.25 1.25 1.334 1.735 25 25 .194 .095 Assume equal variances 1 2 Does not assume equal 1 Variances 2 1.67 2.17 1.12 1.30 1.487 1.670 18.094 16.732 .154 .114 表 9-21 多重比较结果 Dependent variable:治愈所需天数 95%confidence Interval (I)药物种类 (J)药物种类 Mean difference(I-J) Std. error Sig. Lower Bound Upper Bound LSD 1 2 3 4 5 2.50* 3.17* 2.33* 1.33 .88 .88 .88 .88 .009 .001 .014 .144 .68 1.35 .51 - .49 4.32 4.99 4.15 3.15 2 1 3 4 5 -2.50 .67 -.17 -1.17 88 .88 .88 .88 .009 .457 .852 .198 . -4.32 -1.15 -1.99 -2.99 -.68 2.49 1.65 .65 续表 95%confidence Interval (I)药物种类 (J)药物种类 Mean difference(I-J) Std. error Sig. Lower Bound Upper Bound 3 1 2 4 5 -3.17 -.67 -.83 -1.83 88 .88 .88 .88 .001 .457 .354 .048 -4.99 -2.49 -2.65 -3.65 -1.35 1.15 .99 -.01 4 1 2 3 5 -2.33* .17 .83 -1.00 88 .88 .88 .88 .014 .852 .354 .268 -4.15 -1.65 -.99 -2.82 -.51 1.99 2.65 .82 5 1 2 3 4 -1.33 1.17 1.83* 1.00 88 .88 .88 .88 .144 .198 .048 .268 -3.15 -.65 .01 -.82 .49 2.99 3.65 2.82 Tamhane 1 2 3 4 5 2.50 3.17* 2.33 1.33 88 .88 .88 .88 .144 .035 .241 .938 -.57 .19 -.89 -2.53 5.57 6.14 5.56 5.20 2 1 3 4 5 -2.50 .67 -.17 -1.17 88 .88 .88 .88 .144 .985 1.00 .955 -5.57 -1.74 -3.01 -4.86 .57 3.07 2.68 2.52 3 1 2 4 5 -3.17* -.67 -.83 -1.83 88 .88 .88 .88 .035 .985 .965 .603 -6.14 - 3.07 -3.53 -5.50 -.19 1.74 1.87 1.83 4 1 2 3 5 -2.33 .17 .83 -1.00 88 .88 .88 .88 .241 1.00 .965 .988 -5.56 -2.68 -1.87 -4.76 .89 3.01 3.53 2.76 5 1 2 3 4 -1.33 1.17 1.83 1.00 88 .88 .88 .88 .938 .955 .603 .988 -5.20 -2.52 -1.83 -2.76 2.53 4.86 5.50 4.76 *.the mean difference is significant at the .05 level. 表 9-22 多重比较齐次性均衡子集结果 Subset for alpha=.05 药物种类 N 1 2 Duncan a 3 2 4 5 1 Sig 6 6 6 6 6 4.33 5.00 5.17 6.17 .067 6.17 7.50 .144 Means for groups in homogeneous subsets are displayed. a. Uses Harmonic Mean Sample Size=6.000. 药物种类 54321 M e a n o f 治愈所需天数 8.0 7.5 7.0 6.5 6.0 5.5 5.0 4.5 4.0 图 9-20 均值散点图由上述图表结果分析如下 (1) 表 9-16 为选择了 Options 对话框中的 Descriptives 项所得输出结果分别有组别各组例数 (N) 均数 (Mean) 标准差 (Std. Deviation) 标准误 (Std. Error) 均值 95 可信区间的下限 (LowerBound)和上限 (Upper Bound) 最小值 (Minimum)和最大值 (Maximum) (2) 表 9-17 为单因素方差分析齐次性检验结果 t’值为 0.552 两个自由度分别为 4 和 25 双尾显著性概率为 0.699 因此接受方差齐次的假设 (3) 表 9-18 为单因素方差分析结果离差平方和 (Sum of Squares) 组间离差平方和为 36.467,组内离差平方和为 58.500 总的离差平方和为 94.967 均方 (Mean Squares) 组间均方为 9.117 组内均方为 2.340 F 值为 3.896 P=0.014<0.05 根据以上结果可以否定无效假设说明五种药物对麻疹的疗效有显著差异 (4) 表 9-19 为多项式比较系数表中 Contrast 一栏下的 1 和 2 代表第一组多项式系数和第二组多项式系数 (5) 表 9-20 为多项式比较检验结果前面 2. 中已接受方差齐次性的假设所以选择 Assume equal variances 一项看从概率值可以看出 Contrast 1 p=0.194>0.05 Contrast 2 p=0.095>0.05 因此 1 3 药物效应和与 2 4 药物效应和无明显差异 1 4 药物效应和与 3 5 药物效应和无明显差异 (6) 表 9-21 为多重比较的结果由于在 2. 中已接受方差齐次性的假设所以不必考虑 Tamhane 法所得结果考察 LSD 法所得结果可以看出 1 与 2 1 与 3 1 与 4 3 与 5 药物之间的差异显著而 1 与 5 2 与 3 2 与 4 2 与 5 3 与 4 4 与 5 药物之间的差异不明显 (7) 表 9-22 为多重比较子集结果是均值多重比较的另一种表达形式在此过程中运用 Duncan 法定义了两个齐次性 (均衡 )子集一是 2 3 4 和 5 药物二为 1 和 5 药物属于同一齐次性子集的药物可认为无明显差异可见利用 Duncan 法和 LSD 法得到的结论阐述的内容是不同的 LSD 侧重于两两方差的比较而 Duncan 从一个子集的概念来说明不同水平间方差的差异情况对于第一个齐次性子集假设 2 3 4 和 5 药物治愈所需天数样本的方差相等成立的概率仅为 0.067 略大于 0.05 虽然应接受无效假设但 2 3 4 和 5 药物治愈所需天数样本的方差并不是很好的均衡同样对于第二个齐次性子集假设 1 和 5 药物治愈所需天数样本的方差相等成立的概率仅为 0.144 也应接受无效假设但大于 0.05 不多故 1 和 5 药物治愈所需天数样本的方差也并不是很好的均衡换句话说由于所得概率较小这种齐次性子集的划分并不是十分可靠 (8) 图 9-20 是以因素变量药物种类为横轴以独立变量治愈所需天数为纵轴而绘制的均数散点图可看出各组均数的分布 9.3 简单方差分析过程本章要研究的是单响应变量多因素方差分析的 SPSS 实现特别是单响应变量双因素方差分析问题单响应变量多因素方差分析是对一个独立变量是否受一个或多个因素或变量影响而进行的方差分析常用的是单响应变量双因素方差分析基本上都要用到 SPSS 10.0 for Windows 的 Analyze 菜单中 General Linear Model 子菜单中的 Univariate 命令利用该方差分析过程可以检验不同组之间的均数受不同因素的影响是否有差异在这个过程中可以分析每个因素的作用也可以分析因素之间的交互作用以及分析协方差协方差交互作用和析因实验方差由于共同用到 Univariate 命令我们将单响应变量多因素方差分析 (包括单响应变量双因素方差分析 ) 析因 (有重复数 )实验分析和单因素或多因素协方差分析统称为简单方差分析对于协方差分析将另起一节进行论述 9.3.1 双因素方差分析的基本概念双因素方差分析的基本思路是如果某一因素的几个因素的几个水平会引起事物的结果很不同的话这个因素就很重要的反之若一因素的几个水平只是导致事物的结果相近的话这个因素就是不重要的双因素方差分析又分为双因素不重复试验的方差分析和双因素重复试验的方差分析下面分开阐述 1 双因素不重复试验的方差分析设对某一问题我们考虑 A B 两个因素 A 有 m 个水平记为 A 1 A 2 … A m B 有 n 个水平记为 B 1 B 2 … B n 在每组水平搭配下各作一次试验得数据 x ij i 1 2 … m j 1 2 … n 全部数据结构如下原始数据表 9-23 表 9-23 双因素不重复试验的方差分析数据结构 B A 1 2 … n 1 X 11 X 12 … X 1n 2 21 X 22 … 2n … … … … … m X m1 X m2 … X mn 因素 A B 的作用可以形象的称为行作用和列作用假设两因素的影响是可加的即 A B 的联合影响可以看成各自影响之和其中上式表示无系统偏差即各水平引起的数据对总平均值的偏离在求和中相互抵消掉了记 Ex ij = ij = + i + j 这里是所有 x ij 的均值 ij 的总平均它是 A B 对指标的总影响中的基本部分 i 是因素 A 的第 i 个水平造成的数据对总平均的偏离称为 A i 的效应即行作用 j 是因素 B 的水平第 j 个水平造成的数据对总平均数的偏离称为 B j 的效应即列作用 ij 是在因素 B 的水平搭配 A i , B j 下除去行列作用外其他一切人所无法控制的微小因素随机因素的总影响造成的数据对其均值的偏离称为随机误差 x ij 全体独立服从 N ij б 在如上模型下我们所关心的是因素的主效应是否显著假如我们关心 A 因素的主效应是否显著对此可以检验 H 1 1 2 … m 或者假如我们所关心的是 B 因素的主效应是否显著则可以检验假设 H 2 1 2 … n 对上述假设的检验方法与在单因素试验数据的方差分析中所采用的方法类似就是将数据的总平方和分成两个因素的离差平方和及误差平方和 S 总 S A S B +S e 其中 S A S B 刻划因素的主效应 S e 刻划随机误差的效应然后用适当的 F 统计量进行检验相应的自由度有关系 f 总 f A f B +f e 2 双因素重复试验的方差分析在双因素不重复试验的方差分析中我们假定两因素的联合影响是各因素影响的迭加 (即具有可加性 ) 但在实际问题中往往两因素之间会有交互作用比如第 I 台机器和第 j 个人的搭配会使日产量特别高 (或特别低 ) 换句话说某人特别适合 (或不适合 )在某台机器上操作又如在研究种子和肥料对作物收获量的影响时分别使亩产量达到最高的种子品种和肥料种类搭配在一起可能会使亩产量大幅度提高也可能使亩产量下降而看来 ijjiij x εβαμ +++= ),0(,0 2 11 σεβα N ij n j j m i i S ∑∑ == == 不是最好的种子品种和肥料搭配在一起也可能使亩产量达到最高为了分析交互作用的影响是否显著需要对每一对水平组合作重复试验比如对每一对机器和工人的组合格观察 d 天得到 d 个日产量需要进行重复试验有两个方面的缘故 (1) 若无重复试验交互作用和试验误差将混在一起无法区分看来 (2) 交互作用也是一种平均现象比如第 I 台机器和第 j 个工人的搭配会使日产量达到最高但由于随机因素的影响也可能某一天的日产量较低综上所述必须进行重复试验从平均得角度才能使交互作用的效应反映出来由于上述原因在条件许可的情况下尽量安排重复试验以减轻误差的干扰提高分析精度我们现在考虑这样的数学模型设行因素有 m 个水平列因素有 n 个水平在每一对搭配 (i,j)下各作 d 此试验其第 k 次试验的观测值为 6,2/),0(, 2 NCONx jiijijijjiijk ∈++++= 分布服从 σεεγβαμ 2 其中 ∑∑∑∑ ==== ==== n j n j ij m i ijj m i i 1111 0γγβα ij 反映的是交互效应重复试验的数据结构如下表表 9-24 双因素重复试验的方差分析数据结构 B A 1 j n 1x 111 x 112 … x 11d …x 1j1 x 1j2 … x 1j1d …x 1n1 x 1n2 … x 1nd … iX i11 x i12 … x 1id X ij1 x ij2 … x ijd X in1 x in2 … x ind … mx m11 x m12 … x m1d X mj1 x mj2 … x mjd X mn1 x mn2 … x mnd 要检验的假设为 H 1 1 2 … m H 2 1 2 … n H 3 11 12 … mn 对于双因素重复试验数据的方差分析主要解决对上述三个假设的检验问题将数据的总平方和分成两个因素的离差平方和交互效应的平方和 n 及误差平方和 S 总 S A S B S AB +S e 其中 S A S B 刻划因素的主效应 S AB 刻划因素的交互效应 S e 刻划随机误差的效应然后用适当的 F 统计量进行检验相应的自由度有关系 f 总 f A f B f AB +f e 9.3.2 双因素方差分析的功能与应用调用此过程可对完全随机设计资料配伍设计资料析因设计资料正交设计资料等等进行多因素方差分析或协方差分析调用该过程时选择合适的选择项可以输出统计描述量估计效应的大小观察效能参数估计值对照系数矩阵齐次性检验结果水平散点图残差图等等也可以选择多项式比较均值多重比较等功能 9.3.3 双因素方差分析的示例 1 双因素不重复试验的方差分析示例 [例 9-5] 设 A B C3 台机器生产同一产品 4 名工人操作机器 A B C 各一天得日产量数据如表 9-25 表 9-25 日产量数据表工人机器 1 2 3 4 A 50 47 47 53 B 63 54 57 58 C 52 42 41 48 问机器之间工人之间在日产量上是否有显著差异 =0.05 ? 以 x 存放日产量数据引入两个分组变量 a,b 分别标识不同机器和不同工人对于变量 a 取值为 1 2 3 时分别标识机器 A B C 变量 b 取值为 1 2 3 4 分别标识工人 1 2 3 4 建立数据文件如图 9-21 所示选择 Analyze ? General Linear Model ? Univariate 激活单响应变量方差分析主对话框 (如图 9-22 所示 ) 将变量日产量 [x] 放入 Dependent Variable 矩形栏中将变量机器因子 [a] 和工人因子 [b] 放入 Fixed Factor(s)矩形栏中如图 9-22 所示在如图 9-23 所示的主对话框中点击 Model 按钮进入 Model 对话框 (如图 9-24 所示 ) 选择 Custom 在效应选项中选择 Main effect 在 Factors &栏中选择 a(F) 和 b(F) 在 Build Term(s)中单击向右的箭头按钮把 a(F) 和 b(F) 放入 Model 栏如图 9-25 所示单击 Continue 返回主对话框图 9-21 日产量数据文件图 9-22 选择之前的 Univariate 主对话框图 9-23 选择后的 Univariate 主对话框图 9-24 选择之前的 Model 对话框图 9-25 选择之后的 Model 对话框在主对话框中点击 Post Hoc 按钮进入 Post Hoc Multiple Comparisons for Observed Means 对话框在此对话框中把 Factor(s)栏中变量 a 和 b 放入 Post Hoc Tests for 栏在 Equal Variances Assumed 中选择 S-N-K 法如图 9-26 所示单击 Continue 按钮返回 Univariate 主对话框图 9-26 Post Hoc Multiple Comparisons for Observed Means 对话框在主对话框中单击 OK 按钮提交运行所得结果如表 9-26 表 9-27 表 9-28 表 9-29 所示表 9-26 Between-Subjects Factors 各目标因素 N 机器 1 2 3 工人 1 因子 2 3 4 4 4 4 3 3 3 3 表 9-27 Tests of Between-Subjects Effects 各目标因素检验 Source Type III Sum of quares Df Mean square F Sig Corrected Model Intercept A B Error Total Corrected Total 433.167 a 31212.000 318.500 114.667 32.833 31678.000 466.000 5 1 2 3 6 12 11 86.633 31212.000 159.250 38.222 5.472 15.831 5703.716 29.102 6.985 .002 .000 .001 .022 a. R Squared =.930 (Adjusted R Squared=.871) 表 9-28 Post Hoc Tests a Post Hoc 检验因素 a Subset 机器因子 N 1 2 3 1 2 Sig. 4 4 4 45.75 49.25 .079 58.00 1.000 Means for groups in homogeneous subsets are display Based on Type III Sum of Squares The eeror term is Mean Square(Error)=5.472. a.Uses Harmonic Mean Sample Size=4.000. b.Alpha=.05. 表 9-29 Post Hoc Tests b Post Hoc 检验因素 b Subset 工人因子 N 1 2 2 3 4 1 Sig 3 3 3 3 47.67 48.33 53.00 .070 53.00 53.00 .335 Means for groups in homogeneous subsets are displayed. Based on Type III Sum of Squares The error term is Mean Square (Error)=5.472. a. Uses Harmonic Mean Sample Size=3.000. b. Alpha=.05. 由上述各表结果分析如下 z 表 9-26 显示 (1) 分组变量 a 有三个水平即机器 A B C 每个水平共有 4 例 (2) 分组变量 b 有四个水平即工人 1 2 3 4 每个水平有 3 例 z 表 9-27 显示 (1) 因素 a F 均方 a 因素 /均方残差 29.102 P 0.001 按 0.05 检验水准拒绝无效假设可认为机器之间差异显著各机器间的日产量全不等或不全等 (2) 因素 b F 均方 b 因素 /均方残差 6.985 P 0.022 按 0.05 检验水准拒绝无效假设可认为工人之间差异显著各工人间的日产量全不等或不全等 z 表 9-28 显示 (1) 由于本例是无重复数设计不能求出每个格子的方差故不能计算方差的齐次性这里仅选择 S-N-K 法进行均数之间的两两比较 (2) 在均衡子集表中第一均衡子集 (Subset=1 栏 )包含第三组 (a=3)和第一组 (a=1) 它们的均数分别为 45.75 和 49.25 两均数比较的概率 P 0.079 按 0.05 检验水准接受无效假设可认为机器 C 和 A 日产量的均数之间无明显差异而机器 B 与它们的差异较显著 z 表 9-29 显示 (1) 第一均衡子集 (Subset=1 栏中 )包含第二组 (b=2) 第三组 (b=3)和第四组 (b=4) 它们的均数分别为 47.67 48.33 和 53.00 三组均数比较的概率为 0.070 按 0.05 检验水准接受无效假设可认为工人 2 工人 3 和工人 4 日产量的均数之间无明显差异 (2) 第二均衡子集 (Subset=2 栏中 )包含第四组 (b=4) 和第一组 (b=1) 它们的均数分别为 53.00 和 55.00 三组均数比较的概率为 0.335 按 0.05 检验水准接受无效假设可认为工人 4 和工人 1 日产量的均数之间无明显差异 (3) 第一组 (b=1)和第二三四 (b=2 3 4)未列在均衡子集表的同一格子中可以认为它们均数并非均衡而是存在显著差异 2 双因素重复试验的方差分析示例 [例 9-6] 续例 9-5 设每个工人在各机器上都生产两天得日产量如表 9-30 所示表 9-30 日产量原始数据表重复试验工人机器 1 2 3 4 A 50,52 47,45 47,48 53,50 B 63,58 54,59 57,60 58,49 C 52,57 42,45 41,45 48,45 问不同机器之间不同工人之间机器和工人的不同组合之间是否存在显著差异 ( =0.05) 以 x 存放日产量数据引入两个分组变量 a,b 分别标识不同机器和不同工人对于变量 a 取值为 1 2 3 时分别标识机器 A B C 变量 b 取值为 1 2 3 4 分别标识工人 1 2 3 4 建立数据文件如下图 9-27 所示图 9-27 重复试验的日产量数据文件选择从 Analyze ? General Linear Model ? Univariate 激活单响应变量方差分析主对话框将变量日产量 [x] 放入 Dependent Variable 矩形栏中将变量机器因子 [a] 和工人因子 [b] 放入 Fixed Factor(s)矩形栏中在主对话框中点击 Model 按钮进入 Model 对话框选择 Full factorial 在 Sum of squares 栏中选择 Type 单击 Continue 返回主对话框在主对话框中点击 Plot 按钮激活 Profile plot 对话框在此对话框中把 Factors 栏中的 a 放入 Horizontal Axis 栏把 Factors 栏的变量 b 放入 Separate Lines 栏单击 Add 按钮再点击 Continue 按钮返回主对话框在主对话框中点击 Post Hoc 按钮进入 Post Hoc Multiple Comparisons for Observed Means 对话框在此对话框中把 Factor(s)栏中变量 a 和 b 放入 Post Hoc Tests for 栏在 Equal Variances Assumed 中选择 S-N-K 法单击 Continue 按钮返回 Univariate 主对话框在主对话框中点击 Options 按钮进入 Options 对话框把 Factor(s) and Factor 栏的 OVERALL a b 和 a*b 放入 Display Means for 栏选择 Descriptive statistics Estimates of effect size Observed power Homogeneity tests 和 Separate Lines 等单击 Continue 按钮在主对话框中单击 OK 按钮提交运行所得结果如表 9-31 表 9-32 表 9-33 表 9-34 表 9-35 表 9-36 表 9-37 和图 9-28 图 9-29 图 9-30 所示表 9-31 Between-Subjects Factors 各目标因素 N 机器 1 2 3 工人 1 因子 2 3 4 8 8 8 8 6 6 6 表 9-32 残差方差分析齐次性的 Levene 检验 F df1 Df2 Sig. .451 11 12 .901 Tests the null hypothesis that the error variance of the dependent variable is equal across groups. a. Design: Intercept+A+B 表 9-33 描述统计量结果 Descriptive Statistics Dependent Variable: 日产量 51.00 1.41 2 46.00 1.41 2 47.50 .71 2 51.50 2.12 2 49.00 2.73 8 60.50 3.54 2 56.50 3.54 2 58.50 2.12 2 53.50 6.36 2 57.25 4.20 8 54.50 3.54 2 43.50 2.12 2 43.00 2.83 2 46.50 2.12 2 46.88 5.33 8 55.33 4.89 6 48.67 6.47 6 49.67 7.31 6 50.50 4.51 6 51.04 6.10 24 工人因子 1 2 3 4 Total 1 2 3 4 Total 1 2 3 4 Total 1 2 3 4 Total 机器因子 1 2 3 Total Mean Std. Deviation N 表 9-34 各目标效应检验机器因子工人因子 Mean Std.Deviation N 1 1 2 3 4 Total 51.00 46.00 47.50 51.50 49.00 1.41 1.41 .71 2.12 2.73 2 2 2 2 8 2 1 2 3 4 Total 60.50 56.50 58.50 53.50 57.25 3.54 3.54 2.12 6.36 4.20 2 2 2 2 8 3 1 2 3 4 Total 54.50 43.50 43.00 46.50 46.88 3.54 2.12 2.83 2.12 5.33 2 2 2 2 8 Total 1 2 3 4 Total 55.33 48.67 49.67 49.67 50.50 51.04 4.89 6.47 7.31 4.51 6.10 6 6 6 6 24 a. Computed using alpha=.05 b. R Squared=.873 (Adjusted R Squared=.757) 表 9-35 估计边缘均数 95% Confidence Interval Mean Std.Error Lower Bound Upper Bound 51.042 .614 49.704 52.379 95% Confidence Interval 机器因子 Mean Std.Error Lower Bound Upper Bound 1 2 3 49.000 57.250 46.875 1.063 1.063 1.063 46.684 54.934 44.559 51.316 59.566 49.191 95% Confidence Interval 工人因子 Mean Std.Error Lower Bound Upper Bound 1 2 3 4 55.333 48.667 49.667 50.500 1.228 1.228 1.228 1.228 52.659 45.992 46.992 47.825 58.008 51.341 52.341 53.175 95% Confidence Interval 机器因子工人因子 Mean Std.Error Lower Bound Upper Bound 1 1 2 3 4 51.000 46.000 47.500 51.500 2.126 2.126 2.126 2.126 46 367 41 367 42 867 46 867 55 633 50 633 52 133 56 133 2 1 2 3 4 60.500 56.500 58.000 53 500 2.126 2.126 2.126 2.126 55 867 51 867 53 867 48 867 65 133 51 133 63 133 58 133 3 1 2 3 4 54 500 43 500 43 000 46 500 2.126 2.126 2.126 2.126 49 867 38 867 38 367 41 867 59 133 48 133 47 633 51 133 表 9-36 Post Hoc Tests a Post Hoc 检验因素 a 之均衡子集 Subset 机器因子 N 1 2 3 1 2 Sig 8 8 8 46.88 49.00 .183 57.25 1.000 Means for groups in homogeneous subsets are display Based on Type III Sum of Squares The error term is Mean Square(Error)=9.042. a. Uses Harmonic Mean Sample Size=8.000. b. Alpha=.05. 表 9-37 Post Hoc Tests b Post Hoc 检验因素 b 之均衡子集 Subset 工人因子 N 1 2 2 3 4 1 Sig 6 6 6 6 48.67 49.67 50.50 .558 55.33 1.000 Means for groups in homogeneous subsets are display Based on Type III Sum of Squares The error term is Mean Square(Error)=9.042. a. Uses Harmonic Mean Sample Size=6.000. b. Alpha=.05. Spread vs. Level Plot of 日产量 Groups: 机器因子 * 工人因子 Level (Mean) 70605040 Spread (Standard Deviation) 7 6 5 4 3 2 1 0 图 9-28 均数为横轴标准差为纵轴的水平散点图 Spread vs. Level Plot of 日产量 Groups: 机器因子 * 工人因子 Level (Mean) 70605040 Spread (Variance) 50 40 30 20 10 0 图 9-29 均数为横轴方差为纵轴的水平散点图 Estimated Marginal Means of 日产量机器因子 321 Estimated Marginal Means 70 60 50 40 工人因子 1 2 3 4 图 9-30 响应变量 x 的估计边缘均数图从以上图表可得出如下结论 z 表 9-31 显示 (1) 因素机器分 3 个水平每个水平有 8 例 (2) 因素工人分 4 个水平每个水平有 6 例 z 表 9-32 显示方差齐次性的 Levene 检验的 P 0.901 按 0.05 的检验水平应接受无效假设可认为各格子响应变量的残差齐同 z 表 9-33 显示的是描述统计量的计算结果各个格子和总的均数标准差和例数 z 表 9-34 显示 (1) 因素机器 (用 a 标识 ) F=均方因素机器 /均方残差 =26.576 P=0.000 按 0.05 检验水准拒绝无效假设可认为不同机器之间的效应差异显著 (2) 因素工人 (用 b 标识 ) F=均方因素工人 /均方残差 =5.805 P=0.011 按 0.05 检验水准拒绝无效假设可认为因素工人效应差异显著 (3) 因素 a*b 的交互作用 F=均方因素 a*b/均方残差 =1.998 P 0.145 按 0 05 检验水准接受无效假设可认为因素 a*b 的交互效应不显著即机器与工人之间不存在交互作用 (4) Eta 平方 Eta 2 a =0.816> Eta 2 b =0.592> Eta 2 a*b =0.500 可认为各因素对总变异的贡献是因素机器 >因素工人 >因素机器 *因素工人非中心参数为各 F 值其效应自由度观察能效对于因素机器观察能效 =1.00 可认为因素机器的检验效能很大无须增加样本对于因素工人观察能效 =0.856 可认为因素工人的检验效能很大无须增加样本对于因素机器 *因素工人观察能效 =0.499 可认为因素工人的检验效能一般若增加样本可能会得到不同的显著差异的结果 z 表 9-35 显示各水平和各格子和总的均数标准误和 95 可信区间 z 表 9-36 显示 (1) 第一均衡子集 (Subset=1 栏中 )包含第三组 (a=3)和第一组 (a=1) 它们的均数分别为 46.88 49.00 两组均数比较的概率为 0.183 按 0.05 检验水准接受无效假设可认机器 C 和机器 A 日产量的均数之间无明显差异 (2) 第二均衡子集 (Subset=2 栏中 )仅包含第二组 (a=2) 它的均数为 57.25 可认为机器 B 与机器 A C 之间日产量的均数有明显差异 z 表 9-37 显示 (1) 第一均衡子集 (Subset=1 栏中 )包含第二组 (b=2) 第三组 (b=3)和第四组 (b=4) 它们的均数分别为 48.67 49.67 和 50.50 三组均数比较的概率为 0.558 按照 0.05 检验水准接受无效假设可认为工人 2 工人 3 和工人 4 日产量的均数之间无明显差异 (2) 第二均衡子集 (Subset=2 栏中 )仅包含第一组 (b=1) 它的均数为 55.33 可认为工人 1 与工人 2 3 4 日产量的均数之间有明显差异 z 图 9-28 和 9-29 显示可见标准差与均数或方差与均数之间无明显的相关关系各格子方差齐同 z 图 9-30 显示 1 2 3 条线近似平行 1 4 条线近似平行提示可认为交互效应较小或不存在交互效应 9.3.4 双因素方差分析过程双因素方差分析调用菜单 Analyze 中的子菜单 General Linear Model 的 Univariate 命令单变量多因素方差分析的功能模块调用步骤为按 Analyze ? General Linear Model ? Univariate 逐一单击鼠标键最后展开 Univariate 单响应变量多因素方差分析主对话框如图 9-2 图 9-3 图 9-22 图 9-23 所示进入 Univariate 主对话框可以看见左边一个大矩形框中间五个小矩形框以及右边六个单击后可弹出子对话框的按钮最后下面还有五个按钮 1 主对话框选择项 Dependent Variable 框因变量移入其中 Fixed Factor(s)框固定因素栏放入固定因素因素水平按要求设定 Random Factor(s)框随机因素栏放入随机因素因素水平是随机样本的各种水平 Covariate(s) 协变量栏放入协变量它是一个定量预测变量可与响应变量一起定义回归模型 WLS Weight 加权变量栏放入加权变量作加权最小二乘法 (WLS)分析如果加权变量中含有 0 负数或缺失值这些病例就不加以分析因为已经用于模型中的变量不能作为加权变量 Model 按钮设定模型按钮激活设定模型对话框 Contrasts 按钮对照按钮激活对照对话框 Plots 按钮绘图按钮激活绘图对话框 Post Hoc 按钮激活变量储存对话框 Options 按钮选择项按钮激活选择项对话框 OK 按钮按已选好的选择项提交运行该过程 Paste 按钮在 SPSS Syntax Editor 中生成该过程的相应命令语句 Reset 按钮重新设置 Cancel 按钮取消前次设置 Help 按钮寻求相应帮助 2 Univariate Model 设定模型对话框在主对话框中单击 Model 按钮展开 Univariate Model 对话框见图 9-24 图 9-25 所示 (1) 在 Specify Model 栏中指定模型类型 z Full Factorial 选项此项为系统默认的模型类型该项选择建立全模型全模型包括所有因素变量的主效应和所有的交互效应例如有三个因素变量全模型包括三个因素变的主效应两两的交互效应和三个因素的交互效应选择此项后无需进行进一步的操作按 Continue 按钮返回主对话框 z Custom 选项建立自定义的模型此项的选择激活其下面各操作框 (2) 建立自定义模型选择了 Custom 后在 Factors 框中自动列出可以作为因素变量的变量名其变量名后面的括号中标有字母 F 也列出可以作为协变量的变量名其变量名后面的括号后标有字母 C 这些变量都是由用户在主对话框中定义的根据表中列出的变量名建立模型 z 选择模型中的主效应鼠标键单击某一个单个的因素变量名该变量名背景将改变为红色 (一般变为红色 ) 单击 Build Term(s)栏中下面的箭头该变量出现在 Model 框中一个变量名占一行称为主效应项欲在模型中包括几个主效应项就进行几次如上的操作注意选择主效应必须选择一个用箭头按钮送入一个也可以同时送两个或多个到 Model 框中 z 选择交互效应类型在 Build Term(s)栏中有一个可下拉的小菜单单击右面的向下箭头可以展开小菜单可以看到有如下几项 Main effects 选项选中此项可以指定主效应指定主效应也可以使用如前所叙述的方法 Interaction 选项选中此项可以指定任意的交互效应 All 2-Way 选项指定所有 2 维交互效应 All 3-Way 选项指定所有 3 维交互效应 All 4-Wny 选项指定所有 4 维交互效应 All 5-Way 选项指定所有 5 维交互效应在下拉菜单中用鼠标单击某一项该项背景改变颜色后下拉菜单收回选中的交互类型单项占据矩形框 z 建立模型中的交互项利用选中的交互效应类型可以建立模型中的交互项了例如因素变量有 Light(F) Device(F)和 Target(F) 要求模型中包括变量 light 与 device 的交互效应相应的操作是在 Factors 框内的变量表中用鼠标单击 device 变量使其背景改变颜色此为选择了交互项之一再用鼠标单击 light 变量使其背景改变颜色此为选择了交互项之二如图 9-31 所示单击 Build Term(s) 栏内参数框的箭头按钮一个交互效应出现在 Model 框中模型增加了一个交互效应项 device*light 如图 9-32 所示图 9-31 在 Model 对话框中选中两项交互项图 9-32 在 Model 对话框中生成交互效应要求模型中包括三个变量的所有 2 维交互效应项时应该分别用鼠标键单击 light device target 三个变量名在 Build Terms 栏内参数框中选择 All 2-way 项单击箭头按钮在 Model 框中出现三个 2 维交互效应项 device*light light*target device*target 若要求模型中包括所有 3 维效应由于可以作为因素变量的只有三个变量因此可以有两种操作方法鼠标分三次单击变量 light device target 选择 Build Terms 栏内参数框中的 Interaction 或 All 3-way 项再单击箭头按钮均可以在 Model 框中出现 3 维交互效应项 device*light*target (3) 选择分解平方和的方法在对话框的下部有 Sum of squares 后跟一个长矩形框可以进行四项选择来确定平方和的分解方法包括 Type Type Type 和 Type 四种其中 Type 是系统默认的也是常用的一种 z Type 选项分层处理平方和的方法仅对模型主效应之前的每项进行调整一般适用于平衡的 ANOVA 模型和嵌套模型在前一模型中一阶交互效应前指定主效应二阶交互效应前指定一阶交互效应依次类推嵌套模型是指第一效应嵌套在第二效应里第二效应嵌套在第三效应里嵌套的形式可使用语句指定 z Type 选项对其他所有效应进行调整一般适用于平衡的 ANOVA 模型主因子效应模型回归模型嵌套设计 z Type 选项是系统默认的处理方法对其他任何效应均进行调整它的优势是把所估计剩余常量也考虑到单元频数中对没有缺失单元格的不平衡模型也适用一般适用于 Type Type 所列的模型没有空单元格的平衡和不平衡模型 z Type 选项没有缺失单元的设计使用此方法对任何效应 F 计算平方和如果 F 不包含在其他效应里则 Type Type Type 如果 F 包含在其他效应里 Type 只对 F 的较高水平效应参数作对比一般适用于 Type Type 所列的模型没有空单元的平衡和不平衡模型 (4) 选中 Include Intercept in model 复选项系统默认通常截距包括在模型中如果能假设数据通过原点可以不包括截距即不选择此项 3 Univariate Contrast 对照对话框在主对话框中单击 Contrasts 按钮展开 Univariate Contrasts 对话框如图 9-33 所示图 9-33 Univariate Contrasts 对话框 (1) 在 Factors 框中显示出所有在主对话框中选中的因素变量因素变量名后的括号中是当前的对比方法 (2) 在 Change Contrast 栏中改变对照方法 z 在 Factors 框中选择想要改变对照方法的因子即鼠标点击选中的因子这一操作便使 Change Contrast 栏中各项被激活 z 单击 Contrast 参数框中的向下箭头展开对照方法表用鼠标单击选中的对照方法对照表收回在参数框中显示所选中的对照方法可供选择的对照方法有 None 选项不进行均数比较 Deviation 选项比较预测变量或因素的每个水平的效应选择 Last 或 First 作为忽略的水平 Simple 选项除了作为参考的水平外对预测变量或因素变量的每一水平都与参考水平进行比较选择 Last 或 First 作为参考水平 Difference 选项对预测变量或因素每一水平的效应除第一水平以外都与其前面各水平的平均效应进行比较 Helmert 选项对预测变量或因素的效应除最后一个以外都与后续的各水平的平均效应相比较 Repeated 选项对相邻的水平进行比较对预测变量或因素的效应除第一水平以外对每一水乎都与它前面的水平进行比较 Polynomial 选项多项式比较第一级自由度包括线性效应与预测变量或因素水平的交叉第二级包括二次效应等各水平的间隔被假设是均匀的 z 鼠标单击 Change 按钮选中的或改变了的对照方法会显示在 Factors 矩形框选中的因子变量后面的括号中 z 对照的参考水平有两个只有选择了 Deviation 或 Simple 方法时才需要选择参考水平共有两种可能的选择最后一个水平 Last 选项和第一水平 First 选项系统默认的参考水平是 Last 4 Univariate Profile Plots 形状图对话框在主对话框中单击 Plots 按钮展开 Profile Plots 对话框如图 9-4 所示对话框是为描绘因变量的均数分布而设置的它可以一个或多个因素变量为参考做因变量的均数分布图 (1) Factors 框中为在主对话框中所选因素的变量名 (2) Horizontal Axis 横坐标框 Separate Lines 为纵坐标框 Separate Plots 散点框选择 Factors 框中的变量单击箭头按钮将变量名送入相应的坐标轴框中单击 Add 按钮将所选因素变量移入下面的 P1ots 框中 (3) 将变量选送到同 plots 框后发现错误单击选错的变量单击 Remove 按钮将其取消再重新输入正确内容在检查无误后按 Continue 按钮确认返回到主对话框如果取消做图单击 Cancel 按钮需要查看系统的帮助信息单击 Help 按钮 5 Univariate Post Hoc Multiple Comparisons for Observed Means 多重比较对话框在主对话框中单击 Post Hoc 按钮展开 Post Hoc Multiple Comparisons for Observed Means 多重比较对话框如图 9-26 所示在对话框中选择多重比较方法参见 9.2.4 节单因素方差分析过程从 Factor(s)框中选择变量单击箭头键使被选变量进入 Post Hoc Test for 框然后选择多重比较方法 6 Univariate Save 保存运算对话框在主对话框中单击 Save 按钮展开 Univariate Save 对话框如图 9-34 所示通过在对话框中的选择可以将所计算的预测值残差和检测值作为新的变量保存在编辑数据文件中以便在其他统计分析中使用这些值 (1) Predicted Values 预测值栏 z Unstandardizd 复选项非标准化预测值 z Weight 复选项如果在主对话框中选择了 WLS(Weighted Least Squares)变量选中该复选项将保存权重非标准化预测值 z Standard error 复选项预测值的标准误 (2) Diagnostics 诊断值栏图 9-34 Univariate Save 对话框 z Cook’s distance 复选项 Cook 距离 z Leverage values 复选项非中心化 Leverage 值 (3) Residuals 残差栏 z Unstandardized 复选项非标准化残差值观测值与预测值之差 z Weight 复选项如果在主对话框中选择了 WLS(Weight Least Squares)变量选中该复选项将保存权重非标准化残差 z Standardized 复选项标准化残差又称 Pearson 残差 z Studentized 复选项学生化残差 z Deleted 复选项剔除残差自变量值与校正预测值之差 (4) Save to New File 选中 Coefficient stat 复选项将参数协方差矩阵保存到一个新文件中单击 File 按钮打开相应的对话框将文件保存 7 Univariate Options 选择输出对话框在主对话框中单击 Options 按钮展开 Univariate Options 对话框如图 9-3 所示 (1) Estimated Marginal Means 估测边际均值栏 z 在 Factor(s)框中列出主对话框中所指定的因素变量选定该框中因素变量单击移动箭头将所选定变量复制到 Displav Means for 框中 z 在 Display Means for 框中有主效应变量选中 Compare main effects 复选项对主效应变量进行估测边际均值 z Confidence interval adjustment 参数框进行多重组间比较打开下拉菜单共有三个选项 LSD(none) Bonferroni Sidak (2) 在 Display 栏中指定要求输出的统计量 z Descriptive statistics 复选项输出描述统计量 z Estimates of effect size 复选项效应量估计选择和不选择此项决定是否显示 F 检和 t 检验效应的大小 z Observed power 复选项选中此项必须给出计算功效的显著性水平 Alpha 值该值应该在 0.01 到 0.99 之间选择此项显示观测功效系统默认的显著性水平是 0.05 z Parameter estimates 复选项参数估计选择此项给出了各因变量与自变量的回归系数标准误 t 检验 95 的置信区间 z Transformation matrix 复选项显示变换系数矩阵或 M 矩阵 z Homogeneity tests 复选项齐次性检验 z Spread vs. level plot 复选项绘制观测量均值对标准差对方差的图形 z Residuals plot 复选项绘制残差图给出观测值预测值散点图和观测量数目对标准化残差的散点图加上正态和标准化残差的正态概率图 z Lack of fit 复选项拟合度不足的检验检查独立变量和非独立变量间的关系是否被充分描述 z General estimable function 广义估计函数复选项可以根据一般估计函数自定义假设检验对比系数矩阵的行与一般估计函数是线性组合的 (3) 在 Significance level 框中改变 Confidence intervals 框内多重比较的显著性水平下面分别举出双因素不重复试验的方差分析和双因素重复试验的方差分析的例子 [例 9-7] 为了研究酵解作用对血糖浓度的影响随机地选择 8 名健康人抽取其血糖并制成血滤液每个受试者的血滤液又分成 4 份然后随机地把 4 份血滤液分别置放 0 分钟 45 分钟 90 分钟 135 分钟测定其中的血糖浓度数据如下表 9-38 表 9-38 血糖浓度原始数据表放置时间 B 0 45 90 135 1 95 95 89 83 2 95 94 88 84 3 106 105 87 90 4 98 97 95 90 5 102 98 97 88 6 112 112 101 94 7 105 103 97 88 受试者编号 A 8 95 92 90 80 问放置不同时间的血糖浓度的差别是否显著 ( =0.01) 以变量 x 存放响应变量的观测值变量 a 标识不同受试者称为区组变量 a 的数值与受试者编号相对应变量 b 标识不同时间称为分组变量 b=i(i=1 2 3 4)时代表放置时间为 45 i 1 分钟建立数据文件如图 9-35 所示图 9-35 血糖浓度数据文件选择 Analyze ? General Linear Model ? Univariate 进入 Univariate 主对话框把变量 x 放入 Dependent 栏变量 a 放入 Random Factor(s)栏变量 b 放入 Fixed Factor s 栏点击 Model 按钮激活 Model 对话框在 Model 对话框中选择 Custom 在效应选项中选择 Main effect 在 Factor&栏中选择 a(R)和 b(F) 在 Build Term(s)中单击向右的箭头按钮把 a(R)和 b(F)放入 Model 栏中单击 Continue 按钮返回主对话框在主对话框中单击 Post Hoc 按钮打开 Post Hoc 对话框在此对话框中把 Factor(s) 栏中的变量 b 选入 Post Hoc Test for 栏在 Equal Variance Assumed 中选择 S-N-K 法单击 Continue 返回单击 Options 按钮打开 Options 对话框把 Factor(s) and Factor Interactions 栏中的 OVERALL b 和 a 选入 Display Mean for 栏中在 Display 栏中选择 Descriptive Statistics 在 Significance level 栏中输入 0.01 单击 Continue 以返回主对话框在主对话框中单击 Plots 打开 Profile Plots 对话框把变量 a 放入 Horizontal Axis 把变量 b 放入 Separate Lines 栏单击 Add 按钮然后单击 Continue 按钮返回主对话框点击 OK 按钮提交运行该过程得到结果如表 9-39 到表 9-43 图 9-36 所示表 9-39 各目标因素 N B 1 2 3 4 A 1 2 3 4 5 6 7 8 8 8 8 8 4 4 4 4 4 4 4 4 表 9-40 各目标检验 Source Type III Sum of squar es df Mean Square F Sig Intercept Hypothesis Error B Hypothesis Error A Hypothesis Error 289750.781 747.469 977.344 175.406 747.469 175.406 1 7 3 21 7 21 289750.8 106.781 a- 325.781 8.353 b 106.781 8.353 b 2713.499 39.003 12.784 .000 .000 .000 a. MS(A) b. MS(Error) 表 9-41 期望均方 Variance Component Source Var(A) Var(Error) Quadratic Trem Intercept B A Error 4.000 .000 4.000 .000 1.000 1.000 1.000 1.000 Intercept, B B a. For each source, the expected mean square equals the sum of the coefficients in the cells times the variance components, plus a quadratic term involving effects in the Quadratic Term cell. b. Expected Mean Squares are based on the Type III Sums of Squares. 表 9-42 估计边缘均数 99% Confidence Interval Mean Std.Error Lower Bound Upper Bound 95.156 .511 93.710 96.603 99% Confidence Interval B Mean Std.Error Lower Bound Upper Bound 1 2 3 4 101.000 99.500 93.000 87.125 1.022 1.022 1.022 1.022 98.107 98.607 90.107 84.232 103.893 102.393 95.893 90.018 99% Confidence Interval A Mean Std.Error Lower Bound Upper Bound 1 2 3 4 5 6 7 8 90.500 90.250 97.000 95.000 96.250 104.750 98.250 89.250 1.445 1.445 1.445 1.445 1.445 1.445 1.445 1.445 86.409 86.159 92.909 90.909 92.159 100.659 94.159 84.159 94.591 94.341 101.091 99.091 100.341 108.841 102.341 92.341 表 9-43 Post Hoc 检验因素 b 之均衡子集 Subset B N 1 2 3 4 3 2 1 Sig 8 8 8 8 87.13 1.00 93.00 1.000 99.50 101.00 .311 Means for groups in homogeneous subsets are displayed. Based on Type III Sum of Squares The error term is Mean Square (Error)=8.353. a. Uses Harmonic Mean Sample Size=8.000. b. Alpha=.01. Estimated Marginal Means of X A 87654321 Estimated Marginal Means 120 110 100 90 80 70 B 1 2 3 4 图 9-36 响应变量散点图由上述图表得出结论如下 z 表 9-39 显示 (1) 分组变量 a 有八个水平即受试者共有 8 人每个水平共有 4 例该因素水平为随机样本的各种水平 (2) 分组变量 b 有四个水平即不同的放置时间每个水平有 8 例 z 表 9-40 显示 (1) 因素 b F=均方 b 因素 /均方残差 =39.003 P=0.000 按 0.01 检验水准拒绝无效假设可认为放置时间之间的差异显著 (2) 因素 a F=均方 a 因素 /均方残差 =12.784 P=0.000 按 0.01 检验水准拒绝无效假设可认为不同受试者之间的差异显著 z 表 9-41 显示各方差分量的系数和计算期望均方的公式对于每种来源期望均方等于格子系数乘以方差分量加上二次项格子中涉及效应的二次项的总和 z 表 9-42 显示各水平与格子和的总的均数标准误和 95 可信区间 z 表 9-43 显示 (1) 由于本例是无重复数设计不能求出每个格子的方差故不能计算方差的齐次性这里仅选择 S-N-K 法进行均数之间的两两比较 (2) 在均衡子集表中第一均衡子集 (Subset=1 栏 )仅包含第四组 (b=4) 它的均数为 87.13 概率 P=1.000 (3) 第二均衡子集 (Subset=2 栏中 )仅包含第三组 (b=3) 它的均数为 93.00 概率为 1.000 (4) 第三均衡子集 (Subset=3 栏中 )包含第二组 (b=2)和第一组 (b=1) 它们的均数分别为 99.50 和 101.00 两组均数比较的概率为 0.311 按 0.01 检验水准接受无效假设可认为放置时间为 0 分钟和放置时间为 45 分钟的均数之间无明显差异 (5) 第一二组 (b=1 2)与第三组 (b=3)与第四组 (b 4)未列在均衡子集表的同一格子中可以认为它们的均数并非均衡而是存在显著差异 z 图 9-36 响应变量散点图显示 (1) 四条线基本平行 (2) 但第一条和第二条相隔很近可见它们差别较小从而暗示第二组 (b=2)和第一组 (b=1)无明显差异而这两条线和第三条第四条之间有着明显的距离从而暗示第一二组 (b=1 2)与第三 (b=3) 四组 (b 4)之间存在显著差异下面举出一个双因素重复试验的方差分析 [例 9-8] 从三个工厂随机抽查一些男女职工的血原卟啉 g/100ml ,数据如下表 9-44 问各厂男女职工的血原卟啉有无差异建立工作数据表变量 x 为观测数据变量变量 a 为不同工厂变量 b 为不同性别如图 9-37 所示选择 Analyze ? General Linear Model ? Univariate 进入 Univariate 主对话框把变量 x 放入 Dependent 栏变量 a b 放入 Fixed Factor(s)栏表 9-44 工厂男女职工血原卟啉原始数据表性别工厂男 1 女 2 绣品厂 (1) 54.1,31.8,19.1,20.7 36.6,53.4,28.7,27.1,31.8, 21.4,31.8,22.3 电视机厂 (2) 15.0,21.7,21.7,23.3,41.7 35.0,15.0,28.3,36.7 电池厂 (3) 163.9,192.3,183.6,129.4 160.8,160.8,155.6,188.8,129.0, 110.1,90.0,97.9,136.4 图 9-37 工厂男女职工血原卟啉数据文件点击 Model 按钮激活 Model 对话框采用系统默认值选用在 Specify Model 栏中的 Full factorial 单击 Continue 按钮返回主对话框在主对话框中单击 Post Hoc 按钮打开 Post Hoc 对话框在此对话框中把 Factor(s) 栏中的变量 a 选入 Post Hoc Test for 栏在 Equal Variance Assumed 中选择 S-N-K 法在 Equal Variance Not Assumed 中选择 Tamhane’s T2 法单击 Continue 按钮返回主对话框主对话框中单击 Options 按钮打开 Options 对话框把 Factor(s) and Factor Interactions 栏中的 OVERALL a b 和 a*b 都选入 Display Mean for 栏中在 Display 栏中选择 Descriptive Statistics Estimates of effect size Observed power Homogeneity tests 和 Spread vs. level plot 等单击 Continue 返回主对话框在主对话框中单击 Plots 打开 Profile Plots 对话框把变量 a 放入 Horizontal Axis 把变量 b 放入 Separate Lines 栏单击 Add 按钮然后单击 Continue 按钮返回主对话框点击 OK 按钮提交运行该过程得到结果如表 9-45 到表 9-51 图 9-38 到图 9-40 所示表 9-45 各目标因素 N 工厂 1 2 3 性别 1 2 12 9 13 13 21 表 9-46 描述统计量结果工厂性别 Mean Std. Deviation N 1 1 2 Total 31.200 31.638 31.492 16.089 10.138 11.664 4 8 12 2 1 2 Total 24.680 28.750 26.489 10.038 9.858 9.562 5 4 9 3 1 2 Total 167.300 136.700 146.115 27.920 32.793 33.584 4 9 13 Total 1 2 Total 70.569 76.114 73.994 69.327 58.073 61.637 13 21 34 表 9-47 残差方差齐性的 Levene 检验 F df1 df2 Sig. 3.653 5 28 .011 Tests the null hypothesis that the error varian of the dependent variable is equal across group a. Design: Intercept+A+B+A*B 表 9-48 估计边缘均数 95% Confidence Interval Mean Std.Error Lower Bound Upper Bound 70.045 3.931 61.992 78.097 95% Confidence Interval 工厂 Mean Std.Error Lower Bound Upper Bound 1 2 3 31.419 26.715 152.000 6.631 7.264 6.507 17.836 11.836 138.671 45.002 41.594 165.329 95% Confidence Interval 性别 Mean Std.Error Lower Bound Upper Bound 1 2 74.393 65.696 6.040 5.033 62.021 55.386 85.755 76.006 95% Confidence Interval 工厂性别 Mean Std.Error Lower Bound Upper Bound 1 1 2 31.200 31.638 10.828 7.657 9.019 15.953 53.381 47.322 2 1 2 24.680 28.750 9.685 10.828 4.841 6.569 44.519 50.931 3 1 2 167.300 136.700 10.828 7.219 145.119 121.913 189.481 151.487 表 9-49 各目标检验结果 Source Type III Sun of Squares Df Mean Square F Sig EtaSquar ed Noncent. Parameter Observe d Power a Corrected Model Ubterceot A B A*B Error Corrected Total Total 112237.742 148910.814 106603.208 573.992 1905.032 13132.537 311524.680 125370.279 5 1 2 1 2 28 34 33 22447.5 148911 53301.6 573.992 952.516 469.019 46.861 317.494 113.645 1.224 2.031 .000 .000 .000 .278 .150 .895 .919 .890 .042 .127 239.303 317.494 227.290 1.224 4.062 1.000 1.000 1.000 .188 .383 a. Computed using alpha=.05 b. R Squared=.895 (Adjusted R Squared=.877) 表 9-50 多重比较结果 95% Confidence Interval (I) 工厂 I 工厂 Mean Difference (I-J) Std.Error Sig. Lower Bound Upper Bound 1 2 3 5.003 -114.624* 9.550 8.670 .648 .000 -7.144 -141.207 17.149 -88.041 2 1 3 -5.003 -119.626* 9.550 9.391 .648 .000 -17.149 -146.135 7.144 -93.118 Tamhane 3 1 2 114.624* 119.626* 8.670 9.391 .000 .000 88.041 93.118 141.207 146.135 Based on observed means. *. The mean difference is significant at the .05 level. 表 9-51 Post Hoc 检验因素 a 之均衡子集 Subset 工厂 N 1 2 Student-Newman-Keuls a 2 1 3 Sig 9 12 13 22.489 31.492 .591 146.115 1.000 Means for groups in homogeneous subsets are displayed. Based on Type III S um of Squares The error term is mean Square (Error)=469.019. a. Uses Harmonic Mean Sample Size=11.055. b. The group sizes are unequal. The harmonic mean of the group sizes is used. Type I error Levels are not guaranteed. c. Alpha=.05. Spread vs. Level Plot of 血原卟啉 Groups: 工厂 * 性别 Level (Mean) 18016014012010080604020 Spread (Standard Deviation) 40 30 20 10 0 图 9-38 以标准差为纵轴的响应变量 x 水平散点图 Spread vs. Level Plot of 血原卟啉 Groups: 工厂 * 性别 Level (Mean) 18016014012010080604020 Spread (Variance) 1200 1000 800 600 400 200 0 图 9-39 以方差为纵轴的响应变量 x 水平散点图 Estimated Marginal Means of 血原卟啉工厂 321 Estimated Marginal Means 200 100 0 性别 1 2 图 9-40 响应变量 x 的估计边缘均数图由上述图表可得 z 表 9-45 显示 (1) 因素 a 为不同工厂分 3 个水平水平 1 为绣品厂水平 2 为电视机厂水平 3 为电池厂每个水平分别有 12 9 和 13 例 (2) 因素 b 为不同性别分 2 个水平水平 1 为男性水平 2 为女性每个水平分别有 13 和 21 例 z 表 9-46 显示各个格子和总的均数标准差和例数 z 表 9-47 显示方差齐性的 Levene 检验的 P=0.011 按 0.05 检验水准拒绝无效假设可认为各格子响应变量的残差方差不齐同 z 表 9-48 显示各水平和各格子和总的均数标准误和 95 可信区间 z 表 9-49 显示 (1) 因素 a F=均方 a 因素 /均方残差 =113.645 P=0.000 按 0.05 检验水准拒绝无效假设可认为因素 a 效应显著不同工厂之间职工的血原卟啉全不等或不全等 (2) 因素 b F=均方 b 因素 /均方残差 =1.224 P=0.278 按 0.05 检验水准接受无效假设可认为因素 b 效应不显著不同性别之间的职工的血原卟啉相等 (3) 因素 a*b 的交互作用 F=均方 a*b 均方残差 =2.031 P=0.150 按 0.05 检验水准接受无效假设可认为因素 A 与因素 B 的交互效应不显著即工厂与性别间不存在交互效应 (4) Eta 平方 Eta 2 a >Eta 2 a*b >Eta 2 b 可认为各因素对总变异的贡献是因素 a>因素 a*b> 因素 b 非中心参数各 F 值其效应自由度观察效能观察效能 a=l.000 可认为因素 A 的检验效能很大无须增加样本含量观察效能 b=0.188 观察效能 a*b 0.383 可认为因素 b 和因素 a*b 的检验效能均很小 ,即使增加样本含量也难以得出显著差异的结果 z 表 9-50 显示 (1) 由于表 9-47 的结果认为各个格子方差不齐同应该选择了 Tamhane’s 法作均数间两两比较而不选择 SNK 法 (2) Tamhane’s 法结果显示第一组与第三组比较 P=0.000 第二组与第三组比较 P=0.000 按 0.05 检验水准拒绝无效假设可认为第一组与第三组第二组与第三组的均数间均有显著差异其余均无显著差异 z 由图 9-38 和图 9-39 可见均数与标准差或均数与方差均近似成比例 z 图 9-40 可见两线近似平行提示因素 a 和因素 b 不存在交互作用 9.3.5 单响应变量多因素方差分析实例有时影响一个响应变量的因素往往不止一两个虽然三个或三个以上的因素的方差分析的基本原理与单因素方差分析双因素方差分析的是类似的但这时情况较前者复杂如对于三因素方差分析它们的交互效应有二维的也有三维的下面举出一个实例 [例 9-9] 下表 9-52 为三因素实验的资料请用方差分析说明不同基础液与不同血清种类对钩端螺旋体的培养计数的影响血清种类 b 兔血清浓度 c 胎盘血清浓度 c 基础液 a 5 8 5 8 缓冲液 648 1246 1398 909 1144 1877 1671 1845 830 853 441 1030 578 669 643 1002 蒸馏水 1763 1241 1381 2421 1447 1883 1896 1926 920 709 848 574 933 1024 1092 742 自来水 580 1026 1026 830 1789 1215 1434 1651 1126 1176 1280 1212 685 546 595 566 定义分组变量名基础液为 a 血清种类为 c 血清浓度为 c 钩端螺旋体的培养计数为 x a=1 2 3 分别代表缓冲液蒸馏水自来水 b=1 2 分别代表兔血清浓度和胎盘血清浓度 c=1 2 分别代表 5 和 8 的浓度按顺序输入相应数值建立数据文件如图 9-41 所示图 9-41 钩端螺旋体的培养计数数据文件从 Analyze ? General Linear Model ? Univariate 进入 Univariate 对话框将变量培养计数 [x] 放入 Dependent Variable 栏把变量基础液 [a] 血清种类 [b] 和血清浓度 [c] 放入 Fixed Factor s 栏点击 Post Hoc 按钮进入 Post Hoc Multiple Comparisons for Observed Means 对话框把 Factor s 栏中的变量 a 放入 Post Hoc Tests for 栏在 Equal Variance s Assumed 栏中选择 S-N-K 法点击 Continue 返回主对话框点击 Options 进入 Options 对话框把 a b c a*b a*c b*c a*b*c 全放入 Display Mean for 一栏点击 Continue 返回主对话框点击 Plots 按钮将 a 放入 Horizontal Axis 栏 b 放入 Separate Lines 一栏单击 Add 按钮则在 Plots 栏中出现 a*b 以相同的方法在此栏中添加 a*c b*c 返回主对话框在主对话框中单击 OK 按钮提交运行得到结果如表 9-53 到表 9-56 和图 9-42 到图 9-44 所示表9-52 钩端螺旋体的培养计数原始数据表 N 基础 1 液 2 3 血清 1 种类 2 血清 1 浓度 2 16 16 16 24 24 24 24 表 9-54 各目标因素检验 Source Type III Sun of Squares df Mean Square F Si g. Corrected Model Intercept A B C A*B A*C B*C A*B*C Error Total Corrected Total 7928262.562 61474396.688 679967.375 4184873.521 238713.021 705473.042 107005.542 1089922.687 922307.375 2459233.750 71861893.000 10387496.312 11 1 2 1 1 2 2 1 2 36 48 47 720751.142 61474396.69 339983.687 4184873.521 238713.021 352736.521 53502.771 1089922.687 461153.687 68312.049 10.551 899.906 4.977 61.261 3.494 5.164 .783 15.955 6.751 .000 .000 .012 .000 .070 .011 .465 .000 .003 表 9-55 估计边缘均数 Dependent Variable: 培养计数 1 基础液 95% Confidence Interval 基础液 Mean Std.Error Lower Bound Upper Bound 1 2 3 1049.000 1300.000 1046.063 65.341 65.341 65.341 916.481 1167.481 913.544 1181.519 1432.519 1178.581 Dependent Variable: 培养计数 2 血清种类 95% Confidence Interval 血清种类 Mean Std.Error Lower Bound Upper Bound 1 2 3 1426.958 836.417 53.351 53.351 1318.757 728.216 1535.159 944.618 表9-53 各目标因素 Dependent Variable: 培养计数 3 血清浓度 95% Confidence Interval 血清浓度 Mean Std.Error Lower Bound Upper Bound 1 2 3 1061.167 1202.208 53.351 53.351 952.966 1094.007 1169.368 1310.409 Dependent Variable: 培养计数 4 基础液 * 血清种类 95% Confidence Interval 基础液血清种类 Mean Std.Error Lower Bound Upper Bound 1 1 2 1342.250 755.750 92.407 92.407 1154.840 568.340 1529.660 943.160 2 1 2 1744.750 855.250 92.407 92.407 1557.340 667.840 1932.160 1042.660 3 1 2 1193.875 898.250 92.407 92.407 1006.465 710.840 1381.285 1085.660 Dependent Variable: 培养计数 5 基础液 * 血清浓度 95% Confidence Interval 基础液血清浓度 Mean Std.Error Lower Bound Upper Bound 1 1 2 919.375 1178.625 92.407 92.407 731.965 991.215 1106.785 1366.035 2 1 2 1232.125 1367.875 92.407 92.407 1044.715 1180.465 1419.535 1555.285 3 1 2 1032.000 1060.125 92.407 92.407 844.590 872.715 1219.410 1247.535 Dependent Variable: 培养计数 6 基础液 * 血清种类 * 血清浓度 95% Confidence Interval 基础液血清种类血清浓度 Mean Std.Error Lower Bound Uppder Bound 1 2 2 1050.250 1634.250 130.683 130.683 785.213 1369.213 1315.287 1899.287 1 2 1 788.500 723.000 130.683 130.683 523.463 457.963 1053.537 988.037 2 1 1 2 1701.500 1788.000 130.683 130.683 1436.463 1522.963 1966.537 2053.037 2 1 2 762.750 947.750 130.683 130.683 497.713 682.713 1027.787 1212.787 1 1 2 865.500 1522.250 130.683 130.683 600.463 1257.213 1130.537 1787.287 3 2 1 2 1198.500 598.000 130.683 130.683 933.463 332.963 1463.537 863.037 表 9-56 Post Hoc 检验因素 A 之均衡子集 Subset 基础液 N 1 2 3 1 2 Sig 16 16 16 1046.06 1049.00 .975 1300.00 1.000 Means for groups in homogeneous subsets are displayed. Based on Type III Sum of Squares The error term is Mean Square (Error)=68312.049. a. Uses Harmonic Mean Sample Size=16.000. b. Alpha=.05. Estimated Marginal Means of 培养计数基础液 321 Estimated Marginal Means 1800 1600 1400 1200 1000 800 600 血清种类 1 2 图 9-42 基础液为横轴血清种类为纵轴的估计边缘均数图 Estimated Marginal Means of 培养计数基础液 321 Estimated Marginal Means 1400 1300 1200 1100 1000 900 800 血清浓度 1 2 图 9-43 基础液为横轴血清浓度为纵轴的估计边缘均数图 Estimated Marginal Means of 培养计数血清种类 21 Estimated Marginal Means 1800 1600 1400 1200 1000 800 600 血清浓度 1 2 图 9-44 血清种类为横轴血清浓度为纵轴的估计边缘均数图由上述图表得出如下结论 z 表 9-53 显示 (1) 因素 a 为不同基础液分 3 个水平水平 1 为缓冲液水平 2 为蒸馏水水平 3 为自来水每个水平有 16 例 (2) 因素 b 为不同血清种类分 2 个水平水平 1 为兔血清水平 2 为胎盘血清每个水平有 24 例 (3) 因素 c 为不同浓度分 2 个水平水平 1 为 5 水平 2 为 8 每个水平为 24 例 z 表 9-54 显示 (1) 因素 a F=均方 a 因素 /均方残差 =4.9775 P=0.012 按 0.05 检验水准拒绝无效假设可认为因素 a 效应显著不同基础液之间的培养计数全不等或不全等 (2) 因素 b F=均方 b 因素 /均方残差 =61.261 P=0.000 按 0.05 检验水准拒绝无效假设可认为因素 b 效应显著不同血清种类之间的培养计数不相等 (3) 因素 c F=均方 c 因素 /均方残差 =3.494 P=0.070 按 0.05 检验水准接受无效假设可认为因素 c 效应不显著不同血清浓度之间的培养计数相等 (4) 因素 a*b 的交互作用 F=均方 a*b 均方残差 =5.162 P=0.011 按 0.05 检验水准拒绝无效假设可认为因素 a 与因素 b 的交互效应显著即基础液与血清种类之间存在交互效应 (5) 因素 a*c 的交互作用 F=均方 a*c/均方残差 =0.783 P=0.465 按 0.05 检验水准接受无效假设可认为因素 a 与因素 c 的交互效应不显著即基础液与血清浓度之间不存在交互效应 (6) 因素 b*c 的交互作用 F=均方 b*c/均方残差 =15.955 P=0.000 按 0.05 检验水准拒绝无效假设可认为因素 b 与因素 c 的交互效应显著即血清种类与血清浓度之间存在交互效应 (7) 因素 a*b*c 的交互作用 F=均方 a*b*c/均方残差 =6.751 P=0.003 按 0.05 检验水准拒绝无效假设可认为因素 a 因素 b 与因素 c 的交互效应显著即基础液血清种类与血清浓度之间存在交互效应 z 表 9-55 显示各水平和各格子和总的均数标准误和 95 可信区间 z 表 9-56 (1) 由于本例是三因素非重复试验方差分析故不能求出每个格子的方差这里仅选 S-N-K 法进行均数之间的两两比较 (2) S-N-K 法结果显示对于因素 a Subset=1 栏第一组与第三组比较 P=0.975 Subset=2 栏仅有第二组 P=1.000 按 0.05 检验水准接受无效假设可认为第一组与第三组无显著差异而第二组与第三组第一组的均数间均有显著差异 z 由图 9-42 可见两条线在坐标上不平行暗示基础液与血清种类之间存在交互效应 z 由图 9-43 可见两线近似平行提示因素 a 和因素 c 不存在交互作用 z 由图 9-44 可见两条线在坐标上相交暗示血清种类与血清浓度之间存在交互效应 9.4 协方差分析在进行一般方差分析时要求除研究的因素外应该保证其他条件的一致这就要用到协方差分析 9.4.1 协方差分析的基本概念协方差分析是利用线性回归的方法消除混杂因素的影响后进行的方差分析这是实际工作中经常要考虑的问题例如考虑药物对患者某个生化指标变化的影响要比较实验组与对照组该指标变化均值是否有显著性差异以确定药物的有效性可能要考虑患者病程的长短年龄以及原指标水平对疗效的影响要消除这些因素的影响考虑药物疗效即比较实验组和对照组之间该生化指标变化量均值的差异显著性才是科学的分析方法只有在考虑了这些因素在测量对象的选择上使这些条件都一致时可以使用一般的方差分析方法对于动物实验比较容易达到例如选择同品种同一胎的大白鼠分组在相同的饲养条件下进行实验可以相应的避免许多混杂的因素的影响协方差分析从影响因素和协变量的个数分为单因素协方差分析多因素协方差分析和多协变量协方差分析等从试验设计的方式分为完全随机设计协方差分析随机区组设计协方差分析和析因协方差分析 9.4.2 协方差分析的功能与应用协方差分析的功能可用一句话进行概括消除不可控因素的影响进行方差分析协方差用到的 SPSS 过程仍然是菜单 Analyze 中的 General Linear Model 的 Univariate 命令调用该过程选择合适的选择项可以输出统计描述量估计效应的大小观察效能参数估计值对照系数矩阵齐次性检验结果水平散点图残差图等等也可以选择多项式比较均值多重比较等功能 9.4.3 单因素协方差分析单因素协方差分析是协方差中最简单的一种模型先从它讲起在这个基础上对更复杂的模型就不难理解了下面举出一个完全随机设计的例子 [例 9-10] 比较三种猪饲料 A1 A2 A3 对猪催肥的效果测得每头猪增加的重量 (y)和初始重量 (z) 数据如表 9-57 所示表 9-57 催肥效果原始数据表 z 1513111212161417A1 y 8583657680918490 z 1716181821221918A2 y 97 90 100 95 103 106 99 94 z 2224202325273032A3 y 89 91 83 95 100 102 105 110 问三种饲料对猪的催肥有无显著的不同首先建立数据文件如图 5-45 所示变量 y 为猪的增加重量 (kg) 变量 z 为猪的初始重量 (kg),分组变量为 g,g=1 2 3 分别代表 A1 A2 A3 种饲料为了便于对比先不考虑初始重量 z 的影响对变量 y 和分组变量 g 作单因素方差分析然后以变量 z 为协变量进行协方差分析图 9-45 催肥效果数据文件 1 不考虑协变量 z 而进行单因素方差分析从 Analyze ? Compare Means ? One-Way ANOVA 进入单因素方差分析主对话框将变量增加重量 [y] 放入 Dependent List 栏将分组变量 [z] 放入 Factor 栏单击 Post Hoc 按钮进入均数多重比较对话框选择 LSD 和 S-N-K 两种方法单击 Continue 返回主对话框单击 Options 进入 Options 对话框选择 Descriptive 和 Homogeneity-of-variance 以返回主对话框点击 OK 按钮提交运行程序得到结果如表 9-58 到表 9-62 所示表 9-58 描述统计量结果 95% Confidence Interval for Mean N Mean Std.Deviation Std.Error Mini mum Maxi mum 1 2 3 Total 8 8 8 24 81.75 98.00 96.88 92.21 8.35 5.13 9.00 10.54 2.95 1.81 3.18 2.15 74.77 93.71 89.35 87.76 88.73 102.29 104.40 96.66 65 90 83 65 91 106 110 110 表 9-59 方差分析齐次性检验 Levene Statistic df1 df2 Sig. 1.276 2 21 .300 表 9-60 单因素方差分析结果 Sum of Squares df Mean F Sig Between Groups Within Groups Total 1317.583 1238.375 2555.958 2 21 23 658.792 58.970 11.172 .000 表 9-61 均数多重比较检验结果 95% Confidence Interval (I)分组变量 J 分组变量 Mean Difference(I-J) Std.Error Sig. Lower Bound Upper Bound LSD 1 2 3 -16.25* -15.13* 3.84 3.84 .000 .001 -24.23 -23.11 -8.27 -7.14 2 1 3 16.25* 1.13* 3.84 3.84 .000 .772 8.27 -6.86 24.23 9.11 3 1 2 15.13* -1.13* 3.84 3.84 .001 .772 7.14 -9.11 23.11 6.86 *.The mean difference is significant at the .05 level. 表 9-62 均衡子集 Subset for alpha=.05 分组变量 N 1 2 Student-Newman-Keulsa 1 3 2 Sig 8 8 8 81.75 1.000 96.88 98.00 .772 Means for groups is homogeneous subsets are displayed. a. Uses Harmonic Mean Sample Size=8.000. 2 考虑协变量 z 进行单因素协方差分析从 Analyze ? General Linear Model ? Univariate 打开 Univariate 主对话框把增加重量 [y] 放入 Dependent Variable 栏把分组变量 [g] 放入 Fixed Fator(s)栏中把初始重量 [z] 放入 Covariate(s)栏中如图 9-46 所示打开 Options 对话框选择 Descriptive Statistics Parameter estimates 和 Homogeneity tests 在 Factor(s)and Factor 栏中选择分组变量 g 放入 Display Mean for 栏单击 Continue 返回主对话框图 9-46 选择协变量的 Univariate 主对话框单击 OK 按钮提交运行得到结果如表 9-63 到表 9-68 所示表 9-63 各目标因素 N 分组 1 变量 2 3 8 8 8 表 9-64 描述统计量结果分组变量 Mean Std.Deviation N 1 2 3 Total 81.75 98.00 96.88 92.21 8.35 5.13 9.00 10.54 8 8 8 24 表 9-65 残差方差齐次性的 Levene 检验 F df1 df2 Sig. .747 2 21 .486 Tests the null hypothesis that the error variance of the dependent variable is equal across groups. a. Design: Intercept+Z+G 表 9-66 各目标检验结果 Source Type III Sum of squares df Mean square F Sig. Corrected Model Intercept Z G Error Total Corrected Total 2328.344 a 980.448 1010.760 707.219 227.615 206613.000 2555.958 3 1 1 2 20 24 23 776.115 980.448 1010.760 353.609 11.381 68.196 86.150 88.813 31.071 .000 .000 .000 .000 a. R Squared=.911(Adjusted R Squared(调整 R 平方 )=.898) 表 9-67 参数估计 95% Confidence Interval Parameter B Std.Error T Sig. Lower Bound Upper Bound Intercept Z [G=1] [G=2] [G=3] 35.935 2.402 12.793 17.336 6.575 .255 3.409 2.409 5.465 9.424 3.753 7.196 .000 .000 .001 .000 22.219 1.870 5.682 12.310 49.651 2.933 19.904 22.361 a. This parameter is set to zero because it is redundant.由于 g=3 是多余项该参数设为 0 表 9-68 估计边缘均数 95% Confidence Interval 分组变量 Mean Std.Error Lower Bound Upper Bound 1 2 3 94.959 a 99.501 a 82.165 a 1.840 1.203 1.964 91.120 96.991 78.068 98.798 102.011 86.263 a. Evaluated at covariates appeared in the model:初始重量 =19.25 通过模型中协变量估计调整均数协变量 Z 的总均数等于 19.25 对上述表 9-58 到表 9-68 所得结果进行分析得出如下结论 z 表 9-63 显示因素 g 为分组变量分 3 个水平每个水平有 8 例 z 表 9-64 显示各个格子和总的均数标准差和例数与表 9-58 相同 z 表 9-65 显示残差方差检验结果 P=0.486 按 0.05 的水平检验应接受假设即认为各水平下响应变量 y 的残差方差齐同相对于表 9-53 P=0.300 也应接受方差齐性的假设 z 表 9-66 显示各目标检验结果协变量 z F=均方协变量 z/均方残差 =88.813 P=0.000 按 0.05 的检验水平拒绝无效假设可认为回归效应显著协变量 z 和响应变量 y 之间存在线性关系利用 Analyze 的 Correlate 中的 Bivariate 命令计算得到相关系数为 0.796 双尾检验的概率为 0.000 具有统计意义初始重量 z 对猪的催肥有相当的影响则初始重量与饲料的效应就会混杂在一起因而不考虑协变量 z 进行单因素方差分析时表 9-58 到表 9-62 得出的一些结论是不科学的分组变量 g F=均方协变量 z/均方残差 =31.071 P=0.000 按 0.05 的检验水平拒绝无效假设可认为各水平 (不同饲料 )之间对催肥效果差异显著由表 9-61 均数多重比较结果显示 A1 饲料和 A2 饲料 A1 饲料和 A3 饲料之间的差异不显著 A2 和 A3 之间的差异显著由表 9-62 均衡子集显示在 Subset=1 栏中仅有 g=1(即饲料 A1) P=1.000 在 Subset=2 栏中有 g=3 和 g=2(饲料 A3 和饲料 A2) P=0.772 说明 A2 和 A3 饲料之间无差异 z 表 9-67 显示公共回归系数 B C =2.402 标准误 SE BC =0.255 P=0.000 按 0.05 的检验水平拒绝无效假设可认为公共回归系数不为 0 其可信区间为 1.872 到 2.933 z 表 9-68 显示各水平调整均数和 95 的可信区间水平 2 的调整均数为 99.501> 水平 1 的调整均数 94.959> 水平 3 的调整均数 82.165 可见饲料 A2 优于 A1 A1 优于 A3 而由不考虑协变量 z 进行的单因素方差分析的表 9-58 可见水平 2 的均数为 98.00 水平 3 的均数为 96.88 水平 1 的均数为 81.75 可以得出饲料 A2 优于 A3 A3 优于 A1 因此我们可以发现不考虑协变量 z 的单因素方差分析和考虑协变量 z 的单因素方差分析之间结果的差异显然后者得出的结论更为科学和准确 9.4.4 多因素协方差分析如果在多因素试验中有两个或两个以上的因素不能控制而这些因素对试验又有影响解决这一类问题的思想和单因素一样 [例 9-11] 为无重复试验的多因素协方差分析也为随机区组设计的协方差分析 [例 9-11] 在核黄素缺乏对于蛋白质利用的影响之研究中将体重相近 (34-38 克 ) 出生三周的大白鼠 36 只按照窝别性别等条件分成 12 窝每窝 3 只随机分到核黄素缺乏组 (1) 限食量组 (2)和不限食量组 (3)进行喂养观察记录数据如下表 9-69 所示建立数据文件如图 9-47 所示协变量 x 为食物消耗量响应变量 y 为大白鼠的体重因素 a 为不同饲料组因素 b 为窝别选择 Analyze ? General Linear Model ? Univariate 进入主对话框把响应变量 y放入 Dependent Variable栏因素 a放入 Fixed Factor(s)栏因素 b放入 Random Factor(s) 栏协变量 x 放入 Covariate(s)栏中如图 9-48 所示单击 Model 按钮打开 Model 对话框在此对话框中选择 Custom 项在效应选项中选择 Main effect 在 Factors &栏中选择 a(F) b(R)和 x(C) 在 Build Term(s)中单击向右的箭头按钮把 a(F) b(R)和 x(C)放入 Model 栏中如图 9-49 所示单击 Continue 按钮返回主对话框表 9-69 不同饲料对体重增长影响的原始数据 x 256.9 271.6 210.2 300.1 262.2 304.4 272.4 248.2 242.8 342.9 356.9 198.2 缺乏组 y 27.0 41.7 25.0 52.0 14.5 48.8 48.0 9.5 37.0 56.5 76.0 9.2 x 260.3 371.1 214.7 300.1 269.7 307.5 278.9 256.2 240.8 340.7 356.3 199.2 限食量组 y 32.0 47.7 36.7 65.0 39.0 37.9 51.5 26.7 41.0 61.3 102.1 8.1 x 544.7 481.2 418.9 556.6 394.5 426.6 416.1 549.9 580.5 608.3 559.6 371.9 不限食量组 y 160.3 96.1 114.6 134.8 76.3 72.8 99.4 133.7 147.0 165.8 169.8 54.3 图 9-47 不同饲料对体重增长影响的数据文件图 9-48 选择好各变量后的主对话框图 9-49 Model 对话框在主对话框中单击 Options 按钮打开 Options 对话框在此对话框中选择 Parameter estimates 在 Factor(s) and Factor 栏中选择因素 a 放入 Display Means for 栏选择 Compare main effects 单击 Continue 按钮返回主对话框在主对话框中单击 OK 按钮提交运行该过程得到结果如表 9-70 到表 9-76 所示表 9-70 各目标因素 Between-Subjects Factors N 不同 1 12 饲料 2 12 组 3 12 窝别 1 3 2 3 3 3 4 3 5 3 6 3 7 3 8 3 9 3 10 3 11 3 12 3 表 9-71 各目标因素检验 Source Type III Sum of squares df Mean Square F Sig Intercept Hypothesis Error A Hypothesis Error B Hypothesis Error X Hypothesis Error 1691.054 2409.854 469.157 2233.139 3761.319 2233.139 6175.031 2233.139 1 22.216 2 21 11 21 1 21 1691.054 108.474 a 234.578 106.340 b 341.938 106.340 b 6175.031 106.340 b 15.6 2.206 3.216 58.1 .001 .135 .010 .000 a. 90.058E-3MS(B)+.991 MS(Error)(0.009058 因素 b 均方 +0.991 歹 .差均方 ) b. MS(Error) 表 9-72 期望均方 Variance Component Source Var(B) Var(Error) Quadratic Term Intercept A B X Error 2.544E-02 .000 2.808 .000 .000 1.000 1.000 1.000 1.000 1.000 Intercept,A A X a. For each source, the expected mean square equals the sum of the coefficients in the cells times the variance components, plus a quadratic term involving effects in the Quadratic Term cell.(对于每种来源期望均方等于格子系数乘以方差分量加上二次项格子中涉及效应的二次项的总和 ) b. Expected Mean Squares are based on the Type III Sums of Squares. (期望均方计算基于三类平方和 ) 表 9-73 参数估计 95% Confidence Interval Parameter B Std.Error t Sig. Lower Bound Upper Bound Intercept [A=1] [A=2] [A=3] [B=1] [B=2] [B=3] [B=4] [B=5] [B=6] -89.111 8.371 16.043 0 a 9.358 3.270 24.747 7.258 -2.010 7.386 22.527 12.540 . 9.913 9.572 8.525 10.905 8.876 9.699 9.135 -3.956 .668 1.292 . .944 .342 2.903 .666 -.226 -.762 .001 .512 . .944 .342 2.903 .666 -.226 -.762 1.690 -135.960 -17.707 -9.784 . -11.258 -16.636 7.019 -15.420 -20.469 -27.557 -42.263 34.449 41.870 . 29.974 23.176 42.475 29.936 16.450 12.784 续表 95% Confidence Interval Parameter B Std.Error t Sig. Lower Bound Upper Bound [B=7] [B=8] [B=9] [B=10] [B=11] [B=12] X [B=1] -2.010 -7.368 15.436 -6.073 10.958 -.553 23.483 0 a .409 9.842 9.934 12.579 12.328 . .054 1.690 -.617 1.103 -.044 1.905 . 7.620 -.617 1.103 -.044 1.905 . 7.620 -3.561 -26.541 -9.701 -26.713 -2.154 . .297 34.433 14.395 31.617 25.607 49.120 . .520 a. This parameter is set to zero because it is redundant.(由于 A=3 和 B=12 是多余的项这些参数设为 0) 表 9-74 估计边缘均数 95% Confidence Interval 不同饮料组 Mean Std.Error Lower Bound Upper Bound 1 2 3 67.430 a 75.102 a 59.059 a 4.970 4.868 8.379 57.094 64.989 41.635 77.766 85.226 76.484 a. Evaluated at covariates appeared in the model:食物消耗量 =346.419 通过模型协变量估计调整均数协变量 X 的总均数 =346.419 表 9-75 两两比较 95% Confidence Interval for Difference a (I)不同饮料组 (J)不同饮料组 Mean Difference(I-J) Std. Error Sig. a Lower Bound Upper Bound 1 2 3 -7.672 8.371 4.212 12.540 .083 .512 -16.431 -17.707 1.087 34.449 2 1 3 7.672 16.043 4.212 12.419 .083 .210 -1.087 -9.784 16.431 41.871 3 1 2 -8.371 -16.043 12.540 12.419 .512 .210 -34.449 -41.870 17.707 9.784 Based on estimated marginal means a.Adjustment for multiple comparisons:Leatst significant Difference (equivalent to no adjustments) 调整均数的多数比较最小显著差异法该检验过程与调整时 - 表 9-76 单变量检验 Sum of Squares df Mean Square F Sig. Contrast Error 469.157 2233.139 2 21 234.578 106.340 2.206 .135 The F tests the effect of 不同饲料组 This test is based on the Linearly independent pairwise comparisons among the estimated marginal means(因素 A 效应的 F 检验这种检验是基于线性独立估计边缘间均数的两两比较即总的调整均数间检验 ). 由上述图表得到如下结论 z 表 9-70 显示因素 a 为分组变量分 3 个水平即核黄素缺乏组 (1) 限食量组 (2)和不限食 (3) 每个水平有 12 例因素 b 为区组变量分 12 个水平每个水平有 3 例 z 表 9-71 显示因素 a F=均方因素 a/均方残差 =2.206 P=0.135 按 0.05 检验水准接受无效假设可认为调整均数间差异不显著用不同饲料饲养对大白鼠的体重增长无统计学意义因素 b F=均方因素 a/均方残差 =3.216 P=0.010 可认为因素 b 效应显著各区组变异不容忽略协变量 x F=均方因素 a/均方残差 =65.277 P=0.000 按 0.05 的检验水准拒绝无效假设可认为回归效应显著协变量 x 与响应变量 y 存在线性关系 z 表 9-72 显示各方差分量的系数和计算期望均方的公式 z 表 9-73 显示公共回归系数 B C =0.409 SE BC =0.054 P=0.000 按 0.05 检验水准拒绝无效假设可认为公共回归系数不为 0 其 95 可信区间为 0.297 到 0.520 z 表 9-74 显示各水平调整均数和 95 可信区间核黄素缺乏组 =67.430 95 可信区间为 =[57.094 77.766] 限食量组 =75.102 95 可信区间 =[64.979 85.2261] 不限食量组 =59.059 95 可信区间 =[41.635 76.484] z 表 9-75 显示采用 LSD 法进行各调整间均数两两比较核黄素缺乏组 (l) 限食量组 (2)和不限食量组 (3) 各调整均数间两两比较的 P 值均 >0.05 按 0.05 检验水准接受无效假设可认为各调整均数间两两比较均无显著差异 z 表 9-76 显示因素 a 效应检验 F=均方对比 /均方残差 =2.206 P=0.135 按 0.05 检验的水准接受无效假设可认为总的调整均数间差异不显著该结果与表 9-71 的因素 a 检验一致 [例 9-12] 为重复试验的多因素协方差分析 [例 9-12] 考察合成纤维总对纤维弹性有影响的两个因素收缩率 a 和总拉伸倍数 b a b 各取四个水平整个试验重复两次后来发现在试验过程中电流周波 (z)在变化根据生产记录数据如下表 9-77 所示 (y 表示弹性 ) 表 9-77 弹性电流周波原始数据因素 a 收缩率 0(a=1) 4(a=2) 8(a=3) 12(a=4) 460(b=1) z y 49.0 71 49.2 73 49.8 73 49.8 75 49.9 76 49.8 73 49.7 75 49.8 73 520(b=2) z y 49.5 72 49.3 73 49.9 76 49.8 74 50.2 79 50.1 77 49.4 73 49.4 72 580(b=3) z y 49.7 75 49.5 73 50.1 78 50.0 77 49.7 74 50.0 75 49.5 70 49.6 71 因素 b: 总拉伸倍数 640(b=4) z y 49.9 77 49.7 75 49.6 74 49.3 74 49.5 74 49.2 73 49.0 69 48.9 69 以上表建立数据文件如下图 9-50 所示图 9-50 弹性电流周波数据文件在主对话框中单击 Options 按钮打开 Options 对话框在此对话框中选择 Homogeneity tests Observed power 和 Parameter estimates 在 Factor(s) and Factor 栏中选择因素 a b a*b 放入 Display Means for 栏选择 Compare main effects 单击 Continue 按钮返回主对话框在主对话框中单击 OK 按钮提交运行该过程得到的结果如表 9-78 到表 9-86 所示表 9-78 各目标因素 N 收缩率 1 2 3 4 总拉伸倍数 1 2 3 4 8 8 8 8 8 8 8 8 表 9-79 各目标效应检验 Source Type Df Mean Square F Sig. Noncent.Par ameter Observed Power a Corrected Model Intercept Z A B A*B Error Total Corrected Total 164.009 b 2.421 5.290 12.948 2.324 18.578 16.210 174673.000 180.210 16 1 1 3 3 9 15 32 31 10.251 2.421 5.290 4.316 .775 2.064 1.081 9.485 2.240 4.895 3.994 .717 1.910 .000 .155 .043 .028 .557 .129 151.766 2.240 4.895 11.982 2.151 17.191 1.000 .289 .544 .723 .167 .593 a. Computed using alpha=.05 b. R Squared=.910(Adjusted R Squared=.814) 表 9-80 参数估计 95% Confidence Interval Parameter B Std.Error t Sig. Lower Bound Upper Bound Noncent. Parameter Observe dpower a Intercept Z [A=1] [A=2] [A=3] [A=4] [B=1] [B=2] [B=3] [B=4] [A=1] *[B=1] [A=1] *[B=2] [A=1] *[B=3] [A=1] *[B=4] [A=2] *[B=1] [A=2] *[B=2] [A=2] *[B=3] [A=2] *[B=4] [A=3] *[B=1] [A=3] *[B=2] [A=3] *[B=3] [A=3] *[B=4] [A=4] *[B=1] [A=4] *[B=2] [A=4] *[B=3] [A=4] *[B=4] -156.170 4.600 3.090 2.700 2.660 0 b 1.320 1.430 -1.260 0 b -2.100 -3.090 .180 0 b -2.930 -2.270 2.000 0 b -2.620 -.610 -4.0E-02 0 b 0 b 0 b 0 b 0 b 101.775 2.079 2.050 1.470 1.331 . 1.961 1.399 1.624 . 3.448 2.299 2.220 . 1.743 1.474 1.470 1.597. 1.640 1.485 -1.534 2.212 1.507 1.837 1.998 . .673 1.022 -.776 -.609 -1.344 .081 . -1.681 -1.540 1.360 . -1.641 -.372 -.027 .146 .043 .153 .086 .064 . .511 .323 .450 . .552 .199 .936 . .113 .144 .194 . .122 .715 .979 -373.098 .168 -1.280 -.434 -.178 . -2.861 -1.551 -4.721 . -9.449 -7.990 -4.552 . -6.644 -5.411 -1.134 . -6.024 -4.106 -3.205 60.758 9.032 7.460 5.834 5.498 . 5.501 4.411 2.201 . 5.249 1.810 4.912 . .784 .871 5.134 . .784 2.886 3.125 1.534 2.212 1.507 1.837 1.998 . .673 1.022 .776 . .609 1.344 .081 . 1.681 1.540 1.360 . 1.641 .372 .027 .301 .544 .292 .405 .464 . .097 .160 .112 . .088 .242 .051 . .350 .303 .247 . .336 .064 .050 a. Caoputed using alpha=.05 b.This parameter is set to zero because it is redundant. 表 9-81 因素 a 收缩率的估计边缘均值 95% Confidence Interval 收缩率 Mean Std.Error Lower Bound Upper Bound 1 2 3 4 74.286a 74.349a 74.291a 72.449a .474 .508 .526 .565 73.277 73.266 73.169 71.245 75.296 75.432 75.413 73.653 a. Evaluated at covariates appeared in the model:周波影响 =49.619. 表 9-82 因素 a 收缩率的两两比较 95% Confidence Interval for Difference a (I)收缩率 (J)收缩率 Mean Difference(I-J) Std.Error Sig. a Lower Bound Upper Bound 1 2 3 4 -6.250E-02 -5.00E-03 1.838* .832 .852 .536 .941 .995 .004 -1.836 -1.822 .696 1.711 1.812 2.979 2 1 3 4 6.250E-02 5.750E-02 1.900 .832 .520 .937 .941 .913 .061 -1.711 -1.052 -9.725E-02 1.836 1.167 3.897 3 1 2 4 5.000E-03 -5.750E-03 1.843 .852 .520 .959 .995 .913 .074 -1.812 -1.167 -.201 1.822 1.052 3.886 4 1 2 3 -1.838* -1.900 -1.843 .004 .061 .074 .004 .061 .074 -2.979 -3.897 -3.886 -.696 9.725E-02 .201 Based on estimated marginal means *. The mean difference is significant at the .05 level. a. Adjustment for multiple comparisons:Least Significant Difference(equivalent to no adjustments). 表 9-83 响应变量弹性 y 的单变量检验 Sum of Squares df Mean Square F Sig. Noncent. Parameter Observed Power a Contrast Error 12.948 16.210 3 15 4.316 1.081 3.994 .028 11.982 .723 he F tests the effect of 收缩率 This test is based on the linearly independent pairwise comparisons among the estimated marginal means. a. Computed using alpha=.05 表 9-84 因素 b 总拉伸倍数的估计边缘均数 95% Confidence Interval 总拉伸倍数 Mean Std.Error Lower Bound Upper Bound 1 2 3 4 73.596 a 74.126 a 73.464 a 74.189 a .369 .404 .474 .605 72.812 83.264 72.454 72.899 74.380 74.988 74.473 75.479 a.Evaluated at covariates appeared in the model:周波影响 =49.619 表 9-85 因素 b 总拉伸倍数的两两比较 95% Confidence Interval for Difference a (I)总拉伸倍数 (J)总拉伸倍数 Mean Difference(I-J) Std. Error Sig. a Lower Bound Upper Bound 1 2 3 4 -.530 .132 -.592 .543 .593 .717 .344 .826 .422 -1.687 -1.132 -2.121 .627 1.397 .936 2 1 3 4 .530 .662 -6.250E-02 .543 .536 .832 .344 .235 .941 -.627 -.479 -1.836 1.687 1.804 1.711 3 1 2 4 -.132 -.662 -.725 .539 .536 .937 .826 .235 .451 -1.397 -1.804 -2.722 1.132 .479 1.272 4 1 2 3 .592 6.250E-02 .725 .717 .832 .937 .422 .941 .451 -.936 -1.711 -1.272 2.121 1.836 2.722 Based on estimated marginal means a. Adjustment for multiple comparisons:Least Significat Difference (equivalent to no adjustments). 表 9-86 响应变量弹性 y 的单变量检验 Sum of Squares Df Mean Square F Sig. Noncent. Parameter Observed Power a Contrast Error 2.324 16.210 3 15 .775 1.081 .717 .557 2.151 .167 The F tests the effect of 总拉伸倍数 This test is based on the linearly independent pairwise comparisons among the estimated marginal means. a. Computed using alpha=.05 表 9-87 收缩率 *总拉伸倍数的估计边缘均数 95% Confidence Interval for Difference a (I)收缩率 (J)收缩率 Mean Difference(I-J) Std.Error Lower Bound Upper Bound 1 1 2 3 4 74.386 a 73.506 a 74.086 a 75.166 a 1.305 .864 .736 .826 71.604 71.664 72.517 73.406 77.168 75.349 75.655 76.927 2 1 2 3 4 73.166 a 73.936 a 75.516 a 74.776 a .826 .878 1.159 .815 71.406 72.064 73.045 73.040 74.927 75.808 77.987 76.512 3 1 2 3 4 73.436 a 75.556 a 73.436 a 74.736 a .878 1.327 .878 .923 71.564 72.728 71.564 72.768 75.308 78.384 75.308 76.704 4 1 2 3 4 73.396 a 73.506 a 70.816 a 72.076 a .784 .864 .749 1.573 71.725 71.664 69.220 68.724 75.067 75.349 72.412 75.428 a. Evaluated at covariates appeared in the model: 周波影响 =49.619. 由上述图表得到如下结论 z 表 9-78 显示因素 a 为分组变量分 4 个水平即收缩率为 0 4 8 12 每个水平有 8 例因素 b 为区组变量分 4 个水平即总拉伸倍数为 460 520 580 640 每个水平有 8 例 z 表 9-79 显示因素 a F=均方因素 a/均方残差 =3.994 P=0.028 按 0.05 检验水准拒绝无效假设可认为调整均数间差异显著不同收缩率对弹性的大小值差异显著因素 b F=均方因素 a/均方残差 =0.717 P=0.557 可认为因素 b 效应显著不同总拉伸倍数下差异不容忽略协变量 z F=均方因素 a/均方残差 =4.895 P=0.043 按 0.05 的检验水准拒绝无效假设可认为回归效应显著协变量 z 与响应变量 y 存在线性关系 z 表 9-80 显示公共回归系数 B C =4.600 SE BC =2.079 P=0.043 按 0.05 检验水准拒绝无效假设可认为公共回归系数不为 0 其 95 可信区间为 0.168 到 9.032 z 表 9-81 显示因素 a 各水平调整均数和 95 可信区间水平 1(收缩率 0)=74.286 95 可信区间为 =[73.277 75.296] 水平 2(收缩率 4)=74.349 95 可信区间 =[73.266 75.432] 水平 3(收缩率 8)=74.291 95 可信区间 =[73.169 75.413] 水平 4(收缩率 12)=72.449 95 可信区间 =[71.245 73.653] z 表 9-82 显示采用 LSD 法进行因素 a 各调整间均数两两比较的结果只有收缩率 0 与收缩率 4 之间两两比较的 P 值 <0.05 按 0.05 检验水准拒绝无效假设可认为水平 1 与水平 4 之间调整均数间两两比较显著差异其余两两水平之间的 P 值均大于 0.005 说明它们之间的差异不显著 z 表 9-83 显示因素 a 效应检验 F=均方对比 /均方残差 =3.994 P=0.028 按 0.05 检验的水准拒绝无效假设可认为总的调整均数间差异显著该结果与表 9-82 的因素 a 检验一致 z 表 9-84 显示因素 b 各水平调整均数和 95 可信区间水平 1(总拉伸倍数 460)=73.596 95 可信区间 [72.812 74.380] 水平 2(总拉伸倍数 520)=74.126 95 可信区间 [73.264 74.988] 水平 3(总拉伸倍数 580)=73.464 95 可信区间 [72.454 74.473] 水平 4(总拉伸倍数 640)=74.189 95 可信区间 [72.899 75.479] z 表 9-85 显示采用 LSD 法进行因素 b 各调整间均数两两比较的结果所有两两水平之间的 P 值 >0.05 按 0.05 检验水准接受无效假设可认为两两水平之间调整均数间两两比较显著不差异 z 表 9-86 显示因素 b 效应检验 F=均方对比 /均方残差 =0.717 P=0.557 按 0.05 检验的水准接受无效假设可认为总的调整均数间差异不显著该结果与表 9-86 的因素 b 检验一致 z 表 9-87 显示因素 a*b 各种情况下的调整均数标准误和 95 可信区间 9.4.5 多协变量方差分析迄今为止我们讨论的都是只有一个协变量的协方差分析多协变量的问题大多发生在多元回归分析中而其中又加入了个别响应变量由于变量的增多计算量也急剧的增加为了使读者了解多协变量的协方差分析方法我们选用最简单的模型该模型只有两个协变量一个响应变量 [例 9-13] 在酿酒工艺中先将大麦浸在水内吸收一定的水分 (z1) 为了提高产量加入某种化学溶剂浸泡一定的时间 (z2) 然后测量大麦吸入化学溶剂的份量 (y) 控制 y 的量对于质量是极其重要的由经验可知 y 和 z1 z2 之间有较好的线性关系利用这个关系可以达到控制 y 的目的但是随着季节的变化 y 和 z1 z2 的关系有所改变今在冬春夏对各同一仓库随机抽取的 6 份小麦各做了 1 次试验数据如下表 9-88 所示表 9-88 吸入溶剂的试验数据冬春夏试验编号 z1 z2 y z1 z2 y z1 z2 y 1 130 200 7.5 136 215 6.3 130 205 11.0 2 136 220 4.2 137 250 7.0 140 265 6.0 3 140 215 1.5 136 180 5.5 139 250 6.5 4 138 265 3.7 138 240 5.6 136 245 9.1 5 134 235 5.3 139 220 4.6 135 235 9.3 6 142 260 1.2 141 260 3.9 137 220 7.0 问季节对 y 和 z1 z2 的关系有无显著的影响建立数据文件如图 9-51 所示因素 a=1 2 3 分别标识冬春夏因素 b=1 2 3 4 5 6 分别标识试验编号中的 1 2 3 4 5 6 图 9-51 吸入溶剂的数据文件选择 Analyze ? General Linear Model ? Univariate 进入主对话框把响应变量 y放入 Dependent Variable栏因素 a放入 Fixed Factor(s)栏因素 b放入 Random Factor(s) 栏协变量 z1 z2 放入 Covariate(s)栏中单击 Model 按钮打开 Model 对话框在此对话框中选择 Custom 项在效应选项中选择 Main effect 在 Factors &栏中选择 a(F) b(R)和 z1(C) z2(C) 在 Build Term(s) 中单击向右的箭头按钮把 a(F) b(R)和 x(C)放入 Model 栏中单击 Continue 按钮返回主对话框在主对话框中单击 Options 按钮打开 Options 对话框在此对话框中选择 Homogeneity tests Observed power 和 Parameter estimates 在 Factor(s) and Factor 栏中选择因素 a b 放入 Display Means for 栏选择 Compare main effects 单击 Continue 按钮返回主对话框在主对话框中单击 OK 按钮提交运行该过程得到结果如表 9-89 到表 9-98 所示表 9-89 各目标因素 N 标识 1 季节 2 3 标识 1 试验 2 编号 3 4 5 6 6 6 6 3 3 3 3 3 3 表 9-90 各目标因素检验 Source Type III Sum of Squares df Mean Square F Sig. Noncent. Paramete Observed Power a Intercept Hypothesis Error A Hypothesis Error B Hypothesis Error Z1 Hypothesis Error Z2 Hypothesis Error 18.769 1.217 44.712 1.217 .254 1.217 14.284 1.217 1.118 1.217 1 8.001 2 8 5 8 1 8 1 8 18.769 .152 b 22.356 .152 c 5.076E-02 .152 c 14.284 .152 c 1.118 .152 c 123.44 147.02 .334 93.934 7.354 .000 .000 .879 .000 .027 123.443 294.035 1.669 93.934 7.354 1.000 1.000 .096 1.000 .662 a. Computed using alpha=.05 b.1.730E-04 MS(B)+1.000MS(Error) c.MS(Error) 表 9-91 期望均方 Variance Component Source Var(B) Var(Error) Quadratic Term Intercept A B Z1 Z2 Error 4.012E-04 .000 2.318 .000 .000 .000 1.000 1.000 1.000 1.000 1.000 1.000 Intercept, A A Z1 Z2 a.For each source, the expected mean square equals the sum of the coefficients in the cells times the variance components, plus a quadratic term involving effects in the Quadratic Term cell. b. Expected Mean Squares are based on the Type III Sums of Squares. 表 9-92 参数估计 95% Confidence Interval Parameter B Std. Error t Sig. Noncent. Parameter Observe d Power a Intercept [A=1] [A=2] [A=3] [B=1] 89.936 -3.848 -1.421 0b -5.3E-02 8.032 .233 .278 . .508 11.197 -16.545 -5.112 . -.103 .000 .000 .001 . .920 71.415 -4.384 -2.062 . -1.224 108.458 -3.311 -.780 . 1.119 11.197 16.545 5.112 . .103 1.000 1.000 .993 . .051 续表 95% Confidence Interval Parameter B Std. Error t Sig. Noncent. Parameter Observe d Power a B=2] B=3] B=4] B=5] B=6] Z1 Z2 .248 4.440E-02 .335 .156 0b -.637 2.017E-02 .350 .367 .372 .377 . .066 .007 .709 .121 .901 .415 . -9.692 2.712 .498 .907 .394 .689 . .000 .027 -.559 -.801 -.523 -.714 . -.788 3.0E-03 1.055 .890 1.193 1.027 . -.485 3.7E-02 .709 .121 .901 .415 . 9.692 2.712 .096 .051 .125 .066 . 1.000 .66 a. computed using alpha=.05 b. This parameter is set to zero because it is redundant. 表 9-93 标识季节因素的估计边缘均数 95% Confidence Interval 标识季节 Mean Std.Error Lower Bound Upper Bound 1 2 3 3.753 a 6.180 a 7.601 a .160 .183 .175 3.384 5.759 7.196 4.122 6.601 8.005 表 9-94 标识季节因素的两两比较 95% Confidence Interval for Difference a (I)标识季节 (J)标识季节 Mean Difference(I-J) Std.Error Lower Bound Upper Bound 1 2 3 -2.427* -3.848* ..248 .233 .000 .000 -1.854 -3.311 2 1 3 2.427* -1.421* .248 .278 .000 .001 3.000 -.780 3 1 2 3.838* 1.421* .233 .278 .000 .001 4.384 2.062 Based on estimated marginal means 表 9-95 标识季节因素的单变量检验 Sum of Squares df Mean Square F Sig. Noncent. Parameter Observed Power a Contrast Error 44.712 1.217 2 8 22.356 .152 147.017 .000 294.035 1.000 表 9-96 标识试验编号因素的估计边缘均数 95% Confidence Interval 标识试验编号 Mean Std.Error Lower Bound Upper Bound 1 2 3 4 5 6 5.670 a 5.971 a 5.767 a 6.058 a 5.879 a 5.722 a .330 .236 .304 .253 .230 .273 4.910 5.426 5.066 5.475 5.348 5.092 6.430 6.516 6.467 6.641 6.410 6.353 表 9-97 标识试验编号的两两比较 95% Confidence Interval for Difference a ()I 标识试验编号 Mean Difference(I-J) Std.Error Si.g a Lower Bound Upper Bound 1 2 3 4 5 6 -.301 -9.697E-02 -.388 -.209 -5.257E-02 .424 .494 .422 .374 .508 .498 .849 .385 .591 .920 -1.279 -1.236 -1.360 -1.071 -1.224 .678 1.042 .584 .653 1.119 2 2 3 4 5 6 .301 .204 -8.695E-02 9.176E-02 .424 .408 .323 .331 .350 .498 .630 .795 .789 .498 -.678 -.736 -.832 -.672 -.559 1.279 1.144 .658 .855 1.055 3 2 3 4 5 6 9.697E-02 -.204 -.291 -1.112 4.440E-02 .494 .408 .443 .440 .367 .849 .630 .530 .786 .907 -1.042 -1.144 -1.312 -1.035 -.801 1.236 .736 .731 .810 .890 4 2 3 4 5 6 .388 8.695E-02 .291 .179 .335 .422 .323 .443 .337 .372 .385 .795 .530 .611 .394 -.584 -.658 -.731 -.599 -.523 1.360 .832 1.312 .957 1.193 5 2 3 4 5 6 .209 -9.176E-02 .112 -.179 .156 .374 .331 .400 .337 .337 .591 .789 .786 .611 .689 -.653 -.855 -.810 -.957 -.714 1.071 .672 1.035 .599 1.027 6 2 3 4 5 6 5.257E-02 -.248 -4.440E-02 -.335 -.156 .508 .350 .367 .372 .377 .920 .498 .907 .394 .689 -1.119 -1.055 -.890 -1.193 -1.027 1.224 .559 .801 .523 .714 表 9-98 标识试验编号的单变量检验 Sum of Squares df Mean Square F Sig. Noncent. Parameter Observed Power a Contrast Error .254 1.217 5 8 5.076E-02 .152 .334 .879 1.669 .096 由上述图表得到如下结论 z 表 9-89 显示因素 a 为分组变量分 3 个水平即冬春夏每个水平有 6 例因素 b 为区组变量分 6 个水平来源于随机样本即试验编号 1 至 6 号样品每个水平有 3 例 z 表 9-90 显示因素 a F=均方因素 a/均方残差 =147.02 P=0.000 按 0.05 检验水准拒绝无效假设可认为调整均数间差异显著不同季节对吸入化学溶剂的份量有显著差异因素 b F=均方因素 a/均方残差 =0.334 P=0.879 接受无效假设可认为因素 b 效应不显著不同编号的小麦样品对吸入化学溶剂的份量无显著差异协变量 z1 F=均方因素 a/均方残差 =93.934 P=0.000 按 0.05 的检验水准拒绝无效假设可认为回归效应显著协变量 z1 与响应变量 y 存在线性关系协变量 z2 F=均方因素 a/均方残差 =7.354 P=0.027 按 0.05 的检验水准拒绝无效假设可认为回归效应显著协变量 z2 与响应变量 y 存在线性关系 z 表 9-91 显示各方差分量的系数和计算期望均方的公式 z 表 9-92 显示协变量 z1 公共回归系数 B C =-0.637 SE BC =0.066 P=0.000 按 0.05 检验水准拒绝无效假设可认为公共回归系数不为 0 其 95 可信区间为 -0.788 到 -0.485 协变量 z2 公共回归系数 B C =0.02017 SE BC =0.007 P=0.027 按 0.05 检验水准拒绝无效假设可认为公共回归系数不为 0 其 95 可信区间为 0.0030 到 0.037 z 表 9-93 显示因素 a 各水平调整均数和 95 可信区间水平 1 冬季 =3.753 95 可信区间为 =[3.384 4.122] 水平 2 春季 =6.180 95 可信区间 =[5.759 6.601] 水平 3 夏季 =7.601 95 可信区间 =[7.196 8.005] z 表 9-94 显示采用 LSD 法进行因素 a 各调整间均数两两比较的结果三个水平之间两两比较的 P 值都小于 0.05 按 0.05 检验水准拒绝无效假设可认为两两水平之间差异显著即冬春夏三季两两之间的差异显著 z 表 9-95 显示因素 a 效应检验 F=均方对比 /均方残差 =147.017 P=0.000 按 0.05 检验的水准拒绝无效假设可认为总的调整均数间差异显著该结果与表 9-93 的因素 a 检验一致 z 表 9-96 显示因素 b 各水平调整均数和 95 可信区间水平 1(试验编号 1)=5.670 95 可信区间 =[4.910 6.430] 水平 2(试验编号 2)=5.971 95 可信区间 [5.426 6.516] 水平 3(试验编号 3)=5.767 95 可信区间 [5.066 6.467] 水平 4(试验编号 4)=6.058 95 可信区间 [5.475 6.641] 水平 5(试验编号 5)=5.879 95 可信区间 [5.348 6.410] 水平 6(试验编号 6)=5.722 95 可信区间 [5.092 6.353] z 表 9-97 显示采用 LSD 法进行因素 b 各调整间均数两两比较的结果所有两两水平之间的 P 值 >0.05 按 0.05 检验水准接受无效假设可认为两两水平之间调整均数间两两比较显著不差异 z 表 9-98 显示因素 b 效应检验 F=均方对比 /均方残差 =0.334 P=0.879 按 0.05 检验的水准接受无效假设可认为总的调整均数间差异不显著该结果与表 9-96 的因素 b 检验一致 9.5 多元方差分析过程 9.5.1 多元方差分析的基本概念多元指的是在方差分析中响应变量不止一个这样的情况在现实生活和科学研究中经常遇到例如要对 m 个男人 n 个女人的头部四个典型解剖部位进行测量研究男女头部有无显著差异又如要研究片状钛合金在不同温度下不同拉伸速度下的抗拉性能是否一致我们选取钛合金的两边 (S1 和 S2) 角 CO 和中心 (CE)看是否这四个部位在试验中的抗拉强度多元方差分析的基本原理与单响应变量的方差分析相似都是通过检验两个或多个样本均数间差异是否显著从而得出结论的统计方法 9.5.2 多元方差分析的功能与应用在一些试验中测量一个响应变量往往不足以得出科学的结论而是需要由多个量共同得出结论多元方差分析就是用来考察这些量之间是否存在显著差异以对综合结论的得出提供依据的数学工具在 SPSS 10.0 for Windows 中调用 Multivariate 进行多元方差分析能输出多变量检验表方差分析表均数比较结果均数的多变量检验结果均数的单变量检验结果参数估计等等 9.5.3 多元方差分析的应用示例 [例 9-14] 对钛合金的两边 (S1 和 S2) 角 (CO)和中心 (CE)部位在温度 0 摄氏度 25 摄氏度 50 摄氏度 70 摄氏度时分别以缓慢的速度和快速进行测量其抗拉性能数据如表 9-99 所示表 9-99 不同部位抗拉强度数据缓慢速度快速 S1 S2 CO CE S1 S2 CO CE 0 156 154 139 145 149 153 148 150 25 140 139 132 137 137 146 136 147 50 137 142 128 136 126 130 122 129 温度 0 C 75 128 139 130 134 119 121 116 125 建立的数据文件如图 9-52 以变量 a 标识温度因素 a=1 对应于 0 0 C a=2 对应于 25 0 C a=3 对应于 50 0 C a=4 对应于 75 0 C 以 b 标识拉伸速度 b=1 对应于缓慢拉伸 b=2 对应于快速拉伸从 Analyze ? General Linear Model ? Multivariate 进入 Multivariate 主对话框把变量 s1 s2 co ce放入 Dependent Variables 栏中这些变量为响应变量 (也可称为因变量 ) 将因素变量 a b 放入 Fixed Factor(s)栏中如图 9-53 所示图 9-53 Multivariate 主对话框在主对话框中单击 Model 按钮展开相应的对话框在 Model 对话框中选择 Custom 在 Build Term(s)选择 Main effects 将选中的变量 a b 放入 Model 一栏中选择之后单击 Continue 按钮返回主对话框在主对话框中单击 Contrasts 按钮进入相应的对话框在 Factors 框中选择 a 变量按 Ctrl 键再选中 b 变量在 Change Contrast 栏内单击 Contrasts 参数框内向下箭头展开比较方法表选择 Simple 选项再选择 First 项为比较参考类然后单击 Change 按钮如图 9-54 所示选择结束后鼠标单击 Continue 按钮返回主对话框图 9-52 不同部位抗拉强度数据文件图 9-54 Contrasts 对话框单击 OK 按钮执行该过程所得结果如表 9-100 到表 9-108 表 9-100 各目标因素 N A 1 2 3 4 B 1 2 2 2 2 2 4 4 表 9-100 是对参与分析的数据的综合信息它显示因素变量 a 有四个水平这四个水平分别为温度 0 25 50 75 摄氏度每个水平有 2 例因素变量 b 有两个水平分别为缓慢拉伸和快速拉伸每个水平有 4 例表 9-101 多变量检验表 Effect Value F Hypothesis Errordf Sig. Intercept Pillai’s Trace Wilks’ Lambda Hotelling’s Trace Roy’s Largest Root 1.000 .000 35935.380 35935.380 11978.460 a 11978.460 a 11978.460 a 11978.460 a 3.000 3.000 3.000 3.000 1.000 1.000 1.000 1.000 0.007 0.007 0.007 007 A Pillai’s Trace Wilks’ Lambda Hotelling’s Trace Roy’s Largest Root 1.279 .003 . 244.720 .743 2.872 . 244.720 b 9.000 9.000 9.000 9.000 9.000 2.584 . 3.000 .667 .235 . .000 B Pillai’s Trace Wilks’ Lambda Hotelling’s Trace Roy’s Largest Root .959 .041 23.574 23.574 7.858 a 7.858 a 7.858 a 7.858 a 3.000 3.000 3.000 3.000 1.000 1.000 1.000 1.000 .255 .255 .255 .255 表 9-101 显示的是多元方差分析的结果给出了四种检验的方法 Pillais’s trace Wilks’ Lambad Hotelling’s trace 和 Roy’s Largest Root 下的 t 值确切的 F 值假设检验的自由度误差自由度 F 检验的显著性概率从显著性概率来看对于因素 b 无论是哪种计算方法显著性概率均大于 0.05 可以认为钛合金在慢速拉伸和快速拉伸时的拉伸强度是没有显著差异的对于因素 a Pillais’s trace Wilks’ Lambad 方法检验时显著性概率均大于 0.05 可认为在不同温度 (不大于 75 摄氏度不小于 0 摄氏度 )下钛合金的拉伸强度无显著差异 Hotelling’s trace 对本数据文件无意义 Roy’s Largest Root 方法计算所得的概率为 0.000 可认为不同温度 (不大于 75 摄氏度不小于 0 摄氏度 )下钛合金的四个部分之间的拉伸强度显著差异到底是那种方法的结果更科学些要进行进一步的分析表 9-102 各目标因素效应检验表方差分析表 Source Dependent Variable Type III Sum of Squares df Mean Square F Sig. Corrected Model s1 S2 C0 CE 1020.500 a 679.000 b 535.500 c 417.500 d 4 4 4 4 255.125 169.750 133.875 104.375 43.736 2.723 2.536 2.458 .005 .218 .235 .243 Intercept S1 S2 C0 CE 149058.000 157922.000 138075.125 152076.125 1 1 1 1 255.125 169.750 133.875 104.375 43.736 2.723 2.536 2.458 .005 .218 .235 .243 A S1 S2 C0 CE 908.000 607.000 529.375 417.375 3 3 3 3 149058.000 157922.000 138075.125 152076.125 25552.800 2533.508 2615.472 3581.773 .000 .000 .000 .000 B S1 S2 C0 CE 112.500 72.000 6.125 .125 1 1 1 1 302.667 202.333 176.458 139.125 51.886 3.246 3.343 3.277 .004 .180 .174 .178 Error S1 S2 C0 CE 17.500 187.000 158.375 127.375 3 3 3 3 112.500 72.000 6.125 .125 19.286 1.155 .116 .003 .022 .361 .756 .960 Total S1 S2 C0 CE 150096.000 158788.000 138769.000 152621.000 8 8 8 8 5.833 62.333 52.792 42.458 Corrected Total S1 S2 C0 CE 1038.000 866.000 693.875 544.875 7 7 7 7 表 9-102 为各目标因素检验表第一栏给出四个变量的方差来源包括校正模型截距主效应 a 和 b 误差总的方差来源第二栏用系统默认的 Type 计算的平方和第三栏自由度第四栏均方差第五栏 F 值第六栏 Sig 值即 F 值的显著性概率从 a 的概率看只有 s1 的 P=0.022 小于 0.05 表明 s1 该边在不同温度下的拉伸强度差异显著其他三部分的概率均大于 0.05 即在不同温度下拉伸强度的差异不显著从 b 的概率看也只有 s1 的 P=0.004 小于 0.05 表明 s1 该边在不同温度下的拉伸强度差异显著其他三部分的概率均大于 0.05 即在不同温度下拉伸强度的差异不显著由上述分析我们应当注意在制造过程中是否 s1 边有了问题表 9-103 因素 a 的均数比较结果 Dependent Varialbe A Simple Contrast S1 S2 C0 CE Level 2 vs. Level Contrast Estimate Hypothesized Value Difference (Estimate-Hypothesized) Std.Error Sig. 95% Confidence Lower Bound Interval for Upper Bound -14.000 0 -4.000 2.451 .010 -21.686 -6.314 -11.00 0 -11.00 7.895 .258 -36.126 14.126 -9.500 0 -9.500 7.266 .282 -32.623 13.623 -5.500 0 -5.500 6..516 .461 -26.237 15.237 Level 3 vs. Level Contrast Estimate Hypothesized Value Difference (Estimate-Hypothesized) Std.Error Sig. 95% Confidence Lower Bound Interval for Upper Bound -21.00 0 -21.00 2.415 .415 .003 -28.686 -13.314 -17.500 0 -17.500 7.895 .113 -42.626 7.626 -18.500 0 -18.500 7.266 .113 -42.623 7.626 -15.000 0 -15.000 6.516 .105 -35.737 5.6737 Level 4 vs. Level Contrast Estimate Hypothesized Value Difference (Estimate-Hypothesized) Std.Err Sig. 95% Confidence Lower Bound Interval for Upper Bound -29.000 0 -29.000 2.415 .001 -36.686 -21.314 -23.500 0 -23.500 7.895 .059 -48.626 1.623 -20.500 0 -20.500 7.266 .067 -43.623 2.626 -18.000 0 -18.000 6.516 .070 -38.737 2.737 表 9-103 显示了每个响应变量均值比较的结果比较的参考单元为 a=1 表中第一栏 A Simple Contrast 为比较结果的内容包括两个水平的 Contrast Estimate 对比估计值 Hypothesized Value 无效假设 Std Error 标准误 Sig t 值的显著性概率从 t 检验的结果可以看出除了 s1 边外其余三部分的均大于 0.05 也说明了 s1 该边在不同温度下的拉伸强度差异显著其他三部分在不同温度下拉伸强度的差异不显著表 9-104 因素 a 的均数比较的多变量检验结果 Value F Hypothesis df Error df Seg Pillai`s trace Wilks`lambda Hotelling`s trace Roy`s largest root 279 .003 . 244.72 .743 2.872 . 244.720a 9.000 9.000 9.000 9.000 9.000 2.584 . 3.000 .667 .235 . .000 a.The statistic is an upper bound on Fthat yields a lowert bound on the Significance level. 表 9-104 为均数比较的多变量检验结果与表 9-101 的检验结果相同表 9-105 因素 a 的均数比较的单变量检验结果 Source Dependent Varialbe Sum of Squares df Mean Square F Sig. Contrast S1 S2 C0 C3 908.00 607.00 529.375 417.375 3 3 3 3 302.67 202.33 176.46 139.13 51.886 3.246 3.343 3.277 .004 .180 .174 .178 Error S1 S2 C0 C3 17.500 187.000 158.375 127.375 3 3 3 3 5.833 62.333 52.792 42.458 表 9-105 为均数的单变量检验结果是对每个响应变量单独进行 F 检验的结果从每个响应变量的 Sig. Of F 可以看出除了 s1 外其余三部分的拉伸强度在不同温度下无显著性差异检验结果与表 9-102 相同表 9-106 因素 b 的均数比较结果 Dependent Variable B Simple Contrast S1 S2 C0 C3 Level 1 vs Level 1 Contrast Estimate Hypothesized Value Difference (Estimate-Hypothesized) Std.Error Sig. 95% Confidence Lowser Bound Interval for Upper Bound -7.500 0 -7.500 1.708 .022 -12.935 -2.065 -6.000 0 -6.000 5.583 .361 -23.767 11.767 -1.750 -1.750 5.138 .756 -18.10 14.600 -.250 0 -.250 4.608 .960 -14.9 14.41 a. Reference category=1 表 9-106 显示每个响应变量均值比较的结果比较的参考单元为 b=1 从 t 检验的结果可以看出除了 s1 边外其余三部分的均大于 0.05 也说明了 s1 该边在不同温度下的拉伸强度差异显著其他三部分在不同温度下拉伸强度的差异不显著表 9-107 因素 b 的均数比较的多变量检验结果 Vakye F Hypothesis Error Sig. Pillai’s trace Wilks’ lambda Hotelling’s trace Roy’s largest root .959 .041 .23.574 23.574 7.858 a 7.858 a 7.858 a 7.858 a 3.000 3.000 3.000 3.000 1.000 1.000 1.000 1.000 .255 .255 .255 .255 a. Exact statistic 表 9-107 为均数比较的多变量检验结果与表 9-101 的检验结果相同表 9-108 因素 b 的均数比较的单变量检验结果 Source Dependent Variable Sum of Squares df Mean Square F Sig. Contrast S1 S2 C0 C3 112.500 72.000 6.125 .125 1 1 1 1 112.500 72.000 6.125 .125 19.286 1.155 .116 .003 .022 .361 .756 .960 Error S1 S2 C0 C3 17.500 187.000 158.375 127.375 3 3 3 3 5.833 62.333 52.792 42.458 表 9-108 为均数的单变量检验结果从每个响应变量的 Sig. Of F 可以看出除了 s1 外其余三部分的拉伸强度在不同温度下无显著性差异检验结果与表 9-102 相同 9.5.4 多元方差分析过程多响应变量 (多元 )方差分析的功能模块调用步骤为 Analyze ? General LinearModel ? Multivariate 最后展开 Multivariate 主对话框如图 9-53 1 多元方差分析过程与单因变量方差分析过程的操作相同下列多因变量方差分析过程的操作可参见 9.3 节 Model 功能按钮 (选择分析模型 ) Contrasts 功能按钮 (选择对照方法 ) Plots 功能按钮 (选择图形 ) Post Hoe 功能按钮 (选择多重比较分析 ) Save 功能按钮 (选择保存运算值 ) 2 多响应变量方差分析过程与单响应变量方差分析过程不同的操作二者操作上的不同在于前者在 Dependent Variable 因变量框中可以选择多个响应变量后者只能选择一个响应变量再有 Options 功能按钮也与单因变量方差分析过程略有不同下面介绍 Options 功能按钮即选择输出项在主对话框中单击 Options 按钮展开 Mutivariate Options 对话框如图 9-55 所示图 9-55 多元方差分析选择对话框 (1) Estimated Marginal Means 栏中的选项操作方法见 9.3.4 小节 (2) Display 框 z Descriptive statistics 复选项输出描述统计量 z Estimates of effect size 复选项效应量估计选择和不选择此项决定了是否显示 F 检验和 t 检验效应的大小 z Observed power 复选项选中此项必须给出计算功效的显著性水平 Alpha 值该值应该在 0.01~0.99 之间选择此项显示观测功效系统默认的显著性水平是 0.05 z Parameter estimates 复选项参数估计 z SSCP matrices 复选项平方和与交叉积矩阵 z Residual SSCP matrix 复选项残差的平方和与交叉积矩阵 z Transformation matrix 复选项变换系数矩阵或 M 矩阵 z Homogeneity tests 复选项齐次性检验进行 Bartlett-Box F 检验在输出窗中显示 Cochran’s C 和 Box’s M 统计量 z Spread vs level plot 复选项绘制观测量均值对标准差对方差的图形 z Residuals plot 复选项绘制残差图给出观测值预测值散点图和观测量数目观测数目对标准化残差的散点图加上正态和标准化线差的正态概率图 z Lack of fit 复选项检查独立变量和非独立变量间的关系是否被充分描述 z General estimable function 复选项可以根据一般估计函数自定义假设检验对比系数矩阵的行与一般估计函数是线性组合的 (3) 在 Significance level 框中改变 Confidence intervals 框内多重比较的显著性水平 9.6 重复测量设计的方差分析 9.6.1 重复测量设计的方差分析的基本概念重复测量设计是对同一因变量进行重复测度例如在教育心理研究中为比较受试者对三种视觉刺激 (处理 )的反应时 (响应变量 ) 可用一个重复测量设计去获得受试者之间与受试者之内 (一个受试者的几次测量间 )的变异的比较如果受试者之间变异大于受试者之内的变异视觉刺激反应时的实验是可行的否则是不可行的在重复测量设计的方差分析中总偏差平方和被分解为处理间的偏差平方和受试者间的偏差平方和受试者之内的偏差平方和这些偏差平方和除以各自的自由度得到相应均方它们与误差均方之商即为 F 检验的 F 值处理间的偏差与受试者间的偏差称之为组间因素 (Between-subject Factors)造成的组间偏差受试者内部的偏差称之为组内因素 (Within-subject Factor)造成的组内偏差 9.6.2 重复测量设计的方差分析的功能与应用重复测量设计的方差分析可以是同一条件下进行的重复测度目的在于研究各种处理之间是否存在显著性差异的同时研究受试者之间的差异受试者几次之间的差异以及测试者与各种处理间的交互效应也可以是不同条件下的重复测度目的在于研究各种处理间是否存在显著性差异的同时研究形成重复测量条件间的差异以及这些条件与处理间的交互效应 9.6.3 重复测量设计的方差分析的应用示例进行重复测量方差分析的数据结构与其他类型的方差分析有所不同它要求对受试者的若干次测试结果作为响应变量出现在数据文件中 [例 9-15] 教育心理研究中的对刺激反应时测量的实验方法的研究中设置了三个级别的视觉刺激作为处理因素变量 12 位受试者随机分到三个数据刺激级别的实验组中每个受试者给予一个编号该变量不参与分析只为输入数据时核对使用对每个受试者在同样的条件下测试三次原始实验数据记录如下表 9-109 所示表 9-109 测量原始数据刺激 1 刺激 2 刺激 3 受试者 12345678910112 反应时测量 1 0.9 1.5 0.5 0.8 2.4 1.9 2.9 2.4 1.5 2.1 1.1 1.6 反应时测量 2 1.2 1.1 0.8 1.3 2.8 2.4 3.3 2.8 1.2 1.9 1.5 1.8 反应时测量 3 0.7 0.8 0.5 0.9 2.1 2.2 2.7 2.9 1.9 2.2 1.0 1.3 建立数据文件如图 9-56 所示图 9-56 刺激反应测量时数据文件 number 为受试者编号 vision 视觉刺激等级 (1 刺激 1 2 刺激 2 3 刺激 3) time1 为反应时测量 1 time2 为反应时测量 2 time3 为反应时测量 3 1 研究假设三种刺激的平均反应时之间差异显著相应的零假设为三种视觉刺激的平均反应时之间无显著性差异在分析研究假设是否成立的同时研究受试者之间反应时的差异是否大于受试者之内反应时的差异依此确定视觉刺激反应时实验是否是可行的 2 操作步骤 (1) 从 Analyze ? General Linear Model ? Repeated Measures 打开 Repeated Measures Define Factor(s)对话框如图 9-57 所示图 9-57 定义组内因素对话框 (2) 定义组内因素变量在 Repeated Measures Define Factor(S)对话框中进行以下操作 z 在 Within-Subject Factor 框中删除原有的 factorl 输入组内因素名 time z 在 Number of Levels 框中输入组内因素 time 的水平数 3 z 单击 Add 按钮在大矩形框中显示 time(3) 此刻 Define 按钮加亮组内因素设置完成由于没有再次的重复实验不必操作 Measures 按钮 z 单击 Define 按钮确认以上一个组内因素变量的单元显示 Repeated Measures 主对话框如图 9-58 所示图 9-58 重复测量方差分析主对话框 (3) 在主对话框中设置分析变量 z 在主对话框中进行下列操作以设置组内因素变量 time 与原始变量之间的对应关系在左面矩形框中选择 timel 变量单击向右箭头按钮在 Within-SubjectsVariables 框中第一项变为 time1(l) 同样方法设置第二个组内因素 time2(2)和第三个组内因素 time3(3) z 在左面矩形框中选择刺激等级 [vision] 变量单击下面一个向右箭头按钮在 Between-Subjects Factor(s)框中显示 vision 变量名视觉刺激反应时的实验设计研究中的重复测量实验设计没有考虑协变量因此不需要对 Coviriates 框进行操作 (4) 建立分析模型在主对话框中单击 Model 按钮展开 Model 对话框如图 9-59 所示进行如下操作图 9-59 重复设计方差分析 Model 对话框 z 在 Within-Subjects Variables 框中选择组内因素变量 time 单击中间的向右箭头按钮使 time 变量显示在 Within-Subjects Model 框中 z 在 Between-Subjects 框中选择组间因素变量 vision 单击中间的向右箭头按钮使 vision 显示在 Between-Subjects Model 框中 z 在 Sum of 参数框中选择 TYPE 项单击 Continue 按钮返回主对话框 (5) 根据实验目的无需进行均值比较 Contrasts 对话框的操作无需进行 (6) 输出选择项在主对话框中单击 Options 按钮展开 Options 对话框进行如下操作为在输出中显示观测均值在 Factor(s) and Factor 框中选择 vision*time 项单击向右箭头按钮使 vision*time 显示在 Display Means for 框中目的是要求输出各单元格的均数点击 Continue 返回主对话框 (7) 单击 OK 按钮提交运行 4 输出结果如表 9-110 到表 9-117 所示表 9-110 组内变量 TIME Dependent Varialbe 1 2 3 TIME1 TIME2 TIME3 表 9-111 组间变量 N 刺激 1 等级 2 3 4 4 4 表 9-112 多变量检验结果 Effect Value F Hypothesisdf Errordf Sig. TIME Pillai’s Trace Wilks’ Lambda Hotelling’s Trace Roy’s Largest Root .421 .579 .727 .727 2.908 a 2.908 a 2.908 a 2.908 a 2.000 2.000 2.000 2.000 8.000 8.000 8.000 8.000 .112 .112 .112 .112 TIME *VISION Pillai’s Trace Wilks’ Lambda Hotelling’s Trace Roy’s Largest Root .418 .619 .555 .407 1.189 1.083 a . 971 1.832 b 4.000 4.000 4.000 2.000 18.000 16.000 14.000 9.000 .349 .398 4.54 .215 a. Exact statistic b. The statistic is an upper bound on F that yields a lower bound on the significance level. c. Design: Intercept+YISION Within Subjects Design:TIME 表 9-113 组内效应检验 Epsilon a With in Subjects Effect Mauchly’s W Approx Chi-Square df Sig. Greenhouse- Geisser Huynh-F eldt Lower-b ound TIME .867 1.141 2 .563 .883 1.000 .500 Tests the null hypothesis that the error covariance matrix of the or thonormalized transformed dependent variables is proportional to an identity matrix. a. May be used to adjust the degrees of freedom for the averaged tests of significance. Corrected tests are displayed in the Tests of Within-Subjects Effects table. b.Design:Intercept+VISION Within Subjects Design:TIME 表 9-114 组内效应方差分析结果 Source Type III Sum of Squares df Mean Square F Sig. TIME Sphericity Assumed Greenhouse-Geisser Huynh-Feldt Lowet-bound .412 .412 .412 .412 2 1.765 2.000 1.000 .206 .233 .206 .412 3.255 3.255 3.255 3.255 .062 .070 .062 .105 TIME*VISION Sphericity Assumed Greenhouse-Geisser Huynh-Feldt Lowet-bound .283 .283 .283 .283 4 3.531 4.000 2.000 7.083E-02 8.025E-02 7.083E-02 .142 1.120 1.120 1.120 1.120 .378 .377 .378 .368 Error(TIME) Sphericity Assumed Greenhouse-Geisser Huynh-Feldt Lowet-bound 1.138 1.138 1.138 1.138 18 15.888 18.000 9.000 6.324E-02 7.165E-02 6.324E-02 .126 表 9-115 组内均数对比检验 Source TIME Type III Sum of Squares df Mean Square F Sig. TIME lineare Quadratic 6.667E-03 .405 1 1 6.667E-03 .405 .110 6.169 .748 .035 TIME*VISION lineare Quadratic 8.583E-02 .198 2 2 4.292E-02 9.875E-02 .705 1.504 .519 .273 Error (TMIE) lineare Quadratic .547 .591 9 9 6.083E-02 6.565E-02 表 9-116 组间效应方差分析表 Source Type III Sum of Squares df Mean Square F Sig. Intercept VISION Error 103.023 16.515 2.679 1 2 9 103.023 8.258 .298 346.079 27.739 .000 .000 表 9-117 各响应变量的单元均值 95% Confidence Interval 刺激等级 TIME Mean Std.Error Lower Bound Upper Bound 1 1 2 3 .925 1.100 .725 .206 .153 .200 .458 .753 .273 1.392 1.447 1.177 2 1 2 3 2.400 2.825 2.475 .206 .153 .200 1.933 2.478 2.023 2.867 3.172 2.927 3 1 2 3 1.575 1.600 1.600 .206 .153 .200 1.108 1.253 1.148 2.042 1.947 2.052 5 结果分析表 9-110 是组内变量的基本数据信息组内因素 time 3 个水平作为三个变量 time1 time2 time3 表 9-111 是组间变量的基本信息组间变量分为三个组每组样本含量都为 4 表 9-112 为多变量检验结果包括对组内因素 time 的效应的检验对组间与组内因素交互效应的检验这两部分检验都分别采用了四种不同的算法但从 F 的显著性概率分析均大于 0.05 由此可得出结论组内效应对造成视觉刺激反应时的差异没有显著性意义组间与组内的交互效应对造成视觉刺激反应时的均数没有显著性意义表 9-113 为组内效应检验结果显示平均单变量 F 检验的 Huynh-fedlt 和 Greenhouse-Geisser 经校正的显著性值从表中的显著性概率为 0.565 大于 0.05 说明组内效应无显著性差异表 9-114 为组内效应的方差分析结果方差来源包括组内主效应 time 组间与组内的交互效应 time*vision 和偏差从显著性概率分析概率值大于 0.05 说明组内因素 time 对视觉刺激反应的差异没有显著性意义表 9-115 为组内均数对比方差检验结果方差来源包括组内因素 time 组内因素与因素变量 vision 的交互项 vision*time 和误差每一个来源分为与 time 是线性的一次的从概率值来看 time 本身的线性无差异二次有差异交互项与 time 的线性效果二次效果无差异表 9-116 为组间效应方差分析结果从 Sig. of F 值近似为 0可以认为因素变量 vision 各组均值之间的差异即三种视觉刺激所造成的反应时间的差异是反应时均值差异的主要来源得出结论否定三种视觉刺激的平均反应时无显著性差异的零假设研究假设成立表 9-117 给出了按组间变量分组的各单元的原始因变量的均值标准误和 95 的置信区间综合分析可得出结论视觉刺激反应时的实验设计是可行的即可以根据此实验测试每个受试者的视觉刺激反应时 9.6.4 重复测量设计的方差分析过程重复测量方差分析的功能模块调用步骤为 Analyze ? General Linear Model ? Repeated Measures 顺序逐一单击鼠标键打开 Repeated Measures Define Factor(s)对话框如图 9-57 所示 1 组内因素的定义 (1) 定义组内因素对话框当在菜单中选择了 Repeated Measures 时并不马上展开重复测量方差分析的主对话框而是需要先显示定义组内因素的对话框如图 9-57 所示上节的例题中研究的组内因素是三个视觉刺激反应时构成的这个组内因素命名为 time 共有三个水平因此在 Repeated Measures Define Factor(s)对话框内 Within-Subject Factor 框中输入组内因素名 time 在 Number of Levels 框中输入因素水平数 3 输入结束后 Add 按钮加亮单击该按钮定义表达式显示在大矩形框中如果研究的课题中还有另外的组内因素可以用同样方法继续定义已经定义的组内因素倘若有错误单击出错的定义表达式此时 Change Remove 按钮加亮单击 Change 按钮表达式分解为组内因素名和水平两部分分别显示在 Within-Subject Factor 和 Number of Levels 框中在框中修改后鼠标单击 Add 按钮正确的表达式将显示在矩形框中删除已经定义并显示在大矩形框中的组内因素可以单击该表达式然后单击 Remove 按钮如果对每个组内因素所代表的变量的测量仍有重复可以用鼠标单击 Measure 按钮展开定义对话框的下半部分定义表示重复测试的变量如图 9-60 所示 (2) 重复测量方差分析的主对话框检查所有定义的组内因素表达式正确无误后单击 Define 按钮结束组内因素定义进入 Repeated Measures 主对话框如图 9-58 所示主对话框中有四个矩形框 z 左面一个矩形框显示了在数据文件中输入的所有变量 z 右面一个矩形框显示了在组内因素定义对话框中定义的所有因素水平与测度的组合标有 Within-Subjects 其后是已经定义的组内变量名上节例题中为 time z 下面一个矩形框标有 Between-Subjects 组间因素框 z 最下面的矩形框标有 Covariates 协变量框图 9-60 展开下部分的组内因素定义对话框 2 定义组内因素变量水平组合与原始变量的对应关系在组内变量矩形框中显示有一系列 _?_(n) 表示组内变量第 n 个水平在原始变量表中选择用户认为是组内因素变量第 n 水平的变量鼠标单击之本例选原始变量 timel 作为组内因素变量 time 的第一水平因此单击左面矩形框中的 time1 后单击向右箭头按钮在右面矩形框中的 _?_(1) 变为 time(1) 如果想要让 timel 作 time 变量的第 2 因素可以单击向下箭头按钮使 time(1)变为 time(2) 即可以使用上下箭头钮改变组内因素变量水平与原始变量的对应关系注意组内因素变量水平组合表达式括号内是水平组合本例只定义了一个组内因素变量(time)因此表达式括号内为一个数字如果定义了两个组内因素变量表达式括号为两个用逗号隔开的水平序号例如如果定义了组内因素变量x 有两水平y有3水在组内因素变量矩形框中将出现以下要求定义的表认式 _ _(1,1) _ _(1,2) _ _(1,3) _ _(2,1) _ _(2,2) _ _(2,3) 当然在数据文件中与之对应的应该有六个因变量每个因变量对应着一种水平组合读者不难反过来考虑这是种重复测度是怎样设计的 3 定义方差分析的组间因素变量定义组间因素变量方法与前面章节中定义因素变量的方法相同 4 定义协变量及其类型如果有协变量在变量框选中协变量单击向右箭头按钮将其送入 Covariates 框中 5 定义分析模型在主对话框中单击 Model 按钮展开 Repeated Measures Model 模型定义对话框如图 9-58 所示 (1) 在 Specify Model 栏中选择定义模型的方式 z Full Factorial 选项完全模型系统默认方式 z Custom 选项自定义方式选择自定义方式激活定义组内模型 Within-Subject Model 组间模型 Between-Subject Model 的功能 (2) 自定义模型在 Within-Subject 矩形框中列出了组内因素变量 Between-Subject 矩形框中列出了组间因素变量对应的右面两个矩形框分别是 Within-Subject Model 和 Between-Subject Model 矩形框中间的 Building Terms 栏是对应效应类型的下拉表参见 9.3.4 小节注意如果有两个以上协变量不能指定协变量与协变量之间的交互效应但可以使用Transform菜单中的Compute功能使两个协变量相乘建立新变量建立指定新变量的各种效应 (3) 选择计算组间模型平方和方法在 Sum of 框内可以选择分解平方和的方法参见 9.3.4 小节 6 有关 Contrast 功能按钮 Plots 功能按钮 Post Hoc 功能按钮 Save 功能按钮 Option 功能按钮参见 9.3.4 小节 7 在各子对话框中的选择项选定后在各子对话框中单击 Continue 按钮返回主对话框一切选择确定后可以进行下列操作 (1) 单击 OK 按钮可以直接进行定义的重复测量方差分析结果在输出窗中显示运算结果 (2) 单击 Paste 按钮在 Syntax 语句窗中显示上述选择操作定义的命令语句在该窗中用鼠标置于命令语句起始位置单击 Run 按钮执行从起始到由 . 结束的一组命令语句同样得到与 (1)系统的输出结果在 Syntax 窗中可以估计需要对自动生成的语句进行修改或增加新的语句然后再按 Run 按钮执行之在该窗可以用鼠标单击 Syntax 按钮显示一个的命令语句供修改或添加新语句时参考 (3) 单击 reset 按钮废除此操作之前的一切设置和选择可以进行重新定义组间组内因素变量协变量定义模型选择均值比较方法和对输出项的选择等一系列选择操作 (4) 单击 Help 按钮显示与重复测量方差分析有关的帮助信息思考题 1 什么时候应该使用协方差分析才能得到较好的分析结果 2 如何判断方差分析中的显著性检验是否显著若判断差异的显著性有实际的统计意义说明了什么问题对现实生活中有什么指导意义试选择一实例 (可自己另找也可选用本章例题 ) 进行分析和思考 3 如何进行重复测量设计如何进行该设计的方差分析在何种情况下要进行重复测量设计第1 0 章回归分析导言回归分析是一种非常实用的统计方法应用范围很广回归分析在数据分析上的定量功能使之成为统计分析中的常用方法之一由于在分析时回归分析能生成数学表达式故它有着独到的优越性特别的回归分析能对数据进行预测回归分析的内容十分丰富包括线性回归曲线估计非线性回归逻辑回归 Cox 回归概率单位回归等等其中 Cox 回归分析也是一种生存分析除了阐述各种回归方法的基本概念功能与应用之外本章还举出了大量实例回归分析与方差分析同样是数理统计中常用的方法它是用来研究变量与变量之间相关关系的在生产和科学研究中我们常常会遇到多个变量同处于一个过程之中它们是相互联系相互制约的人们通过各种实践发现变量之间的关系大致可以分成两类一种类型是各变量之间存在着完全确定性的关系即所谓函数关系我们在微积分学中就是研究的这种关系另一种类型是各变量之间也有一定的关系但这种关系并不完全确定例如人体身高与体重是两个变量身高与体重有一定的关系一般讲 (或平均来说 )身高者体也重但是它们之间不能用一个确定的函数关系式表达出来又如人的血压与年龄也是这样它们之间有一定的关系一般讲年龄大者血压相对也高一些但是血压与年龄之间不能用一个确定的函数关系式表达出来因为这些变量其实都是随机变量 (或至少其中有一个是随机变量 ) 这种随机变量之间 (或者是随机变量与二般变量之间 )的关系我们通常称为相关关系相关分析我们在第七章已讨论过为了深入了解事物的本质尤其是生产实践和科学技术问题的需要往往要求我们寻找这些变量之间的数学关系式回归分析就是处理这类不完全确定的变量之间的相关关系的有力工具回归分析不仅可以提供变量之间相关关系的数学表达式 (通常称为经验公式 ) 利用概率统计的基础知识对此关系进行分析来判明所建立的经验公式的有效性而且还可以利用所得的经验公式根据一个或几个变量的值预测或控制另一个变量的值并且可以知道这种预测和控制可达到什么样的精确程度另外还可以进行因素分析对于共同影响一个变量的许多因素找出哪些因素影响是显著的哪些是不显著的回归分析涉及的内容非常广其中的方法也很多常用的方法有线性回归分析曲线估计非线性回归 Logistic 回归分析 Cox 回归分析概率分析权重 (或加权 )回归分析 2-Stage Least Squares(二段最小平方法 ) Optimal Scaling(最优编码回归 )等等这里只介绍常用的七种方法 10.1 线性回归 10.1.1 线性回归的基本概念线性回归分析是描述一个因变量 (或称为响应变量 dependent variable)Y 与一个或多个自变量 (independent variable)X 间的线性依存关系根据自变量数目的不同可分为一元线性回归 (只有一个自变量 )和多元线性回归 (有两个或两个以上的自变量 ) 一元线性回归 1 一元线性回归的基本概念直线回归分析的任务就是根据若干个观测 (x i y i )i l,2…n 找出描述两个变量 x y 之间关系的直线回归方程 y*=a+bx ,其中 y*是变量 y 的估计值求直线回归方程 y*=a+bx 实际上是用回归直线拟合散点图中的各观测点常用的方法是最小二乘法也就是使该直线与各点的纵向垂直距离最小即使实测值 y 与回归直线之差的平方和达到最小也称为剩余 (残差 )平方和因此求回归方程的问题归根到底就是求对取得最小值时 a 和 b 的问题 a 称为截距 b 为回归直线的斜率也称回归系数 2 一元线性回归方程的假设理论德国数学家高斯提出了 5 个假设理论满足这些假设的线性回归模型称为古典线性模型 (l) 正态性假设假设随机误差项 i 服从均值为零方差为б 2 的正态分布 (2) 等方差件假设它假设对于所有的 x i i 的条件方差同为б 2 且б为常数即 Var( i x I )=б 2 (3) 独立性假设即零均值假设它假设在给定 x i 的条件下 i 的条件期望值为零即 E( I )=0 (4) 无自相关性假设随机误差项 i 的逐次观察值互不相关即 Cov( i j )=0(i j) (5) 与 x 的不相关性假设随机误差项 i 与相应的自变量 x i 对因变量 y 的影响相互独立换言之两者对因变量 y 的影响是可以区分的即 Cov( i x i ) 0 3 一元线性回归方程的检验根据原始数据求出回归方程后就需要对回归方程进行检验检验的假设是总体回归系数为 0 另外要检验回归方程对因变量的预测效果如何 (l) 回归系数的显著性检验 z 对叙率的检验假设是总体回归系数为 0 z 对截距的检验假设是总体回归方程截距 a=0 (2) R 2 判定系数在判定一个线性回归直线的拟合优度的好坏时 R 2 系数是一个重要的判定指标从公式可以得到判定系数等于回归平方和在总平方和中所占的比率即 R 2 体现了回归模型所能解释的因变量变异性的百分比如果 R 2 =0.775 则说明变量 y 的变异中有 77.5 是由变量 x 引起的当 R 2 =1 时表示所有的观测点全部落在回归直线上当 R 2 =0 时表示自变量与因变量无线性关系为了尽可能准确的反应模型的拟合度 SPSS 输出中的 Adjusted R Square 是消除了自变量个数影响的 R 2 的修正值 (3) 方差分析体现因变量观测值与均值之间的差异的偏差平方和 SS t 是由两个部分组成的即回归平方和 SS r 它们反应了自变量 X 的重要程度残差平方和 SS e 它反应了实验误差以及其他意外因素对实验结果的影响表示为 SS t =SS r +SS e 这两部分除以各自的自由度得到它们的均方统计量 F=回归均方残差均方当 F 值太大时拒绝接受 b=0 的假设 (4) Durbin-Watson 检验在对回归模型的诊断中有一个非常重要的回归模型假设需要诊断那就是回归模型中的误差项的独立性如果误差项不独立那么对回归模型的任何估计与假设所作出的结论都是不可靠的其参数称为 D W 或 D D 的取值范围是 0<D<4 它的统计学意义如下 z 当残差与自变量互为独立时 D 2 z 当相邻两点的残差为正相关时 D<2 z 当相邻两点的残差为负相关时 D 2 (5) 残差图示法在直角坐标系中以预测值为横轴以 y 与之间的误差 e t 为纵轴 (或学生化残差与拟和值或一个自变量为纵轴 ) 绘制残差的散点图如果散点呈现出明显的规律性则认为存在自相关性或者非线性或者非常数方差的问题这样需要对数据因变量或自变量进行变换如果散点呈现随机分布斜率为零则认为自相关存在的可能性不大独立性假设成立多元线性回归 1 多元线性回归的基本概念根据多个自变量的最优组合建立回归方程来预测因变量的回归分析称为多元回归分析多元回归分析的模型为 y*=b 0 +b 1 x1+b 2 x2+…+b n xn 其中 y*多为根据所有自变量 X 计算出的估计值 b 0 为常数项 b 1 b 2 …b n 称为 y 对应于 x 1 x 2 …x n 的偏回归系数偏回归系数表示假设在其他所有自变量不变的情况下某一个自变量变化引起因变量变化的比率多元线性回归模型也必须满足一元线性回归中所述的假设理论 2 多元线性回归分析中的参数 (l) 复相关系数 R 复相关系数表示自变量 x 与其他的因变量 x i 之间线性相关密切程度的指标复相关系数使用字母 R 表示复相关系数的取值范围在 0 1 之间其值越接近 1 表示其线性关系越强而其值越接近 0 表示线性关系越差 (2) R 2 判定系数与经调整的判定系数与一元回归方程相同在多元回归中也使用判定系数 R 2 来解释回归模型中自变量的变异在因变量变异中所占比率但是判定系数的值随着进入回归方程的自变量的个数 (或样本容量的大小 n)的增加而增大因此为了消除自变量的个数以及样本量的大小对判定系数的影响引进了经调到的判定系数 (Adjusted R Square) (3) 零阶相关系数部分相关与偏相关系数 z 这里的零阶相关系数 (Zero-Order)计算所有自变量与因变量之间的简单相关关系 z 部分相关 (Part Correlation)表示在排除了其他自变量对 x i 的影响后当一个自变量进入回归方程模型后复相关系数的平方增加量 z 偏相关系数 (Partial Correlation)表示在排除了其他变量的影响后自变量 x i 与因变量 y 之间的相关程度部分相关系数小于偏相关系数偏相关系数也可以用来作为筛选自变量的指标即通过比较偏相关系数的大小来判别哪些变量对因变量具有较大的影响力 3 多元线性回归分析的检验建立了多元回归方程后需要进行显著性检验以确认建立的数学模型是否很好的拟合了原始数据即该回归方程是否有效利用残差分析确定回归方程是否违反了假设理论对各自变量进行检验其假设是总体的回归方程自变量系数或常数项为 0 以便在回归方程中保留对因变量 y 值预测更有效的自变量以便确定数学模型是否有效 (l) 方差分析与一元回归方程的检验相同多元回归方程也采用方差分析方法对回归方程进行检验检验的假设是总体的回归系数均为 0 或不都为非 0 它是对整个回归方程的显著性检验使用统计量 F 进行检验原理与一元回归的方程分析原理相同 (2) 偏回归系数与常数项的检验检验的假设是各自变量回归系数为 0 常数项为零它使用的统计量是 t t=偏回归系数 /偏回归系数的标准误 (3) 方差齐性检验方差齐性是指残差的分布是常数与预测变量或因变量无关即残差应随机的分布在一条穿过 0 点的水平直线的两侧在实际应用中一般是绘制因变量预测值与学生残差的散点图在线性回归 Plots 对话框中的源变量表中选择 SRESID(学生氏残差 )做 Y 轴选择 ZPRED(标准化预测值 )做 X 轴就可以在执行后的输出信息中显示检验方差齐性的散点图 (4) 回归模型残差的正态性检验检验的方法多种多样其中最直观最简单的方法是残差的直方图和累积概率图需要指出的是希望残差完全服从于正态分布也是不现实的即使存在很理想的总体数据样本的残差的分布也只能是近似于正态分布 z 残差的直方图在 Plots 子对话框中选择 Histogram 选择项就可以得到残差的直方图 z 残差的累积概率图 (P-P 图 ) P-P 图是一种概率分布图它是用来判断一个变量的分布是否符合一个特定的检测分布这个检测分布包括 Beta 分布 Chi-square 分布 Exponential 分布 Gamma 分布 Half-normal 分布 Laplace 分布 Logistic 分布 Lognormal 分布 Normal 分布 Pareto 分布 Student’t 分布 Weibull 分布 Uniform 分布如果两种分布基本相同那么在 P-P 图中的点应该围绕在一条斜线的周围如果两种分布完全相同那么在 P-P 图中应该只有一条斜线通过观察比较观测数据的残差 (曲线 ) 在假设直线 (正态分布 )周围的分布可以对两种分布进行比较 (5) 残差图示法利用残差图可以判断模型拟合效果在残差图中如果各点呈随机状并绝大部分落在士 26 范围 (68 的点落在士 6 之中 96 的点落在士 26 之中 )内说明模型对于数据的拟合效果较好如果大部分点落在士 26 范围之外说明模型对于数据的拟合效果不好 10.1.2 线性回归的功能与应用线性回归是描述变量之间线性依存关系的定量的统计方法它可以根据一批样本值来估计这种线性关系建立回归方程用回归方程可进行预测和由易测变量 X 求得难测变量 Y 等等多元线性回归还可以进行因素分析回归要求因变量 Y 服从正态分布 X 可以是随机变动的也可以是人为取值的变量在多元线性回归分析中用户还可根据需要选用不同筛选自变量的方法 (如逐步法向前法向后法等 ) 在 Analyze 下拉菜单中的 Regresion 菜单项里选择 Linear (线性回归分析 )命令如图 10-1 所示图 10-1 回归菜单该部分也可同时进行相关分析运行该过程可输出常用统计量方差分析表回归系数共线性诊断奇异值数据残差统计量散点图等等 10.1.3 线性回归的应用示例 [例 10-1] 某地一年级 12 名女大学生的体重 (Kg)x 与肺活量 (L)y 数据如下图 10-2 所示试用直线回归方程描述其关系 1 首先使用系统默认选择项进行线性回归分析从 Analyze ? Regression ? Linear 打开 Linear 线性回归主对话框在左侧的源变量栏中选择体重 [y] 作为因变量进入 Dependent 栏中选择肺活量 [x] 作为自变量进入 Independent(s)栏中如图 10-2 所示其余用默认选择项单击 OK 按钮运行该过程得到结果如下表 10-1 到 10-4 所示图 10-2 体重与肺活量数据文件图 10-3 Linear 线性回归主对话框表1 0-1 引入或剔除的变量 Model Variables Entered Variables Removed Method 1 体重 a Enter a. All requested variables entered. b. Dependent Variable:肺活量表1 0-2 模型摘要 Model R R Square Adjusted R Square Std. Error of the Estimate 1 .749 a .562 .518 .2878 a. Predictors(Constant),体重表1 0-3 方差分析 Model Sum of squares df Mean Square F Sig. 1 Regression Residual Total 1.061 .828 1.889 1 10 11 1.061 8.3E-02 12.82 .005 a a. Predictors(Constant),体重 b. Dependent Variable:肺活量表1 0-4 回归系数 Unstandardized Coefficients Standardized Coefficients Model B Std.Error Beta t Sig. 1 (Constant) 体重 4.130E-04 5.883E-02 .815 .016 .749 .001 3.580 1.000 .005 a. Dependent Variable:肺活量结果分析如下表 10-1 引入或剔除的变量 (Variable Entered/Removed) 用强迫引入法 (Enter) 变量 X(体重 )被弓队表 10-2 模型摘要 (Model Summary) 相关系数 (R)=0.749 判定系数 (R Square R 2 )=0.562 调整判定系数 (Adjusted R Square)=0.518 估计值的标准误 (Std Error of the Estimate)=0.2878 表 10-3 方差分析 (ANOVA) 回归的均方 (Regression-Mean Square)=1.061 剩余的均方 (Residual Mean Square)=0.0828 F=12.817 P=0.005 可认为变量 X 和 Y 之间有直线关系表 10-4 回归分析中的系数 (Coefficients) 常数项 (Constant)=0.000413 回归系数 (B)=0.05883 回归系数的标准误 (Std Error)=0.016 标准化回归系数 (Beta)=0.749 回归系数 t 检验的 t 值 =3.58 P=0.005(与方差分析一致 ) 可认为回归系数有显著意义得直线回归方程为 y=0.000413+0.05883x 2 使用选择项进行线性回归分析从 Analyze ? Regression ? Linear 打开 Linear 线性回归主对话框在左侧的源变量栏中选择体重 [y] 作为因变量进入 Dependent 栏中选择肺活量 [x] 作为自变量进入 Independent(s)栏中如图 10-3 所示 Method Enter 默认选择项单击 Statistics 按钮进入对话框如图 10-4 所示选择以下 5 项 z Estimates 默认选择项 z Model fit 默认选择项 z Confidence intervals 回归系数 B 的 95 可信区间 (95 Confidence interval forB) z Descriptives 变量的均数标准差相关系数矩阵及单侧检验 z Casewise diagnostic 中的 All Cases 显示每一例的标准化残差实测值和预测值残差 z 单击 Plots 按钮对话框如图 10-5 所示选择以下 3 项 z 散点图选用 DEPENDENT(Y 纵轴变量 )与 *ZPRED(X 横轴变量 )作图 z Histogram 标准化残差的直方图并给出正态曲线 z Normal Probability plot 标准化残差的正态概率图 (P-P 图 ) 单击 Save 按钮对话框如图 10-6 所示选择保存以下新变量预测值 (Predicted Values)中的 Unstandardized 未标准化的预测值 (新变量为 pre_l)和 S.E. of mean Predictions 预测值的标准误 (新变量为 sep_l) 残差 (Residuals)中的 Unstandardized 末标准化残差 (新变量为 res_l) 预测区间估计 (Prediction Intervals)中 Mean 当自变量为某定值时预测值的均数的可信区间 (新变量 lmci_l 为下限 umic_1 为上限 ) Individual 个体值的容许区间即总体中当自变量为某定值时个体值的波动范围 (新变量 lici_l 为下限 uici_l 为上限 ) Confidence 可信区间默认为 95 的可信区间用户可以自己设定单击 OK 按钮运行程序得到输出结果 (部分结果同表 10-1 到 10-4 故不再重复 ) 如下表 10-5 到表 10-8 图 10-6 到 10-9 所示图 10-4 Statistics 统计对话框图 10-5 Plots 图形对话框表1 0-5 描述统计量 Mean Std.Deviation N 肺活量体重 2.9025 49.33 .4144 5.28 12 12 图 10-6 Save 保存新变量对话框表1 0-6 相关分析肺活量体重 Pearson Correlation 肺活量体重 1.000 .749 .749 1.000 Sig. (1-tailed) 肺活量体重 . .003 .003 . N 肺活量体量 12 12 12 12 表1 0-7 回归诊断 Case Number Std. Residual 肺活量 Predicted Value Residual 1 2 3 4 5 6 7 8 9 10 11 12 .274 -.942 .151 -1.065 .325 -.458 1.627 .550 1.392 -.728 .305 -1.433 2.55 2.20 2.75 2.40 2.80 2.81 3.41 3.10 3.46 2.85 3.50 3.00 2.4711 2.4711 2.7064 2.7064 2.7064 2.9417 2.9417 2.9417 3.0594 3.0594 3.4123 3.4123 7.889E-02 -.2711 4.359E-02 -.3064 9.359E-02 -.1317 .4683 .1583 .4006 -.2094 8.767E-02 -4.123 a. Dependent Variable:肺活量表1 0-8 残差统计 Minimum Maximum Mean Std.Deviation N Predicted value Std.Predicted value Standard Error of Predicted Value Adjusted predicted Value Residual Std. Residual Stud.Residual Deleted Residual Stud.Deleted Residual Mahal.Distance Cook’s Distance Centered Leverage Value 2.4711 -1.389 8.379E-02 2.4436 -.4123 -1.433 -1.748 -.6138 -1.991 .016 .002 .001 3.4123 1.641 .1649 3.6138 .4683 1.627 1.701 .5117 1.914 2.694 .747 .245 2.9025 .000 .1133 2.9175 -1.5E-16 .000 -.023 -1.5E-02 -.023 .917 .119 .083 .3106 1.000 3.225-02 .3305 .2744 .953 1.050 .3357 1.132 1.065 .208 .0970 12 12 12 12 12 12 12 12 12 12 12 12 a. Dependent Variable:肺活量 Regression Standardized Residual 1.50 1.00 .50 0.00 -.50 -1.00 -1.50 Histogram Dependent Variable: 肺活量 Frequency 5 4 3 2 1 0 Std. Dev = .95 Mean = 0.00 N = 12.00 图 10-7 标准化残差的直方图 Normal P-P Plot of Regression Standardized Residual Dependent Variable: 肺活量 Observed Cum Prob 1.00.75.50.250.00 Expected Cum Prob 1.00 .75 .50 .25 0.00 图 10-8 标准化残差的正态概率 Scatterplot Dependent Variable: 肺活量 Regression Standardized Predicted Value 2.01.51.0.50.0-.5-1.0-1.5 肺活量 3.6 3.4 3.2 3.0 2.8 2.6 2.4 2.2 2.0 图 10-9 散点图图 10-10 Save 增加新变量到正在使用的数据文件结果分析表 10-5 是描述性统计 (Descriptive)的结果显示变量 y 和 x 的均数 (Mean) 标准差 (Std. Deviation)和例数 (N) 表 10-6 是相关分析的结果 Pearson 相关系数为 0.749 单尾显著性检验 P=0.003 回归系数 95 的可信区间 (Confidence intervals 的结果 )是 0.022~0.095 该结果添加在表 10-4 的右侧端表 10-7 是对全部观察单位进行回归诊断 (Casewise Diagnostics-all cases)的结果显示每一例的标准化残差 (Std. Residual) 因变量 y 的实测值和预测值 (Predicted value) 以及残差 (Residual) 可见第 7 例的标准化残差最大为 1.627(但未超过 2 或 3) 表 10-8 是残差统计 (Residual Statistics 或 Save 或 Plots)的结果主要显示预测值 (Predicted Value) 标准化预测值 (Std. Predicted value) 残差 Residual 和标准化残差 (Std. Residual)等统计量的最小值 (Minimum) 最大值 (Maximum)均数 (Mean)和标准差 (Std. Deviation) 可见标准化残差的最大绝对值为 1.627 图 10-7 残差的直方图正态曲线被加载在直方图上判断标准化残差是否呈正态分布因例数少此例难以作出判断图 10-8 观察值的累加概率图 (P-P 图 ) 对比观察值的残差分布图与假设的正态分布图是否相同如标准化残差呈正态分布则散点在直线上或靠近直线图 10-9 散点图选用 DEPENDENT(Y 纵轴变量 )与 *ZPRED(X 横轴变量 )作图可见两变量呈直线趋势图 10-10 是 Save 的结果增加新变量到正在使用的数据文件中可进行直线回归的区间估计例如当 x=50时预测值均数的标准误 (Sep_l)为 0.08379 95 可信区间为 2.75503(lmci) 到 3.12840(umci) 个体 y值的 95 容许区间为 2.27394(lici)到 3.60949(uici) 10.1.4 线性回归过程 1 线性回归主对话框 (1) 从 Analyze ? Regression ? Linear 打开 Linear 线性回归主对话框如图 10-3 所示 (2) 在左侧的源变量栏中选择一数值变量作为因变量进入 Dependent 栏中选择一个或更多的变量作为自变量进入 Independent(s)栏中 (3) 如果要对不同的自变量采用不同的引入方法 (例如对某两个变量用强迫引入法对其他自变量用向前引入法 ) 可利用 Previous (前 )与 Next (后 )按钮把自变量归类到不同的自变量块中 (Block) 然后对不同的变量子集选用不同的引入方法 (Method) (4) 在 Method 方法选择框中确定一种建立回归方程的方法有 5 种方法可供选择 z Enter(强迫引入法默认选择项 ) 定义的全部自变量均引入方程 z Remove(强迫剔除法 ) 定义的全部自变量均删除 z Forward(向前引入法 ) 自变量由少到多一个一个引入回归方程直到不能按检验水准引入新的变量为止该法的缺点是当两个变量一起时效果好单独时效果不好有可能只引入其中一个变量或两个变量都不能引入 z Backward(向后剔除法 ) 自变量由多到少一个一个从回归方程中剔除直到不能按检验水准剔除为止能克服向前引入法的缺点当两个变量一起时效果好单独时效果不好该法可将两个变量都引入方程 z Stepwise(逐步引入一剔除法 ) 将向前引入法和向后剔除法结合起来在向前引入的每一步之后都要考虑从已引入方程的变量中剔除作用不显著者直到没有一个自变量能引入方程和没有一个自变量能从方程中剔除为止缺点同向前引入法但选中的变量比较精悍 (5) 为弥补各种选择方法和各种标准的局限性不妨分别用各种方法和多种引入或剔除处理同一问题若一些变量常被选中它们就值得重视 (6) 容差 (Tolerance)是不能由方程中其它自变量解释的方差所占的构成比所有进入方程的变量的容差必须大于默认的容差水平值 (Tolerance 0.0001) 该值愈小说明该自变量与其他自变量的线性关系愈密切该值的倒数为方差膨胀因子 (Variance Inflation Factor) 当自变量均为随机变量时若它们之间高度相关则称自变量间存在共线性在多元线性回归时共线性会使参数估计不稳定逐步选择变量是解决共线性的方法之一 (7) Selection variable(选择变量 ) 可从源变量栏中选择一个变量单击 Rule 后通过该变量大于小于或等于某一数值选择进入回归分析的观察单位 2 Statistics(统计 )对话框单击 Statistics 按钮进入统计对话框如图 10-4 所示 z Estimates(默认选择项 ) 回归系数的估计值 (B)及其标准误 (Std. Error) 常数 (Constant) 标准化回归系数 (Beta) B 的 t 值及其双尾显著性水平 (Sig.) z Model fit(默认选择项 ) 列出进入或从模型中剔除的变量显示下列拟合优度统计量复相关系数 (R) 判定系数 (R 2 ) 调整 R 2 (Adjusted R Square) 估计值的标准误以及方差分析表 z Confidence intervals 回归系数 B 的 95 可信区间 (95 Confidence interval for B) z Descriptives 变量的均数标准差相关系数矩阵及单尾检验 z Covariance matrix 方差协方差矩阵 z R squared change R 2 和 F 值的改变以及方差分析 P 值的改变 z Part and partial correlations 显示方程中各自变量与因变量的零阶相关 (Zero-order 即 Pearson 相关 ) 偏相关 (partial)和部分相关 (part) 进行此项分析要求方程中至少有两个自变量 z Collinearity diagnostic(共线性诊断 ) 显示各变量的容差 (Tolerance) 方差膨胀因子 (VIC Variance Inflation Factor)和共线性的诊断表 z Durbin-Waston 用于残差分析 z Casewise diagnostic 对标准化残差 (服从均数 =0 标准差 =l 的正态分布 )进行诊断判断有无奇异值 (Outliers) Outliers 显示标准化残差超过 n 个标准差的奇异值 n=3 为默认值 All Cases 显示每一例的标准化残差实测值和预测值残差 3 P1ots 图形对话框 (1) 单击 Plots 按钮对话框如图 10-5 所示 P1ots 可帮助分析资料的正态性线性和方差齐性还可帮助检测奇异值或异常值 (2) 散点图可选择如下任何两个变量为 Y 纵轴变量与 X 横轴变量作图为获得更多的图形可单击 Next 按钮来重复操作过程 z DEPENDENT 因变量 z *ZPRED 标准化预测值 z *ZRESID 标准化残差 z *DRESID 删除的残差 z ADJPRED 调整残差 z SRESID Student 氏残差 z SDRESID Student 氏删除残差 (3) Standardized Residual Plots 标准化残差图 z Histogram 标准化残差的直方图并给出正态曲线 z Normal probality plot 标准化残差的正态概率图 (P-P 图 ) (4) Produce all partial plots 偏残差图 4 Save 保存新变量对话框 (1) 单击 Save 按钮对话框如图 10-6 所示每项选择都会增加新变量到正在使用的数据文件中 (2) 预测值 (Predicted Values) z Unstandardized 未标准化的预测值简称预测值 (新变量为 pre_l) z Standardized 标准化的预测值 (新变量为 Zpr_1) z S. E. of mean predictions 预测值的标准误 (新变量为 Sep_l) (3) 残差 (Residuals) z Unstandardized 未标准化残差 (新变量为 res_l) z Standardized 标准化残差 (新变量为 Zre_1) (4) 预测区间估计 (Prediction Intervals) z Mean 是总体中当 X 为某定值时预测值的均数的可信区间 (新变量 lmci_1 为下限 umci_1 为上限 ) z Individual 个体 Y 值的容许区间即总体中当 X 为某定值时个体 Y 值的波动范围 (新变量 lici_1 为下限 uici_1 为上限 ) Confidence 可信区间默认为 95 的可信区间但用户可以自己设定 5 Options 选择项对话框 (1) 单击 Option 按钮打开 Options 对话框如图 10-11 所示 (2) 逐步方法准则 (Stepping Method Criteria) z Use probability of F(使用 F 显著水平值 ) 当候选变量中最大 F 值的 P 值小于或等于引入值 (默认 0.05)时引入相应的变量已进入方程的变量中最小 F 值的 P 值大于或等于剔除值 (默认 0.10)时剔除相应的变量所设定的引入值必须小于剔除值用户可设定其它标准如引入 0.10 剔除 0.11 放宽变量进入方程的标准 z Use F value 使用 F 值含义同上 z Include constant in equation 线性回归方程中含有常数项图 10-11 Options 对话框 (3) 缺失值的处理方法 (Missing Value) z Exclude cases listwise 串列删除缺失值 z Exclude cases pairwise 成对删除缺失值 z Replace with mean 以平均数代替缺失值 6 WLS (Weight Least Squares)按钮 (1) 利用加权最小平方法给于观测量不同的权重值它或许用来补偿采用不同测量方式时所产生的误差 (2) 单击 WLS 按钮出现确定加权变量框将左侧源变量框中的加权变量选入 WLS Weight 框中 10.1.5 多元线性回归实例 [例 10-2] 29 例儿童的血液中血红蛋白 (y,g)与钙 (x1) 镁 (x2) 铁 (x3) 锰 (x4)及铜 (x5) 的含量如下图 10-12 所示用逐步回归方法筛选对血红蛋白又显著作用的微量元素 (ug) 从菜单 Analyze ? Regression ? Linear 打开 Linear 线性回归主对话框在左边的源变量栏中选择 y 作为因变量进入 Dependent 栏中选择 x1 到 x5 作为自变量进入 Independent(s)栏中在 Method 栏中选择 Stepwise(逐步引入一剔除法 ) 单击 Options 按钮进入 Options 对话框在 Use probability of F 栏中的 Entry 框内输入 0.10 Remove 框中输入 0.11 单击 Statistics 按钮进入 Statistics 对话框选择 Descriptives Casewise diagnostic 中的 Outliers n=3 为默认值其余使用默认选项单击 OK 按钮运行程序得到结果如表 10-9 到 10-16 所示图 10-12 多元线性回归数据文件表1 0-9 描述性统计量 Mean Std. Deviation N 血红蛋白含量钙含量镁含量铁含量锰含量铜含量 10.5362 59.7359 34.1962 381.0048 4.34E-02 1.14083 2.1800 9.5551 6.0998 64.0838 .16764 .31367 29 29 29 29 29 29 表1 0-10 相关分析血红蛋白含量钙含量镁含量铁含量锰含量铜含量 Pearson Correlation 血红蛋白含量钙含量镁含量铁含量锰含量铜含量 1.000 .097 .569 .863 .146 .217 .097 1.000 .538 .300 -.085 .620 .569 .538 1.000 .635 -.115 .545 .863 .300 .635 1.000 .180 .269 .146 -.085 -.115 .180 1.000 -.063 .217 .620 .545 .269 -.062 1.000 Sig.(1-tailed) 血红蛋白含量钙含量镁含量铁含量锰含量铜含量 . .308 .001 .000 .225 .125 .308 . .001 .057 .331 .000 .001 .001 . .000 .276 .001 .000 .057 .000 . .175 .079 .225 .331 .276 .175 .129 .000 .001 .079 .374 N 血红蛋白含量钙含量镁含量铁含量锰含量铜含量 29 29 29 29 29 29 29 29 29 29 29 29 29 29 29 29 29 29 29 29 29 29 29 29 29 29 29 29 29 29 29 29 29 29 29 29 表1 0-11 引入或剔除的变量 Model Variables Entered Variables Removed Method 铁含量钙含量 . . Stepwise(Criteria: Probability-of-F-to-enter<=.100, Probability-of-F-to-remove>=.110). Stepwise(Criteria: Probability-of-F-to-enter<=.100, Probability-of-F-to-remove>=.110). a. Dependent Variable:血红蛋白含量表1 0-12 模型摘要 Model R R Square A djusted R Square Std. Error of the Estimate 1 2 .863 a .880 b .745 .774 .736 .757 1.1200 1.0753 a. Predictors:(Constant),铁含量 b. Predictors:(Constant),铁含量钙含量 c. Dependent Variable:血红蛋白含量表1 0-13 方差分析 Model Sum of Squares df Mean Square F Sig. 1 ?????Regression Residual Total 99.195 33.870 133.064 1 27 28 99.195 1.254 79.075 .000 a 2 ????Regression Residual Total 103.004 30.060 133.064 2 26 28 51.502 1.156 44.545 .000 b a. Predictors:(Constant),铁含量 b. Predictors:(Constant),铁含量钙含量 c. Dependent Variable:血红蛋白含量表1 0-14 回归系数 Unstandardized Coefficients Standard Ized Coefficients Model B Std.Error Beta t Sig. 1 (Constant) 铁含量 -.654 2.937E-02 1.275 .003 .863 -.513 8.892 .612 .000 2 (Constant) 铁含量钙含量 1.074 3.118E-02 -4.0E-02 1.551 .003 .022 .917 -.177 .692 9.381 -1.815 .495 .000 .081 a. Dependent Variable:血红蛋白含量表1 0-15 模型外的变量 Collinearity Statistics Model Beta In t Sig. Partial Correlation Tolerance 1 钙含量镁含量锰含量铜含量 0.177 a .035a -.010 a -.016 a -1.815 .277 -.098 -.154 .081 .784 .923 .879 -.335 .054 -.019 .030 .910 .597 .968 .928 2 镁含量锰含量铜含量 .178b -.036 b .133 b 1.322 -.370 1.122 .198 .714 .273 .256 -.074 .219 .464 .946 .608 a. Predictors in the Model(Constant)铁含量 b. Predictors in the Moed(Constant) 铁含量钙含量 c. Dependent Variable:血红蛋白含量表1 0-16 残差统计 Minimum Maximum Mean Std. Deviation N Predicted Value Residual Std. Predicted Value Std. Residual 6.6785 -2.2428 -2.011 -2.086 13.1022 2.0715 1.338 1.927 10.5362 2.052E-15 .000 .000 1.9180 1.0361 1.000 .964 29 29 29 29 c. Dependent Variable:血红蛋白含量结果分析如下表 10-9 显示各变量的均数 (mean) 标准差 (Std. Deviation)和例数 (N) 表 10-10 显示各变量间的 Pearson 相关系数和显著性检验单尾 P 值及例数如 x3 与 y 的相关系数为 0.863 单尾 P 值为 0.000 例数为 29 表 10-11 显示变量的引入和剔除以及引入和剔除的标准逐步引入一剔除法 (Stepwise) 最先引入了变量 x3 建立了模型 (Model)1 接着引入了变量 x1 没有变量被剔除故模型 2 中有变量 x3 和 x1 表 10-12 显示各模型的拟合情况模型 2 的复相关系数 (R)为 0.880 判定系数 (R square 即 R 2 )为 0.774 调整判定系数 (Adjusted R Square)为 0.757(若作用不显著的变量引入方程则该系数减少 ) 估计值的标准误 (Std Error of the Estimate)为 1.0753 表 10-13 显示各模型的方差分析结果模型 2 经方差分析 F=44.545 P=0.000 按 =0.05 水平认为 y(血红蛋白含量 )与 x3(铁含量 )和 x1(钙含量 )之间有直线关系表 10-14 显示各模型的偏回归系数 (B) 标准误 (Std Error) 常数 (Constant) 标准化偏回归系数 (Beta 消除了单位的影响 ) 回归系数假设检验的 t 值和 P 值 (Sig.) 根据模型 2 建立的多元线性回归方程为 y=1.0740 0.04046x1 0.03118x3 方程中的常数项为 1.074 偏回归系数 b1 为 -0.04046 b3 为 0.03118 经 t 检验 b3 和 b1 的 P 值分别为 0.000 和 0.081 按 =0.10 水平均有显著性意义表 10-15 显示方程外各模型变量的有关统计量即 Beta t 值和 P 值偏相关系数 (Partial Correlation)和共线性统计的容许值 (Collinearity Statistics Tolerance) 可见模型 2 方程外的各变量偏回归系数经重检验 P 值均大于 0.10 故不能引入方程表 10-16 是残差统计的结果此例标准化残差 (Std. Residual)的绝对值最大为 2.086 没有超过默认值 3 如超过 3 则显示具体观察单位 (Case number)的标准化残差以帮助发现奇异值 (或异常值 ) 如引入变量的 P 值定为 0.05 剔除变量的 P 值定为 0.10 此例用 Backward 法可引入变量 x3 和 x1 用 Forward 和 Stepwise 法只能引入 x3 这提示当 x3 和 x1 两个变量一起时效果好如引入变量的 P 值定为 0.10 剔除变量的 P 值定为 0.11 则上述三种方法的结果一致即都可引入变量 x3 和 x1 10.2 曲线拟合 10.2.1 曲线估计的基本概念线性回归可以满足许多数据分析然而线性回归不会对所有的问题都适用有时因变量与自变量是通过一个己知或未知的非线性函数关系相联系尽管有可能通过一些函数的转换方法在一定范围内将它们转变为线性关系但这种转换有可能导致更为复杂的计算或数据失真在很多情况下有两个相关的变量用户希望利用其中的一个变量对另一个变量进行预测此时可采用的方法也很多从简单的直线模型到复杂的时间序列模型如果不能马上根据观测量数据确定一种最佳模型可以利用曲线估计在众多的回归模型中来建立一个简单而又比较适合的模型在充分了解观测量数据特性的情况下可以根据数据的特点选择相应的函数模型但是在大多数情况下对已有的数据在认识上往往是模糊不清的不能辨别变量之间的准确关系这时第一步骤将数据绘制成散点图观察观测量数据在散点图中的分布情况并根据数据具有不同的函数特性和图形的分布特点确定应采用的模型由于有些函数的图形是十分接近的即使对不同的函数图形特点有所了解也可能在判断上会产生误差如果数据在图中呈线性分布此时可以选择线性模型如果数据的分布不呈线性分布则可以同时引入其他多种模型最直接的方法是从 R 2 值的大小以及生成的图形本身进行比较直至确定最佳模型自变量与因变量的类型应该属于数值型变量如果在自变量选择项中选择了时间选择项那么曲线估计过程将产生一个时间变量如果选择了时间选择项要求因变量是以连续的时间作为量度的变量在进行时间分析时要求数据文件中的每一个观测量所使用的时间间隔和长度单位是完全统一的使用图形观察数据的分布情况以便确定因变量与自变量之间的关系 (线性的指数的等 ) 一个好的模型的残差应该是任意分布的呈现正态的特点如果使用一个线性模型因变量必须是正态分布观测的自变量与因变量的方差分布应该是一个常数自变量与因变量之间的关系应该是线性的并且所有的观测量应该是独立的 (非共线的 ) 10.2.2 曲线估计的功能与应用调用此过程可完成下列有关曲线拟合的功能 1 Linear 拟合直线方程实际上与 Linear 过程的二元直线回归相同即 Y = b0+ b1*X 2 Quadratic 拟合二次方程 (Y = b0+ b1*X+b2*X 2 ) 3 Compound 拟合复合曲线模型 (Y = b0×b1 x ) 4 Growth 拟合等比级数曲线模型 (Y = e (b0+b1*x) ) 5 Logarithmic 拟合对数方程 (Y = b0+b1*lnX) 6 Cubic 拟合三次方程 (Y = b0+ b1*X+b2*X 2 +b3*X 3 ) 7 S 拟合 S 形曲线 (Y = e (b0+b1/X) ) 8 Exponential 拟合指数方程 (Y = b0 e b1X 9 Inverse 数据按 Y = b0+b1/X 进行变换 10 Power 拟合乘幂曲线模型 (Y = b0X b1 ) 11 Logistic 拟合 Logistic 曲线模型 (Y = 1/ 1/u + b0*b1 x 10.2.3 曲线估计的应用示例 [例 10-3] 某地大气中氰化物测定结果如下表 10-17 所示试拟合曲线表1 0-17 氰化物测定结果表污染距离 x 50 100 150 200 250 300 400 500 氰化物浓度 y 0.687 0.398 0.20 0.121 0.09 0.05 0.02 0.01 建立数据文件如图 10-13 所示在菜单栏选择 Gaphs ? Scatter 进入 Scatterplot 对话框单击 Simple 图形按钮再单击 Define 按钮在 Define 对话框将变量 y 放入 Y Axis 栏变量 x 放入 X Axis 栏单击 OK 按钮得散点图如图 10-14 所示散点图提示两变量呈指数曲线关系从 Analyze ? Regression ? Curve Estimation 进入 Curve Estimation 对话框把左侧源变量栏的变量 y 放入 Dependents 栏中变量 x 放入 Independent 栏中选中 Models 栏中的 Exponetial 选项点击选中 Display ANOVA Table 选项如图 10-15 所示图 10-13 氰化物测定结果数据文件污染距离 6005004003002001000 氰化物浓度 .7 .6 .5 .4 .3 .2 .1 0.0 图 10-14 氰化物测定散点图图 10-15 Curve Estimation 对话框单击 Save 按钮进入变量储存对话框选择 Predicted values Residuals 和 Prediction Intervals 单击 Continue 按钮返回 Curve Estimation 对话框如图 10-16 所示图 10-16 Save 对话框在 Curve Estimation 对话框中单击 OK 按钮运行 Curve Estimation 过程得到结果如下表 10-18 图 10-17 图 10-18 所示表1 0-18 线性拟合和指数拟合结果 MODEL: MOD_1.模型 1(线性拟合 ) Dependent variable.因变量 . Y Method.. LINEAR线性模型 Listwise Deletion of Missing Data Multiple R .82090 R Square .67387 Adjusted R Square .61952 Standard Error .14478 Analysis of Variance方差分析 : DF Sum of Squares Mean Square 自由度平方和均方 Regression 1 .25987262 .25987262 Residuals 6 .12576938 .02096156 F = 12.39758 Signif F = .0125 -------------------- Variables in the Equation 方程中的系数 ------------------- Variable B SE B Beta T Sig T 回归系数标准误标准偏回归系数 T值 P值 X -.001266 .000360 -.820896 -3.521 .0125 (Constant) .505543 .101484 4.982 .0025 MODEL MOD_2 模型 2 指数拟合 Dependent variable.. Y Method.. EXPONENT指数模型 Listwise Deletion of Missing Data 以 Listwise 方法忽略缺失值 Multiple R .99575 复回归系数 R Square .99152 判定系数 Adjusted R Square .99011 调整判定系数 Standard Error .14308 剩余标准差 Analysis of Variance:方差分析 DF Sum of Squares Mean Square 自由度平方和均方 Regression 1 14.366011 14.366011 Residuals 6 .122840 .020473 F = 701.69507 Signif F = .0000 -------------------- Variables in the Equation 方程中的回归系数 --------------- Variable B SE B Beta T Sig T 回归系数 B值标准误标准偏回归系数 T值 p值 X -.009412 .000355 -.995752 -26.490 .0000 (Constant) .929305 .093205 9.971 .0001 The following new variables are being created:以下是新增变量 Name Label 变量名标签 FIT_1 Fit for Y with X from CURVEFIT, MOD_1 LINEAR ERR_1 Error for Y with X from CURVEFIT, MOD_1 LINEAR LCL_1 95% LCL for Y with X from CURVEFIT, MOD_1 LINEAR UCL_1 95% UCL for Y with X from CURVEFIT, MOD_1 LINEAR FIT_2 Fit for Y with X from CURVEFIT, MOD_1 EXPONENTIAL ERR_2 Error for Y with X from CURVEFIT, MOD_1 EXPONENTIAL LCL_2 95% LCL for Y with X from CURVEFIT, MOD_1 EXPONENTIAL UCL_2 95% UCL for Y with X from CURVEFIT, MOD_1 EXPONENTIAL 氰化物浓度污染距离 6005004003002001000 .8 .6 .4 .2 0.0 -.2 Observed Linear Exponential 图 10-17 指数拟合和线性拟合的曲线图 10-18 保存新变量的数据文件结果分析如下表 10-18 显示 (1) 方差分析表 z 线性拟合 F=12.39758 Sign if F(P 值 )=0.0125 z 指数拟合 F=701.69507 Sign if F=0.0000 可见指数拟合比线性拟合的方程更为显著 (2) 判定系数 z 线性拟合 R 2 =0.67387 z 指数拟合 R 2 =0.99152 (3) 自变量 x 检验 z 线性拟合 t=-3.521 P=0.0125 z 指数拟合 t=-26.490 P=0.0000 (4) 拟合方程 z 线性拟合 y=0.505543-0.001266x z 指数拟合 lny =ln(0.929305)-0.929305x (5) 新增变量的描述数据文件增加了 8 个变量前四个为线性拟合的后四个为指数拟合的如图 10-17 所示 10.2.4 曲线估计的 SPSS 实现 1 Curve Estimation 主对话框从主菜单中选择 Analyze ? Regression ? Curve Estimation 激活 Curve Estimation 主对话框如图 10-15 所示 (1) Dependent s 因变量栏 (2) Independent 定义自变量选项 z Variable 把左侧源变量栏的某变量放入该栏作为自变量系统默认值 z Time 以时间序列作为自变量 (3) Case Labels 病例标签栏把左侧源变量栏的某变量放入该栏该栏的变量值作为结果散点图中的点标记 (4) Modelss 曲线模型选择栏有 11 种类型曲线可供选择 z Linear 线性模型方程 Y=b0 十 (b1*X) 系统默认值 z Logarithmic 对数曲线模型方程 Y=b0 (bl*ln(X)) z Inverse 倒数曲线模型方程 Y=b0 b1/X z Quadratic 二次项曲线模型方程 Y=b0 bl*X b2*X 2 z Cubic 三次项曲线模型方程 Y=b0 bl*X b2*X 2 b3* X 3 z Power 幂曲线模型方程 Y=b0*X b1 或 lnY=lnb0+b1*lnX z Compound 复合曲线模型方程 Y=b0*b1 x 或 lnY=lnb0+X*lnb1 z S S 形曲线模型方程 Y=e b0+(b1*X) 或 lnY=b0 b1*X z Logistic Logistic 模型方程 Y=1/(1/u (b0*(b1 x )))或 ln(1/Y 1/u)=ln(b0) ln(b0 (X*ln(b1))) 其中 u 为上限值须为正数且大于最大的因变量数值 z Growth 增长曲线模型方程 Y=e (b0+(b1*X)) 或 lnY b0+(b1*X) z Exponential 指数曲线模型方程 Y=b0*(e (b1*X) )或 lnY=ln(b0)+(b1*X) (5) Display ANOVA Table 结果中显示方差分析表 (6) Include constant in equation 方程包含常数项系统默认值 (7) Plot models 绘制曲线拟合图系统默认值 (8) Save 按钮变量储存按钮激活变量储存对话框 2 Save 变量储存对话框如图 10-16 所示 (1) Save variables(保存变量选项 ) 点击一个或全部选项可将相应的数值以新变量形式储存到数据库中这些变量的定义将在结果中显示 z Predicted values 预测值选项 z Residuals 残差 (观察值与预测值之差 )选项 z Prediction intervals 预测值区间 (上下限 )选项 z Confidence interval 可信区间选项 (2) Predict Case 预测病例仅在以时间序列作为自变量时有效 z Predict from estimation period through last case:计算样本中数据的预测值 z Predict through 可计算样本中和样本之后的预测值仅用于时间序列的数据 Oservation 病例号 10.2.5 非线性回归分析的基本概念非线性回归过程建立因变量与一组自变量之间的非线性关系非线性回归不像线性模型那样有众多约束非线性模型可以在自变量与因变量之间任意的达成某种模型这些任务的完成是依靠迭代估计运算获得如果了解方程中参数值或者参数值的范围并且方程式不能被简单写为参数与几个自变量的乘积时可以使用非线性回归分析例如市场研究中息票的偿还与时间的关系或者与息票发行情况的关系健康研究中的财政赤字对寿命的影响社会科学研究中人口增长与时间关系以及生物学与生理学研究中有关动物骨骼成长与时间和营养关系等都是非线性关系非线性回归模型中的因变量与自变量在一般情况下应该是数值型像宗教类变量应该被重新编码为数值型变量一般说来如果准确设置了一个能够很好描述因变量与自变量之间关系的函数那么由此而得到的结果就是可信的准确的另外准确确定参数初始值也是相当重要的有时很可能呈现这种情况准确的确定了自变量与因变量之间的函数关系但是设置的初始值却不理想就有可能得不到一个较好的方程式即使得到了一个不错的方程式它所解决的对象的范围也有可能是局部的而不是全体的如果定义的函数是线性函数或者可以转换为线性函数那么就应该使用线性回归过程 10.2.6 非线性回归分析的功能与应用调用此过程可完成非线性回归的运算所谓非线性回归即为曲线型的回归分析一些曲线模型我们已在本章前几节中叙及但在医学研究中还经常会遇到除本章已叙及外的曲线模型对此 SPSS 提供 Nonlinear 过程让用户根据实际需要建立各种曲线模型以用于研究变量间的相互关系在医学中如细菌繁殖与培养时间关系的研究即可借助 Nonlinear 过程完成下表 10-19 为一些曲线模型是在论文中较常见的提供给用户应用时作参考表1 0-19 常用非线性方程式模型模型名称模型表达式 Asympt. Regression 1 Y = b1 + b2×exp( b3 X ) Asympt. Regression 2 Y = b1 -( b2 × ( b3 X )) Density Y = ( b1 + b2 ×X ) (-1/ b3 ) Gauss Y = b1× (1- b3×exp( -b2 ×X 2 )) Gompertz Y = b1×exp( -b2 ×exp( -b3 ×X )) Johnson-Schumacher Y = b1×exp( -b2 / ( X + b3)) Log Modified Y = ( b1 + b3×X ) b2 Log-Logistic Y = b1 -ln(1+ b2 ×exp( -b3×X )) Metcherlich Law of Dim. Ret. Y = b1 + b2×exp( -b3×X ) Michaelis Menten Y = b1×X /( X + b2 ) Morgan-Mercer-Florin Y = ( b1×b2 + b3×X b4 )/( b2 + X b4 ) Peal-Reed Y = b1 /(1+ b2 ×exp(-( b3×X + b4×X 2 + b5×X 3 ))) Ratio of Cubics Y = ( b1 + b2×X + b3×X 2 + b4×X 3 )/( b5×X 3 ) Ratio of Quadratics Y = ( b1 + b2×X + b3×X 2 )/( b4×X 2 ) Richards Y = b1 /((1+ b3×exp(- b2×X )) (1/ b4 ) ) Verhulst Y = b1 /(1 + b3×exp(- b2×X )) Von Bertalanffy Y = ( b1 (1 - b4 ) - b2×exp( -b3×X )) (1/(1 - b4 )) Weibull Y = b1 - b2×exp(- b3×X b4 ) Yield Density Y = (b1 + b2×X + b3×X 2 ) (-1) 10.2.7 非线性回归分析的应用示例 [例 10-4] 大白鼠在不同缺氧程度 (mmHg)x 条件下受相同剂量放射线照射后骨髓内坏死灶 (个 /50 个视野 )y 亦不同数据如下表 10-20 所示试进行非线性回归分析表1 0-20 数据表 x 300 400 500 600 700 760 y 214.5 87.5 92.5 136.6 180.2 212.0 以上表建立数据文件如下图 10-18 所示绘制散点图按 10.2.3 小节绘制散点图得到结果如图 10-19 所示缺氧程度 800700600500400300200 坏死灶 220 200 180 160 140 120 100 80 图 10-19 数据文件图 10-20 散点图图 10-19 散点图提示两变量呈抛物线关系为求得初始值方法如下消元法取三对观察值代入二次曲线方程 y=b0 b1*x b2*x 2 214.5=b0 b1*300 b2*300 2 (1) 87.5=b0 b1*400 b2*400 2 (2) 92.5=b0 b1*500 b2*500 2 (3) (2)-(1)式 -127=b1*100 b2*70000 (4) (3)-(1)式 -122=b1*200 b2*160000 (5) 由上述方程可解得 b0 b1 b2 初始值分别为 1387.5 -5.89 0.0066 拟合拟合二次项曲线方程表达式 y b0 b1*x b2*x 2 在菜单栏中选择 Analyze ? Regression ? Nonlinear 进入 Nonlinear Regression 对话框单击 Parameter 按钮进入参数录入对话框输入初始值 b0=1387.5 b1=-5.89 b2=0.0066 如图 10-20 所示单击 Continue 按钮返回 Nonlinear Regression 对话框中将变量 y 放入因变量栏在模型表达式栏中写入曲线模型的数学表达式 b0 b1*x b2*x 2 如图 10-21 所示单击 OK 按钮图 10-21 Parameters 对话框图 10-22 Nonlinear Regression 对话框得到结果如下表 10-21 所示表1 0-21 非线性分析结果 All the derivatives will be calculated numerically. Iteration Residual SS B0 B1 B2 1 371332.0876 1387.50000 -5.8900000 .006600000 1.1 2645.962481 671.996333 -2.2462744 .002186230 2 2645.962481 671.996333 -2.2462744 .002186230 2.1 2645.962481 671.996234 -2.2462739 .002186229 Run stopped after 4 model evaluations and 2 derivative evaluations. Iterations have been stopped because the relative reduction between successive residual sums of squares is at most SSCON = 1.000E-08 Nonlinear Regression Summary Statistics Dependent Variable Y Source DF Sum of Squares Mean Square Regression 3 155652.38752 51884.12917 Residual 3 2645.96248 881.98749 Uncorrected Total 6 158298.35000 (Corrected Total) 5 16217.86833 R squared = 1 - Residual SS / Corrected SS = .83685 Asymptotic 95 % Asymptotic Confidence Interval Parameter Estimate Std. Error Lower Upper B0 671.99623413 155.91632858 175.80089031 1168.1915780 B1 -2.246273917 .624463273 -4.233594754 -.258953080 B2 .002186229 .000581564 .000335434 .004037025 Asymptotic Correlation Matrix of the Parameter Estimates B0 B1 B2 B0 1.0000 -.9865 .9620 B1 -.9865 1.0000 -.9927 B2 .9620 -.9927 1.0000 分析结果如下判定系数 R 2 为 0.83685 抛物线方程为 y 671.996-2.246*x 0.00219*x 2 10.2.8 非线性回归分析的 SPSS 实现 1 Nonlinear Regression 对话框在主菜单中选择 Analyze ? Regression ? Nonlinear 进入 Nonlinear Regression 非线性回归分析主对话框如图 10-21 所示 (1) Parameter 参数显示栏显示输入的初始值 (2) Dependent 因变量栏 (3) Model Expression 模型表达式栏输入曲线模型的数学表达式 (4) Functions 函数列表栏列出可供选择的函数表达式可根据曲线方程的需要选择合适的函数从该栏选中一定的函数表达式单击向上的箭头加入模型表达式栏 (5) 数字及运算符栏单击各数字和运算符可输入模型表达式栏以建立数学表达式 (6) Parameters 参数录入按钮激活 Parameter 对话框如图 10-20 所示 (7) Loss Loss 函数按钮激活 Loss 函数对话框 (8) Constraint 参数限制按钮激活 Constraint 对话框 (9) Save 变量储存按钮激活 Save 对话框 (10) Options 选择项按钮激活 Options 对话框 2 Parameters 参数录入对话框如图 10-20 所示 (1) Name 系数名栏输入方程系数名 (2) Starting 系数初始值栏输入系数初始值 (3) Add 添加按钮将系数名及其初始值加入到参数栏 (4) Change 更改按钮更改系数初始值 (5) Remove 删除按钮删除已输入的系数名及其初始值 3 Loss Functiion Loss 函数对话框如图 10-23 所示图 10-23 Loss 对话框 (1) Sum of squared residuals 离均差平方和选项选择此项采用最小二乘法作参数估计采用系统默认值 (2) User-defined loss function 用户自定义 loss 函数项选择此项时允许用户自定义参数估计时的最小化标准 4 Parameter Constraints 参数限制对话框如图 10-24 所示 (1) Unconstrained 无参数限制选项系统默认值 (2) Define parameter constraint 参数限制选项选择此项允许用户自定义参数范围图 10-24 Parameter Constraint 参数限制对话框 5 Save New Var 变量储存对话框如图 10-25 所示图 10-25 Save New Var 变量储存对话框 (1) Predicted values 预测值选项 (2) Residuals 残差 (实测值预测值 )选项 (3) Derivatives 派生值选项 (4) Loss function values Loss 函数数值选项 6 Options 选择项对话框如图 10-26 所示图 10-26 Options 选择项对话框 (1) Bootstrap estimates of standard error 标准误的 Bootstrap 估计 (2) Estimation Method 估计选项 z Sequential quadratic program 用连续二次方程迭代法求解方程选择该方法后有以下参数可供设定均可用系统默认值 Maximum 设定最大迭代次数设定后为优先项 Step limit 设定参数矢量长度改变的最大允许值 Optimality 设定函数方程显著性 P 值的显示位数 Function 设定要求函数方程要达到的精确度 Infinite step 设定迭代时不能收敛的标识值 z Levenberg –Marquardt 为默认选项用 Levenberg-Marquardt 迭代法求解方程有以下结束迭代的参数可供设定均可用系统默认值 Maximum iterations 设定最大迭代次数设定后为优先项 Sum-of-squares 收敛结束的均方标识值为二级项 Parameter convergence 收敛结束的参数标识值为三级项 10.3 逻辑回归分析 10.3.1 逻辑分析的基本概念使用多元线性回归来分析多个自变量与一个因变量的关系因变量要求正态分布的连续随机变量所谓 Logistic 回归是指因变量为二级计分或二类评定的回归分析这在医学研究中经常遇到如死亡与否 (即生死二类评定 )的概率跟病人自身生理状况和所患疾病的严重程度有关对某种疾病的易感性的概率 (患病不患病二类评定 )与个体性别年龄免疫水平等有关这类变量称二项分类变量 (0 1) 如果因变量是二项分类变量显然不满足正态分布的条件这时可用 Logistic 回归分析在 Logistic 回归分析中常把自变量 (Independent variable)称为协变量 (Covariate) SPSS 10.0 for Windows 增加了可以处理多项逻辑分析的功能多项的含义是指有时事物的状态不止两种用二项分类变量不足以描述无论是处理二项分类变量还是处理多项分类变量逻辑分析统称为逻辑分析 10.3.2 逻辑分析的功能与应用从主菜单 Analyze 进入点击 Regression 展开各种回归命令可见两个与 Logistic 有关的命令一为 Binary Logistic 一为 Multinomial Logistic 前者是处理二项分类变量的简称二项逻辑分析后者是处理多项分类变量的简称多项逻辑分析本章主要针对二项逻辑分析来说明逻辑分析的使用方法多项逻辑分析的使用方法与之相似调用此过程可完成 Logistic 回归的运算特别指出本节介绍的 Logistic 过程应与日常所说的 Logistic 曲线模型 (即 S 或倒 S 形曲线 )相区别用户如果要拟合 Logistic 曲线模型可调用 Curve Estimation 过程系统提供 11 种曲线模型其中含有 Logistic 曲线模型在一般的多元回归中若以 P 概率为因变量则方程为 P=b0+b1X1+b2X2+…+bkXk, 但用该方程计算时常会出现 P>1 或 P<0 的不合理情形为此对 P 作对数单位转换即 logitP=ln(P/1-P) 于是可得到 Logistic 回归方程为 e b0+b1X1+b2X2+…+bkXk P = ——————————— 1+ e b0+b1X1+b2X2+…+bkXk 线性回归可以满足许多数据分析然而线性回归不会对所有的问题都适用有时因变量与自变量是通过一个己知或未知的非线性函数关系相联系尽管有可能通过一些函数的转换方法在一定范围内将它们转变为线性关系但这种转换有可能导致更为复杂的计算或数据失真调用该过程能够进行 Logistic 回归模型的建立 Logistic 回归曲线的拟合进行协变量的筛选以及各种检验如模型卡方检验区组变量卡方检验残差检验等等 10.3.3 逻辑分析的应用示例 [例 10-5] 某医师研究男性胃癌患者发生术后院内感染的影响因素资料如下表 10-22 所示请通过 Logistic 回归统计方法对主要影响因素进行分析建立数据文件定义变量名术后感染为 y(字符变量有输入 Y 无输入 N) 年龄为 x1 手术创伤程度为 x2 营养状态为 x3 术前预防性抗菌为 x4(字符变量有输入 Y 无输入 N) 白细胞数为 x5 癌肿病理分度为 x6 如图 10-26 所示表1 0-22 术后院内感染数据表术后感染 (有无 ) Y 年龄 (岁 ) X1 手术创伤程度 5 等级 X2 营养状态 3 等级 X3 术前预防性抗菌有无 X4 白细胞数 109/L X5 癌肿病理分度 TNM 得分总和 X6 有 69 4 2 无 5.6 9 有 72 5 3 无 4.4 6 无 57 3 2 无 9.7 4 无 41 1 1 有 11.2 5 无 32 1 1 有 10.4 5 有 65 3 3 有 7.0 5 无 58 3 2 有 3.1 6 有 54 4 2 无 6.6 6 有 55 2 2 有 7.9 7 无 59 1 1 有 6.0 4 无 64 2 2 无 9.1 6 无 36 1 1 有 8.4 8 无 42 3 1 有 5.3 6 无 48 4 2 有 4.6 5 无 50 1 2 有 12.8 4 图 10-27 术后院内感染数据文件从 Analyze ? Regression ? Binary Logistic 弹出 Logistic Regression 对话框如图 10-28 所示从对话框左侧的变量列表中选 y 点击向右的箭头按钮使之进入 Dependent 框选 x1 x2 x3 x4 x5 和 x6 点击向右的箭头按钮使之进入 Covariates 框点击 Method 处的下拉按钮系统提供 7 种方法本例选用 Forward: Conditional 法以便选择有主要作用的影响因素图 10-28 Logistic 逻辑回归分析主对话框点击 Options 按钮弹出 Logistic Regression:Options 对话框在 Display 框中选取 At last step 项要求只显示最终计算结果如图 10-29 所示图 10-29 Options 选择项对话框点击 Continue 按钮返回 Logistic Regression 对话框再点击 OK 按钮即可得到结果如下表 10-23 到表 10-34 所示表1 0-23 总例数和分析例数 Unweighted Cases a N Percent Selected Cases Included in Analysis Missing Cases Total Unselected Cases Total 15 0 15 0 15 100.0 .0 100.0 .0 100.0 a. If weight is in effect, see classification table for the total number of cases. 表1 0-24 因变量 y 的源编码值和内部编码值 Original Value Internal Value Y n 0 1 表1 0-25 x4 的源编码值和内部编码值 Parameter coding Frequency (1) X4 n Y 5 10 1.000 .000 表1 0-26 模型仅含常数时 y 的预测分类表 Predicted Y Observed y n Percentage Correct Step 0 y y n Overall Percentage 0 0 5 10 .0 100.0 66.7 a. Constant is included in the model. b. The cut value is .500 表1 0-27 Step 0 时方程中包含的变量 B S.E. wald df Sig. Exp(B) Step 0 Constant .693 .548 1.602 1 .206 2.000 表1 0-28 Step 0 时方程中没包含的变量 Score df Sig. Step Variables x1 X2 X3 X4(1) X5 X6 Overall Statistics 5.139 4.974 6.328 2.400 1.438 2.921 9.638 1 1 1 1 1 1 6 .023 .026 .012 .121 .230 .087 .141 表1 0-29 模型系数检验 Chi-square df Sig. Step 1 Step Block Model 8.510 8.510 8.510 1 1 1 .004 .004 .004 Step 2 Step Block Model 6.766 15.276 15.276 1 2 2 .009 .000 .000 表1 0-30 模型概况 Step -2 Log likelihood Cox & Snell R Square Nage1kerke R Square 1 2 10.586 3.819 .433 .639 .601 .887 表1 0-31 模型的预测分类表 Predicted Y Observed y N Percentage Correct Step 1 y y n Overall Percentage 2 0 3 10 40.0 100.0 80.0 Step 2 y y n Overall Percentage 4 0 1 10 80.0 100.0 93.0 a. The cut value is .500 表1 0-32 最终方程中所含的变量 B S.E. wald df Sig. Exp(B) Step X3 1 a constant Step x3 2 b x6 constant -10.071 20.652 -30.517 -10.280 123.405 61.102 122.207 298.053 107.956 1155.107 .027 .029 .010 .009 .011 1 1 1 1 1 .869 .866 .918 .924 .915 .000 9.32E+0.8 .000 .000 3.93E+53 a. Variable (s) entered on step 1:x3. b. Variable (s) entered on step 1:x6. 表1 0-33 最终方程中所不含的变量 Score df Sig. Step Variables X1 X2 X4(1) X5 X6 OVERALL Statistics Step variables x1 x2 x4(1) x5 .690 .909 .533 .298 4.327 7.158 1.932 2.250 .750 .028 1 1 1 1 1 5 1 1 1 1 .406 .340 .465 .585 .038 .209 .165 .134 .387 .868 a. Residual Chi-Squares are not computed because of redundancies. 表1 0-34 第一步第二步执行概况 Improvement Model Step Chi-square df Sig. Chi-square df Sig Correct Class% Variable 1 2 8.510 6.766 1 1 .004 .009 8.510 15.276 1 2 .004 .000 80.0% 93.3% In:X3 IN:X6 a.No more variables can be deleted from or added to the current mode. b. End block:1 上述表提供了有关分析例数各种检验和最终分析所得结果等情况但最主要的结果为表 10-32 表 10-33 表 10-34 所示第一步自变量 X3 入选方程分类能力达 80.00% 第二步自变量 X6 入选方程分类能力达 93.3% 方程有效性经卡方检验 2 =15.276 P=0.000 Logistic 回归的分类概率方程为 e 123.405-30.517X3-10.280X6 P = —————————————— 1+ e 123.405-30.517X3-10.280X6 根据该方程若一胃癌患者营养状态评分 (X3)为 3 癌肿病理分度 (X6)为 9 则其 P=4.5×10-27 0 这意味着术后将发生院内感染另一胃癌患者营养状态评分 (X3)为 1 癌肿病理分度 X6 为 4 则其 P=0.98105 1 这意味着术后将不会发生院内感染 10.3.4 逻辑分析过程 1 Logistic 回归过程对话框如图 10-28 所示 (1) Dependent 因变量栏用于放入因变量因变量可以是数值型或短字符型的二分变量 (2) Previous Block 1 of Next 设定不同区组 Block 的协变量可以用不同的协变量筛选方法分析对不同区组的协变量进行筛选 (3) Covariates 协变量栏用于放入协变量或一级交互作用的协变量用 >a*b 按钮 (4) Method 协变量筛选方法选项可选择七种筛选协变量方法的其中之一 z Enter 所有自变量强制进入回归方程 z Forward: Conditional 以假定参数为基础作似然比概率检验向前逐步选择自变量 z Forward: LR 以最大局部似然为基础作似然比概率检验向前逐步选择自变量 z Forward: Wald 作 Wald 概率统计法向前逐步选择自变量 z Backward: Conditional 以假定参数为基础作似然比概率检验向后逐步选择自变量 z Backward: LR 以最大局部似然为基础作似然比概率检验向后逐步选择自变量 z Backward: Wald 作 Wald 概率统计法向后逐步选择自变量 (5) Select 按钮选择按钮激活选择病例栏 z 放入将要按规则选择病例的变量 z Rule 规则按钮激活 Set Rule 对话框设定规则选择病例变量等于不等于小于小于或等于大于大于或等于某值 (6) Categorical 定义分类协变量按钮激活定义分类协变量对话框可定义一个或多个字符型和数值型变量作为分类变量 (7) Save 储存新变量按钮激活储存新变量对话框 (8) Options 选择按钮激活选择对话框 2 Define Categorical Variables 定义分类协变量对话框如图 10-30 所示图 10-30 Define Categorical Variables(定义分类协变量 )对话框 (1) Covariates 协变量栏列出源协变量 (2) Categorical 分类协变量栏用于放入分类协变量 (3) Change Contrast 改变对照方法选项 z Contrast 栏对照方法选项 Indicator 比较显示是否具有同类效应这种对比与传统的虚拟变量分组等效为系统默认值 Deviation 除参照分类外各分类与总效应比较 Simple 除参照分类外各分类与参照分类比较 Difference 逆 Helmert 对照除第一分类外各分类与以前平均分类效应比较 Helmert 除最后分类外各分类与以后平均分类效应比较 Repeated 除第一分类外各分类与以前分类效应比较 Polynomial 假定分类等距该分类仅用于数值型变量 z Reference 参照方法选项 Last 最后的分类为参照分类系统默认值 First 第一分类为参照类 3 Save New Variables 储存新变量对话框如图 10-31 所示图 10-31 Save New Variables 保存新变量对话框 (1) Predicted Value 预测值选项 z Probability 每个病例的事件发生的预测概率 z Group membership 基于病例的预测概率归组 (2) Residual 残差选项 z Unstandardized 非标准化残差观察值与预测值之差 z Logit Logit 单位的残差使用 Logit 单位的预测模型残差 z Studentized 学生化残差某病例删除时模型偏差的改变量 z Standardized 标准化残差非标准化残差除以其标准差 z Deviance 偏差基于模型偏差的残差 (3) Influence 预测值影响量度选项 z Cook’ Cook’s 影响统计量当删除某病例时全部病例残差改变的量度 z Leverage values Leverage 值每个观察值对模型拟合优度的相对影响 z Dfbeta(s) Beta 的差值当删除某病例时回归系数的改变量 4 Options 选择项对话框如图 10-29 所示 Statistics and Plot 统计量和图形选项 z Classification plots 显示有关因变量观察值与预测值的分类直方图 z Correlations of esti 显示模型中参数估计的相关矩阵 z Hosmer-Lemeshow goodness-of-f 估计模型拟合优度特别是在较多协变量或协变量是连续变量时 z Iteration history 在参数估计过程中显示每次迭代的系数和对数似然比统计量 z Casewise listing of residuals 显示非标准化残差预测概率观察和预测组关系 Outliers outside 显示某个标准差以外的奇异值默认值是 2 个标准差 All cases 显示所有病例的残差 z Display 显示方法选项 At each step 显示每一步的结果系统默认值 At last step 显示综合中间过程和最后结果 Probability for Stepwise 协变量引入或删除的概率标准选项 Entry 栏引入协变量标准默认值为 0.05 Removal 栏删除协变量标准系统默认值为 0.01 Classification 栏因变量分类界限系统默认值为 0.5 Maximum 栏设定最大迭代次数系统默认值为 20 次 Include constant in m 模型包含常数项系统默认值 10.4 bCOX 回归分析 10.4.1 COX 回归分析的基本概念 COX 回归分析既是一种回归分析也是一种生存分析在随访研究中病人治疗后的生存时间有赖于各种预测变量如疾病的严重性治疗的方法和病人的一般情况等等研究这些预测变量对生存时间的影响采用一种特定的回归模型 Cox 回归模型它可以分析时间 -事件 (time-event)的数据也可以分析含有截尾值 (censored value)的数据 10.4.2 COX 回归分析的功能与应用调用此过程可完成对病例随访资料中事件发生时点与一系列相关独立变量之间关系的评价即建立 Cox 回归模型 (亦称比例风险模型 ) 在 Cox 回归模型中某一时点 t 除了有一个本底风险量 h0(t)外第 i 个影响因素可使该本底风险量 h0(t)增至 e iXi 倍而成为 h0(t)·e iXi 因此如果有 k 个因素同时影响生存过程那么时点 t 的风险量 (常称之为风险函数 )表达为 h(t) = h0(t) ·e ( 1X1+ 2X2+...+ kXk) 10.4.3 COX 回归分析的应用示例 [例 10-6] 50 例急性淋巴细胞白血病病人在入院治疗时取外周血中白细胞数 (千个人 /mm 3 )用 X1 表示浸润淋巴结 (根据浸润程度分 0 1 2 三级 )用 X2 表示治疗缓解后病人有无巩固治疗 (有 =1 无 =0)用 X3 表示随访取得病人生存时间 t 按月计算设定状态变量 S 失效事件取值为 1 截尾取值为 0 工作数据表如图 10-32 所示试作 Cox 回归分析图 10-32 Cox 回归分析数据文件选择 Analyze ? Survival ? Cox Regression 激活 Cox Regression 对话框在 Cox Regression 对话框中从左侧源变量栏中选择因变量 t 放入 Time 栏选择状态变量 s 放入 Status 栏选择协变量 x1 和 x3 放入 Covariates 栏选择分层变量 x2 放入 Strata 栏如图 10-33 所示图 10-33 Cox Regression 对话框选中 Status 状态栏中的状态变量 s(?) 激活 Define Event 按钮并单击之进入 Define Event for Status Variables 对话框在此对话框中的 Single Value 栏中输入 1 值如图 10-34 所示单击 Continue 按钮返回 Cox Regression 对话框单击 Plots 按钮进入 Plots 对话框在 Plots 对话框中选择 Survival Hazard Log minus to 和 One minus Survival 如图 10-35 所示单击 Continue 按钮返回 Cox Regression 对话框图 10-34 Define Event for Status Variable 对话框图 10-35 Plots 对话框单击 Options 按钮进入 Options 对话框在此对话框中选择 CI for exp(B) Correlation of estim 和 Display baseline function 如图 10-36 所示单击 Continue 按钮返回 Cox Regression 对话框图 10-36 Options 对话框在 Cox Regression 对话框中单击 OK 按钮提交运行该过程得到结果如下表 10-35 到表 10-42 和图 10-37 到图 10-40 所示表1 0-35 总例数和分析例数 N Percent Cases available Event a In analysis Censored Total Cases dropped Cases with missing Values Cases with Non-positive time Censored cases Before the earliest Event in a stratum Total 45 5 50 10 0 0 10 60 75.0% 8.3% 83.3% 16.7% .0% .0% 16.7% 100.0% a. Dependent Variable:T 表1 0-36 分层状态 Stratum Event Censored Censored Percent Total 32 13 45 3 2 5 8.6% 13.3% 10.0% 表1 0-37 初始 Beginning 时 Omnibus 检验的模型系数 2-Log Likelihood 227.172 表1 0-38 模型检验 Overall(score) Change From Previous step Change From Previous Block -2 Log Likelihood Chi-square df Sig. Chi-square df Sig. Chi-square df Sig. 199.3 30.217 2 .000 27.890 2 .000 27.890 2 .000 a. Beginning Block Number 0, initial Log Likelihood function:-2 Log likelihood:-227.172 b. Beginning Block Number 1. Method: Enter 表1 0-39 方程中的变量 95% CI for Exp(B) B SE Wald df Sig Exp(B) Lower Upper X1 X3 .001 -1.977 .002 .403 .180 24.098 1 1 .671 .000 1.001 .138 .997 .063 1.005 .305 表1 0-40 回归分析的相关系数 X1 X3 .016 表1 0-41 协变量的平均值 Mean X1 X3 34.496 .500 表1 0-42 各层的生存时间和各种函数 At mean of covariates Time Baseline Cum Hazard Survival SE Cum Hazard X2 .400 = 3.830 0 4.030 4.200 5.000 5.270 5.670 7.070 7.530 7.670 8.330 9.230 11.000 11.770 11.830 11.970 13.160 14.830 15.170 18.230 20.570 21.000 23.770 .054 .112 .173 .238 .308 .383 .465 .550 .637 .821 1.026 1.141 1.271 1.421 1.584 1.766 1.990 2.281 2.628 3.376 3.834 4.322 5.027 .979 .958 .936 .913 .888 .863 .837 .810 .783 .730 .675 .645 .614 .580 .544 .508 .466 .417 .365 .274 .230 .190 .145 .020 .029 .036 .042 .048 .053 .059 .064 .068 .074 .080 .082 .085 .087 .089 .090 .091 .091 .092 .087 .083 .077 .066 .021 .043 .066 .091 .118 .147 .178 .211 .245 .315 .394 .438 .488 .545 .608 .678 .764 .876 1.009 1.296 1.472 1.659 1.930 续表 At mean of covariates Time Baseline Cum Hazard Survival SE Cum Hazard 26.000 28.330 31.330 37.770 66.830 73.570 X 23.730 = 4.000 2 4.170 4.200 7.260 7.330 7.530 7.600 8.300 8.800 11.830 21.870 6.131 7.437 9.032 11.085 13.983 18.968 .206 .329 .471 .646 .871 1.162 1.580 2.329 3.559 5.046 6.953 . .095 .058 .031 .014 .005 .001 .924 .881 .835 .780 .716 .640 .545 .409 .255 .144 .069 .000 .057 .044 .030 .017 .007 .002 .049 .064 .078 .092 .103 .113 .121 .123 .135 .109 .071 . 2.354 2.855 3.467 4.255 5.368 7.281 .079 .126 .181 .248 .334 .446 .606 .894 1.366 1.937 2.669 . Survival Function at mean of covariates T 806040200-20 Cum Survival 1.2 1.0 .8 .6 .4 .2 0.0 -.2 X2 2 0 图 10-37 协变量均数的累计生存函数图 One Minus Survival Function at mean of covariates T 806040200-20 One Minus Cum Survival 1.2 1.0 .8 .6 .4 .2 0.0 -.2 X2 2 0 图 10-38 协变量均数的 1 累计生存图 Hazard Function at mean of covariates T 80706050403020100 Cum Hazard 8 6 4 2 0 -2 X2 2 0 图 10-39 协变量均数的累计风险函数图 LML Function at mean of covariates T 80706050403020100 Log minus log 3 2 1 0 -1 -2 -3 -4 X2 2 0 图 10-40 协变量均数的 LML 函数图结果分析表 10-35 显示总共分析 50 个病例 45 例失效和 5 例截尾采用 Enter 法引入变量表 10-36 显示各分析层的分析例数失效例数和截尾例数信息表 10-37 显示开始时 Omnibus 检验的模型系数表 10-38 表 10-39 表 10-40 显示 z 模型分析 Overall Previous block 和 Previous step 的 P 值均为 0 以按 0.05 检验水准拒绝无效假设可认为模型中协变量系数全不为 0 或不全为 0 即模型显著 z 模型中的协变量分析在两个协变量中按 0.05 检验水准仅有协变量 X3 显著 P=0.000 回归系数 B=-1.977 标准误 SE=0.403 协变量 X3 的风险度 -0.138 可认为协变量 X3 是一个保护因素巩固治疗有助于增加生存时间协变量 X3 的风险度的 95 CI CIx3= 0.063 0.305 风险函数 h(t)=[h0(t)e (0.001x1 1.977x3) ] 协变量 X3 与 X1 的相关系数 R=0.016 可认为它们不相关表 10-41 显示协变量 X1 X3 均数表 10-42 图 10-37 图 10-38 和图 10-39 的综合分析 z 第 0 层 (即 X2=0 淋巴结无浸润 ) 该层整个生存期大约以 30 个月为界 30 个月之前生存函数曲线急剧下降和风险函数曲线急剧上升提示这些病人在 30 个月内陆续死亡 30 个月之后生存函数和风险函数曲线变化平稳提示活过 30 个月的病人以后存活机会趋向稳定但是由于此时的生存率低死亡率 =1 生存率故很少病人活过 3 个月 z 第 2 层 (即 X2=2 二级淋巴结浸润 ) 该层也是生存函数曲线和风险函数曲线急剧下降和上升几乎没有平稳期提示患二级淋巴结浸润的病人更易死亡生存期大约一年图 10-40 显示两条 LML 函数线不平衡提示两层比例风险假设不成立重要结论 z 对生存时间有显著影响的因素协变量 X3 它是一个保护因素 z 由于两层比例风险假设不成立可以分层分析 z 预测方程 ho)=h(t)=[h0(t)e (0.001x1 1.977x3) ] 10.4.4 COX 回归分析过程 1 Cox Regression 对话框如图 10-33 所示 (1) Time 生存时间变量栏放入生存时间变量该变量值可以是完全数据 (uncensored) 或不完全数据 (cencored) 也可以用任意时间单位但不可以是负值 (2) Status 生存状态变量栏放入生存状态变量且激活 Define Event 按钮该变量指示病例的事件是否发生或数据是否完全 z Define Event 定义事件按钮激活 Define Event for Status Variable 对话框 (3) Previous Block 1 of Next 设定不同区组 Block 的协变量可以用不同的协变量筛选法分析对不同区组的协变量 (4) Covariates 协变量栏用于放入协变量或一级交互作用的协变量用 >a*b 按钮 (5) Method 协变量筛选方法选项可选择七种筛选协变量方法之一各种筛选方法的意义与 Logistic 回归相同 (6) Strata 分层变量栏所谓分层变量即分组变量通过采用分层变量可以获得各层分别的生存和风险函数分层变量可以是短字符型或分类变量 (7) Categorical 定义分类协变量按钮激活 Define Categorical Covariates 对话框可定义一个或多个字符型和数值型变量作为分类变量 (8) Plots 显示函数图按钮激活 Plots 对话框 (9) Save 储存新变量按钮激活 Save New Variables 对话框 (10) Options 按钮选择按钮激活 Options 对话框 2 Define Event for Status Variable 对话框如图 10-34 所示 Value(s) Indicating Event Has Occurred 表示事件发生选项 z Single value 单值表示事件发生系统默认值在其右侧栏中输入某个表示事件发生的值除该值以外的其他值均表示事件不发生 z Range of value 范围值表示事件发生当状态变量为数值型变量时在其右侧第一栏和第二栏中分别输入某范围的最小值与最大值该范围数值表示事件的发生除该范围以外的其他值均表示事件不发生 z List of values 系列值表示事件发生在其右侧栏中输入某个表示事件发生的数值同时激活 Add 按钮 Add 添加按钮把 List of values 栏中输入的数值加入其右侧栏该栏内所有数值均表示事件发生 Change 改变按钮改变其右侧栏中的数值 Remove 删除按钮删除其右侧栏中的数值 3 Define Categorical Covariates 对话框对话框内各项的意义与 Logistic 回归分析的一致 4 Plots 对话框如图 10-35 所示 (1) Plot Type 绘图类型选项选择以下任一绘图类型均激活 Covariate Values Plotted 栏 Separate Lines 栏和 Change Value 选项 z Survival 显示累计生存函数图 z Hazard 显示累计风险函数图 z Log minus survival 显示 Log minus Log(LML)图以 ln( ln)转换后的累计生存函数估计值绘图用图视检验比例风险假设 z One minus survival 显示 1 生存函数图 (2) Covariate Values Plotted 协变量值绘图栏存放将要绘图的协变量 (3) Separate Lines 分离线栏如果绘图的协变量是分类变量可以把该分类变量放入分离线栏按其各种水手绘图 (4) Change Value 改变绘图值选项 z Mean 按协变量均数绘图系统默认值 z Value 按设定值绘图在 Value 右侧栏中输入设定值 z Change 按钮改变按钮改变 Covariate Values Plotted 栏中的协变量绘图值 5 Save New Variables 对话框如图 10-41 所示 (1) Survival 生存函数变量选项 z Function 储存累计生存函数估计值 z Standard error 储存累计生存函数估计值的标准误 z Log minus log 储存 ln(-ln)转换后的累计生存函数估计值 (2) Diagnostics 诊断测量变量选项 z Hazard function 储存累计风险函数估计值 (也称 Cox-Snell 残差 ) z Partial residual 储存最终模型的每个协变量偏残差可用偏残差与生存时间绘图来检验比例风险度假设 z DfBeta(s) 删除一个病例时回归系数估计值的改变量 (3) X * Beta 线性预测分数选项均数校正协变量值的总和乘以相应参数估计值图 10-41 Save New Variables 对话框 6 Options 对话框如图 10-36 所示 (1) Model Statistics 显示模型统计量选项 z CI for exp 风险度 (exp(B))的可信区间系统默认值为 95 z Correlation of estim 回归系数的相关矩阵 z Display model 显示模型选项 At each step 显示每一步结果系统默认值 At last step 显示综合中间过程和最后结果 (2) Probability for Stepwise 逐步筛选协变量的概率标准选项 z Entry 引入协变量标准系统默认值为 0.05 z Removal 删除协变量标准系统默认值为 0.10 (3) Maximum Iterations 最大迭代次数选项系统默认值为 20 (4) Display baseline function 显示基准风险函数生存函数和风险函数选项 10.5 概率单位回归 10.4.1 概率单位回归的基本概念概率单位回归 (Probit Probability unit)是计算半数效量 (ED 50 Median effect dose)的常用方法之一半数效量是指全部实验量有半数产生特定效应所需的某量例如使全部实验动物的半数死亡所需的某药剂量称为半数致死量 (LD 50 Median lethal dose) 剂量分组一般取 5 到 8 组要求死亡率在 50 上下约各有一半的组各剂量组间可呈等差级数但更多采用等比级数 (换算成对数时呈等差级数 ) 对数剂量与反应率的曲线为一条对称的 S 型曲线若将反应率换算成概率单位则剂量反应 (或死亡 )曲线直线化概率单位分析与 Logistic 分析十分接近事实上当选择 Logit 转换时统计过程实际上是 Logistic 运算一般情况下概率单位分析更多的运用于有计划的实验中而 Logistic 统计主要运用于观测研究输出结果上的差异在于概率单位分析的输出结果侧重于产生各种响应比例结果的有效值而 Logistic 回归过程的统计结果侧重于因变量的取值概率 10.4.2 概率单位回归的功能与应用调用此过程可完成剂量 -效应关系的分析通过概率单位使剂量 -效应的 S 型曲线关系转化成直线从而利用回归方程推算各效应水平的相应剂量值 10.4.3 概率单位回归的应用示例 [例 10-7] 研究抗疟药环氯胍对小白鼠的毒性试验结果如下表 10-43 所示试计算环氯胍的半数致死剂量表1 0-43 抗疟药环氯胍对小白鼠毒性原始数据表剂量 (mg/kg) 动物数死亡数 12 9 7 6 5 4 3 5 7 19 34 38 12 5 5 6 11 17 12 2 0 以上表建立数据文件定义变量名剂量为 DOSE 试验动物数为 OBSERVE 死亡动物数为 DEAD 如图 10-42 所示图 10-42 抗疟药环氯胍对小白鼠毒性原始数据文件从 Analyze ? Regression ? Probit 进入 Probit Analysis 对话框从对话框左侧的变量列表中选 dead 点击向右的箭头按钮使之进入 Response Frequency 框选 observe 点击向右的箭头按钮使之进入 Total Observed 框选 dose 点击向右的箭头按钮使之进入 Covariate(s)框并点击下拉 Transform 菜单选 Log base 10 项 (即要求对剂量进行以 10 为底的对数转换 ) 如图 10-43 所示系统在 Model 栏中提供两种模型一是概率单位模型 (Probit) 另一是比数比自然对数模型 (Logit) 本例选用概率单位模型点击 Options 按钮弹出 Probit Analysis Options 对话框在 Natural Response Rate 栏选 Calculate from data 项要求计算各剂量组的实际反应率如图 10-44 所示之后点击 Continue 按钮返回 Probit Analysis 对话框再点击 OK 按钮即可图 10-43 Probit Analysis 对话框图 10-44 Optionst 对话框得到结果如下 * * * * * * * * * * * * P R O B I T A N A L Y S I S * * * * * * * * * * * * DATA Information 7 unweighted cases accepted. 七个未加权的观察单位纳入分析 0 cases rejected because of missing data. 0 例因缺失值被剔除 0 cases are in the control group. 0 例在对照组中 0 cases rejected because LOG-transform can't be done. 由于对数转换不能进行 0 例被拒绝 MODEL Information 模型信息 ONLY Normal Sigmoid is requested. 仅接受对称 S 型曲线 Natural Response rate to be estimated 估计自然响应率 CONTROL group is not provided. 没有提供对照组 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - * * * * * * * * * * * * P R O B I T A N A L Y S I S * * * * * * * * * * * * Parameter estimates converged after 14 iterations. 参数估计在迭代 14 次后得到理想结果 Optimal solution found. 得到优化解 Parameter Estimates (PROBIT model: (PROBIT(p)) = Intercept + BX):(参数模型 ) Regression Coeff. Standard Error Coeff./S.E. 回归系数标准误 DOSE 5.95215 2.39832 2.48180 Intercept Standard Error Intercept/S.E. -4.66313 截距 2.19942 -2.12017 可求得直线方程 PROBIT = - 4.66313 5.95215 X . Estimate of Natural Response Rate = .000000 with S.E. = .26448 Pearson Goodness-of-Fit Chi Square = .833 DF = 4 P = .934 该方程拟合优度 2 检验结果 2 = 0.833 P=0.934 Since Goodness-of-Fit Chi square is NOT significant, no heterogeneity factor is used in the calculation of confidence limits. 由于卡方检验是不显著的因而在可信区间的计算中没有使用非齐同因素 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Covariance(below) and Correlation(above) Matrices of Parameter Estimates DOSE NAT RESP DOSE 5.75192 .82926 NAT RESP .52601 .06995 * * * * * * * * * * * * P R O B I T A N A L Y S I S * * * * * * * * * * * * Observed and Expected Frequencies 观察值的实际频数和理论频数 Number of Observed Expected DOSE Subjects Responses Responses Residual Prob 1.08 5.0 5.0 4.804 .196 .96082 .95 7.0 6.0 5.917 .083 .84534 .85 19.0 11.0 12.221 -1.221 .64320 .78 34.0 17.0 16.573 .427 .48745 .70 38.0 12.0 11.688 .312 .30757 .60 12.0 2.0 1.682 .318 .14016 .48 5.0 .0 .171 -.171 .03413 * * * * * * * * * * * * P R O B I T A N A L Y S I S * * * * * * * * * * * * Confidence Limits for Effective DOSE 半数效量的 95 可信区间 95% Confidence Limits Prob DOSE Lower Upper .01 2.46942 .02752 4.27407 .02 2.74406 .04534 4.54351 .03 2.93394 .06223 4.72430 .04 3.08539 .07895 4.86574 .05 3.21433 .09580 4.98445 .06 3.32832 .11295 5.08821 .07 3.43158 .13047 5.18134 .08 3.52676 .14845 5.26651 .09 3.61561 .16694 5.34550 .10 3.69937 .18597 5.41954 .15 4.06733 .29060 5.74092 .20 4.38570 .41395 6.01572 .25 4.67862 .56021 6.26792 .30 4.95831 .73436 6.51010 .35 5.23239 .94261 6.75083 .40 5.50646 1.19286 6.99754 .45 5.78528 1.49529 7.25814 .50 6.07347 1.86306 7.54282 .55 6.37600 2.31299 7.86673 .60 6.69886 2.86587 8.25522 .65 7.04974 3.54439 8.75565 .70 7.43942 4.36395 9.46545 .75 7.88416 5.30688 10.59747 .80 8.41075 6.29069 12.60617 .85 9.06910 7.21514 16.40563 .90 9.97116 8.09412 24.20723 .91 10.20216 8.27760 26.73475 .92 10.45918 8.46892 29.82521 .93 10.74927 8.67177 33.68623 .94 11.08278 8.89128 38.64763 .95 11.47580 9.13511 45.26992 .96 11.95538 9.41572 54.59749 .97 12.57252 9.75590 68.85539 .98 13.44249 10.20577 93.92886 .99 14.93751 10.92195 153.73066 Probit Transformed Responses Log of DOSE 1.0.9.8.7.6.5 Probit 1.5 1.0 .5 0.0 -.5 -1.0 图 10-45 剂量的对数和反应散点图结果分析如下回归方程的各参数在经过 14 次叠代运算后确定即 PROBIT=-4.66313 5.95215 X 该方程拟合优度 2 检验结果 2 =0.833 P=0.934 拟合良好由上述结果可知剂量对数值 (DOSE) 实际观察例数 (Number of Subjects) 试验动物反应数 (Observed Responses) 预期反应数 (Expected Responses) 残差 (Residual)和效应的概率 (Prob) 之后显示各效应概率水平的剂量值及其 95%可信区间值按本例要求环氯胍的半数致死剂量 (即 Prob=0.50 时 )为 6.07347 其 95%可信区间为 1.86305 到 7.54282 由图 10-45 所示系统输出以剂量对数值为自变量 X 以概率单位为应变量 Y 的回归直线散点图从图中各点的分布状态亦可看出回归直线的拟合程度是很好的 10.4.4 概率单位回归过程 1 Probit Analysis 对话框如图 10-43 所示按 Analyze ? Regnssion ? Probit 顺序逐一单击鼠标键打开 Probit Analysis 对对话框 (1) Response Frequency 栏选择一个变量作为响应频数变量进入该框中这个变量用来对实验刺激作出反应的观测量的数目总和该变量的值不能为负数 (2) Total Observed 框选择一个变量作为总观测变量进入该框中这个变量表示被用于刺激的观测量总数这个变量的值不能为负数或是不能小于作为响应频数变量的观测值 (3) Factor 选择一个因变量进入 Factor 框中如果选择了因子变量则必须对这组变量给出一个确定的范围 (4) 把一个因变量放入 Factor 框激活 Define Range 按钮单击该按钮打开 Define Range 对话框如图 10-46 所示在 Minimum 框中输入分组值的最小值在 Maximum 框中输入分组值的最大值单击 Continue 按钮返回主对话框用 Cancel 按钮取消设置 Help 按钮获得帮助 (5) Covariate(s)框选择至少一个协变量进入该框中这个变量是不同的实验刺激条件值如果没有确定进行转换系统将会自动在分析中给出一控制组如果对协变量进行转换在 Transform 框中选取转换模式 z None 选项不进行转换 z Log base 10 选项用以 10 为底的对数进行转换 z Natural log 选项以 e 为底的自然对数进行转换 (6) 在 model 栏中确定一种分析方式 z Probit 用逆累积标准正态分布的函数来转换响应比例 z Logit 选项用自然对数为底的奇比率 p/(l-p)来转换响应比例 2 Options 对话框如图 10-44 所示单击 Options 按钮打开 Options 对话框选择要计算的参数 (l) Statistics 统计量栏 z frequencies 复选项观测值与预测值的频数以及每一个观测值的残差 z Relative median potency 复选项显示每一对分组水平的相对中位数潜力以及 95% 的相对中位数的区间对两组变量来说相对中位数潜力是指完成 50 反应比例的计量相对中位数潜力在未指定因变量或者选择一个以上的协变量的情况下不能选择它 z Parallelism test 复选项平行检验用来检验各分组统计结果具有相同的斜率的假图 10-46 Define Range 对话框设 z Fiducial confidence intervals 复选项如果设置了一组变量那么将会显示每一组完成从 0.01 到 0.99 反应比例所需的强度的可信区间如果拟合化度检测有显著意义那么置信区间将会与一个非均匀因子一起计算如果选择了一个以上的协变量此选择项不适用如果选中了恢复选项那么在 significance level for use of 框中键入一个显著性水平值那么在以后的计算中如果计算所得的拟合优度检验小于设定值 Probit 还会选择其他的纠正方法进行可信区间的计算如果选择了一个以上的协变量那么置信区间与相对中位数潜力的计算都不适用相对中位数潜力与平行检验只有在选择了一个因子变量后才是适用的 (2) Natural Response Rate 栏计算在没有刺激条件下是否会有一个自然的响应率 z None 选项不计算自然响应率 z Calculate from data 选项依据现有数据计算在缺少刺激条件下的响应频率来估计自然响应比率数据必须包含刺激强度为零的观测量 z Value 选项如果了解自然响应频率那么将其键入这个数值必须小于 1 (3) Criteria 栏设置控制这代的参数估计算法 z Maximum iterations 参数框键入最大迭代步数当达到所设置的最大迭代数后迭代停止 z Step limit 参数框选择参数向量中所允许的最大变化量 z Optimality tolerance 参数框选择优化容忍度即损失函数的精确值思考题 1 理解各个回归分析方法的基本概念对其功能与应用范围要熟练了解 2 对下列数据进行线性回归分析以 salepric 为因变量 landval improval 为自变量 3 如何判断回归系数的显著水平判定系数 R 2 的作用是什么 4 学会将非线性回归分析转化为线性回归分析从这一点出发思考先做散点图的意义所在第11章聚类与判别导言聚类和判别都是分类学的基本方法而分类学是人类认识世界的基础科学试想一想平时我们对事物的认识有哪一种不是与分类有关的掌握聚类和判别的方法对进一步运用统计这一工具来认识世界有着极其重要的意义聚类有两种基本的方法快速样本聚类和分层聚类判别的分类方法就是先根据事物特点的变量值和它们所属的类求出判别函数再根据判别函数对未知所属类别的事物进行分类的一种分析方法 11.1 聚类判别分析及其分析过程分类学是人类认识世界的基础科学聚类分析和判别分析是研究事物分类的基本方法广泛的用于自然科学研究社会科学研究工农业生产各个领域人们认识事物时往往先把被认识的对象进行分类以便寻找其中相同与不同的特征因而分类学是人们认识世界的基础科学在医学实践中也经常需要做分类的工作如根据病人的一系列症状体征和生化检查的结果判断病人所患疾病的类型或对一系列检查方法及其结果将之划分成某几种方法适合用于甲类病的检查另几种方法适用于乙类病的检查等等统计学中常用的分类统计方法主要是聚类分析与判别分析聚类分析是直接比较各事物之间的性质将性质相近的归为一类将性质差别较大的归入不同的类判别分析则先根据已知类别的事物的性质利用某种技术建立函数式然后对未知类别的新事物进行判断以将之归入已知的类别中聚类分析与判别分析有很大的不同聚类分析事先并不知道对象类别的面貌甚至连共有几个类别也不确定判别分析事先已知对象的类别和类别数它正是在这样的情形下总结出分类方法用于对新对象的分类 11.1.1 聚类分析聚类分析 (Cluster Analysis)是根据事物本身的特性研究个体分类的方法聚类分析的原则是同一类中的个体有较大的相似性不同类的个体差异很大根据分类对象不同分为样品聚类和变量聚类样品聚类在统计学中又称为 Q 型聚类用 SPSS 的术语来说就是对事件 (cases)进行聚类或是说对观测量进行聚类是根据被观测的对象的各种特征即反映被观测对象的特征的各变量值进行分类变量聚类在统计学中有称为 R 型聚类反映事物特点的变量有很多我们往往根据所研究的问题选择部分变量对事物的某一方面进行研究 11.1.2 判别分析判别分析 (Discriminant)是根据表明事物特点的变量值和它们所属的类求出判别函数根据判别函数对未知所属类别的事物进行分类的一种分析方法在自然科学和社会科学的各个领域经常遇到需要对某个个体属于哪一类进行判断如动物学家植物学家对动物植物如何分类的研究和某个动物植物属于哪一类哪一目哪一纲的判断等 11.1.3 Classify 的功能 SPSS 中进行聚类和判别分析的统计过程是由菜单 Analyze ? Classify 导出的选择 Classify 可以显示三个过程命令 1 K-Means Cluster 进行快速聚类过程 2 Hierarchical Cluster 进行样本聚类和变量聚类过程 3 Discriminant 进行判别分析过程 11.2 快速样本聚类 11.2.1 快速样本聚类的基本概念当要聚成的类数已知时使用快速聚类过程可以很快将观测量分到各类中去其特点是处理速度快占用内存少 K-Means Cluster 执行快速样本聚类使用 k 均值分类法对观测量进行聚类可以完全使用系统默认值执行该命令也可以对聚类过程设置各种参数进行人为的干预例如可以事先指定把数据文件的观测量分为几类指定使聚类过程中止的判据或迭代次数等进行快速样本聚类首先要选择用于聚类分析的变量和类数参与聚类分析的变量必须是数值型变量且至少要有一个为了清楚地表明各观测量最后聚到哪一类还应该指定一个表明观测量特征的变量作为标识变量例如编号姓名之类的变量聚类必须大于等于 2 但聚类数不能大于数据文件中的观测量数如果选择了 n 个数值型变量参与聚类分析最后要求聚类数为 k 那么可以由系统首先选择 k 个观测量 (也可以由用户指定 )作为聚类的种子 n 个变量组成 n 维空间每个观测量在 n 维空间中是个点 K 个事先指定的观测量就是 k 个聚类中心点也称为初始类中心按照距这几个类中心的距离最小原则把观测量分派到各类中心所在地类中形成第一次迭代形成的 k 类根据组成每一类的观测量计算各变量均值每一类中的 n 个均值在 n 维空间中又形成 k 个点这就是第二次迭代的类中心按照这种方法依次迭代下去直到达到指定的迭代次数或中止迭代的判据要求时迭代停止聚类结束从上述分析过程可以看出 K-Means Cluster 不仅是快速样本聚类过程而且是一种逐步聚类分析所谓逐步聚类分析就是先把被聚对象进行初始分类然后逐步调整得到最终分类 11.2.2 快速样本聚类的功能与应用快速聚类适用于大样本的聚类分析它能快速的把各观测量分到各类中去 11.2.3 快速样本聚类的应用示例 [例 11-1] 为研究儿童生长发育的分期调查 1253 名 1 个月至 7 岁儿童的身高 (cm) 体重 (kg) 胸围 (cm)和坐高 (cm)资料资料作如下整理先把 1 个月至 7 岁划成 19 个月份段分月份算出各指标的平均值将第 1 月的各指标平均值与出生时的各指标平均值比较求出月平均增长率 (%) 然后第 2 月起的各月份指标平均值均与前一月比较亦求出月平均增长率 (%) 结果见下表欲将儿童生长发育分为四期故指定聚类的类别数为 4 请通过聚类分析确定四个儿童生长发育期的起止区间数据如表 11-1 所示表11 -1 数据表格月平均增长率月份身高 (cm) 体重 (Kg) 胸围 (cm) 坐高 (cm) 1 2 3 4 6 8 10 12 15 18 24 30 36 42 48 54 60 66 72 11.03 5.47 3.58 2.01 2.13 2.06 1.63 1.17 1.03 0.69 0.77 0.59 0.65 0.51 0.73 0.53 0.36 0.52 0.34 50.30 19.30 9.85 4.17 5.65 1.74 2.04 1.60 2.34 1.33 1.41 1.25 1.19 0.93 1.13 0.82 0.52 1.03 0.49 11.81 5.20 3.14 1.47 1.04 0.17 1.04 0.89 0.53 0.48 0.52 0.30 0.49 0.16 0.35 0.16 0.19 0.30 0.18 11.27 7.18 2.11 1.58 2.11 1.57 1.46 0.76 0.89 0.58 0.42 0.14 0.38 0.25 0.55 0.34 0.21 0.55 0.16 建立数据文件定义变量名虽然月份分组不作分析变量但为了更直观地了解聚类结果也将之输入数据文件其变量名为 month 身高体重胸围和坐高的变量名分别为 x1 x2 x3 和 x4 输入原始数据如图 11-1 所示激活 Analyze 菜单选 Classify 中的 K-Means Cluster 项弹出 K-Means Cluster Analysis 对话框 (如图 11-2 所示 ) 从对话框左侧的变量列表中选 x1 x2 x3 x4 点击向右的按钮使之进入 Variables 框在 Number of Clusters(即聚类分析的类别数 )处输入需要聚合的组数本例为 4 在聚类方法上有两种 Iterate and classify 指先定初始类别中心点而后按 K-means 算法作叠代分类 Classify only 指仅按初始类别中心点分类本例选用前一方法图 11-1 数据文件图 11-2 K-Means Cluster Analysis 对话框为在原始数据库中逐一显示分类结果点击 Save 按钮弹出 K-Means Cluster Save New Variables 对话框选择 Cluster membership 项如图 11-3 所示点击 Continue 钮返回 K-Means Cluster Analysis 对话框本例还要求对聚类结果进行方差分析故点击 Options 钮弹出来 K-Means Cluster Options 对话框在 Statistics 栏中选择 ANOVA table 项如图 11-4 所示点击 Continue 钮返回 K-Means Cluster Analysis 对话框再点击 OK 按钮提交运行该过程图 11-3 Save New Variables 对话框图 11-4 Options 对话框得到结果如下表表11 -2 初始分类中心 Cluster 1 2 3 4 X1 X2 X3 X4 11.03 50.30 11.81 11.27 5.47 19.30 5.20 7.18 3.58 9.85 3.14 2.11 .34 .49 .18 .16 表11 -3 初始分类中心 Change in Cluster Centers Iteration 1 2 3 4 1 2 .000 .000 .000 .000 2.457 .000 1.269 .000 a. Convergence achieved due to no or small distance change. The maximum distance by which any center has changed is .000. The current iteration is 2. The minimum distance between initial centers is 10.520 表11 -4 中止分类中心 Cluster 1 2 3 4 X1 X2 X3 X4 11.03 50.30 11.81 11.27 5.47 19.30 5.20 7.18 2.86 7.75 2.09 2.11 .91 1.47 .48 .66 表11 -5 方差分析 Cluster Error Mean Square df Mean Square df F Sig. X1 X2 X3 X4 37.581 817.116 45.409 46.099 3 3 3 3 .369 1.355 .282 .236 15 15 15 15 101.785 603.259 161.115 195.493 .000 .000 .000 .000 The F tests should be used only for descriptive purposes because the clu : Have been chosen to maximize the differences among cases in different Clusters. The observed significance levels are not corrected for this an Thus cannot be interpreted as tests of the hypothesis that the cluster m are equal. 表11 -6 每类例数 Culster 1 2 3 4 Valid Missing 1.000 1.000 2.000 15.000 19.000 .000 结果分析表 11-2 到表 11-4 显示首先系统根据用户的指定按 4 类聚合确定初始聚类的各变量中心点未经 K-means 算法叠代其类别间距离并非最优经叠代运算后类别间各变量中心值得到修正表 11-5 表 11-6 显示对聚类结果的类别间距离进行方差分析方差分析表明类别间距离差异的概率值均 <0.001 即聚类效果好这样原有 19 类 (即原有的 19 个月份分组 ) 聚合成 4 类第一类含原有 1 类第二类含原有 1 类第三类含原有 2 类第四类含原有 15 类具体结果系统以变量名 QCL_1 存于原始数据文件中如图 11-5 所示图 11-5 聚类分析最终结果文件在原始数据文件 (图 11-5)中我们可清楚地看到聚类结果参照专业知识将儿童生长发育分期定为第一期出生后至满月增长率最高第二期第 2 个月起至第 3 个月增长率次之第三期第 3 个月起至第 8 个月增长率减缓第四期第 8 个月后增长率显著减缓 11.2.4 快速样本聚类过程 1 K-Means Cluster Analysis 对话框如图 11-2 所示 (1) Variables 分析变量栏 (2) Label Cases 标识变量栏 (3) Number of 框分类数栏系统默认值为 2 (4) Method 栏聚类方法栏 z Iterate and classify 指先定初始类别中心点而后按 K-means 算法作叠代分类 z Classify only 指仅按初始类别中心点分类 (5) 类中心数据的输入与输出在 K-Means Cluster Analysis 主对话框中单击 Centers 按钮展开 Cluster Centers 带有选择类的对话框如图 11-6 所示图 11-6 设置读入初始 /保存结果类中心数据文件的 K-Means Cluster Analysis 主对话框 z Read initial from 复选框要求使用指定数据文件中的观测量作为初始类中心选择此项单击鼠标键后再按其后的 File 按钮显示选择文件的对话框指定文件所在位置路径和文件名按 OK 按钮返回在 Center 选择框中的 File 按钮后面显示文件全名包括路径选择此项需要事先建立一个数据集其中观测量的数目与要聚成的类数相等每个观测量都由参与聚类的变量组成 z 选择 Write final as 复选框要求把聚类结果中的各类中心数据保存到指定的文件中打开的对话框同 Read initial from 类似操作方法也相同 (6) 控制聚类分析过程停止的选择项只有在主对话框中选择了 Iterate and classify 方法进行聚类才可以进一步选择迭代参数在主对话框中单击 Iterate 按钮展开设置迭代参数的对话框如图 11-7 所示 z Maximum Iterations 参数框限定 K-Means 算法的迭代次数改变后面框中的数字图 11-7 指定迭代参数对话框则改变迭代次数当达到限定的迭代次数时即使没有满足收敛判据迭代也停止系统默认值为 10 选择范围为 1 到 999 z Convergence Criterion 参数框指定限定 K-Means 算法的收敛判据其值必须大于等于 0 且小于 1 系统默认值为 0 该项数值为 N 的含义为当两次迭代计算的最小的类中心的变化距离小于初始类中心距离的 N%时迭代停止 z 如果设置了以上两个参数只要在迭代过程中满足了一个参数迭代就停止 Convergence Criterion 设置为 0 就是要求 Maximum Iterations 最大迭代次数为迭代停止的判据 z Use running means 复选框选中该框限定在每个观测量被分配到一类后即刻计算新的类中心如果不选择此项则在完成了所有观测量的一次分配后再计算各类的类中心不选择此项会节省迭代时间 (7) Save New Variables(保存新变量 )对话框如图 11-3 所示 z 选择 Cluster Member 复选框建立一个新变量系统默认变量名为 qxl_1 其值表示聚类结果即各观测量被分配到哪一类其值为 1 2 3…的序号该变量存入输入数据文件中 z 选择 Distance from cluster center 复选框建立一个新变量系统默认变量名为 qcl_2 聚类结束后把各观测量距所属类中心间的欧氏距离存入输入数据文件中 (8) Options 对话框如图 11-4 所示在此对话框中指定要计算的统计量和对带有缺失值得观测量的处理方式 z 在 Statistics 栏中可以选择要求计算和输出的统计量有 Initial cluster centers (初始类中心 )复选框 ANOVA table (方差分析表 )复选框 Cluster information for each case(每个观测量的分类信息 )复选框如分配到哪一类和该观测量距所属类中心的距离 z 在 Missing Values 栏中选择一种处理带有缺失值观测量的方法 Exclude cases listwise 选项将出现在 Variables 变量表中变量带有缺失值得观测量从分析中剔除 Exclude cases pairwise 选项只有当一个观测量的全部聚类变量值均缺失时才将其从分析中剔除否则根据所有其他非缺失变量值把它分配到最近的一类中去 11.3 分层聚类 11.3.1 分层聚类的基本概率聚类的方法有多种除了 11.2 节中介绍的快速聚类法外最常用的是分层聚类法根据聚类过程不同又分为凝聚法和分解法分解法聚类开始把所有个体 (观测量或变量 )都视为属于一大类然后根据距离和相似性逐层分解直到参与聚类的每个个体自成一类为止凝聚法聚类开始把参与聚类的每个个体 (观测量或变量 )视为一类根据两类之间的距离或相似性逐步合并直到合并为一个大类为止无论哪种方法其聚类原则都是近似的聚为一类即距离最近或最相似的聚为一类实际上以上两种方法是方向相反的两种聚类过程 11.3.2 分层聚类的功能与应用调用此过程可完成系统聚类分析在系统聚类分析中用户事先无法确定类别数系统将所有例数均调入内存且可执行不同的聚类算法系统聚类分析有两种形式一是对研究对象本身进行分类称为 Q 型举类另一种是对研究对象的观察指标进行分类称为 R 型聚类通常情况下在聚类进行之前 Proximitice 过程先根据反映各类特性的变量对原始数据进行预处理即利用标准化方法对原始数据进行一次转换并进行相似性测度或距离测度然后 Cluster 过程根据转换后的数据进行聚类分析在 SPSS for Windows 中分层聚类各方法都包含了 Proximitice 过程对数据的处理和 Cluster 过程对数据的分析给出的统计量可以帮助用户确定最好的分类结果 Cluster 过程可以通过 Plot 选择项给出两种统计图 Dendrogram 树形图 Icicle 冰柱图 Cluster 过程的输出项可以选择还可以建立新变量把聚类结果即每个个体被分配到的类号作为新变量的值保存到当前的工作数据文件中 11.3.3 分层聚类的应用示例 [例 11-2] 29 名儿童的血红蛋白 (g/100ml)与微量元素 ( g/100ml)测定结果如表 11-7 所示由于微量元素的测定成本高耗时长故希望通过聚类分析 (即 R 型指标聚类 )筛选代表性指标以便更经济快捷地评价儿童的营养状态表11 -7 儿童的血红蛋白与微量元素的测定结果编号 N0. 钙 X1 镁 X2 铁 X3 锰 X4 铜 X5 血红蛋白 X6 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 54.89 72.49 53.81 64.74 58.80 43.67 54.89 86.12 60.35 54.04 61.23 60.17 69.69 72.28 55.13 70.08 63.05 48.75 52.28 52.21 49.71 61.02 53.68 50.22 65.34 56.39 66.12 73.89 47.31 30.86 42.61 52.86 39.18 37.67 26.18 30.86 43.79 38.20 34.23 37.35 33.67 40.01 40.12 33.02 36.81 35.07 30.53 27.14 36.18 25.43 29.27 28.79 29.17 29.99 29.29 31.93 32.94 28.55 448.70 467.30 425.61 469.80 456.55 395.78 448.70 440.13 394.40 405.60 446.00 383.20 416.70 430.80 445.80 409.80 384.10 342.90 326.29 388.54 331.10 258.94 292.80 292.60 312.80 283.00 344.20 312.50 294.70 0.012 0.008 0.004 0.005 0.012 0.001 0.012 0.017 0.001 0.008 0.022 0.001 0.012 0.000 0.012 0.012 0.000 0.018 0.004 0.024 0.012 0.016 0.048 0.006 0.006 0.016 0.000 0.064 0.005 1.010 1.640 1.220 1.220 1.010 0.594 1.010 1.770 1.140 1.300 1.380 0.914 1.350 1.200 0.918 1.190 0.853 0.924 0.817 1.020 0.897 1.190 1.320 1.040 1.030 1.350 0.689 1.150 0.838 13.50 13.00 13.75 14.00 14.25 12.75 12.50 12.25 12.00 11.75 11.50 11.25 11.00 10.75 10.50 10.25 10.00 9.75 9.50 9.25 9.00 8.75 8.50 8.25 8.00 7.80 7.50 7.25 7.00 建立数据文件定义变量名钙镁铁锰铜和血红蛋白的变量名分别为 x1 x2 x3 x4 x5 x6 之后输入原始数据如图 11-8 所示图 11-8 儿童的血红蛋白与微量元素的测定结果数据文件从 Analyze 菜单 ? Classify 中的 Hierarchical Cluster 项弹出 Hierarchical Cluster Analysis 对话框从对话框左侧的变量列表中选 x1 x2 x3 x4 x5 x6 点击向右的箭头按钮使之进入 Variable(s)框在 Cluster 处选择聚类类型其中 Cases 表示观察对象聚类 Variables 表示变量聚类本例选择 Variables 如图 11-9 所示图 11-9 Hierarchical Cluster Analysis 对话框点击 Statistics 按钮弹出 Hierarchical Cluster Analysis Statistics 对话框选择 Proximty matrix 要求显示欧氏不相似系数平方矩阵如图 11-10 所示点击 Continue 按钮返回 Hierarchical Cluster Analysis 对话框本例要求系统输出聚类结果的树状关系图故点击 Plots 按钮弹出 Hierarchical Cluster Analysis Plots 对话框选择 Dendrogram 项如图 11-11 所示点击 Continue 按钮返回 Hierarchical Cluster Analysis 对话框图 11-10 Statistics 对话框图 11-11 Plots 对话框点击 Method 按钮弹出 Hierarchical Cluster Analysis Method 对话框系统提供了 7 种聚类方法供用户选择本例选择类间平均链锁法 (系统默认方法 ) 对选择距离测量技术时系统提供了 8 种形式供用户选择本例选用 Pearson correlation 如图 11-12 所示点击 Continue 按钮返回 Hierarchical Cluster Analysis 对话框再点击 OK 按钮即完成分析图 11-12 Method 对话框得到结果如表 11-7 到表 11-9 和图 11-13 图 11-14 所示表11 -7 处理数据的基本信息 Cases Valid Missing Total N Percent N Percent N Percent 29 100.0% 0 .0% 29 100.0% a. Correlation between vectors of values used 表11 -8 欧氏不相似系数平方矩阵 Matrix File Input Case X1 X2 X3 X4 X5 X6 X1 X2 X3 X4 X5 X6 .538 .300 .148 .625 .097 .538 .635 -.121 .582 .569 .300 .635 -.271 .265 .863 .148 -.121 -.271 .294 -.323 .625 .582 .265 .294 .248 .097 .569 .863 -.323 .248 表11 -9 聚类的凝聚过程表 Cluster combined Stage cluster First Appears Stage Cluster1 Cluster2 Cluster 1 Cluster2 Next Stage 1 2 3 4 5 3 1 2 1 1 6 5 3 2 4 .863 .625 .602 .338 -.054 0 0 0 2 4 0 0 1 3 0 3 4 4 5 0 Case Number of clusters X4 X6 X3 X2 X5 X1 1 2 3 4 5 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X 图 11-13 聚为五类的冰柱图图 11-14 聚类树形图结果分析如下表 11-7 表 11-8 表 11-9 显示共 29 例样本进入聚类分析采用相关系数测量技术先显示各变量间的相关系数这对于后面选择典型变量是十分有用的然后显示类间平均链锁法的合并进程即第一步 X3 与 X6 被合并它们之间的相关系数最大为 0.863 第二步 X1 与 X5 合并其间相关系数为 0.625 第三步 X2 与第一步的合并项被合并它们之间的相关系数为 0.602 第四步它们与第二步的合并项再合并其间相关系数为 0.338 第五步与最后一个变量 X4 合并这个相关系数最小为 -0.054 图 11-13 显示按类间平均链锁法变量合并过程的冰柱图如下先是 X3 与 X6 合并接着 X1 与 X5 合并然后 X3 X6 与 X2 合并接着再与 X1 X5 合并最后加上 X4 六个变量全部合并图 11-14 显示用更为直观的聚类树状关系图表示即 X1 X2 X3 X5 X6 先聚合后再与 X4 聚合这表明在评价儿童营养状态时可在微量元素钙镁铁铜和血红蛋白 5 个指标中选择一个再加上微量元素锰即可其效果与六个指标都是基本等价的但更经济更迅速 11.3.4 分层聚类过程 1 Hierachical Cluster Analysis 主对话框如图 11-9 所示 (1) Variable s 栏存放分析变量栏 (2) Label Cases 栏存放标识变量 (3) Cluster 栏选择聚类类型 z 选择 Variables 项要进行变量聚类 z 选择 Cases 项要进行观测量聚类 2 Method 对话框如图 11-12 所示用于确定聚类方法在主对话框中用鼠标单击 Method 按钮展开 Method 分层聚类分析的方法选择对话框在对话框中根据需要指定聚类方法距离测度的方法对数值进行转换方法即标准化数值的方法和对测度的转换方法 (l) 聚类方法选择用鼠标对准 Cluster Method 框中的向下箭头按钮单击鼠标键展开方法菜单表中列出可以选择的聚类方法 z Between-groups linkage 类间平均链锁合并两类的结果使所有的两两项对之间的平均距离最小项对的两个成员分别属于不同的类该方法中使用的是各对之间的距离即非最大距离也非最小距离 z Within-groups linkage 类内平均链锁法若当两类合并为一类后合并后的类中的所有项之间的平均距离最小两类间的距离即是合并后的类中所有可能的观测量对之间的距离平方 z Nearest neighbor 最近邻居法该方法首先合并最近的或最相似的两项用两类间最近点间的距离代表两类间的距离 z Furthest neighbor 最远邻居法用两类之间最远点的距离代表两类之间的距离也称之为完全连接法 z Centroid clustering 重心法应与欧氏距离平方法一起使用像计算所有各项均值之间的距离那样计算两类之间的距离该距离随聚类的进行不断减小 z Median clustering 中间距离法应与欧氏距离平方法一起使用 z Ward's method 离差平方和法应与欧氏距离平方法一起使用 (2) 对距离的测度方法选择在 Measure 栏中指定的是用哪两点间的距离决定是否合并两类距离的具体计算方法还根据参与距离的变量类型从以下 3 种对话框选择其一展开选择菜单后再进行具体方法的选择这 3 个对话框分别对应于等间隔测度的变量 (一般为连续变量 ) 计数变量 (一般为离散变量 )和二值变量以下为 3 个对话框及其可选择的距离或不相似性测度方法 z Interval 参数框应用于等间隔测度的变量单击矩形框右侧的向下箭头展开下拉菜单在菜单中选择连续变量距离测度的方法这些方法是 Euclidean distance Euclidean 距离即两观察单位间的距离为其值差的平方和的平方根该技术用于 Q 型聚类 Squared Euclidean distance Euclidean 距离平方即两观察单位间的距离为其值差的平方和该技术用于 Q 型聚类 Cosine 变量矢量的余弦这是模型相似性的度量 Pearson correlation 相关系数距离适用于 R 型聚类 Chebychev Chebychev 距离即两观察单位间的距离为其任意变量的最大绝对差值该技术用于 Q 型聚类 Block City-Block 或 Manhattan 距离即两观察单位间的距离为其值差的绝对值和适用于 Q 型聚类 Minkowski 距离是一个绝对幂的度量即变量绝对值的第 p 次幂之和的平方根 p 由用户指定 Customized 距离是一个绝对幂的度量即变量绝对值的第 p 次幂之和的第 r 次根 p 与 r 由用户指定 z Count 参数框应用于计数变量 (离散变量 ) 单击参数框右侧的向下箭头展开下列两种方法选择不相似性测度的方法 Chi-Square measure 选项卡方测度用卡方值测度不相似性该测度是根据两个集的频数相等的卡方检验测度产生的值是卡方值的平方根这是系统默认的对计数变量的不相似性测度方法是根据被计算的两个观测量或两个变量总频数计算其不相似性期望值来自观测量或变量 (x y)的独立模型 Phi-Square measure 选项两组频数之间的 2 测度该测度试图考虑减少样本量对实际度值的实际预测频率减少的影响该测度把 2 除以联合频数的平方根使不相似性的卡方测度规范化该测度值与被计算不相似性的两个观测量或两个变量的总频数无关 z Binary 参数框应用于二值变量可用单击 Binary参数框右侧的向下箭头展开下拉菜单的方法选择距离或不相似性测度的方法首先应该明确对二值变量系统默认用 1 表示某特性出现 (或发生 ) 用 0 表示特性不出现 (或不发生 ) 对二值变量的相似性或不相似性测度都基于一个四格表如表 11-10 所示表11 -10 四格表第二特性第一特性发生不发生发生 a B 不发生 c d 对二值数据的相似性或不相似性测度或二值距离测度算法很多大致分为以下几类匹配系数的计算包括 RR SM SSI RT JACCARD DICE SS2 KI SS3 与条件概率有关的测度包括 K2 SS4 HAMANN 与预测特性有关的测度包括 Y Q LAMBDA D 其他距离相关等测度包括 BEUCLID BSEUCLID SIZE PA17ERN BSHAPE OCHIANI SS5 PHI 等下面给出各相似性或不相似性测度的选择项的解释 Euclidean distance 选项二值欧氏距离根据四格表计算 SQRT(b 十 c) b 和 c 表示事件在一项中发生在另一项不发生的对角单元其最小值为 0 无上限 Squared Euclidean distance 选项二值欧氏距离平方计算的是不匹配事件的数目其最小值为 0 无上限数值等于 b c Size difference 选项不对称指数其值范围在 0 l 之间 Pattern difference 选项不相似性测度范围为 0 1 之间根据四格表计算 bc/n 2 其中 b 和 c 表示与事件在一项中发生而在另一项中不发生的对角单元 N 是观测量 (或变量 )总数 Variance 选项方差不相似性测度根据四格表计算出 (b c)/4n 其中 b 和 c 表示与事件在一项中发生而在另一项中不发生的对角单元 n 是观测量 (或变量 )总数 Variance 的值范围为 0 l Dispersion 选项是一个相似性指数其范围为 -l 到 l Shape 选项距离测度范围无上下限它不利于匹配的不对称性 Simple matching 选项匹配数对值的总数的比值它给匹配与不匹配以相同的权重 Phi 4-point correlation 选项皮尔逊相关系数二值模拟其值范围为 -l 到 l Lambda 选项是一种相似性测度当预测方向同等重要时该系数估计的是使用一项预测另一项的误差降低的比例其值范围为 0 到 l Anderberg’D 选项该指数取决于用一项预测另一项 (在两个方向上进行预测 )的误差降低的实际数值其值范围为 0 l Dice 选项这是个指数该指数中剔除了联合不发生给匹配的双倍权重 Hamann 选项相似性测度该指数是匹配数减去不匹配数后再除以总项数其值范围是 -1 到 1 Jaccard 选项这也是一个不考虑联合缺席的指数它给匹配与不匹配以相等的权重 Kulczynski 1 选项这是联合出现与非匹配数的比该指数有下界 0 无上界 Kulczynski 2 选项相似性测度该指数根据某特性在一项中出现的条件概率给出在其他项中出现的概率计算该指数时每一项作为其他项的预测值时各值取其平均数 Lane and Williams 选项根据四格表计算 (b c)/(2a b c) 其中 a 表示与事件在两项中都发生相对应的单元 b 和 c 表示事件在一项中发生而在另一项中不发生的对角单元该测度的值的范围为 0 l Ochiai 选项该指数是余弦相似性测度的二元形式范围为 0 l Rogers and Tanimoto 选项是一个给不匹配的双倍权重的指数 Russel and Rao 选项是内积 (点积 )的二元形式对匹配与不匹配都给予相等的权重是二元相似数据的系统默认方法 Sokal and Sneath l 选项是给匹配以双倍权重的一种指数 Sokal and Sneath 2 选项是给不匹配以双倍权重的一种指数而且不考虑联合缺席的情况 Sokal and Sneath 3 选项是匹配与不匹配的比该指数下界为 0 无上界无不匹配的情况是理论上没有定义的当值为未定义或大于 9999 999 时软件给与该指数一个特定常数 9999.999 Sokal and Sneath 4 选项同一匹配状态 (某特性出现或不出现 )在另一项出现或不出现的条件概率计算该指数时每一项作为其他项的预测值时各项值取其平均数该指数范围为 0 l Sokal and Sneath 5 选项该指数是正负匹配的条件概率的几何平均数的平方它独立于项编码其值范围为 0 l Yule’ s Y 选项该指数是 2 2 表交叉比的函数且独立于边际总和范围为 -1 到 l (3) Transform Values 栏确定标准化的方法单击 Transform Values 栏右侧向下的箭头按钮展开标准化方法列表只有等间隔测度的数据 (选择了 Interval)或计数数据 (选择了 Counts)才可以进行标准化对数据进行标准化的可选择的方法有 z None 选项不进行标准化是系统默认值 z Z scores 选项把数值标准化到 Z 分数标准化后变量均值为 0 标准差为 1 系统将每一个值减去正被标准化的变量或观测量的均值再除以其标准差如果标准差为 0 则将所有值置为 0 z Range -1 to 1 选项把数值标准化到 -1 到 +1 范围内选择该项对每个值用正在被标准化的变量或观测量的值的范围去除如果范围为 0 所有值不变 z Maximum magnitude 选项把数值标准化到最大值 1 该方法是把正在标准化的变量或观测量的值用最大值去除如果最大值为 0 则用最小值的绝对值除再加 1 z Range 0 to l 选项把数值标准化到 0 到 1 的范围内对正在被标准化的变量或观测量的值剪去正在被标准化的变量或观测量的最小值然后除以范围如果范围是 0 将所有变量值或观测量值设置为 0.5 z Mean of 1 选项把数值标准化到一个均值的范围内对正在被标准化的变量或观测量的值除以正在被标准化的变量或观测量的值的均值如果均值是 0 对变量或观测量的所有值都加 1 使其均值为 1 z Standard deviation of 1 选项把数值标准化到单位标准差该方法对每个值除以正在被标准化的变量或观测量的标准差如果标准差为 0 则这些值保持不变 (4) Transform Measure 栏测度的转换方法选择栏 z Absolute Values 复选项把距离值取绝对值当数值符号表示相关方向且只对负相关关系感兴趣时使用此方法进行变换 z Change sign 复选项把相似性值变为不相似性值或相反用求反的方法使距离顺序颠倒 z Rescale to 0 1 range 复选项通过首先减去最小值然后除以范围的方法使距离标准化 3 Statistics 对话框选择要求输出的统计量如图 11-10 所示 (1) Agglomeration schedule 复选项凝聚状态表凝聚状态表显示聚类过程中每一步合并的类或观测量被合并的类或观测量之间的距离以及观测量或变量加入到一类的类水平因此可以根据此表跟踪聚类的合并过程因为最接近的两类先聚为一类因此可以通过聚类过程仔细地查看那些观测量更接近一些 (2) Proximity Matrix 复选项各项间的距离矩阵以矩阵形式给出各项之间的距离或相似性测度值产生什么类型的矩阵 (相似性矩阵或不相似性矩阵 )取决于在 Method 对话框中 Measure 栏中的选择如果项数很大 (观测量数或变量数 ) 该选择项产生的输出量也很大 (3) Cluster Membership(类成员栏 ) 显示每个观测量被分派到的类 (即分类结果各观测量属于哪一类 )或显示若干步凝聚过程 z None 选项不显示类成员表是系统默认值 z Single solution 选项要求列出聚为一定类数的各观测量所属的类在该选择项右侧的矩形框中输入限定显示的类数该数值必须是大于 1 小于等于参与聚类的观测量或变量总数的整数例如指定此选择项并且在其后的矩形框中输入了数字 3 则会在输出窗中显示聚为三类时每个观测量属于哪一类 z Range of solutions 选项要求列出某个范围中每一步各观测量所属的类在该选择项右侧的矩形框中输入限定显示的类数范围输入一个最小类数值 (左 )和一个动类数值 (右 ) 这两个数值必须是不等于 1 的正整数最大类数值不能大于参与聚类的观测量数或变量总数 4 Plots 对话框选择统计图表如图 11-11 所示可选择输出的统计图表有两种一个是树形图一个是冰柱图 (1) Dendrogram 复选项树形图 (2) Icicle 冰柱图栏对于生成什么样的冰柱图还可以进一步用以下选择项确定 z All clusters 选项聚类的每一步都表现在图中可用此种图查看聚类的全过程但如果参与聚类的个体很多会造成图过大没有必要可以使用下面一个选择项限定显示的范围 z Specified range of clusters 选项指定显示的聚类范围当选择此项时该项下面的选择框加亮表示等待输入显示范围在 Start 后的矩形框中输入要求显示聚类过程的起始步数在 Stop 后的矩形框中输入显示中止于哪一步把显示的两步之间的增量输入到 By 后面的矩形框中输入到矩形框中的数字必须是正整数 z None 不生成冰柱图 (3) 对于显示方向可以在 Orientation 栏中确定 z Vertical 选项纵向显示的冰柱图 z Horizontal 选项显示水平的冰柱图 5 Save New Variables 保存新变量对话框如图 11-15 所示聚类分析的结果可以用新变量保存在工作数据文件中单击主对话框的 Save 按钮展开相应的对话框如图 11-15 所示 z None 选项不建立新变量 z Single solution 选项即单一结果生成一个新变量表明每个个体聚类最后所属的类在该项后面的矩形框中指定类数 z Range of solutions 选项即指定范围内的结果生成若干个新变量表明聚为若干个类时每个个体聚类后所属的类在该项后面的矩形框中指定显示范围即把表示从第几类显示到第几类的数字分别输入到后面的矩形框和 thred 后面的矩形框中 6 执行 Cluster 过程点击主对话框中的 OK 按钮即可图 11-15 Save New Variables 对话框 11.4 判别分析 11.4.1 判别分析的基本概念判别分析是一种常用的统计分析方法判别分析是根据观察或测量到若干变量值判断研究对象如何分类的方法例如医学实践中根据各种化验结果疾病症状体征判断患者患的是什么疾病体育选材中根据运动员的体形运动成绩生理指标心理素质指标遗传因素判断是否选入运动队继续培养动物植物分类等都可以用判别分析来解决是应用计算机进行运动员选材动物植物分类以及疾病辅助诊断的主要统计学基础进行判别分析必须已知观测对象的分类和若干表明观测对象特征的变量值判别分析就是要从中筛选出能提供较多信息的变量并建立判别函数使得利用推导出的判别函数对观测量判别其所属类别时的错判率最小判别函数一般形式是 Y a 1 x 1 + a 2 x 2 +……+ a n x n 其中 Y为判别分数判别值 X 1 X 2 X 3 为反映研究对象特征的变量 a l a 2 a 3 a n 为各变量的系数也称判别系数 SPSS for Windows 对于分为 m 类的研究对象建立 m 个线性判别函数对每个个体进行判别时把测试的各变量值代入判别函数得出判别分数从而确定该个体属于哪一类或者计算属于各类的概率从而判断该个体属于哪一类还建立标准化和未标准化的典则判别函数 11.4.2 判别分析的功能与应用 SPSS for Windows 提供的判别分析过程是 Discriminant 过程 Discriminant 过程根据已知的观测量分类和表明观测量特征的变量值推导出判别函数并把各观测量的自变量值回代到判别函数中根据判别函数对观测量所属类别进行判别对比原始数据的分类和技判别函数所判的分类给出错分概率判别分析可以根据类间协方差矩阵也可以根据类内协方差矩阵每一已知类的先验概率可以取其值相等即等于 1/mi m 为已知类数也可以与各类样本量成正比判别分析可以根据要求给出各类观测量的单变量的描述统计量线性 (费雪 Fisher) 判别函数系数或标准化及本标准化的典则判别函数的系数类内相关矩阵类内类间协方差矩阵和总协方差矩阵给出按判别函数判别 (回代 )的各观测量所属类别带有错分率的判别分析小结还可以根据要求生成表明各类分布的区域图和散点图如果希望把部分聚类结果存入文件还可以在工作数据文件中建立新变量表明观测量按判别函数分派的类别按判别函数计算的判别分数和分到各类去的概率 Discriminant 过程的大部分功能都可以通过对话框来指定还有一些功能可以在 Syntax 窗中给予补充或修改 11.4.3 判别分析的应用示例 [例 11-3]为研究舒张期血压和血浆胆固醇对冠心病的作用某医师测定了 50~59 岁冠心病人 15 例和正常人 16 例的舒张压和胆固醇指标结果如表 11-11 所示试作判别分析建立判别函数以便在临床中用于筛选冠心病人表11 -11 舒张压和胆固醇指标数据表冠心病人组正常人组编号舒张压 kPa x1 胆固醇 mmol/L x2 编号舒张压 kPa x1 胆固醇 mmol/L x2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 9.86 13.33 14.66 9.33 12.80 10.66 10.66 13.33 13.33 13.33 12.00 14.66 13.33 12.80 13.33 5.18 3.73 3.89 7.10 5.49 4.09 4.45 3.63 5.96 5.70 6.19 4.01 4.01 3.63 5.96 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 10.66 12.53 13.33 9.33 10.66 10.66 9.33 10.66 10.66 10.66 10.40 9.33 10.66 10.66 11.20 9.33 2.07 4.45 3.06 3.94 4.45 4.92 3.68 2.77 3.21 5.02 3.94 4.92 2.69 2.43 3.42 3.63 建立数据文件如图 11-16 所示舒张压胆固醇的变量名分别以 x1 x2 表示将冠心病人资料和正常人资料合并一同输入而后再定义一变量名为 result 用于区分冠心病人资料和正常人资料即冠心病人资料的 result 值均为 1 正常人资料的 result 值均为 2 图 11-16 舒张压和胆固醇指标数据文件从 Analyze 菜单 ? Classify ? Discriminant 项弹出 Discriminant Analysis 对话框如图 11-17 所示从对话框左侧的变量列表中选 result 点击向右的箭头按钮使之进入 Grouping Variable 框并点击 Define Range 钮在弹出的 Discriminant Analysis Define Range 对话框如图 11-18 所示中定义判别原始数据的类别区间本例为两类故在 Minimum 处输入 1 在 Maximum 处输入 2 点击 Continue 钮返回 Discriminant Analysis 对话框再从对话框左侧的变量列表中选 x1 x2 点击向右的箭头按钮使之进入 Independents 框作为判别分析的基础数据变量系统提供两类判别方式供选择一类是 Enter Independent together 即判别的原始变量全部进入判别方程另一类是 Use stepwise method 即采用逐步的方法选择变量进入方程本例由于变量数仅为 2 个倾向让两个变量均进入方程故选用 Enter Independent together 判别方式图 11-17 Discriminant Analysis 主对话框图 11-18 Define Range 对话框点击 Statistics 按钮弹出 Discriminant Analysis Statistics 对话框在 Descriptive 栏中选 Means 项要求对各组的各变量作均数与标准差的描述在 Function Coefficients 栏中选 Unstandardized 项要求显示判别方程的非标准化系数如图 11-19 所示之后点击 Continue 按钮返回 Discriminant Analysis 对话框图 11-19 Statistics 对话框点击 Classify 按钮弹出 Discriminant Analysis Classification 对话框在 Plot 栏选 Combined groups 项要求作合并的判别结果分布图在 Display 栏中选 Casewise Results 项要求对原始资料根据建立的判别方程作逐一回代重判别同时选 Summary table 项要求对这种回代判别结果进行总结评价如图 11-20 所示之后点击 Continue 按钮返回 Discriminant Analysis 对话框图 11-20 Classification 对话框点击 Save 按钮弹出 Discriminant Analysis Save New Variables 对话框选 Predicted group membership 项要求将回代判别的结果存入原始数据库中如图 11-21 所示点击 Continue 按钮返回 Discriminant Analysis 对话框之后再点击 OK 按钮即完成分析图 11-21 Save 对话框得到结果如表 11-12 到表 11-17 表11 -12 数据分析过程简明表 Unweighted Cases N Percent Valid Excluded Missing or Out-of-range group Codes At least one missing discriminating variable Both missing or Out-of-range group Codes and at least one Missing discriminating Variable Total 31 0 0 0 0 31 100.0 .0 .0 .0 .0 100.0 表11 -13 统计量基本信息 Valid N (listwise) RESULT Mean Std.Deviation Unweighted Weighted 1 X1 X2 12.4940 4.8680 1.6406 1.1295 15 15 15.000 15.000 2 X1 X2 10.6287 3.6625 1.0968 .9247 16 16 16.000 16.000 Total X1 X2 11.5313 4.2458 1.6600 1.1823 31 31 31.000 31.000 表11 -14 典型判别函数特征值表 (包括 6 个表 ) Function Eigenvalue % of Variance Cumulative % Canonical Correlation 1 1.239 a 100.0 100.0 .744 a. First 1 canonical discriminant functions were used in the analysis. a Test of Function(s) Wilks’ Lambda Chi-square df Sig. 1 .447 22.571 2 .000 b Function 1 X1 X2 .884 .823 c Function 1 X1 X2 .625 .544 Pooled within-groups correlations between discriminating variables and standardized canonical discriminant functions variables or dered by absolute size of correlation within functiodn. d Function 1 X1 X2 (Constant) .638 .800 -10.753 Unstandardized coeffic: e Function RESULT 1 1 2 1.112 -1.042 Unstandardized canonical discrimiua functions evaluated at group means f 表11 -15 用判别函数对观测量分类的结果 (共有 2 表 ) Processed Exluded Missing or Out-of-range grou Codes At least one miss Discriminating Variable Used in Output 31 0 0 31 a Cases Used in Analysis RESULT Prior Unwei ghted Weighted 1 2 Total .500 .500 1.000 15 16 31 15.000 16.000 31.000 b 表11 -16 对原始数据逐一进行判别分析 Casewise Statistics 1 2** .469 1 .682 .524 1 .318 2.047 -.319 1 1 .706 1 .819 .142 2 .181 3.158 .735 1 1 .549 1 .974 .359 2 .026 7.583 1.711 1 1 .816 1 .861 .054 2 .139 3.694 .880 1 1 .488 1 .978 .480 2 .022 8.107 1.805 1 2** .717 1 .824 .131 1 .176 3.213 -.680 1 2** .516 1 .715 .423 1 .285 2.263 -.392 1 1 .647 1 .792 .209 2 .208 2.880 .655 1 1 .159 1 .995 1.980 2 .005 12.684 2.519 1 1 .231 1 .993 1.438 2 .007 11.246 2.311 1 1 .458 1 .981 .552 2 .019 8.393 1.855 1 1 .487 1 .979 .483 2 .021 8.121 1.807 1 1 .878 1 .880 .023 2 .120 4.005 .959 1 1 .426 1 .647 .633 2 .353 1.847 .317 1 1 .159 1 .995 1.980 2 .005 12.684 2.519 2 2 .210 1 .993 1.573 1 .007 11.620 -2.297 2 1** .755 1 .839 .097 2 .161 3.396 .800 2 1** .361 1 .587 .834 2 .413 1.540 .199 2 2 .544 1 .974 .368 1 .026 7.623 -1.649 2 2 .516 1 .715 .423 1 .285 2.263 -.392 2 2 .305 1 .528 1.053 1 .472 1.273 -.016 2 2 .415 1 .983 .663 1 .017 8.815 -1.857 2 2 .488 1 .978 .482 1 .022 8.115 -1.737 2 2 .732 1 .955 .117 1 .045 6.233 -1.385 2 1** .294 1 .516 1.099 2 .484 1.224 .064 2 2 .939 1 .896 .006 1 .104 4.319 -.966 2 2 .859 1 .874 .032 1 .126 3.908 -.865 2 2 .448 1 .981 .575 1 .019 8.484 -1.801 2 2 .334 1 .988 .934 1 .012 9.739 -2.009 2 2 .865 1 .876 .029 1 .124 3.937 -.872 2 2 .393 1 .985 .730 1 .015 9.054 -1.897 C a s e N u m b e r 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 Original Actual Group Predict ed Group p d f P(D>d | G=g) P(G=g | D=d) Squared Mahalano bis Distance to Centroid Highest Group G r o u p P(G=g | D=d) Squared Mahalan obis Distanc e to Centroi d Second Highest Group Function 1 Discrimi nant Scores Misclassified case **. 表11 -17 预测分类结果小结 Predicted Group Membership RESULT 1 2 Total Count 1 2 12 3 3 13 15 16 Origina % 1 2 80.0 18.8 20.0 81.3 100.0 100.0 a. 80.6% of original grouped cases correctly classified. 图 11-22 增加表示回归判别结果的新变量的数据文件分析结果如下表 11-12 表 11-13 显示系统处理数据简明表数据按变量 RESULT 分组共有 31 个样本作为判别基础数据进入分析其中第一组 15 例第二组 16 例同时分组给出各变量的均数 (means)与标准差 (standard deviations) 表 11-14 为典型判别方程的方差分析结果其特征值 (Eigenvalue)即组间平方和与组内平方和之比为 1.239 典型相关系数 (Canonical Corr)为 0.744 Wilks 值为 0.447 经 2 检验 2 为 22.571 P<0.000 用户可通过判别方程的标准化系数确定各变量对结果的作用大小如本例舒张压 (X1) 的标准化系数 (0.884)大于胆固醇 (X2)的标准化系数 (0.823) 因而舒张压对冠心病的影响作用大于胆固醇考察变量作用大小的另一途径是使用变量与函数间的相关系数本例显示 X1 的变量与函数间的相关系数为 0.625 X2 为 0.544 同样表明舒张压对冠心病的影响作用大于胆固醇表 11-15 和表 11-16 为原始数据逐一回代的判别结果和预测分类结果的显示其中病人组有 3 人被错判 (编号为 1 6 7 打 **者 ) 正常人组有 3 人被错判 (编号为 17 18 25 打 **者 ) 接着用分布图的形式显示判别结果图中 1 代表病人 2 代表正常人每四个 1 或 2 代表一个人图中可见有三个病人跨过 0 界进入负值区被错判为正常人也有三个正常人跨过 0 界进入正值区被错判为病人最后系统对回代判别的情况作评价即病人组判别正确率为 80.0% 正常人组为 81.3% 总判别正确率为 80.65% 根据系统显示的非标准化判别方程系数得到判别方程为 D=0.638X1 + 0.800X2 - 10.753 依此方程病人组的中心得分点为 1.112 正常人组的中心得分点为 -1.042 本例为二类判别二类判别以 0 为分界点若将某人的舒张压和胆固醇值代入判别方程求出的判别分 >0 的为冠心病人判别分 <0 的为正常人图 11-22 显示系统提示将判别回代的结果以变量名 DIS_1 存于原始数据库中 11.4.4 判别分析过程 1 Discriminant Analysis 判别分析主对话框如图 11-17 所示 (1) 选择分类变量及其范围在主对话框中左面的矩形框中选择表明已知的观测量所属类别的变量 (一定是离散变量 ) 按上面的一个向右的箭头按钮使该变量名移到右面的 Grouping Variable 框中此时矩形框下面的 Define Range 按钮加亮按该按钮屏幕显示一个小对话框如图 11-18 所示供指定该分类变量的数值范围在 Minimum 框中输入该分类变量的最小值在 Maximum 框中输入该分类变量的最大值按 Continue 按钮返回主对话框 (2) 指定判别分析的自变量在主对话框的左面的变量表中选择表明观测量特征的变量按下面一个箭头按钮把选中的变量移到 Independents 矩形框中作为参与判别分析的变量 (3) 选择观测量如果希望使用一部分观测量进行判别函数的推导而且有一个变量的某个值可以作为这些观测量的标识则用 Select 功能进行选择操作方法是单击 Select 按钮展开 Selection Variable 选择框如图 11-23 所示并从变量列表框中选择变量移入该框中再单击 Selection Variable 选择框右侧的 Value 按钮展开 Set Value(子对话框 )对话框如图 11-24 所示键入标识参与分析的观测量所具有的该变量值一般均使用数据文件中的所有合法观测量此步骤可以省略 (4) 选择分析方法在主对话框中自变量矩形框下面有两个选择项被选中的方法前面的圆圈中加有黑点这两个选择项是用于选择判别分析方法的 z Enter independent together 选项当认为所有自变量都能对观测量特性提供丰富的信息时使用该选择项选择该项将不加选择地使用所有自变量进行判别分析建立全模型不需要进一步进行选择 z Use stepwise method 选项当不认为所有自变量都能对观测量特性提供丰富的信息时使用该选择项因此需要判别贡献的大小再进行选择当鼠标单击该项时 Method 按钮加亮可以进一步选择判别分析方法图 11-23 展开 Selection Variable 对话框的主对话框图 11-24 Set Value 子对话框 2 Method 对话框如图 11-25 所示单击 Method 按钮展开 Stepwise Method 对话框图 11-25 Stepwise Method 对话框 (1) Method 栏选择进行逐步判别分析的方法可供选择的判别分析方法有 z Wilks’lambda 选项每步都是 Wilk 的概计量最小的进入判别函数 z Unexplained variance 选项每步都是使各类不可解释的方差和最小的变量进入判别函数 z Mahalanobis’distance 选项每步都使靠得最近的两类间的 Mahalanobis 距离最大的变量进入判别函数 z Smallest F ratio 选项每步都使任何两类间的最小的 F 值最大的变量进入判刑函数 z Rao’s V 选项每步都会使 Rao V 统计量产生最大增量的变量进入判别函数可以对一个要加入到模型中的变量的 V 值指定一个最小增量选择此种方法后应该在该项下面的 V-to-enter 后的矩形框中输入这个增量的指定值当某变量导致的 V 值增量大于指定值的变量后进入判别函数 (2) Criteria 栏选择逐步判别停止的判据可供选择的判据有 z Use F value 选项使用 F 值是系统默认的判据当加人一个变量 (或剔除一个变量 )后对在判别函数中的变量进行方差分析当计算的 F 值大于指定的 Entry 值时该变量保留在函数中默认值是 Entry 为 3.84 当该变量使计算的 F 值小于指定的 Removal 值时该变量从函数中剔除默认值是 Removal 为 2.71 即当被加入的变量 F 值为 3.84 时才把该变量加入到模型中否则变量不能进入模型或者当要从模型中移出的变量 F 值 2.71 时该变量才被移出模型否则模型中的变量不会被移出设置这两个值时应该注意 Entry 值 Removal 值 z Use Probability of F 选项用 F检验的概率决定变量是否加入函数或被剔除而不是用 F 值加入变量的 F 值概率的默认值是 0.05(5 ) 移出变量的 F 值概率是 0.10(10 ) Removal 值 (移出变量的 F 值概率 ) Entry 值 (加入变量的 F 值概率 ) (3) Display 栏显示选择的内容对于逐步选择变量的过程和最后结果的显示可以通过 Display 栏中的两项进行选择 z Summary of steps 复选项要求在逐步选择变量过程中的每一步之后显示每个变量的统计量 z F for Pairwise distances 复选项要求显示两两类之间的两两 F 值矩阵 3 Statistics 对话框指定输出的统计量如图 11-19 所示可以选择的输出统计量分为以下 3 类 (l) 描述统计量在 Descriptives 栏中选择对原始数据的描述统计量的输出 z Means 复选项可以输出各类中各自变量的均值 MEAN 标准差 std Dev 和各自变量总样本的均值和标准差 z Univariate ANOV 复选项对各类中同一自变量均值都相等的假设进行检验输出单变量的方差分析结果 z Box’s M 复选项对各类的协方差矩阵相等的假设进行检验如果样本足够大表明差异不显著的 p 值表明矩阵差异不明显 (2) Function coefficients 栏选择判别函数系数的输出形式 z Fisherh’s 复选项可以直接用于对新样本进行判别分类的费雪系数对每一类给出一组系数并给出该组中判别分数最大的观测量 z Unstandardized 复选项未经标准化处理的判别系数 (3) Matrices 栏选择自变量的系数矩阵 z Within-groups correlation matrix 复选项即类内相关矩阵它是根据在计算相关矩阵之前将各组 (类 )协方差矩阵平均后计算类内相关矩阵 z Within-groups covariance matrix 复选项即计算并显示合并类内协方差矩阵是将各组 (类 )协方差矩阵平均后计算的区别于总协方差阵 z Separate-groups covariance matrices 复选项对每类输出显示一个协方差矩阵 z Total covariance matrix 复选项计算并显示总样本的协方差矩阵 4 Classification 对话框指定分类参数和判别结果如图 11-20 所示在主对话框中单击 Classify 按钮展开相应的对话框 (1) 在 Prior Probabilities 栏中选择先验概率两者选其一 z All groups equal 选项各类先验概率相等若分为 m类则各类先验概率均为 1/m z Compute from groups sizes 选项由各类的样本量计算决定即各类的先验概率与其样本量成正比 (2) Use Covariance Matrix 栏选择分类使用的协方差矩阵 z Within-groups 选项指定使用合并组内协方差矩阵进行分类 z Separate-groups 选项指定使用各组协方差矩阵进行分类由于分类是根据判别函数而不是根据原始变量因此该选择项不是总等价于二次判别 (3) Plots 栏选择要求输出的统计图 z Combined-groups 复选项生成一张包括各类的散点图该散点图是根据前两个判别函数值作的散点图如果只有一个判别函数就输出直方图 z Separate-groups 复选项根据前两个判别函数值对每一类生成一张激点图共分为几类就生成几张散点图如果只有一个判别函数就输出直方图 z Territorial map 复选项生成用于根据函数值把观测量分到各组中去的边界图此种统计图把一张图的平面划分出与类数相同的区域每一类占据一个区各类的均值在各区中用 *号标出如果仅有一个判别函数则不作此图 (4) Display 栏选择生成到输出窗中的分类结果 z Casewise results 复选项要求输出每个观测量包括判别分数实际类预测类 (根据判别函数求得的分类结果 )和后验概率等选择此项还可以选择其附属选择项 Limits cases to 复选项并在后面的小矩形框中输入观测量数 n 选择此项则仅对前 n 个观测量输出分类结果观测数量大时可以选择此项 z Summary table 复选项要求输出分类的小结给出正确分类观测量数 (原始类和根据判别函数计算的预测类相同 )和错分观测量数和错分率 z Leave-one-out classification 复选项输出对每个观测量进行分类的结果所依据的判别是由除该观测量以外的其他观测量导出的也称为交互校验结果 (5) 在 Classification 对话框的最下面有一个选择项用以选择对缺失值的处理方法选中 Replace missing value with mean 复选项即用该变量的均值代替缺失值该选择项前面的小矩形框中出现 “ ”时表示选定所示的处理方法 5 Save 对话框指定生成并保存在数据文件中的新变量如图 11-21 所示 (1) Predicted group membership 复选项要求建立一个新变量预测观测量的分类是根据判别分数把观测量按后验概率最大指派所属的类每运行一次 Discriminant 过程就建立一个表明使用判别函数预测各观测量属于哪一类的新变量第 1 次运行建立新变量的变量名为 dis_l 如果在工作数据文件中不把前一次建立的新变量删除第 n 次运行 Descriminant 过程建立的新变量默认的变量名为 dis_n (2) Discriminant score 复选项要求建立表明判别分数的新变量该分数是由未标准化的判别系数乘自变量的值将这些乘积求和后加上常数得来每次运行 Discriminant 过程都给出一组表明判别分数的新变量建立几个判别函数就有几个判别分数变量参与分析的观测量共分为 m 类则建立 m 个典则判别函数指定该选择项就可以生成 m-l 个表明判别分数的新变量 (3) Probabilities of group membership 复选项要求建立新变量表明观测量属于某一类的概率有 m 类对一个观测量就会给出 m 个概率值因此建立 m 个新变量 6 选择好各选择项之后点击 OK 按钮提交运行 Discriminant 过程思考题 1 理解聚类和判别的作用和意义区别它们之间的异同之处学会判断什么时候使用聚类什么时候使用判别的方法 2 区别快速样本聚类和分层聚类应用范围的差异 3 学会利用假设检验概率判断聚类是否有效 4 针对本章实例中出现的聚类树形图或聚类冰柱图理解聚类分析过程第1 2 章因子分析导言因子分析是将多个实测变量简化为较少变量的方法利用因子分析能简化分析更能反映事物的本质学习因子分析能确定那些变量应该保留那些应该剔除并能得到主要成分的表达式这些表达式是原有变量的线性组合而用这些主要成分便能代替原来众多的实测变量 12.1 因子分析和因子分析 Factor 过程简介因子分析是将多个实测变量转换为少数几个不相关的综合指标的多元统计分析方法线性综合指标往往是不能直接观测到的但它更能反映事物的本质因此在医学心理学经济学等科学领域以及社会生产中因子分析都得到了应用 12.1.1 因子分析的基本概念在各个领域的科学研究中往往需要对反映事物的多个变量进行大量的观测收集大量数据以便进行分析寻找规律多变量大样本无疑会为科学研究提供丰富的信息但也在一定程度上增加了数据采集的工作量更重要的是在大多数情况下许多变量之间可能存在相关性从而增加了问题分析的复杂性由于各变量间存在一定的相关关系因此有可能用较少的综合指标分别综合存在于各变量中的各类信息而综合指标之间彼此不相关即各指标代表的信息不重叠这样就可以对综合指标根据专业知识和指标所反映的独特含义给予命名这种分析方法称为因子分析代表各类信息的综合指标就称为因子或主成份根据因子分析的目的我们知道综合指标应该比原始变量少但包含的信息量应该相对损失较少设原始变量 X1 X2 X3 X4 Xm 主成份 Z1 Z2 Z3 Z4 Zn 则各因子与原始变量之间的关系可以表示成 X1 b ll Z1 b 12 Z2 b 13 Z3 b ln Zn e 1 X2 b 2l Z1 b 22 Z2 b 23 Z3 b 2n Zn e 2 X3 b 3l Z1 b 32 Z2 b 33 Z3 b 3n Zn e 3 …… Xm b ml Z1 b m2 Z2 b m3 Z3 b mn Zn e m 写成矩阵形式为 X BZ E 其值 X 为原始变量向量 B 为公因子负荷系数矩阵 Z 为公因子向量 E 为残差向量因子分析的任务就是求出公因子负荷系数和残差如果残差 E 的影响很小可以忽略不计数学模型变为 X BZ 如果 Z 中各分量之间彼此不相关形成特殊形式的因子分析称为主成份分析主成份分析的目的是把系数矩阵 A 求出因子分析的一个重要目的还在于对原始变量进行分门别类的综合评价如果因子分析结果保证了因子之间的正交性 (不相关 )但对因子不易命名还可以通过对因子模型的旋转变换使公因子负荷系数向更大 (向 1)或更小 (向 0)方向变化使得对公因子的命名和解释变得更加容易进行正交变换可以保证变换后各因子仍正交这是比较理想的情况如果经过正交变换后对公因子仍然不易解释也可以进行斜交旋转或许可以得到比较容易解释的结果 12.1.2 因子分析 Factor 过程简介 SPSS for Windows 使用 FACTOR 过程进行因子分析从菜单 Analyze ? Data Reduction ? Factor 可以通过对话框指定因子提取的方法以及控制因子提取进程的参数可以指定旋转方法可以对参与因子分析的变量给出描述统计量指定输出负荷矩阵的格式还可以产生其值为因子得分的新变量并将其保存在数据文件中使用 FACTOR 过程的命令语句和一系列 1 一个命令完成多种方法的分析对一种因子提取结果的多种旋转 2 指定在提取因子及旋转时的迭代的收敛判据控制因子提取及旋转的进程 3 指定产生单个的旋转因子散点图 4 具体指定保存多少个因子得分 5 把相关矩阵或因子负荷矩阵写到磁盘上以便进一步分析 6 指定主轴因子法的对角线上的值 7 从磁盘读取相关矩阵或因子负荷矩阵并进一步分析 12.2 因子分析 12.2.1 因子分析的功能与应用由于在实际工作中指标间经常具备一定的相关性故人们希望用较少的指标代替原来较多的指标但依然能反映原有的全部信息于是就产生了主成分分析对应分析典型相关分析和因子分析等方法调用 Data Reduction 菜单的 Factor 过程命令项可对多指标或多因素资料进行因子分析因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系即将相关比较密切的几个变量归在同一类中每一类变量就成为一个因子 (之所以称其为因子是因为它是不可观测的即不是具体的变量这与上一章的聚类分析不同 ) 以较少的几个因子反映原资料的大部分信息 12.2.2 因子分析的应用示例 [例 12-1] 表 12-1 为 25 名健康人的 7 项生化检验结果 7 项生化检验指标依次命名为 X1 至 X7 请对该资料进行因子分析表1 2-1 数据表格 X1 X2 X3 X4 X5 X6 X7 3.76 8.59 6.22 7.57 9.03 5.51 3.27 8.74 9.64 9.73 8.59 7.12 4.69 5.51 1.66 5.90 9.84 8.39 4.94 7.23 9.46 9.55 4.94 8.21 9.41 3.66 4.99 6.14 7.28 7.08 3.98 0.62 7.00 9.49 1.33 2.98 5.49 3.01 1.34 1.61 5.76 9.27 4.92 4.38 2.30 7.31 5.35 4.52 3.08 6.44 0.54 1.34 4.52 7.07 2.59 1.30 0.44 3.31 1.03 1.00 1.17 3.68 2.17 1.27 1.57 1.55 1.51 2.54 1.03 1.77 1.04 4.25 4.50 2.42 5.11 5.28 10.02 9.84 12.66 11.76 6.92 3.36 11.68 13.57 9.87 9.17 9.72 5.98 5.81 2.80 8.84 13.60 10.05 6.68 7.79 12.00 11.74 8.07 9.10 12.50 9.77 7.50 2.17 1.79 4.54 5.33 7.63 3.53 13.13 9.87 7.85 2.64 2.76 4.57 1.78 5.40 9.02 3.96 6.49 4.39 11.58 2.77 1.79 3.75 2.45 13.74 10.16 2.73 2.10 6.22 7.30 8.84 4.76 18.52 11.06 9.91 3.43 3.55 5.38 2.09 7.50 12.67 5.24 9.06 5.37 16.18 3.51 2.10 4.66 3.10 4.78 2.13 1.09 0.82 1.28 2.40 8.39 1.12 2.35 3.70 2.62 1.19 2.01 3.43 3.72 1.97 1.75 1.43 2.81 2.27 2.42 1.05 1.29 1.72 0.91 建立数据文件定义变量名分别为 X1 X2 X3 X4 X5 X6 X7 按顺序输入相应数值如图 12-1 所示图 12-1 数据文件从 Analyze ? Data Reduction ? Factor 弹出 Factor Analysis 对话框在对话框左侧的变量列表中选变量 X1 至 X7 点击向右的箭头按钮使之进入 Variables 框如图 12-2 所示图 12-2 Factor Analysis(因子分析主 )对话框点击 Descriptives 按钮弹出 Factor Analysis Descriptives 对话框在 Statistics 中选 Univariate descriptives 项要求输出各变量的均数与标准差在 Correlation Matrix 栏内选 Coefficients 项要求计算相关系数矩阵并选 KMO and Bartlett’s test of sphericity 项要求对相关系数矩阵进行统计学检验如图 12-3 所示点击 Continue 按钮返回 Factor Analysis 对话框点击 Rotation 按钮弹出 Factor Analysis Rotation 对话框系统有 5 种因子旋转方法可选旋转的目的是为了获得简单结构以帮助我们解释因子本例选 Varimax 正交旋转法之后点击 Continue 按钮如图 12-4 所示返回 Factor Analysis 对话框图 12-3 Descriptives 对话框图 12-4 Rotation 对话框点击 Extraction 按钮弹出 Factor Analysis:Extraction 对话框本例选用 Principal components 方法如图 12-5 所示之后点击 Continue 按钮返回 Factor Analysis 对话框图 12-5 Extraction 对话框点击 Scores 按钮弹出 Factor Analysis Scores 对话框系统提供 3 种估计因子得分系数的方法本例选 Regression 回归因子得分如图 12-6 所示之后点击 Continue 按钮返回 Factor Analysis 对话框再点击 OK 按钮即完成分析图 12-6 Factor Scores 对话框得到结果如下表 12-2 到表 12-9 和图 12-7 所示表1 2-2 描述统计量 Mean Std.Deviation Analysis N X1 X2 X3 X4 X5 X6 X7 7.1000 4.7732 2.3488 9.1524 5.4584 7.1672 2.3460 2.3238 2.4178 1.6656 3.0141 3.2734 4.5582 1.6109 25 25 25 25 25 25 25 表1 2-3 相关矩阵 X1 X2 X3 X4 X5 X6 X7 Correlation X1 X2 X3 X4 X5 X6 X7 1.000 .580 .201 .909 .283 .287 -.533 .580 1.000 .364 .837 .166 .261 -.608 .201 .364 1.000 .436 -.704 -.681 -.649 .909 .837 .436 1.000 .163 .203 -.678 .283 .166 -.704 .163 1.000 .990 .427 .287 .261 -.681 .203 .990 1.000 .357 -.533 -.608 -.649 -.678 .427 .357 1.000 表1 2-4 相关矩阵 Kaiser-Meyer-01kin measure of sampling Adequacy. Bartlett’s Test of Approx. chi-Square Sphericity df Sig. .321 326.285 21 .000 表1 2-5 完全变量解释 Initial Eigenvalues Extraction Sums of squared Loadings Rotation Sums of squared Loadings component Total % of Variance Cumula- tive % Total % of Variance Cumul- ative% Total % of Variance Cumula - tive% 1 2 3 4 5 6 7 3.395 2.806 .436 .276 .081 .004 .000 48.503 40.090 6.236 3.946 1.160 5.95E-02 5.81E-3 48.503 88.593 94.828 98.775 99.935 99.994 100.000 3.395 2.806 48.503 40.090 48.503 88.593 3.306 2.895 47.231 41.361 47.231 88.593 Extraction Method:Principal Comonent Analysis. 表1 2-6 变量的共同度 Initial Extraction X1 X2 X3 X4 X5 X6 X7 1.000 1.000 1.000 1.000 1.000 1.000 1.000 .797 .773 .859 .980 .983 .976 .834 Extraction Method: Principal Component Analysis. 表1 2-7 旋转前的因子主成分提取结果 Component 1 2 X1 X2 X3 X4 X5 X6 X7 .746 .796 .709 .911 -.234 -.177 -.886 .489 .372 -597 .389 .963 .972 .219 Extraction Method: Principal Component Analysis. a.2 components extracted. 表1 2-8 旋转后的因子主成分负荷矩阵 Component 1 2 X1 X2 X3 X4 X5 X6 X7 .878 .878 .421 .990 .159 .215 .732 .161 3.332E-02 -.826 4.135E-03 .979 .964 .547 Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization a. Rotation converged in 3 iterations. 表1 2-9 因子旋转矩阵 Component 1 2 1 2 .921 .389 -.389 .921 Extraction Method: Principal Component A Rotation Method: Varimax with Kaiser Nor 图 12-7 保存表明各观测量的两个因子得分的新变量的数据文件结果分析如下表 12-2 表 12-3 表 12-4 显示系统首先输出各变量的均数 (Mean)与标准差 (Std Dev) 并显示共有 25 例观察单位进入分析接着输出相关系数矩阵 (Correlation Matrix) 经 Bartlett 检验表明 Bartlett 值 =326.285 P<0.0001 即相关矩阵不是一个单位矩阵故考虑进行因子分析 Kaiser-Meyer-Olkin Measure of Sampling Adequacy 是用于比较观测相关系数值与偏相关系数值的一个指标其值愈逼近 1 表明对这些变量进行因子分析的效果愈好今 KMO 值 =0.321 偏小意味着因子分析的结果可能不能接受表 12-5 表 12-6 和表 12-7 显示使用主成分分析法得到 2 个因子因子矩阵 (Factor Matrix)如下变量与某一因子的联系系数绝对值越大则该因子与变量关系越近如本例变量 X7 与第一因子的值为 -0.886 与第二因子的值为 0.219 可见其与第一因子更近与第二因子更远或者因子矩阵也可以作为因子贡献大小的度量其绝对值越大贡献也越大在 Final Statistics 一栏中显示了各因子解释掉方差的比例也称变量的共同度 (Communality) 共同度从 0 到 1 0 为因子且不解释任何方差 1 为所有方差均被因子解释掉一个因子解释掉变量的方差越大说明因子包含原有变量信息的量越多表 12-8 和表 12-9 显示经正交旋转后的因子负荷矩阵 (Rotated Factor Matrix)和因子转换矩阵 (Factor Transformation Matrix) 旋转的目的是使复杂的矩阵变得简洁即第一因子替代了 X1 X2 X4 X7 的作用第二因子替代了 X3 X5 X6 的作用图 12-7 显示将第一因子的因子分用变量名 fac_1 第二因子的因子分用变量名 fac_2 存入原始数据库中这些值既可用于模型诊断又可用于进一步分析 12.2.3 因子分析过程 1 Factor Analysis 主对话框如图 12-2 所示 (1) Variables 栏存放分析变量栏 (2) Selection Variable 选择变量栏用于限制有特殊值的样本子集的分析当一个变量进入该栏时激活右侧的 Value 按钮 (3) 待 Value 按钮激活后单击该键打开 Set Value 对话框可在该对话框键入标识参与分析的观测量所具有的该变量值如图 12-8 所示图 12-8 Set Value 对话框 (4) Descriptivs 按钮点击之展开 Descriptives 对话框如图 12-3 所示可以选择单变量的描述统计量和初始分析结果 (5) Rotation 按钮单击之展开 Rotation 对话框如图 12-4 所示可以选择因子旋转方法 (6) Extraction 按钮点击之进入 Extraction 对话框如图 12-5 所示可以选择不同的提取公因子的方法和控制提取结果的判据 (7) Scores 按钮单击之进入 Factor Scores 对话框如图 12-6 所示可以要求计算因子得分选择显示或作为新变量保存 (8) Options 对话框单击之进入相应的子对话框可以进一步选择各种输出项 2 Descriptives 对话框描述统计量选择项如图 12-3 所示 (l) Statistics 统计量栏 z Univariate descriptive 复选项单变量描述统计量选择此项可以输出参与分析的各原始变量的均值标准差等 z Initial solution 复选项初始分析结果选择此项可以给出因子提取前分析变量的公因子方差对主成分分析来说这些值是要进行分析变量的相关或协方差矩阵的对角元素对因子分析来说是每个变量用其他变量作预测因子的载荷平方和 (2) Correlation Matrix 相关矩阵栏 z Coefficients 复选项相关系数选择此项给出原始分析变量间的相关系数矩阵 z Significance levels 复选项显著性水平选择此项给出每个相关系数相对于相关系数为 0 的单尾假设检验的水平 z Determinant 复选项相关系数矩阵的行列式 z Inverse 复选项相关系数矩阵的逆矩阵 z Reproduced 选项再生相关阵选择此项给出因子分析后的相关阵还给出残差即原始相关与再生相关之间的差值 z Anti-image 复选项包括偏相关系数的负数反映象协方差阵包括偏协方差的负数在一个好的因子模型中除对角线上的系数较大外远离对角钱的元素应该比较小 z KMO and Bartlett’s test of Sphericity 复选项 KMO 和球形 Bartlett 检验选择此项给出对采样充足度的 Kaisex-Meyer-Olkin 测度检验变量间的偏相关是否很小 Bartlett 球形检验检验相关阵是否是单位阵它表明因子模型是否是不合适宜的 3 Rotation 对话框如图 12-4 所示 (l) Method 栏选择旋转方法 z None 选项不进行旋转此为系统默认的选择项 z Varimax 选项方差最大旋转是一种正交旋转方法它使每个因子上的具有最高载荷的变量数最小因此可以简化对因子的解释 z Direct Oblilmin 选项直接斜交旋转指定此项可以在下面的矩形框中键入值该值应该在 0 到 l 之间 0 值产生最高相关因子 z Quartmax 选项四次最大正交旋转该旋转方法使每个变量中需要解释的因子数最少可以简化对变量的解释 z Equamax 选项平均正交旋转是简化对因子的解释的 Varimax 方法与简化对变量解释的 Quartmax 方法的结合结果在一个因子上有高载荷的变量数和在需要解释的变量的因子数最少 z Promax 选项斜交旋转方法允许因子彼此相关它比直接斜交旋转更快因此适用于大数据集的因子分析 (2) Display 栏选择有关输出显示 z Rotated solution 选项旋转结果指定旋转方法才能指定此项指定此项将对正交旋转显示旋转后的因子矩阵模式因子转换矩阵对斜交旋转显示旋转后的因子矩阵模式因子结构矩阵和因子间的相关阵 z Loading plot(s)选项因子载荷散点图指定此项将给出以两两因子为坐标轴的各变量的载荷散点图如果有两个因子给出各原始变量在 Fatorl Factor2 坐标系中的散点图如果多于两个因子则给出前三个因子的三维因子载荷散点图如果只提取了一个因子不会输出载荷散点图注意选择此项给出的是经旋转后的因子载荷图 (3) Maximum iterations for Convergence 参数框指定旋转收敛的最大迭代次数系统默认值为 25 可以在此项后面的矩形框中键入指定值 4 Extraction 对话框如图 12-5 所示 (l) Method 因子提取方法选择项 Method 参数框是一组指定提取方法的选择项单击矩形框右面的箭头可以展开提取方法选择项表提供了七种提取方法以供选择 z Principal components 选项主成份法该方法假设变量是因子的纯线性组合第一成分有最大的方差后续的成分其可解释的方差逐个递减往往使用主成分法获取初始的因子分析结果 z Unweighted least Square 选项不加权最小平方法该方法使观测的和再生的相关阵之差的平方和最小不计对角元素 z Generalized least squares 选项用变量单的倒数值加权使观测的和再生的相关阵之差的平方和最小较高值的比较低值的给予的权重要小 z Maximum Likelihoud 选项最大似然法此方法不要求多元正态分布给出参数估计如果样本来自多元正态总体那它们与原始变量的相关阵极为相似原始分析变量用变量单值倒数加权使用迭代算法 z Principal Axis factoring 选项使用多元相关的平方作为对公因子方差的初始估计初始估计公因子方差时多元相关系数的平方置于对角线上这些因子载荷用于估计新公因子方差替换对角线上的前一次的公因子方差估计这样的迭代持续到本次到下一次迭代结果中公因子方差的变化满足提取因子的收敛判据 z Alpha factoring 选项因子提取法 z Image factoring 选项映象因子提取法是由 Guttman 提出的因子提取方法根据映像学原理提取公因子的方法把一个变量看作其他各变量的多元回归而不是假设因子的函数 (2) Analyze 栏指定分析矩阵的选择项 z Correlation Matrix 选项指定以分析变量的相关矩阵为提取因子的依据如果参与分析的变量的测度单位不同时应该选择此项 z Covariance matrix 选项指定以分析变量的协方差矩阵为提取因子的依据 (3) Display 栏指定与因子提取有关的输出项 z Unrotated factor solution 复选项要求显示未经旋转的因子提取结果此项为系统默认的输出方式 z Scree plot 复选项要求显示按特征值大小排列的因子序号以特征值为两个坐标轴的碎石图可以有助于确定保留多少个因子典型的碎石图会有一个明显的拐点在该点之前是与大因子连接的陡峭的折线之后是与小因子相连的缓坡折线 (4) Extract 栏控制提取进程和提取结果的选择项 z Eigenvalues over 选项该选择项指定提取的因子的特征值在此项后面的矩形框中给出系统默认值为 1 即要求提取那些特征值大于 1 的因子指定特征值决定提取因子数目的方法是系统默认的方法 z Number of factors 选项该选择项指定提取公因子的数目用鼠标单击选择此项后将指定提取公因子的数目理论上有多少个分析变量就有多少个因子因此键入到该选择项后面的矩形框中的数应该是 0 到分析变量数目之间的正整数 (5) Maximum iterations for Convergence 参数框指定因子分析收敛的最大迭代次数系统默认的最大迭代次数为 25 5 Factor Scores 对话框有关因子得分的选择项如图 12-6 所示 (l) Save as variables 复选项将因子得分作为新变量保存在数据文件中 (2) Method 栏指定计算因子得分的方法 z Regression 选项回归法其因子得分的均值为 0 方差等于估计因子得分与实际因子得分之间的多元相关的平方 z Bartlett 选项巴特利特法因子得分均值为凡超出变量范围的各因子平方和被最小化 z Anderson-Rubin 选项是为了保证因子的正交性而对 Bartlett 因子得分的调整其因子得分的均值为 0 标准差为 1 且彼此不相关 (3) Display factor score coefficient matrix 复选项选择此项将在输出窗中显示因子得分系数矩阵是标准化的得分系数原始变量值进行标准化后可以根据该矩阵给出的系数计算各观测量的因子得分还显示协方差阵 6 Options 对话框有关输出的选择项如图 12-9 所示 (l) Missing Values 栏选择处理缺失值方法 z Exclude cases listwise 选项在分析过程中对那些指定的分析变量中有缺失值的观测量一律剔除所有分析变量带有缺失值的观测量都不参与分析 z Exclude cases pairwise 选项成对剔除带有缺失值的观测量换句话说在计算两个变量的相关系数时只把这两个变量中带有缺失值的观测量剔除如果一个观测量在正进行相关系数计算的变量中没有缺失值其他变量中带有缺失值那么不影响当前相关系数的计算 z Replace with mean 选项用该变量的均值代替工作变量的所有缺失值图 12-9 Options 对话框 (2) Coefficient Display Format 栏决定载荷系数的显示格式 z Sorted by size 复选项选中此项载荷系数按其数值的大小排列并构成矩阵使在同一因子上具有较高载荷的变量排在一起以便于得出结论 z Suppress absolute values less than 复选项选中此项不显示那些绝对值小于指定值的载荷系数选择此项后还需要在该项的框中键入 0 到 l 之间的数作为临界值系统默认的临界值为 0.10 选择此项可以突出载荷较大的变量以便于得出结论思考题 1 理解因子分析的意义作用和操作过程 2 理解因子分析过程中旋转的作用 3 理解因子得分 Component Score Coefficient 的含义并由此写出主要成分的表达式并进一步体会主要成分对数据分析的实际意义第1 3 章列联表分析导言列联表分析主要功能是分析各事物现象的差异性与以前分析差异显著性分析方法不同的列联表分析生成二维和多维交叉表因此它可以分析一个行变量和一个列变量的差异性 13.1 Crosstabs 过程 Crosstabs 列联表过程构成两维到多维的各水平的列联表并为两维表提供了多种检验与相关的计算 13.1.1 列联表对话框从主菜单 Analyze ? Descriptive Statistics ? Crosstabs 进入 Crosstabs 对话框如图 13-1 所示图 13-1 Crosstabs 列联表对话框 1 Row(s) 行变量栏 2 Column(s) 列变量栏 3 Previous Layer 1 of Next 层变量栏选择分组变量及控制分组变量的分层 (1) Previous 前一层分组变量按钮在建立后一层变亮时表示单击该按钮可返回前一层 (2) Next 后一层分组变量按钮该层变量是前一层变量的分组变量在建立前一层时变亮表示单击该按钮可建立或显示后一层的变量 4 Display clustered bar charts 显示聚类条图此条图概述分类数据 SPSS 会为每个行变量产生一个聚类条图 5 Suppress table 隐藏表格选择此项则 SPSS 将不显示 R C crosstabulation R C 列联表且 Cell 按钮与 Format 按钮无效 6 Statistics 统计量按钮 7 Cells 格子按钮它是用于选择表中每个格子里显示的内容 8 Format 表格格式按钮它是用于定义列联表行变量排列格式 13.1.2 Crosstabs 过程的变量 Crosstabs 过程至少要有一个行变量与列变量在 Crosstabs 过程中有三类变量均为分组变量它们可以是数值型的也可以是短字符串型的层变量是控制变量如果选择了层变量则 SPSS 会为每个层变量的分类组合输出结果由于 Crosstabs 过程中的变量是分组变量若使用连续型变量作列联表则必须先对变量进行分组可用 Record 过程选择 Transform ? Record ? Into Same Variable 对数据重新编码 13.1.3 Statistics 对话框单击 Statistics 统计量按钮可进入 Statistics 对话框如图 13-2 所示图 13-2 Statistics 对话框 1 Chi-square 卡方值它是用于进行行列变量是否独立的卡方检验 (Chi-square Test) (1) 在最小期望频数 (minimum expected count)>1 少于 1/5 格子的期望频数 (Vexpected xount)<5 且有效例数 (N of valid cases)>40 时一般使用皮尔逊卡方值 (Pearson Chi-square) (2) 在 2 2 表情况下 SPSS 显示连续校正卡方值 (Continuity Corrected Chi-square) 一般是在 l<最小期望频数 <5 总例数 N>40 时使用 (3) 在 2 2 表情况下 SPSS 显示费歇尔精确检验 (Fsher’s Exact Test) 一般是在最小期望频数 1 或总例数 N 40 时使用 2 Correlations 相关系数在数值型变量下此项选择才有效 3 Kappa 卡帕系数它是评价判断一致性 (agreement)程度的指标适用于行与列有相同的分类 4 Risk 相对危险度它用于 2 2 表是指暴露于某因素的发病率与非暴露者的发病率之比若相对而言危险度为 1 则表示因素与事件不存在联系例如检验吸烟是否与心脏病有关 SPSS 是用比数比 (odds ratio)作相对危险度的近似估计值 5 McNemar 它是用于两个相关二项分类变量的非参数检验 6 Nominal 名义数据它是指行与列变量均是无序分类变量例如血型 A B AB O 型 (1) Contingency coefficient 列联系数它是根据卡方公式修改而得其值的大小与行列数目有关在 0 l 之间取值但不可能达到 1 (2) Phi and Cramer’s V 斐与克莱姆 V 值它们都是校正列联系数也是由卡方公式修改而来其值可达到 1 (3) Lambda 兰姆达它是以一变量的不同水平 (level)来预测另一变量的可能结果时误差的机率减少的比率它是用于反应当用自变量的值来预测因变量的值时可能发生的错误在 0 1 之间取值 l 表示自变量可以很好地预测因变量 0 表示两变量独立 (4) Unvertainty coefficient 不确定系数它是用于计算不定和非对称的系数其值越接近其上限 1 表明从第一个观察量获得的有关第二个变量的值的信息越多其值越接近其下限 0 表明第一个观察量获得的有关第二个变量的值的信息越少 7 Ordinal 双向有序数据它是指行与列变量均是有序分类数据例如痊愈好转无效 (1) Gamma 它是依据某一水平所测得的两变量之间的联系水平其值为 1 时表示所有的观测量都集中在表格的左上角到右下角的对角线上 0 表示观测量相互独立 (2) Somers’d 萨默尔 d 值它是反应两个有序变量之间的联系水平在计算 Gamma 时不会对因变量与自变量作出区分数据被认为是对称的而 Somers’d 则是 Gamma 的非对称扩展其区别仅在于包括与自变量不相关的成对数据表明在那些与自变量并不相关的数据中的一致性数据 Discordant 的比例部分 (3) Kendall’s tau-b 它是对相关的有序变量进行的非参数相关检验适合行数与列数相同表格的检验其值在一 l 到 l 之间 (4) Kendall’s tau-c 它是对 R C 表格标签忽视相关系数的非参数相关检验其值在一 l 到 l 之间如果表格的边缘包含近似相等的频数 Kendall’s tau-b 与 Kendall’s tau-c 所得的值基本一致 8 Nominal by Interval 名义尺度数据它是指其中一个是定量变量的数据另一个变量是名义变量且是数值型变量 Eta 它是非对称并不存在假设两个变量之间存在线性关系下显示因变量与自变量之间联系其平方可以被解释为由不同变量分类组所解释的因变量方差的比例 13.1.4 Cell 对话框单击 Cells 按钮进入 Cells Display 对话框如图 13-3 所示 1 Counts 频数 (1) Observed 观察频数系统默认值 (2) Expected 期望频数 2 Percentage 百分数 (1) Row 行百分数 (2) Column 列百分数 (3) Total 总百分数 3 Residual 残差 (1) Unstandardized 未标准化残差 (2) Standardized 标准化残差 (3) Adj-Standardized 校正标准化残差图 13-3 Cell Display 对话框 13.1.5 Format 对话框单击 Format 按钮进入 Table Format 对话框如图 13-4 所示 Row order 行顺序 Ascending 升序行变量由左至右升序显示系统默认值 Descending 降序行变量由左至右降序显示 13.2 四格表卡方检验 13.2.1 四格表卡方检验 [例 13-1] 在二乙基亚硝胺诱发大白鼠咽癌的实验中一组单纯用亚硝胺向鼻腔滴注 (鼻注组 ) 另一组在鼻注的基础上加肌注维生素 B12 实验结果如表 13-1 所示问两组发癌率有无差别图 13-4 Table Format 对话框表1 3-1 两组大白鼠发癌率的比较数据表处理发癌鼠数未发癌鼠数合计发癌率 (%) 鼻注组 (1) 52 19 71 73.24 鼻注 B12 组 39 3 42 92.86 合计 91 22 113 80.53 建立数据文件如图 13-4 所示以变量 r 标识处理的不同组别 r=1 标识鼻注组 r=2 标识鼻注 B12 组变量 c 标识大白鼠的状态 c=1 标识发癌组 c=2 标识未发癌组以变量 f 标识发癌或未发癌的大白鼠的数量选择 Data ? Weight Cases 进入 Weight Cases 对话框把频数 [f] 放入 Frequency 栏中如图 13-5 所示单击 OK 按钮图 13-5 Weight Cases 对话框从 Analyze ? Descriptive Statistics ? Crosstabs 进入 Crosstabs 对话框如图 13-1 所示把处理 [f] 放入 Row(s)栏把状况 [c] 放入 Column(s)栏选择 Display clustered bar charts 项单击 Statistics 按钮进入 Statistics 对话框如图 13-2 所示选择 Chi-square 与 Correlations 单击 Continue 按钮返回 Crosstabs 主对话框单击 Cell 按钮进入 Cells Display 格子显示对话框如图 13-3 所示选择全部项目单击 Continue 按钮返回 Crosstabs 主对话框在主对话框中单击 OK 按钮提交运行 Crosstabs 过程得到结果如下表 13-2 到表 13-5 和图 13-6 所示表1 3-2 Case Processing Summary 数据处理概况 Cases Valid Missing Total N Percent N Percent N Percent 处理 *状况 113 100.0% 0 .0% 113 100.0% 表1 3-3 处理 *状况 Crosstabulation 列联表状况 1 2 Total 处理 1 Count Expected Count % within处理 %within状况 % of Total Residual Std.Residual Ad justed Residual 52 57.2 73.2% 57.1% 46.0 -5.2 -.7 -2.5 19 13.8 26.8% 86.4% 16.8% 5.2 1.4 2.5 71 71.0 100.0% 62.8% 62.8% 2 Count Expected Count % within处理 %within状况 % of Total Residual Std.Residual Ad justed Residual 39 33.8 92.9% 42.9% 34.5% 5.2 .9 2.5 3 8.2 7.1% 13.6% 2.7% -5.2% -1.8 -2.5 42 42.0 100.0% 37.2% 37.2% Total Count Expected Count % within处理 %within状况 % of Total 91 91.0 80.5% 100.0% 80.5% 22 22.0 19.5% 100.0% 19.5% 113 113.0 100.0% 100.0% 100.0% 表1 3-4 Chi-Square Tests 卡方检验 value df Asymp.sig. (2-sided) Exact.sig. (2-sided) Exact Sig. (1-sided) Pearson chi-square Continuity correction a Likelihood Ratio Fisher’s Exact Test Linear-by-Linear Association N of valid cases 6.468 b 5.287 7.310 6.420 113 1 1 1 1 .011 .021 .007 .011 .013 .008 a. Computed only for a 2x2 table b. 0 cells (.0%) have expected count less than 5. The minimum expected count is 8.18. 表1 3-5 Symmetric Measure 对称测量 Value Asymp.std.Error a Approx.T b Approx.Sig. Interval by Interval Pearson’s R Ordinal by ordinal Spearman correlation N of valid cases -.239 -.239 113 .074 .074 -2.598 -2.598 .011 c .011 c a. Not assuming the null hypothesis. a. Using the asymptotic standard error assumint the null hypothesis. c. Based on normal approximation. 处理 21 Count 60 50 40 30 20 10 0 状况 1 2 图 13-6 各组状况直方条形图由表 13-4 得到 N=113>40 且最小期望频数为 8.18>5 因此卡方值 =6.478 df=1 P=0.011<0.05 故可认为两组处理的发癌率差别是有统计意义的 13.2.2 四格表校正卡方检验 [例 13-2] 某矿石粉厂当生产一种矿石粉石时在数天内即有部分工人患职业性皮肤炎在生产季度开始随机抽取 15 名车间工人穿上新防护服其余仍穿原用的防护服生产进行一个月后检验两组工人的皮肤患病率资料如表 13-6 所示问两组工人的皮肤患病率有无差别建立数据文件以变量 r 标识防护服种类 r=1 标识新防护服 r=2 标识旧防护服变量 c 标识皮肤炎症 c=1 标识阳性 c=2 标识阴性以变量 f 标识阳性或阴性的数量如图 13-7 所示图 13-7 穿新旧防护服工人的皮肤炎患病率比较数据文件表1 3-6 穿新旧防护服工人的皮肤炎患病率比较数据表皮肤炎症防护服种类阳性例数阴性例数合计患病率 (%) 新 114156.7 旧 10 18 28 35.7 合计 11 32 43 25.6 选择 Data ? Weight Cases 进入 Weight Cases 对话框把频数 [f] 放入 Frequency 栏中单击 OK 按钮从 Analyze ? Descriptive Statistics ? Crosstabs 进入 Crosstabs 对话框把防护服种类 [r] 放入 Row(s)栏把皮肤炎症 [c] 放入 Column(s)栏单击 Statistics 按钮进入 Statistics 对话框选择 Chi-square 与 Correlations 单击 Continue 按钮返回 Crosstabs 主对话框单击 Cell 按钮进入 Cells Display 格子显示对话框选择 Observed Expected Row Column 单击 Continue 按钮返回 Crosstabs 主对话框在主对话框中单击 OK 按钮提交运行 Crosstabs 过程得到结果如下表 13-7 到表 13-10 所示表1 3-7 Case Processing Summary 数据处理概况 Cases Valid Missing Total N Percent N Percent N Percent 防护服种类 *皮肤炎症 43 100.0% 0 .0% 43 100.0% 表1 3-8 防护服种类 *皮肤炎症 Crosstabulation 列联表皮肤炎症 1 2 Total 防护 1 Count 服种 Expected Count 类 % within 防护服种类 %within皮肤炎症 1 3.8 6.7% 9.1% 14 11.2 93.3% 43.8% 15 15.0 100.0% 34.9% 2 Count Expected Count % within 防护服种类 %within皮肤炎症 10 7.2 35.7% 90.9% 18 20.8 64.3% 56.3% 28 28.0 100.0% 65.1% 3 Count Expected Count % within 防护服种类 %within皮肤炎症 11 11.0 25.6% 100.0% 32 32.0 74.4% 100.0% 43 43.0 100.0% 100.0% 表1 3-9 卡方检验 Valud df Asymp.Sig. (2-sided) Exact Sig. (2-sided) Exact sig. (1-sided) Pearson chi-square Continuity correction a Likelihood Ratio Fisher’s Exact Test Linear-by-Linear Association N of valid cases 4.329 b 2.938 5.056 4.228 43 1 1 1 1 .037 .087 .025 .040 .065 .038 表1 3-10 Symmetric Measures 对称测量 Value Asymp.std.Error a Approx.T b Approx.Sig. Interval by Interval Pearson’s R Ordinal by ordinal spearman correlation N of valid cases -3.17 -.317 43 .112 .112 -2.142 -2.142 .038 c .038 c a. Not assuming the null hypothesis. b. Using the asymptotic standard error assuming the null hypothesis. c. Based on normal approximation. 由表 13-9 得出 N=43>40 且最小期望频数 1<3.84<5 因此卡方值 =2.938 df=1 P=0.087>0.5 故不能认为穿不同防护服的两组工人的皮肤炎患病率有统计意义 13.3 R C 表卡方检验 13.3.1 多个率的比较 [例 13-3] 某省观察三个地区的花生污染黄曲霉毒素 B1 的情况如下表 13-11 所示问三个地区花生的黄曲霉毒素 B1 污染率有无差别表1 3-11 某省三个地区的花生污染黄曲霉毒素比较数据表检验的样品数地区未污染污染合计污染率 (%) 甲 6 23 29 79.3 乙 30 14 44 31.8 丙 8 3 11 27.3 合计 44 40 84 47.6 建立数据文件以变量 r 标识不同地区 r=1 标识地区甲 r=2 标识地区乙 r=3 标识地区丙变量 c 标识污染情况 c=1 标识未污染 c=2 标识污染以变量 f 标识污染或未污染的检验样品数如图 13-8 所示图 13-8 某省三个地区的花生污染黄曲霉毒素比较数据文件选择 Data ? Weight Cases 进入 Weight Cases 对话框把频数 [f] 放入 Frequency 栏中单击 OK 按钮从 Analyze ? Descriptive Statistics ? Crosstabs 进入 Crosstabs 对话框把地区 [r] 放入 Row(s)栏把污染情况 [c] 放入 Column(s)栏单击 Statistics 按钮进入 Statistics 对话框选择 Chi-square 单击 Continue 按钮返回 Crosstabs 主对话框单击 Cell 按钮进入 Cells Display 格子显示对话框选择 Observed Expected Row Column 单击 Continue 按钮返回 Crosstabs 主对话框在主对话框中单击 OK 按钮提交运行 Crosstabs 过程得到结果如表 13-12 到表 13-14 所示表1 3-12 Case Processing Summary 数据处理概况 Cases Valid Missing Total N Percent N Percent N Percent 地区 *污染情况 84 100.0% 0 .0% 84 100.0% 表1 3-13 地区 *污染情况 Crosstabulation 列联表污染情况 1 2 Total 1 Count Expected Count % within 地区 % within 污染情况 6 15.2 20.7% 13.6% 23 13.8 79.3% 57.5% 29 29.0 100.0% 34.5% 2 Count Expected Count % within 地区 % within 污染情况 30 23.0 68.2% 68.2% 14 21.0 31.8% 35.0% 44 44.0 100.0% 52.4% 地区 3 Count Expected Count % within 地区 % within 污染情况 8 5.8 72.7% 18.2% 3 5.2 27.3% 7.5% 11 11.0 100.0% 13.1% Total Count Expected Count % within地区 % within污染情况 44 44.0 52.4% 100.0% 40 40.0 47.6% 100.0% 84 84.0 100.0% 100.0% 表1 3-14 卡方检验 value Df Asymp. Sig.(2-sided) Pearson chi-square Likelihood Ratio Linear-by-Linear Association N of valid Cases 17.907a 18.755 14.315 84 2 2 1 .000 .000 .000 a. 0 cells (.0%) have expected count less than 5.The minimum expected count is 5.24 由表 13-14 得到有效例数为 84 大于 40 且最小期望频数 5.24>5 因此卡方值 =17.907 df=2 P<0.5 故可以认为三个地区的花生黄曲霉毒素 B1 污染率的差别有统计意义 13.3.2 多个构成比比较 [例 13-4] 1979 年某地暴发松毛虫病 333 例患者按年龄以 14 岁为界分为两组资料如表 13-15 所示试考察两组病人类型的构成比有无差别表1 3-15 某地两组松毛虫病患者类型构成比地区皮炎症骨关节炎症软组织炎症混合型合计甲 50 48 18 72 29 乙 105 10 7 23 44 合计 155 58 25 95 84 建立数据文件以变量 r 标识不同地区 r=1 标识地区甲 r=2 标识地区乙变量 c 标识不同病型 c=1 标识皮炎症 c=2 标识骨关节炎症 c=3 标识软组织炎症 c=4 标识混合型以变量 f 标识人数如图 13-9 所示图 13-9 某地两组松毛虫病患者类型构成比数据文件选择 Data ? Weight Cases 进入 Weight Cases 对话框把频数 [f] 放入 Frequency 栏中单击 OK 按钮从 Analyze ? Descriptive Statistics ? Crosstabs 进入 Crosstabs 对话框把年龄 [r] 放入 Row(s)栏把病型 [c] 放入 Column(s)栏单击 Statistics 按钮进入 Statistics 对话框选择 Chi-square 单击 Continue 按钮返回 Crosstabs 主对话框单击 Cell 按钮进入 Cells Display 格子显示对话框选择 Observed Expected Row Column 单击 Continue 按钮返回 Crosstabs 主对话框在主对话框中单击 OK 按钮提交运行 Crosstabs 过程得到结果如下表 13-16 到表 13-18 所示表1 3-16 Case Processing Summary 数据处理概况 Cases Valid Missing Total N Percent N Percent N Percent 年龄 *病型 333 100.0% 0 .0% 333 100.0% 表1 3-17 年龄 *病型 Crosstabulation 列联表病型 1 2 3 4 Total 1 Count Expected Count % within 年龄 % within 病型 % of Total 50 87.5 26.6% 32.3% 15.5% 48 32.7 25.5% 82.8% 14.4% 18 14.1 9.6% 72.0% 5.4% 72 53.6 38.3% 75.8% 21.6% 188 188.0 100.0% 56.5% 56.5% 年龄 2 Count Expected Count % within 年龄 % within 病型 % of Total 105 67.5 72.4% 67.7% 31.5% 10 25.3 6.9% 17.2% 3.0% 7 10.9 4.8% 28.0% 2.1% 23 41.4 15.9% 24.2% 6.9% 145 145.0 100.0% 43.5% 43.5% Total Count Expected Count % within年龄 % within病型 % of Total 155 155.0 46.5% 100.0% 46.5% 58 58.0 17.4% 100.0% 17.4% 25 25.0 7.5% 100.0% 7.5% 95 95.0 28.5% 100% 28.5% 333 333.0 100.0% 100.0% 100.0% 表1 3-18 卡方检验 Value df Asymp.Sig.(2-Sided) Pearson Chi-Square Likelihood Ratio Linear-by-Linear Association N of Valid Cases 70.143a 73.004 45.074 333 3 3 1 .000 .000 .000 a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 10.89. 由上述表得出有效例数为 238>40 且最小期望频数 8.19>5 因此卡方值 =23.829 df=2 P<0.0005 故可以认为两组检验松毛虫病患者的构成差别有统计意义 13.3.3 双向有序列联表 [例 13-5] 某矿职工医院探讨不同期次患者的胸部平片肺门密度变化把 492 名患者的资料归纳如表 13-19 所示问矽肺患者肺门密度的增加与矽肺的期次有无关系表1 3-19 不同期次矽肺患者肺门密度数据表格肺门密度级别合计矽肺期次 43 188 14 245 196 72160 617 5 78 合计 50 301 141 492 建立数据文件以变量 r 标识不同矽肺期次 r=1 标识 r=2 标识 r=3 标识变量 c 标识不同肺门密度级别 c=1 标识 c=2 标识 c=3 标识以变量 f 标识人数如图 13-10 所示选择 Data ? Weight Cases 进入 Weight Cases 对话框把频数 [f] 放入 Frequency 栏中单击 OK 按钮从 Analyze ? Descriptive Statistics ? Crosstabs 进入 Crosstabs 对话框把矽肺期次 [r] 放入 Row(s)栏把肺门密度级别 [c] 放入 Column(s)栏单击 Statistics 按钮进入 Statistics 对话框选择 Chi-square 单击 Continue 按钮返回 Crosstabs 主对话框单击 Cell 按钮进入 Cells Display 格子显示对话框选择 Observed Expected Row Column 单击 Continue 按钮返回 Crosstabs 主对话框在主对话框中单击 OK 按钮提交运行 Crosstabs 过程得到结果如下表 13-20 到表 13-22 所示表1 3-20 Case Processing Summary 数据处理概况 Cases Valid Missing Total N Percent N Percent N Percent 矽肺期次 * 肺门密度级别 492 100.0% 0 .0% 492 100.0% 图 13-10 不同期次矽肺患者肺门密度数据文件表1 3-21 年龄 *病型 Crosstabulation 列联表病型 1 2 3 Total 1 Count Expected Count % within 矽肺期次 % within 肺门密度级别 43 24.9 17.6% 86.0% 188 149.9 76.7% 62.5% 14 70.2 5.7% 9.9% 245 245.0 100.0% 49.8% 2 Count Expected Count % within 矽肺期次 % within 肺门密度级别 1 17.2 .6% 2.0% 96 103.4 56.8% 72 48.4 42.6% 169 169.0 100.0% 矽肺期次 l 3 Count Expected Count % within 矽肺期次 % within 肺门密度级别 6 7.9 7.7% 12.0% 17 47.7 21.8% 5.6% 55 22.4 70.5% 39.0% 78 78.0 100.0% 15.9% Total Count Expected Count % within矽肺期次 % within肺门密度级别 50 50.0 10.2% 100.0% 301 301.0 61.2% 100.0% 141 141.0 28.7% 100.0% 492 492.0 100.0% 100.0% 表1 3-22 卡方检验 Value Df Asymp.Sig.(2-Sided) Pearson Chi-Square Likelihood Ratio Linear-by-Linear Association N of Valid Cases 163.007 a 184.792 125.510 492 4 4 1 .000 .000 .000 a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 7.93. 由上述表得出有效例数为 238>40 且最小期望频数 8.19>5 因此卡方值 =23.829 df=2 P<0.0005 故可以认为两组检验松毛虫病患者的构成差别有统计意义思考题 1 理解列联表分析的不同于其他差异显著性分析方法的特点 2 什么是四格表卡方检验什么是 R C 表卡方检验两者有何异同第1 4 章非参数检验导言非参数检验是相对于参数检验而言的这两种检验方法在实际中有着广泛的应用但它们有着不同数理统计原理和应用场合非参数检验的内容十分丰富主要有卡方检验二项分布检验游程检验单样本K-S检验两个独立样本检验多个独立样本检验两个相关样本检验多个相关样本检验等读者要学会区分选用合适的非参数检验方法为了便于读者掌握各种非参数检验方法本章举出了大量实例非参数检验是不依赖总体分布的统计推断方法是指在总体不服从正态分布且分布情况不明时用来检验数据资料是否来自同一个总体假设的一类检验方法由于这些方法一般不涉及总体参数而得名这类方法的假定前提比参数件假设检验方法少得多也容易满足适用于计量信息较弱的资料且计算方法也简便易行所以在实际中有广泛的应用 SPSS中进行非参数检验由主菜单的Analyze下拉菜单中的Nonparametric Tests 菜单项导出选择“Nonparametric Tests”单击鼠标键显示小菜单其中包括 1 Chi-square test卡方检验 2 Binomial test二项分布检验 3 Runs test游程检验 4 1-Simple K-S test一个样本柯尔莫哥洛夫一斯米诺夫检验 5 2 Independent Sample test两个独立样本检验 6 K Independent Samples test多个独立样本检验 7 2 Related Sample test两个相关样本检验 8 K Related Sample test多个相关样本检验 14.1 卡方检验 14.1.1 卡方检验的基本概念在前面介绍的方法中往往都事先假定总体服从正态分布然后对其均值或方差作检验但某个随机变量是否服从某种特定的分布是需要进行检验的可以根据以往的经验或实际来观测数据的分布情况推测总体可能服从某种分布函数F(X)利用这些样本数据来具体检验该总体分布函数是否就是F(X)卡方检验(Chi-square test)就是这样一种用来检验给定的概率值下数据来自同一总体的无效假设的方法 14.1.2 卡方检验的功能与应用调用此过程可对样本数据的分布进行卡方检验卡方检验适用于配合度检验主要用于分析实际频数与某理论频数是否相符 14.1.3 卡方检验的应用示例 [例14-1] 某地一周内各日死亡数的分布如表14-1请检验一周内各日的死亡危险性是否相同表1 4-1 一周内死亡数数据表周日死亡数一 11 二 19 三 17 四 15 五 15 六 16 日 19 建立数据文件定义变量名各周日为day 死亡数为death如图14-1所示从Data菜单中选Weight Cases进入 Weight Cases对话框把death放入Frequency Variable框定义死亡数为权数再点击OK 钮即可从Analyze ? Nonparametric Tests ? Chi-Square进入Chi-Square Test对话框(如图14-2所示)现欲对一周内各日的死亡数进行分布分析故在对话框左侧的变量列表中选day 点击向右的箭头钮使之进入Test Variable List框点击OK按钮即可图14-2 Chi-Square Test对话框得到结果如表14-2和表14-3所示图14-1 一周内死亡数数据文件表1 4-2 分析数据信息 Observed N Expected N Residual 1 2 3 4 5 6 7 Total 11 19 17 15 15 16 19 112 16.0 16.0 16.0 16.0 16.0 16.0 16.0 -5.0 3.0 1.0 -1.0 -1.0 .0 3.0 表1 4-3 卡方检验结果 DAY Chi-Squar a Df Asymp.Sig. 2.875 6 .824 0 cells (.0%) have expected frequencies less than 5. The minimum expected cell frequency is 16.0 由上述表格显示一周内各日死亡的理论数(Expected)为16.0即一周内各日死亡均数还算出实际死亡数与理论死亡数的差值(Residual)卡方值 2 =2.875自由度数(D.F.)=6 P=0.824可认为一周内各日的死亡危险性是相同的 14.1.4 卡方检验的 SPSS 实现 1 Chi-Square Test对话框如图14-2所示 (1) Test Variable List(指定检验变量)框从左侧变量列表中选择需要进行检验的变量单击鼠标键使之置于光带中单击右面一个向右的箭头按钮使变量名移到Test Variable List框中如果变量为多个则重复上述过程直至指定完 (2) Expected Range栏确定检验值的范围 z Get from data选项即最小值和最大值所确定的范围系统默认该项 z Use specified range选项只检验数据中一个子集的值在Lower和Upper参数框中键入检验范围的下限和上限 (3) Expected Values栏指定期望值 z All categories equal选项系统默认的检验值是所有组对应的期望值都相同这意味着你要检验的总体是否服从均匀分布 z Values选项选定所要检验的与总体是否服从某个给定的分布并在其右边的框中键人相应各组所对应的由给定分布所计算而得的期望值每输一个值后按Add按钮于是在它右边的框中便增加了刚键入的期望值期望值必须大于0一直到输完所有的期望值为止如果在输入数据过程中出现了错误并已按Add按钮使录入值进入了右下框中则可用鼠标键来进行纠正即用鼠标将光标移到错误处单击鼠标左上键使错误值置于光带中如果它是刚录入的值则用鼠标将光标移到Remove按钮上单击鼠标左上键即可将它移走然后重新录入如果错误值在录入值中间则先将它置于光带中然后在Add右边的框中键入修改的期望值后按Change 按钮则错误值被替换 2 Options对话框单击Options按钮打开 Chi-Square Test Options对话框如图14-3所示 (l) Statistics栏选择输出统计量 z Descriptive复选项输出想了解变量的均值标准差最大值最小值非缺失个体的数量 z Quartiles复选项输出结果将包括四分位数的内容 (2) 在Missing Values栏中选择对缺失值的处理方式 z Exclude cases test-by-test选项将参与对比中的缺失值排除 z Exclude cases listwise选项将任何变量中所有含有缺失值的分析个体排除 3单击Chi-Square Test对话框中的OK按钮提交运行该过程 14.2 二项分布检验 14.2.1 二项分布检验的基本概念有些总体只能划分为两类如医学中的生与死患病的有与无从这种二分类总体中抽取的所有可能结果要么是对立分类中的这一类要么是另一类其频数分布称为二项分布二项分布检验(Binomial test)是一种用来检验在给定的落入二项式中第一项概率值的前提下数据来自二项分布的无效假设的方法 14.2.2 二项分布检验的功能与应用调用Binomial过程可对样本资料进行二项分布分析检验二项分类变量是否来自概率为P的二项分布 14.2.3 二项分布检验的应用示例 [例14-2] 某地某一时期内出生40名婴儿其中女性12名(定Sex=0)男性28名(定 Sex=1)问这个地方出生婴儿的性比例与通常的男女性比例(总体概率约为0.5)是否不同建立数据文件定义性别变量为sex按出生顺序输入数据男性为1女性为0如图14-4所示图14-3 Options对话框图14-4 婴儿男女性别数据文件从Analyze ? Nonparametric Tests ? Binomial Test进入Binomial Test对话框如图14-5所示在对话框左侧的变量列表中选sex点击向右的箭头按钮使之进入 Test Variable List框在Test Proportion框中键入0.50再点击OK按钮即可图14-5 Binomial Test对话框得到结果如表14-4所示表1 4-4 二项分布检验结果 Category N Observed Prop. Test Prop. Asymp.Sig.(2-tailed) SEX Group1 Group2 Total 0 1 12 28 40 .30 .70 1.00 .50 .018 a a. Based on z Approximation. 二项分布检验表明女婴12名男婴28名观察概率为0.70(即男婴占70%)检验概率为0.50二项分布检验的结果是双侧概率为0.018可认为男女比例的差异有高度显著性即与通常的0.5的性比例相比该地男婴比女婴明显多 14.2.4 二项分布检验的 SPSS 实现 1 Binomial Test对话框如图14-5所示 (1) Test Variable框指定检验变量从左侧变量列表中选择需要进行检验的变量将其移到该框中 (2) Define Dichotomy栏定义二分值 z Get from data选项适用于指定的变量只有两个有效值无缺失值 z Cut point选项如果指定的变量超过两个值选择该项后并在其参数框中键入一个试算点的值比试算点的值小的将形成第一项比试算点的值大的将形成第二项 (3)Test参数框指定检验概率值系统默认的检验概率值是0.5这意味着要检验的二项是服从均匀分布的如果落入每一项中的个体的期望比率不等换言之所要检验的二项不是同概率分布参数框中键入第一项所对应的概率期望值 (4) Options对话框选择输出结果形式及缺失值处理方式同14.1.4节 (5) 在Binomial Test主对话框中点击OK按钮提交运行该过程 14.3 游程检验 14.3.1 游程检验的基本概念一个游程就是某序列中位于一种符号之前或之后的另一种符号持续的最大主序列或者说一个游程是指某序列中同类元素的一个持续的最大主集或者说一个游程是指依时间或其他顺序排列的有序数列中具有相同的事件或符号的连续部分游程检验Runs test是指根据游程数所作的两分变量的随机性检验 14.3.2 游程检验的功能与应用游程检验可用来检验样本的随机性这对于统计推断是很重要的游程检验也可用来检验任何序列的随机性而不管这个序列是怎样产生的此外还可用来判断两个总体的分布是否相同从而检验出它们的位置中心有无显著差异调用Runs过程可进行游程检验即用于检验序列中事件发生过程的随机性分析 14.3.3 游程检验的应用示例 [例14-3] 某村发生一种地方病其住户沿一条河排列调查时对发病的住户标记为 1对非发病的住户标记为0共26户如下表14-5所示表1 4-5 调查所得数据表 0 1 1 0 0 0 1 0 0 1 0 0 0 0 1 1 0 0 1 0 0 0 0 1 0 1 建立数据文件定义住户变量为epi按住户顺序输入数据发病的住户为1非发病的住户为0如图14-6所示图14-6 调查所得数据文件从Analyze ? Nonparametric Tests ? Runs Test.进入Runs Test对话框如图14-7所示在对话框左侧的变量列表中选epi点击向右的箭头按钮使之进入Test Variable List框在临界割点Cut Point框中选Custom项在其方框中键入1(根据需要选项本例是0 1二分变量故临界割点值用1)再点击OK按钮即可图14-7 Runs Test对话框得到结果如表14-6所示从检验结果可见本例游程个数为14检验临界割点值(Test value)=1.00小于1.00 者有17个案例而大于或等于1.00者有9个案例Z=0.325双尾检验概率P=0.746所以认为此地方病的病户沿河分布的情况无聚集性而是呈随机分布表1 4-6 游程检验结果 EPT Test Value a Total Cases Number of Runs Z Asymp.Sig.(2-tailed) 1 26 14 .325 .746 a. User-sqecified. 14.3.4 游程检验的 SPSS 实现 1 Runs Test对话框如图14-7所示 (1) Test Variable框指定检验变量从左侧变量列表中选择需要进行检验的变量并将其移入该框 (2) Cut Point栏确定划分二类的试算点在该框中提供了用来定义两类的试算点方法变量值小于试算点的个体形成第一类其他个体形成第二类 z Median中位数作临界割点其值在临界割点之下的为一类大于或等于临界割点的为另一类 z Mode众数作临界割点其值在临界割点之下的为一类大于或等于临界割点的为另一类 z Mean均数作临界割点其值在临界割点之下的为一类大于或等于临界割点的为另一类 z Custom用户指定临界割点其值在临界割点之下的为一类大于或等于临界割点的为另一类 2 Options对话框选择输出结果形式及缺失值处理方式同14.1.4 3在Runs Test对话框中点击OK按钮提交运行游程检验过程 14.4 单样本K-S检验 14.4.1 单样本 K-S 检验的基本概念单样本K-S检验又称单样本柯尔莫哥洛夫-斯米诺夫检验(one-smple Kolmogorov-Smirnov test)是用来检验样本来自同一个总体(Normal Uniform Poisson)的假设这也是一种拟合适度检验方法它主要是运用某随机变量工的顺序样本来构造样本分布函数使得能以一定的概率保证X的分布函数F(x)落在某个范围内 14.4.2 单样本 K-S 检验的功能与应用单样本K-S检验是频数优度拟合检验用于检验变量是否服从某一指定分布调用此过程可对单样本进行Kolmogorov-Smirnov Z检验它将一个变量的实际频数分布与正态分布(Normal)均匀分布(Uniform)泊松分布(Poisson)进行比较 14.4.3 单样本 K-S 检验的应用示例 [例14-4] 某地正常成年男子144人红细胞计数万/立方毫米的频数资料如表14-7 所示问该资料的频数是否呈正态分布表1 4-7 频数数据资料红细胞计数人数红细胞计数人数 420- 440- 460- 480- 500- 520- 2 4 7 16 20 25 540- 560- 580- 600- 620- 640- 24 22 16 2 6 1 建立数据文件定义频数变量名为f标识人数依次输入人数数据如图14-8所示图14-8 频数数据文件从Analyze ? Nonparametric Tests ? 1-Sample K-S进入One-Sample Kolmogorov-Smirnov Test对话框如图14-9所示在对话框左侧的变量列表中选f点击向右的箭头按钮使之进入Test Variable List框在Test Distribution框中选Normal项表明与正态分布形式相比较再点击OK按钮即可图14-9 One-Sample Kolmogorov-Smirnov Test对话框得到运算结果如表14-8所示表1 4-8 单样本 K-S 检验结果 F N Normal Parameters a,b Mean Std. Deviation Most Extreme Absolute Differences Positive Negative Kolmogorov-smirnov Z Asymp. Sig(2-tailed) 12 12.08 9.32 .207 .207 -.163 .718 .681 a. Test distribution is Normal. b. Calculated from data. K-S正态性检验的结果显示Z值=0.718双尾检验概率P值=0.7060可认为该地正常成年男子的红细胞计数符合正态分布 14.4.4 单样本 K-S 检验的 SPSS 过程 1 One-Sample Kolmogorov-Smirnov Test对话框如图14-9所示 (1) Test Variable框指定检验变量从左侧变量列表中选择需要进行检验的变量移入该框 (2) Test Distribution框确定分布检验在Test Distribution框中提供了所要检验的分布分别有 z Normal正态分布复选项 z Uniform均匀分布复选项 z Polsson泊松分布复选项 z Exponential指数分布复选项系统默认值为正态分布SPSS命令语言也允许用户去设定正态分布的平均数和标准差为泊松分布指定平均数为均匀分布指定最大值和最小值 2 Options对话框选择输出结果形式及缺失值处理方式同14.1.4 3在One-Sample Kolmogorov-Smirnov Test对话框中单击OK按钮执行命令 14.5 两个独立样本检验 14.5.1 两个独立样本检验的基本概念有时样本所隶属的总体的分布类型往往可能是事先不知道的但还是想知道在这种情况下两个独立样本间是否具有相同的分布两个独立样本检验test for two independent samples就是用来处理此类问题的一种有效方法 14.5.2 两个独立样本检验的功能与应用调用此过程可对两个独立样本的均数中位数离散趋势偏度等进行差异比较检验最终以确定两个独立样本是否服从相同分布 14.5.3 两个独立样本检验的应用示例 [例14-5] 某实验室观察局部温热治疗小鼠移植肿瘤的疗效以生存日数作为观察指标实验结果如表14-9所示试检验两小鼠生存日数有无差别表1 4-9 生存日数数据表组别生存日数 N 实验组 10 12 15 15 16 17 18 20 23 90 10 对照组 2 3 4 5 6 7 8 9 10 11 12 13 12 建立数据文件定义变量sur存放生存日数变量组别g标识实验组和对照组g=1 为实验组g=2为对照组如图14-10所示图14-10 生存日数数据文件从Analyze ? Nonparametric Tests ? 2 Independent Samples进入 Two-Independent-Samples Test对话框在对话框左侧的变量列表中选sur,点击向右的箭头按钮使之进入Test Variable List框把变量g放入Grouping Variables栏中单击Define Groups按钮进入Two Independent Samples Define Groups对话框在Group1中输入1在Group2中输入2如图14-11所示单击Continue按钮返回 Two-Independent-Samples Test对话框如图14-12所示图14-11 Define Groups对话框图14-12 Two-Independent-Samples Test对话框在图14-11所示的对话框中点击OK按钮即可提交运行两个独立样本检验过程得到结果如表14-10表14-11所示表1 4-10 Ranks 秩 G N Mean Rank Sum of Ranks SUR 1 2 Total 10 12 22 17.00 6.92 170.00 83.00 表1 4-11 检验统计量 SUR Mann-whitney U Wilcoxon w Z Asymp.Sig.(2-tailed) Exact Sig. [2*(1-tailed Sig.)] 5.000 83.000 -3.630 .000 .000 a a. Nor corrected for ties. b. Groupoing Variable:G 由表14-9可得实验组的秩和t1=170.00对照组的秩和t2=83由表14-10得到统计量U=5.000 W=83.000 P<0.05故可认为实验组和对照组生存日数有统计意义 14.5.4 两个独立样本检验的 SPSS 实现 1 Two-Independent-Samples Test对话框如图14-12所示 (1) Test Variable框指定检验变量 (2) Grouping Variable框指定分组变量从左侧变量列表中指定用来分组的变量并使之移到Grouping Variable框中点击 Define Groups按钮进入Define Groups对话框如图14-11所示在Define Groups 对话框中的Group 1和Group 2后的栏中可指定分组变量的值 (3) Test Type框确定用来进行检验的方法在Test Type框中提供了可供用来检验的四种方法它们分别是Mann-Whitney U复选项Kolmogorov-Smirnov Z复选项Moses extreme reactions复选项Wald-Wolfowitz runs 复选项系统默认值为Mann-Whitney U复选项在这四种方法中至少应选择一种 2 Options对话框选择输出结果形式及缺失值处理方式同14.1.4小节 3在Two-Independent-Samples Test对话框中单击OK按钮执行命令 14.6 多个独立样本检验 14.6.1 多个独立样本检验的基本概念要解决两个独立样本间是否具有相同的分布的问题需借助于多个独立样本检验(test for several independent samples)方法多个独立样本检验的基本原理与两个独立样本检验的相同两个独立样本检验是多个独立样本检验中最基本的形式 14.6.2 多个独立样本检验的功能与应用调用K Independent Samples过程可对多个独立样本进行中位数检验和Kruskal-Wallis H检验 14.6.3 多个独立样本检验的应用示例 [例14-6] 随机抽样得以下表14-12中三组人的血桨总皮质醇测定值( g/L)试比较有无差异表1 4-12 血桨总皮质醇测定值数据表正常人单纯性肥胖皮质醇增多症 0.4 1.9 2.2 2.5 2.8 3.1 3.7 3.9 4.6 7.0 0.6 1.2 2.0 2.4 3.1 4.1 5.0 5.9 7.4 13.6 9.8 10.2 10.6 13.0 14.0 14.8 15.6 15.6 21.6 24.0 建立数据文件定义分组变量为group(正常人为1单纯性肥胖为2皮质醇增多症为 3)总皮质醇测定值为pzc如图14-13所示图14-13 血桨总皮质醇测定值数据文件从Analyze ? Nonparametric Tests ? k Independent Samples进入Tests for Several Independent Samples主对话框在对话框左侧的变量列表中选pzc,点击向右的箭头按钮使之进入Test Variable List框选group点击箭头按钮使之进入Grouping Variable框点击 Define Range按钮在弹出的K Independent Samples Define Range对话框内定义 Mininum为1 Maxinum为3如图14-14所示之后点击Continue按钮返回 Two-Independent-Samples-Test对话框在Test Type框中有两个检验方法的选项 Kruskal-Wallis H和Median本例选Kruskal-Wallis H项选择完后的主对话框如图14-15 之后点击OK按钮即可图14-14 Define Range对话框图14-15 Tests for Several Independent Samples主对话框得到结果如下表14-13和表14-14所示表1 4-13 Ranks 秩组别 N Mean Rank 总皮质醇测定值 1 2 3 Total 10 10 10 30 9.65 11.75 25.10 表1 4-14 检验统计量总皮质醇测定值 Chi-Square df Asymp.Sig. 18.130 2 .000 a. Kruskal Wallis Test b.Grouping variable:组别结果显示1至3组的平均秩次(Mean Rank)分别为9.65 11.75 25.10 2 值(即H 值)为18.130 P=0.000可认为三组人的血桨总皮质醇测定值有差异根据本例情况可看出皮质醇增多症组高于其他两组人 14.6.4 多个独立样本检验的 SPSS 实现 1 Tests for Several Independent Samples对话框如图14-15所示 (1) Test Variable框指定检验变量从左侧变量列表中选择需要进行检验的变量移入该框 (2) Grouping Variable框指定分组变量值范围从左面变量列表中指定用来分组的变量并使之移到该框中单击Define Range 按钮进入Define Range对话框如图14-14所示定义变量值范围 z Minimum分组变量范围的下限 z Maximum分组变量范围的上限 (3) Test Type框确定用来进行检验的方法在该框中提供了可供用来检验的两种方法分别如下 z Kruskal-Wallis H复选项为单向方差分析检验多个样本在中位数上是否有差异 z Median复选项为中位数检验检验多个样本是否来自具有相同中位数的总体系统默认值为 Kruskal Wallis H法在这三种方法中至少应选择一种 2 Options对话框选择输出结果形式及缺失值处理方式同14.1.4小节 3在主对话框中点击OK按钮提交运行命令 14.7 两个相关样本检验 14.7.1 两个相关样本检验的基本概念在实际的研究工作中我们经常遇到从同一个被测试对象身上测试2个或多个观测值的情况这样的数据间就不再是相互独立的了而是彼此相关在此种情况下检验样本间是否具有相同的分布要用两个相关样本检验(test for two related samples) 14.7.2 两个相关样本检验的功能与应用调用2 Related Samples过程可对两个相关样本资料(如配对配伍资料)进行秩和检验 14.7.3 两个相关样本检验的应用示例 [例14-7] 用二乙胺化学法与气相色谱法测定车间空气中SO 2 的含量(mg/m 3 )如表 14-15所示问两法所得结果有无差别表1 4-15 两法测定空气中 SO2的含量 mg/m 3 结果样品号 12345678910 化学法 50.7 3.3 28.8 46.2 1.2 25.5 2.9 5.4 3.8 1.0 色谱法 60.0 3.3 30.0 43.2 2.2 27.5 4.9 5.0 3.2 4.0 建立数据文件定义变量huax标识化学法sep标识色谱法如图14-16所示图14-16 两法测定空气中SO 2 的含量(mg/m 3 )数据文件从Analyze ? Nonparametric Tests ? 2 Related Samples进入Two-Related-Samples Tests主对话框在对话框左侧的变量列表中选中化学法[huax]该变量出现在Current Selection当前选择栏中的第一个Variable后面单击选中色谱法[sep]该变量出现在 Current Selection当前选择栏中的第二个Variable后面点击向右的箭头按钮使Current Selection的变量进入Test Pair(s) List框在Test Type栏中选择Wilcoxon和Sign项如图 14-17所示之后点击OK按钮即可得到运算结果如表14-16到表14-19所示图14-17 Two-Related-Samples Tests主对话框表1 4-16 Ranks 秩 N Mean Ranl Sum of Ranks 色谱法-化学法 Negative Ranks Positive Ranks Ties Total 3 a 6 b 1 c 10 3.50 5.75 10.50 34.50 a.色谱法<化学法 b.色谱法>化学法 c.化学法=色谱法表1 4-17 统计检验 a 色谱法-化学法 Z Asymp.Sig.(2-tailed) -1.424 a .154 a. Based on negative ranks. b. Wilcoxon Signed Ranks Test 表1 4-18 频数表 N 色谱法-化学法 Negative Banks Positive Ranks Ties Total 3 6 1 10 a.色谱法<化学法 b.色谱法>化学法 c.化学法=色谱法表1 4-19 统计检验 b 色谱法-化学法 Exact Sig.(2-tailed)双尾精确概率 .508 a 由表14-17得到配对符号秩和检验之统计量Z=-1.424 P=0.154>0.05故不能认为两法测定车间空气中SO 2 的含量有统计意义由表14-19得到P=0.508>0.05故不能认为两法测定车间空气中SO 2 的含量有统计意义与配对符号秩和检验结果一样 14.7.4 两个相关样本检验的 SPSS 实现 1 Two-Relate-Samples Tests主对话框如图14-17所示 (1) Current Selections框指定检验变量对从左面变量列表中选择检验的两个相关变量单击鼠标键使它们置于光带中在 Current Selections框的Variable l和Variable2后面的框中依次出现所选择的两个相关变量名单击右面一个向右的箭头按钮变量名被移到Test Pair(s) List框中如果相关的成对变量为多组则重复上述过程直至指定完 (2) Test Type框确定用来进行检验的方法在Test Type框中提供了可供用来检验的四种方法它们分别是Wilcoxon复选项 Sign复选项McNemar复选项Marginal Homogeneit复选项系统默认值为Wilcoxon法在这四种方法中至少应选择一种检验方法 2 Options对话框中选择输出结果形式及缺失值处理方式同14.1.4小节 3在主对话框中单击OK按钮执行命令 14.8 多个相关样本检验 14.8.1 多个相关样本检验的基本概念上节所提到的两个相关样本检验是多个相关样本检验中最基本的形式要解决多个相关样本间是否具有相同的分布的问题需借助于多个相关样本检验(test for several related Samples方法 14.8.2 多个相关样本检验的功能与应用调用多个相关样本检验过程可对多个相关样本资料(如配伍资料)进行秩和检验 14.8.3 多个相关样本检验的应用示例 [例18-8] 用某药治疗血吸虫病患者采用三天疗法在治疗前和治疗后一周二周和三周各测定7名患者血清谷丙转氨酶SGPT值的变化以观察该药对肝功能的影响结果如下表14-20所示问患者四个阶段的血清谷丙转氨酶SGPT值有无不同建立数据文件定义变量治疗前为before治疗后一周为w1二周为w2三周为 w3按顺序输入各组SGPT数据如图14-18所示从Analyze ? Nonparametric Tests ? k Related Samples进入Tests for Serveral Related Samples主对话框在对话框左侧的变量列表中选before w1 w2和w3点击向右的箭头按钮使before w1 w2和w3均进入Test Variables框在Test Type框中有三种选项Friedman Cochran's Q Kendall's W Kendall本例选Friedman和Kendall’s W两种检验方法再点击Statistics按钮弹出K Related-Samples Statistics对话框在Statistics 栏中选Decriptive项要求计算均数标准差等指标如图14-19所示点击Continue 按钮返回K Related-Samples Tests对话框如图14-20所示最后点击OK钮即可表1 4-20 患者四个阶段的血清谷丙转氨酶 SGPT 值数据表治疗后患者号治疗前一周二周三周 1 2 3 4 5 6 7 63 90 54 45 54 72 64 188 238 300 140 175 300 207 138 220 83 213 150 163 185 54 144 92 100 36 90 87 图14-18 患者四个阶段的血清谷丙转氨酶SGPT值数据文件图14-19 Statistics对话框图14-20 Tests for Several Related Samples主对话框得到运行结果如下表14-21到表14-25所示 N Mean Std. Deviation Minimum Maximum 治疗前一周二周三周 7 7 7 7 63.14 221.14 164.57 86.14 14.70 61.55 47.28 34.49 45 140 83 36 90 300 220 144 表1 4-22 Friedman Test Ranks 秩 Mean Rank 治疗前一周二周三周 1.29 3.86 3.00 1.86 表1 4-23 Friedman Test 检验统计量 N Chi-Square df Asymp.Sig. 7 16.714 3 .001 a.Friedman Test 表1 4-24 Kendall's Test Ranks 秩 Mean Rank 治疗前一周二周三周 1.29 3.86 3.00 1.86 表1 4-25 Kendall's Test 检验统计量 N Kendall’s w Chi-Square df Asymp.Sig. 7 .796 16.714 3 .001 a.Kendall;’s Coefficient of Concordance 由上述表得到卡方值为16.714 df=3 P=0.001<0.05故可认为治疗前后四个阶段的 SGPT差别有统计意义 14.8.4 多个相关样本检验的 SPSS 实现 l Test for Several Related Samples主对话框如图14-20所示表14-21 描述统计量 (1) Test Variable框指定检验变量从左侧变量列表中选择需要进行检验的变量移入该框 (2 Test Type框确定用来进行检验的方法在Test Type框中提供了可供用来检验的三种方法 z Friedman复选项双向方差分析考察多个相关样本是否来自同一总体 z Cochran's Q复选项作为两相关样本McNemar检验的多样本推广特别适用于定性变量和二分字符变量 z Kendall's W Kendall和谐系数检验复选项通过计算Kendall和谐系数W以检验多个相关样本是否来自同一分布的总体 2 Statistics对话框如图14-19所示 (1) Descriptive描述统计量显示均数标准差最小值最大值与不含缺失值例数 (2) Quartiles四分位数显示第25 50与75百分位数 3在主对话框中点击OK按钮提交运行过程思考题 1了解各个非参数检验方法的基本概念思考各个检验方法的应用场合 2参数检验和非参数检验的区别是什么它们都基于什么条件和原理它们的使用范围有何差别 3怎么判断一个样本是否服从指定分布检验概率的作用和含义是什么 4怎样确定两个样本的分布是否相同第1 5 章常用统计图导言本章主要介绍利用 SPSS 作统计图以及对生成统计图的编辑统计图结果比数据结果来得更为直观和生动学会利用统计图来分析问题是相当重要的统计图有许多种如条形图线图面积图等不同的统计图有着不同的使用场合读者在学习本章时一定要弄清每种统计图的使用功能作用 15.1 统计图概述统计图是用点线面等各种几何图形表达统计数据的一种形象的形式其特点是简明生动形象具体通俗易懂且又一目了然 SPSS 具有很强的制图功能可以绘制多种统计图形这些图形可以由各种统计分析过程产生也可以直接由菜单 Graphs 图形菜单产生 SPSS 图形的制作可分为三个过程 1 建立数据文件 2 生成图形 3 修饰生成的图形统计图形的生成与数据文件的结构和类型紧密相关数据文件结构往往决定着生成何种图形同样是来源于同一资料可以做成不同的数据文件结构从而产生各种不同的统计图形医学统计学常用的图形主要有条形图面积图圆图线图直方图箱图误差图和散点图等等数据类型又称为资料类型统计资料常常分为定量资料和定性资料两大类所谓定量指标是指对每个观察单位用计量方法测量某项指标数值的大小而定性指标是指记录每个观察单位的某一方面的特征和性质两类指标进一步有进一步细分为计数资料计量资料标称资料和次序资料计量资料的具体取值通常是正数零和负数可以取某区间内所有的数值计数资料的具体取值通常是零和正整数标称资料取值通常是文字字母和代号即使用数值表示也只是一种分组的标志并不代表数量的大小次序资料的取值与标称资料相同只是不同取值之间有半定量的关系可以按数量的相对大小或程度高低排除顺序称为等级资料 SPSS 将统计数据分为 3 类根据它们测定水平由高到低排列如下 Scale 定量资料 Ordinal 次序资料 Nominal 资料它们在 Define Variable 定义变量对话框中的 Measurement 变量测定水平框中进行转化 15.2 条形图 (Bar Charts) 15.2.1 条形图 (Bar Charts)的功能与应用调用 Graphs 菜单的 Bar 过程可绘制直条图直条图用直条的长短来表示非连续性资料 (该资料可以是绝对数也可以是相对数 )的数量大小常用的有单式条形图和复式条形图 15.2.2 条形图 (Bar Charts)的生成 [例 15-1] 研究血压状态与冠心病各临床型发生情况的关系分析资料如表 15-1 所示试绘制统计图表1 5-1 数据表格年龄标化发生率 1/10 万血压状态冠状动脉机能不全猝死心绞痛心肌梗塞正常临界异常 8.90 10.63 19.84 12.00 18.05 30.55 34.71 46.18 73.06 44.00 67.24 116.82 建立数据文件定义变量名年龄标化发生率为 RATE 冠心病临床型为 DISEASE 血压状态为 BP RATE 按原数据输入 DISEASE 按冠状动脉机能不全 =1 猝死 =2 心绞痛 =3 心肌梗塞 =4 输入 BP 按正常 =1 临界 =2 异常 =3 输入如图 15-1 所示图 15-1 数据文件从 Graphs 菜单到 Bar 过程进入 Bar Chart 对话框在定义选项框的下方有一数据类型栏系统提供了 3 种数据类型 Summaries for groups of cases 以组为单位体现数据 Summaries of separate variables 以变量为单位体现数据 Values of individual cases 以观察样例为单位体现数据大多数情形下统计图都是以组为单位的形式来体现数据的在定义选项框的上方有 3 种直条图可选 Simple 为单一直条图 Clustered 为复式直条图 Stacked 为堆积式直条图本例选复式直条图如图 15-2 所示图 15-2 Bar Charts 定义选项框点击 Define 按钮弹出 Define Clustered Bar Summaries for Groups of Cases 对话框如图 15-3 所示在左侧的变量列表中选年龄标化发生率 [rate] 点击向右的箭头按钮使之进入 Bars Represent 栏的 Other summary function 选项的 Variable 框选中病症 [disease] 点击向右的箭头按钮使之进入 Category Axis 框选中血压状况 [bp] 点击向右的箭头按钮使之进入 Define Clusters by 框图 15-3 Define Clustered Bar Summaries for Groups of Cases 对话框点击 Titles 按钮弹出 Titles 对话框在 Title 栏内输入血压状态与冠心病各临床型年龄标化发生率的关系如图 15-4 所示点击 Continue 按钮返回 Define Clustered Chart Summaries for Groups of Cases 对话框再点击 OK 钮即完成得到结果如图 15-5 所示图 15-4 Titles 对话框血压状态与冠心病各临床型年龄标化发生率的关系病症 4321 M e a n 年龄标化发生率 140 120 100 80 60 40 20 0 血压状况 1 2 3 图 15-5 血压状态与冠心病各临床型年龄标化发生率的关系条形图系统在统计图编辑窗口中输出直条图由于在原始数据库中为了输入的方便分组采用简单的 1 2 3……等数字表示故体现在统计图中的分组条目会让读者感到不理解为此用户可点击窗口上端工具栏中的 Edit 按钮对统计图进行编辑用户欲在图中的哪一部位 (如标题纵横轴的尺度与标目统计图的色彩或花纹等等 )进行编辑只须将鼠标箭头指向这一部位并双击鼠标左键系统即弹出相应的编辑对话框下面对其进行详细介绍 15.2.3 条形图 (Bar Charts)的编辑为了进一步探查数据或增强视觉效果常常需要对 SPSS 生成的图形进行编辑如本例在 SPSS 结果输出窗口 Output 中可直接对生成的图 15-5 进行编辑方法是双击 Output 中的图形即可展开图形编辑窗口 Chart Editor 而原有生成的图形覆以网影表示该图形正处于编辑之中如图 15-6 所示图 15-6 对生成的图形进行编辑 Chart Editor 编辑窗口的命令菜单有十类主要有 Gallery 图形转换菜单可以将当前图形的形式转变成另一种适合当前数据文件结构的图形形式 SPSS 系统可以自动识别可转换的图形 Chart 图形要素菜单可对已生成的图形进行修饰如改变图形版面调整图形的尺度增加图例说明等等 Series 图列菜单可以通过选择而重新编排图列从而改变原有图形等下面以对图 15-5 的编辑为例说明其具体操作过程 1 改变图形的编排顺序欲将原来在条形图横轴上的排列次序改为 4 3 2 1 的操作步骤如下 (1) 在结果输出窗口 Output 的生成图中双击该图形激活图形编辑窗口如图 15-6 所示 (2) 选择并单击 Series ? Displayed 进入 Bar/Line/Area Displayed Data 对话框如图 15-7 所示 z Series 图列 Legend Title 图例标题本例为血压状况 Omit 省略此栏的图例将不在新转换的图形中出现 Display 展示此栏的图例将在新转换的图形中出现 Series Display as 显示图形类型有 Bar 条形图 Line 线形图和 Area 面积图可供选择 z Categories 分类 Category 显示分类轴轴题本例为病症 Omit 省略此栏的分类轴将不在新转换的图形中出现 Display 展示此栏的分类轴将在新转换的图形中出现通过 Display 栏和 Omit 栏的变量相互调换可以改变 Display 栏中变量的顺序变为 4 3 2 1 调换的方法是先将 Categories 中的 Display 栏中的 1 2 3 选中使用左侧的向左的箭头按钮使它们进入 Omit 栏中这时 Display 栏中只剩下 4 再选中 Omit 栏中的 3 点击向右的箭头按钮使之进入 Display 栏中这时 3 排在 4 之后依次将 2 1 选中进入 Display 栏如图 15-7 所示改变后的图形如图 15-8 所示图 15-7 Bar/Line/Area Displayed Data 对话框血压状态与冠心病各临床型年龄标化发生率的关系病症 1234 M e a n 年龄标化发生率 140 120 100 80 60 40 20 0 血压状况 1 2 3 图 15-8 改变编排顺序后的图形 2 改变刻度轴轴题例如欲将本例横轴轴题病症消除并将纵轴轴题改为发生率 (1/10 万 ) 的操作步骤如下 (1) 只要在图形编辑窗口分别对着轴题双击之分别产生 Scale Axis 刻度选择对话框和 Category Axis 分类轴选择对话框如图 15-9 和图 15-10 所示 (2) 选择图 15-9 的 Display axis line 在 Axis 栏中输入轴题发生率 (1/10 万 ) 并在 Title 栏下选择 Center 项从而使轴题位于刻度轴的中部 (3) 在图 15-10 中的 Axis 栏将疾病删除即可图 15-9 Scale Axis 对话框图 15-10 Category Axis 对话框改变后的图形如图 15-11 所示 3 将原图的边框消除在图形编辑窗口中选择并单击 Chart ? Outer Frames ? Inner Frames 使之处于非激活状态消失即可改变后的图形如图 15-11 所示 4 改变刻度显示等本例欲将原图刻度由 20 改为 10 (1) 双击原生成图坐标轴附近即可激活 Scale Axis 对话框如图 15-9 所示 z Scale 刻度轴标尺有两种 Linear 普通线性标尺 Log 以 10 为底的对数标尺 z Major/Minor Division 主 /次刻度 Increment 增量主刻度增量须大于次刻度增量 Ticks 刻度标记 Grid 刻度格线 Bar Origin 条的起始点 (2) 在 Major/Minor Division 的 Increment 增量中键入 10 单击 OK 按钮即可此外还可以改变颜色字体改变后的图形如图 15-11 所示血压状态与冠心病各临床型年龄标化发生率的关系 1234 发生率 140 130 120 110 100 90 80 70 60 50 40 30 20 10 0 血压状况 1 2 3 图 15-11 改变后的图形上图为经编辑后血压状况与冠心病各临床型年龄标化发生率关系的条形图从图中可见冠心病各临床型的发生率以冠状动脉机能不全 (以 1 标记 )最低心肌梗塞 (以 4 标识 ) 最高随血压的升高疾病发生率升高异常血压对心肌梗塞 (以 4 标识 )发生的影响作用大于其他临床型下面各节的统计图的编辑与条形图的编辑的方法基本相同读者可以参照本节的方法加以尝试 15.3 线图 (Line Charts) 15.3.1 线图 (Line Charts)的功能与应用调用 Graphs 菜单的 Line 过程可绘制线图线图是用线条的上下波动形式反映连续性的相对数资料的变化趋势非连续性的资料一般不用线图表现 15.3.2 线图 Line Charts 的生成 [例 152] 某地调查居民心理问题的存在现状资料如下表 15-2 所示试绘制线图比较不同性别和年龄组的居民心理问题检出情况表1 5-2 不同性别和年龄组的居民心理问题数据表格心理问题检出率 %年龄分组男性女性 15- 25- 35- 45- 55- 65- 75- 10.57 11.57 9.57 11.71 13.51 15.02 16.00 19.73 11.98 15.50 13.85 12.91 16.77 21.04 建立数据文件定义变量心理问题检出率为 RATE 年龄分组为 AGE 性别为 SEX AGE 与 SEX 可定义为字符变量 RATE 按原数据输入 AGE 按分组情况分别输入 15- 25- 35- 45- 55- 65- 75- SEX 是男的输入 M 女的输入 F 如图 15-12 所示图 15-12 不同性别和年龄组的居民心理问题数据文件从 Graphs ? Line 进入 Line Chart 对话框弹出 Line Chart 定义选项框有 3 种线图可选 Simple 为单一线图 Multiple 为多条线图 Drop-line 为落点线图本例选多条线图如图 15-13 所示点击 Define 按钮进入 Define Multiple Line Summaries for Groups of Cases 对话框在左侧的变量列表中选中检出率 [rate] 点击向右的箭头按钮使之进入 Lines Represent 栏的 Other summary function 选项的 Variable 框选中年龄 [age] 点击向右的箭头按钮使之进入 Category Axis 框选中性别 [sex] 点击向右的箭头按钮使之进入 Define Lines by 框如图 15-14 所示点击 Titles 按钮弹出 Titles 对话框在 Title 栏内输入某地男女年龄性别心理问题检出率比较如图 15-15 所示点击 Continue 按钮返回 Define Multiple Line Summaries for Groups of Cases 对话框再点击 OK 按钮即可提交运行该过程图 15-13 Line Charts 定义选项框图 15-14 Titles 对话框图 15-15 Define Multiple Line Summaries for Groups of Cases 对话框得到结果如图 15-16 所示分析表明 15-岁组和 65-岁以上组的心理问题检出率较其他年龄组为高女性的心理问题检出率较男性为高某地男女性年龄别心理问题检出率比较年龄 75-65-55-45-35-25-15- M e a n 检出率 22 20 18 16 14 12 10 8 性别 1 2 图 15-16 某地男女年龄性别心理问题检出率比较的线性图 15.4 面积图 (Area Charts) 15.4.1 面积图 (Area Charts)的功能与应用调用 Graphs 菜单的 Area 过程可绘制面积图实际上面积图是用面积来表现连续性的频数分布资料面积越大频数越多反之亦然 15.4.2 面积图 (Area Charts)的生成 [例 15-3] 在某城市抽样研究 20-49 岁已婚育龄妇女的避孕现状频数分布资料参见表 15-3 所示试绘制面积图表1 5-3 频数分布资料避孕现状年龄分组有无 20- 25- 30- 35- 40- 45- 63 939 1860 1277 1141 987 68 184 273 91 173 399 建立数据文件定义变量名避孕有无的人数为 NUMBER 年龄分组为 AGE 避孕现状为 CONTRA AGE 与 CONTRA 可定义为字符变量 NUMBER 按实际人数输入 (有无避孕的人数全部输入变量 NUMBER 中 ) AGE 按分组情况分别输入 20- 25- 30- 35- 40- 45- CONTRA 有的输入 Y 无的输入 N 如图 15-17 所示图 15-17 频数分布数据文件选 Graphs 菜单的 Area 过程弹出 Area Chart 定义选项框有 2 种线图可选 Simple 为简单高低图 Stacked 为堆积高低图本例选堆积高低图如图 15-18 所示点击 Define 按钮弹出 Define Stacked Area Summaries for Groups of Cases 对话框在左侧的变量列表中选人数 [number] 点击向右的箭头按钮使之进入 Areas Represent 栏的 Other summary function 选项的 Variable 框选年龄 [age] 点击向右的箭头按钮使之进入 Category Axis 框选避孕状况 [contra] 点击向右的箭头按钮使之进入 Define Areas by 框如图 15-19 所示点击 Titles 按钮弹出 Titles 对话框在 Title 栏内输入某市已婚育龄妇女避孕状况分析如图 15-20 所示点击 Continue 按钮返回 Define Stacked Area Summaries for Groups of Cases 对话框再点击 OK 按钮即完成得到结果如图 15-21 所示图 15-20 Define Stacked Area Summaries for Groups of Cases 对话框图 15-18 Area Chart 定义选项框图 15-19 Title 对话框某市已婚育龄妇女避孕状况分析年龄 45-40-35-30-25-20- S u m 人数 3000 2000 1000 0 避孕状况 y n 图 15-21 某市已婚育龄妇女避孕状况分析的面积图上图显示年轻妇女 (25 岁之前 )有避孕人数与无避孕人数差不多 25 岁之后有避孕人数占绝大多数而 45 岁以后无避孕人数又开始增加 15.5 圆图 (Pie Charts) 15.5.1 圆图 (Pie Charts)的功能与应用调用 Graphs 菜单的 Pie 过程可绘制圆图圆图也称馅饼图用一个圆来表现百分构成读者可根据圆中各个扇形面积的大小来判断某一部分在全部中所占比例的多少 15.5.2 圆图 (Pie Charts)的生成 [例 15-4] 如图 15-22 为某地 1983 年五种主要死因构成数据文件将其生成圆图从 Graphs 菜单的 Pie 过程弹出 Pie Chart 定义选项框在三种统计量描述模式中选择其中一项本例选择 Values of individual cases 观测值描述模式如图 15-23 所示点击 Define 按钮弹出 Define Pie Values of individual cases 对话框在左侧的变量列表中选死因分类点击向右的箭头按钮使之进入 Slices Labels 栏的 Variable 框选构成比点击向右的箭头按钮使之进入 Slices Represent 框如图 15-24 所示点击 OK 按钮提交完成图 15-23 Pie Charts 定义选项框图 15-22 某地 1983 年五种主要死因构成图 15-24 Define Pie Values of Individual Cases 对话框在 Ouput 窗口生成的圆图如图 15-25 所示消化系病呼吸系病恶性肿瘤脑血管病心脏病图 15-25 未编辑的 Pie Chart 圆图对所生成的圆图进行编辑双击 Output 中的圆图产生图形编辑窗口单击并选择 Chart ? Options 产生 Pie Options 圆图要素选择对话框 Position First 确定第一个扇面的位置圆图的扇面是按钟表的表盘方式排列如果录入的数据为 8 则第一个扇面是从 8 点的位置开始顺时针排列系统默认值为 12 Collapse (Sum) Slices Less than 为合并小于指定百分比的扇面 Label 标识通过此选项可对每个扇面进行标识或编辑这个标识本例选择 Text 扇面文字标识和 Percent(扇面占整个百分比标识 ) 如图 15-26 所示选择好后点击 OK 按钮编辑后的圆图如图 15-27 所示图 15-26 Pie Options 圆图要素选择对话框 4.5% 9.6% 18.6% 31.8% 35.5% 消化系病呼吸系病恶性肿瘤脑血管病心脏病图 15-27 编辑后的 Pie Chart 圆图 15.6 高低图 (High-Low Charts) 15.6.1 高低图 (High-Low Charts)的功能与应用调用 Graphs 菜单的 High-Low 过程可绘制高低图高低图用于表现多种形式的数据区域如一组测定值的范围 (最小值最大值 ) 95%可信区间值 (低限高限 ) 1.96 SD(低值均值高值 )等形象直观 15.6.2 高低图 (High-Low Charts)的生成 [例 15-5] 为了解水体污染情况某市测定三种水源中放射性元素锶 ( 90 Sr)的含量 (10 -2 Bq·L -1 ) 资料如表 15-4 所示试绘制高低图表1 5-4 放射性元素锶 ( 90 Sr)的含量数据表格水源点范围均值自来水湖水水库水 0.65 0.93 1.31 2.11 1.01 2.16 0.79 1.71 1.58 建立数据文件定义变量名数据的变量名为 DATA 将范围的低值与高值以及均值一并输入设一变量为 CAT 用于定义低值高值和均值低值为 1 高值为 2 均值为 3 水源点变量名为 GROUP 依次输入 1 2 3 如图 15-28 所示从 Graphs 菜单到 High-Low 过程弹出 High-Low Chart 定义选项框高低图有 5 种即 Simple High-Low-Close 简单线型高低图图 15-28 放射性元素锶 ( 90 Sr) 的含量数据文件 Clustered High-Low-Close 复式线型高低图 Simple Range Bar 简单直条型高低图 Clustered Range Bar 复式直条型高低图 Difference Line 差异线图本例选用简单线型高低图在 Data in Chart Are 栏中选择 Summaries for groups ofcases 如图 15-29 所示图 15-29 High-Low Chart 定义选项框然后点击 Define 按钮弹出 Define Simple High-Low-Close Summaries for Groups of Cases 对话框在左侧的变量列表中选 data 点击向右的箭头按钮使之进入 Bars Represent 栏的 Other summary function 选项的 Variable 框选 cat 点击向右的箭头按钮使之进入 Category Axis 框 , 选 group 点击箭头按钮使之进入 Define High-Low-Close by 框如图 15-30 所示图 15-30 Define Simple High-Low-Close Summaries for Groups of Cases 对话框点击 Titles 按钮弹出 Titles 对话框在 Title 栏内输入某市测定不同水体放射性元素锶的含量比较如图 15-31 所示点击 Continue 按钮返回 Define Simple High-Low-Close Summaries for Groups of Cases 对话框再点击 OK 钮即完成提交图 15-31 Titles 对话框得到结果如下图 15-32 所示该图显示放射性元素锶的含量在湖水中最高在自来水中最低但水库水中其含量不仅高而且变化幅度最大某市测定不同水体放射性元素锶的含量比较 CAT 321 Mean DATA 2.5 2.0 1.5 1.0 .5 GROUP 1 2 3 图 15-32 高低图 15.7 直条构成线图 (Pareto Charts) 15.7.1 直条构成线图 (Pareto Charts)的功能与应用调用 Graphs 菜单的 Pareto 过程可绘制直条构成线图 (又称佩尔托图 ) 直条构成线图用直条的长短表现各组绝对数的多少同时用线段的逐渐上升趋势表现各组百分构成比接近 100.00%的过程 15.7.2 直条构成线图 (Pareto Charts)的生成 [例 15-6] 随访 1000 名 20-25 岁的男性一年分季节考察其感冒发生情况结果如下表 15-5 所示试绘制直条构成线图表1 5-5 男性感冒发生情况数据表格季节病例数百分构成 % 春夏秋冬 443 104 379 187 39.80 9.35 34.05 16.80 合计 1113 100.00 建立数据文件定义变量名各季节病例数的变量名为 DATA 输入具体数字季节的变量名为 SEASON 依次输入 1 2 3 4 百分构成不必建立变量也不必输入数据系统会自动生成如图 15-33 所示选 Graphs 菜单的 Pareto 过程进入 Pareto Chart 定义选项框有 2 种直条构成线图可选 Simple 为单一直条构成线图 Stacked 为堆积式直条构成线图本例选用单一直条构成线图如图 15-34 所示图 15-33 数据文件图 15-34 Pareto Chart 定义选项框然后点击 Define 按钮弹出 Define Simple Pareto Summaries for Groups of Cases 对话框在左侧的变量列表中选 data 点击向右的箭头按钮使之进入 Sums of variable 框选 season 点击向右的箭头按钮使之进入 Category Axis 框如图 15-35 所示图 15-35 Define Simple Pareto Summaries for Groups of Cases 对话框点击 Titles 按钮弹出 Titles 对话框在 Title 栏内输入 1000 名 20-25 岁男性各季节感冒发生人数分析如图 15-36 所示点击 Continue 按钮返回 Define Simple Pareto Summaries for Groups of Cases 对话框再点击 OK 钮即完成得到结果如图 15-37 所示图 15-36 Title 对话框 1000名 20-25岁男性各季节感冒发生人数分析 SEASON 2431 DATA 1400 1200 1000 800 600 400 200 0 Percent 100 50 0 113 204 413 483 图 15-37 直条构成线图图 15-37 显示春秋季的感冒病例比其他季节多仅春季的病例数已接近全年病例数的一半夏季感冒病例最少占全年病例数的比例不到 10% 15.8 质量控制图 (Control Charts) 15.8.1 质量控制图 (Control Charts)的功能与应用调用 Graphs 菜单的 Control 过程可绘制质量控制图质量控制图是进行质量控制的常用工具可提示工作过程中所发生的变化及其趋势从而提醒人们的警觉与注意以便分析原因采取解决对策 15.8.2 质量控制图 (Control Charts)的生成 [例 15-7] 对一种标准试液中某物质含量测平行样 5 次结果如下表 15-6 试绘制质量控制图以便对准确度与精确度进行评价表1 5-6 某物质含量数据表格平行样测定次序第一次第二次均数极差 1 2 3 4 5 10.4 10.8 9.8 9.4 10.1 10.1 11.0 10.4 11.0 11.3 10.25 10.90 10.10 10.20 10.70 0.3 0.2 0.6 1.6 1.2 建立数据文件定义变量名平行样数据的变量名为 DATA 将测定数据一并输入设一变量为 GROUP 用于定义测定次序依次输入 1 2 3 4 5 均数和极差的数据不必输入系统会自动生成如图 15-38 所示图 15-38 某物质含量数据文件从 Graphs 菜单到 Control 过程弹出 Control Charts 定义选项框有 5 种质量控制图可选 X-Bar R s 均数控制图和极差 (标准差 )控制图均数控制图又称图用于控制重复测定的准确度极差控制图又称 R 图用于控制例数较少时重复测定的精确度标准差控制图又称 s 图用于控制例数较多时重复测定的精确度 Individuals, Moving Range 个值控制图根据容许区间的原理绘制适用于单个测定值的控制 p np 率的控制图根据率的二项分布原理绘制适用于率的控制 c u 数量控制图根据组中非一致测定值绘制各组例数相等时用 u 图不相等时用 c 图适用于属性资料的质量控制本例选用 X-Bar R s 选项框的下方为数据类型选择栏 Data Organization Cases are units 表示数据文件中各观察样例只是一个值其分组需要再定义 Cases are subgroups 表示数据文件中各观察样例本身就是一个组本例选择 Cases are units 如图 15-39 所示点击 Define 按钮弹出 X-Bar R s Cases Are Units 对话框在左侧的变量列表中选 data 点击向右的箭头按钮使之进入 Process Measurement 框选 group 点击向右的箭头按图 15-39 Control Chart 定义选项框钮使之进入 Subgroups Defined by 框因本例样品少故在 Charts 栏中选 X-Bar and range 项要求输出均数控制图和极差控制图如图 15-40 所示图 15-40 X-Bar R s Cases Are Units 对话框点击 Titles 按钮弹出 Titles 对话框在 Title 栏内输入样品测定的质量控制图如图 15-41 所示点击 Continue 按钮返回 X-Bar R s Cases Are Units 对话框再点击 OK 按钮即完成图 15-41 Titles 对话框得到结果如图 15-42 和图 15-43 所示图 15-42 为均数控制图平均中心线的值为五组均数的平均值其极差均值为五组极差的平均值并由此计算得到上下控制限该图将用于日后测定的准确度检查测定值在上下控制限之内的属随机波动超出上下控制限的为测定失控图 15-43 为极差控制图将用于日后测定的精确度检查测定值的极差在上下控制限之内的范围随机波动超出上下控制限的为测定失控样品测定的质量控制图 Sigma level: 3 54321 Mean 12.01369 11.22184 10.43000 9.63816 8.84631 DATA UCL = 11.896 Average = 10.430 LCL = 8.964 图 15-42 均数控制图样品测定的质量控制图 Sigma level: 3 54321 Range 3.0 2.5 2.0 1.5 1.0 .5 0.0 DATA UCL = 2.548 Average = .780 LCL = .000 图 15-43 极差控制图 15.9 箱图 (Boxplots) 15.9.1 箱图 (Boxplots)的功能与应用调用 Graphs 菜单的 Boxplot 过程可绘制箱图箱图可用于表现观测数据的中位数四分位数和两头极端值 15.9.2 箱图 (Boxplots)的生成 [例 15-8] 下图 15-44 为两组小鼠发癌后生存日数的数据文件将其生成箱图从 Graphs 到 Boxplot 过程进入 Boxplot 定义选项对话框选择 Simple 单一箱图并选择 Summaries for groups of cases 如图 15-45 所示图 15-44 两组小鼠发癌后的生存日数图 15-45 Boxplot 定义选项对话框点击 Define 按钮弹出 Define Simple Boxplot Summaries for Groups of Cases 对话框在左侧的变量列表中选 survival 点击向右的箭头按钮使之进入 Variable 框选 group 点击向右的箭头按钮使之进入 Category Axis 框如图 15-46 所示图 15-46 Define Simple Boxplot Summaries for Groups of Cases 对话框单击 OK 按钮提交运行得到结果如下表 15-7 和图 15-47 所示表1 5-7 分析处理概况 Cases Valid Missing Total 组别 N Percent N Percent N Percent 生存日数对照组 3 100.0% 0 .0% 3 100.0% 实验组 4 100.0% 0 .0% 4 100.0% 对图 15-47 的解释如下矩形框是箱图的主体上中下三条线分别表示变量值的第 75 50 25 百分位数变量的 50 的观测值落在这一区域中触须线是中间的纵向直线上截止横线是变量值本体最大值下截止横线是变量值本体最小值本体是指除奇异值和极值以外的变量值称为本体值奇异值是指其变量值大于或小于 (P 75 P 25 ) 1.5 极值是指其变量值大于或小于 (P 75 P 25 ) 3.0 43N = 组别实验组对照组生存日数 20 10 0 图 15-47 Simple Boxplot 简单箱图 15.10 误差条图 (Error Bar Charts) 15.10.1 误差条图 (Error Bar Charts)的功能与应用调用 Graphs 菜单的 Error Bar 过程可绘制误差条图正态分布资料的描述性指标如均值标准差标准误并由此求得的参照值范围总体均值的可信区间等都可用误差条图来表现 15.10.2 误差条图 (Error Bar Charts)的生成 [例 15-9] 下图 15-48 为某地 29 名 13 岁男童的身高体重肺活量数据文件将其中的两变量生成误差条图从 Graphs 到 Error Bar 进入 Error Bar 定义选项框选择 Simple 单一误差条图和 Summaries of Separate Variables 如图 15-49 所示图 15-48 某地 13 岁男童的数据文件图 15-49 Error Bar 定义选项框点击 Define 按钮进入 Define Simple Error Bar Summaries of Separate Variables 对话框将变量身高和体重放入 Error Bars 框中在 Bars Represent 选择 Standard deviation 在 Multiple 栏中输入 1.96 如图 15-50 所示单击 OK 按钮提交运行该过程运算结果如图 15-51 所示图 15-50 Define Simple Error Bar Summaries of Separate Variables 对话框 99N = 体重身高 Mean +- 1 .96 SD 200 100 0 图 15-51 Simple Error BarChart 单一误差条图 15.11 散点图 (Scatterplots) 15.11.1 散点图 (Scatterplots)的功能与应用调用 Graphs 菜单的 Scatter 过程可绘制散点图散点图用于表现测量数据的原始分布状况读者可从点的位置判断测量值的高低大小变动趋势或变化范围 15.11.2 散点图 (Scatterplots)的生成 [例 15-10] 研究饮茶对人体血清微量元素 ( mol/L)的影响作用结果如表 15-8 所示试绘制散点图表1 5-8 饮茶对人体血清微量元素作用的数据表格多喝茶组少喝茶组不喝茶组编号 Zn Fe Mn Zn Fe Mn Zn Fe Mn 1 2 3 15.87 16.27 16.77 36.87 35.90 37.45 0.29 0.28 0.24 13.25 12.98 13.64 32.40 32.65 33.04 0.21 0.22 0.19 11.40 10.89 11.05 29.87 30.14 30.70 0.12 0.14 0.11 建立数据文件定义变量名数据的变量名为 DATA 将各组各微量元素的测定值一并输入设一变量为 CATE1 用于定义喝茶状况组多喝茶组为 1 少喝茶组为 2 不喝茶组为 3 再设一变量为 CATE2 用于定义微量元素种类 Zn 为 1 Fe 为 2 Mn 为 3 如图 15-52 所示图 15-52 饮茶对人体血清微量元素作用的数据文件从 Graphs 菜单到 Scatter 过程弹出 Scatterplot 定义选项框散点图有 4 种 Simple 为单层散点图 Overlay 为多层散点图 Matrix 为矩阵散点图 3-D 为立体散点图本例选用单层散点图如图 15-53 所示图 15-53 Scatterplot 定义选项框然后点击 Define 按钮弹出 Simple Scatterplot 对话框在左侧的变量列表中选 data 点击向右的箭头按钮使之进入 Y Axis 框选 cate1 点击向右的箭头按钮使之进入 X Axis 框 (指定饮茶状况为横轴标目 ) 选 cate2 点击向右的箭头按钮使之进入 Set Markers by 框 (指定微量元素种类为散点标志 ) 如图 15-54 所示图 15-54 Simple Scatterplot 对话框点击 Titles 按钮弹出 Titles 对话框在 Title 栏内输入饮茶与人体血清微量元素的关系如图 15-55 所示点击 Continue 按钮返回 Simple Scatterplot 对话框再点击 OK 钮即完成得到结果如图 15-56 所示饮茶与人体血清微量元素的关系 CATE1 3.53.02.52.01.51.0.5 DATA 40 30 20 10 0 -10 CATE2 3 2 1 图 15-55 Titles 对话框图 15-56 饮茶与人体血清微量元素的散点图图 15-56 显示横轴标目中 1.0 为多喝茶组 2.0 为少喝茶组 3.0 为不喝茶组图中可见饮茶对提高人体血清铁 (Fe 标识为 2)和锌 (Zn 标识为 1)的含量有明显的作用且饮茶量越大效果越明显但对锰 (Mn 标识为 3)的作用较小饮茶量与效果的关系不明显 15.12 直方图 (Histogram) 15.12.1 直方图 (Histogram)的功能与应用调用 Graphs 菜单的 Histogram 过程可绘制直方图直方图是用直条的长短来表示连续性的绝对数 (或称频数 )资料的多少其意义与本章第三节介绍的区域图相似但区域图能进行多组资料的比较 (如堆积式区域图 ) 而直方图不能 15.12.2 直方图 (Histogram)的生成 [例 15-11] 现有某地某年流行性乙型脑炎患者的年龄分布资料如表 15-9 所示试绘制直方图表1 5-9 流行性乙型脑炎患者的年龄分布数据表格年龄分组患者人数每岁患者人数 0- 1- 2- 3- 4- 5- 6- 7- 8- 9- 10-14 15-19 20-24 25-29 30-34 35-44 45-54 55-6 30 30 75 78 77 49 71 59 56 67 143 77 16 10 12 7 3 1 30.0 30.0 75.0 78.0 77.0 49.0 71.0 59.0 56.0 67.0 28.6 15.4 3.2 2.0 2.4 0.7 0.3 0.1 建立数据文件定义变量名频数资料的变量名为 NUMBER 将每岁患者人数资料输入变量 GROUP 用于定义年龄组将各年龄分组的下限值输入如图 15-57 所示图 15-57 流行性乙型脑炎患者的年龄分布数据文件为使频数资料在作图中生效应选 Data 菜单的 Weight Cases 命令在弹出的 Weight Cases 对话框中取 Weight cases by 项并选变量 number 点击向右的箭头按钮使之进入 Frequency Variable 框点击 OK 按钮即可选 Graphs 菜单的 Histogram 过程因直方图只有一种类型故直接弹出 Histogram 对话框在左侧的变量列表中选 group 点击箭头按钮使之进入 Variable 框如图 15-58 所示图 15-58 Histogram 对话框点击 Titles 按钮弹出 Titles 对话框在 Title 栏内输入某地某年流行性乙型脑炎患者年龄分布如图 15-59 所示点击 Continue 按钮返回 Histogram 对话框再点击 OK 钮即完成得到结果如图 15-60 所示 GROUP 55.0 50.0 45.0 40.0 35.0 30.0 25.0 20.0 15.0 10.0 5.0 0.0 某地某年流行性乙型脑炎患者年龄分布 Cases weighted by NUMBER 400 300 200 100 0 Std. Dev = 4.06 Mean = 5.6 N = 644.70 图 15-59 Titles 对话框图 15-60 流行性乙型脑炎患者的年龄分布的直方图由图 15-60 可以看出该地流行性乙型脑炎患者主要集中在 10 岁之前 10 岁之后患者数骤减尤其是 35 岁之后患者数几乎为 0 15.13 正态概率分布图 (Normal P-P Plots) 15.13.1 正态概率分布图 (Normal P-P Plots)的功能与应用调用 Graphs 菜单的 Normal P-P 过程可绘制正态概率分布图如果变量值是正态分布的则所绘制的正态概率分布图将呈现一条从纵轴零点指定右上角的直线 15.13.2 正态概率分布图 (Normal P-P Plots)的生成 [例 15-12] 某医师测得 30 名健康女大学生血清总蛋白含量 (g/L) 资料如下图数据文件 15-61 所示试绘制正态概率分布图图 15-61 30 名健康女大学生血清总蛋白含量数据文件选 Graphs 菜单的 Normal P-P 过程弹出 Normal P-P Plot 对话框在左侧的变量列表中选蛋白含量点击向右的箭头按钮使之进入 Variable 框在 Transform 栏中系统有 4 种数据转换形式供用户选择 Natural Log transform 作自然对数的转换 Standardize values 作标准化值 (即 Z 值 )的转换 Difference 使用系列值与 n 个相近观察值的差别值替代原始值 Seasonally difference 使用系列值与 n 个时期值的差别值替代原始值本例不作数据转换在 Proportion Estimation Formula 栏中共有 4 种计算预期正态概率值的方法 Blom’s 公式为 (r (3/8))/(n+(1/4) Tukey’s 公式为 (r (1/2))/n Rankit 公式为 (r (1/3))/(n+(1/3) Van der Waerden 公式为 r/(n+1 上列各式中 n 为观察单位数 r 为 1~n 的秩次本例选 Blom’s 方法如图 15-62 所示点击 OK 按钮完成操作得到结果如图 15-63(a)和图 15-63(b)所示图 15-62 Normal P-P Plot 对话框 Normal P-P Plot of 蛋白含量 Observed Cum Prob 1.00.75.50.250.00 Expected Cum Prob 1.00 .75 .50 .25 0.00 Detrended Normal P-P Plot of 蛋白含 Observed Cum Prob 1.0.8.6.4.20.0 Deviation from Normal .06 .04 .02 0.00 -.02 -.04 -.06 -.08 图 15-63(a) Normal P-P 正态概率分布图图 15-63(b) 正态概率分布无趋势图图 15-63(a)显示观察值紧贴正态概率线分布由此可知其服从正态分布 15.14 正态概率单位分布图 (Normal Q-Q Plots) 15.14.1 正态概率单位分布图 (Normal Q-Q Plots)的功能与应用调用 Graphs 菜单的 Normal Q-Q 过程可绘制正态概率单位分布图绘制正态概率单位分布图的意义与本章 15.13 介绍的正态概率分布图一样只是其纵轴采用概率单位而不是采用概率 15.14.2 正态概率单位分布图 (Normal Q-Q Plots)的生成 [例 15-13] 某医师研究了不同布氏菌苗免疫后布氏菌素皮肤反应情况资料如表 15-10 所示试绘制正态概率单位分布图表1 5-10 不同布氏菌苗免疫后布氏菌素皮肤反应情况数据 A 组菌苗皮肤浸润直径 mm 20.0 24.0 25.0 23.0 22.0 20.5 17.5 19.0 25.0 23.0 24.0 24.0 16.5 21.0 15.0 11.5 20.5 15.5 22.5 25.5 B 组菌苗皮肤浸润直径 mm 20.0 20.0 22.0 20.0 15.5 18.5 16.5 15.5 18.0 16.5 15.5 20.0 14.0 13.5 13.5 12.5 16.5 14.5 13.0 20.5 20.5 25.0 10.0 20.0 22.5 18.0 建立数据文件 A 组菌苗皮肤浸润直径的数据变量名为 X1 将原始测定值输入 B 组菌苗皮肤浸润直径的数据变量名为 X2 也将原始测定值输入如图 15-64 所示图 15-64 不同布氏菌苗免疫后布氏菌素皮肤反应情况的数据文件选 Graphs 菜单的 Normal Q-Q 过程弹出 Normal Q-Q Plot 对话框在左侧的变量列表中选 x1 x2 点击向右的箭头按钮使之进入 Variable 框不作数据转换选择 Blom’s 方法推算预期正态概率单位值如图 15-65 所示点击 OK 按钮完成操作图 15-65 Normal Q-Q Plot 对话框得到结果如图 15-66 到图 16-69 所示由于是对两个变量作正态概率单位分布图故系统输出 4 张图比较变量 X1 与 X2 的正态概率单位分布图可看到变量 X1 的分布形式偏离正态因其值大多落在 0 概率单位之下故呈现一定程度的正偏态而变量 X2 的分布形式接近正态其值较均匀地紧贴正态概率单位线 Normal Q-Q Plot of X1 Observed Value 302010 Expected Normal Value 30 28 26 24 22 20 18 16 14 12 Normal Q-Q Plot of X2 Observed Value 2624222018161412108 Expected Normal Value 26 24 22 20 18 16 14 12 10 图 15-66 变量 X1 的正态概率分布图图 15-67 变量 X2 的正态概率分布图 Detrended Normal Q-Q Plot of X1 Observed Value 262422201816141210 Deviation from Normal 1.5 1.0 .5 0.0 -.5 -1.0 -1.5 -2.0 -2.5 Detrended Normal Q-Q Plot of X2 Observed Value 2624222018161412108 Deviation from Normal .8 .6 .4 .2 -.0 -.2 -.4 -.6 图 15-68 变量 X1 的正态概率分布无趋势图图 15-69 变量 X2 的正态概率分布无趋势图 15.15 普通序列图 (Sequence Charts) 15.15.1 普通序列图 (Sequence Charts)的功能与应用调用 Graphs 菜单的 Sequence”过程可绘制普通序列图普通序列图用于表现一组或几组观察值随另一序列性变量变化的趋势 15.15.2 普通序列图 (Sequence Charts)的生成 [例 15-14] 研究气相色谱仪采用硅胶采样管测定苯胺的稳定性资料如表 15-11 所示试绘制普通序列图表1 5-11 测定苯胺的数据表格分析时间 (min) 加入值 ( g) 测定值 ( g) 0 1 3 5 7 10 100 100 100 100 100 100 101.8 106.0 104.0 98.0 99.0 96.0 建立数据文件定义变量名加入值数据的变量名为 X1 测定值数据的变量名为 X2 分析时间的变量名为 TIME 将原始数据一一输入即可如图 15-70 所示图 15-70 测定苯胺数据文件从 Graphs 菜单到 Sequence 过程弹出 Sequence Chart 对话框在左侧的变量列表中选 x1 x2 点击向右的箭头按钮使之进入 Variable 框选 time 点击箭头按钮使之进入 Time Axis Labels 框点击 OK 按钮即完成如图 15-71 所示图 15-71 Sequence Chart 对话框得到结果如图 15-72 所示 TIME 1075310 108 106 104 102 100 98 96 94 X1 X2 图 15-72 苯胺测定的 Sequence Chart 普通序列图图 15-72 为气相色谱仪采用硅胶采样管测定苯胺的稳定性研究图该图显示测定值围绕加入值作小幅度 (<6%)的波动测定前期测定值高于实际加入值测定后期测定值低于实际加入值最佳测定时间为样品加入后 3 5 分钟内 15.16 时间序列图 (Time Series Charts) 15.16.1 时间序列图 (Time Series Charts)的功能与应用调用 Graphs 菜单的 Time Series 过程可绘制时间序列图时间序列是指按时间顺序排列的随机变量的一组实测值分析时间序列图可以从运动的角度认识事物的本质如几个时间序列之间的差别一个较长时间序列的周期性或对未来的情况进行预测 15.16.2 时间序列图 (Time Series Charts)的生成 [例 15-15] 连续 4 周 (每周 5 个工作日 )测定某无菌操作室空气中的细菌含量 ( 103/M3) 资料如表 15-12 所示试绘制时间序列图看是否存在周期性变动趋势建立数据文件定义变量名为 DATA 然后按时间顺序从第一周第 1 天起将观察数据依次输入如图 15-73 所示表1 5-12 某无菌操作室空气中的细菌含量数据表时间第一周第二周第三周第四周第 1 天第 2 天第 3 天第 4 天第 5 天 3.7 4.0 11.5 7.5 3.8 3.0 6.6 12.7 5.9 2.0 4.4 4.9 10.8 5.6 4.1 3.2 4.8 10.9 5.8 6.0 表 15-73 某无菌操作室空气中的细菌含量数据文件在 Graphs 菜单的 Time Series 项中含两个过程 Autocorrelations 自相关时间序列图自相关指相关值来自一组时间序列中前一时间序列与其后序列的各对应观测值的相关 Cross-correlations 交叉相关时间序列图交互相关指相关值来自某一时间序列变量与相邻另一个或一些时间序列变量的各对应观测值的相关本例只有一个随机变量故选用 Autocorrelations 过程在弹出的 Autocorrelations 对话框中选左侧变量列表中的 data 点击向右的箭头按钮使之进入 Variable 框在 Display 栏选 Autocorrelations 项要求仅绘制自动相关的时间序列图如图 15-74 所示图 15-74 Autocorrelations 对话框点击 Options 按钮弹出 Autocorrelations Options 对话框在 Maximum Number of Lags 处输入 5 表示时间序列阶段为每 5 天一个周期如图 15-75 所示图 15-75 Autocorrelation Options 对话框点击 Continue 钮返回 Autocorrelations 对话框再点击 OK 按钮即完成得到结果如图 15-76 所示 DATA Lag Number 54321 ACF 1.0 .5 0.0 -.5 -1.0 Confidence Limits Coefficient 图 15-76 某无菌操作室空气中的细菌含量的时间序列图在时间序列图中用户可根据相关系数的大小来判断序列模型的变动趋势一般地说相关系数为 0 或为 <0 则前后序列或相邻序列的变动趋势保持原状当最大的正相关系数出现在最后一个时点之前的任一时点时表明趋势变动完整地说是后面的或相邻变量的序列较前面的或相邻前面变量的序列延迟前面的或相邻前面变量的序列超前的时点即在最大正相关系数所在的时点如本例系统按用户指向一个时间序列为 5 个时点段图 15-76 显示最大正相关系数位于最后一个时点故表明前后时间序列稳定即具有周期性思考题 1 熟悉各种统计图生成的过程掌握不同的统计图有着不同的使用场合 2 如何改变生成统计图的横坐标纵坐标的标识和刻度了解常用统计图的编辑方法

课件简介

课件名称：	spss 10.0 讲义（注释版）
课件分类：	计算机
课件类型：	电子图书
文件大小：	7.31MB
下载次数：	3
评论次数：	3
用户评分：	8

1. spss 10.0 讲义（注释版）：spss10.0讲义注释版

用户列表