返回总目录返回总目录返回总目录返回总目录 目目目目 录录录录 第1章 SPSS 10.0概述 导言 1.1 SPSS 10.0的特点 1.2 SPSS 10.0对环境的要求 1.3 SPSS 10.0的安装及启动退出 思考题 第2章 SPSS的系统简介 导言 2.1 SPSS的命令类型 2.2 系统的运行管理及帮助 思考题 第3章 数据输入与交换 导言 3.1 数据类型 3.2 文件 3.3 数据输入 3.4 数据编辑 3.5 数据交换 3.6 结果输出 3.7 数据或结果的打印 思考题 第4章 为分析作好准备 导言 4.1 数据文件的整理 4.2 对数据进行分类汇总 4.3 对数据进行变换和计算 思考题 第5章 统计分析功能概述 导言 5.1 SPSS 统计功能概述 5.2 SPSS数值分析过程 5.3 SPSS 图形分析过程 思考题 第6章 统计描述 导言 6.1 频数分布表分析(Frequencies) 6.2 Descriptives过程 6.3 平均数分析Means 思考题 第7章 相关分析 导言 7.1 相关分析的概念与相关分析过程 7.2 两个变量的相关分析 7.3 偏相关分析 7.4 距离分析 思考题 第8章 均值比较与T检验 导言 8.1 均值比较与均值比较的检验过程 8.2 单样本T检验 8.3 独立样本T检验 8.4 配对样本T检验 思考题 第9章 方差分析 导言 9.1 方差分析的基本概念及方差分析过程 9.2 单因素方差分析 9.3 简单方差分析过程 9.4 协方差分析 9.5 多元方差分析过程 9.6 重复测量设计的方差分析 思考题 第10章 回归分析 导言 10.1 线性回归 10.2 曲线拟合 10.3 逻辑回归分析 10.4 bCOX回归分析 10.5 概率单位回归 思考题 第11章 聚类与判别 导言 11.1 聚类判别分析及其分析过程 11.2 快速样本聚类 11.3 分层聚类 11.4 判别分析 思考题 第12章 因子分析 导言 12.1 因子分析和因子分析Factor过程简介 12.2 因子分析 思考题 第13章 列联表分析 导言 13.1 Crosstabs过程 13.2 四格表卡方检验 13.3 R×C表卡方检验 思考题 第14章 非参数检验 导言 14.1 卡方检验 14.2 二项分布检验 14.3 游程检验 14.4 单样本K-S检验 14.5 两个独立样本检验 14.6 多个独立样本检验 14.7 两个相关样本检验 14.8 多个相关样本检验 思考题 第15章 常用统计图 导言 15.1 统计图概述 15.2 条形图(Bar Charts) 15.3 线图(Line Charts) 15.4 面积图(Area Charts) 15.5 圆图(Pie Charts) 15.6 高低图(High-Low Charts) 15.7 直条构成线图(Pareto Charts) 15.8 质量控制图(Control Charts) 15.9 箱图(Boxplots) 15.10 误差条图(Error Bar Charts) 15.11 散点图(Scatterplots) 15.12 直方图(Histogram) 15.13 正态概率分布图(Normal P-P Plots) 15.14 正态概率单位分布图(Normal Q-Q Plots) 15.15 普通序列图(Sequence Charts) 15.16 时间序列图(Time Series Charts) 思考题 第1章 SPSS 10.0 概述 导 言 本章不仅简介了SPSS 10.0原有的一些主要功能和基本概念而且还简要介绍了SPSS 的新界面新增功能和一些新特点另外本章还就SPSS对安装环境的要求进行了阐述 特别的为了便于那些对于电脑使用和软件运用不太熟练的读者本章对于SPSS的安装 和启动做了较为详尽的介绍 今天的世界真是一个变化太快的世界尤其在计算机软件方面软件的发展真是太快 了当很多人还刚刚学会熟练使用SPSS 9.0版的时候SPSS最新的10.0版又来了那么 和以前的版本相比SPSS这次的更新又加进了些什么内容呢 1.1 SPSS 10.0的特点 SPSS for Windows是SPSS/PC的Windows版本因此具有Windows软件的共同特点 它又是世界上流行的三大统计分析软件之一除了社会科学自然科学领域的统计分析也 少不了它它正在社会各个领域发挥越来越大的威力下面着重介绍SPSS 10.0的新特点 1.1.1 界面的改进 SPSS在界面的易用性上继承了以往的风格仍然是把界面的易用性放在了首位这次 更新中也在这一方面下了一番工夫一打开SPSS你就会发现它的界面已经有了一些明显 的改变请看图1-1所示 图1-1 SPSS 10.0 for Windows界面 其实这个数据编辑窗口是完全重新设计的比较明显的改变是以前的数据管理窗口 就是一个数据表而现在则变成了两张表格像EXCEL一样那里出现了Data View和 Variable View两个标签不要忽视这点变化现在SPSS的变量管理方式和以前大不相同 了以前我们只要选择菜单Data==>Define Variable或直接在列变量名上双击系统就会弹 出定义变量对话框现在这个对话框已经消失了如果选择菜单则系统只会傻乎乎的加 入诸如Var00001之类的一个新变量根本不给你选择余地真是让人哭笑不得而如果在 列变量名上双击则系统会自动跳转到Variable View表让你自己定义变量使用过数据 库软件的朋友一定会对这个界面倍感亲切不错它的使用方法和FoxPro ACCESS等的 变量定义窗口非常类似在很多人眼里这是一大进步因为当需要定义一大堆变量的时 候这可比以前方便多了 图1-2 在Data Editor窗口中输入数据 另外SPSS 10.0的数据栏也做了变动现在左部的位置框成了灰色并且当移动到空 白单元格时也会同步显示出该单元格所在的行列数数据表也被限制为40*40的有限表 以节约系统资源不再是无限表格加快了计算机的运行速度 1.1.2 数据接口的增强 很多使用者说SPSS的数据接口是统计软件中做得最好的即便如此这一次它又有 了进一步的增强以前在读取EXCEL ACCESS等流行数据文件类型时需要调用ODBC 接口使用起来比较麻烦对使用者的要求也较高而现在SPSS已经可以直接读取5.0 版以上的EXCEL数据文件(包括EXCEL 2000)了也就是说要打开EXCEL文件已简单 到只要在文件类型中选择EXCEL(*.xls)类型然后选中文件名就可以了SPSS会自动识 别具体是哪个版本不会有任何的数据丢失另外File菜单也做了一些改动9.0版和 10.0版的File菜单分别如下所示图1-3所示 菜单上面加入了Print Preview另外将Recent File List变为了Recently Used Data和 Recently Used Files两个子菜单使用上更方便但最引人注目的是新加入的Cache Data 菜单项现在你可以将所用的数据全部读入内存以大大加快运算速度 9.0版的File菜单 10.0版的File菜单 图1-3 9.0版与10.0版对比 1.1.3 新的统计地图功能 SPSS 10.0在统计图中新增了统计地图功能其菜单 如下所示 这个功能有什么用呢举个例子吧比如说微软公 司想看看D版Windows 2000在亚洲的销售情况只需 要按要求输入具体数据再在地图上选择Aisa就会绘 制出精美的统计地图来当然里面销售记录高高在上 的就是咱们中国啦 1.1.4 提高了运行速度 SPSS的软肋是慢悠悠的运算速度当然这是华丽的 外表必需付出的代价在10.0版中为提高运算速度下了 不少工夫经过重新设计的数据管理窗口现在数据处理 速度明显提高和以前相比简直称得上是奇快无比(也 就是说当其他统计软件在飞的时候SPSS还在爬现 在终于学会了跑)还有前面提到的数据缓存等都使得10.0版的运行速度比以前有明显 的进步虽然在高档机器上这不算什么但当你要在P133机器上分析1万人的队列时 你就会觉得这一进步实在是非常必要的 1.1.5 统计功能的完善 版本号都升到10.0了可统计功能和7.0相比也没见有多大进步比较新的统计方法 如多水平统计模型MCMC分类树与回归树神经网络分析等它竟然一个都没引入 到底还想不想在统计软件界混了哎下面是SPSS 10.0版Help中列出的新增统计功能 图1-4 Graphs菜单项 你们自己看吧好像是有了一点改进和完善 Distributed analysis分布分析用一个远程服务器来进行大量数据工作的计算能极大地 提高运算速度使用SPSS 10.0版本进行分布分析你不必在本地计算机的桌面上输入成 千上万的数据就可进行对有着大量数据的数据文件进行统计分析 用ROC曲线进行多检验变量Roc曲线过程ROC Curve procedure已经可以进行多 检验变量的比较了 通用多元对数模型Polytomous Logit Universal Models简称PLUM使得你能将回 归分析应用于序数变量如低中高之类表示序列的数据该分析是高等统计分析功能的 一种 SPSS 10.0还增加了一种新的最优比例过程非线性基本元素分析过程(nonlinear principal components analysis procedure简称CATPCA) 1.1.6 其他的进步 SPSS 10.0改善了数据读取方式现在SPSS读取数据时不会再自动生成临时数据文 件因此分析大型数据就不再需要大量硬盘空间做内存交换了 多任务特性现在你可以在SPSS运行时选择下一个命令SPSS会自动将这些指令排 队依次执行 所有的对话框均比以前放大了许多文字也大了几号这样一来以前经常出现的对 话框中的文字被截断的现象基本绝迹使用更方便了 Logistic回归和Cox回归的结果输出做了改进从纯文本变成了标准的SPSS统计表格 使其变的更漂亮更容易阅读 1.1.7 结束 SPSS走的是一条大众化路线即发展重点放在操作界面的友好易用性和结果的美观 上统计功能的增强被放在了比较次要的位置10.0版正好和这一设计思想相一致对系 统的界面做了较多的增强大大提高了软件的易用性因此SPSS 10.0版和以前的版本一 样都是非统计专业人士工作中的首选统计软件 1.2 SPSS 10.0对环境的要求 1.2.1 SPSS 10.0 for Windows 对硬件环境的要求 决定所需硬盘空间的大小主要取决于选择的功能模块和分析模块 不同版本的SPSS功能模块对硬盘的需求不同其中语法指南可以从光盘中读取不 需要装入硬盘 根据一般的习惯硬盘容量应该在装配了软件之后自由空间占总容量的30%以上否 则会明显影响计算机的运行速度用户可以据此选择功能模快以合适自己的硬盘大小 运行Windows系列的软件最低要求内存容量为4M由于SPSS是统计分析软件数 据量一般会比较大矩阵运算要求的内存空间就比较大因此为了保证软件正常运行最 好配备16M以上内存 1.2.2 对软件环境的要求 SPSS for Windows 目前没有汉化版本如果要输入汉字可以在一些中文平台上运行 例如中文之星等一般用户可以在以下环境中运行SPSS 1中文Windows95或中文Windows98 SPSS for Windows在此环境下运行对话框中的按钮功能能以中文显示可以使用中 文设置变量标签和值标签在要点表中显示中文标签打印的时候只能把正排汉字正常 打印图形中被旋转了的汉字打印的结果是乱码 2英文Windows95或英文Windows98 加中文平台以便定义和输出中文标签 1.3 SPSS 10.0的安装及启动退出 1首先你的机器上要安装了Windows95或是Windows98操作系统 2把SPSS 10.0的安装光盘放入光驱 3找到光盘中的setup.exe文件双击它即启动SPSS 10.0的安装程序我们下面详 细介绍SPSS 10.0的安装过程 4双击setup.exe应用文件系统自动进行准备工作用户可以按照提示一步一步的 往下走特别提醒的是每步操作都要认真阅读屏幕显示的信息和提示 5用户最先阅读版权声明看完后单击next按钮进入下一个界面 在这个画面用户会看到一个协议你只有选择同意才能进入下一步否则单击no 将退出安装 6在这个界面中你将指定把SPSS for windows 安装在哪个目录中选择一个合适的 目录把程序安装在这个目录中单击next按钮确认并显示下一个界面继续进行 安装如果想中断安装单击cancel按钮将退出安装 在这个界面填写用户名单位名称系列号 7选择安装的类型Typical典型安装将安装对大多数用户来说最常用的模块 Compact(最低要求安装)只安装基本的模块Custom(自定义安装)已经熟悉SPSS软件的用 户可以选择此项安装的模块由用户自己指定 8怎样选择安装的组件单击各项的复选项进行选择选中的项复选框中打勾 单 击NEXT按钮显示下一个界面继续安装单击BACK按钮显示前一个界面单击 CANCEL按钮结束并退出安装程序下一个界面要求你选择个人计算机还是安装在网 络服务器上由用户共享默认的选择是安装在个人计算机上 9 SPSS的退出 完成SPSS的统计分析后退出该系统的方法是选择File菜单的Exit项回 答系统提出的有关是否需要存储原始数据计算结果和SPSS命令之后即退到Windows 的程序管理器中 思 考 题 1学会从光盘上安装SPSS 10.0熟悉SPSS的安装过程和安装过程选项的选择 2初步熟悉SPSS 10.0的新界面 第 2 章 SPSS 的系统简介 导 言 本章主要对SPSS系统进行简介包括如下几方面SPSS的操作命令数据文件的编 辑系统的运行方式各个主要窗口的简介和功能介绍系统参数的选择特别详细介绍 了SPSS帮助(Help)的使用方法这一点突出了本书要授读者以渔而不是鱼的特 点 读者在学习的过程中要重视实际的应用要在不断使用中熟悉SPSS系统 2.1 SPSS的命令类型 2.1.1 操作命令 一切统计分析都是以数据为基础的因此统计软件的数据管理能力非常重要SPSS 以其豪华的界面为依托为用户提供便捷的数据管理功能下面我们介绍它的各种命令 和传统的软件相似SPSS中数据文件的管理功能基本上都集中在了File菜单上 该菜单的组织结构和Word极为相似因此这里我们只介绍比较有特色的几个菜单项 1新建数据文件 我们开始进行一个新的课题把数据收集上来要做统计分析自然需要新建一个数 据库然后将所有的数据输入到计算机里在SPSS中新建一个数据库是很容易的容 易到什么都不用做的地步是这样当你进入SPSS系统时系统就已经生成了一个空数 据文件即你看到的空白的数据管理界面你只要按自己的需要定义变量输入数据然后 存盘就是了 2打开其他格式的数据文件 (1) 直接打开 SPSS 10.0的版本可以直接读入许多格式的数据文件其中包括EXCEL各个版本的数 据文件选择菜单File ? Open ? Data或直接单击快捷工具栏上的按钮系统 就会弹出Open File对话框单击“文件类型”列表框在里面能看到直接打开的数据文件格 式文件后缀名及其含义如表2-1所示 选择所需的文件类型然后选中需要打开的文件SPSS就会按要求打开你要使用的数 据文件并自动转换为数据SPSS格式 表 2-1 spss 中的数据文件 SPSS(*.sav) SPSS数据文件6.0 10.0版 SPSS/PC+(*.sys) SPSS 4.0版数据文件 Systat(*.syd) *.syd格式的Systat数据文件 Systat(*.sys) *.sys格式的Systat数据文件 SPSS portable(*.por) SPSS便携格式的数据文件 EXCEL(*.xls) EXCEL数据文件从5.0版2000版 Lotus(*.w*) Lotus数据文件 SYLK(*.slk) SYLK数据文件 dBase(*.dbf) dBase系列数据文件从dBase II IV Text(*.txt)纯文本格式的数据文件 data(*.dat)纯文本格式的数据文件 (2) 使用数据库查询打开 SPSS可以直接打开许多类型的数据文件但这并不是说它可以打开所有类型的数据文 件比如FoxPro 3.0以上版本的*.dbf文件就不能直接打开为此SPSS还提供了另一个 适用范围更广但使用上较为专业的数据接口数据库查询 SPSS在这里使用的是一种叫ODBC(Open Database Capture)的数据接口该接口被大 多数数据库软件和办公软件(如MS Office)支持通过它应用程序可以直接访问以结构化 查询语言(SQL)做为数据访问标准的数据库管理系统 由于SPSS 10.0可以直接打开EXCEL所有系列的数据文件因此数据库查询接口的用 处不是很大但是在9.0及以前的版本中该查询仍是直接打开EXCEL 95 97及2000 数据文件的唯一办法 ODBC数据引擎是独立于各种应用软件直接安装到Windows系统中的因此你所用 的系统中ODBC所支持的数据类型取决于所安装的ODBC引擎的情况还好大多数支 持该接口的软件都会在安装光盘上附送该引擎的安装文件(如MS Office)不过有一点要提 醒大家许多机器的OBDC数据引擎安装有问题(尤其是盗版)在SPSS中使用它往往要 死机 选择菜单File ? Open Database ? New Query系统会弹出数据库向导的第 一个窗口其中会列出你使用的机器上已安装的所有数据库驱动程序选中所需的数据源 然后单击下一步向导会一步一步的提示你如何做直至将数据读入SPSS (3) 使用文本导入向导读入文本文件 选择菜单File ? Read Text Data系统就会弹出Open File对话框和前面的情 况完全一样只是文件类型自动跳到了Text (*.txt)实际上该功能在SPSS中已被整合 到了Open File对话框中之所以在菜单上保留该条目有两个原因 z读入纯文本的情况非常普遍放在这里更加醒目 z为了和SPSS老版本的使用上保持兼容 [例2-1] 现有一数据文件以纯文本的形式存为c:\Li2_1.txt且第一行为变量名请 将其读入SPSS 在Open File对话框里选中相应的文件名并单击“确定”系统会自动启动文本导入向导 对话框如图2-1所示 图2-1 SPSS第一步 在SPSS 10.0中该向导并没有重新设计因此仍然有问题被截断无法显示完的情况出现 可以看到该向导共分6步这是第一步中部为一对单选按钮问题为你的文本文 件和预定义格式相一致吗下方为按预定义格式读入的数据文件的预览显然SPSS 的预定义格式并没有正确识别该文件因此选择No并单击下一步系统弹出向导 的下一个对话框如图2-2所示 图2-2 SPSS第二步 最上方的问题是你的变量是如何排列的下面的选项分别为Delimite(用某种字 符区分)和Fixed Width(固定宽度)一般都是Delimite第二个问题是变量名包括在文件 最前面了吗我们当然选Yes单击下一步系统弹出第三个对话框 图2-3 SPSS第三步 最上方的句子意为第一条记录从第几行开始右侧可以输入行数由于我们所 用的数据第一行为变量名因此这里输入2下面的问题是你的记录是怎样存储在文件 中的可以是每一行代表一条记录或者每**个变量代表一条记录数据一 般都是第一种情况下一个问题是你想导入多少条记录可以是所有记录前 **条或随机导入**%的记录一般也选前者单击下一步第四个对话框如图 2-4所示 图2-4 SPSS第四步 我这里介绍得非常详细但实际使用中你可以不管大多数问题因为SPSS一般都能 自动正确设置 最上方的问题为变量间用的是哪种分隔符可选的有Tab键空格逗号分 号或自行定义的其他符号本数据采用的是空格可见系统已经自动识别并选择了空格 而下方的数据预览窗口显示出了正确的数据读入情况单击下一步第五个对话框如 图2-5所示 图2-5 SPSS的第五步 上方的提示为定义在数据预览窗口中所选择的变量顾名思义在这个对话框中 你可以在数据预览窗口中选择某一列变量然后更改其变量名和类型当然在这里我们不用 这样做直接单击下一步系统弹出文本导入向导的最后一个对话框如图2-6所示 图2-6 SPSS第六步 最上面的问题为你愿意保存这次的文件(读入)格式设置以备下次使用吗第二 个问题为你是否愿意将以上操作粘贴为SPSS语句一般这两个问题我们都可以不 管单击完成系统最终成功地读入了Li2_1.txt 3保存数据文件 在对数据做了修改后保存数据文件是必不可少的工作之一选择菜单File==>Save 如果数据文件曾经存储过则系统会自动按原文件名保存数据否则就会弹出和选择Save as 菜单时相同的Save as对话框里面可以保存的数据类型和可以打开的几乎一样多选 择合适的类型确定就是了 Save命令的快捷键为Ctrl S如果你曾经领教过Windows死机的巨大潜力 那么你一定会理解习惯性地随手按Ctrl S至少不能算是一个坏习惯 如果你准备将数据存为SPSS以外的其他类型要注意有些设置可能会丢失如标签 和缺失值等尤其是缺失值如果想存的数据格式不支持缺失值那你的数据可能会变的 面目全非 4 File菜单中的其他条目 Disp Data Info 该菜单项用于显示数据的基本信息选择它后会弹出非常类似于打开文件的一个对话 框用于选择数据文件选择好后按OK系统就会在结果窗口中列出所选数据的基本情 况如建立时间标签设置记录数变量设置等 Apply Data Dictionary 即使用数据字典该功能使你可以直接在新数据集中套用以前定义好的变量设置(格 式标签等但不包括数据类型)举个例子吧请打开Li1_1.sav文件将变量x的长度 从8改为4标签删掉然后选择菜单File ? Apply Data Dictionary在文件对话框 中选择Li1_1.sav并按OK (即将Li1_1.sav的变量设置按相同变量名一一套用在现在的 数据集上)怎么样一切都变回去了吧 Cache Data 建立数据缓冲区以前SPSS每执行一条命令都会重新读取所需的数据如果是从远 程用SQL调用数据库这会非常费时现在使用Cache Data可以将数据全部读入暂存盘 建立活动数据的缓冲区大大加快了处理速度不过我特意试了一下如果是处理本机数 据的话该命令对速度的提升不是非常明显 Print和Print Preview 这两个菜单项用于将数据管理窗口中的数据以表格的形式打印出来其中Print Preview是新增加的使用上和WPS2000的打印预览非常相似(其实它用的是同样的程序) 不过和SPSS结果的打印程序一样用SPSS直接打印数据非常浪费纸张用不用你自己决 定吧 Stop Processor 用于停止执行当前的SPSS命令由于SPSS处理速度非常的慢如果你正在对一个大 型的数据执行统计命令等了半天都没有结束此时你的另一半约你逛街的时间又要到了 可是你的结果还没有存执行命令时又存不了怎么办呢试试这个命令吧 2.1.2 编辑数据文件 在SPSS中数据文件的编辑整理等功能被集中在了Data和Transform两个 菜单项中这两个菜单的内容如图2-7所示 Data菜单项 Transform菜单项 图2-7 Data和Tansform菜单项 下面我们介绍几个主要的菜单项功能重点说说Define Dates... 1定义新变量 (1) 直接定义新变量 大多数情况下我们需要从头定义变量在SPSS 10.0中定义变量的操作界面和FoxPro 等数据库非常相似只需单击左下方的Variable View标签就可以切换到变量定义界面开始 定义新变量如Li1_1.sav的变量定义如图2-8所示 图2-8 在Data Editor中输入数据 以变量x为例变量名为x类型为Numeric宽度为4小数位数2位(因小数点还要 占一位故整数位只有一位)变量标签位为血磷值右侧在图中未能看到的依次为Values 用于定义具体变量值的标签Missing用于定义变量缺失值Colomns定义显示列宽Align 定义显示对齐方式Measure定义变量类型是连续有序分类还是无序分类使用该窗口 我们可以一次定义许多新变量不会像老版本那样一个一个的定义了 由于SPSS是英文软件变量名采用中文会有潜在的冲突(100%的兼容性是不存在的 典型的例子就是微软公司的产品) 对于喜欢搞点花样的用户这里有必要介绍一下SPSS中标签和缺失值的定义方法 标签和老版本不同现在变量标签和变量值标签被分开设置变量标签就在Label框中直 接输入变量值标签则在它右侧的Value框中定义以group为例单击Value框右半部 的省略号会弹出变量值标签对话框如图2-9所示 图2-9 Value Labels对话框 上部的两个文本框分别为变量值输入框和变量值标签输入框分别在其中输入1 和克山病患者此时下方的Add按钮变黑单击它该变量值标签就会被加入下 方的标签框内与此类似定义变量值2为健康人最后按OK变量值标签就 设置完成此时你做任何分析在结果中都有相应的标签出现如果你现在就想看效果 切换回Data View界面然后选择菜单View==>Value Labels怎么样看到了吗 (2) 缺失值 单击missing框右侧的省略号会弹出 Missing Values(缺失值)对话框如图2-10所示 2再简略介绍几个主要的菜单项 Insert Variable插入一个变量如果在 数据编辑器中想再插入一个新的变量就可 以用到这项功能在这里不多说了 Insert Case插入一个观测量其作用和 insert variable差不多 Go to case...定位到指定的观测量 Sort Cases...按某变量值对观测量进行排序 Transpose求数据文件的转置 Merge Files合并数据文件 Aggregate...对数据进行分类和不分类的汇总 Split File拆分数据文件 Select Cases...选择观测量 Weight Cases...对观测量进行加权处理 图2-10 Missing Values对话框 2.2 系统的运行管理及帮助 2.2.1 系统运行方式 1完全窗口菜单运行管理方式 SPSS for Windws启动后即在屏幕上显示主画面即数据编辑窗口如图2-11所示 图2-11 SPSS数据编辑窗口 主画面的最上行是由10个菜单项组成的主菜单这些菜单如表2-2所示 表 2-2 主菜单项说明 1 File 文件操作 2 Edit 文件编辑 3 View 视图编辑 4 Data 数据文件建立与编辑 5 Transform 数据转换 6 Analyze 统计分析 7 Graphs 统计图表的建立与编辑 8 Utilities 实用程序 9 Window 窗口控制 10 Help 帮助 每个菜单项包括一系列功能当在New Data窗中输入了数据或读入了一个数据文 件后可以使用各主菜单项的各功能进行工作鼠标光标对准选中的菜单项单击鼠标键 可以打开菜单或展开小菜单进一步选择细分功能或展开执行选中功能有关的对话框 用户可以通过对话框选择参与分析的变量按对话框中的功能按钮展开对话框进一步选 择分析参数以便执行选中的功能在分析过程的主对话框中用鼠标光标对准OK按 钮单击鼠标键即可执行选择分析过程分析结果显示在输出窗中 2程序运行管理方式 程序运行管理方式是在语句窗口Syntax中直接运行编写好的程序的一种方式在 该窗口中输入SPSS命令组成的程序利用主菜单的Edit菜单项对窗口中的程序进行修 改在Syntex窗中的程序可以分析数据窗中的数据也可以用有关的语句指定外语数 据文件对其进行分析 3混合运行管理方式 混合运行管理方式是以上两种方法的结合方式首先在数据窗中输入数据或利用主菜 单的File菜单项打开已经存在的数据文件即把数据读入数据窗然后利用对话框选 择分析过程和分析参数选择完成后不马上执行而是用aste按钮将选择的过程及参 数变换成相应的命令语句置于Syntax窗中在该语句窗中添加没有包括的语句和参 数或修改子命令中的参数然后按窗中的Run按钮将程序提交系统执行 2.2.2 窗口及其功能 1数据编辑窗口 数据编辑窗口最上方标有SPSS Data Editor在SPSS for Windws启动后屏幕显示 在主画面上的激活窗口即是该数据编辑窗窗口中有一个可扩展的平面二维表格可在该 窗中编辑数据文件 利用系统菜单Data菜单项可以完成定义变量的属性录入数据修改变量的属 性移动记录指针插入记录观测量或插入一个新变量等操作还可以对已经录入的 数据记录进行排序转置等操作 利用Edit菜单项Save Data Save as功能可以把该窗口中的数据存入一个 数据文件或存入另一个新命名的数据文件在SPSS运行期间不能同时打开两个以上数 据文件进行SPSS过程分析另外还可以显示数据的有关信息 利用View可以进行视图编辑进行窗口外观控制 利用Analyze菜单项中的各分析过程可对该窗口中的数据进行统计分析 利用Graphs可以进行各种统计图表的建立和编辑 Utilities项含有变量列表文件信 息定义与使用集合自动到新观测量 运行稿本文件菜单编辑器等等 Windows可进行所有窗口的最小 化和最大化激活窗口表列 Help中有关于SPSS使用语法 介绍方面的帮助 用户不能关闭数据窗即不能把它从 屏幕上移开只能把它缩小成为一个图标 在数据窗中的操作详见第3章 2输出窗口 (1) 激活输出窗口如图2-12所示 图2-12 Output1输出窗口1 方法有以下两种 z当使用Analyze进行统计分析产生数据输出时输出窗口自动激活输出窗口 最上方标有Outpiut1 SPSS Viewer在SPSS for Windows启动后显示在屏幕 的主画面上是非激活窗口在该窗口中显示SPSS处理的输出如果处理成功 则显示处理结果如果处理过程中发生错误使处理失败则在该窗口中显示系统 给出的错误信息 z从File ? New ? Output可产生输出窗口 (2) 主菜单在标题栏的下面包括File Edit View Insert Format Analyze Graphs Utilities Windows Help共10个菜单 其中Analyze Graphs Utilities Windows Help中的功能和命令项与数 据编辑窗口中的相同 File菜单项中比数据编辑窗口增加了关闭窗口保存时设置密码输出页面设 置打印预览发送邮件等功能 Edit菜单项中增加了选择全选特殊粘贴在…后粘贴等功能 View菜单项包括显示/隐藏切换表格特有的隐藏/显示功能及字体设置等功能 Insert菜单项包括插入/删除分页符图表编辑功能的命令项 Format菜单项包括对齐功能行列装置页行列转置功能和调整表格各元素 尺寸等功能 (3) 功能图标按钮包括 z输出信息操作功能图标按钮包括打开文件Open File保存文件Save File 打印Print打印预览Print Preview输出Export对话框再调入Dialog Recall撤销/恢复操作Undo查找数据Goto Data定位观测Goto Case 显示变量信息Variables使用集合Use Sets选择最后一个输出Select Last Output及指定当前窗口Designate Window z导航功能图标按钮包括向前定位输出组Promote先后定位输出组Demote 展开Expand折叠输出组Collapse打开输出项Show隐藏输出项 Hide插入表头Insert Heading插入标题Insert Title插入文本Insert Text等按钮 图标按钮还可根据需要增减 (4) 输出文本窗口图标按钮的右半边是一个文本窗口可对其中的内容进行编辑 (5) 输出导航窗口图标按钮的左半边是一个导航窗口也可对其中内容进行编辑 (6) 多个输出窗口的建立与主窗口的概念 利用File菜单中的New可以新开一个输出窗新开的输出窗按先后顺序标有 Output2 Output3只有主输出窗的窗标题前带有叹号这是主输出窗的第 一标记表明各过程执行结果只会倾注到主输出窗中主输出窗中的叹号图标按钮是灰色 的这是主输出窗的第二标记非主输出窗中的叹号图标按钮是加亮的改变输出窗是否 主窗只决定输出信息是否倾注其中主窗不能关闭 工作输出窗或称当前输出窗只能有一个将鼠标光标移到一个输出窗中单击鼠 标左键就把该输出窗激活为工作窗该输出窗自动成为当前工作窗窗口标题栏显示文 件的存储路径和文件名 如果当前工作输出窗的主窗叹号图标按钮不是加亮的或窗口标题栏中的标题不带有 叹号将其变为主输出窗的方法有二 将鼠标光标对准叹号按钮单击鼠标左键使其变为灰色 使用鼠标单击主菜单的Utilities项展开下拉菜单用鼠标点击选中Designate Window菜单项当前工作输出窗变为主输出窗 (7) 关闭输出窗口 可以被关闭的输出窗有两个条件 必须不是主输出窗 必须是当前工作的输出窗 只要使用鼠标关闭对准输出窗左上角的方框双击鼠标左键即可关闭该输出窗如 果窗中的输出信息未存盘系统显示提示对话框输出信息存盘后窗口关闭 有关文件存盘及窗口中信息的编辑等操 作可见本书第三章的有关内容 3语句窗口Syntax 语句窗口如图2-13所示上方标有 Syntaxl因为SPSS软件最基本的窗口是 Data Editor和Output两个窗口因此Syntax 窗 口在SPSS启动后是否显示在主画面上取决于 系统的初始状态设置 (1) 打开语句窗口 要打开一个语句窗口的方法与步骤是 z鼠标光标对准主菜单的File菜单项 单击鼠标左键展开下拉菜单 z鼠标光标对准下拉菜单中的New菜单项展开小菜单小菜单中有五项 Data Syntax Output Draft Output Script选择Syntax 单击鼠标键就打开了一个Syntax窗口 Paste按钮在几乎所有SPSS对话框中均存在它是专门为编程准备的作用是把 过程语句粘贴到Syntax窗口上例如我们可以在对话框中写入如下的程序 T-TEST GROUPS=group(1 2) /MISSING=ANALYSIS /VARIABLES=x /CRITERIA=CIN(.95) . 这就是把我们想做的工作输入到SPSS系统中如果运行它就可以得到结果怎么 运行选择菜单Run-all是不是很容易 另外再说几句Paste按钮如何能生成程序在SPSS中操作界面实际上起的就 是“操作界面”的作用当你用对话框选定某项操作单击OK后SPSS就将你的选择 在Syntax窗口中翻译成程序语句然后提交系统执行如果单击Paste按钮SPSS就 图2-13 Syntax窗口 不将生成的程序语句提交执行而是传送到程序编辑窗中供你折腾说得再广一些不光 SPSS SAS等其他统计软件也是这么做的 从上面的语句也可以看到SPSS程序的基本结构一条语句可占多行最前面为语句 主体具体的选项用斜杠和语句主体相连最后用小数点结束语句 如果使用主菜单Edit中的Preference功能设置在启动SPSS时就打开了一个 Syntax窗那么启动SPSS后Syntax窗将与Data Editor Outputl两个窗口同时出现在 主画面上 (2) 语句窗的功能 语句窗的功能有以下几个方面 z各个SPSS过程的主对话框均有一个标有Paste的图标按钮它把SPSS过程的命 令语句以及各选择项对应的子命令语句按照SPSS语言的语法组成一个或若干个 完整的程序粘贴到主语句窗口中 在语句窗中可以使用键盘输入SPSS命令编写的SPSS程序用主菜单的Edit菜单项 中的各种功能修改编辑窗中的程序用主菜单的File菜单项的各功能把窗中的程序作为文 件保存到磁盘中或关闭该窗口可以把已经存放在磁盘中的另一个程序文件调入独占该窗 口或与已经存在于该窗口中的程序合并为一个程序作业以便合并一次运行 z当使用鼠标选择了一个完整的程序后鼠标光标对准RUN按钮单击鼠标键 就把该窗中的程序提交系统执行 z鼠标光标对准Syntax按钮单击鼠标键屏幕显示光标所在行上的SPSS命令 语句供你查阅 (3) 同时使用多个语句窗口 z在主语句窗口主语句窗口的标志是语句窗口标题栏变为高亮彩色语句窗口中 的叹号图标按钮为灰暗色主语句窗口的功能不同与非主语句窗口各过程对话 中选择形成的命令语句和子命令组成的程序只能粘贴到主语句窗口中用前面介 绍的方法可以同时打开若干个语句窗在SPSS运动期间首先打开的语句窗的窗标 为Syntax1第二个打开的语句窗窗标为Syntax2但只能有一个主窗 口主窗口不能关闭 z在当前工作窗用鼠标光标移动到一个Syntax窗口范围中单击鼠标左键该窗口 被激活成为当前工作语句窗被激活工作窗的窗标底色为彩色非激活窗口的窗 标底色为白色一切操作均对激活的工作窗有效 将当前工作窗变为主窗如果当前工作语句窗不是主窗叹号图标按钮是加亮的窗 口标题栏中的标题不带有叹号将其变为主语句窗的方法有二 一为鼠标光标对准叹号按钮单击鼠标左键使其变为灰色 二为使用鼠标单击主菜单的Utilities项展开下拉菜单选择Designate Window菜单 项用鼠标单击之当前工作语句窗变为主语句窗 (4) 关闭语句窗口 可以关闭激活的当前工作语句窗 只要使用鼠标对准语句窗左上角的方框双击鼠标左键即可关闭该语句窗如果窗 中的程序未存盘系统显示提示对话框程序存盘后窗口关闭 有关文件存盘及窗口中信息的编辑等操作可见本书第三章的有关内容 4统计图形编辑窗口(Chart Editor) Chart Editor窗口如图2-14所示是一个图形编辑器在该窗中可以对图形进行编辑 修改打印 图2-14 Chart Editor统计图形编辑窗口 在图形编辑窗中对图形可以进行如下操作 Fill pattern按钮改变填充图形的花纹 Color按钮改变指定图形的颜色 Marker按钮改变图形中所用的符号 Line Style按钮改变图形中使用的线形 Bar Style按钮改变直方图的显示方式 Bar Label按钮允许在图中标注数字 Interpolation按钮改变插值方法 Text按钮改变字体和字号 3-D Rotation按钮用表明坐标轴的对话框改变坐标轴反向使三维图形旋转 Swap Axis按钮允许改换坐标轴 Explode Slice按钮把饼图中指定的片分离开饼图主体 Break line at Missing设置线图中是否在缺失值断开 Spin按钮自旋按钮 Output按钮退出图形编辑器返回到输出窗建立显示图形信息之处 5帮助窗口Help 几乎每个对话框中或大部分子对话框中都有一个Help按钮用鼠标键单击该按钮 就可以打开一个Help窗窗中显示的帮助信息与当时的操作有关或与当时打开的对 话框中的内容有关 2.2.3 对话框及其使用方法 对话框就是提供人机对话环境和内容的窗口 主菜单中各项功能的完成总要通过对话框选择命令语句变量或者参数提交系统 执行才能得到要求的结果通过各种选择按钮下拉菜单等指定选择项执行命令打 开另一个对话框(子对话框) 1常见对话框类型 SPSS中使用的对话框主要有两种文件操作对话框和统计分析主对话框 (1) 文件操作对话框 可从SPSS 10.0 for Windows的主菜单File中打开的各种功能的对话框例如从File ? Open ? Data的Open File打开的数据文件对话框如图2-15所示还有保存 文件打印等功能项打开的对话框均为此类型的对话框 图2-15 Open File对话框 (2) 统计分析主对话框 主菜单Analyze的每一个子菜单对应于一个过程分析进入一个子菜单打开的第一 个对话框均为统计分析对话框在该对话框中选择参与分析的各类变量是该对话框的主要 任务另外还有根据分析方法不同而选择不同的选择项例如选择分析中的算法输出选 择项等图2-16即为Means对话框 图2-16 Means对话框 (3) 其他选择项对话框 SPSS 10.0 for Windows主菜单的其他菜单项各功能对应的对话框或统计分析菜单项各 分析过程的二级对话框这种对话框只在限定范围内提供选择的内容如图2-17所示的 Means Options对话框 图2-17 Means Options对话框 2对话框的构成 (1) 按钮 按钮的主要功能是激活选择项它告诉系统去做什么包括 z移动变量按钮按钮中央是箭头它把变量表中选中的变量加到变量框中例如 选择参与分析的变量指定分类变量或者指定因变量自变量等该按钮有时也 用于构成模型时的变量选择按钮的指向是可以改变的当使用鼠标键选择了原 始变量左面矩形框中时箭头按钮指向右方表示可以将选择的变量移到右 面的变量表中去了当在右面的变量表中选择了变量时箭头按钮指向左面表 示可以把变量表中的变量送回原始变量表中去即从选择中剔除 z打开下一级对话框的特点是按钮中的单词是下一级对话框的名字按钮中字符 后面有省略号 z执行功能按钮每个对话框中都有这样几个功能执行按钮 OK按钮鼠标单击这个按钮时把经过主菜单分菜单对话框直到子对话框 等等选择的带有参数的命令过程语句提交系统执行执行经过显示在输出窗中当选择或 指定的变量参数不符合运行相应过程的要求时按钮为灰色此时鼠标单击该按钮系 统不做任何反应 Paste按钮鼠标单击该按钮时把通过对话框的各种操作组成的带有指定参数的 过程命令语句显示到主语句窗中当选择或指定的变量参数不符合执行相应过程的要求 时该按钮为灰色表示没有具备生成可执行文件的条件灰色按钮不能响应鼠标单击的 操作 Reset按钮清除单击该按钮之前在对话框中进行的一切选择和设置恢复到选择 和设置前的状态准备接受新的选择和设置 Cancel按钮作废本次打开对话框的操作返回到上一级对话框或菜单 Help按钮打开帮助窗口显示与当前对话框及其各项有关的帮助信息 Continue按钮一般是二级对话框中的按钮单击该按钮表明确认在二级对话 框中的参数选择返回前一级对话框 (2) 单选项 单选项又叫择其一按钮其形状像一个收音机旋钮如图2-18中的按钮总是多个带 有旋钮的选择项排列在一起这些选择项只能择其一不能同时选择两个或两个以上被 选中的一项前面的圆圈旋钮中出现黑点并列的若干项中必须选择其中的一项而且只能 选择一项如果只有一项无与之并列的项选择与否均可 图2-18 单选项 (3) 复选项 复选项又叫并列选择框形状为方框被选中的项前的方框中有出现可以同时 选择多个也可以不选任一项但任何一项都不选时有时会产生不希望产生的结果或 是输出窗中没有分析结果输出甚至于出错如图2-19所示 图2-19 复选项 (4) 箭头按钮矩形框 右面有向下箭头按钮的矩形框是下拉清单的折叠框单击向下箭头按钮可以展开下拉 清单可以选择的项目列于清单中再用鼠标单击选定的项下拉清单收回矩形框中显 示选定的项目如图2-20所示 图2-20 箭头按钮矩形框 (5) 文本选择框 文本框是一个可以输入数据或其他指定内容的矩形框移动鼠标光标使I形光标移 至矩形框中单击鼠标键选中文本框框中有插入点光标闪动此时即可在插入点位置输 入系统要求范围内的信息了如图2-21所示 图2-21 文本选择框 2.2.4 系统参数设置 系统初始状态和系统默认值的设置是通过Options对话框完成的Options功能项 在Edit菜单中参数与状态设置生效的时间不同有的在确认(用OK按钮)后立即 生效有的则要在下次启动SPSS for Windows时才生效但无论何时生效只要生效设 定的状态或参数即代替了原来系统给定的默认值 鼠标单击菜单的Edit菜单项展开下拉菜单在下拉菜单中选择最后一项Options 打开相应的对话框如图2-22所示 图2-22 Options对话框 在Options对话框中进行系统状态参数的设置过程中有以下几种可能的情况需要 操作对话框右面的按钮 当完成任何参数或状态设置后认为没有其他需要设置的内容了即可用鼠标单击确 定按钮确认所作的设置并返回到SPSS for Windows主画面有些参数或状态设置在确 认并退出Options对话框后立即生效有些则要在重新启动SPSS for Windows时才生效 如果在Options对话框中一系列设置完成后认为设置的不够满意要重新设置可以 单击取消按钮返回SPSS for Windows主画面然后再进入Options对话框重新设置 如果暂时不需要进行设置工作时也可以按取消按钮退出Options对话框返回到SPSS for Windows主画面同时刚刚设置的参数作废 上述设置的内容虽然较多但并不难于掌握当读者对Options对话框中的一个功能卡 如General掌握熟练之后其它的功能可举一反三故而在本节中只举出几个典型常用的 功能并不一一介绍如果对如何设置系统状态参数等工作需要进一步的解释和帮助 可以按帮助按钮展开与该对话框各项有关的帮助窗口查看有关说明 1通用参数设置 General功能卡上设置各种通用参数 (1) 设置运行记录的文件与写入方式 确定是否存入日志文件及设置日志文件写入方式在一个SPSS运行期间的所有操作 过程的有关信息都可以保存在一个日志文件中Options对话框左上角的矩形框是定义运行 日志文件之处在Session Joumal下面的矩形框中有一个标有矩形选择框的项Record Syntax in Journal该项指定是否把系统执行的语句记录到日志文件中用鼠标键单击该项 使其前面的矩形框显示则表示要求存入 框中两个单选项表明存入方式 Append要求每次运行的语句接在前一次运行并存入日志文件的信息后面存放 Overwrite要求每次运行的语句存入日志文件时覆盖前一次存入文件的内容 (2) 设定日志文件名 按Browse按钮展开保存日志文件对话框如图2-23指定保存日志文件的文件 名指定的文件名显示在Session Joumal矩形框的第一行上如果不指定文件名则将运 行信息保存在系统日志文件中即保存在C: \windows\temp\spss.jnl中 图2-23 指定存储日志文件的对话框 指定日志文件名的简单方法是鼠标单击Browse按钮展开另存为对话框鼠标的 I形光标移至文件名下矩形框中的文件名后面单击鼠标键在文件名后显示插入点 光标按Backspace键删除系统给出的或是上一次指定的日志文件名在文件名矩 形框中直接键入带有路径的日志文件名例如想把日志信息存入D盘AAA子目录中 文件名为ABC.JNL则键入D \AAA\ABC.JNL 回车或用鼠标键单击保存按钮返回Options对话框 (3) 设定内存工作区 在设定日志文件有关参数的矩形框下面第二栏有Special Workspace Memory Limit 字样在矩形框中直接输入根据你的机器情况设置的作为SPSS for Windows计算统计量时 使用的预留内存总容量系统默认容量为512K字节根据你的机器内存配置可以设置到 高达16000K字节但是如果设置容量高于机器所能使用的容量磁盘存取速度会大大 下降设定的预留内存容量在本次SPSS期间不起作用只有退出SPSS for Windows并 再次启动后本次设定值才生效 2 Data数据功能卡 (1) 转换与合并生效时间选择 Data功能卡如图2-24所示中的Transformation & Merge Option下面的矩形框中的 选择项设定怎样执行Compute Count Recode Read ASCII Data Add Cases和Add Files 命令可选择的方式有 Calculate Values Immediately指定立即执行方式即计算读取数据或合并文件均在选 择并单击按钮确定之后立即执行此为系统默认方式 Calculate Values before used将这些命令保留到下次处理数据文件时执行这段保留时 间中数据编辑器失效直到这些命令执行完 图2-24 显示Data功能卡的Options对话框 (2) 新变量的显示格式 Display Format foe New Numeric Variable下面的矩形框中设定数据编辑器中定义的新 变量默认的显示宽度和小数位数将系统默认的宽度和小数位数键入到两个矩形框中即可 只是设定显示格式对数据精度无影响 3语句窗的初始显示形式设置 系统原始的默认方式是在启动SPSS for Windows时Syntax窗不显示在主画面上这 一形式可以通过设定或不设定General功能卡中的选择项Open a syntax window at startup to run SPSS command syntax决定 4统计图输出参数设定 在Options对话框中用鼠标键单击Charts按钮打开统计图输出参数设定的对话框 如图2-25所示 图2-25 显示Chats功能卡的对话框 在对话框中设定如下参数 (1) Font字体 在Current Setting下面的矩形框中设定变量标签和输出标题注脚所使用的字体可 以选择的字体有多种选定的字体显示在Font下面的矩形中若想改变字体只要单击下 面一个矩形框右边的向下箭头展开字体表列滚动在表列右边的小块或单击滚动条两 端的小箭头按钮即可改变表列中的显示内容从显示的字体名称中选择一种单击鼠标 选中的字体名称将显示于矩形框中另外还可以用右边的选择项设定是否打印机也使用设 定的字体 (2) 图形元素的选择 在Fill Patterns and Line Styles矩形框图中选择默认的对图形元素初始的修饰符号包 括填充图形用的花纹与绘图线型可以选择的有两种二者择其一 Cycle through colors then patterns如果你的显示器为彩色显示器选择此项可以在屏 幕上获得比较精确的图形显示效果 Cycle through patterns如果你的显示器为单色显示器选择此项可以在屏幕上获得比较 精确的图形显示效果 (3) 框架的选择 Charts功能卡右下角的Frame矩形框提供了两种图形框的选择项 Outer 在整个统计图的外围加框 Inner 只把统计图标题表列标签等等框在框内 (4) 坐标线的选择 Charts功能卡右下角的Grid Lines矩形框提供两种坐标轴线的选择项 Scale axis设定是否在坐标轴上显示刻度 Category axis设定是否使用分类坐标轴 (5) 设置统计图外框线的宽高比例 在Chart Aspect Ratio矩形框中设置图形外框线的宽高比 5数值型变量自定义格式的设置 SPSS 10.0 for Windows允许用户自己设定常用的数值型变量的格式用鼠标在Options 对话框中单击Currency按钮展开相应的对话框进行设置如图2-26所示 图2-26 显示Currency功能卡的对话框 从对话框中共可设置五种自定义格式分别命名为CCA CCB CCC CCD和CCE 需要设定的参数有 (1) 所有值的首尾字符 在All Values矩形框中的Prefix后面填写首字符系统默认值是空格在 Suffix 后面填写尾字符系统默认值是空格 (2) 负数的首尾字符 在Negative Values矩形框中的Prefix后面键入负数首字符系统默认值是-在 Suffix后面键入尾字符默认值是空格 (3) 小数点符号 在Decimal Separator矩形框中设置使用的小数点符号两个选择项择其一 Period使用园点此为系统默认值 Comma使用逗点 以上参数设置完毕按格式表达的数值字样显示在Sample Out矩形框中上面一个是 正数样例下面一个是负数样例选择格式的命名后即可按确定按钮确认定义的格式 并返回SPSS主画面定义的格式即可在定义数值型变量时使用了 6设置输出标签 在Options对话框中用设备单击Output Label按钮进入对应的Output Label对话 框如图2-27所示 图2-27 显示Output Labels功能卡的Options对话框 在Outline Labeling结果标签栏中设定输出图形时是否使用标签 Variables in item labels shown as设置变量标识栏 Variable values in item labels设置变量值标识栏 在Pivot Table Labeling要点表格标签栏中设定输出表格时是否使用标签 2.2.5 Windors 菜单项的功能与屏幕画面状态设置 光标对准主菜单中的菜单项Window单击鼠标键展开如图2-28所示下拉菜单 1窗口状态的选择 用鼠标单击Window菜单中的Minimize All Windows命令则当前所有的窗口 最小化即变成一个图标按钮显示在Window的状态栏内 2各窗口之间的切换 在Minimize All Windows命令下面是已经打开的窗口列表打开的窗口名称前面有对 钩的是最大化显示的窗口没有对钩的是最小化显示的窗口 将鼠标对准主菜单中的菜单项View单击展开一个下拉菜单如图2-29所示 图2-28 Windows菜单中的命令项 图2-29 View菜单中的命令项 其中Status Bar当选中时前面有对钩相应的编辑窗口如Data Editor Output 等等显示位于主画面最下面的状态栏没有选中时状态栏消失主画面变大 Toolbars工具栏鼠标点击它将弹出Show Toolbars对话框如图2-30所示 图2-30 Show Toolbars对话框 (1) Document栏可选择所要显示的窗口 (2) 点击该栏的下拉箭头将显示All Data Editor Viewer Draft Viewer Chart等项 (3) Show Tooltips选中时当光标移到主画面上的图标时出现英文提示 (4) Large Buttons选中时主画面上的图标变成大图标 New Toolbar单击该按钮弹出如图2-31所示对话框可选择要显示工具条的窗口 图2-31 Toolbar Properties对话框 (5) Customize按钮单击该按钮弹出如图2-32对话框可选择要显示图标按钮 的图标 图2-32 Customize Toolbar对话框 3 Fonts字体选择 选择字体字样和大小如图2-33所示 图2-33 字体选择对话框 4 Grid Lines网格线选中时Data Editor呈表格形式 不选中时表格中的线条消失 5 Value Labels变量标识可将数值型变量转变为字符 型变量如将1值转变为Yes等 2.2.6 系统帮助 Help 鼠标点击菜单Help展开一个下拉菜单如图2-34 所示 图2-34 Help菜单中的命令项 1 Topics点击之进入帮助主题SPSS for Windows对话框如图2-35所示它 是关于各种主题的帮助而且可以用目录查询也可输入关键字索引在图2-35中我们选 择一所需项双击之则弹出SPSS for Windows帮助对话框如图2-36所示读者可以 查阅 图2-35 帮助主题SPSS for Windows对话框 图2-36 SPSS for Windows帮助对话框 2 Turorial点击之进入帮助主题Tutorial对话框如图2-37所示它是关于 SPSS各种使用过程的指南可以用目录查询也可输入关键字索引选择一项所需项双击 之弹出Tutorials对话框如图2-38所示在此对话框中可一步步地得到帮助 图2-37 帮助主题Tutorial对话框 可以点击Prevous Next按钮查询前一步帮助或后一步帮助点击Contents 按钮返回帮助主题Tutorial对话框用光标指向图中不明白的地方当光标变成小 手的时候可单击之弹出相应的英文帮助 图2-38 Tutorials对话框 3 SPSS Home Page单击之可连接到SPSS主页网址是WWW.SPSS.COM/在 该网站上可获得在线帮助 4 Syntax Guide语句指南单击进入下一级菜单有Base基础部分Regression Model回归模型Advanced Model高级模型三个部分点击之可打开相应 的PDF帮助文件要利用这一帮助必须先安装Acrobat Reader软件 5 Statistics Coach统计分析指南单击弹出如下图2-39所示的Statistics Coach对 话框 图2-39 Statistics Coach对话框 在What do you want to do中可选择所要进行的统计分析在左侧栏中有相应的帮助 和指南可点击Back Next来前后查看帮助单击More Examples可得到更多 的例子示范 6 About是关于SPSS版权的一些说明 思 考 题 1进入SPSS的主画面后点击主画面上的Open图标按钮或从菜单File ? Open ? Data进入SPSS目录选择一个数据文件对其进行编辑练习 2从系统选项中浏览输出窗口中输出表格的各种形式并选择一种您喜欢的输出 格式为以后学习过程中输出结果作准备 3任选一个菜单中的命令如Transform中Compute命令点击该命令进入主 对话框点击Help按钮弹出SPSS for Windows对话框尝试阅读英文帮助 第 3 章 数据输入与交换 导 言 本章主要是关于数据输入和交换的 首先介绍了 SPSS 的数据类型 怎样定义和使用 一个变量 后介绍 SPSS 的文件类型 特别介绍了 SPSS 使用最频繁的一种文件数据文件 本章第三 四部分介绍数据输入和编辑方法 这一部分的内容相当重要 读者务必熟练掌 握 为了便于读者理解和掌握 本章特意举出一个例子来说明数据输入和编辑的方法 我们在前面提到过 SPSS 的窗口 如结果输出窗口和命令编辑窗口 这两个窗口是系 统用于接收或输出文本的 用户在实际工作中经常需要对之进行必要的编辑 SPSS 的文本 编辑是借助于主窗口的 File Edit 等菜单完成的 我们先介绍 SPSS 的文本编辑方法 3.1 数据类型 3.1.1 常量与变量 1 SPSS 常量 一个 SPSS 的常量就是一个数值 一个括在单 (双 )引号中的字符串或是按日期格式表示 的日期 时间和日期时间 常用的 SPSS 常量有数值型 字符型和日期型 (1) 数值型常量 数值型常量就是程序在 SPSS 语句中的数字 一般使用两种书写方式 一种是普通书 写方式 例如 26 38.4 等 另一种书写方式是科学记数法 用于表示特别大或特别小的数 字 例如 1.23E18 2.56E-16 等 (2) 字符串常量 字符串常量是被单引号或双引号括起来的一串字符 如果字符串中带有 字符 则该字符串常量必须使用双引号括起来 例如 BOY S BOOK 2 SPSS 变量 SPSS 中的变量与在数学中的变量定义是一致 其值可变的量称为变量 SPSS 中的变量属性有四个 变量名 变量类型 变量标签 变量长度 定义有关 SPSS 变量至少要定义变量名和变量类型 另两个属性可采用默认值 (1) 为变量命名应该遵循以下原则 SPSS 变量的旧式名由不多于 8 个字符组成 首字母是字母 其后可为字母或数字或除 和 * 以外的字符 但应 该注意 不能以下划线 _ 和园点 . 作为变量名的最后一个字符 变量名不能与 SPSS 保留字相同 SPSS 的保留字有 ALL AND BY EQ GE GT LE LT NE NOT OR TO WITH 系统不区分变量名中的大小写字符 例如 ABC 和 abc 被认为是同一个变量 (2) 变量类型与默认长度 SPSS 变量有三种基本类型 数值型 字符型 日期型 数值型变量又按不同的要求分为五种 因此共可定义八种类型的变量 系统默认的 变量类型为标准数值变量 (Numeric) 每种类型的变量由系统给定默认长度 所谓长度指显 示该变量值所占的字节数 也就是用字符当数表示的显示宽度 小数点或其他分界符包括 在总长度之内 变量长度的系统默认长度可以用主菜单的 Edit 中的 Options 功能重 新设置 标准数值型变量 Numeric 默认总长度 8 小数位数 2 标准数值型变量的值用标准数值格式显示 不指定长度则使用默认长度 小数点用园 点 定义为标准数值格式的变量值可以用标准数值格式输入 也可以用科学记数法输入 输入时使用科学记数法 显示出来的格式还是标准数值格式的 带逗号的数值型变量 Comma 默认总长度 8 小数点数 2 定义为带逗号点的数值型变量 其值在显示时整数部分自右向左每三位用一个逗号作 为隔符 用圆点作小数与整数间的分界符 不指定宽度则使用默认宽度 定义为带逗点的数 值格式的变量值可以输入带逗点的数值 也可以输入不带逗点的数值 还可以用科学记数法 输入 输入时使用科学记数法 显示的还是圆点作小数点 逗点作三位分隔符的数值 圆点数值型变量 Dot 默认总长度 8 小数点 2 定义为带圆点的数值型变量 显示方式与带逗点的数值型变量正好相反 其值在显示 时整数部分自右向左每三位用一个圆点作为分隔符 用逗点作小数与整数间的分界符 不 指定宽度则使用默认宽度 定义为带圆点数值格式的变量值可以输入带圆点的数值 也可 以输入不带逗点的数值 还可以用科学记数法输入 输入的数据使用了科学记数法 回车 后显示的还是用逗点作小数点 圆点作三位分隔符的数值 科学记数法 Scienmtific Noation 默认总长度 8 小数位数 2 对于数值很大或很小的变量可以使用科学记数法 这种变量的值可以有指数部分也可 以没有指数部分 表示指数的字母可以用 E 也可以用 D 指数部分可以带正负号也可以 不带 甚至指数部分不用字母 D 和 E 只用符号表示也是可以被接收的 例如 表示一百 二十三 可以用以下方式输入 1.23E2 123 1.23D2 1.23E+2 1.23+2 带美元符号的数值变量 默认总长度 8 小数位数 2 定义为带美元符号的数值型变量 其值在显示时有效数字前带有 $ 用逗点作分 隔符 用圆点作为小数与整数间的分界符 变量总长度包括 $ 符号在内 不指定长度则 使用默认长度 定义为带 $ 的数值型变量值输入时可以带 $ 也可以不带 显示在 数据表格中的数值由系统自动加上 $ 符号和分隔符 还可以用记数法输入 如果数值不 超过定义的长度 则显示在数据表格中的数值自动变换为定义的格式 带美元符号的数值型变量的具体格式还可以通过一个小菜单选择 选定的格式只对在数据表格中的显示形式有效 当输入的数值小数位数超过规定时 系统自动进行四舍五入处理 如果输入的整数位数超出规定的格式 显示时自动去掉作为 三位分隔符的逗号 读者应该根据数据中最大数值的位数指定显示格式 以便使显示与输入的值一致 自定义型 Custom Currency 自定义型是一种由用户利用 Edit 菜单的 Preference 功能定义的 定义方法见第二章的 有关内容 日期型变量 Date SPSS 的日期型变量可以表示日期 也可以表示时间 日期型变量的值按指定的格式输 入和显示 不能直接参与运算 要想使用日期变量的值进行运算必须通过有关的日期函数 转换后才行 日期型变量的具体格式显示在一个可以滚动 翻页的小菜单中 用户可以根据具体的 数据和处理要求选择一种格式 输入日期型变量的值可以使用 / 和 - 作为分隔符 显示在数据编辑器中相应单元格中的值则是按指定的日期格式显示的 关于日期格式的几点说明 z m 在年与日 (字母 y 与 d)之间表示 月 份 在时与秒 (字母 h 与 s)之间表示 分 钟 z mmm 三个字母 m 表示要求书写英文月份单词的前三个字母组成的缩写 z ddd 三个字母 d 表示要求用从元月一日算起的日数表示日期 z 指定了日期型变量的格式 不一定在输入时就使用指定的格式输入 可以输入用 / 或 - 作分隔符的具体日期 回车后 系统自动将输入的日期转换为指定的 格式 显示在单元格中 字符型变量 String 默认总长度 8 字符型变量的值是一串字符 字符串长度是任意的 但使用时分为两种情况 z 短字符串变量 其值由 8 个以下 (包括 8 个 )字符组成 使用范围比较宽 z 长字符串变量 其值由 8 个以上字符组成 在使用时受限制 字符型变量不能参与运算 字符串中的大写字母与小写字母被系统认为是截然不同的 两个字符 这一点在使用时要特别注意 建议读者使用短字符串变量 (3) 变量的标签与值标签 变量标签 Variable Labels 变量标签是对变量名附加的进一步说明 变量名只能由不超过 8 个字符组成 但 8 个 字符不足以表示变量的含义 在变量比较多时尤其需要对变量名的含义加以解释 变量标 签就起到这样的作用 在统计分析过程的输出中 在与变量名相对应的位置显示该变量的 标签 有助于分析输出结果得出的结论 如果 SPSS for Windows 是运行在中文之星的中文 平台上 不熟悉英文的用户也可以给变量名附加中文标签 例如 变量名 H 对应的变量标签 Height W weight Ser 性别 Age 年龄 (变量 )值标签 Value Labels 变量值标签是对变量的可能的取值所附加的进一步说明 对分类变量往往要定义其取 值标签 当然 变量值标签也是一个可选择的属性 可以定义 也可以不定义 例如 变量 值 值标签 Sex f Female M Male H 1 <=1.49m 1.50-1.59m 1.60-1.69m 170-1.79m >=1.80m (4) 变量的格式 变量的格式包括的内容有 z 宽度 指在数据窗中该变量所占的列数 应该区分定义变量类型时指定的宽度与定义格式时 的宽度 定义变量格式宽度应该综合考虑变量类型定义的总长度和变量名所占宽度 取其 较大的一个作为该变量定义格式宽度时可取的最小值 即 格式宽度 >=变量总长度 同时 格式宽度 >=变量名长度 如果变量总长度 >格式宽度 变量名在数据窗中显示不完全 z 对齐方式 左对齐 右对齐 中间对齐 一般情况下 属于数值型变量默认的对齐方式为右对齐 字符型变量默认的对齐方式 为左对齐 也可以指定为中间对齐方式 z 缺失值 Missing Value 在实际的科研工作中往往会因为某种原因使记录的数据失真 或没有测到 或没有记 录 例如对少年身高体重的测量与自然状况的填写分开进行 测量了身高体重 没有填写 年龄 性别 性别根据回忆填写了正确值 但年龄无从查问 其他数据在某些分析中还可 以使用 对于这个少年的数据记录 年龄成为缺失值 另一个少年测量记录中记录的身高 是 2.58(m) 显然是错误的 在该少年的测试记录中 这个数据是失真数据 不能使用 该 记录中的身高也应该记作缺失值 在 SPSS 中 对字符型变量 默认的缺失值为空格 对 数值型变量 默认的缺失值为零 用户可以定义自己的缺失值标记 3.1.2 操作符与表达式 SPSS 的基本运算共有三种 数学运算 关系运算 逻辑运算 相应运算的算符如下 数学运算操作符 关系运算符 逻辑运算符 + 加 <(LT) :小于 & (And) :与 - 减 >(GT) :大于 | Or :或 * 乘 <=(LE): 小于等于 ~ Not 非 / 除 >=(GE) : 大于等于 * * 幂 =EQ 等于 ( ) 括号 ~=NT 不等于 (1) 算术运算符与算术表达式 算术运算符可以连接数值型的常量 变量和函数构成算术表达式 其运算结果为数值 型常量 例如 X+Y* 2/(A+B)-1+ABS(A*Z)就是一个合法的算术表达式 在算术运表达式 的运算中 运算的优先顺序为 按先括号 函数 乘方 (幂 ) 乘或除 加或减的顺序 同 一优先级的位于左面的先算 (2) 比较算符与比较表达式 比较算符建立的是两个量之间的比较关系 由系统判断关系是否成立 如果比较关系 成立 比较表达式的值为 真 否则为 假 相互比较的两个量必须类型一致 无论 进行比较的两个量是字符型还是数值型 比较的结果均是逻辑型常量 比较算符表中列出 的比较算符均有两种表示方法 括号中的比较算符与括号前的算符是等价的 例如 A>3 和 A GE 3 是等价的 如果 A=4 则表达式 A>3 为真 其值为 1 如果 A=3 则表达式 A>3 的 值为假 其值为 0 (3) 逻辑运算符与逻辑表达式 逻辑算符即布尔算符 括号前的算符与括号中的算符等价 例如 A&B 与 A and B 是 等价的 逻辑算符与逻辑型的变量或其值为逻辑型的比较表达式构成逻辑表达式 逻辑表 达式的值为逻辑型常量 与运算 或 and 前后的两个量均为真时 逻辑表达式构成逻辑表达式的值为 真 否则为 假 或运算 | 或 or 前后的两个量只要有一个为 真 只有当操作符号 假 非运算 ~ 或 NOT 是前置算符 它对其后面的量作非运算 NOT 后面的量值为 真 则 NOT 运算结果为 假 后面的量值为 假 NOT 运算的结果为 真 示例 逻辑表达式 A>B & C>0 只有当 A 的值大于 B 的值 而且 C 为正数时 该逻 辑表达式的值为 真 对于 A=3 B=2 C=6 该逻辑表达式的值为 真 如果 c=-6 则该 逻辑表达式的值为 假 逻辑表达式 A>B | C>0 只要 A>B 成立 无论 C 为何值 表达式的值均为 真 或 者只要 C>0 成立 无论 A 与 B 为何值 该表达式的值均为 真 逻辑表达式 NOT(A>0)A 为正数 逻辑表达式的值为 假 A 为负数或 A 为 0 逻 辑表达式的值均为 真 3.1.3 定义一个变量 输入数据之前首先要定义变量 定义变量即要定义变量名 变量类型 变量长度 (小数 位数 )变量标签 (或值标签 )和变量的格式 (显示宽度 对齐方式 缺失值标记等 ) 定义变量的步骤如下 鼠标光标置于数据窗平面表格的一个空列的第一个或某任意单元格位置 单击鼠标左 键 使该单元格边框加重显示 光标对准主画面 Data Editor 下的左下方的 Variable View 按钮 单击鼠标左键 打 开定义变量对话框 这种由主画面直接打开的对话框称为一级对话框 如图 3-1 所示 (1) 对变量的系统默认定义 默认的变量名 定义变量对话框中的第一行 Variable Name 后面给出系统默认的第一个变量名 VAR00001 插入点光标在变量名框最后一个字符后面闪烁 若使用默认变量名 且不定义其他属性则回车确认 或按 OK 按钮确认 返回主画 面 系统按变量的定义顺序给出的变量名默认值为 VAR00001 VAR00002 VAR00003 依此类推 图 3-1 定义变量画面 (2) 定义增加的变量名 若想自己定义变量名 按 Backspace 键删掉默认变量名 然后用键盘输入自己定义 的变量名 例如 我们输入 SEX 作为变量名 1 变量的其他属性的默认值 输入变量名后先不要急于回车 先查看下面的矩形框中对变量的描述 在变量描述框 中显示的是变量的默认属性 依次解释如下 Variable Description 变量描述 Type Numberic8.2 变量类型 数值型 长度 8 小数位数 2 Variable Label 变量标签 (无 ) Missing Values 缺失值 无定义 Alignment Right 对齐方式 右对齐 如果对矩形框中变量属性的描述不满意 可以利用下面一个矩形框 改变设置 矩形 框 (Change Setting)中的四个按钮展开相应的对话框 (二级对话框 ) 设置所需的变量属性 Change Settings 改变设置 z 单击 Type 按钮 设置变量类型 z 单击 Missing Values 按钮 设置缺失值定义 z 单击 Lables 按钮 设置变量标签 z 单击 Column Format 按钮 设置列格式 2 定义变量类型与宽度 鼠标光标对准按钮 Type 单击鼠标键 展开定义变量类型对话框 如图 3-2 所示 (1) 定义变量类型 定义变量类型对话框的左半部列有八种可供选择的变量类型 自上至下标明的变量类 型为 Numeric(标准数值型 ) Comma(带逗点的数值型 ) Dot(逗点作小数点的数值型 ) Scientific Notation(科学记数法 ) Date(日期型 ) Dollar(带有美元符号的数值型 ) Custom Currency(自定义型 ) String(字符型 ) 每个类型前面有一个圆圈 初始显示的是在 Numeric 前的圆圈中有一个黑点 表示默认的变量类型是标准数值型 图 3-2 定义变量类型对话框 用户想选择哪种类型就用鼠标光标对准那种类型的名字前面的圆圈 单击鼠标键 该 圆圈中增加一个黑点 标明当前选中的变量类型 原来的 Numeric 前圆圈中的黑点消失 (2) 定义变量宽度 下一步定义变量的总宽度和小数位数 当前选中的变量类型的默认的总宽度和小数位 数显示在对框中部 Width 后面的方框内显示的是总宽度 Decimal Places 后面的 方框中显示的是小数位数 对话框刚刚展开时显示的是系统默认的标准数值型变量的默认 值 总宽度 8 小数位数 2 要改变其值 可将插入点光标移至方框内 ( I 型光标移 至方框内 单击鼠标键 ) 即可用键盘删除原值 输入合适的值 例如 我们定义的变量 SEX 因为变量性别要作为分类变量参与统计分析 不能 定义为字符型 因此我们定义它为标准数值型 由于我们考虑用值 1 表示男性 值 2 表示 女性 因此其值的长度只需要一个字节 因此把 Width 中的数字改为 1 Decimal places: 中的数值改为 0 确认选择的变量类型和变量长度参数是正确的后按 Continue 按钮 关闭该定义变 量类型对话框 返回到上一级对话框继续其他属性的定义 若还想保持原有定义不变 可按 Cancel 按钮 取消本次定义的内容 返回上一级 对话框继续其他属性的定义 若想查询有关变量类型的帮助信息 可按 Help 按钮 3 定义变量标签 定义变量标签有两项内容 一是定义注释变量名含义的变量标签 (Variable Label) 另 一个是定义变量值的标签 注释变量各值代表的数据范围或含义 在主画面对话框中 单击 Values 栏中的按钮 展开 Value Labels 定义标签对话框 定义变量的二级对话框如图 3-3 所示 在该对话框中可以定义变量标签 同时可以定义变 量值标签 (1) 定义变量名标签 在对话框中的第一行的方框中有插入点光标在闪烁 说明等待你输入描述变量名的标 签 (以下简称变量标签 ) 如果无需定义该变量值的标签 回车或单击 OK 按钮 则完成 变量标签的定义 返回上一级对话框 图 3-3 定义变量标签对话框 例如 我们定义了变量 SEX 系统运行在中文之星的汉字平台上 可以给出汉字标签 在第一行的方框中输入 性别 作为变量 SEX 的标签 (2) 定义变量值标签 在定义标签对话框的下部有一个大方框 标有 Value Labels 包含有三个较小的矩 形框 用这三个矩形框定义值标签 在第一个矩形框中输入变量值 在第三个矩形框中输 入对应值的标签 第三个框显示值标签清单 只要在第一个小矩形框中输入变量的一个值 再把插入点光标移至第二个小矩形框中 输入对该值含义解释的标签 按较大矩形框左面的第一个按钮 Add 一个值标签就加 入到值标签清单中 例如 我们定义的变量 SEX 值 1 表示男性 值 2 表示女性 则先在 第一个小框中输入 2 再把插入点光标移至第二个矩形框中 输入 女 按 Add 按钮 清单中显示 2= 女 然后 再在第一个小矩形框中输入 1 在第二个矩形 框中输入 男 再按 Add 按钮 清单中增加了一个值标签 显示 1= 男 至此 值标签定义完毕 按 Continue 按钮 确认定义的变量标签和值标签正确无误 并返回 上一级对话框 继续定义变量的其他属性 要取消本次定义 则按 Cancel 按钮 返回 上一级对话框 若需要帮助信息 按 Help 按钮 (3) 修改变量名标签和值标签 对变量名标签的修改很简单 只要在 Variable Label 后的矩形框中删除原标签 重 新输入新定义即可 要想修改值标签需要按如下步骤进行 首先在定义值标签的第一个矩形框中输入新的值 如果不改值只改标签 也需重新输 入变量值 然后在第二个矩形框中输入新标签 如果改值 不改标签 仍需要再次输入标 签 如图 3-3 所示 就是对值 2 给以新标签 男 在清单中已经有了值 2 的标签 女 输入结束后 按 add 按钮 屏幕显示 SPSS 警告对话框 框中显示提示和问话 There is a already defined for this value,Replace it? 意为 该值已经有了一个定义了 是否替换它 按钮 OK 则在清单中 对同一个值 新标签代替原标签 清单中显示的只有 2= 男 对于修改后的内容与原内容是标签相同 值不同 按 add 按钮 清单中显示两个具 有相同标签的不同变量值 这是不允许的 必须修改一个或删除一个 修改操作还可以这样进行 鼠标光标对准清单中要修改的值标签表达式 单击鼠标键 使这一项变为彩色底色 同时该值标签表达式的值显示在 Value 后面的矩形框中 标签 显示在 Value Label:”后面的矩形框中 此时 如果按 Remove 按钮 该选中的值标签 表达式消失 如果想修改 则随便修改哪一个 按 Change 按钮 修改后的值和标签显 示在清单区中 4 定义用户缺失值 在 定义变量 对话框中按 Missing Values 按钮 展开定义变量用户缺失值的对 话框 如图 3-4 所示 对话框标题为 Missing Values 后面还给出当前要定义缺失值 的具体变量的变量名 图 3-4 中的对话框标题为 Missing Values 图 3-4 Missing Values 对话框 定义用户缺失值的方式有 4 种 无缺失值 这也是系统的默认状态 如果当前变量的值测试 记录完全正确 没有遗 漏 则可选择此项 被选中的缺失值定义方式前的圆圈中有黑点 离散缺失值 标题为 Discrete missing values 下面有三个矩形框 选择这种方式定义缺失值 可以在下面的三个矩形框中输入三个确切的 可能出现在 相应的变量中的缺失值 也可以少于三个 在进行统计分析时系统遇到这几个值则作为缺 失值处理 例如对于性别变量 值为 0 3 4 都被认为是非法的 在输入数据过程中很有 可能输入了这几个数据 则可把这三个值分别输入到三个矩形框中 定义缺失值范围 标题为 Range of missing values 下面有两个分别标有 Low 和 High 的矩形框 用这种方式定义缺失值主要针对连续变量的值 指定某一范围的 值如果出现在当前定义的变量值中 则被当作缺失值处理 在 Low 后面的矩形框中 输入缺失值 例如 对于性别变量值在输入时输入了 3 4 5 6 可以在 Low 后面输入 3 在 High 后输入 6 但要注意 这个定义的范围中不能包括合法值 一个范围加一个离散值 标题为 Range plus one missing value 标题下面有三个矩 形框 供输入范围的下限为 Low 范围上限为 High 和一个该范围包括不了的范围外的值 Discrete value 例如 如果在定义变量 HEIGHT 的值中输入的错误数据有 1.40 和 1.90 1.95 2.03 而且在 1.90-2.03 之间没有正确的身高测试值 正确值范围均大于 1.40 小 1.90 则 可选择此种定义缺失值的方式 在 Low 后面的矩形框中输入 1.90 在 High 后面的矩形框 中输入 2.03 在 Discrete Value 后面的矩形框中输入 1.40 确认定义的用户缺失值表达正确 按 Continue 按钮 返回到上一级对话框 即定 义变量对话框 取消本次定义的全部内容 按 Cancel 按钮 要求显示有关的帮助信息 按 Help 按钮 如果这四种定义用户缺失值的方式不能把所有的非法值包括在内 则要在数据文件中 查出错误数据进行修改 修改成系统缺失值 或者在 Syntax 窗口中利用程序语句解决定义 缺失值的问题 5 定义变量的显示格式 变量的显示格式包括两个内容 一是变量的显示宽度 一是变量显示的对齐方式 (1) 定义显示用的列宽度 Column 显示当前的变量所占的列宽度 如果在定义变量类型时定义了变量长宽 则在 Column Width 后面的矩形框中显示的是这一变量长宽 例如 变量 SEX 的列宽度在 刚刚展开对话框时显示的是 1 因为变量长度已经在定义 sex 的类型时指定总长度为 1 但 是 变量名 SEX 由三个字符组成 要想把变量名在数据编辑器中显示完全 最低限度 要定义显示的列宽度为 3 改变的方法是将插入点光标移至 Column width”:后的矩形框中 删除原来的数值 1 输入定义的数值 3 (2) 定义显示时的对齐方式 在对话框下部的矩形框中有三个可选择的对齐方式 自左至右依次为 Left(左对齐 ) Center(中间对齐 ) Right(右对齐 ) 每个对齐方式前有一个圆圈 选中的对齐方式前面的圆 圈中有一个黑点 对数值型变量 系统默认的对齐方式是 Right 对字符型变量 系统默认 的对齐方式是 Left 如果要改变默认的对齐方式 可将鼠标光标对准选中的对齐方式的圆 圈 单击鼠标 黑点移到限制的对齐方式的圆圈中 修改变量的各种属性操作方法与步骤同上 只是在进入一级菜单时显示的变量名和属 性参数不一定是默认值 可能是经过定义或修改的 二级对话框显示的属性参数也不一定 是默认值了 3.1.4 概率事件 观测量 在数据编辑器的二维表格中每行都是数据文件的一个记录 在统计学中称作 一个概 率事件 在 SPSS 的菜单中或帮助信息中用 Cases 这个单词表示 每个 Cases 是由各 变量的一定的值组成 是一个事件 或者说是对一个被观测对象的各种特征的实测值组成 因此相对应变量来说可以称之为 观测量 单元格中的数据即是某个观测量中的一个值 因此可以称之为变量值 也可以称之为某个观测值 在 Help 信息中往往使用 Case 这个单 词 由于许多操作的叙述颇费文字 我们在此之后约定简化的叙述方法 鼠标光标对准屏幕画面上的某个图标按钮 单击鼠标左键 在本书中均简单叙述为 按按钮 应该是图标按钮上标注的按钮名称或其按钮功能的中文含义 鼠标光标对准屏幕画面上的某个图形 单击鼠标左键 在本书中简单叙述为 单击按 钮 应该是对屏幕上图形的描述 例如 鼠标光标对准选中的变量类型名前面的圆圈 单击鼠标左键 简单叙述为 单击选中的变量类型 鼠标光标在可从键盘进行输入的区域内显示为 I 形 在 I 形光标停留处 单击 鼠标左键 使插入点光标显示在 I 形光标所在处并输入 这一操作过程 在本书以后的 部分简单描述为 将插入点光标移至图标处 其中图标是对目的地点的描述 或更简要地 叙述为 在图标处输入或键入 3.2 文 件 3.2.1 文件类型 z SPSS(*.sav) 保存为 SPSS for Windows 数据文件 z SPSS (*.sys) 保存为 SPSS/PC 数据 z SPSS Portable (*.por) 保存为 ASCII 码文件 变量类型 标签 值标签 变量格 式和用户定义的缺失值都会另加保存 这种格式是保存为另一种格式的最好方法 但占用存储空间比其他两种 SPSS 文件要多 保存后不要对其进行编辑 只在 SPSS 软件中使用的数据不要使用这种类型的格式存盘 z Tab-delimited (*.dat) 保存为 ASCII 码文件 用回车换行符号作为两个观测量之间 的分隔符 如果一个软件不能读取其他任何格式的数据文件 可以使用此格式保 存数据 在保存数据到此格式文件的同时 变量标签 值标签 缺失值定义均丢 失 z Fixed ASCII (*.dat) 保存为 ASCII 码文件 z Excel (*.xls) 保存为 Excel 软件可以读取的表格文件 每个观测量占一行 每个变量 占若干列 用此种格式保存数据文件时 变量标签 值标签 缺失值定义均丢失 z 1-2-3 Rel 3.0 (*.wk3) 保存为 3.0 版本的 Lotus 1-2-3 能读取的数据文件 z 1-2-3 Rel 2.0 (*.wkl) 保存为 2.0 版本的 Lotus 1-2-3 能够读取的数据文件 z 1-2-3 Rel 1.0 (*.wks) 保存为 1.0 版本的 Lotus 1-2-3 能够读取的数据文件 z SYLK (*.slk) 保存为表格文件 用此格式保存数据文件时 变量标签 值标签 缺失值定义均丢失 z dBASEIV(*.dbf) 保存为 dBASE 的数据库文件 扩展名为 .dbf” z dBASEIII(*.DBF) 保存为 dBASE 的数据库文件 扩展名为 .dbf” z dBASEII(*.dbf) 保存为 dBASE 的数据库文件 扩展名为 .dbf” 保存为数据库文件时 变量标签 值标签 缺失值定义丢失 3.2.2 数据文件 在数据编辑器中定义变量 输入 修改数据 形成一个可供 SPSS 分析的数据文件 使用 Edit 菜单项中的各种功能可以对数据文件进行编辑处理 如果将数据文件存盘 磁盘数据文件的扩展名为 SAV 利用菜单项 File 的 Data 或 Save As 功能展开的对话框指定存储路径 位置 和磁盘文件名 将数据窗中的数据 保存为其他的数据文件 如数据库文件 ASCII 码文件等等 此外 菜单项 New 为重新建立一个数据文件 菜单项 Open 为打开一个已经存 在的磁盘数据文件 显示在数据编辑器中 Display Data info 为显示当前数据文件中 变量的有关信息 Print 为打印数据文件等等 建立一个正确的数据文件是为了进行统计分析 进行哪种统计分析 要求计算什么统 计量 可以通过菜单项 Analyze 的各种功能实现 3.3 数据输入 3.3.1 数据输入方法 定义了变量就可以开始输入数据了 操作方法是多种多样的 可以定义了一个变量就 先输入这一个变量的值 也可以按观测量来输入 即输入完一个观测量的各变量值 再输 入第二个观测量的值 数据编辑器的二维表格中顶部标有定义的变量名 左侧标有观测量序号 一个变量名 和一个观测量序号就指定了唯一的一个单元格 二维表格的上方有两个格 右侧的是数据 输入区 从键盘输入的数据在回车前显示在该区中 左侧的是被激活的单元格所属的变量 和观测量号 表格中的每个单元格是一个变量与一个观测量的交叉点 变量名显示在二维 表格顶部 观测量序号显示在表格的左侧 确定了变量和观测量号 单元格就被唯一地确 定了 在二维表格中 鼠标光标变为十字形 当十字形鼠标光标移动到某个单元格中 单 击鼠标键 该单元格边框加黑 该单元格被激活 在表格上方的左边格子中显示出该单元 格的所属变量和观测量序号 数据编辑器的二维表格是可以延伸的 显示在屏幕上的只是数据编辑窗口 (简称数据窗 ) 内的部分 因此可以使用鼠标或键盘移动数据窗 观察更多的变量和数据 方法如下 向上 (或向下 )移动一行 鼠标单击窗口右侧滚动条中的向上 (或向下 )单箭头按钮 向上 (或向下 )移动一页 鼠标单击滚动条中向上箭头与滚动块 无标记按钮 之间的 部分 数据窗向上移动一页 鼠标单击滚动条中向下箭头与滚动块之间的部分 数据窗向 下移动一页 向上 (或向下 )不定量移动 鼠标光标对准右侧滚动条中的滚动块 按下鼠标左键 在 滚动条中向上 (或向下 )移动滚动块 松开鼠标键 窗口定位不动 向左或向右移动数据窗要操作数据窗下部的滚动条中的单箭头按钮和滚动块或者其 间的空条 操作与上述方法类似 如果使用键盘 可以使用四个光标移动键使窗口向上 向下移动一行 向左 向右移 动一列 使用 PgUp PgDn 键将数据窗向上或向下移动一页 使用 Home End 键把当前单元格 加黑边框 移至行首 行尾 即该观测量与第一个变量的交叉处或与最 后一个变量的交叉处 1 按单元格输入数据 要想输入某个观测量的某个变量值 可以将鼠标的十字光标移动到相应的单元格 单 击鼠标键 被定位的单元格边框加黑显示 (在以后的章节中 把该过程简述为输入单元格定 位 )也可以用键盘的光标键将加黑的单元格框移至相应的位置 输入数据 注意 从键盘输 入的数据显示在数据输入区内 按光标移动键后数据才显示到定位的单元格中 按哪个光 标移动键 取决于下一个要输入的数据与刚键入数据的位置关系 2 按变量输入数据 定义了一个变量 可以马上输入该变量的数值 一般都是从第一个变量值开始输入 将输入单元格定位于该变量与第一个观测量的交叉点单元格 输入变量的第一个值 回车 或按向下移动键 黑框单元格定位于观测量序号为 2 的单元格 输入第二个数据 3 按观测量输入数据 按观测量输入数据实际上是要首先确定要输入的观测量 将观测量最左边的单元格激 活 输入该观测量的第一个变量值 按 Tab 键 数据编辑器接收输入的数值 同时激 活右面一个单元格 接下来 在被激活的单元格中输 入该观测量的第二个变量的值 在该观测量所在的行中用 Tab 键激活右边一个单元格 用 Shift + Tab 键激 活左边一个单元格 如果输入的值个数超过了定义的变量数 即在输入位置超过了定义的 最后一个变量的右边界 则自动生成一个新变量 变量名为系统默认值 使用光标移动键也可以激活邻近的单元格 4 设置输入数据时光标控制方式 录入了一个变量值后是否光标自动下移 也可以设置 设置的方法是 鼠标单击系统菜单的 Utilities 展开下拉菜单 选择菜单项 Auto New Case 鼠标单击之 当该菜单项前出现 3 时 表示该功 能被激活 那么在录入完一个变量值后 数据编辑窗中的光标自动移到下一个单元格内 Auto New Case 命令前没有 3 时 表示该功能未被激活 录入完一个变量值后 数 据编辑窗中的光标仍停留在这个变量值上 必须使用鼠标或键盘的 Tab 键或光标移动 键手动移动光标 5 格线显示设置 用户可以根据自己的习惯显示或隐藏数据编辑窗口中的单元格线 仍然是展开 Utilities 下拉菜单 用鼠标单击 Grid Lines 菜单项可使该项前的 3 显示或消失 即可控制单 元格的显示与否 3.3.2 输入带有值标签的数据 对于分类变量 离散变量 往往定义其值的标签 如果你对一个变量的值定义了标签 那么 输入该变量的值时可以显示输入值 也可以显示输入值的标签 以哪种方式显示可 以通过 Utilities 菜单选择 选择方法是 单击主菜单的 Utilities 菜单项 展开下拉菜 单 在下拉菜单的最下面一栏中的中间一项为 Variable Labels 如果想在数据编辑器中 输入变量值 在被激活的单元格中显示变量值 鼠标光标对准该项 单击鼠标键 使该项 前面的 3 消失 同时关闭下拉菜单 如果想在数据编辑器中输入变量值 在被激活的单 元格中显示变量标签 单击 Variable Labels 使其前面出现 3 同时关闭 Utilities 下拉菜单 输入变量值 显示的方法有二 1 直接在数据输入区输入变量值 在相应的单元格中显示标签 2 鼠标十字光标置于该变量的单元格中 单击鼠标右键 (或按 Shift F2 键 ) 在当前单元格旁边显示定义的值标签表 用鼠标或光标移动键在表中选择一个标签 双击 鼠标左键或按回车键 Enter 选中的标签显示于单元格中 由于定义了变量值的标签 就必须按规定输入变量值 否则系统会把其值当作缺失值 处理 如果忘记了定义哪些变量值 则可查看变量信息 方法是 单击主菜单的 Utilities 菜项 展开下拉菜单 选择 Variables 菜单项 打开对话框 Variables 如图 3-5 所示 图 3-5 Variables 对话框 对话框中左半部分是变量列表 列出当前数据编辑器中定义的所有变量名 变量前带 有 < 符号的是字符型变量 对话框右半部分是变量信息显示区 Variable Information 列出指定变量的属性 对话框刚刚打开时该区显示数据编辑器中当前变量的属性信息 如果想列出另一个变量的 属性 可用鼠标单击变量表列中另一个变量的变量名 则在变量信息显示区显示指定变量 的属性信息 注意 Variable Information 中只能显示一个变量的属性信息 不能同时 显示两个变量的信息 按 Go To 按钮 在数据编辑器中 变量信息区中的变量被激活为当前变量 并把该 窗口激活 按 Paste 按钮 变量信息区中的变量被拷贝到 Syntax 窗口中的插入点处 按 Close 按钮 关闭变量对话框 返回到数据窗口 继续录入定义了值标签的变量 值 Go To 按钮和 Paste 按钮都不会使屏幕显示自动返回到数据窗 必须使用 Close 按钮才能看到 Go To 和 Paste 按钮功能执行的结果 3.3.3 文件信息 变量定义工作完成后可以利用 Utilities 的功能查看所有定义的变量 方法是 单击 系统菜单的 Utilities 菜单项 展开下拉菜单 选择 File Info 项 鼠标单击之 当前 数据编辑窗口中变量的有关信息显示在输出窗口中 其中包括变量在数据编辑窗口中的位 置序号 变量名 变量标签 变量值标签 格式和缺失值 3.3.4 数据输入实例 [例 3-1] 定义以下变量名 Name Sex X1 X2 X3 Y 其列方向的字串或数值是该 变量的数据 输入数据到 SPSS Data Editor 数据表 表 3-1 待输入的数据 Name Sex X1 X2 X3 y Wang M 35 69 0.70 1 600 Ning F 40 74 2.50 2600 Peng M 42 64 2.00 21 00 Gu M 40 74 3.00 2650 Hu F 37 72 1 . 1 0 2400 You M 45 68 1 .50 2200 Lu F 43 78 4.30 2750 Lou M 37 66 2.00 1 600 Chan M 44 70 3.20 2750 Shen F 42 65 3.00 2500 Zhou F 41 64 2.70 2400 Deng M 38 72 2.5 2200 每定义一个变量后 按列方向输入数据 或定义完全部变量后 按行或列输入数据 在如图 3-6 或图 3-1 所示的 Data Editor 主画面的定义变量对话框中定义变量 图 3-6 定义变量名对话框 在输入数据的数据编辑窗口中输入数据 如图 3-7 所示 图 3-7 数据编辑窗口输入数据 3.4 数据编辑 3.4.1 数据编辑器 SPSS for Windows 启动成功后 屏幕显示的 SPSS 主画面中有一个标有彩色底色 白 字 Untitled 的窗口 这就是 SPSS 的数据编辑器 也称数据窗 如图 3-1 所示 用户在 该窗口进行建立数据文件的一切工作 1 数据编辑器的组成 (1) 窗口标题栏 标有窗口名称 Untitled 激活状态时 窗口标题栏一般为兰底白字 (2) 窗口状态栏 在窗口标题栏下面有两栏 左边一栏为窗口状态栏 显示当前变量 名和当前记录号 (3) 数据输入栏 在窗口标题栏下面的两栏中 右边一栏为数据输入栏 原样显示用 户直接从键盘输入的变量值 从键盘输入的数据先显示在该栏中 回车后 系统根据定义 的变量长度选择合适的形式显示在定位的单元格中 (4) 数据显示区 窗口状态栏和数据输入区的下面是数据显示区 它是一个二维平面 表格 在表格顶部显示变量名 在它下面的空白单元格中显示各变量值 其中一个单元格 边框是加黑的 称作选定单元格 选定单元格中的数据的内部值显示在数据输入栏中 2 数据编辑器的功能概述 数据编辑器的编辑功能主要是通过主菜单的 Data Edit 两个菜单项来实现的 其主要功能如下 (1) 变量与观测量的编辑功能 使用鼠标和 Data 菜单项的功能实现 其中包括 定义与修改一个变量的属性 (Define Variable ) 定义与修改一个变量模板 (Templates ) 插入一个变量 插入一个观测量 (Insert Variable Insert Cases ) 定位到指定的观测量 (Goto Case ) 按某变量值对观测量进行排序 (Sort Cases ) 求数据文件的转置 (Transpose ) 合并数据文件 拆分数据文件 (Merge Files Split Files ) 选择观测量 (Select Cases ) 对数据进行分类与不分类的汇总 (Aggregate ) 对观测量进行加权处理 (Weight Cases ) (2) 数据编辑功能 可以使用鼠标和 Edit 菜单项中的功能实现 其中包括 剪切指定的数据到剪贴板 (Cut) 把指定的数据拷贝到剪贴板 (Copy) 删除刚刚输入或恢复修改的数据 (Undo typing 或 Undo Change Value) 清除数据编辑器中选定的变量或观测量 (Clear) 查找数据 (Search for Data) 3.4.2 已输入数据的修改 1 在一个区域中修改数据 如果错误数据集中在某个区域中 可以先定义这个区域为当前工作区 然后让光标只 在区域中移动 方法是 鼠标光标 (十字 )对准该区域的左上角一个单元格 按下鼠标键拖拽至该区域的右下角 单元格 当反向显示的区域包括要修改数据的区域时松开鼠标键 这样就定义了一个工作 区 这时 Enter 键的有效范围在该区的顶部到该区的底部 Tab 键的有效范围在该 区的左端至该区的右端 此时修改数据很方便 工作单元格是正向显示的 2 恢复删除或修改前的数据 如果对本次的修改与删除不满 想恢复操作前的状态 只要使用鼠标单击系统菜单中 的 Edit 展开下拉菜单 选择第一项 Undo 鼠标单击之即可 3.4.3 数据的剪切 复制与粘贴 有时数据输入位置发生错误 需要移动 有时相同的数据需要拷贝 简便的操作方法 是利用 Edit”菜单项的剪切 拷贝 粘贴功能 首先要指定操作对象 方法是 (1) 选择变量 十字形光标置于选择的变量名上 单击鼠标键 该变量各单元格反向 显示 (2) 选择观测量 十字形光标置于选择的观测量序号上单击鼠标键 该观测量一行上 的各单元格反向显示 (3) 选择属于某个变量的若干个连续的单元格 如选择某个变量的第三个到第五个值 则把十字形光标先置于第三个变量值单元格上 按下鼠标左键向下拖拽鼠标 使选中的单 元格除选中的第一个单元格外全部反向显示 即第三 四 五个单元格选中 反向显示 然后松开鼠标键 (4) 选择属于某个观测量的若干个连续的单元格 方法同 3 只是按下鼠标键后横向拖 拽鼠标 直到选中的单元格全部变为反向显示时松开鼠标键 1 剪切与拷贝 如果选中的内容要移到另一个位置 或者删除 则应单击主菜单的 Edit 菜单项 展开下拉菜单 选择 Cut 单击鼠标键 选定的内容从数据编辑器中消失 转移到一个 假想的剪贴板上 保存起来 2 拷贝操作 如果选中的内容要拷贝到另一位置 则应单击主菜单的 Edit 展开下拉菜单 选择 Copy 单击鼠标键 选定的内容仍然显示在原位置上 其备份被 粘贴 到假想的剪贴板上 如果此次保存在剪贴板上的内容不作任何处理 下次被剪切或拷贝到剪贴板上的内容 会覆盖原有的内容 原有的内容全部消失 相当于剪切的内容被删除 3 拷贝选定内容到另一位置 (1) 拷贝一个变量 按 1 和 2 选定变量并拷贝到剪贴板上 在选定位置上插入一个空变量 单击主菜单的 Edit”菜单项 展开下拉菜单 选择 Paste”单击鼠标键 结果拷贝在 剪贴板上的变量诸值全部填充在插入的空变量的各单元格中 拷贝变量的操作完成 变量 名仍是 Var000n”的形式 但它的属性与原系统默认值相同 如果需要 还应该重新定义 变量名及其属性 (2) 拷贝一个观测量 先指定观测量并拷贝到剪贴板上 按本节介绍的方法在选定的位置上插入该空观测量 单击主菜单的 Edit”菜单项 展 开下拉菜单 选择 Paste 单击鼠标键 结果拷贝在剪贴板上的观测量的各变量值全部填 充在插入的空观测量的各单元格中 拷贝观测量的操作完成 (3) 拷贝变量或观测量部分内容的操作与 (1) (2)类似 不同点在于变量和观测量都是 已经存在的 要找好拷贝目标地的起始位置 3.4.4 变量 观测量的插入与删除 1 插入一个变量 如果在现存变量的右边界右面增加一个变量 ,只要把十字光标定位于最右边一个变量 的右面一个变量列上 ,单击鼠标右键 弹出一个菜单 选择 Insert Variable 如果要定义 的变量想放在已经存在的变量之间 就是要插入一个变量 操作步骤如下 (1) 把十字光标定位于新变量要占据的那一列的任意行上 单击鼠标键 (2) 单击主菜单 Data 菜单项 展开下拉菜单 (3) 在下拉菜单中选择 Insert Variable 单击鼠标键 当然 也可单击鼠标右键来进行选择 效果是一样的 结果在选定的位置上插入一个变量名为 Var0000n 的变量 其中的 n 是系统定 义的变量序号 如果已经定义了 3 个变量 则新插入变量的变量名为 Var00004 原来 占据此位置的变量和及其右侧的变量右移 按照 3.3 节介绍的方法定义这个插入的变量 可以对其重新命名并定义其属性 2 删除一个变量 删除一个变量按下述步骤进行 (1) 十字形光标置于选定的变量序号上 单击鼠标键 该变量全部单元格反向显示 (2) 单击主菜单 Edit 菜单项 展开下拉菜单 (3) 在下拉菜单中选择 Cut 项 单击鼠标键 选中的变量暂时消失 (存入剪贴板 )还 可以用 Paste 恢复 如果用鼠标单击 Clear 则为不可恢复的删除 无论使用哪种方法进行变量的删除 其结果均为被选定的变量消失 其下面的诸变量 上移 以上 (2) (3)两步可以用单击 Delete 键代替 3 插入一个观测量 观测量的排列无关紧要 其排列次序可以用排序功能整理 如果确实需要插入一个观 测量 可以使用下述步骤 (1) 十字形光标置于要插入观测量的一行的任意单元格中 单击鼠标键 (2) 单击主菜单 Data 菜单项 展开下拉菜单 (3) 在下拉菜单中选择 Insert Case 单击鼠标键 结果在选中的一行上增加一个空行 可以在此行上输入该观测量的各变量值 4 删除一个观测量 删除一个观测量按下述步骤进行 (1) 十字形光标置于选定的观测量序号上 单击鼠标键 该观测量全部单元格反向显示 (2) 单击主菜单的 Edit 菜单项 展开下拉菜单 (3) 在下拉菜单中选择 Cut 项 单击鼠标键 选中的观测量暂时消失 存入剪贴板 但还可以用 Paste 恢复 如果用鼠标单击 Clear 则为不可恢复的删除 无论使用哪种方法进行观测量的删除 其结果均为被选定的观测量消失 其下面的各 观测量上移 以上 (2) (3)两步可以用单击 Delete 键代替 3.4.5 恢复删除或修改前的数据 如果对本次的修改与删除不满 想恢复操作前的状态 只要使用鼠标单击系统菜单中 的 Edit 展开下拉菜单 选择第一项 Undo 鼠标单击之即可 3.5 数据交换 3.5.1 保存数据 保存数据文件是把数据窗中的数据以文件形式保存到外部存储介质中的操作 保存有 两种 一种是直接保存为 SPSS for Windows 数据文件 一种是保存为其他格式的数据文件 以便其他软件使用 保存数据文件可以使用 File 菜单项中的 Save 和 Save as 1 Save date 的功能及操作方法 从磁盘中读入 (打开 )的数据文件 如果要存盘 并存入原来的文件名 使用 Save data 项的功能 一般在修改数据后使用该项功能保存数据到原名文件中 操作方法是用鼠标单 击 File 菜单项 展开下拉开菜单 选择 Save 菜单项 单击鼠标键 数据窗中的数据 立即保存到原名文件中 屏幕仍然显示数据窗 如图 3-8 所示 如果数据窗中的数据均为刚刚输入的数据 还没有存过盘 第一次存盘 也用上述方法 选择 Save 功能 选择后展开保存数据文件的对话框 操作与本节 2 叙述的方法相同 2 Save as 的功能与操作方法 当需要把窗中的数据保存在另一个文件名中时 或是想以另一种格式保存以便用其他 软件进一步处理时可以选择此项功能 操作方法是 用鼠标单击 File 菜单项 展开下拉菜单 选择 Save as 菜单项 展开需要的对 话框 Save Data as 如图 3-8 所示 图 3-8 Save Data As 对话框 指定存储位置和文件类型的操作与打开数据文件的对应操作完全相同 应该说明的是 如何选择保存数据文件的类型 可选择的类型与打开数据文件的相同 但由于各软件高低 版本之间的兼容性问题 可保存数据文件格式的小菜单对应不同版本有不同的选择项 应 该小心选择 否则保存的数据文件在其他软件中可能打不开 无法使用其中的数据 还应 该注意有时会丢失某些信息 确定了保存格式 扩展名就确定了 在 文件名 ”下面的矩形框中显示主名为 * 的 文件名 鼠标光标定位于 * 前 并将其变为具体的文件名 确定数据文件存储形式 在对话框最下面有两个存储形式选择项 z Compress SPSS data 压缩 SPSS 数据 即要求存盘时进行压缩 只有 SPSS SPSS/PC 两种文件要求选择是否进行压缩存储 z Write variablename to spreadsheet 把变量名写入表格 Tab-delimited Excel 各种 版本的 Lotus 1-2-3 SYLK 文件格式要求这个选择 允许进行存储形式选择时 相应的选择项加亮 只要用鼠标单击该项 使前面的圆圈 中的黑点出现或消失即可 确认以上选择后 单击 OK 按钮或在输入完文件名时回车即可按要求的类型保存数 据文件 如果在指定存储位置上已经有一个同名文件存在 则系统显示一个要求确认是否改变 原有的数据文件的对话框 同意覆盖原文件 单击 Yes 按钮 执行存盘 否则 单击 No 按钮 若改变主意 单击 Cancel 按钮可作废各步骤操作 3 另存为数据文件实例 为了说明将数据窗中的数据另存为固定格式的 ASCII 码文件的操作 下面以保存数据 窗中的有关学生身高 体重等数据为例进行说明 数据文件 hw.sav 中有六个变量 no 编号 name 姓名 sex 性别 age 年龄 h 身高 w 体重 在主菜单中选择 File 菜单中的 Display Data Info 功能 在展开的对 话框中选择 e: \ spsslu \sav \hw.sav 把数据保存为固定格式的 ASCII 码文件的操作如下 在主菜单中选择 File 展开下拉菜单 在其中选择 Save as 小菜单 展开 另存 为 对话框 在 Save as(另存为 )对话框中指定存储位置 (驱动器 目录 ) 选择文件类型为 Fixed ASCII 并输入文件名 其扩展名为 .dat 单击 OK 按钮 在文件以 ASCII 码形式存入指定位置的同时 在 output 窗中产生 一个存储变量信息表 3.5.2 打开文件 打开数据文件就是把外部数据文件读入到数据窗中 操作步骤如下 鼠标单击主菜单中的 File 菜单项 展开下拉菜单 选择 Open 单击鼠标键 展开小菜单 在小菜单中选择 Data 展开打开数据文件对话框 Open File 如图 3-9 所示 图 3-9 Open File 打开文件对话框 找到或输入要打开的数据文件 方法如下 在 搜寻 I 右端的矩形框中指定文件操作的磁盘 单击矩形框右侧的向下箭头 展开磁盘清单 单击清单右侧滚动条中的滚动块上下方的空白处 移动滚动快 使清单显示出文件所 在的磁盘符号 单击之 清单回收 选中的磁盘符号显示在矩形框中 该步骤完成后 在其上方的矩形框中显示指定磁盘的目录 选择数据文件所在的子目 录 滚动条中无滚动块说明矩形框中已包括了所有子目录 滚动条中有滚动块 则说明矩 形框中没有显示完全 鼠标单击滚动条上下空白处可上下移动滚动块 找到数据文件所在 的子目录 双击之 如果文件存在下一级子目录中 双击后 矩形框中显示下一级子目录 用与上述同样的方法指定子目录 确定文件类型 在对话框左下角的矩形框中用与上述步骤相同的方法指定文件类型 在数据窗中建立 并保存的文件一般扩展名为 .sav 其他类型的数据文件大致有以下几种 z SPSS *.sav SPSS for Windows 建立的数据文件 扩展名为 .sav” z SPSS/pc + (*.sys) SPSS/pc 或 SPSS/pc plus 建立的数据文件 扩展名为 *.sys z SPSS portable (*.por) 是准备用于其他软件的一种 ASCII 码文件 变量类型 标 签 值标签以及用户的定义缺失值都另外单独保存着 z Excel *.xls 是 Excel 建立的表格数据文件 z STKJ *.slk 是表格数据文件 z Dbase *.dbk 是数据库格式文件 扩展名为 .dbk 可以是各种版本的 dBASE 或 FoxBase 建立的数据库文件 记录转换成数据窗口中的一个观测量 z Lotus *.w* 是用 Lotus1-2-3 格式写的数据文件 可以是 1A 版 2 版 3 版的 Lotus1-2-3 记录的数据文件 它的一行转换成一个观测量 变量转换成一列 z Tab-Delimited(*.dat)是用 ASCII 码写的数据文件 可能由其它任何软件建立 指定了文件类型 在 文件类型 (T) 矩形框中显示选定的类型 完成该步后 文件名上面的矩形框中显示使用统配符表示的同类文件查找并指定所需 数据文件 该文件名显示在上面一个矩形框中 确认文件 方法有两种 z 鼠标光标移至文件名后面 按回车键 z 鼠标单击 OK 按钮 在数据窗中显示指定的数据文件中的数据 打开数据文件工作结束 如果要打开的数据文件的存储位置和文件名均很清楚 则在显示了 Open Data File 对话框时可以直接在 File name 下面的小矩形框中输入带有路径的文件名 回车或单 击 OK 按扭均可直接打开指定的数据文件 如果打开一个数据文件之前 数据窗中已经有数据存在 新的数据文件将占据数据窗 原来的数据将会消失 当原数据未存盘时系统会通过对话框提示 是否保存数据窗中的数 据 如果放弃窗中的数据 则单击 No 按钮 当打开一个指定数据文件时 原来在数据 窗中的数据消失 如果需要保存这些数据 单击 Yes 按钮 打开保存文件对话框 如 果改变主意 不想打开任意一个数据文件了 则单击 Cancel 按钮 显示返回数据窗 在保存文件对话框中的操作可见 3.5.1 节中的介绍 3.6 结果输出 3.6.1 选择结果 在 Open File 对话框中 单击 “打开 ”按钮 激活 SPSS Output Navigator 窗口 如图 3-10 所示 图 3-10 Output 输出窗口 3.6.2 编辑结果 用鼠标单击某结果 该结果四周出现实线方框 表示选择该结果 双击之可任意编辑 这一结果 在结果与说明的选择状态 选择 Edit ? Copy 或 Copy Objects 可以复制结 果与说明的文本部分或表格和图形 复制的结果可在 SPSS Output 窗口和 Word 中粘贴 如图 3-11 所示 图 3-11 Output 窗口中的 Edit 菜单 3.7 数据或结果的打印 用户可将文本打印出来以便阅读或保存 先激活需要打印的窗口 然后选 File 菜单的 Print... 命令项 弹出 Print 对话框 用户确定是全部打印 (All)还是选择部分打印 (Selection) 并确定打印份数 (Copies)后 点击 OK 钮即可将文本内容送往打印机 系统在 File 菜单中还提供了 Printer Setup... 命令项 选择此命令项可对打印机 类型 纸张尺寸 打印边界 打印输出方向 打印分辩率和打印颜色深浅度进行设定 思 考 题 1 将下列表格中的数据输入到数据编辑窗口中 并保存为数据文件 然后对其中的 一些变量值进行修改和编辑 2 试着将两个数据文件中数据进行合并 3 试着从一个数据文件中选择部分数据 将其复制到一个新的数据文件中 4 尝试从 Word 和 Excel 中将表格中的数据复制到数据文件中 第 4 章 为分析作好准备 导 言 本章主要要求读者掌握一些数据的整理分类变换和计算方法这些方法是进行数 据分析的基础有时我们可能要在数据分析前使用其中的一些方法也有可能是在数据分 析的过程中也有可能是对数据的后处理数据文件的整理主要是一些关于数据的排序 排秩数据文件的行列转置数据文件的合并分割病例(观测值)的选择和加权等数据 的分类汇总本身就是一个统计方法在数据的变换和计算方面Compute过程功能强大 用法灵活而且要经常用到 当我们把前面所有的工作都做完后对该数据文件就可以进行分析了在许多情况下 SPSS的分析过程往往对数据有特殊的要求需要对数据文件进行进一步的加工才能调用 分析过程对数据进行分析对输出信息的标题分页等也可能要进行事先的安排本章 主要对分析前可能需要的工作进行介绍 4.1 数据文件的整理 4.1.1 观测量的排序 在进行数据的处理时有时需要按某个变量值重新排列各观测量在数据文件中出现的 先后顺序当建立或读入一个SPSS数据文件到数据窗中后可按下列步骤对数据文件中 的观测量进行排序 1在主菜单中找到并单击DATA菜单项展开DATA下拉菜单 2在下拉菜单中选择Sort Cases项打开Sort Cases对话框如图4-1所示 图4-1 Sort Cases对话框 3想好根据哪一个或哪些变量的值对观测量进行排序这些变量我们可以称之为B 变量在左边的源变量框中选择这些变量并通过单击向右箭头按钮将选中的变量移 到右面的Sort by下面的矩形框中应该注意如果选择了两个以上的变量观测量排 序的结果与BY变量在Sort by栏内的顺序有关列在首位的称之为第一变量其后 的顺序称之为第二变量第三变量 4想好观测量是根据变量的升序还是降序排列然后进行如下操作 在Sort by栏目选择一个变量在Sort Order 栏目内选择一种排序方式 z scending按所选择的BY变量的升序排列如果选择此项选中的BY变量名后 面的括号中显示字母A z Descending按所选择的BY变量的降序排列如果选择此项选中的BY变量名 后面的括号中显示字母D 5重复4的操作可以指定下一个BY变量的排序方式 4.1.2 变量值的排秩 有些过程在分析之前自动先对变量求秩序有时需要人工事先排好秩求变量的秩的 工作可以由菜单Tansform ? Rank Cases”命令项实现求得的秩序在数据编辑窗口中 建立一个新变量来保存 从Tansform ? Rank Cases进入Rank Cases对话框如图4-2所示 图4-2 Rank Cases对话框 选择变量x1 x2 x3 y进入Variable(s)变量栏中以便对每个选入的变量产生一 个秩变量新生成的秩变量的名称以原变量名称前加字母r的形式出现在原文件中 1点击Rank Types按钮选择排秩的方式弹出Rank Types对话框如图4-3所示 在此对话框中有许多排秩类型 Rank复选项数据文件中的新变量就是秩变量这是默认方式 Savage score复选项依据指数分布所得 Fractional Rank复选项某一观测量的秩值为某秩序除以非缺失值观测量的权重之和 Fractional Rank as %复选项某一观测量的秩值为某秩序除以所有合法值的观测量数 目之和乘以100 Sum of case weights复选项某一观测量的秩值等于各观测量权重之和在同组中新 变量是一个常数 Ntile复选项并在其参数栏中输入一个大于1的整数观测量的秩值是按观测量占的 百分比位置来决定的 图4-3 Rank Cases Types对话框 在对话框的右下角有一个More按钮点击之展开如图4-3所示的对话框 Proportion estimates比例估计选项是与一个特别秩的分布的累计比的估计 Normal Scores正态分数选项即与估计累计比相应的Z分数 选择了以上两项时Proportion Estimation Formula栏中的Blom Tukey Rankit Van der Waerden选项变亮表示可选择这些项 2点击Ties按钮进入Rank Cases Ties对话框如图4-4所示 图4-4 Rank Cases Ties对话框 Mean选项相同值的秩取平均值 Low选项相同值的秩取最小值 High选项相同值的秩次取最大值 Sequential ranks to unique values选项相同值的秩次取第一个出现的秩次值 4.1.3 行列转置 Transpose行列转置过程的功能是将数值型变量的数据旋转90度 从Analyze ? Transpose进入Transpose行列转置对话框如图4-5所示 图4-5 Transpose行列转置对话框 Variable(s)栏放入将要行列转置的变量名在数据文件中未放入栏中的变量会遗 失字串变量不能转置如果强迫转置变量值转变为系统缺失值 Name variable变量命名栏在左侧源变量栏选择一个变量放入name variable栏 即该变量的数据作为转置后的变量名 以图4-6所示的数据文件为例 图4-6 用于行列转置示例的数据文件 变量x1 x2 x3和Y行列转置定义变量id的数据为转置后的新变量名变量id取 值为0到11的整数 选择Data ? Transpose激活Transpose对话框在左侧源变量栏选择变量x1 x2 x3和Y放入Variable(s)栏在左侧源变量栏选择变量id放入Name variable栏单 击OK按钮如图4-7所示 结果解释 变量name和sex遗失变量x1 x2 x3 Y行列转置变量id值前面加v组成v0 v1 v2 v3 v4等变量名 图4-7 行列转置后的数据文件 4.1.4 合并文件 合并文件的功能是某处外部文件与当前数据合并成一个新工作数据新工作数据包括 病例或变量的增加注意增加变量时外部文件与当前数据必须是升序排列文件 从Data ? Merge files可以看到下一级菜单中有两个命令项Add Cases和Add Variables 点击Add Cases进入Add case read file读取外部文件增加病例(数据纵向合并) 对话框如图4-8所示 图4-8 Add case read file读取外部文件增加病例对话框 文件名栏放入外部文件名 文件类型栏选择外部文件类型 从外部选择一个数据文件点击打开按钮进一步弹出Add cases from增加病例 对话框如图4-9所示 图4-9 Add cases from增加病例对话框 Unpaired variable不匹配变量栏指变量名相同而变量定义不同的变量或变量名不 同的变量 Variables in new working data新工作数据变量栏 Indicate case source as variable指示病例来源的变量选项数值0表示源工作数据的 病例数值1表示外部文件的病例选择该项后也可以输入任一变量名作为指示病例来 源的变量系统默认值的变量名为source01 (*)=Working Data File:星号表示工作数据文件 (+)=E:\chengxu\spss\cars.sav加号表示外部文件 从Data ? Merge files ? Add Variables进入Add Variables: Read File读取 外部文件增加变量(数据横向合并)对话框如图4-10所示 图4-10 Add Variables: Read File对话框 文件名栏放入外部文件名 文件类型栏选择外部文件类型 选择一数据文件点击打开弹出ADD Variables from增加变量对话框如图4-11 所示 图4-11 ADD Variables from增加变量对话框 Excluded Variables拒绝变量栏.外部文件与当前数据的同名变量,拒绝加到新工作区中 New Working Data新工作数据变量栏 Match Case on Key Variable in Sort排序文件中按关键变量匹配病例选项 Both files provide case由外部文件和当前数据两者提供病例 External file is keyed table外部文件为关键表以当前数据为基准外部文件匹配当 前数据的关键变量值如果匹配成功外部文件的新变量值加入到当前数据的新变量中 匹配不成功则不加入 Working Data File is keyed table当前数据为关键表以外部文件为基准当前数据匹 配外部文件的关键变量值如果匹配成功外部文件的新变量值加入到当前数据的新变量 中匹配不成功则舍去当前数据的该病例 Key Variables关键变量栏在拒绝变量栏选择某变量作为关键变量 Indicate case source as variable指示病例来源的变量选项.数值0表示原工作数据的病 例,数值1表示外部文件的病例选择该项可以输入任意变量名作为指示病例来源的变量, 系统默认值的变量名为source01 (*)=Working Data File星号表示工作数据文件 (+)=E:\chengxu\spss\cars.sav加号表示外部文件 4.1.5 分割文件 Split File分割文件的功能是把当前工作分割成两个或两个以上的组随后的分析将对 每个分组进行 从Data ? Split File进入Split File分割文件对话框如图4-12所示 Analyze all cases do not create groups分析全部病例选项不建立分组是系统默认 值选择此项可恢复未分割前的状态 Compare groups对照组选项若选择此项则分割文件的各分组以对照组的形式显 示分析结果与说明 Organize output by groups按分组变量组织输出选项若选此项则对每个分割文件 的分组逐个显示分析的结果 Groups Based on分组变量存放栏从变量表所选的变量是分组分析的依据变量最 多同时可选8个分组变量 Sort the file by grouping variables按分组变量对数据文件排序的选项系统默认值 File is already sorted数据文件已排序选项选此项表示数据文件已按分组变量排序 系统不需重做排序 图4-12 Split File分割文件对话框 以图4-13所示的数据文件为例 图4-13 用于分割文件示例的数据文件 从Data ? Split File进入Split File分割文件对话框如图4-12所示 选择Compare groups激活Groups Based on栏将变量x3 sex选中进入Groups Based on栏中因原来数据文件未对变量sex和x3进行排序故保留Sort the file by grouping variables选项 得到结果如图4-14所示 图4-14 文件分割后的数据文件 4.1.6 选择病例 Select Cases选择病例的功能是选择某些符合条件的病例 以图4-6所示的数据文件为例选择女性(sex F )或变量x3在2.00到3.00数值范 围内的病例 选择Data ? Select Cases进入Select Cases对话框如图4-15所示选择If condition is satisfied激活If单击If按钮进入If对话框在该对话框中的条件表达式栏 中输入SEX F OR X3>=2.00ANDX3<=3.00条件表达式如图4-16所示单击 Continue按钮 在Select Cases对话框中单击OK按钮 图4-15 Select Cases对话框 图4-16 Select Cases If对话框 得到结果如图4-17所示 图4-17 Select Cases后的数据文件 4.1.7 加权病例 加权病例的功能是设定某变量为频数变量 从Data ? Weight Cases进入Weight Cases对话框如图4-18所示 图4-18 Weight Cases对话框 Do not weight cases非加权病例对话框系统默认值 Weight cases by加权病例变量选项 Frequency频数变量栏放入频数变量 以图4-6所示数据文件为例设定x1为频数变量在Weight Cases对话框中选择 Weight Cases By激活Frequency栏把左侧的变量x1放入Frequency栏中单击OK 按钮即可 4.2 对数据进行分类汇总 4.2.1 汇总的概念 对数据进行分类汇总就是按指定的分类变量值观测量进行分组对每组观测量的各变量 求描述统计量生成新数据文件在新数据文件中应分类变量的每个值产生一个观测量 4.2.2 进行分类汇总的方法 当读入或建立一个数据文件后可以按如下步骤操作 1打开data菜单选择Aggregate展开Aggregate Data对话框如图4-19所示 图4-19 Aggregate Data对话框 2在左侧的源变量框中选择一个或多个变量作为分类变量进入分类变量(Break Variable[s])框中 3在左侧的源变量框中选择一个或多个变量作为要求汇总的变量进入汇总变量 (Aggregate Variable(s))框中即要求对这些变量的值进行分类汇总 4 name & label (名称与标签)单击此按钮可以修改组合后所生成的新变量的名 称以及标签如图4-20所示可以在Name后面的矩形框中输入新变量名在Label后面 的矩形框中输入新变量的标签单击Continue按钮继续 图4-20 Aggregate Data Variable Name and Label对话框 如果不选择该选择项则系统对每个新变量赋予的变量名均为对应的原始变量名后面 加下划线和数字1 5 Function函数选择此项可以确定汇总变量的描述内容系统的默认函数为 平均数单击此按钮展开Aggregate Data: Aggregate Function对话框如图4-21所示 (1) 一组包括八个单选项两个可以并列选择的选择项八个单选项中只能择其一 Mean of values 源变量分组中的算术平均数 Fist Value 源变量分组中的第一个观测值 Last value 源变量分组中的最后一个观测值 Number of cases 源变量分组中加权观测量的数目 Standard deviation 源变量分组中的标准值 Mininum value 源变量分组中最小的观测值 Sum of values 源变量分组中所有观测量的和 Maximum Value 源变量分组中最大的观测值 图4-21 Aggregate Data Aggregate Function对话框 两个并列选择项是 Missing 源变量分组中缺失值的数目 Unweighted 源变量分组中未加权的观测量的数目如果Missing没有被选择则此 选择项显示源变量中未被加权的缺失的数目 (2) 二组位于对话框左下角的矩形框中包括四个单选项只要选择某个选择项激 活该组的Value选择项在其后的矩形框中输入一个值 Percentage abve 在源变量分组中观测值大于设定值的观测量数占该组总数的百分数 Percentage below 在源变量分组中观测值小于设定值的观测量测量数占该组总数的 百分数 Fraction above 确定在源变量中的观测值大于设定值的比率 Fraction below 确定在源变量中的观测值小于设定值的比率 (3) 第三组位于对话框右下角的矩形框中包括四个单选项只要选择某个选择项激活 该组的Law和Hight选择项在其后的矩形框中各输入一个值Law值应该小于Hight值 Percentage inside 确定在Law~Hight之间的观测值的百分数 Percentage outside 确定在Law~Hight之外的观测值的百分数 Fraction inside 确定在Law~Hight之间的观测值的比率 Fraction outside 确定在Law~Hight之外的观测值的比率 选择函数完成后单击Continue按钮返回主对话框 6 Save number of cases in break group sa variable选择此项各分组的观测量的数目作 为一个新的变量保存在生成的新数据文件中在接下来的框中键入你为该变量取的变量名 7关于生成变量的存储参照3.5.1小节 8 Create new data file选择此项新变量存储与新文件中选择此项激活File 按钮单击File按钮展开对话框在对话框中指定保存新数据文件的存储路径和文件 名操作与打开数据文件的操作相同单击Continue按钮返回主对话框指定的数据 文件的文件名和存储路径显示在File按钮后面 Replace working data file选择此项包含汇总变量的新数据文件替代当前工作文件 9单击OK按钮执行汇总功能 4.3 对数据进行变换和计算 4.3.1 Compute 的概念 菜单Transform的Compute”命令项是一个在统计分析中经常要用到的功能例如 分析变量x y的线性相关性时我们发现x y并不线性相关但我们若将y进行对数变 换得到一个新变量z则有可能重新发现x z是具有某种相关性的通过这种变换我 们将非线性问题线性化这是数学中的一个非常重要的思想 变量的变换和计算是基于其他变量的数值转换的利用Compute过程我们至少可完 成以下四个方面的工作 1计算数值型或字符型变量的值 2创建新变量或取代已存在的变量对于新变量依然可以指定变量的类型和标识 3在一定的逻辑条件下有选择地计算数据子集的值 4可以使用近70种已建立好的函数功能如数值函数统计函数分布函数字符 函数等等进行变量的计算和转换 4.3.2 Compute 过程 打开数据文件如图4-6所示 从Transform ? Compute进入Compute Variable对话框如图4-22所示 图4-22 Compute Variable对话框 例如我们要实现对变量x1取常用对数然后再乘以10新得到的变量称为x4具体 操作如下 在Functions栏中已有的功能函数中选择LG10[numexpr]点击向上的箭头按钮将此 函数放入Numeric Expression栏中在左侧的变量名栏中选择变量x1点击向右的箭头按 钮将x1放入Numeric Expression栏中这样Numeric Expression栏的表达式变为LG[x1] 将光标移至表达式前面用鼠标点击对话框中间的面板上的按钮1 0和*得 到表达式10*LG[x1]如图4-23所示 图4-23 输入表达式后的Compute Variable 点击OK按钮得到新的数据文件如图4-24所示 图4-24 新得到的数据文件 若要在某一逻辑条件式下对数据的某一子集进行计算或变换在图4-22或图4-23 中点击If按钮弹出Compute Variable If对话框如图4-25所示 图4-25 Compute Variable If对话框 Include all cases包括所有变量和观测量(或称之为病例)系统默认值 Include if case satisfied conditions包括符合条件的观测量或称之为病例在其下的方 框中输入表达式方法同在Numeric Expression栏中输入表达式的方法 思 考 题 1将下列表格中的数据输入到数据编辑窗口中并保存为数据文件 然后将其行列转置变为如下形式 2选择一组大量数据要求变量不少于三个病例(观测量)不少于30进行数据分类汇 总 3选择题1中的subject变量对其进行自然对数变换并保存变换后的数据 第 5 章 统计分析功能概述 导 言 从本章开始系统的进入SPSS的统计分析方法本章主要是对SPSS常用的一些数值分 析功能进行系统的介绍由于在下面的章节中还要对各种方法进行更为具体详细的介绍 和阐述因此本章只进行简要介绍读者从本章中还能了解到各种方法的基本概念这对 于使用SPSS软件而言已经足够另外本章还简要介绍了SPSS强大的图形功能 5.1 SPSS 统计功能概述 前面介绍了SPSS的基本操作目的就是要为SPSS的统计分析服务数值分析过程可 在Analyze中得到通过菜单Analyze中的各个过程可对数据进行分析而在Graphs 菜单中可调用各种统计图形分析过程绘制各种统计图形以便于理解结果 按由易到难由简单到复杂的顺序分类SPSS的统计功能可分为三类 1基础统计包括描述性统计探索性统计列联表分析线性组合测量t检验 单因素方差分析多重响应分析线性回归分析相关分析非参数检验等等 2专业统计包括判别分析因子分析聚类分析距离分析可靠性分析等等 3高级统计分析包括Logistic回归分析多变量方差分析重复测量方差分析多 协变量方差分析非线性回归Probit回归分析Cox回归分析曲线估计等等 由于上述功能涉及内容复杂繁多故而不可能面面俱到本书只选择常用的功能加以 阐述对于不常用的一些功能读者可查阅帮助和根据本书介绍的其他功能举一反三加以掌 握 5.2 SPSS数值分析过程 点击菜单Analyze进入下拉菜单如图5-1所示 从图5-1可以看出SPSS的数值分析过程主要由以下功能组成 1 Reports报告功能 2 Descriptives Statistics描述性统计分析 3 Compare Means比较均值分析 4 General Linear Model一般线性模型分析 5 Correlate相关分析 6 Regression回归分析 7 Loglinear对数线性模型分析 8 Classify聚类分析 9 Data Reduction简化数据处理主要是因子分析 图5-1 Analyze的下拉菜单 10 Scale比例分析 11 Nonparametric Tests非参数检验 12 Survival生存分析 13 Multiple Response多重响应分析 5.2.1 Reports 包含的分析功能 从Analyze ? Report再进入下一级菜单如图5-2所示 图5-2 Reports下一级菜单 从图5-2可以看出Reports分析包含的分析功能有 1 OLAP Cubes过程 OLAP(Online Analytical Processing)Cubes过程按分类变量对连续变量计算其总数均 数和其他单变量的统计量一个分类变量值在表格中生成一个分层 2 Case Summaries过程 该过程按分类变量值分类然后计算其他变量细分组的统计量 3 Report Summaries in Rows过程 该过程按行格式显示指定范围内的指定的综合描述统计量 4 Report Summaries in Columns过程 该过程按列格式显示在指定范围内计算的指定的综合描述统计量 5.2.2 Descriptives Statistics 包含的分析功能 从Analyze ? Descriptives Statistics再进入下一级菜单如图5-3所示 图5-3 Descriptives Statistics下一级菜单 从图5-3可以看出Descriptives Statistics分析包含的分析功能有 1 Frequencies过程 SPSS for Windows数值分析过程均包含在Analyze的下拉菜单中 该过程可以作单变量的频数分布表显示数据文件中由用户指定变量不同值发生的频 数还可以用来获得某些描述统计量和描述数值范围的统计量 2 Descriptives过程 该过程可以计算单变量的描述统计量例如可以计算商店顾客的平均收入并可以查看 围绕这个平均值变换的范围有多大或计算高于或低于增均值的某个范围内有多少个观测量 如果要求对观测量进行分组分析,可以事先使用Split File功能拆分数据文件,或是使用 Means 或Explore功能进行分析 3 Explore过程 该过程用于计算指定变量的综合描述统计量它既可以对观测量整体分析也可以进行 分组分析从这个过程可以获得箱线图直方图正态检验频数表等统计方法来表明和 检验连续变量的数值分布情况该过程可以完成对观测量按两个以上分类的变量值组合分 组计算描述统计量和描绘统计图 4 Crosstabs过程 列联表过程可以作为两变量或多变量的各水平组合的频数分布表又称为频数交叉 表或简称为交叉表计算综合描述统计量并进行检验通常选择分类变量或者选择 离散变量做交叉表 5.2.3 Compare Means 包含的分析功能 从Analyze ? Compare Means再进入下一级菜单如图5-4所示 图5-4 Compare Means下一级菜单 从图5-4可以看出Compare Means分析包含的分析功能有 1 Means过程 该过程对指定的变量进行单变量的综合描述统计量的计算它可以对指定的变量进行 分组分析分组是按分类变量对其他变量进行的分类 2 One-Sample T Test过程 该过程对样本与总体均值进行比较检验样本均值是否来自己知均值的总体 3 Independent-Samples T Test过程 该过程进行独立样本T检验即检验两个相关的样本是否来自具有相同均值的总体 如果分组多于两个要对它们的均值进行比较应该选用One-Way ANOVA过程如 果两组之间彼此不独立例如想比较培训前后职工的工作效率应该选用Paired -Samples T Test菜单项如果想要进行比较的变量明显是非正态分布时应该考虑使用Nonparametric Tests中的某个功能进行分析如果想要进行比较的变量是分类变量则应该使用Crosstabs 功能作交叉表进行卡方检验 4 Paired-Sample T Test过程 该过程对配对样本进行T检验即检验两个相关样本是否来自均值相等的总体相关 或配对样本常常是对同一个观测对象在试验前和试验后观测的结果 5 One-Way ANOVA过程 该过程进行一维方差分析即单变量方差分析检验几个(两个以上)彼此独立的组是 否来自均值相同的总体例如可以根据体重减轻的重量检验三种训练方案对减肥的作用是 否有显著性差异或者查看哪一组效果比其他各组更明显或者检验同一个训练方案对不 同性别的人减肥效果是否相同 5.2.4 General Linear Model 包含的分析功能 从Analyze ? General Linear Model再进入下一级菜单如图5-5所示 图5-5 General Linear Model下一级菜单 从图5-5可以看出General Linear Model分析包含的分析功能有 1 Univariate过程 该菜单项调用ANOVA(方差分析)过程进行单因变量多因素的回归分析和方差分析 可以指定协变量进行协方差分析还可以指定一种分解偏差平方和方法 在单因素设计中检验每个因素单独的效应和交互效应该过程允许用户指定高阶交互 效应并建立包括低于和等于指定阶次的所有阶次的模型如果只想在模型中包括某些特 定阶次的交互效应应该使用Univariate分析过程如果只考虑一个因素检验一个因素 各水平上的均值差异是否有统计意义应该使用One-Way ANOVA菜单项调用相应的分析 过程进行单因素方差分析 2 Multivariate过程 该过程属于高级统计模块中的分析过程它进行有两个或多个相关因变量的方差和协 方差分析多变量方差分析检验相互有关的因变量集与一个或几个因素或分组变量之间的 关系假设 仅在当有两个或两个以上相关的因变量时才可以选择这个过程进行多变量方差分析 如果只有一个因变量或是虽然有两个以上的因变量当它们彼此之间不相关则不能选 择这个过程而应该使用Univariate过程如果在同一个课题中的几种不同情况下测定同 一个因变量应该使用Repeated Measure过程进行方差分析 3 Repeated Measures过程 该过程属于高级统计模块中的分析过程当每个被研究对象的同一个因变量在不止一 种条件下测定时它可用于检验因变量的均值的假设例如每个受试者进行三项训练 并在每次训练后测试心率比较三项训练对心率的影响又例如测定每个受试者在强应 激刺激弱应激刺激的一种情况下进行工作可以检验应激刺激和强化效应的假设和应激 刺激与强化交互效应的假设受试者也可分为相互独立的组别如男性或女性或工作的 类型那么可以检验有关组间变量效应或组内变量效应以及它们之间交互效应的假设 4 Variance Components过程 该过程估测混合效应模型中每个随机效应对因变量的贡献可以用于诸如裂区设计 随机区组设计的混合模型分析 5.2.5 Correlate 包含的分析功能 从Analyze ? Correlate再进入下一级菜单如图5-6所示 图5-6 Correlate下一级菜单 从图5-6可以看出Correlate分析包含的分析功能有 1 Bivariate过程 该过程计算Pearson积矩相关矩阵和Kendall Speaman非参数相关同时计算相关的 显著性水平并根据选择计算单变量的统计量相关系数用数字表示两个变量之间线性相关 的程度Pearson相关系数仅用于计算等间隔测度的变量或表示比例水平的变量Spearman 和Kandall相关系数是非参测度对数据包含有奇异值或当变量的分布为非正态时这两 种相关测度特别有用这两种相关系数是根据变量值的秩计算的 2 Partial过程 该过程在校正了一或几个附加变量的影响情况下计算两个变量间的相关系数如果 需要根据一组自变量的值预测因变量的值可以使用Linear Regression过程如果没有需 要控制的变量可以使用Bivariate Correlation过程标称变量不能用于偏相关分析 3 Distance过程 Distance距离分析过程过程属于专业统计模块中的分析过程它计算许多相似度或非 相似度相似性测量用大值表明很相似小值表明有很少相似非相似性测量估计两个观 测量的距离和非相似度大的非相似性须考虑数据的特性特定的测量可用于等间隔测度 的数据频数和二分数据还必须决定是否对原始数据或距离测度数据进行标准化 如果要根据相似性或非相似性测量将观测量分类应该使用Cluster过程 5.2.6 Regression 包含的分析功能 从Analyze ? Regression再进入下一级菜单如图5-7所示 图5-7 Regression下一级菜单 从图5-7可以看出Regression分析包含的分析功能有 2-Stage Least Squares过程 1 Liner过程 该过程用于确定一个因变量和一组自变量之间的关系自变量和因变量二者都必须是连 续变量(即等间隔测度的)如果你已收集了大量的自变量并希望建立一个只包括与因变量 关系有统计意义的变量的回归模型可以选择一种变量选择方法来选择自变量要想观察该 过程建立的模型与数据拟合得如何可以检验残差和该过程提供的其他诊断方法 如果因变量是二分变量即变量仅有两个相反的取值例如一个特定任务是否完成 雇员合同是否到期是否患病生或死等等那么应该选择Logistic回归如果因变量是 删截变量例如手术后的生存时间应该选用 Life Tables Kaplan-Meier过程或比例机遇 过程 2 Curve Estimation过程 Curve Estimation曲线估计过程以曲线直线化原理按最小二乘法拟合曲线方程该过 程生成曲线估计回归统计量和相关的11种曲线估计回归模型图形 3 Binary Logistic过程 该过程属于高级统计模块中的分析过程它用于估计因变量来为二分变量的回归模 型例如可以使用Logistic回归根据钢锭的加热时间和保温时间来估计是否可以热轧的 回归方程或者可以根据患者的特征疾病的严重程度估计患者将死亡的概率还可以使 用一种可变的选择方法来指定一个与所关心的结果有关联的自变量子集该过程还具有很 多诊断方法可以用于估计模型拟合度并标识影响点 如果因变量有两个以上分类值可以使用Discriminant过程确定变量这对分配观测 量到各个分组是有用的如果因变量是连续变量可以使用Linear过程从一组自变量预测 因变量的值 4 Multinomial Logistic过程 该过程属于高级统计模块中的分析过程它用于估计因变量为多分变量的回归模型 可以对一组预测值进行分类该过程与Binary Logistic过程相似但由于它不局限于二分 变量故而有着更为广泛的应用 5 Ordinal过程 Ordinal 序数回归分析可以就对预测值的一系列序数响应的交互性进行建模这些预 测值可以是因变量和协变量的观测值 6 Probit过程 该过程属于高级统计模块中的分析过程它完成概率分析这种分析测度刺激强度与 响应比之间的关系例如可以使用该过程确定植物死亡的比率与施用杀虫剂的强度之间 的关系或者检查购买某产品的人的比例与给予奖励刺激的力度之间的关系仅当所研究 的响应是诸如买/不买生/死这样的二分变量而且几组研究对象暴露在不同水平的刺激 下时应该选用这个过程对每种刺激水平数据必须包括总暴露数和总响应数 如果响应变量是二分变量但没有自变量相同值的观测量分组那么应该选用该过程 7 Nonlinear过程 该过程是高级统计分析模块中的分析过程它可以估计非线性回归模型包括被限定 的模型 如果知道一个其参数是要估计的方程并且方程不能写成参数乘以自变量的某些函数 的和的形式应该使用非线性回归过程在非线性回归分析过程中参数是通过迭代获得 的如果这个方程是线性的或者可以转换成线性方程应该选用Linear回归过程 8 Weight Estimation过程 该过程属于专业统计模块中的过程它可以估计带有表明观测精度的不等权数的线性 回归模型 如果因变量的方差不是对所有自变量的值均是一个常数时与因变量方差成反比的权 重可以被并入分析中这样会得到比较好的分析结果 如果已知每次观测的权重可以使用线性回归过程获得加权最小加权平方解线性回 归过程提供了大量诊断统计方法这些统计法有助于评价回归模型对数据的拟合 9 2-stage Least Squares过程 该过程属于专业统计模块中的分析过程它可以完成二阶最小平方回归在模型中误 差项与预测值有关联例如建立一个对产品要求作价格广告费用材料成本和某些经 济指标的函数模型可以发现模型的误差项与一个或多个自变量有关二阶最小平方可以 估计这样的回归模型 5.2.7 Loglinear 包含的分析功能 从Analyze ? Loglinear再进入下一级菜单如图5-8所示 图5-8 Loglinear下一级菜单 从图5-8可以看出Loglinear分析包含的分析功能有 1 General过程 该过程是高级统计模块中的分析过程它是用最大似然法估计一般对数线性模型的参 数检验其效应对数线性模型用数认定分类变量间的关系例如建立对数线性模型去 研究政治团体成员人数种族地域和社会经济学状况之间的关系对数线性回归分析的 起始点是多维交叉表 如果在分析中一个分类变量作为因变量可以使用该过程进行分析如果要建立分层 对数线性回归模型可以使用Model Selection过程Model Selection 拟合分层对数线性模 型参数估计可用于渗透模型 2 Logit过程 该过程用于检查一个分类因变量和一个或几个分类自变量间的关系便如探查对工 作的满意程度与种族性别以及工种之间的关系或者检查对妇女工作的看法与回答问题 者受教育水平年龄和收入等级之间是否有关该过程分析的起始点是所有分类变量的多 维交叉表 如果因变量是二分变量有关的几个自变量是连续变量应该考虑使用Logestic回归 过程如果想检查一组分类变量之间的关系当它们中的一个变量被设置成因变量时应 该考虑使用General和Model Selection两种对数线性回归 3 Model Selection过程 该过程用于建立多维交叉表中变量间关系的模型例如在受教育水平工作满意程 度婚姻状况和性别的交叉表中可以观测是否存在着变量间的交互作用或它们是否彼 此独立使用分层分析过程帮助识别模型中具有统计意义的重要项目 如果希望建立非分层的对数线性模型可以使用General Loglinear过程如果能指定 一个分类变量作为因变量可以使用Logit过程进行分析 5.2.8 Classify 包含的分析功能 从Analyze ? Classify再进入下一级菜单如图5-9所示 图5-9 Classify下一级菜单 从图5-9可以看出Classify分析包含的分析功能有 1 K-Means Cluster过程 K-Means Cluster过程使用一种可以处理大量观测量聚类算法的完成聚类分析执行快 速样本聚类使用K均值分类法对观测量进行聚类可以完全使用系统默认值执行该命令 也可以对聚类过程设置各种参数进行人为的干预 2 Hierarchical Cluster过程 此过程可完成系统聚类分析在系统聚类分析中用户事先无法确定类别数系统将 所有例数均调入内存且可执行不同的聚类算法系统聚类分析有两种形式一是对研究 对象本身进行分类称为Q型聚类另一种是对研究对象的观察指标进行分类称为R型 聚类 3 Discriminant过程 Discriminant过程根据已知的观测量分类和表明观测量特征的变量值推导出判别函数 并把各观测量的自变量值回代到判别函数中根据判别函数对观测量所属类别进行判别 对比原始数据的分类和判别函数所判的分类给出错分概率 判别分析可以根据类间协方 差矩阵或类内协方差矩阵进行 5.2.9 Data Reduction 包含的分析功能 从Analyze ? Data Reduction 再进入下一级菜单Factor如图5-10所示 图5-10 Data Reduction下一级菜单 从图5-10可以看出Classify分析包含的分析功能只有Factor因子分析 调用Data Reduction菜单的Factor过程命令项可对多指标或多因素资料进行因子分 析因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系即将相 关比较密切的几个变量归在同一类中每一类变量就成为一个因子(之所以称其为因子是 因为它是不可观测的即不是具体的变量这与上一章的聚类分析不同)以较少的几个因 子反映原资料的大部分信息 5.2.10 Scale 包含的分析功能 从Analyze ? Scale 再进入下一级菜单如图5-11所示 图5-11 Scale下一级菜单 从图5-11可以看出Classify分析包含的分析功能有 1 Reliability Analysis可靠性分析过程 该过程通过计算一些诸如Cronbach’s alpha等级普通可靠性的度量来完成加性等级 的项目分析当有一个通过求对独立项目响应而得到的等级就可以了解这些项目的相关 程度例如如果设计了一个比例这个比例通过观察老年人完成各种日常生活事务来度 量他们的人体能力最后了解所有的事务是否与组成的分数相关可以观察度量项目和等 级的其项目之间的相关还可以将测验分成两部分并计算它们的相关也可以计算可靠 系数这个系数度量等级项目之间有多大的彼此相关所有的这些统计都在Reliability Analysis过程中 2 Multidimensional Scaling多维比例分析过程 该过程代表多维空间的对象从配对对象之间的相似性和距离方阵估计对象的位置 该过程可用于观察政治侯选人消费产品相似或距离配对矩阵的任何类型的对象选择 对象之间的地理距离是由于这对对象的相似性和距离之间可能有很强的关系SPSS中有 很多不同类型的多维等级分析 5.2.11 Nonparametric Tests 包含的分析功能 从Analyze ? Nonparametric Tests再进入下一级菜单如图5-12所示 图5-12 Nonparametric Tests下一级菜单 从图5-12可以看出Nonparametric Tests分析包含的分析功能有 1 Chi-square test卡方检验 该过程用于检验落入几个互不相交组的观测量数目相对比例的假设例如有六种不 同品牌的谷物要检验有意购买这六种品牌谷物的人数相等的假设可以统计购买每种品 牌谷物的人数根据这六个统计到的数字使用本过程检验这一假设每一分类组中的期 望比例可以不相等还可以指定任何想要检验的假设比例 2 Binomial test 二项分布检验 该过程用于检验的假设是一个来自二项分布的总体的变量具有指定事件发生的概率 该变量只能有两个值例如检验组装生产线上一种工件的废品率为1/10即P=0.1 可以抽取300个工件查看并记录每个工件是否是废品使用本过程检验这个概率 3 Run test游程检验 该过程用于检验二分变量的两个值是否是随机序列发生游程检验仅适用于在数据文 件中观测量的顺序为有意义的情况例如你正监测从生产线上下来的工件是正品还是废 品使用游程检验去观察废品是否集中 4 1-Sample K-S test一个样本柯尔莫哥洛夫一斯米诺夫检验 该过程用于检验一个样本是否来自一种指定的分布可以对照一致分布正态分布或 Poisson分布进行检验例如可以检验彩票号码的分布是一致分布另一种正态性检验可以 使用Summarize子菜单中的Explore过程在Graphs菜单中的P-P图和Q-Q图也可以用于 检验正态分布的假设 5 2 Independent Samples test两个独立样本检验 该过程用于比较一个变量在两个不相关的组中的分布Mann-Whitney的U检验是两 个样本的t检验之一等级代替数据的实际值Kolmogorov-Smirnow检验是基于两组被观 测累积分布之间的差分Wald-Woflowits游程检验从小到大排序数据的值然后根据组号 进行游程检验极值反应的Moses检验常用于检验两组之间的极差 6 K Independent Samples test多个独立样本检验 该过程用于比较一个变量在两个或两个以上组别之间的分布Kruskal-Wallis检验一种 等级替换数据实际值的单因素方差分析中位数检验计算每组高于和低于混合中位数的观 测量数目然后进行卡方检验 7 2 Related Samples test两个相关样本检验 该过程用于比较两个相关变量的分布Wilcoxon检验和符号检验是一种非参数的配对 样本t检验Wilcoxon检验比符号检验效率高 8 K Related Samples test多个相关样本检验 该过程用于比较两个或两个以上相关变量的分布Friedman检验是一种非参数单因子 反复度量的方差分析当对一个被测试对象在不同情况下用相同测量时可以用这个检验 例如请每个顾客对5种产品的满意度做等级评判时再用Friedman检验比较顾客对这5 种产品的满意度 5.2.12 Survival 包含的分析功能 从Analyze ? Survival再进入下一级菜单如图5-13所示 图5-13 Survival下一级菜单 从图5-13可以看出Survival分析包含的分析功能有 1 Life Tables过程 调用此过程时系统将采用即寿命表分析法完成对病例随访资料在任意指定时点的 生存状况评价 2 Kaplan-Meier过程 调用此过程系统将采用Kaplan-Meier方法对病例随访资料进行生存分析在对应 于每一实际观察事件时点上作生存率的评价 3 Cox Regression过程 调用此过程可完成对病例随访资料中事件发生时点与一系列相关独立变量之间关系 的评价即建立Cox回归模型(亦称比例风险模型) 4 Cox w/Time-Dep Cov过程 在时间函数是一个或一个以上的自变量时该过程执行COX回归例如一个有意义 的自变量的收缩血压和在研究期间每个患者每个月的收缩压读数收缩血压是一个有关时 间的协变量与此相同如果想要使用患者目前的年龄作为自变量年龄是一个与有关时 间的协变量(如果仅用诊断的年龄那么年龄就不是一个时间因变量的协变量) 5.2.13 Multiple Response 包含的分析功能 从Analyze ? Multiple Response再进入下一级菜单如图5-14所示 图5-14 Multiple Response下一级菜单 从图5-14可以看出Multiple Response分析包含的分析功能有 1 Define Sets过程 该过程指定变量组成一个多重响应或多重两分数集并应用于频数表和交叉列表 2 Frequencies过程 该过程对定义的多重响应或多重两分数提供一个频数表 3 Crosstabs过程 该过程提供带有另一种变量的已定义的多重或多重两分数据集交叉表 5.3 SPSS 图形分析过程 点击Graphs菜单进入下拉菜单如图5-15所示 由图5-15可以看出SPSS的统计图形可分为以下几类 1条形图(Bar Charts) 2线图(Line Charts) 3面积图(Area Charts) 4圆图(Pie Charts) 5高低图(High-Low Charts) 6直条构成线图(Pareto Charts) 7质量控制图(Control Charts) 8箱图(Boxplots) 9误差条图(Error Bar Charts) 10散点图(Scatterplots) 11直方图(Histogram) 12正态概率分布图(Normal P-P Plots) 13正态概率单位分布图(Normal Q-Q Plots) 14普通序列图(Sequence Charts) 15 ROC曲线图(ROC Curve ) 16时间序列图(Time Series Charts) 思 考 题 1针对各种统计功能进入其主对话框熟悉其各种按钮和选项的形状和位置熟 悉主对话框的界面 2请思考统计图的作用相对于数据结果而言它的优点和缺点是什么 3读者若愿深入了解各种统计功能的数理统计背景可参考数理统计方面的书籍 图5-15 Graphs菜单项 第 6 章 统计描述 导 言 统计描述只对统计数据的结构和总体情况进行描述并不能深入了解统计数据的内部 规律统计描述主要分三方面的内容(1)频数分布表分析(Frequencies) (2)统计描述分析 (Descriptive) (3)平均数分析过程(Means)统计描述几乎在以后的每个过程中都用到了 而平均数分析中的T检验是验证分析是否有统计意义的重要方法 描述性统计分析是统计分析的第一步做好这第一步是下面进行正确统计推断的先决 条件SPSS的许多模块均可完成描述性分析但专门为该目的而设计的几个模块则集中在 Descriptive Statistics菜单中最常用的是列在最前面的四个过程Frequencies过程的特色 是产生频数表Descriptives过程则进行一般性的统计描述Explore过程用于对数据概况 不清时的探索性分析Crosstabs过程则完成计数资料和等级资料的统计描述和一般的统计 检验我们常用的X 2 检验也在其中完成 6.1 频数分布表分析(Frequencies) 频数分布表是描述性统计中最常用的方法之一Frequencies过程就是专门为产生频数 表而设计的它不仅可以产生详细的频数表还可以按要求给出某百分位点的数值以及 常用的条图圆图等统计图 6.1.1 界面说明 Frequencies对话框的界面如图6-1所示 图6-1 Frequencies对话框 该界面在SPSS中实在太普通了无须多言重点介绍一下各部分的功能 Display frequency tables复选框确定是否在结果中输出频数表 Statistics按钮 单击后弹出Statistics对话框如图6-2所示用于定义需要计算的其他描述统计量 图6-2 Statistics 对话框 现将各部分解释如下 Percentile Values复选框组 定义需要输出的百分位数可计算四分位数(Quartiles)每 隔指定百分位输出当前百分位数(Cut points for equal groups)或直接指定某个百分位数 (Percentiles)如直接指定输出P2.5和P97.5 Central Tendency复选框组用于定义描述集中趋势的一组指标均数(Mean)中位数 (Median)众数(Mode)总和(Sum) Dispersion复选框组用于定义描述离散趋势的一组指标标准差(Std.deviation)方差 (Variance)全距(Range)最小值(Minimum)最大值(Maximum)标准误(S.E.mean) Distribution复选框组用于定义描述分布特征的两个指标偏度系数(Skewness)和峰度 系数(Kurtosis) Values are group midpoints复选框当你输出的数 据是分组频数数据并且具体数值是组中值时选中 该复选框以通知SPSS免得它犯错误 Charts按钮 单击弹出Charts对话框用于设定所做的统计图 如图6-3所示 Chart type单选钮组 定义统计图类型有四种选 择无条图Bar chart圆图(Pie chart)直方图 Histogram其中直方图还可以选择是否加上正态 曲线(With normal curve) Chart Values单选钮组 定义是按照频数还是按百分比做图(即影响纵坐标刻度) Format按钮 单击弹出Format对话框如图6-4所示用于定义输出频数表的格式不过用处不大 一般不管 图6-3 Frequencies Charts对话框 图6-4 Frequencies Format对话框 Order by单选钮组 定义频数表的排列次序有四个选项 Ascending values数值按升序从小到大的频数分布 Descending values数值按降序从大到小的频数分布 Ascending counts频数按升序从少到多的频数分布 Descending counts频数按降序从多到少的频数分布 Multiple Variables单选钮组 如果选择了两个以上变量做频数表则Compare variables可以将他们的结果在同一个 频数表过程输出结果中显示以便于互相比较 Organize output by variables将结果在不同的频数表过程输出结果中显示 Suppress Tables more than...复选框 当频数表的分组数大于下面设定数值时禁止它 在结果中输出这样可以避免产生巨型表格 6.1.2 分析实例 [例6-1] 某地25例健康男子的血清总胆固醇值测定结果如下请绘制频数表直方图 计算均数标准差变异系数CV中位数M p2.5和p97.5 4.40 4.55 5.38 3.89 4.60 4.47 4.08 4.79 5.30 4.97 3.18 3.97 4.77 3.37 6.14 3.95 3.56 4.23 3.64 4.34 5.16 5.10 4.31 4.71 5.02 为节省篇幅这里只给出精确频数表的做法假设数据已经输入完毕变量名为X 具体解法如下 从Analyze ? Descriptive Statistics ? Frequencies进入Frequencies对话框 将x选入Variables框 单击Statistics钮进入Stataistics对话框选中Mean Std.deviation Median复选框 选中Percentiles在其后的方框中输入2.5单击Add输入97.5单击Add单 击Continue按钮返回Frequencies对话框 单击Charts按钮进入Charts对话框选中Bar charts单击Continue按钮 返回对话框 单击OK可得到结果 得出结果后手工计算出CV 6.1.3 结果解释 输出结果如下 表 6-1 统计结果 N Valid Missing Mean Median Std. Deviation Percentiles 2.5 97.5 25 0 4.4752 4.4700 .6925 3.1800 6.1400 表6-1中最上方为表格名称左上方为分析变量名可见样本量N为101例缺失 值0例均数Mean=4.4752中位数Median=4.4700标准差STD=0.6925 P2.5=3.1800 P97.5=6.1400 表6-2中为各病例的概况依次为该病例的频数在整个数据中所占的百分比有 效百分比累计百分比 系统对变量x作频数分布表此处只列出了开头部分Vaild右侧为原始值Frequency 为频数Percent为各组频数占总例数的百分比包括缺失记录在内Valid percent为各 组频数占总例数的有效百分比Cum Percent为各组频数占总例数的累积百分比 表 6-2 各有效病例概况 Frequency Percent Valid Percent Cumulative Percent Valid 3.18 3.37 3.56 3.64 3.89 3.95 3.97 4.08 4.23 4.31 4.34 4.40 4.47 4.55 4.60 4.71 4.77 4.79 4.97 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 4.0 8.0 12.0 16.0 20.0 24.0 28.0 32.0 36.0 40.0 44.0 48.0 52.0 56.0 60.0 64.0 68.0 72.0 76.0 (续表) Frequency Percent Valid Percent Cumulative Percent 5.02 5.10 5.16 5.30 5.38 6.14 Total 1 1 1 1 1 1 1 4.0 4.0 4.0 4.0 4.0 4.0 100.0 4.0 4.0 4.0 4.0 4.0 4.0 100.0 80.0 84.0 88.0 92.0 96.0 100.0 6.2 Descriptives过程 Descriptives过程是连续资料统计描述应用最多的一个过程它可对变量进行描述性统 计分析计算并列出一系列相应的统计指标这和其他过程相比并无不同但该过程还有 个特殊功能就是可将原始数据转换成标准正态评分值并以变量的形式存入数据库供以 后分析 6.2.1 界面说明 Save standardized values as variables复选框确定是否将原始数据的标准正态评分存为 新变量 Options钮 弹出Options对话框大部分内容均在前面Frequencies过程的Statistics对话框中见过 只有最下方的Display Order单选钮组是新的可以选择为变量列表顺序字母顺序均数 升序或均数降序 6.2.2 结果解释 下面是一个典型的Descriptives过程结果统计表 表 6-3 Descriptives 过程结果统计表 N Minimum Maximum Mean Std.Deviation X Valid N(Listwise) 25 25 3.18 6.14 4.4752 .6925 这里的大部分内容都在上一节见过因此就不再多解释了 讲了两个过程也许大家已经发现结果中的统计专业单词多数在对话框中就已经出 现因此我们以后会详细解释对话框的内容结果中相同的单词不再重复解释 6.3 平均数分析Means 知道吗在计算机领域中有个著名的80/20规则即奔腾及更早的CPU所采用的CISC 指令集中有80%的任务是被20%的最常用指令所完成的换言之另外80%的复杂指令 只完成20%的不常用任务 好了言归正传现在我要非常高兴地向大家宣布80/20规则在SPSS的使用中同样 有效仅以Analyze菜单为例其中最常用的子菜单为 Discriptive Statistics Compare Means General Linear Model(第一项) Correlate Regression(前半截) 只要掌握了它们的使用秘籍你就可以理直气壮地宣称你已经可以用SPSS解决80% 的统计学难题了 在以上五个菜单中Compare Means是最简单的一个但使用频率却几乎最高 下面让我们大家一起踏上学习Compare Means之旅该菜单集中了几个用于计量 资料均数间比较的过程具体有 Means过程 对准备比较的各组计算描述指标进行预分析也可直接比较 One-Samples T Test过程进行样本均数与已知总体均数的比较 Independent-Samples T Test过程进行两样本均数差别的比较即通常所说的两组资料 的t检验 Paired-Samples T Test过程进行配对资料的显著性检验即配对t检验 One-Way ANOVA过程进行两组及多组样本均数的比较即成组设计的方差分析还 可进行随后的两两比较 6.3.1 Means 过程 和上一章所讲述的几个专门的描述过程相比Means过程的优势在于各组的描述指标 被放在一起便于相互比较并且如果需要可以直接输出比较结果无须再次调用其他过 程这显然要方便的多Means过程的主对话框如图6-5所示 图6-5 Means对话框 1界面说明 Dependent List框用于选入需要分析的变量 Independent List框用于选入分组变量 Options按钮单击之弹出Options对话框选择需要计算的描述统计量和统计 分析 Statistics框 可选的描述统计量它们是 sum number of cases 总和记录数 mean, geometric mean, harmonic mean 均数几何均数修正均数 standard deviation variance standard error of the mean标准差均数的标准误方差 median, grouped median 中位数频数表资料中位数 minimum maximum range 最小值最大值全距 kurtosis, standard error of kurtosis 峰度系数峰度系数的标准误 skewness, standard error of skewness 偏度系数偏度系数的标准误 percentage of total sum, percentage of total N 总和的百分比样本例数的百分比 Cell Statistics 框用于选入的描述统计量 Statistics for First layer 复选框组有如下两组 Anova table and eta 对分组变量进行单因素方差分析并计算用于度量变量相关程度的 eta值 Test for linearity 检验线性相关性实际上就是上面的单因素方差分析 2结果解释 有了上几节的基础Means过程的输出看起来就不太困难了以3.2.4小节的数据为例 输出如下 表 6-4 病例处理概况 Cases Included Excluded Total N Percent N Percent N Percent Y*X1*X2*X 12 100.0% 0 .0% 12 100.0% 表6-4还是缺失值报告 表 6-5 统计报表 X1 X2 X3 Mean N Std.Deviation 69.00 .70 Total 1600.0000 1600.0000 1 1 35.00 Total .70 Total 1600.0000 1600.0000 1 1 37.00 66.00 2.00 Total 1600.0000 1600.0000 1 1 续表 X1 X2 X3 Mean N Std.Deviation 37.00 72.00 1.10 Total 2400.0000 2400.0000 1 1 Total 1.10 2.00 Total 2400.0000 1600.0000 2000.0000 1 1 2 565.6854 72.00 2.50 Total 2200.0000 2200.0000 1 1 38.00 Total 2.50 Total 2200.0000 2200.0000 1 1 74.00 2.50 3.00 Total 2600.0000 2650.0000 2625.0000 1 1 2 35.3555 40.00 Total 2.50 3.00 Total 2600.0000 2650.0000 2625.0000 1 1 2 35.3555 为了节省篇幅表6-5只是结果的一部分常用统计描述量报表这里按默认情况输 出均数样本量和标准差由于我们选择了分组变量因此三项指标均给出分组及合计值 以这种方式列出统计量可以非常直观地进行各组间的比较 6.3.2 T 检验 T Test 过程 T 检验是常用的统计工具在第八章将详细介绍这里只作粗略介绍 One-Samples T Test过程用于进行样本所在总体均数与已知总体均数的比较可以自行 定义已知总体均数为任意值 Independent-Samples T Test过程用于进行两样本均数的比较即常用的两样本t检验 Paired Samples T Tests过程用于进行配对设计的差值均数与总体均数比较的t检验对 统计学比较熟悉的朋友可以看出他的功能实际上是和One-Samples T Test过程相重复的 (等价于已知总体均数为0的情况)但Paired-Samples T Test过程使用的数据输入格式和前 者不同即我们所称的统计表格格式因此仍然有存在的价值 One-Way ANOVA过程用于进行两组及多组样本均数的比较即成组设计的方差分析 如果做了相应选择还可进行随后的两两比较甚至于在各组间精确设定哪几组和哪几组 进行比较 思 考 题 1对下列数据进行频数分布表分析 2求出上述数据表格中变量Spvol的平均值标准差标志误等统计描述量 第 7 章 相关分析 导 言 相关分析是对自然界和社会中的两种或多种现象是否相关进行分析的方法 这种统计 分析方法对我们大家来说都比较熟悉 有时在实际工作中也在自觉或不自觉地用到 本章 的特点是 (1)系统的介绍相关分析方法 (2)介绍了两种不常用的相关分析 偏相关分析和 距离分析 (3)备有大量的示例和实例 读者甚至不必完全了解和熟悉 SPSS 的使用方法 只需进行简单的依照例题模仿便可得出想要的结论 这给那些时间紧张的读者提供了极大 的方便 从哲学上说 任何事物的存在都不是孤立的 而是相互联系 相互制约的 但是 怎 样判断不同因素 (或称之为变量 )间是否存在较为密切的关系 这个关系到底密切到什么程 度 数学上 用相关分析定量来说明这个问题 利用 SPSS 作不同变量间的相关分析非常 方便 7.1 相关分析的概念与相关分析过程 7.1.1 相关分析的基本概念 相关分析是研究不同变量间密切程度的一种十分常用的统计方法 大家对相关系数一 定不陌生 它是描述两个变量间的线性关系程度和方向的统计量 涉及相关系数的数学工 具是线性相关分析 又称直线相关分析 它研究两个变量间的线性程度 相关系数通常用 r 表示 它没有单位 其值在 -1~+1 之间 r 等于 +1 或 -1 时 其中一个变量记为 Y 可以确切 地用另一变量记为 X 的线性函数来表示 r 的绝对值越接近 1 则变量 X Y 间线性相关的 程度就越大 若变量 Y 随着变量 X 的增 减而增 减 即两变量变化的方向一致 则这种 相关称为正向相关 r 大于零 若变量 Y 随着变量 X 的增加而减少 变化方向相反 则称 为负相关 r 小于零 若 r 等于零 则可认为变量 X Y 不是线性相关 由于我们通常是通过抽样方法 利用样本研究总体的特性 但是由实际情况抽样而得 到的数据总存在抽样误差 即样本中两变量间相关系数不为 0 不能说明总体中两个变量 间的相关系数不是 0 同样 样本中两变量间相关系数不为 0 也不能保证实际中这两个变 量不相关 因此相关分析必须通过检验 检验的假设是 总体中两个变量间的相关系数为 0 SPSS 的相关分析过程给出该假设成立的概率 一般的 我们给出假设成立概率 p 的域 值为 5 当概率 p 小于 5 时 则认为原假设不成立 否则接受原假设 认为总体两变量 相关系数为 0 另外 在 SPSS 的相关分析过程的输出中还给出相关系数的值 偏相关分析是相关分析中的重要部分 它主要用在当控制了一个或几个变量的影响下 两变量间的相关性 例如 可以控制体重影响作用 对人的身高与肺活量进行偏相关分析 7.1.2 相关分析的功能和应用 变量之间有关 但是又不能由一个或几个变量值去完全和唯一确定另一个变量值的这 种关系称为相关关系 相关关系是普遍存在的 函数关系仅是相关关系的特例 值得注意 事物之间有相关关系 不一定是因果关系 也可能仅是伴随关系 但如果事物之间有因果 关系 则两者必然相关 相关关系多种多样 归纳起来有六种类型 1 强正相关关系 其特点是一变量 X 增加 导致另一变量 Y 明显增加 说明 X 是影 响 Y 的主要因素 2 弱正相关关系 其特点是一变量 X 增加 也导致另一变量 Y 增加 但不明显 说 明 X 是影响 Y 的因素 但不是唯一因素 3 强负相关关系 其特点是 X 增加 导致 Y 明显减少 说明 X 是影响 Y 的主要因素 4 弱负相关关系 其特点是一变量 X 增加 也导致另一变量 Y 减少 但不明显 说 明 X 是影响 Y 的因素 但不是唯一因素 5 非线性相关关系 其特点是 X Y 之间虽然没有通常所指的那种线性关系 却存在 着某种非线性关系 说明 X 仍是影响 Y 的因素 6 不相关关系 其特点是 X Y 之间不存在相关关系 说明 X 不是影响 Y 的因素 从以上对相关关系的分析 可以看出相关分析的一些功能和用途 它是研究和处理变 量之间相关关系的数理统计方法 通过相关图的描绘和回归方程的建立可以从影响着某个 变量的许多变量中判断哪些变量是显著的 哪些是不显著的 并可利用回归方程进行预测 和控制 近年来 相关分析方法广泛应用于生物学 心理学 教育学 经济学 医学等各个方 面 相关分析对于实验数据的处理 经验公式的建立 管理标准的测定 自然现象经济现 象的统计预报 自动控制中数学模型的确定等 是一种应用极其有效而广泛的数理统计工 具 例如 在一般条件下 施肥量适当增加 农作物收获量也会相应的提高 劳动生产率 提高 产品成本将会下降 产品价格的高低变动 也会影响其销售量的大小 能源的发展 速度提高 会促进整个工业发展的提高等等 把上述例子中的施肥量 劳动生产率 产品 的价格 能源的发展速度等看作自变量 而把农作物收获量 产品成本 销售量及整个工 业发展速度可以看作因变量 自变量和因变量之间是相关的 7.1.3 相关分析的应用示例 下面举出一个实例来说明利用 SPSS 计算二元变量间的相关系数 [例 7-1] 分析居民非商品支出与居民文化生活服务支出的关系 表 7-1 居民非商品支出与居民文化生活服务支出数据表 1:s1 2:s2 3:s3 1:s1 9999.999 9999.999 2:s2 9999.999 9999.999 3:s3 9999.999 9999.999 4:s4 9999.999 9999.999 9999.999 5:s5 9999.999 9999.999 9999.999 6:s6 9999.999 9999.999 9999.999 7:s7 9999.999 9999.999 9999.999 8:s8 9999.999 9999.999 9999.999 9:s9 9999.999 9999.999 9999.999 10:s10 9999.999 9999.999 9999.999 利用 SPSS 将上述表格数据输入数据文件 从菜单 Graphs 选择 Scatter 作出 X Y 的相关图 (散点图 )(如图 7-1 所示 ) 文化生活服务支出 2.01.81.61.41.21.0 非商品支出 5.5 5.0 4.5 4.0 3.5 3.0 2.5 图 7-1 非商品支出与居民文化生活服务支出的相关图 (散点图 ) 当然 读者在相关分析时也不必作出相关统计图 可以直接利用相关分析功能菜单进 行相关分析 不过 对于初学者 先作相关图就能从相关统计图看出变量之间的大致关系 显得更为直观 这对 SPSS 计算结果的理解有帮助 从菜单 Analyze ? Correlate ? Bivariate 打开双变量相关分析主对话框 ( Bivariate Correlations ) 在左侧的源变量栏中选择 文化生活服务支出 [X] 非商品支出 [Y] 进入变量栏 ( Variables ) 其余使用系统默认值 单击 OK 按钮运行程序 双变量相 关分析主对话框的界面如图 7-2 所示 图 7-2 双变量相关分析主对话框 得到输出结果 (如表 7-2 所示 ) 表 7-2 相关系数 Correlations 文化生活服务支出 非商品支出 文化生活服务支出 Pearson Correlation Sig.(2-tailed) N 1.000 . 8 .982* .000 8 非商品支出 Pearson Correlation Sig.(2-tailed) N .982** .000 8 1.000 . 9 **. Correlation is significant at the o.01 level(2-tailed). 对于上述结果解释如下 Pearson 相关系数为 0.982 P=0 应拒绝总体中这两个变量 的相关系数为零的假设 故可以认为 居民非商品支出与居民文化生活服务支出呈强的且 为正的直线相关 回过头来 我们看一看图 7-1 就很容易理解这一结果 相关图上的变 量基本上在一条直线上 因而两变量是强正相关关系 7.1.4 相关分析的 SPSS 过程 有了上一小节的示例作基础 我们再来学习相关分析的 SPSS 过程就会事半功倍 在 Analyze 下拉菜单的 Correlate 命令项具有三个相关分析功能子命令 它们分别是 Bivariate Partial 和 Distance 对应于相关分析 偏相关分析和距离分析 1 Bivariate 计算指定的两个变量间的相关系数 可以选择 Pearson 相关 (积差相关 ) Spearman 等级相关和 Kendall 相关 (这三种不同的相关计算相关系数的公式不同 有兴趣的 读者可查阅统计学方面的书籍 ) 同时对相关系数进行假设检验 可选择进行单尾或双尾检 验 给出相关系数为 0 的概率 当资料不服从双变量正态分布或总体分布型未知 或原始 数据是用等级表示时 宜用 Spearman 或 Kendall 相关 2 Partial 计算两个变量间再控制了其他变量影响下的相关系数 即偏相关系数可以 进行单尾或双尾检验 检验的假设是 偏相关系数为 0 然后给出偏相关系数为 0 的概率 还可以计算其他描述统计量 3 Distance 对变量或观测值进行相似性或不相似性测度 因此分析的变量可以是连 续变量 表频数分布的变量 某些测度还可以适用于二值变量 可以对原始数据和计算出 的距离数据进行标准化 7.2 两个变量的相关分析 多数情况下 我们进行的相关分析都是在两两变量之间的 这就要用到两个变量间的 相关分析 这比起多元变量的相关分析也要简单一些 两个变量间的相关分析使用同一个 命令项 Bivarate 通过选择不同的分析方法调用不同的分析过程 选择哪种分析方法要看 具体的数据类型 对于连续变量和等级变量选择不同的分析方法 有时不同的分析方法会 得出迥然相异的结论 7.2.1 二元变量相关分析的基本概念 二元变量的相关分析只能就两个变量之间的相关关系进行说明 在 7.1.1 节中已对 其阐述得较为清楚 7.2.2 二元变量相关分析的功能和应用 在相关分析中 平时用得最多的就是二元变量的相关分析了 它所研究的是两个现象 变量之间的相关关系 这种关系称为单相关 即这种相关关系只涉及一个自变量和一个因 变量 三个或三个以上现象变量之间的相关关系称为复相关 这种相关涉及到一个因变量 与两个以上的自变量 例如 同时研究亩产量与降雨量 施肥量 种植密度之间的关系就 是复相关关系 在实际工作中 如果存在多个自变量与一个因变量的关系 可以抓住其中 最主要的因素 研究其相关关系 或将复相关化为单相关问题进行研究 由上可见 实际中二元变量的相关分析用得最为普遍 只要涉及到相关分析就少不了 二元变量的相关分析 或者 一些复杂的问题也可化简用为二元变量的相关分析问题 因 此 二元变量的相关分析广泛应用于自然科学和一些社会科学 如经济学 心理学 教育 学等等 因而对读者而言 掌握好这种基本却十分常用有效的方法是非常重要的 调用 Bivariate 过程命令时允许同时输入两个变量或两个以上变量 但系统输出的是变 量间两两相关的相关系数 7.2.3 二元变量相关分析的应用示例 下面用一个例题来说明二元变量的相关分析 [例 7-2] 尽管采取了时速限制及改进路面等措施 公路死亡人数仍在年复一年的上升 某安全负责人相信速度与事故数有联系 并从 12 个州搜集到如下资料 数据如表 7-3 所示 表 7-3 公路平均速度 T 与公路死亡增长百分比 Y 数据表 公路平均速度 53.2 54.7 55.0 55.8 56.8 52.0 57.3 59.0 55.5 63.0 69.4 68.3 公路死亡增长百分比 5.0 5.3 7.0 8.0 9.4 11.0 11.3 12.0 15.0 17.1 23.0 25.7 将公路平均速度 T 作自变量 公路死亡增长百分比 Y 作为因变量 把上述表格中的数 据输入到数据文件 如图 7-3 所示 图 7-3 公路平均速度 T 和公路死亡增长百分比 Y 相关分析的数据文件 从菜单 Analyze ? Correlate ? Bivariate 打开双变量相关分析主对话框 Bivariate Correlations 如图 7-4 所示 在左侧的源变量栏中选择 公路平均速度 [t] 公路 死亡增长百分比 [y] 进入变量栏 ( Variables ) 其余使用系统默认值 (如图 7-5 所示 ) 单击 OK 按钮运行程序 图 7-4 选择前双变量相关分析主对话框 图 7-5 选择后双变量相关分析主对话框 输出结果如图 7-6 所示 表 7-4 相关系数 公路平均速度 公路死亡增长百分比 公路平均速度 Pearson Correlation Sig.(2-tailed) N 1.000 . 12 .900* .000 12 公路死亡增长百分比 .900** .000 12 1.000 . 12 **. Correlation is significant at the o.01 level(2-tailed). 对输出结果进行分析 Pearson 相关系数为 0.900 P=0.00 故可以认为公路平均速度 [T]和公路死亡增长百分比 [Y]之间呈强正线性相关 7.2.4 二元变量相关分析过程 我们再来详细的研究二元变量相关分析的 SPSS 过程 由上一小节的示例可以看出 对于一个二元变量相关分析的 SPSS 过程主要包括以下 三个步骤 1 建立或调用数据文件 2 选择分析变量 选择项 提交运行 3 输出结果和解释结果 下面分开详述 1 建立或调用数据文件 在 SPSS 的数据编辑器 ( SPSS Data Editor )中录入数据 并加以保存即可 或者打 开已存在的数据文件 (后缀名为 .sav ) 2 选择分析变量 选择项 提交运行 从菜单 Analyze ? Correlate ? Bivariate 展开双变量相关分析主对话框 Bivariate Correlations 可参见图 7-2 图 7-4 图 7-5 在图 7-4 的对话框中 选中左边变量表 中欲用于相关分析的变量 然后鼠标点击位于左右变量表之间的向右箭头按钮 或者直接 双击所选中的变量 将选择的变量移入 Variables 变量表中 若其他的选择项采用系统默认 值 则可点击右上角的 OK 按钮 运行此相关分析过程 从主对话框可以看出来对相关系数 Correlation Coefficients 系统默认为 Pearson 即皮 尔逊相关 只有等间距测度的变量才使用这种相关分析 对于显著性检验 Test of Significance 系统默认为双尾 T 检验 Two Tailed 该检验要求显示实际的显著性水平 对于二元变量相关分析的选择项主要有两类的选择项 一为在主对话框中的选择项 一为 Options 对话框中的选择项 (1) 主对话框中的选择项 z 分析方法选择项 主对话框中有三种相关系数 对应于三种分析方法 Pearson 相关复选项 积差相关 计算连续变量或是等间距测度的变量间的相关分析 Kendall 复选项 等级相关 计算分类变量间的秩相关 Spearman 复选项 等级相关 计算斯皮尔曼相关 对于非等间距测度的连续变量 因为分布不明可以使用等级相关分析 也可以使用 Pearson 相关分析 对于完全等级的离散变量必须使用等级相关分析相关性 当资料不服从 双变量正态分布或总体分布型未知 或原始数据是用等级表示时 宜用 Spearman 或 Kendall 相关 z 选择显著性检验类型 Two tailed 双尾检验选项 当事先不知道相关方向 (正相关还是负相关 )时选择此项 One tailed 单尾检验选项 如果事先知道相关方向可以选择此项 Flag significant Correlations 复选项 如果选中此项 输出结果中在相关系数数值右上 方使用 * 表示显著水平为 5 用 ** 表示其显著水平为 1 (2) Options 对话框中的选择项 在主对话框的右下角有一个 Options 按钮 单击它便进入 Options 对话框 (如图 7-6 所示 ) 图 7-6 二元变量相关分析的 Options 对话框 z 统计量选择项 在 Statistics 栏中有两个有关统计量的选择项 只有在主对话框中选择了 Pearson 相关 分析方法时才可以选择这两个选择项 选择了这些项在输出结果中就会得到样本的相应的 统计量数值 它们是 Means and standard deviations 为均值与标准差复选项 Cross-product deviations and covariances 为叉积离差阵和协方差阵复选项 z 缺失值处理方法选择项 在 Missing Values 栏中有两个关于缺失值处理方法的选择项 Exclude cases listwise 选项 仅剔除正在参与计算的两个变量值是缺失值的观测量 这 样在多元相关分析中或多对两两相关分析中 有可能相关系数矩阵中的相关系数是根据不 同数量的观测量计算出来的 Exclude cases listwise 选项 剔除在主对话框中 Variables 矩形框中列出的变量带有缺 失值的所有观测量 这样计算出来的相关系数矩阵 每个相关系数都是依据相同数量的观 测量计算出来的 3 输出结果和解释结果 对于输出结果可参见表 7-2 表 7-4 表中显示的数值意义如下 (1) 第一行中的数值是行变量与列变量的相关系数矩阵 行 列变量相同的相关系数自然为 1 (2) 第二行中的数值是相关系数为零的假设成立的概率 (3) 第三行中的数值是参与该相关系数计算的观测量数目 即数据文件上数据的对数 对计算结果的解释主要是考察 0 假设检验是否成立 当 P 小于 1%或 5 时 相关系数 数值右上方使用 * 表示显著水平为 5 用 ** 表示其显著水平为 1 ) 则应拒绝相 关系数为 0 的假设 可以认为两个变量之间是相关的 下面用几个例子来考察一下不同的相关分析方法 [例 7-3] 某地一年级 12 名女大学生的体重 kg X 与肺活量 L Y 数据如下表 7-5 试计算肺活量与体重的相关系数 并检验两者间是否有直线相关关系 表 7-5 体重与肺活量的数据表 体重 kg 42 42 46 46 46 50 50 50 52 52 58 58 肺活量 L 2 55 2 20 2 75 2 40 2 80 2 81 3 41 3 10 3 46 2 85 3 50 3 00 由表 7-5 建立数据文件 如图 7-7 所示 图 7-7 体重与肺活量数据文件 从菜单 Analyze ? Correlate ? Bivariate 展开双变量相关分析主对话框 将变量 体重 [x] 肺活量 [y] 选择进入变量栏 其余使用默认值 点击 OK 按钮 运行程序 得出的输出结果如表 7-6 所示 表 7-6 相关分析结果 体重 肺活量 体重 Pearson Correlation Sig.(2-tailed) N 1.000 . 12 .749* .005 12 肺活量 Pearson Correlation Sig.(2-tailed) N .749* .005 12 1.000 . 12 **. Correlation is significant at the 0.01 level(2-tailed). Pearson 相关系数为 0.749,P=0.005 故认为一年级女大学生体重与肺活量之间呈正的 直线相关 下面举出一道 Spearman 等级相关分析例题 [例 7-4] 某地在作肝癌病因研究时 调查了 10 个乡肝癌死亡率 (1/10 万 用 X 表示 ) 与某种食物中黄曲霉毒素的相对含量 (用 Y 表示 ) 其数据见图 7-8 所示的数据文件 试作 等级相关分析 图 7-8 肝癌死亡率与黄曲霉毒素相对含量数据文件 从 Analyze ? Correlate ? Bivariate 进入双变量相关分析主对话框 将变 量 肝癌死亡率 [x] 黄曲霉毒素相对含量 [y] 选择进入变量栏 相关系数类型中只选 择 Spearman 等级相关 其余使用默认值 点击 OK 按钮运行程序 得到的输出结果如表 7-7 所示 表 7-7 Spearman 相关系数 肝癌死亡率 黄曲毒毒素相对含量 Spearman’s rho 肝癌死亡率 Correlation Coefficient Sig.(2-tailed) N 1.000 . 10 .745* .013 10 黄曲霉素相对含量 Correlation Coefficient Sig.(2-tailed) N .745* .013 10 1.000 . 10 *. Correlation is significant at the .05 level(2-tailed). 对以上结果的解释是 Spearman 等级相关系数为 0.745 P=0.013 相关具有统计学意义 故可以认为黄曲霉毒素相对含量与肝癌死亡率间存在正相关 虽然不是很强的正相关 下面再给出使用 Kendall 相关方法的例题 它适用于有序数据或不满足正态分布的数据 [例 7-5] 为研究平均工资与劳动生产率的关系 从一总体中抽选 20 个企业 而获得 20 对数据 并以劳动生产率 (单位 万元 /人 )为自变量 平均工资 (单位 元 /人 )为因变量 编制成数据文件 如图 7-9 所示 从 Analyze ? Correlate ? Bivariate 进入双变量相关分析主对话框 将变 量 劳动生产率 [x] 平均工资 [y] 选择进入变量栏 在相关系数类型中只选择 Kendall tau-b 等级相关 其余使用默认值 点击 OK 按钮运行程序 图 7-9 企业劳动生产率与平均工资数据文件 得到的输出结果如表 7-8 所示 表 7-8 Kendall 相关系数 劳动生产率 平均工资 劳动生产率 Correlation Coefficient Sig. (2-tailed) N 1.000 . 20 .919* .000 20 Kendall’s tau-b 平均工资 Correlation Coefficient Sig. (2-tailed) N .919** .000 20 1.000 . 20 **. Correlation is significant at the .01 level (2-tailed). 对以上结果的解释是 Kendall 等级相关系数为 0.919 P=0.00 相关具有统计学意义 故可以认为劳动生产率与平均工资间存在正相关 下面举出一个例子 试用不同的相关分析方法分析同一例题 我们考察它们之间的差 异 [例 7-6] 某地区 10 名健康儿童头发和全血中的硒含量 1000ppm 如下 试作发硒与血 硒的相关分析 将发硒作为自变量 X 血硒作为因变量 Y 相关分析的数据见数据文件 如 图 7-10 所示 并尝试输出 X Y 的均数与标准差以及 XY 交叉乘积的标准差与协方差 图 7-10 发硒与血硒数据文件 激活 Statistics 菜单 选择 Correlate 中的 Bivariate 命令项 弹出双变量相关 分析 Bivariate Correlation 主对话框 在对话框左侧的变量列表中选中 发硒 [x] 血硒 [y] 使之进入 Variables 矩形框 在相关系数类型中将 Pearson Spearman Kendall tau-b 都选上 点击 Options 按钮弹出 Bivariate Correlation:Options 对话框 本例尝试输出 X Y 的均数与标准差以及 XY 交叉乘积的标准差与协方差 故选上 Means and standard deviations 和 Cross-product deviations and covariances 项 而后点击 Continue 按钮返回 Bivariate Correlation 对话框 再点击 OK 按钮即可输出结果 发硒 X 血硒 Y 的均数与标准差如下 7-9 所示 表 7-9 发硒 血硒的均数与标准差 Mean Std. Deviation N 发硒 血硒 75.4000 10.8000 12.2945 3.3267 10 10 Pearson 相关系数及 XY 交叉乘积的标准差与协方差如表 7-10 所示 表 7-10 Pearson 相关系数及 XY 交叉乘积的标准差与协方差 发硒 血硒 发硒 Pearson Correlation Sig.(20-tailed) Sum of squares and Cross-products Covariance N 1.000 . 1360.400 151.156 10 .872** .001 320.800 35.644 10 血硒 Pearson Correlation Sig.(20-tailed) Sum of squares and Cross-products Covariance N .872** .001 320.800 35.644 10 1.000 . 99.600 11.067 10 **. Correlation is significant at the0 .01 level (2-tailed). 上表中的第三 四数值分别为 XY 交叉乘积的标准差与协方差 非参数测度的相关分析系数 Spearman 相关系数和 Kendall 相关系数计算结果如表 7-11 所示 表 7-11 pearman 相关系数和 Kendall 相关系数 发硒 血硒 Kendall’s tau—b 发硒 Correlation Coefficient Sig.(2-tailed) N 1.000 . 10 .767* .003 10 续表 发硒 血硒 血硒 Correlation Coefficient Sig.(2-tailed) N .767* .003 10 1.000 . 10 发硒 Correlation Coefficient Sig.(2-tailed) N 1.000 . 10 .890* .001 10 Spearman’s rho 血硒 Correlation Coefficient Sig.(2-tailed) N .890* .001 10 1.000 . 10 **. Correlation is significant at the 0 .01 level 从上述计算结果可以看出 不同的相关分析方法 相关系数是不一样的 相关系数零 假设成立的概率也有可能不一样 表 7-12 列出了它们之间的差异 表 7-12 不同的相关分析方法和不同相关系数的对比 相关系数 零假设成立概率 Pearson 相关分析 0.872 0.001 Kendall 相关分析 0.767 0.003 Spearman 相关分析 0.890 0.001 从以上结果可以得出结论 这三种分析方法的相关系数是有显著意义的 (显著水平为 0.01) 发硒与血硒间存在正相关 但相关系数不是很高 在此例中用 Kendall 是不恰当的 因为它适用于分类变量的等级相关分析 从表 7-12 可看出 Kendall 等级相关系数比其它 两种都要小些 若本例中不恰当地使用了 Kendall 等级相关分析方法 则有可能得出相关 系数偏小的结论 因此选择合适的相关分析方法对于二元变量的相关分析的使用是很重要 的 如果使用不恰当 则可能得出相关系数偏小或偏大的结论 (在本例中为偏小 ) 从而考 察不到不同变量间存在的密切关系 对于一般情况 我们都默认数据是服从正态分布的 故使用 Pearson 分析方法 7.3 偏相关分析 有时影响一个问题的因素过多 我们常用假设其中某些因素不变化 即固定该因素 去考察其他一些因素对该问题的影响 从而达到简化研究的目的 偏相关分析正是源于这 一思想的 但又与此思路不尽相同 7.3.1 偏相关分析的基本概念 相关分析计算两个变量之间的相互关系 分析两个变量间线性关系的程度 往往因为 第三个变量的作用 使得相关系数不能真实地反映两个变量间的线性相关程度 这样也就 决定了二元变量的相关分析的不精确性 例如身高 体重与肺活量之间的关系 如果使用 Pearson 相关计算其相关系数 可以得出肺活量 身高和体重均存在较强的线性相关性质 但实际上呢 对体重相同的人而言 是否身高值越大 其肺活量也越大呢 答案是否定的 正是因为身高与体重有着线性关系 肺活量与体重有着线性关系 因此得出了身高与肺活 量之间存在较强的线性关系的错误结论 偏相关分析就是在研究两个变量之间的线性相关 关系时控制可能对其产生影响的变量 偏相关系数衡量任何两个变量之间的关系 而使与这两个变量有联系的其他变量都保 持不变 例如 我们研究销售额与人口数 销售额与总收入之间的关系 人口数量的多少 会影响销售额 总收入的大小亦会影响销售额 由于人口数量的变化 总收入的大小也在 经常的变化之中 应用简单相关系数往往不能说明现象之间的关系程度 这时 必须在消 除其他变量的影响后来研究两个变量之间的相互关系 这种相关分析称为偏相关分析 这 种相关系数称为偏相关系数 例如 在研究销售额和总收入的相互关系时 可假定人口数 量不变 在研究销售额与人口数的相互关系时 可假定总收入不变 例如 变量 X Y Z 之间彼此存在着关系 为了衡量 X 和 Y 之间的关系 就必须假 定 Z 保持不变 计算 X 和 Y 的偏相关系数 我们用 r xy 表示 r xy 称为 Z 保持不变时 X 和 Y 的偏相关系数 偏相关系数是由简单相关系数决定的 但是 偏相关系数的数值和简单相关系数的数值常常是不同的 在计算简单相关系数 时 所有其他自变量不予考虑 在计算偏相关系数时 要考虑其他自变量对因变量的影响 只不过是把其他自变量当作常数处理了 7.3.2 偏相关分析的功能与应用 通过以上对偏相关分析基本概念的介绍 我们对它的基本功能应有一定的了解 应用 SPSS 的偏相关分析过程可对变量进行偏相关分析 在偏相关分析中 系统可按用户的要求 对两相关变量之外的某一或某些影响相关的其他变量进行控制 输出控制其他变量影响后 的相关系数 偏相关分析的主要用途如下 根据观测资料应用偏相关分析计算偏相关系数 可以判断哪些自变量对因变量的影响 较大 而选择作为必须考虑的自变量 至于哪些对因变量影响较小的自变量 则可舍去不 顾 这样在计算多元回归分析时 只要保留起主要作用的自变量 用较少的自变量描述因 变量的平均变动量 偏相关分析应用的领域也非常广 ,涉及自然科学和社会科学的各个方面 7.3.3 偏相关分析应用示例 下面举例说明偏相关分析的应用 [例 7-7] 某农场在一块试验地作测定施肥量 X 害虫危害程度 Y(用数值表示 数值 越大表示危害约严重 ) 和亩产 Z 的试验 所得数据如表 7-13 所示 表 7-13 施肥量 X 害虫危害程度 Y 和亩产 Z 数据表 第一年 第二年 第三年 第四年 施肥量 X 14 27 39 67 害虫危害程度 Y 43 15 9 2 亩产 Z 3.0 7.6 8.5 12 将表 7-13 的数据输入数据文件 如图 7-11 所示 图 7-11 施肥量 害虫危害程度和亩产数据文件 选择 Statistics 菜单 ? Correlate ? Partial 命令项 弹出 Partial Correlations 对 话框 现欲在控制施肥量 X 的影响下对变量害虫危害程度 Y 与亩产 Z 进行偏相关分析 故在对话框左侧的变量列表中选变量 变量害虫危害程 [y] 与 亩产 [z] 点击箭头按钮 使之进入 Variables矩形框 选要控制的变量 施肥量 [x] 点击箭头按钮使之进入 Controlling for 矩形框中 在 Test of Significance 框中选双尾检验 然后点击 OK 按钮提交运行即可 运行所得结果如表 7-14 所示 对计算结果的解释 相关系数 r yz = 0.9597,P 0.181 这虽然通过计算在控制施肥量 不变的情况下 害虫危害程度 Y 与亩产 Z 的偏相关系数的绝对值较大 接近于 1 但是从 零假设成立的概率 P=0.181 来看 害虫危害程度 Y 与亩产 Z 不相关的概率较高 这说明影 响亩产的不仅仅是害虫危害程度 其他因素的影响也很重要 在某种意义上说害虫危害程 度对亩产的影响并不是太显著 但是对害虫危害程度 Y 与亩产 Z 进行二元变量的相关分析 即使用 Bivariate 过程得 到的结果就大为不同了 二元变量的相关分析的输出结果见表 7-14 表 7-14 害虫危害程度 Y 与亩产 Z 的偏相关分析结果 控制变量 施肥量 X ---PARTIAL CORRELATION COEFFICIENTS--- - Controlling for.. X Y Z Y 1.0000 -.9597 ( 0) ( 1) P= . P= . 181 Z -. 9597 1.0000 ( 1) ( 0) P= .181 P= . (Coefficient / (D.F. ) / 2- tailed Significance) 表 7-15 害虫危害程度 Y 与亩产 Z 的二元变量相关分析结果 害虫危害程度 亩产 害虫危害程度 Pearson Correlation Sig.(2-tailed) N 1.000 . 4 -964* .036 4 亩产 Pearson Correlation Sig.(2-tailed) N -.964* .036 4 1.000 . 4 *.Correlation is significant at the 0.05 level (2-tailed). 从二元变量相关分析的结果来看 相关系数为 -0.964 P=0.036 可以认为害虫危害程 度 Y 与亩产 Z 之间存在较强的线性相关关系 由偏相关分析和二元变量大的相关分析所得结果的差异可以看出 这两种相关分析方 法是不相同的 7.3.4 偏相关分析过程 我们来详细研究一下偏相关分析的 SPSS 过程 由上一小节的示例可以看出 偏相关分析的 SPSS 过程与二元变量相关分析的过程相 似 主要也包括以下三个步骤 1 建立或调用数据文件 2 选择分析变量 选择项 提交运行 3 输出结果和解释结果 下面分开详述 1 建立或调用数据文件 与二元变量相关分析的相似 可参阅 二元变量相关分析过程 中相关内容 2 选择分析变量 选择项 选择 Analyze ? Correlate ? Partial 命令项 ,展开偏相关分析主对话框 ( Partial Correlations ) 如图 7-12 所示 在图 7-12 中所示的对话框中 左边有一个较大的矩形框 右边有两个较小的矩形框 一个叫做 Valiables 框存放用于偏相关分析的变量 一个叫做 Controlling for 框 用来存放控制变量 在这些矩形框之间有一上一下两个向右箭头按钮 选中左边变量表中欲用于偏相关分析的变量 ,然后鼠标点击位于左右变量表之间上面的向 右的箭头按钮 使之进入 Valiables 框 选中左边变量表中欲用于控制的变量 即分析保持 不变的变量 ,然后鼠标点击位于下面的向右箭头按钮 使之进入 Controlling for 框中 如图 7-13 所示 图 7-12 选择之前的偏相关分析主对话框 图 7-13 选择之后的偏相关分析主对话框 若其他的选择项采用系统默认值 则可点击右上角的 OK 按钮 运行此相关分析过 程 由图 7-12 图 7-13 可以看出 对于偏相关分析的选择项主要有两类的选择项 一为在 主对话框中的选择项 一为 Options 对话框中的选择项 (1) 主对话框中的选择项 z 假设检验类型的选择 在 Test of Significance 栏中有如下两个选择项 Two tailed 双尾检验选项 当事先不知道相关方向 (正相关还是负相关 )时选择此项 用于正负相关两种可能的情况 是系统默认值 One tailed 单尾检验选项 如果事先知道相关方向可以选择此项 用于只可能是正向 或只可能是负向的情况 z 是否显示实际的显著性水平 选择 Display actual significance level 在显示相关系数的同时 显示实际的显著性概率 不选择此项 其显著性概率使用星号来代替 一个星号 * 表示其显著性概率在 5 ~1 之间 两个星号 ** 表示其显著性水平小于或等于 1 (2) Options 对话框中的选择项 在主对话框的右下角有一个 Options 按钮 单击它 便进入 Options 对话框 (如图 7-14 所示 ) 对话框中显示有如下两组选择项 z Statistics 统计量选择项 Means and standard deviations 复选项 要求 SPSS 计算并显示各分析变量的均值和标准 差 Zero-order correlations 复选项 要求显示零阶相关矩阵 即 Pearson 相关矩阵 z Missing Values 处理缺失值观测量的选择项 Exclude case listwise 选项 剔除所用带有缺失值的观测值 系统默认为此项 Exclude cases pairwise 选项 成对剔除带有缺失值的观测值 选择完成之后 单击 Continue 按钮返回主对话框 图 7-14 偏相关分析的 Options 对话框 3 输出结果和解释结果 对于输出结果可参见表 7-14 表中显示的数值意义如下 (1) 第一行中的数值是偏相关系数 行 列变量相同的偏相关系数为 1 (2) 第二行中的数值是用括号括起来的 表示计算时的自由度数 自由度数的计算公 式为 D.F.=观测量数 变量数 -1 (3) 第三行中的数值是使零的假设成立的概率 也称为实际显著性概率 下面介绍偏相关分析的实例 [例 7-8] 某地 29名 13岁男童身高 X1(cm) 体重 X2(kg)和肺活量 Y(ml)的数据如表 7-16 试对该资料作控制体重影响作用的身高与肺活量做相关分析 表 7-16 身高 cm 体重 kg 和肺活量 ml 数据表 编 号 身高 体重 肺 活 量 编 号 身高 体重 肺 活 量 1 135.1 32.0 1750 16 153.0 47.2 1750 2 139.9 30.4 2000 17 147.6 40.5 2000 3 163.6 46.2 2750 18 157.5 43.3 2250 4 146.5 33.5 2500 19 155.1 44.7 2750 5 156.2 37.1 2750 20 160.5 37.5 2000 6 156.4 35.5 2000 21 143.0 31.5 1750 7 167.8 41.5 2750 22 149.4 33.9 2250 8 149.7 31.0 1500 23 160.8 40.4 2750 9 145.0 33.0 2500 24 159.0 38.5 2500 10 148.5 37.2 2250 25 158.2 37.5 2000 11 165.5 49.5 3000 26 150.0 36.0 1750 12 135.0 27.6 1250 27 144.5 34.7 2250 13 153.3 41.0 2750 28 154.6 39.5 2500 14 152.0 32.0 1750 29 156.5 32.0 1750 15 160.5 47.2 2250 建立数据文件如图 7-15 所示 图 7-15 身高 cm 体重 kg 和肺活量 ml 数据文件 从菜单选择 Analyze ? Correlate ? Partial 命令项 ,展开偏相关分析主对话框 现欲在控制体重的影响下对变量身高与肺活量进行偏相关分析 故在对话框左侧的变量列 表中选变量 身高 [x1] 肺活量 [y] 点击靠上的箭头按钮使之进入 Variables 矩形框 选要控制的变量 体重 [x2] 点击靠下箭头按钮 使之进入 Controlling for 矩形框中 在 Test of Significance 中选双尾检验 单击 Options 按钮 在选择项对话框中选择 Statistics 栏中 Means and standard deviations 以显示每个变量的均数与标准差 还在此栏中选择 Zero-order correlations 以显示所有变量的零阶相关系数 即 Pearson 相关系数 其余使用系 统默认值 然后点击 OK 按钮提交运行 得到的计算结果如下面各表 表 7-17 各变量的均数 Means 标准差 Standard Dev 和例数 Cases Variable Mean Standard Dev Cases X1 152.5759 8.3622 29 Y 2206.8966 448.5541 29 X2 37.6517 5.7455 29 表 7-18 各变量间的零阶相关系数 即 Pearson 相关系数 P A R T I A L C O R R E L A T I O N C O E F F I C I E N T S - Zero Order Partials X1 Y X2 X1 1.0000 .5884 .7194 ( 0) ( 27) ( 27) P= . P= .001 P= .000 Y .5884 1.0000 .6127 ( 27) ( 0) ( 27) P= .001 P= . P= .000 X2 .7194 .6127 1.0000 ( 27) ( 27) ( 0) P= .000 P= .000 P= . (Coefficient / (D.F.) / 2-tailed Significance) 相关系数/自由度数/双尾显著性检验概率 " . " is printed if a coefficient cannot be computed 表 7-19 身高 x1 与肺活量 y 的偏相关分析结果 控制变量 体重 x2 P A R T I A L C O R R E L A T I O N C O E F F I C I E N T S Controlling for.. X2 X1 Y X1 1.0000 .2688 ( 0) ( 26) P= . P= .167 Y .2688 1.0000 ( 26) ( 0) P= .167 P= . (Coefficient / (D.F.) / 2-tailed Significance) " . " is printed if a coefficient cannot be computed 对以上结果的解释如下 从 Pearson 相关系数来看 身高 (X1)与肺活量 (Y)之间 (r=0.5884 P=0.001) 体重 (X2)与 肺活量 (Y)之间 (r=0.6127 P=0.000)均有相关关系 但从偏相关系数来看 当体重 (X2)固定 (或 控制 )时 身高 (X1)与肺活量 (Y)的相关无显著性 (r yx1 =0.2688 P=0.167) 这是因为身高与体 重之间有较为密切的关系 (r=0.7194 P=0.000) 在分析身高与肺活量的 Pearson 相关时 也 包括了体重的正效应 当扣除了体重的影响后 身高与肺活量就看不出有相关关系了 如果控制变量改为身高 则得到如下结果 (如表 7-20 所示 ) 体重与肺活量的相关系数 为 0.3373 P=0.079 故体重与肺活量存在一定的线性相关 虽然不是很显著 可见 肺活 量与身高和体重均有关系 但是 通过以体重为控制量对身高与肺活量之间的偏相关分析 与和以身高为控制量对体重与肺活量的偏相关分析的比较 我们发现前者的偏相关系数大 显著性水平更高 这样我们就得出一个结论 如果仅仅研究其中一个变量与肺活量的相关 关系时 那么研究身高与肺活量的相关关系比研究体重与肺活量的相关关系会有更大意义 表 7-20 体重 x2 与肺活量 y 的偏相关分析结果 控制变量 身高 x1 - - - P A R T I A L C O R R E L A T I O N C O E F F I C I E N T S Controlling for.. X1 X2 Y X2 1.0000 .3373 ( 0) ( 26) P= . P= .079 Y .3373 1.0000 ( 26) ( 0) P= .079 P= . (Coefficient / (D.F.) / 2-tailed Significance) " . " is printed if a coefficient cannot be computed 7.4 距离分析 二元变量的相关分析 偏相关分析主要是研究变量之间的线性相关关系 但是现实生 活中 有很多情况是要考测事物间是否相似 这时就要用到另一种相关分析的方法 距离 分析 7.4.1 距离分析的基本概念 距离分析是对观测量之间或变量之间相似或不相似的程度的一种测度 是计算一对变 量之间或一对观测量之间的广义的距离 这些相似性或距离测度可以用于其他分析过程 例如因子分析 聚类分析或多位定标分析 有助于分析复杂的数据集 例如 是否可以根 据一些特性 如发动机的大小 MPG 和马力来测度两种汽车的相似性 通过计算汽车间的 相似性 可以对这些汽车获得一些认识 哪些汽车彼此类似 哪些汽车彼此不同 更正规 地分析 可以考虑对相似性使用分层聚类分析或多元定标分析去探测深层结构 与距离分析有关的一些统计量 1 不相似性测度 z 对等间距数据的不相似性 (距离 )测度可以使用的统计量有 欧几米德 (欧氏 )距离 欧氏距离平方 切贝谢夫 曲组 米考斯基或自定义统计量 z 对计数数据 使用卡方或斐方 z 对二值 (只有两种取值 )数据 使用欧氏距离 欧氏距离平方 尺寸差异 模式差异 方差 形 或兰斯和威廉斯 2 相似性测度 z 等间距数据使用统计量皮尔逊相关或余弦 z 测度二元数据的相似性使用的统计量有 20 余种 在 SPSS for Windows 中 距离分析属于专业统计分析过程 (Professional Statistics opitions) 如果没有安装 则在菜单中不会有调用该过程的菜单项 总而言之 距离分析为观测量之间距离的分析和变量间距离的分析 7.4.2 距离分析的功能与应用 调用距离分析过程可对变量内部各观察单位间的数值进行距离相关分析 以考察相互 间的接近程度 也可对变量间进行距离相关分析 常用于考察预测值对实际值的拟合程度 也可用于考察变量的相似程度 同时距离分析还可用于其他统计分析过程如因子分析 聚 类分析或多位定标分析等等 7.4.3 距离分析的功能与应用 下面举出一个例子来说明距离分析的应用 [例 7-9] 某医师对 10 份标准血红蛋白样品作三次平行检测 分别记为 time1 time2 time3 数据见表 7-21 问检测结果是否一致 表 7-21 标准血红蛋白样品检测数据表 样品 1 样品 2 样品 3 样品 4 样品 5 样品 6 样品 7 样品 8 样品 9 样品 10 第一次 测 量 12.36 12.14 12.31 12.32 12.12 12.28 12.24 12.41 12.33 12.17 第二次 测 量 12.40 12.20 12.28 12.25 12.22 12.34 12.31 12.30 12.22 12.24 第三次 测 量 12.18 12.22 12.35 12.21 12.10 12.25 12.20 12.46 12.36 12.11 将原数据输入数据文件并加上一个标识字符型变量 sample 如图 7-16 所示 图 7-16 标准血红蛋白样品检测数据文件 激活 Analyze 菜单 选择 Correlate 中的 Distance 命令项 弹出 Distances 主 对话框 在对话框左侧的变量列表中选变量 time1 time2 time3 点击箭头 按钮使之进入 Variables 框 在 Compute Distances 栏中有两个选项 Between cases 表示作 变量内部观察值之间的距离相关分析 Between variables 表示作变量之间的距离相关分析 在本例中 因三次平行测量结果分别置于三个变量中 故选择后者 在 Measure 栏中有两 种测距方式 Dissimilarities 为不相似性测距 Similarities 为相似性测距 若选 Dissimilarties 并点击 Measure 钮 弹出 Distance:Dissimilarity Measure 对话框 用户可根据数据特征 选用测距方法 本例选择了 Similarties 项 并以 Pearson correlation 为测量距离 点击 Continue 按钮返回 Distance 对话框 再点击 OK 按钮提交运行即可 输出结果见下表 7-22 表 7-23 表 7-22 观测量统计处理简明表 Cases Valid Missing Total N Percent N Percent N Percent 10 90.9% 1 9.1% 11 100.0% 表 7-23 标准血红蛋白样品距离分析计算结果 Correlation between vectors of values TIME1 TIME2 TIME3 TIME1 TIME2 TIME3 .573 .731 .573 .088 .731 .088 结果解释如下 在结果输出窗口中可看到三次测量结果的相关系数矩阵 第一次测量 与第二次测量结果的 r=0.573 第一次测量与第三次测量结果的 r=0.731 第二次测量与第 三次测量结果的 r=0.088 由此可见 后两次测量的结果一致性较差 这意味着第一次恰好 是后两次的 均值 即一致性程度上第一次测量位于第二次和第三次之中 故对该指标 作重复测量意义不大 7.4.4 距离分析过程 距离分析的 SPSS 过程比二元变量的相关分析 偏相关分析都来得复杂 它不仅牵涉 的数学知识比较复杂 而且距离分析选择项的选择更为复杂 Compute Distances 栏中有两 个选项 Between cases 和 Between variables Measure 栏中有两种测距方式 Dissimilarities 和 Similarities 组合起来就是四种 点击 Measure 之后又有许多选项 下面分开详述 1 第一步还是建立或调用数据文件 与二元变量相关分析 偏相关分析的相似 2 选择分析变量 选择项 从菜单选择 Analyze ? Correlate ? Distance 命令项 ,展开偏相关分析主对话 框 ( Distance Correlations ) 如图 7-17 所示 在图 7-17 所示的对话框中 左边有一个较 大的矩形框 右边有两个较小的矩形框 Valiables 框存放用于距离分析的变量 Label Case by 框存放标识观测量的字符型变量 且只有在 Compute Distances 一栏中选择了 Between cases 后 才能将字符型变量选入该栏 在这些矩形框之间有一上一下两个向右箭头按钮 选中左边变量表中欲用于距离分析的变量 ,然后鼠标点击位于左右变量表之间上面的向右 箭头按钮 使之进入 Valiables 框选中左边变量表中欲用于标识用的字符型变量 ,如果此时 位于下面的向右箭头按钮变成亮色时 你就可以用鼠标点击该字符型变量 将其选入 Label case by 若有必要的话 如图 7-18 所示 图 7-17 选择之前的距离分析主对话框 图 7-18 选择之后的距离分析主对话框 若其他的选择项采用系统默认值 则可点击右上角的 OK 按钮 运行此相关分析过 程 由图 7-17 图 7-18 可以看出 对于距离分析的选择项主要有两类的选择项 一为在主 对话框中的选择项 一为 Measure 对话框中的选择项 将此类选择项分成两种情况 一为 Similarity Measure 对话框 另一个为 Dissimilarity Measure 对话框 (1) 主对话框中的选择项 z Compute Distances 计算距离栏 Between Cases 选项 即计算每对观测量间的距离 Between Valiables 选项 即计算每对变量间的距离 z Measure 按钮栏 选择测度距离的类型 Dissimilarities 选项 选择该选项计算不相似性矩阵 此为系统默认的类型 系统默认 使用 Euclidean distance 即欧氏距离测度其不相似性 Similarities 选项 选择该选项计算相似性矩阵 系统默认使用 Pearson 相关进行相似 性测度 选择一种测度类型后 系统默认的计算方法将显示在 Measure 按钮的右边 读者也 可点击 Measure 按钮进入 Measure 对话框 选择另外一种合适的计算方法 系统也将其 显示在 Measure 按钮的右边 2 Dissimilarity Measure 对话框 选择有关不相似性测度的选择项 在 Measure 栏中选择了不相似性分析 Dissimilarities 之后 点击其下方的 Measure 进入 Dissimilarity Measure 不相似性测度对话框 如图 7-19 所示 z 不相似性测度方法的选择项 选择一种测度需要首先选好数据类型 然后在选中的数据类型组的下拉菜单中选择与 数据类型一致的可用的测度计算方法 数据类型及其可以使用的测度计算方法如下 Interval 等间距变量 (即连续变量 )选项 在选择此项后 点击其右方的矩形框中的向下 箭头 有许多测度计算方法在下拉列表中 可以选择不同的测定计算方法 图 7-19 不相似性测度 Dissimilarity Measure 对话框 1) Euclidean distance 欧氏距离 两项之间的距离是两变量之差的平方和的平方根 2) Squared Euclidean distance 欧氏距离的平方 两项之间是两个变量的平方和 3) Chebychev 切贝谢夫距离 两项之间的距离是两项之差的最大绝对值 4) Block 布洛克距离 两项之间的距离是每个变量的两个值之间差的绝对值之和 5) Minkowski 明可夫斯基 两项之间的距离是每个变量值之差自乘 p 次幂的绝对值之 和 开 p 次方的根 指定此选择项还需要指定自乘幂次和开方的根次值 6) Customized 距离 两项之间的距离是每个变量值之差自乘 p 次幂的绝对值之和 开 t 次方根 指定此选择项还需指定自乘幂次 p 和开方的根次 t 值 选择 Minkowski 和 Customized 两种的不相似性测度 激活 Interval 下面的两个小矩形 框的一个或全部 选择 Minkowski 则激活一个 Power 框 因为对于 Minkowski 方法而言 自乘幂次和开方的根次值相等 选择 Customized 则激活两个矩形框 Power 和 Root 框 可以在 Power 或 Root 后面键入数值 此数值就是自乘幂次或开方的根次值 也可用矩形框 右边的上下箭头增加或减少数值 对于这两种不相似性分析 自乘幂次和开方的根次值的 系统默认值是 2 Counts 计数变量选项 在选择此选项后 单击其后矩形框右侧的向下箭头 可以选择 如下不同的不相似测度计算方法 1) Chi-square measure 2 测度 ,该不相似性测度基于两组频数相等的卡方检验 测度的 数量级取决于被近似计算的两个变量或观测量的总频数 2) Phi-square measure 2 测度 ,该测度设法把样本的大小考虑进去 以减少实际观测频数 对测度值的影响 2 测度通过把不相似性的卡方测度除以联合频数平方根 使它正规化 Binary 二元变量 (表示某种特性有 无的变量 )选项 选择该项后激活其下的其他 选项 在 Present 框中键入表明特性存在的变量值 在 Absent 框中键入表明不存在某 特性的变量值 系统默认的变量值是用 1 表明存在 用 0 表明特性不存在 对于二元变量 可以进行如下选择 1) Euclidean distance 欧氏距离 二元欧氏距离 最小值为 0 无上限 根据四格表计 算 SQRT(b+c) 此处的 b 和 c 是在一项中出现而在另一项中不出现的对角元素 2) Squared Euclidean distance 欧氏距离的平方 二元欧氏距离的平方 最小值为 0 无 上限 计算不一致的观测数 3) Size difference 大小不同的测度 用最小值为 0 无上限测度不相似性 4) Pattern difference 是一个从 0 到 1 的不相似性测度 根据四格表计算 bc/n 2 其中 b 和 c 是在一项中出现而在另一项中不出现的对角元素 n 是观测量总数 5) Variance 不对称指数 该测度范围为 0~1 从四格表计数 (b c)/4n 其中 b 和 c 是 在一项中出现而在另一项中不出现的对角元素 n 是观测量总数 6) Shape 该距离测度范围是从 0 到 1 7) Lance and Williams 兰斯和威廉斯不相似性测度 与 Bray Curtis 非矩阵系数一样 该测度的值在 0 到 1 之间 根据四格表计算 (b+c)/(2a+b+c) 其中 a 是与两项均出现的观测 相对应的元素 b 和 c 是在一项中出现而在另一项中不出现的对角元素 用户可在 Present 和 Absent 后面的矩形框中输入表明某特性出现和不出现的值 系统 默认 0 为某特性不出现 1 为某特性出现 z TransformValues 转换数值栏 Transform Values 栏位于不相似性测度对话框的左下角矩形框中 该组允许在进行近 似计算之前对观测量或变量进行标准化 但对于二元变量不能进行标准化 进行标准化的 方法可从 Standardized 后面的下拉列表中看到 单击矩形框右面的箭头按钮 展开下拉列 表 可选择的标准化方法如下 1) None 不进行标准化 这是系统默认的 2) Z-Score 值被标准化到 Z 分数 标准化后 其均值为 0 标准差为 1 3) Range 0 to 1 标准化到其值的范围为 0 到 1 之间 对被标准化的观测量或变量的每一 个值 减去最小值 然后除以范围 (最大值与最小值的差 ) 4) Range -1 to +1 标准化到单位范围 即标准化后其值范围为 -1 到 +1 该标准化的方法 是把观测量或变量的值除以范围 如果该组值的范围为 0 所有值保持不变 5) Maximum magnitude of 1 标准化到最大值为 1 即对变量或观测量的每一个值都除 以最大值 若该组最大值为 0 则用最小值的绝对值加 1 作除数 6) Mean of 1 标准化到单位均值 该方法对观测量或变量的每一个值除以均值 如果均 值为 0 将所有数值加 1 以使均值为 1 7) Standard deviation of 1 标准到标准差为 1 该方法对要被标准化的观测量或变量的每 一个值用标准差除 如果标准差为 0 其值保持不变 z 除 None 选择项外 选择其他任意一种标准化方法 均应该指定标准化对象 共有两个选择项 1) By variable 选项 即对变量进行标准化 2) By cases 选项 即对观测量进行标准化 z Tansform Measures 转换测度栏 转换测度栏允许对距离测度的结果进行转换 在距离测度计算完成后 才进行对测度 的转换 共有 3 个转换方法可以选择 每种转换方法给出一种转换结果 这三种转换方法 可以同时选择 Absolute Value 复选项 即对距离取绝对值 当符号表明的是相关的方向 且仅对相 关的数值感兴趣时使用这种转换 Change sign 复选项 即改变符号 把相似性测度值转换成不相似性测度值或相反 使 用这种转换 通过加负号 颠倒距离测度的顺序 Rescale to 0-1 range 复选项 即先减去最小值 然后除以范围使距离标准化 对已经按 有意义的方法标准化的测度 一般不再使用此方法进行转换 (3) Similarity Measure 相似性测度的选择项 当在主对话框中选择了相似性测度 并使用鼠标单击 Measure 按钮 进入 Distances Similarity Measure 相似性测度对话框 如图 7-20 所示 Measure 栏 有关相似性测度方法的选择项与不相似性测度一样 在选择具体的测度方法之前必须 首先选择变量类型 然后 在选中的实际类型组的下拉菜单中选择与实际类型一致的可用 的测度 行相似性测度的数据类型只有两种 等间隔变量和二元变量 与这两个类型相应 的可以选择的测度方法如下 图 7-20 相似性测度选择项对话框 1) Interval 等间隔变量选项 可以选择以下相似性测度计算方法 Pearson correlation 皮尔逊相关 是值向量间的相关 是其值为 -l 到 +l 之间的线性关的测度 0 值表示无线性 关系 对于这个相似性计算方法要详细的说明一下 关键在于理解什么叫做 值向量 从 SPSS 的数据文件上看 值向量指的就是数据文件上的一行 这一行也称为一个 case 如 图 7-16 标准血红蛋白样品检测数据文件 第一行 [12.36 12.40 12.18]就是一值向量 在用变量 sample 标识以后 此值向量可称为名叫 s1 的值向量或 case Cosine 用两个向量间的余弦测度相似性 其值在 -l 到 +l 之间 0 值表明两个向量正交 即相互垂直 2) Binary 对二元数据的相似性测度 SPSS 为每对项目构造一个 2 2 的列联表 可用 的测度是如下 4 类 匹配系数 条件概率 可预测性测度和其他测度 可以从下拉列表中 选择一种测度 在进行测度方法选择之前应该指定表明某特点出现 Present 和不出现 Absent 的变量值 系统默认 特点出现其值为 1 特点不出现其值为 0 用户可以指定其他整数表 明特性的存在与不存在 可以选择以下相似性测度 关于匹配系数 有以下 9 种测度方法 Russell and Rao 罗素一劳的二项点积 匹配系数的分母包括所有匹配的对 不匹配的 无特点的从分子中剔除 该系数等于分配给匹配与不匹配相等的权重 Simple Matching 简单匹配相似性测度 是匹配数与匹配与不匹配之总数的比值 给匹 配与不匹配的权重相等 Jaccard 杰卡德相似性系数 是一个指数 ,相似比 匹配系数的分子分母均剔除了不出 现的 给匹配与不匹配的权重相等 Dice 戴斯相似性系数 匹配指数 分子 分母均剔除了不匹配的 并给予匹配者以双 倍权重 Regers and Tanimoto 所有匹配的对均包括在分母中 不匹配的 (没有对的 )包括在分子 中 给不匹配的以双倍权重 Sokal and Sneath l 匹配系数 分母包括所有的匹配的 分子包括所有不匹配的 给匹 配的以双倍权重 Sokal and Sneath 2 匹配系数 不匹配的从分子分母中剔除 给不匹配的以双倍权重 Sokal and Sneath 3 匹配系数为匹配与不匹配数的比 所有匹配的从分母中剔除 不匹 配的包括在分子中 给匹配与不匹配的以相等的权重 如果没有不匹配的 这是理论上的 假定 然而 当值不确定或大于 9999.999 时 给距离一个 9999.999 的任意值 Kulczynski 1 匹配系数 ,是一个联合出现与所有不匹配数的比值 所有的匹配的从分母 剔除 或缺的从分子中剔除 对匹配与不匹配的给以相同的权重 该测度最小值为 0 无 上限 如果没有不匹配的 这是理论上的假定 然而 当值不确定或大于 9999.999 时 给 距离一个 9999.999 的任意值 属于条件概率的测度有以下 3 种 Kulczynski 2 是一个基干条件概率的指数 该概率是一个特性在一项中发生 导致该 特性在另一项中出现的平均概率 Sokal and Sneath 4 是一个基于条件概率的指数 该概率是一项中的特性与在其他项中 值匹配的概率 每一项中的值该测度是作为预测因子的以上两项的平均值 Hamann 该指数给出在两项中特性状态相同 (在两项中均出现或均不出现 )的概率 (匹配 数 )减去在两项特性状态不同 (在一项中出现 而在另一项中不出现 )的概率 (不匹配数 )之差 除以项目总数 其值范围为 -l 到 +l 属于可预测性的测度有以下 4 种 Lamda 相似性测度 (Goodman and Kruskal 相似性测度 )表示在两个方向上进行预测时 当用一项预测另一项时误差降低的比例 Anderberg's D 与 类似 D 统计量测度的是当在两个方向上进行预测时 用一项预测 另一项时 实际降低的误差率 其值范围在 0 到 1 之间 Yule's Y 尤尔的 Y 综合指数 该测度是 2 2 表交叉率的函数 不取决于边际总数 范 围在 -1 到 l 之间 Yule’s Q Goodman 和 Kruskal 的 的 2 2 的倒数 该测度是 2 2 表交叉率的函数 与边际总数无关 其值范围在 -l 到 +l 之间 其他测度有以下 4 种 该组是对连续变量二元等价关系的测度 或项与项之间特殊特性的测度 Ochiai Cosin 余弦测度的二元方式 范围在 0 到 1 之间 Sokal and Sneath 5 该指数是正 负匹配条件概率的几何平均值的平方 它不依赖于项 目编码 该测度范围为 0 到 1 Phi 4 point correlation 皮尔逊积矩相关的二元形式 范围 0 到 l Disersion 范围 -l 到 +l 的一个距离指数 Transform Values 转换数值栏 在 Transform Values 组位于相似性测度对话框的左下角 该组允许在进行近似计算之 前对观测量或变量进行标准化 对二元变量不能进行标准化 标准化方法的选择 进行标准化的方法在 Standized 后面的下拉列表中 单击矩形框右面的箭头按钮 展开 下拉列表 可选择的标准化方法如下 None 不进行标准化 这是系统默认的 Z-Score 标准化到 Z 分数 Range -1 to +1 标准化到单位范围 即标准化后 其值范围为 -l 到 +l 该标准化的方法 是把观测量或变量的值除以范围 如果该组值的范围为 0 所有值保持不变 Range 0 to 1 标准化到其值的范围在 0 到 l 之间 对被标准化的观测量或变量的每一个 值 减去最小值 然后除以范围 (最大值与最小值之差 ) 如果范围值为 0 观测量或变量的 所有值均被置成 0.5 Maximum magnitude of 1 标准化到最大值 1 即对变量或观测量的每一个值都除以最大 值 如果该组最大值为 0 则用最小值的绝对值加 1 作除数 Mean of 1 标准化到单位均值 这方法对观测量或变量的每个值除以均值 如果均值为 0 将所有数值加 1 以使均值为 1 Standard devition of 1 标准化到标准差为 1 该方法对要被标准化的观测量或变量的每 一个值用标准差除 如果标准差为 0 其值保持不变 标准化对象的选择 以上除了 None 选择项外 选择其他任意一种标准化的方法 均应该同时指定标准化 对象 共有两个选择项 By valiables 选项 即对变量进行标准化 By case 选项 即对观测量进行标准化 Transform Values 转换测度栏 转换测度组允许对距离测度的结果进行转换 在距离测度计算完成后 才进行对测度 的转换 共有 3 个转换方法可以选择 每种转换方法给出一种转换结果 3 种转换方法可 以同时选择 Abosolute values 复选项 即对距离取绝对值 当符号表明的是相关的方向 且仅对相 关的数值感兴趣时使用这种转换 Change sign 复选项 即改变符号 把相似性测度值转换成不相似性测度值或相反 使 用这种转换 通过加负号颠倒距离测度的顺序 Rescale to 0~1 range 复选项 即先减去最小值 然后除以范围使距离标准化 对已经 按有意义的方法标准化的测度 一般不再使用此方法进行转换 下面就 [例 7-9]作进一步的分析 数据参见表 7-21 如果对变量内部各观察值间的一致性进行考核 (假定本例 time1 变量中的数据为对一个 标准试样的十次平行测定 ) 那么需将 time1 变量选入 Valiables 栏 将 sample 变量 选入 Label Case by 栏 time2 和 变量 3 留在左边的矩形框中 然后在 Distancs 主对 话框中选 Between cases 项 并选 Dissimilarities 项 在 Dissimilarity Measures 对话框中选 择 Euclidean distance 测度方法 点击 Continue 按钮 回到主对话框 再点击 OK 按 钮即可 运算结果如表 7-24 表 7-24 time1 变量中观测量之间不相似性分析运行结果 Proximity Matrix .220 .050 .040 .240 .080 .120 .050 .030 .190 .220 .170 .180 .020 .140 .100 .270 .190 .030 .050 .170 .010 .190 .030 .070 .100 .020 .140 .040 .180 .010 .200 .040 .080 .090 .010 .150 .240 .020 .190 .200 .160 .120 .290 .210 .050 .080 .140 .030 .040 .160 .040 .130 .050 .110 .120 .100 .070 .080 .120 .040 .170 .090 .070 .050 .270 .100 .090 .290 .130 .170 .080 .240 .030 .190 .020 .010 .210 .050 .090 .080 .160 .190 .030 .140 .150 .050 .110 .070 .240 .160 1:s1 2:s2 3:s3 4:s4 5:s5 6:s6 7:s7 8:s8 9:s9 10:s 10 1:s1 2:s2 3:s3 4:s4 5:s5 6:s6 7:s7 8:s8 9:s9 10:s10 Euclidean Distance This is a dissimilarity matrix 在不相似性测量系数矩阵中 最大值为第五个观察值与第八个观察值间的值仅为 0.290 其余的值均较之更小 最小的为第三个观察值与第四个观察值间的值仅为 0.010 可见观察值间的不相似性差 不相似性系数愈接近 1 不相似性愈好 不相似性系数愈接 近 0 不相似性愈差 则意味着测定结果的一致性好 为作对比 分别假定变量 time2 和 time3 中的数据为对一个标准试样的十次平 行测定 将 time2 变量或 time3 变量选入 Valiables 栏 将 sample 变量选入 Label Case by 一栏 其余留在左边的矩形框中 然后在 Distancs 对话框中选 Between cases 项 并选 Dissimilarities 项 在 Similarity Measure 对话框中选择 Euclidean distance 测度方法 点击 Continiue 按钮 回到主对话框 再点击 OK 按钮 运算结果如表 7-25 和表 7-26 表 7-25 time2 变量中观测量之间不相似性分析运行结果 Proximity Matrix .200 .120 .150 .180 .060 .090 .100 .180 .160 .200 .080 .050 .020 .140 .110 .100 .020 .040 .120 .080 .030 .060 .060 .030 .020 .060 .040 .150 .050 .030 .030 .090 .060 .050 .030 .010 .180 .020 .060 .030 .120 .090 .080 .000 .020 .060 .140 .060 .090 .120 .030 .040 .120 .100 .090 .110 .030 .060 .090 .030 .010 .090 .070 .100 .100 .020 .050 .080 .040 .010 .080 .060 .180 .020 .060 .030 .000 .120 .090 .080 .020 .160 .040 .040 .010 .020 .100 .070 .060 .020 1:s1 2:s2 3:s3 4:s4 5:s5 6:s6 7:s7 8:s8 9:s9 10:s 10 1:s1 2:s2 3:s3 4:s4 5:s5 6:s6 7:s7 8:s8 9:s9 10:s10 Euclidean Distance This is a dissimilarity matrix 表 7-26 time3 变量中观测量之间不相似性分析运行结果 Proximity Matrix .040 .170 .030 .080 .070 .020 .280 .180 .070 .040 .130 .010 .120 .030 .020 .240 .140 .110 .170 .130 .140 .250 .100 .150 .110 .010 .240 .030 .010 .140 .110 .040 .010 .250 .150 .100 .080 .120 .250 .110 .150 .100 .360 .260 .010 .070 .030 .100 .040 .150 .050 .210 .110 .140 .020 .020 .150 .010 .100 .050 .260 .160 .090 .280 .240 .110 .250 .360 .210 .260 .100 .350 .180 .140 .010 .150 .260 .110 .160 .100 .250 .070 .110 .240 .100 .010 .140 .090 .350 .250 1:s1 2:s2 3:s3 4:s4 5:s5 6:s6 7:s7 8:s8 9:s9 10:s 10 1:s1 2:s2 3:s3 4:s4 5:s5 6:s6 7:s7 8:s8 9:s9 10:s10 Euclidean Distance This is a dissimilarity matrix 从表 7-25 可以看出 在不相似性测量系数矩阵中 最大值为第一个观察值与第二个观 察值间的 0.200 其余的值均较之更小 最小的为第九个观察值与第五个观察值间的 0.000 可见观察值间的不相似性较变量 time1 更差 ,则意味着测定结果的一致性更好 从表 7-26 可以看出 在不相似性测量系数矩阵中 最大值为第五个观察值与第八个观 察值间的 0.360 最小的为 0.010 可见观察值间的不相似性较变量 time1 比 time1 和 time2 要好 但仍然较差 测定结果的一致性还是较好 由以上三种不同情况下的不相似分析可知 这三次测量中观测量之间的一致性还是较 好的 我们对 [例 7-9]进行相似性分析 再次假定本例 time1 变量中的数据为对一个标准 试样的十次平行测定 然后在 Distancs 主对话框中选 Between cases 项 并选 Similarities 项 进入 Similarity Measure 对话框选 Pearson distance 测度方法 点击 Continue 再点 击主对话框的 OK 按钮即可 ,运算结果如表 7-27 所示 表 7-27 time1 变量中观测量之间相似性分析运行结果 Proximity Matrix 9999.9999999.9999999.9999999.9999999.9999999.9999999.9999999.9999999.999 9999.999 9999.9999999.9999999.9999999.9999999.9999999.9999999.9999999.999 9999.9999999.999 9999.9999999.9999999.9999999.9999999.9999999.9999999.999 9999.9999999.9999999.999 9999.9999999.9999999.9999999.9999999.9999999.999 9999.9999999.9999999.9999999.999 9999.9999999.9999999.9999999.9999999.999 9999.9999999.9999999.9999999.9999999.999 9999.9999999.9999999.9999999.999 9999.9999999.9999999.9999999.9999999.9999999.999 9999.9999999.9999999.999 9999.9999999.9999999.9999999.9999999.9999999.9999999.999 9999.9999999.999 9999.9999999.9999999.9999999.9999999.9999999.9999999.9999999.999 9999.999 9999.9999999.9999999.9999999.9999999.9999999.9999999.9999999.9999999.999 1:s1 2:s2 3:s3 4:s4 5:s5 6:s6 7:s7 8:s8 9:s9 10:s10 1:s1 2:s2 3:s3 4:s4 5:s5 6:s6 7:s7 8:s8 9:s9 10:s10 Correlation between Vectors of Values This is a similarity matrix 思 考 题 1 对下面数据进行分析 分析年龄 (Age)与时间 (time) age 与 pathsize 是否相关 2 如上述数据 在控制年龄时 分析 pathsize 与 time 是否相关 第 8 章 均值比较与 T 检验 导 言 T 检验是检验差异显著性的十分重要的统计工具 这种差异显著性的检验是样本均值 间的比较 因此 T 检验也可以称为一种均值比较分析 它包括 单样本 T 检验 独立样本 T 检验 配对样本 T 检验 本章包括了大量的示例和实例 读者只阅读应用示例部分就可 基本掌握该过程的使用方法 实际工作中经常会遇到这样的问题 :总体的数量水平有没有变化 即总体的均值是否 相同 例如 假定以往的铁水含碳量平均水平是 4.55 单位 ,现在生产条件有了一些变化 ,含 碳量的平均水平有没有改变呢 ?又如 为了鉴定两种操作方法对产品抗折强度影响是否有显 著差异 通过样本抗折强度均值水平比较来作出结论等 这就需要统计分析作出检验和判 断 统计上对均值差异显著性检验的方法很多 较为常见的有 T 检验 U 检验 8.1 均值比较与均值比较的检验过程 8.1.1 均值比较的概念 统计分析常常采取抽样研究的方法 即从总体中随机抽取一定数量的样本进行研究来 推论总体的特性 由于总体中的每个个体间均存在差异 即使严格遵守随机抽样原则也会 由于多抽到一些数值较大或较小的个体致使样本统计量与总体参数之间有所不同 又由于 实验者测量技术的差别或测量仪器精确程度的差别等等也会造成一定的偏差 使样本统计 量与总体参数之间存在差异 由此可以得出这样的认识 均值不相等的两个样本不一定来 自均值不同的总体 能否用样本均数估计总体均数 两个变量均数接近的样本是否来自均 值相同的总体 换句话说 两个样本某变量均值不同 其差异是否具有统计意义 能否说 明总体差异 这是各种研究工作中经常提出的问题 这就要进行均值比较 对来自正态总体的两个样本进行均值比较常使用 T 检验的方法 T 检验要求两个被比 较的样体来自正态总体 两个样本方差相等与不等时使用的计算 t 值的公式不同 有兴趣 的读者可以参阅统计学方面的书籍 进行方差齐次性检验使用 F 检验 对应的零假设是 两组样本方差相等 P 值小于 0.05 说明在该水平上否定原假设 方差不齐 否则两组方差无显著性差异 U 检验是用服从正态分布的检验量去检验总体均值差异情况的方法 在这种情况下总 体方差通常是已知的 虽然 t 检验法与 u 检验法所解决的问题大体相同 但在小样本且均方差未知的情况下 就不能用 u 检验法了 为了正确地进行检验 需要正确回答以下三个问题 1 数据的样本是一个还是两个 如果是两个样本 那么各项数据是否都取自同一来 源 如果是 那么这两个样本就不是独立样本 这样的样本称为配对样本或成对样本 2 样本差是否已知 或者必须由估计求得 3 样本是否是大容量的 一般以样本观测值数 n 30 作为大样本 应该采用的统计量类型已列于表 8-1 中 该表也说明了不同检验量应用的范围 表 8-1 均值检验时数据分类 样本情况 总体 6 是否已知 样本数 n 是否已知 应用统计量类型 (检验类型 ) 一个 已知 未知 未知 大小均可 大 小 U U T 两个 相互独立 已知 未知 未知 大小均可 大 小 U U T 两个 互不独立 配对 未知 未知 大 小 U T 8.1.2 进行均值比较及检验的过程 SPSS for Windows 提供了以下计算变量的描述统计量的过程和对均值进行检验的过 程 它们是 Means 过程 One-Sample T test 单样本 T 检验过程 Indepentdent-Samples T test 独立样本 T 检验过程 Paried-Samples T test 配对样本 T 检验过程和 One-Way Anova 一元 方差分析过程 (如图 8-1 所示 ) 图 8-1 菜单 Compare Means”包含的 SPSS 过程 1 MEANS 过程 MEANS 过程计算指定变量的综合描述统计量 当观测量按一个分类变量分组时 MEANS 过程可以进行分组计算 例如要计算工作人员上班路程的平均公里数 SEX 变量 把工作人员按性别分为女人 男人两组 MEANS 过程可以分别计算男人 女人上班路程 的公里数 用于形成分组的变量是其值数量少且能明确表明其特征的变量 使用 MEANS 过程求若干组的描述统计量 目的在于比较 因此必须分组求均值 这是 与 Descriptives 过程不同之处 MEANS 过程在第六章已作过详细介绍 在此不再赘述 2 T test T 检验过程 T test 过程是对样本进行 T 检验的过程 按不同的比较方式分为 3 个功能 (1) One-Sample T test 单样本 T 检验过程 检验单个变量的均值是否与给定的常数之间存在差异 样本均数与总体均数之间的差 异显著性检验属于单一样本 T 检验 (2) Indepentdent-Samples T test 独立样本 T 检验过程 独立样本的 T 检验用于检验是否两个相关的样本来自具有相同均值的总体 例如 想 知道购买你的产品的顾客与不购买你的产品的顾客平均收入是否相同 可以合用对独立样 本进行 T 检验的功能 必须注意使用这种检验的条件是必须具有来自两个不相关组的观测 量 其均值必须是对你想在两组中都计算的变量的综合测度 如果分组样本彼此不独立 例如测度的是工人在技术培训前后某项技能的成绩 要求 比较培训前后均值是否有显著性差异 应该使用配对 T 检验的功能 (Paired Simple T test) 如果分组不止两个 应该使用 One Way ANOVA 一元方差分析过程进行单变量方差分析 如果你试图比较的变量明显不是正态分布的 则应该考虑使用一种非参数检验过程 (Nonparametric test) 如果用户想比较的变量是分类变量 应该使用 Crosstabs 功能 (3) Paried-Samples T test 配对样本 T 检验过程 配对 T 检验 (Paired Sample T test)用于检验两个相关的样本是否来自具有相同均值的总 体 这种相关的或配对的样本常常来自这样的实验结果 在实验中 被观测对象在实验前 后均被观测 例如想要知道技术培训以后是否提高了工作效率 可以在这个研究中在培训 前后完成一道工序的时间 在构成数据文件时一个工人培训前后完成一道工序的时间形成 一个观测量 两个变量可以是 BEFORE AFTER 配对分析的测度也不是必须来自同一个 观测对象 可以两者组合而成 例如根据实验前学习成绩和智商均相同的两个孩子 分别 进行不同教学方法 进行一段实验教学后 比较参与实验的两组学生平均成绩差异是否具 有统计意义 3 One Way ANOVA 一元方差分析过程 一元方差分析用于检验几个独立的组 是否来自均值相同的总体 例如可以检验三个 减肥训练计划 体重量下降的效果 (均值 )是否相同 同时想看看哪一种训练计划效果最好 或者三个训练计划中哪两个之间的差别最显著 应该使用 One Way ANOVA 过程 如果 按性别 体重级别对肥胖患者再进行分组 进行三个训练计划的实验 不但要想知道哪一 种训练计划对降体重最有效 而且想知道同一种训练方法对不同性别是否具有不同的效果 或者想作每天的进食量对分析结果的影响 应该选择 ANOVA Models 子菜单中的各个功能 进行多元方分析 如果分析变量的分布明显是非正态分布的 应该选择非参数检验过程 非参数检验的 内容参见第十四章 One Way ANOVA 过程以及多因素方差分析的内容请见第 9 章 8.2 单样本 T 检验 8.2.1 单样本 T 检验的基本概念 单样本 T 检验单个变量的均值是否与给定的常数之间存在差异 例如研究人员想知道 一组学生的 IQ 平均分数与 100 人的差异 如果已知总体均数 进行样本均数与总体均数之间的差异显著性检验也属于单一样本 的 T 检验 例如一个谷类工厂要求产品重量为 1.3 磅 从某生产线上取出几盒样品 检查 样品的平均重量在 95%水平上与 1.3 磅是否存在显著差异 其中 1.3 磅是生产要求的重量 可以看作是总体均数 检验这条生产线的产品是否合格的问题就是进行样本均数与总体均 数之间的差异显著性检验 即进行单一样本 T 检验的问题 设总体 X 服从正态分布 N( ,б 2 ),其中б 2 未知 从中抽取子样 (X 1 X 2 ... X n ) 现 要检验假设 H 0 0 H 1 0 其中 0 为已知常数 在方差б 2 已知的情况下对 总体均值作假设检验时 选用统计量 1/ 0 ? ? = n X U σ μ 但现在其中б的未知 所以不能直接采用 U 作检验统计量 通常在标准差б未知时 我们用子样标准差 S 来代替总体标准差 得到新的统计量 1/ 0 ? ? = nS X T μ 由抽样分布定理可知 若 H 0 成立 则统计量 T 服从自由度为 n 1 的 t 分布 对于给 定的 由 t 分布表可查得临界值 t /2 (n 1) 使 α α =?> )}1(t|TP{| 2/ n 如果算得 T 的值 t 落入其拒绝域 C: t t /2 (n 1)内 ,则拒绝 H 0 我们也可得出一个 推论 当样本平均值 大于 0 时 在假设 0 与假设 0 下得出的结论是等价 的 也就是说 当样本平均值 大于 0 时 ,若我们拒绝或接受 0 也必然拒绝或接 受 < 0 若我们拒绝或接受 0 也必然拒绝或接受 0 8.2.2 单样本 T 检验的功能与应用 执行 One-Sample T Test 过程 SPSS 将显示 每个检验变量的统计量的均值 标准差 和均值的标准误 检验样本是否来自总体均数为一指定总体的结果 显示样本值与常数之 差以其 95 的可信区间 8.2.3 单样本 T 检验的应用示例 下面举出一个实际例子来说明单样本 T 检验过程 [例 8-1] 某轮胎厂的质量分析报告中说明 该厂某轮胎的平均寿命在一定的载重负荷 与正常行驶条件下会大于 25000 公里 平均轮胎寿命的公里数近似服从正态分布 现对该 厂该种轮胎抽取一容量为 15 个的样本 试验结果得样本均值为 27000 公里 能否作出结论 该厂产品与申报的质量标准相符 数据如下图 8-2 数据文件所示 图 8-2 轮胎寿命数据文件 X X 由于该正态总体的方差未知 且样本数为 15 个小于 30 为小样本 可用 T 检验法 作假设 H 0 25000(或 25000) H 1 >25000(或 25000) 取显著性水平为 0.05 由于轮胎寿命不可能为负值 故这里是右侧单边检验 实际问题中 当样本值不能 取负值时 都是右侧单边检验 由 T 分布查得临界值为 T 0.05 14 1.76 从 SPSS 的 Analyze ? Compare Means ? One-Sample T Test 进入 One-Sample T Test 单样本 T 检验主对话框 如图 8-3 所示 选中对话框左边矩形框中的变量 轮胎寿 命公里数 [x] 点击向右的箭头键 使之进入 Test Variable(s)变量矩形框 在 Test Value 检验值 栏中填入 25000 其余使用系统默认值 如图 8-4 所示 图 8-3 选择前单样本 T 检验主对话框 图 8-4 选择后单样本 T 检验的主对话框 然后点击 OK 按钮提交运行 所得的结果如表 8-2 表 8-3 所示 表 8-2 轮胎质量单样本 T 检验计算所得统计量值 N Mean Std.Deviation Std.Error Mean 轮胎寿命公里数 15 26166.67 4704.3546 1214.6591 表 8-3 轮胎质量单样本 T 检验结果 Test value=25000 95% Confidence Interval of the Difference t df Sig.(2-tai led) Mean Difference Lower Upper 轮胎寿命公里数 1.671 14 .117 2000.000 567.7794 1567.7794 表 8-2 中 N 表示样本数 Mean 表示该样本的平均数 Std. Deviation 为标准差 Std. Error Mean 为标准误 表 8-3 中 t 表示 T 检验之 t 值 df 表示自由度数 Sig(2 tailed)表示双尾 T 检验概率 Mean Difference 表示样本均值与检验值之差 95 Confidence Interval of the Difference 表示 在 95 的可信度下差值的可信区间 lower 表示该区间的下限 Upper 表示该区间的上限 从结果可知 由于 t<1.76 不能拒绝假设 H 0 25000 即是说 样本数据的信息 并不支持 轮胎真正寿命大于 25000 公里 的结论 8.2.4 单样本 T 检验过程 本节详细分析了单样本 T 检验的 SPSS 过程 单样本 T 检验的 SPSS 过程一般分为四步 建立无效假设 H 0 ,假设 0 建立数据集 (数据文件 ) 仅有一个变量 对话框选项的选择 结果分析 下面就 3.对话框选项的选择 详细阐述 按 Analyze ? Compare Means ? One-Sample T Test 进入 One-Sample T Test 单样本 T 检验主对话框 如图 8-3 在此对话框中 选中左边的源变量矩形框中唯一的变 量 点击源变量框与 Variable 变量框之间的向右按钮 将变量移入变量框 在 Test Value 检验值一栏中填入 0 的大小 选择后的主对话框如图 8-4 所示 单击 Options 按钮 弹出 Options 选择项对话框 如图 8-5 所示 图 8-5 单样本 T 检验 Options 选择项对话框 此对话框中 Confidence Interval 一栏为可信水平 系统默认为 95 读者可以改写 在 Missing Values 一栏中有两个选项 一为 Exclude cases analysis by analysis 选项 带 有缺失值的观测量 当它与分析有关时才被剔除 一为 Exclude cases listwise 选项 剔除在 主对话框中 Variables 矩形框中列出的变量带有缺失值的所有观测量 点击 Continue 按钮 可返回主对话框 下面再举出一例 [例 8-2] 正常人的脉搏平均 72 次 /分 现测得 10 例某病患者的脉搏 (次 /分 ) 54 67 68 78 70 66 67 70 65 69 试问此病患者与正常人有无明显差异 1 建立无效假设 H 0 该病患者的脉搏与正常人的脉搏平均相等 2 建立数据文件 如图 8-6 所示 图 8-6 某病患者脉搏的数据文件 3 单样本 T 检验选项的选择 从 Analyze ? Compare Means ? One-Sample T Test 进入 One-Sample T Test 单样本 T 检验主对话框 将变量 病患者脉搏 [pulse] 选入 Test Variable(s)变量矩形框 在 Test Value 检验值中输入 72 单击 OK 按钮提交运行 4 所得结果如表 8-4 表 8-5 所示 表 8-4 某病患者脉搏单样本 T 检验计算所得统计量值 N Mean Std. Deviation Std.Error 病患者脉搏 10 67.4000 5.9292 1.8750 样本平均数为 67.4 次 /秒 小于正常人脉搏 72 次 /秒 虽然如此 但是还要检验其统计 意义 因为这一差异很有可能是抽样误差或测量误差造成的 表 8-5 某病患者脉搏单样本 T 检验结果 Test value=72 95%Confidence Interval of the Difference t df Sig.(2-tailed) Mean Difference Lower Upper 病患者脉搏 -2.453 9 .037 -4.6000 -8.8415 -.3585 由表 8-5 得 t=-2.453 df 9 双尾检验 P=0.037<0.05 故可认为此病患者与正常人的脉搏 差异是有统计意义的 两均数之差为 67.4 72=-4.6 其 95 可信区间为 -8.8415 到 -0.3585 8.3 独立样本 T 检验 进行独立样本 T 检验要求被比较的两个样本彼此独立 即没有配对关系 要求样本均 来自正态总体 而且均值对于检验是有意义的描述统计量 独立样本 T 检验和配对样本的 T 检验均使用 T test 过程 但是使用的菜单不同 对于 数据文件结构的要求和所使用的命令语句也有区别 8.3.1 独立样本 T 检验的基本概念 Indepentdent-Samples T Test 过程是进行两样本均数的比较 设总体 X 服从设正态分布 N( 1 ,б 2 ) Y 服从设正态分布 N( 2 ,б 2 ) 其中公共б 2 未 知 分别从总体中抽取样本 (X 1 X 2 ... X n1 )和 (Y 1 Y 2 ... Y n2 ) 且两样本互相独立 现要检验假设 H 0 1 2 H 1 1 2 与单样本 T 检验相似 构造新统计量 21 11 nn S YX T w + ? = 其中 2 21 2 22 2 112 ?+ + = nn SnSn S w S 1 2 和 S 2 2 分别为两总体的子样本方差 n 1 和 n 2 分别为两样 本的样本数 如果假设成立 根据抽样分布定理可知 统计量 T 服从自由度为 n 1 n 2 2 的 t 分布 对于给定的 由 t 分布表可查得临界值 t /2 (n 1 n 2 2) 使 α α =?+> )}2(t|TP{| 212/ nn 如果算得 T 的值 t 落入其拒绝域 C: t t /2 (n 1 n 2 2)内 ,则拒绝 H 0 8.3.2 独立样本 T 检验的功能与应用 执行 Independent-Sample T Test 独立样本 T 检验过程 SPSS 将显示 每个检验变量的 统计量的均值 标准差 标准误和样本含量 检验两样本是否来自相等的 Levene 检验结果 假定方差齐性时 检验两样本均数是否来自同一总体均数的 t 检验结果 假定方差不齐时 检验两样本均数是否来自同一总体均数的 t 检验结果 差值的均数 标准差 标准误和可 信区间 8.3.3 独立样本 T 检验的应用示例 [例 8-3] 某物质在处理前与处理后分别抽样分析其含脂率如下 处理前 (Xi) 0.19 0.18 0.21 0.30 0.41 0.12 0.27 处理后 (Yi) 0.15 0.13 0.07 0.24 0.19 0.06 0.08 0.12 假定处理前后的含脂率都服从正态分布 且方差相同 问处理前后的含脂率的平均值 是否有显著变化 ?( =0.05) 将上述数据输入数据文件 其中变量 group 为分组变量 用 1 标识处理前数据 用 2 标识处理后数据 如图 8-7 所示 图 8-7 处理前后的含脂率的数据文件 选择从 Analyze ? Compare Means ? Indepentdent-Sample T Test 激活 Independent-Sample T Test 独立样本 T 检验主对话框 如图 8-8 所示 图 8-8 选择前独立样 T 检验主对话框 将变量 处理前后 [xy] 选中 点击靠近 Test Variable(s)检验变量栏的向右箭头按钮 使之进入该矩形栏 选中变量 分组 [group] 点击靠近 Grouping Variable 分组变量栏的 向右箭头按钮 使之进入该矩形栏 点击 Define Groups 按钮 弹出 Define Groups 定义 分组对话框 选择 Use specified value 并在 Group 1 或 2 后面的矩形框中输入变量 group 的两个值 1 和 2 如图 8-9 所示 点击 Continue 按钮 返回主对话框 如图 8-10 所示 在主对话框中点击 OK 按 钮提交运行 图 8-9 Define Groups 定义分组对话框 图 8-10 选择后的独立样 T 检验主对话框 得到的计算结果如表 8-6 表 8-7 所示 表 8-6 独立样本 T 检验计算所得统计量 分组 N Mean Std.Deviation Std.Error Mean 处理前后 1 2 7 8 .2400 .1300 9.557E-02 6.234E-02 3.612E-02 2.204E-02 表 8-7 独立样本 T 检验结果 Independent Samples Test 1.375 .262 2.676 13 .019 .1100 4.110E-02 .0212 .1988 2.600 10.10 .026 .1100 4.231E-02 .0158 .2042 Equal variances assumed 假定方 差相等 Equal variances not assumed假定 方差不相等 处理前后 F Sig. 方差 相等 概率 Levene's Test for Equality of Variances方 差相等之 Levene检验 t df自 由度 Sig. (2-tail ed)双尾 检验概 率 Mean Diffe rence 均数 之差 Std. Error Difference 均数之差标 准误 Lower 下限 Upper 上限 95% Confidence Interval of the Difference95 可信区间 t-test for Equality of Means均数相等检验 由表 8-6 表 8-7 可得出以下结论 1 Levene 方差齐性检验 F=1.375 P=0.262>0.05,可以认为两样本方差相等 2 进行方差齐性检验时 t=2.676 P=0.019<0.05,可以认为处理前与处理后的含脂率 是有统计意义的 3 处理前样本的均数为 0.2400 标准差为 0.09557 处理后样本的均数为 0.1300 标 准差为 0.06234 两样本均数之差为 0.1100 均数之差的标准误为 0.041 以及 95 水平的可 信区间为 0.0212 到 0.1988 下面举出一个两独立样本几何均数比较的示例 [例 8-4] 选甲型流感病毒血凝抑制抗体滴度 (对数 ) 共 24 人 随机分为两组 每组 12 人 用甲型流感病毒活疫苗进行免疫 一组用气雾法 另一组用鼻腔雾法 免疫后一月采 血 分别测定血凝抑制抗体滴度 结果如下 问两法的效果有无差异 气雾组 1 40 20 30 25 10 15 25 30 40 10 15 30 鼻腔雾组 2 50 40 30 35 60 70 30 20 25 70 35 25 建立数据文件 变量有血凝抑制抗体滴度 对数 [x]与组别 [group] 如图 8-11 所示 图 8-11 血凝抑制抗体滴度 对数 [x]与组别 [group]数据文件 选择 Transform ? Compute 激活 ComputeVariable 新变量赋值主对话框 令 lgx=lg(x) 如图 8-12 所示 点击 OK 按钮执行 数据文件新增变量 lgx 如图 8-13 所示 然后 选择 Analyze ? Compare Means ? Independent-Sample T Test 进入 Independent-Sample T Test 独立样本 T 检验对话框 (如图 8-14 所示 ) 将变量 lgx 放入 Test Variable(s)检验变量栏 把 组别 [group] 放入 Grouping Variable 分组变量栏 单击 Define Groups 按钮 激活 Define Groups 定义分组对话框 选择 Use specified values 并在两个 Group 矩形框后分别输入 1 和 2 如图 8-9 所示 单击 Continue 按钮 返回 Independent-Sample T Test 独立样本 T 检验对话框 ,如图 8-15 所示 图 8-12 ComputeVariable 新变量赋值主对话框 图 8-13 新生成的数据文件 图 8-14 生成新变量的独立样本 T 检验主对话框 图 8-15 进入计算准备时的独立样本 T 检验主对话框 点击 OK 按钮 得到的计算结果如表 8-8 表 8-9 所示 由表 8-8 表 8-9 可得出以下结论 1 Levene 方差齐性检验 F=0.420 P=0.524>0.05 可以认为两样本方差相等 2 进行方差齐性检验时 t=-2.934 P=0.008<0.05 可以认为两法免疫的效果有统计 意义 3 气雾组样本的均数为 1.3404 标准差为 0.2104, 鼻腔雾组样本的均数为 1.5757 标 准差为 0.1814 两样本均数之差为 -0.2353 均数之差的标准误为 0.0802 以及 95 水平的 可信区间为 -0.4017 到 0.0690 表 8-8 独立样本 T 检验计算所得统计量 组别 N Mean Std. Deviation Std. Error Mean LGX 1 2 12 12 1.3404 1.5757 .2104 .1814 6.074E-02 5.238E-02 表 8-9 独立样本 T 检验计算结果 Independent Samples Test .420 .524 -2.934 22 .008 -.2353 8.020E-02 -.4017 -6.90E-02 -2.934 21.535 .008 -.2353 8.020E-02 -.4019 -6.88E-02 Equal variances assumed Equal variances not assumed LGX F Si g. Levene's Test for Equality of Variances t df Sig. (2-ta iled) Mean Difference Std. Error Difference Lower Upper 95% Confidence Interval of the Difference t-test for Equality of Means 8.3.4 独立样本 T 检验过程 Independent-Sample T Test 独立样本 T 检验过程与单样本 T 检验过程一样 基本上可 分为四步 1 建立无效假设 H 0 1 2 H 1 1 2 2 建立数据文件 3 对话框选项的选择 4 结果分析 下面就 “3.对话框选项的选择 ”详细阐述 从 Analyze ? Compare Means ? Independent-Sample T Test 进入 Independent-Sample T Test 独立样本 T 检验主对话框 如图 8-8 图 8-14 在此对话框中 选中左边的源变量矩形框中的用于检验的变量 点击源变量框与 Variable 变量框之间的向 右按钮 将其移入 Test Variable(s)检验变量框中 选中用于标识分组的变量 用同样的方 法将其移入 Grouping Variable 分组变量框 如图 8-10 和图 8-15 单击 Options 按钮 弹出 Options 选择项对话框 如图 8-16 所示 它是用来确定可 信度和控制缺失值的处理的 图 8-16 独立样本 T 检验 Options 选择项对话框 此对话框中的 Confidence Interval 栏为可信水平 系统默认为 95 读者可以改写 在 Missing Values 栏中有两个选项 一为 Exclude cases analysis by analysis 选项 带有 缺失值的观测量 当它与分析有关时才被剔除 一为 Exclude cases listwise 选项 剔除在主 对话框中 Variables 矩形框中列出的变量带有缺失值的所有观测量 点击 Continue 按钮 可返回主对话框 在主对话框中 单击 Define Groups 按钮 可进入 Define Groups 子对话框 如图 8-17 所示 (1) (2) (3) 图 8-17 Define Groups 定义分组子对话框的三种状态 对于 Use specified values 使用指定值栏 如果是分组变量时分类变量 则选用此项 此变 量可以是数值型变量 (如图 8-17(2)) 也可以是短字符串型变量 (如 Yes 和 No male 和 female) 在 Group1 Group2 后的矩形框中可输入分组变量值以标识不同的组 以便做不同样 本组间均值的比较 对于 Cut point 分割点栏 如果分组变量是连续变量 则选用此项 并在其后的矩形框 中输入分割值 此值把数据分为两部分 ,大于或等于此值的数据为一组 小于此值的为一组 下面再举例来说明两独立样本均数比较和两独立样本几何均数比较 独立样本均数比较例题 [例 8-5] 在某克山病区测得 11 例克山病患者与 13 名健康人的血磷值 mmol/L 如下 问该地区急性克山病患者与健康人的血磷值是否不同 患者 0.84 1.05 1.20 1.20 1.39 1.53 1.67 1.80 1.87 2.07 2.11 健康人 0.54 0.64 0.64 0.75 0.76 0.81 1.16 1.20 1.34 1.35 1.48 1.56 1.87 首先添加一分组变量 group,建立数据文件 如图 8-18 所示 图 8-18 急性克山病患者与健康人的血磷值的数据文件 选择 Analyze ? Compare Means ? Independent-Sample T Test 激活 Independent-Sample T Test 独立样本检验主对话框 把变量 血磷值 [x] 选入 Test Variable(s) 检验变量栏中 把变量 分组 [group] 选入 Grouping Variable 分组变量栏中 单击 Define Groups 按钮 激活 Define Groups 定义分组对话框 选择 Use specified values 并在两个 Group 矩形框后分别输入 1 和 2 单击 Continue 按钮 返回 Independent-Sample T Test 独 立样本 T 检验对话框 点击 OK 按钮 提交运行 所得结果如表 8-10 表 8-11 所示 表 8-10 独立样本 T 检验计算所得统计量 分组 N Mean Std. Deviation Std.Error Mean 血磷值 1 2 11 13 1.5209 1.0846 .4128 .4221 .1272 .1171 表 8-11 独立样本 T 检验结果 Levene’s Test for Equality of Variances t=test for Equality of Means 95% Confidence Interual of the Difference F Sig. t Df Sig.(2- tailed) Mean Difference Std.Error Difference Lower Upper 血磷值 Equal variances assumed Equal Variances Not assumed .032 .860 2.52 2.52 22 21.353 .019 .020 .4363 .4363 .1729 .1729 7.78E-02 7.72E-02 .7948 .7954 由表 8-6 表 8-7 可得出以下结论 1 Levene 方差齐性检验 F=0.032,P=0.860>0.05 可以认为两样本方差相等 2 进行方差齐性检验时 t=2.52 P=0.019<0.05 可以认为该地区克山病患者与正常 人血磷值之间是有统计意义的 3 患者样本的均数为 1.5209 标准差为 0.4218 健康人样本的均数为 1.0846 标准 差为 0.4221 两样本均数之差为 0.4363 均数之差的标准误为 0.1729 以及 95 水平的可信 区间为 0.07777 到 0.7948 [例 8-6] 对用二种不同的热处理方法加工的金属材料做抗拉强度试验 得到试验数据 如下 甲种方法 31 34 29 26 32 35 38 34 30 29 32 31 乙种方法 26 24 28 29 30 29 32 26 31 29 32 28 设此两法所加工金属材料的抗拉强度都服从正态分布 且两总体方差相等 给定显著 水平 =0.05 问两种方法所得金属材料的平均抗拉强度有无显著差异 将上述数据输入数据文件 将两种方法测得的样本值统一用变量 x 来存放 并增加分 组变量 group 将甲种方法标识为 1 乙种方法标识为 2 选择 Analyze ? Compare Means ? Independent-Sample T Test 激活 Independentt-Sample T Test 独立样本检验主对话框 将变量 x 选入检验变量栏 将变量 group 选入分组变量栏 在 Define Groups 定义分组对话框中选择 Use specified values 并在两个 Group 矩形框后分别输入 1 和 2 点击 OK 键 提交运行 得到的计算结果如表 8-12 表 8-13 表 8-12 独立样本 T 检验计算所得统计量 分组 N Mean Std. Deviation Std.Error Mean 抗拉强度 1 2 12 12 31.75 28.67 3.19 2.46 .92 .71 表 8-13 独立样本 T 检验计算结果 Levene’s Test for Equality of Variances t-test for Equality of Means 95% Confidence Interual of the Difference F Sig. t Df Sig.(2-tai led) Mean Differenc e Std.Error Difference Lower Upper 抗拉强度 Equal variances assumed Equal Variances Not assumed .557 .463 2.648 2.648 22 20.659 .015 .015 3.08 .3.08 1.16 1.16 .67 .66 5.50 5.51 由表 8-12 表 8-13 可得出以下结论 1 Levene 方差齐性检验 F=0.557 P=0.463>0.05 可以认为两样本方差相等 2 进行方差齐性检验时 t=2.648 P=0.015<0.05 可以认为甲种方法和乙种方法之间 是有统计意义的 3 甲种方法样本的均数为 31.75 标准差为 3.19 乙种方法的均数为 28.67 标准差 为 2.46 两样本均数之差为 3.08 均数之差的标准误为 1.16 以及 95 水平的可信区间为 0.67 到 5.50 作 T 检验时 应首先检验方差是否相等 以上例子都是经检验后两样本方差相等的 下面举出一个经检验后方差不相等的例子 [例 8-7] 甲 乙两矿坑平均产煤中含矸率 ( )指标是服从正态分布的 今分别从两坑所 产煤中各抽取 7 个样品 测得含矸率指标如下 甲坑 (x) 5.9 3.8 6.5 18.3 18.2 16.1 7.6 乙坑 (y) 7.6 0.4 1.1 3.2 6.5 4.1 4.7 能否判断出它们的含矸率有显著差异 ( =0.05) 首先建立数据文件 用变量 xy 存放两坑样品的观测值 用分组变量 group 标识甲乙两 坑 1 标识甲坑 2 标识乙坑 对话框各选择项的选择与上例类似 点击 OK 按钮 提交运行 所得结果如表 8-14 表 8-15 所示 表 8-14 独立样本 T 检验计算所得统计量 分组 N Mean Std. Deviation Std.Error Mean 甲乙坑 1 2 7 7 10.9143 3.9429 6.3344 2.6362 2.3942 .9964 表 8-15 独立样本 T 检验计算结果 Levene’s Test for Equality of Variances t-test for Equality of Means 95% Confidence Interval of the Difference F Sig. t df Sig.( 2- tailed ) Mean Differ ence Std.Error Differen ce Lower Upper 甲乙坑 Equal variances assumed Equal variances 19.78 .001 2.688 2.688 12 8.018 .020 .028 6.9714 6.9714 2.5932 2.5932 1.321 .9937 12.622 12.949 由表 8-14 表 8-15 得 1 Levene 方差齐性检验 F=19.78 P=0.001<0.05 因而认为两样本方差不相等 2 由于经检验两样本方差不相等 故在表 8-15 中应看 Equal Variances not assumed 一行 t=2.688 P=0.028<0.05 可以认为甲乙两坑之间的含矸率是有统计意义的 可以认 为两坑的含矸率有显著差异 3 甲坑样本的均数为 10.9143 标准差为 6.3344 处理后样本的均数为 3.9429 标准 差为 2.6362 两样本均数之差为 6.9714 均数之差的标准误为 6.9714 以及 95 水平的可信 区间为 0.9937 到 12.949 8.4 配对样本 T 检验 在实际中 有些数据是天然相关成对的 为了需要 有时也要设计试验 使数据间成 为相关成对 无论是天然相关的 还是人为设计的 两样本间的方差并不相等 这时两总 体平均值有无显著性差异的检验要用配对样本 T 检验过程 8.4.1 配对样本 T 检验的基本概念 进行配对样本的 T 检验要求被比较的两个样本有配对关系 要求两个样本均来自正态 总体 而且均值是对于检验有意义的描述统计量 均值的配对比较是比较常见的 (见以下几 个例子 ) 1 同一窝实验用小白鼠按性别 体重相同配对 再随机分到实验组和对照级 分别 喂加入海藻的饮料和普通饮料 三个月后 分别将每对白鼠置于水中 测量其到溺死前的 游泳时间 比较两组白鼠游泳时间均值 从而比较两种饮料对抗疲劳的作用 2 同一组高血压病人 在进行体育疗法前后 测量其血压 每个病人在体育疗法前 后的血压测量值构成观测量对 可以是这组病人体育疗法前后血压的平均值 进行配对 T 检验 分析体育疗法对降血压的疗效 3 在研究人体各部位体温是否有差别时 一个人的两个部位的温度构成一对数据 测量若干人的同样部位的温度数据 可以比较这两个部位平均温度是否有显著性差异 使 用配对 t 检验 配对样本 T 检验实际上是先求出每对测量值之差值 对差值求均值 检验配对变量均 值之间的差异是否显著 其实质检验的假设实际上是差值的均值与零均值之间差异的显著 性 如果差值均值与 0 均值无显著性差异 说明配对变量均值之间无显著性差异 设总体 X 服从设正态分布 N( 1 ,б 1 2 ) Y 服从设正态分布 N( 2 ,б 2 2 ) 其中б 1 2 б 2 2 未知 它们未必相等 分别从总体中抽取样本 X 1 X 2 ... X n1 和 Y 1 Y 2 ... Y n2 我们引进一个新的随机变量 Z=X-Y 对应的一组子样值 (Z 1 Z 2 ... Z n ) 其中 Z i X i -Y i ,i=1,……n X Y 的差异反映在数据 Z I 上 若无显著差异 则应有 z 0 因此问题 归结为检验假设 H 0 z 0 H 1 z 0 X Y 服从正态分布时 变量 Z 也服从正态分 布 其中 z E Z 构造新统计量 1/ ? = nS Z T z 如果假设成立 根据抽样分布定理可知 统计量 T 服从自由度为 n-1 的 t 分布 对于 给定的 由 t 分布表可查得临界值 t /2 (n-1) 使 α α =?+> )}2(t|TP{| 212/ nn 如果算得 T 的值 t 落入其拒绝域 C: t t /2 (n 1 n 2 2)内 ,则拒绝 H 0 8.4.2 配对样本 T 检验功能与应用 配对样本 T 检验过程师进行配对样本均数的比较 执行该过程 SPSS 将显示 每个 变量的均数 标准差 标准误和样本含量 每对变量的相关系数 每对变量差值得均数 标 准差 标准误和可信区间 检验每对变量差值的均数是否来自总体均数为 0 的 t 检验结果 配对样本 T 检验与独立样本 T 检验均使用 T TEST 过程 但两者调用该过程的菜单不 同 对数据文件结构的要求不同和所使用的命令语句也有区别 在进行配对样本 T 检验的 数据文件中一对数据必须作为同一个观测量中的两个变量值 Indepentdent-Samples T Test 过程是进行两样本均数的比较 8.4.3 配对样本 T 检验的应用示例 举出一个示例说明配对样本 T 检验的 SPSS 过程是如何运用的 [例 8-8] 某单位研究饮食中缺乏维生素 E 与肝中维生素 A 含量的关系 将同种属的大 白鼠按性别相同 年龄 体重相近者配成对子 共 8 对 并将每对中的两头动物随机分到 正常饲料组和维生素 E 缺乏组 过一定时期后将大白鼠杀死 测得其肝中维生素 A 的含量 结果如表 8-16 所示 问不同饲料的大白鼠中维生素 A 含量有无差别 表 8-16 不同饲料组大白鼠维生素 A 含量数据表 大白鼠对号 12345678 正常饲料组 3550 2000 3000 3950 3800 3750 3450 3050 维生素 A 缺乏组 2450 2400 1800 3200 3250 2700 2500 1750 将其输入到数据文件中 如图 8-19 所示 图 8-19 数据文件 然后选择 Analyze ? Compare Means ? Paired-Sample T Test 激活 Paired-Sample T Test 配对样本检验主对话框 如图 8-20 所示 图 8-20 Paired-Sample T Test 配对样本检验主对话框 单击 正常饲料组 [x1] x1 出现在 Current Selection 当前选择栏中的 Variable 1 后面 单击 维生素 E 缺乏组 [x2] x1 出现在 Variable 2 后面 如图 8-21 所示 点 击两个变量栏之间的向右箭头按钮 使 Current Seletion 的变量进入右边的 Paired Variable(s) 配对变量栏 如图 8-22 所示 图 8-21 选中配对变量时的配对 T 检验主对话框 图 8-22 即将运行时的配对 T 检验主对话框 单击 OK 按钮提交运行 所得的输出结果如表 8-17 表 8-18 和表 8-19 所示 表 8-17 Paired Samples Statisticsp 配对样本统计量 Mean 均数 N例列数 Std. Deviation 标准差 Std.Erro r 标准误 Paior 正常饮料组 1 维生素 E 缺乏组 3318.75 2506.25 8 8 632.42 555.13 223.59 196.27 表 8-18 Paired Samples Statisticsp 配对样本相关系数 N例数 Correlation Sig.S概率 Pair 正常饮料组 & 1 维生素 E缺乏组 8 .584 .129 表 8-19 Paired Samples Test 配对样本检验结果 Paired Differences 配对差 95% Confidence Interval of the Difference 差之 95%可信区间 Mean 均数 Std. Deviation 标准差 Std.Erro r Mean 标准误 Lower 下限 Upper 上限 t df 自由 度 Sig.(2-4 ailed) 双尾检 验概率 Pair 正常饮料组 - 1 维生素 E 缺乏组 812.50 546.25 193.13 355.82 1269.18 4.207 7 .004 由表 8-17 表 8-18 和表 8-19 得结果如下 1 相关系数 r=0.584 P=0.129 认为两配对变量无相关关系 2 t=4.207 自由度 df=7 双尾检验概率 P 0.004<0.05 故可认为不同饲料的大白鼠 肝中维生素 A 含量有统计意义 3 配对数差之均数 =3318.75-2506.25=812.50 标准差为 546.25 标准误为 193.13 95% 的可信区间为 355.82 到 1269.18 8.4.4 配对样本 T 检验过程 由上例可以看出 配对样本 T 检验过程有以下四个步骤 1 建立无效假设 这一步基本上可省略 2 建立数据文件 3 选择好对话框的选择项 4 结果分析 下面重点介绍 选择好对话框的选择项 部分 在 Paired Variable Ttest 配对样本 T 检验主对话框 (如图 8-20 图 8-21 和图 8-22 所示 ) 中 选择好配对变量 主对话框左边的源变量栏中 只有两个变量的选择方法在例 8-8 中 已有介绍 这里不再赘述 唯一要补充说明的是 当源变量栏中有三个或三个以上的变量 时的选择方法 先选择一对配对变量 使之进入 Paired Variable(s)配对变量栏 然后再选 中下一对配对变量 使之进入 Paired Variable(s)配对变量栏 ,这样就可以指定多对配对变量 同时进行分析 在配对变量栏中 配对变量名处于同一行 中间有 连接 在配对样本 T 检验主对话框的右下角有一个 Options 按钮 点击该按钮弹出 Options 选择项对话框 如图 8-23 所示 图 8-23 独立样本 T 检验 Options 选择项对话框 此对话框与图 8-5 图 8-26 完全相同 Confidence Interval 一栏为可信水平 系统默认 为 95 读者可以改写 Exclude cases analysis by analysis 选项 当带有缺失值的观测量与 分析有关时才被剔除 Exclude cases listwise 选项 剔除在主对话框中 Variables 矩形框中 列出的变量带有缺失值的所有观测量 点击 Continue 按钮 可返回主对话框 点击 OK 按钮 便可运行该过程 下面举出一道多对配对变量的 T 检验例题 [例 8-9] 为了检验甲 乙 丙三种分离机在析出某种有用物质效能上的高低 今抽取 8 批溶液 每批均分成三份 分别由甲 乙 丙机分解处理 其析出效果数据如表 8-20 所 示 试问甲乙丙三种机在析出效能上有无差异 (ɑ =0.05)? 表 8-20 甲乙丙三种机析出效能数据表 样号 12345678 甲 (X 4.0 3.5 4.1 5.5 4.6 6.0 5.1 4.3 乙 (Y) 3.0 3.0 3.8 2.1 4.9 5.3 3.1 2.7 丙 (Z) 3.2 3.8 4.3 3.6 4.0 4.9 4.7 2.4 将其输入数据文件如图 8-24 所示 图 8-24 甲乙丙三机析出效能数据文件 选择 Analyze ? Compare Means ? Paired-Sample T Test 激活 Paired-Sample T Test 配对样本检验主对话框 将三个变量 甲机 [x] 乙机 [y] 和 丙机 [z] 两两配 对 组成三对配对变量进行 T 检验 其余使用系统默认值 即将提交运行时的配对样本 T 检验主对话框如图 8-25 所示 图 8-25 即将提交运行时的配对样本 T 检验主对话框 单击 OK 按钮 提交运行该过程 得到的结果如下表 8-21 表 8-22 和表 8-23 所示 表 8-21 Paired Samples Statisticsp 配对样本统计量 Mean N Std.Deviation Std. Error Mean Pair 甲机 1 乙机 Pair 甲机 2 丙机 Pair 乙机 3 丙机 4.638 3.488 4.638 3.862 3.488 3.862 8 8 8 8 8 8 .838 1.105 .838 .814 1.105 .814 .296 .391 .296 .288 .391 .288 表 8-22 Paired Samples Statisticsp 配对样本相关系数 N Correlation Sig. Pair 1 甲机 &乙机 Pair 2 甲机 &丙机 Pair 3 乙机 &丙机 8 8 8 .309 .486 .596 .456 .222 .119 表 8-23 Paired Samples Test 配对样本检验结果 Paired Differences 95% Confidence Interval of the Difference Mean Std. Deviation Std. Error Mean Lower Upper t df Sig.(2-tailed) Pair1 甲机 -乙机 Pair2 甲机 -丙机 Pair3 乙机 -丙机 1.150 .775 -3.75 1.163 .838 .900 .411 .296 .318 .178 7.446E-02 -1.128 2.122 1.476 .378 2.798 2.616 -1.178 7 7 7 .027 .035 .277 由表 8-21 表 8-22 和表 8-23 得结果如下 1 甲机与乙机的相关系数 r=0.309 P=0.456>0.05 可认为两配对变量无相关关系 甲机与丙机 r=0.486 P=0.222>0.05 故可认为两配对变量无相关关系 乙机与丙机 r=0.596 P=0.119>0.05 也可认为两配对变量无相关关系 2 对于第一对甲机与乙机 t=2.798 自由度 df=7 双尾检验概率 P=0.027<0.05 故 可认为甲乙机之间有明显差异 对于第二对甲机与丙机 t=2.616 P=0.035<0.05 故也可认 为甲丙机之间有明显差异 对于第三对乙机与丙机 t=-1.178 P=0.277>0.05 故可认为乙丙 机之间的差异不是特别大 若取显著性概率为 70 可以说两者之间是存在差异的 3 甲机与乙机配对数差之均数 =1.150 标准差为 1.163 标准误为 0.411 95%的可信 区间为 0.178 到 2.122 甲机与丙机配对数差之均数 =0.775 标准差为 0.838 标准误为 0.296 可信区间为 0.0745 到 1.476 乙机与丙机配对数差之均数 = 0.375 标准差为 0.900 标准 误为 0.318 可信区间为 -1.128 到 0.378 思 考 题 1 比较单样本 T 检验 独立样本 T 检验和配对样本 T 检验的异同 思考何时何种情 况下该选择何种检验 2 深入理解假设检验的实际意义 3 学会怎样判断检验的显著性有无统计意义 理解检验概率的实际意义 第 9 章 方差分析 导 言 方差分析和回归分析是使用最多的两种统计方法 方差分析是一种定性的统计方法 而回归分析是一种定量的方法 方差分析主要分析各效应的显著性 即方差齐次性 主要 有以下几个内容 单因素方差分析 双因素方差分析 多因素方差分析 协方差分析 多 元方差分析 重复设计方差分析等等 这些方法在现实生活中有着极大的应用范围 方差分析是一套通过试验获取数据并进行分析的统计方法 通过对试验进行精心的 设计 使得在有限的物质条件下 (时间 金钱 人力等 ) 所得到的试验数据能够在尽 可能少的试验中最大限度地包含有用的信息 而 方差分析 就是相应的从试验数据中提 取这种信息的统计分析方法 在科学试验和现代工业质量控制中 这套统计方法得到广泛 的应用 并产生了巨大的效果 9.1 方差分析的基本概念及方差分析过程 9.1.1 方差分析的基本概念 通常 一个复杂的事物 其中往往有许多因素互相制约又互相依存 例如 某农作物 的产量受到选种 施肥 水利等条件的影响 橡胶配方中 不同的促进剂 不同份量的氧 化锌和不同的硫化时间都会影响橡胶制品的质量 反复通过试验或观测 得到一批数据之 后 我们希望基于这批数据来分析一下 哪些因素对该事物有显著影响 有显著影响的因 素 何时效果最好 因素间有没有交互作用 从这些分析中找出事物的主要矛盾 方差分 析就提供解决这类问题的一个有效的统计方法 1923 年 费歇尔 (R.A. Fisher)在一篇文章中首先提出了 方差分析 所以通常认为 他是这一方法的创始人 从此之后 首先是在生物学和农业实验上 其后又在许多科学研 究中 方差分析成为了一种非常有用的统计分析方法 严格讲 方差分析 所分析的并非方差 而是研究数据间的 变异 是在可比较 的群组中 把总的变异按各指定的变异来源进行分解的一种技巧 对变异的度量 可以说 唯一有效的方法是离差平方和 方差分析方法就是从总离差平方和中分解出可追溯到指定 来源的部分离差平方 这是一个很重要的基本思想 1 方差分析原理 (1) 随机误差 例如测量误差造成的差异 称为组内差异 记作 L 组内 (2) 实验条件 即不同的处理造成的差异 称为组间差异 用变量在各组的均值与总 均值之偏差平方和表示 记作 L 组间 L 组间 L 组内 除以各自的自由度得到其均方值即组间均方 MS 组间 和组内均方 /MS 组内 一种情况是处理没有作用 即各样本均来自同一总体 MS 组间 /MS 组内 l 考虑抽样差 的存在 则有 MS 组间 /MS 组内 l 另一种情况是处理确实有作用 组间均方是由于误差与不同处理共同导致的结果 各 样本来自不同总体 那么 组间均方会远远大于组内均方 即 MS 组间 MS 组内 MS 组间 /MS 组内 比值构成 F 分布 用 F 值与其临界值比较 推断各样本是否来自相同的 总体 2 方差分析的假设检验 假设有 m 个样本 如果原假设 H 0 样本均数都相同 即 1 2 3 … m , 则 m 个样本有相同的б 2 则 m 个样本来自具有共同的方差б 2 和相同的均数 的总体 如果经过计算 组间均方远远大于组内均方的 F>F 0.05 f 组间 f 组内 (括号中的两个 f 是 自由度 )则 p<0.05 推翻原假设 说明样本来自不同的正态总体 说明处理造成均值的差异 有统计意义 否则 F<F 0.05 f 组间 f 组内 p>0.05 承认原假设 样本来自相同总体 处理无 作用 9.1.2 方差分析的一些术语 方差分析中的一些常用术语有必要了解 常用的术语有以下几个 1 因素与处理 因素是影响因变量变化的客观条件 处理是影响因变量变化的人为条件 也可以通称 为因素 例如影响农作物产量的因素有气温 降雨量 日照时间等 研究不同肥料对不同 种系农作物产量的影响时 农作物的不同种系可称为因素 所施肥料可视为不同的处理 一般情况下 factors 与 Treatments 在方差分析中可作相同理解 在要求进行方差分析的数 据文件中均作为分类变量出现 即它们的值只有有限个取值 即使是气温 降雨量等平常 看作是连续变量的 在方差分析中如果作为影响产量的因素进行研究 就应该将其数值用 分组定义水平的方法事先变为具有有限个取值的离散变量 2 水平 因素的不同等级称作水平 例如 性别因素在一般情况下只研究两个水平 男 女 化学实验或生物实验中的 剂量 必须离散化为几个有限的水平数 如 1ml 2ml 4ml 三个水平 应该特别注意的是 在 SPSS 数据文件中 作为因素出现的变量不能是字符型 变量 必须是数值型变量 例如性别变量 SEX 定义为数值型 取值为 0 或 l 换句话说 因素变量的值实际上是该变量实际值的代码 代码必须是数值型的 可以定义值标签 F M 或 Female Male 来表明 0 l 两个值的实际含义 以便在阅读方差分析结果时使用 使结果更加具有可读性 3 单元 (Cell) 在方差分析中 Cell 指各因素的水平之间的每个组合 例如研究问题中的因素有性别 Sex 取值为 0 l 有年龄 分三个水平 1 10 岁 2 20 岁 3 30 岁 两个变量的组 合共可形成六个单元 l 1 1 2 l 3 [2 l 2 2 2 3 代表两种性 别与三种年龄的六种组合 4 因素的主效应和因素间的交互效应 这是在科学实验和生产实践中常常遇到的问题 举例说明之 有 A B 两种药物治疗 缺铁性贫血 患者 12 例 分为 4 组 实验方案是 第一组用一般疗法 第二组在一般疗法 的基础上加用 A 药 第三组在一般疗法的基础上加用 B 药 第四组在一般疗法基础上 A B 两药同时使用 一个月后观察红细胞增加数 要求分析两种药物的疗效 (数据见表 9-l 所 示 ) 数据来源于 医用统计方法 (金丕焕 人民卫生出版社 ) 表 9-1 实验数据 第一组 第二组 第三组 第四组 红细胞增加数 百万 /m 3 0.8 1.3 0.9 2.1 0.9 1.2 1.1 2.2 0.7 1.1 1.0 2.0 各组平均值 0.8 1.2 1.0 2.1 这是个双因素方差分析的问题 因素 A 与因素 B 每个因素均有用该药与不用该药两 个水平 研究药物 A 和 B 是否对红细胞的增加有显著影响时 对红细胞增加数的均值作以 下比较 (1) 比较第二组的均值与第一组的均值是否有显著性差异 (2) 比较第三组的均值与第一组的均值是否有显著性差异 前两项研究的是 A B 两因素的主效应 (3) 除了比较第四组的均值与第一组的均值是否有显著性差异外 还要研究 A 药对 B 药 的疗效是否有影响 若 A 药对 B 药疗效无影响 那么除采样误差外 第四组与第二组均值之 差应该等于第三组均值减去第一组均值 但是实际上这两个差分别为 2.1-1.2=0.9 1.0-0.8=0.2 相差 0.7 这 0.7 的差值包括采样误差和 A B 药物的相互作用 这种因素之间的相互作用在统 计学上称为交互效应 如果交互效应存在 则说明两个因素不是相互独立的 此例将在下节 9.1.3 方差分析的应用示例 运用 SPSS 过程详细分析 5 均值比较 均值的相对比较是比较各因素对因变量的效应的大小的相对比较 例如研究 A B 效应之 和是否等于它们的交互效应 或者研究 A B 对红细胞增加数的效应是否相等等情况 例如研究 A B 药物对红细胞增加数的疗效是否存在显著性差异 6 协方差分析 在一般进行方差分析时 要求除研究的因素外应该保证其他条件的一致 作动物实验 往往采用同一胎动物分组给予不同的处理 研究各种处理对研究对象的影响就是这个道理 又如研究身高与体重的关系时要求按性别分别进行分析 这样消除性别因素的影响 不同 年龄的身高对体重的关系也是有区别的 被测对象往往是不同年龄的 要消除年龄的影响 应该采用协方差分析 7 重复测量 在社会学研究中常常遇到的问题是 研究社会某些条件对人类特定方面的特性的影 响 社会调查 数据采集量相当大 往往是在某一个地区采样 100 另一个地区采样 100 两个地区的社会条件对研究对象来说可能是独立的 但同一地区的 100 个个体同处于相同的 社会条件下 彼此并不独立 进行方差分析时修正条件不独立造成的误差 或者比较组间因 素与组内因素的效应 以便得出正确的分析结论 使用重复测量的方差分析 9.1.3 方差分析的应用示例 [例 9-1] 下面对表 9-1 中 A B 药物对红细胞增加数的疗效的实验数据运用 SPSS 进行分析 用数值 1 标识用药 用数值 2 标识不用药 这样 A 药和 B 药都有 1 2 种水平 将表 9-1 转化为如表 9-2 表 9-2 A 和 B 两药治疗后病人红细胞增加数 百万 /m 3 A药 B药 用 1 不用 2 2.1 0.9 2.2 1.1 用 (1) 2.0 1.0 1.3 0.8 1.2 0.9 不用 2 1.1 0.7 设 X 为观测数据变量 变量 A 为使用 A 药状态 变量 B 为使用 B 药状态 建立数据 文件如图 9-1 所示 图 9-1 A B 药物疗效数据文件 为分析 A B 药物的交互效应 使用 General Linear Model(简称 GLM)过程 从 Analyze ? General Linear Model ? Univariate 激活 Univariate 主对话框 如图 9-2 所示 点击靠近 Dependent Variable 栏的向右箭头键 将变量 x 放入该栏 变量 a 和 b 放入 Fixed Factor(s)一栏 如图 9-3 所示 图 9-2 Univariate 主对话框 图 9-3 选好变量的 Univariate 对话框 点击 Options 激活 Options 对话框 把 Factor(s) and Factor Interactions 栏中的所 有因素放入 Display Mean for 栏中 选择 Descriptive statistics Estimates of effect size Observed power Homogeneity tests 和 Spread vs level plot 等 如图 9-4 所示 单击 Continue 按钮 返回主对话框 图 9-4 Options 对话框 点击 Plots 按钮 激活 Profile Plot 对话框 在 Univariate Profile Plot 对话框中 把 Factors 栏的变量 a 放入 Horizontal Axis 栏 变量 b 放入 Separate Lines 栏 点击 Add 按 钮 如图 9-5 所示 再点击 Continue 按钮返回主对话框 图 9-5 Plots 对话框 在 Univariate 主对话框中 单击 OK 按钮提交运行 得到如下几表 表 9-3 各目标因素 因素 水平 N例数 A B 1 2 1 2 6 6 6 6 表 9-4 统计描述 1 1 2 Mean均数 Std. Deviation 标准差 N例数 Total 2 1 1.2000 1.6500 1.0000 1.000E-01 0.5010 0.1000 3 6 3 2 Total Total 1 0.8000 0.9000 1.5500 0.1000 0.1414 0.6091 3 6 6 2 Total 1.0000 1.2750 .2366 .5259 6 12 表 9-5 方差齐性的 Levene 检验 F Df1 第一自由度 Df2 第二 Sig.概率 .000 3 8 1.000 Tests the null hypothesis that the error variance of the dependent variable is equal across groups.检验的无效假设为名交叉组 即各格子 的响应变量的方差相等 a.Design: Intercep+A+B+A*B 模型设计 截距 +因素 A+因素 B+因素 A*B 表 9-6 估计边缘均数 95% Confidence Interval 可信区间 Mean 均数 Std.Error 标准误 Lower Bound 下限 Upper Bound 上限 1.275 .029 1.208 1.342 A Mean Std.Error 95% Confi dence Interval 1 2 1.650 .900 .041 .041 1.556 .806 1.744 .994 95% Confidence Interval B Mean Std. Error Lower Bound Upper Bound 1 2 1.550 1.000 .041 .041 1.456 .906 1.644 1.094 95% Confidence Interval A B Mean Std.Error Lower Bound Upper Bound 1 1 2 2.100 1.200 .058 .058 1.967 1.067 2.233 1.333 2 1 2 1.000 .800 .058 .058 .867 .667 1.133 .933 表 9-7 各目标效应检验 Tests of Between-Subjects Effects Dependent Variable: X 2.963 b 3 .988 98.750 .000 .97 296.250 1.000 19.507 1 19.5 1951 .000 1.0 1950.750 1.000 1.688 1 1.688 168.7 .000 .95 168.750 1.000 .908 1 .908 90.750 .000 .92 90.750 1.000 .368 1 .368 36.750 .000 .82 36.750 .999 8.0E-02 8 .010 22.550 12 3.043 11 Source 变异来源 Corrected Model Intercept A B A * B Error Total Corrected Total Type III Sum of Squares 三类平 方差 df 自 由 度 Mean Squa re均 方 F值 Sig. P值 Eta Squ are d Eta 平 方 Noncent. Parameter 非中心参 数 Obser ved Power 观测 效能 a Computed using alpha = .05计算使用的检验水平为 0.05a. R Squared = .974 (Adjusted R Squared调整 R平方 = .964)b. 下面为 SPSS 的一些统计图 Spread vs. Level Plot of X Groups: A * B Level (Mean) 2.22.01.81.61.41.21.0.8.6 Spread (Variance) .6 .4 .2 -.0 -.2 -.4 -.6 图 9-6 纵坐标为方差的响应变量 X 的散点图 Estimated Marginal Means of X A 21 Estimated Marginal Means 2.2 2.0 1.8 1.6 1.4 1.2 1.0 .8 .6 B 1 2 图 9-7 响应变量 X 的估计边缘均数图 由以上图表 得出结论如下 1 表 9-3 显示 (1) 因素 A 为使用 A 药状态 分 2 个水平 水平 1 为用 A 药 水平 2 为不用 A 药 每个水平有 6 例 (2) 因素 B 为使用 B 药状态 分 2 个水平 水平 1 为用 B 药 水平 2 为不用 B 药 每 个水平有 6 例 2 表 9-4 显示 各个格子和总的均数 标准差和例数 3 表 9-5 显示 方差齐性的 Levene 检验的 P=l 000 按 0 05 检验水准 接受无效 假设 可认为各格子应变量的方差齐同 4 表 9-6 显示 各水平和各格子和总的均数 标准误和 95 可信区间 5 表 9-7 显示 (1) 因素 A F=均方因素 A/均方残差 =168.7 P=0.000 按 0.05 检验水准 拒绝无效假 设 可认为因素 A 效应显著 使用 A 药与不用 A 药之间有显著差异 (2) 因素 B F=均方因素 B/均方残差 =90.750 P=0.000 按 0.05 检验水准 拒绝无效 假设 可认为因素 B 效应显著 使用 B 药与不用 B 药之间有显著差异 (3) 因素 A*B 的交互作用 F=均方因素 A*B/均方残差 =36.750 P=0.000 按 0.05 检验水 准 拒绝无效假设 可认为因素 A*B 的交互效应显著 即 A 药与 B 药存在交互作用 (4) 结合表 9-4 和表 9-6 各格子的均数 当因素 A 和 B 均为水平 1 时 (即 A 和 B 两药同 时使用 ) 均数 =2.l 为最大 当因素 A 为水平 1 和因素 B 为水平 2 时 (即单独使用 A 药 )均数 =1.2 当因素 A 为水平 2 和因素 B 为水平 1 时 (即单独使用 B 药 ) 均数 =1.0 当因素 A 为 水平 2 和因素 B 为水平 2 时 (即不用 A 和 B 两药 ) 均数 =0.8 为最小 由于因素 A 因素 B 和因素 AB 的效应均显著 可以认为 A 和 B 两药同时使用的作用最大 单独使用 A 药的作 用稍大于 B 药 A 和 B 两药不用时作用最小 (5) Eta 平方 Eta 2 A>Eta 2 B>Eta 2 A*B 可认为各因素对总变异的贡献是因素 A 因素 B 因素 A*B 非中心参数 各 F值 其效应自由度 观察效能 观察效能 A l.000 观察效能 B=1.000 观察效能 A*B=0.999 可认为各因素的检验效能均很大 无须增加样本含量 6 图 9-5 和 9-6 显示 均数与标准差或均数与方差均不成比例 提示各格子方差齐同 7 图 9-7 显示 两线不平行 提示因素 A 和因素 B 存在交互作用 9.1.4 方差分析过程 SPSS 10.0 for Windows 提供的方差分析过程有 1 One-Way ANOVA 过程 One-Way ANOVA 过程是单因素简单方差分析过程 它在菜单 Analyze 中的 Compare Means 过程组中 可以进行单因素方差分析 均值多重比较和相对比较 2 General Linear Model 简称 GLM 过程 GLM 过程由 Analyze 菜单直接调用 这些过程可以完成简单的多因素方差分析和 协方差分析 不但可以分析各因素的主效应 还可以分析各因素间的交互效应 该过程允 许指定最高阶次的交互效应 建立包括所有效应的模型 如果想在模型中包括某些特定的 交互效应的模型 就要用到该过程 GLM 过程属于专业统计和高级统计分析过程 在安装时显示的 SPSS 过程表中处于 Adv.stats 组中 如果没有安装这组统计过程 则在 Analyze 菜单中不会显示相应的调用 菜项 General Liner Model 过程可调用四命令 分别完成不同的分析任务 这四个命令均 在主菜单 Analyze 的子菜单 General Linear Models 中 它们的主要功能分别是 (1) Univariate 命令 Univariate 命令调用 GLM 过程完成一般的单因变量 多因素方差分析 可以指定协变 量 即进行协方差分析 在指定模型方面有较大的灵活性并可以提供大量的统计输出 例如 如果以公司四个部门中的两个级别的职工为观察对象 研究生产率刺激机制 可以设计一个因子实验以便检验您感兴趣的假设 由于在新刺激机制引入之前的原生产率 可能对新刺激机制引入之后的生产率的比较发生很大影响 可以把原生产率作为协变量进 行协方差分析 如果想看看协变量效应对两个级别的职工来说是否相同 也可以使用 Univariate 菜单项调用 GLM 过程进行分析 (2) Multivariate 命令 Multivariate 命令调用 GLM 过程进行多因变量的多因素分析 当研究的问题具有两个 或两个以上相关的因变量时 要研究一个或几个因素变量与因变量集之间的关系时 才可 以选用 Multivariate 菜单项调用 GLM 过程 例如 当你研究数学 物理的考试成绩是否与 教学方法 学生性别 以及方法与性别的交互作用有关时 使用此菜单项 如果只有几个 不相关的因变量或只有一个因变量 应该使用 Univariatel 菜单项调用 GLM 过程 (3) Repeated Measures 命令 Repeated Measures 命令调用 GLM 过程进行重复测量方差分析 当一个因变量在同一 课题中在不只一种条件下进行测度 要检验有关因变量均值的假设应该使用该过程 (4) Variance Components 命令 Variance Components 调用 GLM 过程进行方差估计分析 通过计算方差估计值 可以 帮助我们分析如何减小方差 9.2 单因素方差分析 9.2.1 单因素方差分析的基本概念 为了介绍单因素方差分析的概念 先看几个具体例子 [例 1] 设有 m 台机器生产同一种产品 记录下每台日产量 我们发现 不但不同机 器的日产量各不相同 就是同一台机器 n 天中的日产量也不同 要问 这种日产量的差 异 是由于不同机器 (即不同机器的生产能力不同 )造成的呢 还是由于随机波动造成的 这里 要考虑的因素是不同机器的生产能力 [例 2] 对同种原料织成的一批布 用 m 种不同的染整工艺进行处理 然后 从每种 工艺处理的布中各选取几块布样 做缩水试验 结果每块布的缩水率各不同 要问 缩水 率的差异是否主要由处理工艺的不同所造成的 这里要分析的因素是染整工艺 [例 3] 今有 m 个水稻品种 我们要考虑它们在某地区种植对亩产量的影响 以决定 选用最适合该地区种植的优良品种 为此 土地肥力 水利条件等都相同的土地分划成一 些小块 每个品种种植 n 块 这里要分析的是水稻品种这一因素 [例 4] 某灯泡厂用 4 种不同配料方案制成的灯丝 生产了 4 批在每批灯泡中随机地抽 取若干又进行寿命试验 问这 4 种灯丝生产的灯泡的使用寿命有无显著差异 若无显著差 异 我们自然期望选取一种既经济又方便的配料方案 如有显著差异 便选灯泡寿命长的 配料方策 这里要分析的是配料方案这个因素 [例 5] 假定某药物研究者为检验 a b 两种化学物质的抗癌效果 要作动物试验 通 常的作法如下所述 他将一些患有某种癌的白鼠随机地分成三组 其中两组分别注射 a b 两种化学物质 而第三组则不作处理 作为对照 记 第 1 组 注射 a 物质 第 2 组 注射 b 物质 第 3 组 不作处理 (对照 ) 经过一段时间观察后 他得到所有参加试验的白鼠的寿命数据 这是一批分组的数据 假定每组有 J 只白鼠 它们的寿命分别记为 y ij ,j 1,…,J;i 1 2 3. 在这批数据中 第一个下标 i 是组号 第二个下标 j 是组内的编号 通过这批数据 药物研究者想知道 与未使用药物的白鼠相比较 使用药物的白鼠的平均寿命是否有所不 同 以及使用不同药物的白鼠的平均寿命是否有所不同 这种例子很多 在每个问题中都只考查一个因素 故称 单因素方差分析 模型 又 称 单向分类 模型或 一种方式分组 模型 我们也可称 因素 (factor) 为 因子 不妨统一把它们理解为 工艺条件 m 个不 同的工艺条件称为该因素的 m 个 水平 它们是因素的 不同状态 因子的某一水平 可以指一台机器 一个水稻品种 一种染整工艺或一种灯丝配料方案等 在这些分组试验 中 对试验对象所观测记录的变量称为响应变量或因变量 (response) 在从而可以建立一个 统一的数学模型 9.2.2 单因素方差分析的功能与应用 单因素方差分析也称作一维方差分析 它检验由单一因素影响的一个 (或几个相互独立 的 )因变量的各因素水平分组的均值之间的差异是否具有统计意义 它检验由单一因素影响 的几个 (两个以上 )彼此独立的组是否来自均值相同的总体 还可以对该因素的若干水平分 组中哪一组与其他各组均值间具有显著性差异进行分析 即进行均值的多重比较 One-Way ANOVA 过程要求因变量属于正态分布总体 如果因变量的分布明显的是非正态 不能使 用该过程 而应该使用非参分析过程 如果几个因变量之间彼此不独立 应该用 Repeated Measures 命令调用 GLM 过程 9.2.3 单因素方差分析的示例 [例 9-2] 下表 9-8 为某职业病防治院对 31 名石棉矿工中的石棉肺患者 可疑患者和非 患者进行了用力肺活量 (L)测定的数据 问三组石棉矿工的用力肺活量有无差别 表 9-8 三组石棉矿工的用力肺活量 石棉肺患者 1.8 1.4 1.5 2.1 1.9 1.7 1.8 1.9 1.8 1.8 2.0 可疑患者 2.3 2.1 2.1 2.1 2.6 2.5 2.3 2.4 2.4 非患者 2.9 3.2 2.7 2.8 2.7 3.0 3.4 3.0 3.4 3.3 3.5 新建变量 g 标识三种患者 数值 1 标识石棉肺患者 2 标识可疑患者 3 标识非患者 用变量 X 存放测量值 由上表建立数据文件如图 9-8 所示 图 9-8 石棉矿工用力肺活量数据文件 从 Analyze ? Compare Means ? One-Way ANOVA 激活 One-Way ANOVA 单因素方差分析对话框 如图 9-9 所示 将变量 肺活量 [x] 移入 Dependent List 独立列 表栏 将变量 组别 [g] 移入 Factor 栏 如图 9-10 所示 图 9-9 选择前单因素方差分析对话框 图 9-10 选择后单因素方差分析对话框 点击 OK 按钮提交运行 得结果如表 9-9 表 9-9 使用系统默认值的单因素方差分析结果 Sum of Squares df Mean Square F Sig Between Groups Within Groups Total 9.266 1.534 10.800 2 28 30 4.633 5.480E-02 84.54 .000 由上表可知方差来源于两部分 即组间 Between Groups 和组内 Within Groups 其自由 度 (df)分别为 2和 28 总自由度为 30 离差平方和 (Sum of Squares) 组间离差平方和为 9.266 组内离差平方和为 1.534 总的离差平方和为 10.800 均方 (Mean Squares) 组间均方为 4.633 组内均方为 0.0548 F 值为 84.544 P=0.000<0.001 根据以上结果 可以否定无效假设 ,说明三组石棉矿工 (石棉肺患者 可疑患者和非患 者 )的用力肺活量有显著差异 但是以上结果只是表明 总的说来三组石棉矿工的用力肺活量有显著差异 但并不说 明任何两两组间矿工的用力肺活量均有差异 如果要了解具体那两组均数间有差异 就需 要在使用 One-Way ANOVA 进行单因素方差分析时使用选择项 9.2.4 单因素方差分析过程 One-Way ANOVA 单因素方差分析主对话框见图 9-9 图 9-10 在主对话框的右下端 我们发现三个功能按钮 Contrasts 可以指定一种要用 t 检验来检验的 priori 对比 Post Hoc 可以指定一种多重比较检验 Options ,可以指要输出的统计量 指定处理缺失值的方法 点击这些按钮 可激活相应的对话框 然后进行选择 1 Contrasts 对话框 鼠标单击 Contrasts 按钮 可打开 Contrasts 对话框 用来进行均值的多项式比较 如图 9-11 所示 图 9-11 Contrasts 多项式比较对话框 均值的多项式比较是包括两个或更多个均值的比较 例如图 9-11 中显示的是要求计 算 2 mean1 1 mean4 的值 检验的假设 H 0 第一组均值的 2 倍与第四组的均值相等 单因素方差分析的 One-Way ANOVA 过程允许进行高达 5 次的均值多项式比较 多项式的 系数需要由读者自己根据研究的需要输入 具体的操作步骤如下 (1) 选中 Polynomial 复选项 以激活其右面的 Degree 参数框 (2) 单击 Degree 参数框右面的向下箭头展开阶次菜单 可以选择 Linear 线性 Quadratic 二次 Cubic 三次 4th 四次 5th 五次多项式 (3) 为多项式指定各组均值的系数 方法是在 Coefficients 框中输入一个系数 单击 Add 按钮 Coefficients 框中的系数进入下面的方框中 依次输入各组均值的系数 在 方形显示框中形成一列数值 因素变量分为几组 输入几个系数 如果多项式中只包括第 一组与第四组的均值的系数 必须把第二个 第三个系数输入为 0 值 如果只包括第一组 与第二组的均值 则只需要输入前两个系数 第三 四个系数可以不输入 可以同时建立 多个多项式 一个多项式的一组系数输入结束 激活 Next 按钮 单击该按钮后 Coefficients 框中清空 准备接受下一组系数数据 如果认为输入的几组系数中有错误 可以分别单击 Previous 或 Next 按钮 前后翻找出 错的一组数据 单击出错的系数 该系数显示在编辑框中 可以在此进行修改 修改后单 击 Change 按钮 在系数显示框中出现正确的系数值 当在系数显示框中选中一个系数 时 同时激活 Remove 按钮 单击该按钮将选中的系数清除 (4) 单击 Previous 或 Next 按钮显示输入的各组系数 检查无误后 按 Continue 按 钮确认输入的系数并返回到主对话框 要取消刚刚的输入 单击 Cancel 按钮 需要查看系 统的帮助信息 单击 Help 按钮 2 Post Hoc Multiple Comparisons 各组均数的多重比较对话框 在主对话框中 单击 Post Hoc 按钮 展开 Post Hoc Multiple Comparisons 多重比较 对话框 如图 9-12 所示 在该对话框中选择进行均值多重比较的方法 图 9-12 Post Hoc Multiple Comparisons 多重比较对话框 进行多重比较是对每两个组的均值进行如下比较 MEAN(j) MEAN(i) 4.6625 RANGE SORT(1/N(i)+1/N(j)) 其中 j i 分别是组序 号 MEAN(i) MEAN(j)分别是第 i j 组的均值 ;N(i),N(j)分别为第 i j 组中观测量数 各 组间均值的算法不同 RANGE 值也不同 多重比较有如下选择项 (1) 方差具有齐次性时 (Equal variance assumed) 该矩形框中有如下选择方法 z Least-significant difference (LSD)复选项 用 t 检验完成各组均值间的配对比较 对 多重比较误差率不进行调整 z Bonferroni (LSDMOD)复选项 用 t 检验完成各组间均值的配对比较 但通过设置 每个检验前误差率来控制整个误差率 z Sidak 复选项 计算 t 统计量进行多重配对比较 可以调整显著性水平 比 Bonfferroni 方法的界限要小 z Scheffe 复选项 对所有可能的组合进行同步进入的配对比较 这些选择项可以同 时选择若干个 以便比较各种均值比较方法的结果 z R-E-G-W-F(Ryan-Einot-Gabriel-Welsch F)复选项 用 F 检验进行多重比较检验 z R-E-G-W Q(Ryan-Einot-Gabriel-Welsch range test)复选项 正态分布范围进行多重 配对比较 z S-N-K(Student Newman Keuls)复选项 用 Student Range 分布进行所有各组均值 间的配对比较 如果各组样本含量相等或者选择了 Harmonic average of all groups 即用所有各组样本含量的调和平均数进行样本量估计时 还用逐步过程进行齐次 子集 (差异较小的子集 )的均值配对比较 在该比较过程中 各组均值从大到小按顺 序排列 最先比较最末端的差异 z TUKEY(Tukey’s honestly significant difference)复选项 用 Student-Range 统计量进 行所有组间均值的配对比较 用所有配对比较误差率作为实验误差率 z Tukey’s-b 复选项 用 Student- Range 分布进行组间均值的配对比较 其精确值为 前两种检验相应值的平均值 z Duncan(Duncan’s multiple range test)复选项 指定一系列的 Range 值 逐步进行计 算比较得出结论 z Hochberg’s GT2 复选项 用正态最大系数进行多重比较 z Gabriel 复选项 用正态标准系数进行配对比较 在单元数较大时 这种方法较自 由 z Waller-Duncan 复选项 用 t 统计量进行多重比较检验 使用贝叶斯逼近 z Dunnett 复选项 指定此方法进行配对比较 方法是选择最后一组为对照 其他各 组和它比较 选定此方法后 激活下面的 Control Catetory 参数框 展开小菜单 选择对照组 (2) 方差不具有齐次性时 (Equal variance not assumed) 检验各均数间是否有差异的方 法有四种可供选择 z Tamhane’ s T2 复选项 用 t检验进行配对比较 z Dunnett’s T3 复选项 正态分布下的配对比较 z Games Howell 复选项 方差不具齐次性时的配对比较 该方法较灵活 z Dunnett’s C 复选项 正态分布下的配对比较 (3) 显著性水平的输入 在 Significance level 一栏后的矩形框中读者可输入显著性水平 3 Options 输出统计量的选择对话框 在主对话框中 单击 Options 按钮 展开 options 对话框 如图 9-13 所示 这一组 选择项全按选择产生所要求的统计量 并按要求的方式显示这些统计量 在该对话框还可 以选择对缺失值的处理要求 各组选择项的含义如下 (1) Statistics 栏中 输出统计量的选择项 z Descriptive 复选项 要求输出描述统计量 选择此项 会计算并输出 观测量数目 均值 标准差 标准误 最小值 最大值 各组中每个因变量的 95%置信区间 图 9-13 输出统计量对话框 z Homogeneity-of-variance 复选项 要求进行方差齐次性检验 并输出检验结果 用 Levene lest 检验 即计算每个观测量与其组均值之差 然后对这些差值进行一元 方差分析 (2) Means plot 复选项 即均数分布图 根据各组均数描绘出因变量的分布情况 (3) Missing Value 栏中 选择缺失值处理方法 z Exclude cases analysis by analysis 选项 对含有缺失值的观测量根据缺失值是因变 量还是自变量从有关的分析中剔除 z Exclude cases listwise 选项 对含有缺失值的观测量 从所有分析中剔除 以上三组选择项选择完成后 按 Continue 按钮 确认选择返回主对话框 单击 Cancel 按钮作废此次选择 单击 Help 按钮 显示帮助信息 [例 9-3] 对例 9-2 中三组石棉矿工的用力肺活量做两两比较 打开相应的数据文件 单击单因素方差分析主对话框的 Post Hoc 按钮 进入各组 均数的多重比较对话框 在 Equal Variance Assumed 栏中选择 LSD S-N-K Duncan 和 Dunnett 四种方法 如图 9-14 所示 单击 Continue 按钮 返回单因素方差分析主对话框 单击主对话框中 Options 按钮 打开选择输出统计量的对话框 将 Descriptives Homogeneity-of-variance 和 Mean plot 都选上 如图 9-15 所示 单击 Continue 回到主对 话框 图 9-14 选择均数多重比较的对话框 图 9-15 选择输出统计量的对话框 在主对话框中 单击 OK 按钮 提交运行 得结果如下表 9-10 表 9-11 表 9-12 表 9-13 表 9-14 和图 9-16 所示 表 9-10 Descriptives 描述统计量 95% Confidence Interval for Mean N Mean Std.Devia tion Std.Error Lower Bound Minimum Maximum 1 2 3 Total 11 9 11 31 1.791 2.311 3.082 2.400 .020 .183 .293 .600 6.098E-02 6.111E-02 8.823E—02 .108 1.655 2.170 2.885 2.180 1.927 2.452 3.278 2.620 1.4 2.1 2.7 1.4 2.1 2.6 3.5 3.5 表 9-11 单因素方差分析齐次性检验结果 Levene Statistic Df1 Df2 Sig. 2.852 2 28 .075 表 9-12 单因素方差分析结果 ANOVA Sum of Squares df Mean Square F Sig Between Group Within Groups Total 9.266 1.534 10.800 2 28 30 4.633 5.480E-02 84.54 .000 表 9-13 均数多重比较检验结果 95% Confidence Interval (I)组别 J 组别 Mean Difference (I-J) Std. Error Sig. Lower Bound Upper Bound 1 2 3 -.520* -1.291* .105 .100 .000 .000 -.736 -1.495 -.305 -1.086 2 1 3 .520* -.771* .105 .105 .000 .000 .305 -.986 .736 -.555 LSD 3 1 2 1.291* .771* .100 .105 .000 .000 1.086 .555 1.495 .986 1 3 -1.291* .100 .000 -1.524 -1.058 Dunnett t (2-sided)a 2 3 -.771* .105 .000 -1.016 -.525 *. The mean difference is significant at the .05 level a. Dunnett t-tests treat one group as a control, and compare all other groups against it. 表 9-14 均衡性子集 Subset for alpha=.05 组别 N 1 2 3 Student-Newman-keuls 1 2 3 Sig,. 11 9 11 1.791 1.000 2.311 1.000 3.082 1.000 Duncan a,b 1 2 3 Sig, 11 9 11 1.791 1.000 2.311 1.000 3.082 1.000 组别 321 M e a n o f 肺活量 3.2 3.0 2.8 2.6 2.4 2.2 2.0 1.8 1.6 图 9-16 均值散点图 由上述图表 结果分析如下 (1) 表 9-10 为选择了 Options 对话框中的 Descriptives 项所得输出结果 分别有组别 各组例数 (N) 均数 (Mean) 标准差 (Std. Deviation) 标准误 (Std. Error) 均值 95 可信区 间的下限 (LowerBound)和上限 (Upper Bound) 最小值 (Minimum)和最大值 (Maximum) (2) 表 9-11 为单因素方差分析齐次性检验结果 t’值为 2.852 两个自由度分别为 2 和 28 双尾显著性概率为 0.075 因此不拒绝方差齐次的假设 (3) 表 9-12 为单因素方差分析结果 (同表 9-9 的说明 ) (4) 表 9-13 为采用 LSD 法和 Dunnett 法进行均值多重比较的结果 LSD 法是 T 检验完 成值间的两两比较 结果表明两两组间 (l 与 2 1 与 3 2 与 3)的均值均有显著性 Dunnett 法是指定一组作为对照组 然后将其逐个与其他组进行两两比较 本例在图 9-14 中指定后 一组 (Last)作为对照组 (即第 3 组 ) 结果亦表明 1 与 3 组 2 与 3 组间的均值之间差异有 显著性 (5) 表 9-14为均衡性子集 是均值多重比较另一表达形式 采用的是 S-N-K法和 Duncan 法 本例各组的样本含量不等 称之为不平衡数据 样本含量用各组样本含量的倒数的平 均值的倒数来估计 称作调和平均数 (Harmonic Mean) 结果亦表明 1 与 2 组 1 与 3 组 和 2 与 3 组间的均值都有显著性差异 (6) 图 9-16 是以因素变量 组别 为横轴 以独立变量 肺活量 为纵轴而绘制的均 数散点图 可看出各组均数的分布 下面举出一个平衡数据的单因素方差分析的例子 [例 9-4] 设有五种治疗麻疹的药 要比较它们的疗效 假定将 30 个病人分成五组 每 组 6 人 令同组病人使用一种药 并记录下病人从使用药物开始到痊愈所需时间 (天 ) 得 到如下记录 如表 9-15 所示 表 9-15 麻疹治疗的原始数据 药 物 治愈所需天数 1 5 8 7 7 10 8 2 4 6 6 3 5 6 3 6 4 4 5 4 3 4 7 4 6 6 3 5 5 9 3 5 7 7 6 输入数据文件 9-17 所示 以变量 x 记录响应变量的值 变量 g 进行分组变量 图 9-17 麻疹治疗的数据文件 这里的药物是因素 共有五个水平 要检验的无效假设为 所有药物的效果都是没有 差别的 从 Analyze ? Compare Means ? One-Way ANOVA 使变量 治愈所需天 数 [x] 进入 Dependent List 栏 使变量 药物种类 [g] 进入 Factor 栏 鼠标单击 Contrasts 按钮 打开 Contrasts 多项式比较对话框 选择一次多项式比较 各组均值 共指定了两组多项式系数 z 第一组 1.0 mean1 1.0 mean2 1.0 mean3 1.0 mean4 检验药物对治疗的 效果 1 3 药物效应和与 2 4 药物效应和是否有明显差异 z 第二组 1.0 mean1 1.0 mean3 1.0 mean4 1.0 mean5 检验 1 4 药物效应 和与 3 5 药物效应和是否有明显差异 如图 9-18 图 9-19 所示 图 9-18 第一组多项式比较对话框 图 9-19 第二组多项式比较对话框 单击如图 9-19 对话框中的 Continue 按钮 返回主对话框 鼠标点击 Post Hoc 按钮 打开 Post Hoc Multiple Comparisons 对话框 选择多重比 较 z 在 Equal Variance Assumed 栏中选择 LSD Duncan 两种方法 z 在 Equal Variance Not Assumed 栏中 选择 Tamhane’s T2 方法 单击该对话框中 Continue 按钮 返回主对话框 单击 Options 按钮 展开 Options 对话框 选择输出统计量选择项 z 选中 Descriptive 复选项 要求输出描述统计量 z 选中 Homogeneity-of-variance 复选项 作方差齐次性检验 z 选中 Means plot 复选项 作分布图 z 选择 Exclude cases analysis by analysis 项 缺失值仅在特定的分析中剔除 单击 Continue 按钮 返回主对话框 单击主对话框中的 OK 按钮 得到输出结 果如下列图表所示 表 9-16 描述统计量结果分析表 95% Confidence Interval for mean N Mean Std. Deviation Std. Error Lower Bound Upper Bound Minimum Maximum 1 2 3 4 5 Total 6 6 6 6 6 30 7.50 5.00 4.33 5.17 6.17 5.63 1.64 1.26 1.03 1.47 2.04 1.81 .67 .52 .42 .60 .83 .83 5.78 3.67 3.25 3.62 4.02 4.96 9.22 6.33 5.42 6.71 8.31 6.31 5 3 3 3 3 3 10 6 6 7 9 10 表 9-17 方差齐次性检验结果 Levene Statistic df1 df2 sig 552 4 25 .699 表 9-18 单因素分析结果 Sum of Squares df Mean Square F Sig Between Broups Within Groups Total 36.467 58.500 94.967 4 25 29 9.117 2.340 3.896 .014 表 9-19 多项式比较系数 药物种类 Contrast 1 2 3 4 5 1 2 1 1 -1 0 1 -1 -1 1 0 -1 表 9-20 多项式比较结果 Cont Rast Value of Contrast Std. Error t df Sig.(2-tailed) 1.67 2.17 1.25 1.25 1.334 1.735 25 25 .194 .095 Assume equal variances 1 2 Does not assume equal 1 Variances 2 1.67 2.17 1.12 1.30 1.487 1.670 18.094 16.732 .154 .114 表 9-21 多重比较结果 Dependent variable:治愈所需天数 95%confidence Interval (I)药物种类 (J)药物种类 Mean difference(I-J) Std. error Sig. Lower Bound Upper Bound LSD 1 2 3 4 5 2.50* 3.17* 2.33* 1.33 .88 .88 .88 .88 .009 .001 .014 .144 .68 1.35 .51 - .49 4.32 4.99 4.15 3.15 2 1 3 4 5 -2.50 .67 -.17 -1.17 88 .88 .88 .88 .009 .457 .852 .198 . -4.32 -1.15 -1.99 -2.99 -.68 2.49 1.65 .65 续表 95%confidence Interval (I)药物种类 (J)药物种类 Mean difference(I-J) Std. error Sig. Lower Bound Upper Bound 3 1 2 4 5 -3.17 -.67 -.83 -1.83 88 .88 .88 .88 .001 .457 .354 .048 -4.99 -2.49 -2.65 -3.65 -1.35 1.15 .99 -.01 4 1 2 3 5 -2.33* .17 .83 -1.00 88 .88 .88 .88 .014 .852 .354 .268 -4.15 -1.65 -.99 -2.82 -.51 1.99 2.65 .82 5 1 2 3 4 -1.33 1.17 1.83* 1.00 88 .88 .88 .88 .144 .198 .048 .268 -3.15 -.65 .01 -.82 .49 2.99 3.65 2.82 Tamhane 1 2 3 4 5 2.50 3.17* 2.33 1.33 88 .88 .88 .88 .144 .035 .241 .938 -.57 .19 -.89 -2.53 5.57 6.14 5.56 5.20 2 1 3 4 5 -2.50 .67 -.17 -1.17 88 .88 .88 .88 .144 .985 1.00 .955 -5.57 -1.74 -3.01 -4.86 .57 3.07 2.68 2.52 3 1 2 4 5 -3.17* -.67 -.83 -1.83 88 .88 .88 .88 .035 .985 .965 .603 -6.14 - 3.07 -3.53 -5.50 -.19 1.74 1.87 1.83 4 1 2 3 5 -2.33 .17 .83 -1.00 88 .88 .88 .88 .241 1.00 .965 .988 -5.56 -2.68 -1.87 -4.76 .89 3.01 3.53 2.76 5 1 2 3 4 -1.33 1.17 1.83 1.00 88 .88 .88 .88 .938 .955 .603 .988 -5.20 -2.52 -1.83 -2.76 2.53 4.86 5.50 4.76 *.the mean difference is significant at the .05 level. 表 9-22 多重比较齐次性 均衡 子集结果 Subset for alpha=.05 药物种类 N 1 2 Duncan a 3 2 4 5 1 Sig 6 6 6 6 6 4.33 5.00 5.17 6.17 .067 6.17 7.50 .144 Means for groups in homogeneous subsets are displayed. a. Uses Harmonic Mean Sample Size=6.000. 药物种类 54321 M e a n o f 治愈所需天数 8.0 7.5 7.0 6.5 6.0 5.5 5.0 4.5 4.0 图 9-20 均值散点图 由上述图表 结果分析如下 (1) 表 9-16 为选择了 Options 对话框中的 Descriptives 项所得输出结果 分别有组别 各组例数 (N) 均数 (Mean) 标准差 (Std. Deviation) 标准误 (Std. Error) 均值 95 可信区 间的下限 (LowerBound)和上限 (Upper Bound) 最小值 (Minimum)和最大值 (Maximum) (2) 表 9-17 为单因素方差分析齐次性检验结果 t’值为 0.552 两个自由度分别为 4 和 25 双尾显著性概率为 0.699 因此接受方差齐次的假设 (3) 表 9-18 为单因素方差分析结果 离差平方和 (Sum of Squares) 组间离差平方和为 36.467,组内离差平方和为 58.500 总的离差平方和为 94.967 均方 (Mean Squares) 组间均 方为 9.117 组内均方为 2.340 F 值为 3.896 P=0.014<0.05 根据以上结果 可以否定无 效假设 说明五种药物对麻疹的疗效有显著差异 (4) 表 9-19 为多项式比较系数 表中 Contrast 一栏下的 1 和 2 代表第一组多 项式系数和第二组多项式系数 (5) 表 9-20 为多项式比较检验结果 前面 2. 中已接受方差齐次性的假设 所以选 择 Assume equal variances 一项看 从概率值可以看出 Contrast 1 p=0.194>0.05 Contrast 2 p=0.095>0.05 因此 1 3 药物效应和与 2 4 药物效应和无明显差异 1 4 药物效应 和与 3 5 药物效应和无明显差异 (6) 表 9-21 为多重比较的结果 由于在 2. 中已接受方差齐次性的假设 所以不必 考虑 Tamhane 法所得结果 考察 LSD 法所得结果 可以看出 1 与 2 1 与 3 1 与 4 3 与 5 药物之间的差异显著 而 1 与 5 2 与 3 2 与 4 2 与 5 3 与 4 4 与 5 药物之间的差 异不明显 (7) 表 9-22 为多重比较子集结果 是均值多重比较的另一种表达形式 在此过程中运 用 Duncan 法定义了两个齐次性 (均衡 )子集 一是 2 3 4 和 5 药物 二为 1 和 5 药物 属 于同一齐次性子集的药物可认为无明显差异 可见利用 Duncan 法和 LSD 法得到的结论阐 述的内容是不同的 LSD 侧重于两两方差的比较 而 Duncan 从一个子集的概念来说明不 同水平间方差的差异情况 对于第一个齐次性子集 假设 2 3 4 和 5 药物治愈所需天 数样本的方差相等 成立的概率仅为 0.067 略大于 0.05 虽然应接受无效假设 但 2 3 4 和 5 药物治愈所需天数样本的方差并不是很好的均衡 同样 对于第二个齐次性子集 假设 1 和 5 药物治愈所需天数样本的方差相等 成立的概率仅为 0.144 也应接受无效假 设 但大于 0.05 不多 故 1 和 5 药物治愈所需天数样本的方差也并不是很好的均衡 换句 话说 由于所得概率较小 这种齐次性子集的划分并不是十分可靠 (8) 图 9-20 是以因素变量 药物种类 为横轴 以独立变量 治愈所需天数 为纵轴 而绘制的均数散点图 可看出各组均数的分布 9.3 简单方差分析过程 本章要研究的是单响应变量多因素方差分析的 SPSS 实现 特别是单响应变量双因素 方差分析问题 单响应变量多因素方差分析是对一个独立变量是否受一个或多个因素或变 量影响而进行的方差分析 常用的是单响应变量双因素方差分析 基本上都要用到 SPSS 10.0 for Windows 的 Analyze 菜单中 General Linear Model 子菜单中的 Univariate 命令 利用该方差分析过程 可以检验不同组之间的均数受不同因素的影响是否有差异 在这个过程中可以分析每个因素的作用 也可以分析因素之间的交互作用 以及分析协方 差 协方差交互作用和析因实验方差 由于共同用到 Univariate 命令 我们将单响应变 量多因素方差分析 (包括单响应变量双因素方差分析 ) 析因 (有重复数 )实验分析和单因素或 多因素协方差分析统称为简单方差分析 对于协方差分析将另起一节进行论述 9.3.1 双因素方差分析的基本概念 双因素方差分析的基本思路是 如果某一因素的几个因素的几个水平会引起事物的结 果很不同的话 这个因素就很重要的 反之 若一因素的几个水平只是导致事物的结果相 近的话 这个因素就是不重要的 双因素方差分析又分为双因素不重复试验的方差分析和双因素重复试验的方差分析 下面分开阐述 1 双因素不重复试验的方差分析 设对某一问题我们考虑 A B 两个因素 A 有 m 个水平 记为 A 1 A 2 … A m B 有 n 个水平 记为 B 1 B 2 … B n 在每组水平搭配下各作一次试验 得数据 x ij i 1 2 … m j 1 2 … n 全部数据结构如下原始数据表 9-23 表 9-23 双因素不重复试验的方差分析数据结构 B A 1 2 … n 1 X 11 X 12 … X 1n 2 21 X 22 … 2n … … … … … m X m1 X m2 … X mn 因素 A B 的作用可以形象的称为 行作用 和 列作用 假设两因素的影响是可 加的 即 A B 的联合影响可以看成各自影响之和 其中 上式表示无系统偏差 即各水平引起的数据对总平均值 的偏离在求和中相互 抵消 掉了 记 Ex ij = ij = + i + j 这里 是所有 x ij 的均值 ij 的总平均 它是 A B 对指标的总影响中的基本部分 i 是因素 A 的第 i 个水平造成的数据对总平均 的偏离 称为 A i 的效应 即行作用 j 是因素 B 的水平第 j 个水平造成的数据对总平均数 的偏离 称为 B j 的效应 即 列作用 ij 是在因素 B 的水平搭配 A i , B j 下 除去行 列作用外 其他一切人所无法控制 的微小因素 随机因素 的总影响造成的数据对其均值 的偏离 称为随机误差 x ij 全体独立 服从 N ij б 在如上模型下 我们所关心的是 因素的主效应是否显著 假如我们关心 A 因素的主效应是否显著 对此可以检验 H 1 1 2 … m 或者 假如我们所关心的是 B 因素的主效应是否显著 则可以检验假设 H 2 1 2 … n 对上述假设的检验方法与在单因素试验数据的方差分析中所采用的方法类似 就是将 数据的总平方和分成两个因素的离差平方和及误差平方和 S 总 S A S B +S e 其中 S A S B 刻划因素的主效应 S e 刻划随机误差的效应 然后用适当的 F 统计量进行检验 相应的 自由度有关系 f 总 f A f B +f e 2 双因素重复试验的方差分析 在双因素不重复试验的方差分析中 我们假定两因素的联合影响是各因素影响的迭加 (即具有可加性 ) 但在实际问题中 往往两因素之间会有交互作用 比如第 I 台机器和第 j 个人的搭配会使日产量特别高 (或特别低 ) 换句话说 某人特别适合 (或不适合 )在某台机器 上操作 又如 在研究种子和肥料对作物收获量的影响时 分别使亩产量达到最高的种子 品种和肥料种类搭配在一起 可能会使亩产量大幅度提高 也可能使亩产量下降 而看来 ijjiij x εβαμ +++= ),0(,0 2 11 σεβα N ij n j j m i i S ∑∑ == == 不是最好的种子品种和肥料搭配在一起 也可能使亩产量达到最高 为了分析交互作用的 影响是否显著需要对每一对水平组合作重复试验 比如对每一对机器和工人的组合格观察 d 天 得到 d 个日产量 需要进行重复试验有两个方面的缘故 (1) 若无重复试验 交互作用和试验误差将混在一起 无法区分看来 (2) 交互作用也是一种平均现象 比如第 I 台机器和第 j 个工人的搭配会使日产量达到 最高 但由于随机因素的影响 也可能某一天的日产量较低 综上所述 必须进行重复试验 从平均得角度才能使交互作用的效应反映出来 由于上述原因 在条件许可的情况下尽量安排重复试验 以减轻误差的干扰 提高分 析精度 我们现在考虑这样的数学模型 设 行因素 有 m 个水平 列因素 有 n 个水平 在每一对搭配 (i,j)下各作 d 此试 验 其第 k 次试验的观测值为 6,2/),0(, 2 NCONx jiijijijjiijk ∈++++= 分布服从 σεεγβαμ 2 其中 ∑∑∑∑ ==== ==== n j n j ij m i ijj m i i 1111 0γγβα ij 反映的是交互效应 重复试验的数据结构如下表 表 9-24 双因素重复试验的方差分析数据结构 B A 1 j n 1x 111 x 112 … x 11d …x 1j1 x 1j2 … x 1j1d …x 1n1 x 1n2 … x 1nd … iX i11 x i12 … x 1id X ij1 x ij2 … x ijd X in1 x in2 … x ind … mx m11 x m12 … x m1d X mj1 x mj2 … x mjd X mn1 x mn2 … x mnd 要检验的假设为 H 1 1 2 … m H 2 1 2 … n H 3 11 12 … mn 对于双因素重复试验数据的方差分析主要解决对上述三个假设的检验问题 将数据的 总平方和分成两个因素的离差平方和 交互效应的平方和 n 及误差平方和 S 总 S A S B S AB +S e 其中 S A S B 刻划因素的主效应 S AB 刻划因素的交互效应 S e 刻划随机误差的 效应 然后用适当的 F 统计量进行检验 相应的 自由度有关系 f 总 f A f B f AB +f e 9.3.2 双因素方差分析的功能与应用 调用此过程可对完全随机设计资料 配伍设计资料 析因设计资料 正交设计资料等 等进行多因素方差分析或协方差分析 调用该过程时 选择合适的选择项 可以输出统计描述量 估计效应的大小 观察效 能 参数估计值 对照系数矩阵 齐次性检验结果 水平散点图 残差图等等 也可以选 择多项式比较 均值多重比较等功能 9.3.3 双因素方差分析的示例 1 双因素不重复试验的方差分析示例 [例 9-5] 设 A B C3 台机器生产同一产品 4 名工人操作机器 A B C 各一天 得 日产量数据如表 9-25 表 9-25 日产量数据表 工人 机器 1 2 3 4 A 50 47 47 53 B 63 54 57 58 C 52 42 41 48 问机器之间 工人之间在日产量上是否有显著差异 =0.05 ? 以 x 存放日产量数据 引入两个分组变量 a,b 分别标识不同机器和不同工人 对于变 量 a 取值为 1 2 3 时分别标识机器 A B C 变量 b 取值为 1 2 3 4 分别标识工人 1 2 3 4 建立数据文件如图 9-21 所示 选择 Analyze ? General Linear Model ? Univariate 激活单响应变量方差分析 主对话框 (如图 9-22 所示 ) 将变量 日产量 [x] 放入 Dependent Variable 矩形栏中 将变量 机 器因子 [a] 和 工人因子 [b] 放入 Fixed Factor(s)矩形栏中 如图 9-22 所示 在如图 9-23 所示的主对话框中点击 Model 按钮 进入 Model 对话框 (如图 9-24 所 示 ) 选择 Custom 在效应选项中 选择 Main effect 在 Factors &栏中选择 a(F) 和 b(F) 在 Build Term(s)中 单击向右的箭头按钮 把 a(F) 和 b(F) 放入 Model 栏 如图 9-25 所 示 单击 Continue 返回主对话框 图 9-21 日产量数据文件 图 9-22 选择之前的 Univariate 主对话框 图 9-23 选择后的 Univariate 主对话框 图 9-24 选择之前的 Model 对话框 图 9-25 选择之后的 Model 对话框 在主对话框中 点击 Post Hoc 按钮 进入 Post Hoc Multiple Comparisons for Observed Means 对话框 在此对话框中 把 Factor(s)栏中变量 a 和 b 放入 Post Hoc Tests for 栏 在 Equal Variances Assumed 中 选择 S-N-K 法 如图 9-26 所示 单击 Continue 按钮 返 回 Univariate 主对话框 图 9-26 Post Hoc Multiple Comparisons for Observed Means 对话框 在主对话框中 单击 OK 按钮 提交运行 所得结果如表 9-26 表 9-27 表 9-28 表 9-29 所示 表 9-26 Between-Subjects Factors 各目标因素 N 机器 1 2 3 工人 1 因子 2 3 4 4 4 4 3 3 3 3 表 9-27 Tests of Between-Subjects Effects 各目标因素检验 Source Type III Sum of quares Df Mean square F Sig Corrected Model Intercept A B Error Total Corrected Total 433.167 a 31212.000 318.500 114.667 32.833 31678.000 466.000 5 1 2 3 6 12 11 86.633 31212.000 159.250 38.222 5.472 15.831 5703.716 29.102 6.985 .002 .000 .001 .022 a. R Squared =.930 (Adjusted R Squared=.871) 表 9-28 Post Hoc Tests a Post Hoc 检验因素 a Subset 机器因子 N 1 2 3 1 2 Sig. 4 4 4 45.75 49.25 .079 58.00 1.000 Means for groups in homogeneous subsets are display Based on Type III Sum of Squares The eeror term is Mean Square(Error)=5.472. a.Uses Harmonic Mean Sample Size=4.000. b.Alpha=.05. 表 9-29 Post Hoc Tests b Post Hoc 检验因素 b Subset 工人因子 N 1 2 2 3 4 1 Sig 3 3 3 3 47.67 48.33 53.00 .070 53.00 53.00 .335 Means for groups in homogeneous subsets are displayed. Based on Type III Sum of Squares The error term is Mean Square (Error)=5.472. a. Uses Harmonic Mean Sample Size=3.000. b. Alpha=.05. 由上述各表 结果分析如下 z 表 9-26 显示 (1) 分组变量 a 有三个水平 即 机器 A B C 每个水平共有 4 例 (2) 分组变量 b 有四个水平 即 工人 1 2 3 4 每个水平有 3 例 z 表 9-27 显示 (1) 因素 a F 均方 a 因素 /均方残差 29.102 P 0.001 按 0.05 检验水准 拒绝无 效假设 可认为机器之间差异显著 各机器间的日产量全不等或不全等 (2) 因素 b F 均方 b 因素 /均方残差 6.985 P 0.022 按 0.05 检验水准 拒绝无 效假设 可认为工人之间差异显著 各工人间的日产量全不等或不全等 z 表 9-28 显示 (1) 由于本例是无重复数设计 不能求出每个格子的方差 故不能计算方差的齐次性 这里 仅选择 S-N-K 法 进行均数之间的两两比较 (2) 在均衡子集表中 第一均衡子集 (Subset=1 栏 )包含 第三组 (a=3)和第一组 (a=1) 它们的均数分别为 45.75 和 49.25 两均数比较的概率 P 0.079 按 0.05 检验水准 接受 无效假设 可认为机器 C 和 A 日产量的均数之间无明显差异 而机器 B 与它们的差异较 显著 z 表 9-29 显示 (1) 第一均衡子集 (Subset=1 栏中 )包含 第二组 (b=2) 第三组 (b=3)和第四组 (b=4) 它 们的均数分别为 47.67 48.33 和 53.00 三组均数比较的概率为 0.070 按 0.05 检验水准 接受无效假设 可认为工人 2 工人 3 和工人 4 日产量的均数之间无明显差异 (2) 第二均衡子集 (Subset=2 栏中 )包含 第四组 (b=4) 和第一组 (b=1) 它们的均数分 别为 53.00 和 55.00 三组均数比较的概率为 0.335 按 0.05 检验水准 接受无效假设 可 认为工人 4 和工人 1 日产量的均数之间无明显差异 (3) 第一组 (b=1)和第二 三 四 (b=2 3 4)未列在均衡子集表的同一格子中 可以认 为它们均数并非均衡 而是存在显著差异 2 双因素重复试验的方差分析示例 [例 9-6] 续例 9-5 设每个工人在各机器上都生产两天 得日产量如表 9-30 所示 表 9-30 日产量原始数据表 重复试验 工人 机器 1 2 3 4 A 50,52 47,45 47,48 53,50 B 63,58 54,59 57,60 58,49 C 52,57 42,45 41,45 48,45 问 不同机器之间 不同工人之间 机器和工人的不同组合之间是否存在显著差异 ( =0.05) 以 x 存放日产量数据 引入两个分组变量 a,b 分别标识不同机器和不同工人 对于变 量 a 取值为 1 2 3 时分别标识机器 A B C 变量 b 取值为 1 2 3 4 分别标识工人 1 2 3 4 建立数据文件如下图 9-27 所示 图 9-27 重复试验的日产量数据文件 选择从 Analyze ? General Linear Model ? Univariate 激活单响应变量方差 分析主对话框 将变量 日产量 [x] 放入 Dependent Variable 矩形栏中 将变量 机器因 子 [a] 和 工人因子 [b] 放入 Fixed Factor(s)矩形栏中 在主对话框中点击 Model 按钮 进入 Model 对话框 选择 Full factorial 在 Sum of squares 栏中选择 Type 单击 Continue 返回主对话框 在主对话框中 点击 Plot 按钮 激活 Profile plot 对话框 在此对话框中 把 Factors 栏中的 a 放入 Horizontal Axis 栏 把 Factors 栏的变量 b 放入 Separate Lines 栏 单击 Add 按钮 再点击 Continue 按钮返回主对话框 在主对话框中 点击 Post Hoc 按钮 进入 Post Hoc Multiple Comparisons for Observed Means 对话框 在此对话框中 把 Factor(s)栏中变量 a 和 b 放入 Post Hoc Tests for 栏 在 Equal Variances Assumed 中 选择 S-N-K 法 单击 Continue 按钮 返回 Univariate 主对话框 在主对话框中 点击 Options 按钮 进入 Options 对话框 把 Factor(s) and Factor 栏的 OVERALL a b 和 a*b 放入 Display Means for 栏 选择 Descriptive statistics Estimates of effect size Observed power Homogeneity tests 和 Separate Lines 等 单击 Continue 按钮 在主对话框中 单击 OK 按钮 提交运行 所得结果如表 9-31 表 9-32 表 9-33 表 9-34 表 9-35 表 9-36 表 9-37 和图 9-28 图 9-29 图 9-30 所示 表 9-31 Between-Subjects Factors 各目标因素 N 机器 1 2 3 工人 1 因子 2 3 4 8 8 8 8 6 6 6 表 9-32 残差方差分析齐次性的 Levene 检验 F df1 Df2 Sig. .451 11 12 .901 Tests the null hypothesis that the error variance of the dependent variable is equal across groups. a. Design: Intercept+A+B 表 9-33 描述统计量结果 Descriptive Statistics Dependent Variable: 日产量 51.00 1.41 2 46.00 1.41 2 47.50 .71 2 51.50 2.12 2 49.00 2.73 8 60.50 3.54 2 56.50 3.54 2 58.50 2.12 2 53.50 6.36 2 57.25 4.20 8 54.50 3.54 2 43.50 2.12 2 43.00 2.83 2 46.50 2.12 2 46.88 5.33 8 55.33 4.89 6 48.67 6.47 6 49.67 7.31 6 50.50 4.51 6 51.04 6.10 24 工人因子 1 2 3 4 Total 1 2 3 4 Total 1 2 3 4 Total 1 2 3 4 Total 机器因子 1 2 3 Total Mean Std. Deviation N 表 9-34 各目标效应检验 机器因子 工人因子 Mean Std.Deviation N 1 1 2 3 4 Total 51.00 46.00 47.50 51.50 49.00 1.41 1.41 .71 2.12 2.73 2 2 2 2 8 2 1 2 3 4 Total 60.50 56.50 58.50 53.50 57.25 3.54 3.54 2.12 6.36 4.20 2 2 2 2 8 3 1 2 3 4 Total 54.50 43.50 43.00 46.50 46.88 3.54 2.12 2.83 2.12 5.33 2 2 2 2 8 Total 1 2 3 4 Total 55.33 48.67 49.67 49.67 50.50 51.04 4.89 6.47 7.31 4.51 6.10 6 6 6 6 24 a. Computed using alpha=.05 b. R Squared=.873 (Adjusted R Squared=.757) 表 9-35 估计边缘均数 95% Confidence Interval Mean Std.Error Lower Bound Upper Bound 51.042 .614 49.704 52.379 95% Confidence Interval 机器因子 Mean Std.Error Lower Bound Upper Bound 1 2 3 49.000 57.250 46.875 1.063 1.063 1.063 46.684 54.934 44.559 51.316 59.566 49.191 95% Confidence Interval 工人因子 Mean Std.Error Lower Bound Upper Bound 1 2 3 4 55.333 48.667 49.667 50.500 1.228 1.228 1.228 1.228 52.659 45.992 46.992 47.825 58.008 51.341 52.341 53.175 95% Confidence Interval 机器因子 工人因子 Mean Std.Error Lower Bound Upper Bound 1 1 2 3 4 51.000 46.000 47.500 51.500 2.126 2.126 2.126 2.126 46 367 41 367 42 867 46 867 55 633 50 633 52 133 56 133 2 1 2 3 4 60.500 56.500 58.000 53 500 2.126 2.126 2.126 2.126 55 867 51 867 53 867 48 867 65 133 51 133 63 133 58 133 3 1 2 3 4 54 500 43 500 43 000 46 500 2.126 2.126 2.126 2.126 49 867 38 867 38 367 41 867 59 133 48 133 47 633 51 133 表 9-36 Post Hoc Tests a Post Hoc 检验因素 a 之均衡子集 Subset 机器因子 N 1 2 3 1 2 Sig 8 8 8 46.88 49.00 .183 57.25 1.000 Means for groups in homogeneous subsets are display Based on Type III Sum of Squares The error term is Mean Square(Error)=9.042. a. Uses Harmonic Mean Sample Size=8.000. b. Alpha=.05. 表 9-37 Post Hoc Tests b Post Hoc 检验因素 b 之均衡子集 Subset 工人因子 N 1 2 2 3 4 1 Sig 6 6 6 6 48.67 49.67 50.50 .558 55.33 1.000 Means for groups in homogeneous subsets are display Based on Type III Sum of Squares The error term is Mean Square(Error)=9.042. a. Uses Harmonic Mean Sample Size=6.000. b. Alpha=.05. Spread vs. Level Plot of 日产量 Groups: 机器因子 * 工人因子 Level (Mean) 70605040 Spread (Standard Deviation) 7 6 5 4 3 2 1 0 图 9-28 均数为横轴标准差为纵轴的水平散点图 Spread vs. Level Plot of 日产量 Groups: 机器因子 * 工人因子 Level (Mean) 70605040 Spread (Variance) 50 40 30 20 10 0 图 9-29 均数为横轴方差为纵轴的水平散点图 Estimated Marginal Means of 日产量 机器因子 321 Estimated Marginal Means 70 60 50 40 工人因子 1 2 3 4 图 9-30 响应变量 x 的估计边缘均数图 从以上图表 可得出如下结论 z 表 9-31 显示 (1) 因素 机器 分 3 个水平 每个水平有 8 例 (2) 因素 工人 分 4 个水平 每个水平有 6 例 z 表 9-32 显示 方差齐次性的 Levene 检验的 P 0.901 按 0.05 的检验水平 应接 受无效假设 可认为各格子响应变量的残差齐同 z 表 9-33 显示的是描述统计量的计算结果 各个格子和总的均数 标准差和例数 z 表 9-34 显示 (1) 因素 机器 (用 a 标识 ) F=均方因素 机器 /均方残差 =26.576 P=0.000 按 0.05 检验水准 拒绝无效假设 可认为不同机器之间的效应差异显著 (2) 因素 工人 (用 b 标识 ) F=均方因素 工人 /均方残差 =5.805 P=0.011 按 0.05 检验水准 拒绝无效假设 可认为因素 工人 效应差异显著 (3) 因素 a*b 的交互作用 F=均方因素 a*b/均方残差 =1.998 P 0.145 按 0 05 检验 水准 接受无效假设 可认为因素 a*b 的交互效应不显著 即机器与工人之间不存在交互 作用 (4) Eta 平方 Eta 2 a =0.816> Eta 2 b =0.592> Eta 2 a*b =0.500 可认为各因素对总变异的贡献 是因素 机器 >因素 工人 >因素 机器 *因素 工人 非中心参数为各 F 值 其效应自由度 观察能效 对于因素 机器 观察能效 =1.00 可认为因素 机器 的检验效能很大 无须增加样本 对于因素 工人 观察能效 =0.856 可认为因素 工人 的检验效能很 大 无须增加样本 对于因素 机器 *因素 工人 观察能效 =0.499 可认为因素 工 人 的检验效能一般 若增加样本可能会得到不同的显著差异的结果 z 表 9-35 显示 各水平和各格子和总的均数 标准误和 95 可信区间 z 表 9-36 显示 (1) 第一均衡子集 (Subset=1 栏中 )包含 第三组 (a=3)和第一组 (a=1) 它们的均数分别 为 46.88 49.00 两组均数比较的概率为 0.183 按 0.05 检验水准 接受无效假设 可认机 器 C 和机器 A 日产量的均数之间无明显差异 (2) 第二均衡子集 (Subset=2 栏中 )仅包含 第二组 (a=2) 它的均数为 57.25 可认为机 器 B 与机器 A C 之间日产量的均数有明显差异 z 表 9-37 显示 (1) 第一均衡子集 (Subset=1 栏中 )包含 第二组 (b=2) 第三组 (b=3)和第四组 (b=4) 它 们的均数分别为 48.67 49.67 和 50.50 三组均数比较的概率为 0.558 按照 0.05 检验水准 接受无效假设 可认为工人 2 工人 3 和工人 4 日产量的均数之间无明显差异 (2) 第二均衡子集 (Subset=2 栏中 )仅包含 第一组 (b=1) 它的均数为 55.33 可认为工 人 1 与工人 2 3 4 日产量的均数之间有明显差异 z 图 9-28 和 9-29 显示可见 标准差与均数或方差与均数之间无明显的相关关系 各 格子方差齐同 z 图 9-30 显示 1 2 3 条线近似平行 1 4 条线近似平行 提示可认为交互效应 较小或不存在交互效应 9.3.4 双因素方差分析过程 双因素方差分析调用菜单 Analyze 中的子菜单 General Linear Model 的 Univariate 命令 单变量多因素方差分析的功能模块调用步骤为按 Analyze ? General Linear Model ? Univariate 逐一单击鼠标键 最后展开 Univariate 单响应变量多因素方差分析主对话 框 如图 9-2 图 9-3 图 9-22 图 9-23 所示 进入 Univariate 主对话框可以看见左边一个 大矩形框 中间五个小矩形框以及右边六个单击后可弹出子对话框的按钮 最后下面还有 五个按钮 1 主对话框选择项 Dependent Variable 框 因变量移入其中 Fixed Factor(s)框 固定因素栏 放入固定因素 因素水平按要求设定 Random Factor(s)框 随机因素栏 放入随机因素 因素水平是随机样本的各种水平 Covariate(s) 协变量栏 放入协变量 它是一个定量预测变量 可与响应变量一起定 义回归模型 WLS Weight 加权变量栏 放入加权变量作加权最小二乘法 (WLS)分析 如果加权变 量中含有 0 负数或缺失值 这些病例就不加以分析 因为已经用于模型中的变量不能作 为加权变量 Model 按钮 设定模型按钮 激活设定模型对话框 Contrasts 按钮 对照按钮 激活对照对话框 Plots 按钮 绘图按钮 激活绘图对话框 Post Hoc 按钮 激活变量储存对话框 Options 按钮 选择项按钮 激活选择项对话框 OK 按钮 按已选好的选择项提交运行该过程 Paste 按钮 在 SPSS Syntax Editor 中生成该过程的相应命令语句 Reset 按钮 重新设置 Cancel 按钮 取消前次设置 Help 按钮 寻求相应帮助 2 Univariate Model 设定模型对话框 在主对话框中 单击 Model 按钮 展开 Univariate Model 对话框 见图 9-24 图 9-25 所示 (1) 在 Specify Model 栏中 指定模型类型 z Full Factorial 选项 此项为系统默认的模型类型 该项选择建立全模型 全模型包 括所有因素变量的主效应和所有的交互效应 例如有三个因素变量 全模型包括 三个因素变的主效应 两两的交互效应和三个因素的交互效应 选择此项后无需 进行进一步的操作 按 Continue 按钮返回主对话框 z Custom 选项 建立自定义的模型 此项的选择激活其下面各操作框 (2) 建立自定义模型 选择了 Custom 后 在 Factors 框中自动列出可以作为因素变量的变量名 其变量名 后面的括号中标有字母 F 也列出可以作为协变量的变量名 其变量名后面的括号后 标有字母 C 这些变量都是由用户在主对话框中定义的 根据表中列出的变量名建立 模型 z 选择模型中的主效应 鼠标键单击某一个单个的因素变量名 该变量名背景将改变为红色 (一般变为红色 ) 单击 Build Term(s)栏中下面的箭头 该变量出现在 Model 框中 一个变量名占一行称为主 效应项 欲在模型中包括几个主效应项 就进行几次如上的操作 注意 选择主效应必须 选择一个 用箭头按钮送入一个 也可以同时送两个或多个到 Model 框中 z 选择交互效应类型 在 Build Term(s)栏中有一个可下拉的小菜单 单击右面的向下箭头可以展开小菜单 可以看到有如下几项 Main effects 选项 选中此项可以指定主效应 指定主效应也可以使用如前所叙述的方 法 Interaction 选项 选中此项可以指定任意的交互效应 All 2-Way 选项 指定所有 2 维交互效应 All 3-Way 选项 指定所有 3 维交互效应 All 4-Wny 选项 指定所有 4 维交互效应 All 5-Way 选项 指定所有 5 维交互效应 在下拉菜单中用鼠标单击某一项 该项背景改变颜色后下拉菜单收回 选中的交互类 型单项占据矩形框 z 建立模型中的交互项 利用选中的交互效应类型可以建立模型中的交互项了 例如 因素变量有 Light(F) Device(F)和 Target(F) 要求模型中包括变量 light 与 device 的交互效应 相应的操作是在 Factors 框内的变 量表中 用鼠标单击 device 变量使其背景改变颜色 此为选择了交互项之一 再用鼠标单 击 light 变量使其背景改变颜色 此为选择了交互项之二 如图 9-31 所示 单击 Build Term(s) 栏内参数框的箭头按钮 一个交互效应出现在 Model 框中 模型增加了一个交互效应项 device*light 如图 9-32 所示 图 9-31 在 Model 对话框中选中两项交互项 图 9-32 在 Model 对话框中生成交互效应 要求模型中包括三个变量的所有 2 维交互效应项时应该分别用鼠标键单击 light device target 三个变量名 在 Build Terms 栏内参数框中选择 All 2-way 项 单击箭头按钮 在 Model 框中出现三个 2 维交互效应项 device*light light*target device*target 若要求模型中包括所有 3 维效应 由于可以作为因素变量的只有三个变量 因此可以 有两种操作方法 鼠标分三次单击变量 light device target 选择 Build Terms 栏内参数 框中的 Interaction 或 All 3-way 项 再单击箭头按钮 均可以在 Model 框中出现 3 维交互效 应项 device*light*target (3) 选择分解平方和的方法 在对话框的下部有 Sum of squares 后跟一个长矩形框 可以进行四项选择来确定平方 和的分解方法 包括 Type Type Type 和 Type 四种 其中 Type 是系统默认的 也是常用的一种 z Type 选项 分层处理平方和的方法 仅对模型主效应之前的每项进行调整 一 般适用于平衡的 ANOVA 模型和嵌套模型 在前一模型中一阶交互效应前指定主 效应 二阶交互效应前指定一阶交互效应 依次类推 嵌套模型 是指第一效应 嵌套在第二效应里 第二效应嵌套在第三效应里 嵌套的形式可使用语句指定 z Type 选项 对其他所有效应进行调整 一般适用于平衡的 ANOVA 模型 主因 子效应模型 回归模型 嵌套设计 z Type 选项 是系统默认的处理方法 对其他任何效应均进行调整 它的优势是 把所估计剩余常量也考虑到单元频数中 对没有缺失单元格的不平衡模型也适用 一般适用于 Type Type 所列的模型 没有空单元格的平衡和不平衡模型 z Type 选项 没有缺失单元的设计使用此方法对任何效应 F 计算平方和 如果 F 不包含在其他效应里 则 Type Type Type 如果 F 包含在其他效应里 Type 只对 F 的较高水平效应参数作对比 一般适用于 Type Type 所列的模 型 没有空单元的平衡和不平衡模型 (4) 选中 Include Intercept in model 复选项 系统默认 通常截距包括在模型中 如果 能假设数据通过原点 可以不包括截距 即不选择此项 3 Univariate Contrast 对照对话框 在主对话框中 单击 Contrasts 按钮 展开 Univariate Contrasts 对话框 如图 9-33 所示 图 9-33 Univariate Contrasts 对话框 (1) 在 Factors 框中显示出所有在主对话框中选中的因素变量 因素变量名后的括号中 是当前的对比方法 (2) 在 Change Contrast 栏中改变对照方法 z 在 Factors 框中选择想要改变对照方法的因子 即鼠标点击选中的因子 这一操作 便使 Change Contrast 栏中各项被激活 z 单击 Contrast 参数框中的向下箭头 展开对照方法表 用鼠标单击选中的对照方 法 对照表收回 在参数框中显示所选中的对照方法 可供选择的对照方法有 None 选项 不进行均数比较 Deviation 选项 比较预测变量或因素的每个水平的效应 选择 Last 或 First 作为忽略 的水平 Simple 选项 除了作为参考的水平外 对预测变量或因素变量的每一水平都与参考水 平进行比较 选择 Last 或 First 作为参考水平 Difference 选项 对预测变量或因素每一水平的效应 除第一水平以外 都与其前面 各水平的平均效应进行比较 Helmert 选项 对预测变量或因素的效应 除最后一个以外 都与后续的各水平的平 均效应相比较 Repeated 选项 对相邻的水平进行比较 对预测变量或因素的效应 除第一水平以外 对每一水乎都与它前面的水平进行比较 Polynomial 选项 多项式比较 第一级自由度包括线性效应与预测变量或因素水平的 交叉 第二级包括二次效应等 各水平的间隔被假设是均匀的 z 鼠标单击 Change 按钮 选中的 或改变了的 对照方法会显示在 Factors 矩形 框选中的因子变量后面的括号中 z 对照的参考水平有两个 只有选择了 Deviation 或 Simple 方法时才需要选择参考 水平 共有两种可能的选择 最后一个水平 Last 选项和第一水平 First 选项 系统 默认的参考水平是 Last 4 Univariate Profile Plots 形状图对话框 在主对话框中 单击 Plots 按钮 展开 Profile Plots 对话框 如图 9-4 所示 对话框 是为描绘因变量的均数分布而设置的 它可以一个或多个因素变量为参考做因变量的均数 分布图 (1) Factors 框中为在主对话框中所选因素的变量名 (2) Horizontal Axis 横坐标框 Separate Lines 为纵坐标框 Separate Plots 散点框 选择 Factors 框中的变量 单击箭头按钮 将变量名送入相应的坐标轴框中 单击 Add 按钮 将所选因素变量移入下面的 P1ots 框中 (3) 将变量选送到同 plots 框后发现错误 单击选错的变量 单击 Remove 按钮 将 其取消 再重新输入正确内容 在检查无误后 按 Continue 按钮确认 返回到主对话框 如果取消做图 单击 Cancel 按钮 需要查看系统的帮助信息 单击 Help 按钮 5 Univariate Post Hoc Multiple Comparisons for Observed Means 多重比较对话框 在主对话框中 单击 Post Hoc 按钮 展开 Post Hoc Multiple Comparisons for Observed Means 多重比较对话框 如图 9-26 所示 在对话框中选择多重比较方法 参见 9.2.4 节 单 因素方差分析过程 从 Factor(s)框中选择变量 单击箭头键 使被选变量进入 Post Hoc Test for 框 然后选 择多重比较方法 6 Univariate Save 保存运算对话框 在主对话框中 单击 Save 按钮 展开 Univariate Save 对话框 如图 9-34 所示 通过在对话框中的选择 可以将所计算的预测值 残差和检测值作为新的变量保存在编辑 数据文件中 以便在其他统计分析中使用这些值 (1) Predicted Values 预测值栏 z Unstandardizd 复选项 非标准化预测值 z Weight 复选项 如果在主对话框中选择了 WLS(Weighted Least Squares)变量 选 中该复选项 将保存权重非标准化预测值 z Standard error 复选项 预测值的标准误 (2) Diagnostics 诊断值栏 图 9-34 Univariate Save 对话框 z Cook’s distance 复选项 Cook 距离 z Leverage values 复选项 非中心化 Leverage 值 (3) Residuals 残差栏 z Unstandardized 复选项 非标准化残差值 观测值与预测值之差 z Weight 复选项 如果在主对话框中选择了 WLS(Weight Least Squares)变量 选中 该复选项 将保存权重非标准化残差 z Standardized 复选项 标准化残差 又称 Pearson 残差 z Studentized 复选项 学生化残差 z Deleted 复选项 剔除残差 自变量值与校正预测值之差 (4) Save to New File 选中 Coefficient stat 复选项 将参数协方差矩阵保存到一个新文件中 单击 File 按 钮 打开相应的对话框将文件保存 7 Univariate Options 选择输出对话框 在主对话框中 单击 Options 按钮 展开 Univariate Options 对话框 如图 9-3 所示 (1) Estimated Marginal Means 估测边际均值栏 z 在 Factor(s)框中列出主对话框中所指定的因素变量 选定该框中因素变量 单击 移动箭头 将所选定变量复制到 Displav Means for 框中 z 在 Display Means for 框中有主效应变量 选中 Compare main effects 复选项 对主 效应变量进行估测边际均值 z Confidence interval adjustment 参数框 进行多重组间比较 打开下拉菜单 共有 三个选项 LSD(none) Bonferroni Sidak (2) 在 Display 栏中指定要求输出的统计量 z Descriptive statistics 复选项 输出描述统计量 z Estimates of effect size 复选项 效应量估计 选择和不选择此项决定是否显示 F 检 和 t 检验效应的大小 z Observed power 复选项 选中此项必须给出计算功效的显著性水平 Alpha 值 该值应 该在 0.01 到 0.99 之间 选择此项 显示观测功效 系统默认的显著性水平是 0.05 z Parameter estimates 复选项 参数估计 选择此项给出了各因变量与自变量的回归 系数 标准误 t 检验 95 的置信区间 z Transformation matrix 复选项 显示变换系数矩阵或 M 矩阵 z Homogeneity tests 复选项 齐次性检验 z Spread vs. level plot 复选项 绘制观测量均值对标准差对方差的图形 z Residuals plot 复选项 绘制残差图 给出观测值 预测值散点图和观测量数目对 标准化残差的散点图 加上正态和标准化残差的正态概率图 z Lack of fit 复选项 拟合度不足的检验 检查独立变量和非独立变量间的关系是否 被充分描述 z General estimable function 广义估计函数复选项 可以根据一般估计函数自定义假 设检验 对比系数矩阵的行与一般估计函数是线性组合的 (3) 在 Significance level 框中 改变 Confidence intervals 框内多重比较的显著性水平 下面分别举出双因素不重复试验的方差分析和双因素重复试验的方差分析的例子 [例 9-7] 为了研究酵解作用对血糖浓度的影响 随机地选择 8 名健康人 抽取其血糖 并制成血滤液 每个受试者的血滤液又分成 4 份 然后随机地把 4 份血滤液分别置放 0 分 钟 45 分钟 90 分钟 135 分钟 测定其中的血糖浓度 数据如下表 9-38 表 9-38 血糖浓度原始数据表 放 置 时 间 B 0 45 90 135 1 95 95 89 83 2 95 94 88 84 3 106 105 87 90 4 98 97 95 90 5 102 98 97 88 6 112 112 101 94 7 105 103 97 88 受 试 者 编 号 A 8 95 92 90 80 问 放置不同时间的血糖浓度的差别是否显著 ( =0.01) 以变量 x 存放响应变量的观测值 变量 a 标识不同受试者 称为区组变量 a 的数值 与受试者编号相对应 变量 b 标识不同时间 称为分组变量 b=i(i=1 2 3 4)时代表放 置时间为 45 i 1 分钟 建立数据文件如图 9-35 所示 图 9-35 血糖浓度数据文件 选择 Analyze ? General Linear Model ? Univariate 进入 Univariate 主对话框 把变量 x 放入 Dependent 栏 变量 a 放入 Random Factor(s)栏 变量 b 放入 Fixed Factor s 栏 点击 Model 按钮 激活 Model 对话框 在 Model 对话框中选择 Custom 在效应选 项中 选择 Main effect 在 Factor&栏中选择 a(R)和 b(F) 在 Build Term(s)中 单击向右的 箭头按钮 把 a(R)和 b(F)放入 Model 栏中 单击 Continue 按钮返回主对话框 在主对话框中 单击 Post Hoc 按钮 打开 Post Hoc 对话框 在此对话框中 把 Factor(s) 栏中的变量 b 选入 Post Hoc Test for 栏 在 Equal Variance Assumed 中选择 S-N-K 法 单击 Continue 返回 单击 Options 按钮 打开 Options 对话框 把 Factor(s) and Factor Interactions 栏中的 OVERALL b 和 a 选入 Display Mean for 栏中 在 Display 栏中选择 Descriptive Statistics 在 Significance level 栏中输入 0.01 单击 Continue 以返回主对话框 在主对话框中 单击 Plots 打开 Profile Plots 对话框 把变量 a 放入 Horizontal Axis 把变量 b 放入 Separate Lines 栏 单击 Add 按钮 然后单击 Continue 按钮 返回主 对话框 点击 OK 按钮 提交运行该过程 得到结果如表 9-39 到表 9-43 图 9-36 所示 表 9-39 各目标因素 N B 1 2 3 4 A 1 2 3 4 5 6 7 8 8 8 8 8 4 4 4 4 4 4 4 4 表 9-40 各目标检验 Source Type III Sum of squar es df Mean Square F Sig Intercept Hypothesis Error B Hypothesis Error A Hypothesis Error 289750.781 747.469 977.344 175.406 747.469 175.406 1 7 3 21 7 21 289750.8 106.781 a- 325.781 8.353 b 106.781 8.353 b 2713.499 39.003 12.784 .000 .000 .000 a. MS(A) b. MS(Error) 表 9-41 期望均方 Variance Component Source Var(A) Var(Error) Quadratic Trem Intercept B A Error 4.000 .000 4.000 .000 1.000 1.000 1.000 1.000 Intercept, B B a. For each source, the expected mean square equals the sum of the coefficients in the cells times the variance components, plus a quadratic term involving effects in the Quadratic Term cell. b. Expected Mean Squares are based on the Type III Sums of Squares. 表 9-42 估计边缘均数 99% Confidence Interval Mean Std.Error Lower Bound Upper Bound 95.156 .511 93.710 96.603 99% Confidence Interval B Mean Std.Error Lower Bound Upper Bound 1 2 3 4 101.000 99.500 93.000 87.125 1.022 1.022 1.022 1.022 98.107 98.607 90.107 84.232 103.893 102.393 95.893 90.018 99% Confidence Interval A Mean Std.Error Lower Bound Upper Bound 1 2 3 4 5 6 7 8 90.500 90.250 97.000 95.000 96.250 104.750 98.250 89.250 1.445 1.445 1.445 1.445 1.445 1.445 1.445 1.445 86.409 86.159 92.909 90.909 92.159 100.659 94.159 84.159 94.591 94.341 101.091 99.091 100.341 108.841 102.341 92.341 表 9-43 Post Hoc 检验因素 b 之均衡子集 Subset B N 1 2 3 4 3 2 1 Sig 8 8 8 8 87.13 1.00 93.00 1.000 99.50 101.00 .311 Means for groups in homogeneous subsets are displayed. Based on Type III Sum of Squares The error term is Mean Square (Error)=8.353. a. Uses Harmonic Mean Sample Size=8.000. b. Alpha=.01. Estimated Marginal Means of X A 87654321 Estimated Marginal Means 120 110 100 90 80 70 B 1 2 3 4 图 9-36 响应变量散点图 由上述图表 得出结论如下 z 表 9-39 显示 (1) 分组变量 a 有八个水平 即 受试者共有 8 人 每个水平共有 4 例 该因素水平 为随机样本的各种水平 (2) 分组变量 b 有四个水平 即不同的放置时间 每个水平有 8 例 z 表 9-40 显示 (1) 因素 b F=均方 b 因素 /均方残差 =39.003 P=0.000 按 0.01 检验水准 拒绝无效 假设 可认为放置时间之间的差异显著 (2) 因素 a F=均方 a 因素 /均方残差 =12.784 P=0.000 按 0.01 检验水准 拒绝无效 假设 可认为不同受试者之间的差异显著 z 表 9-41 显示 各方差分量的系数和计算期望均方的公式 对于每种来源 期望均 方等于格子系数乘以方差分量 加上二次项格子中涉及效应的二次项的总和 z 表 9-42 显示 各水平与格子和的总的均数 标准误和 95 可信区间 z 表 9-43 显示 (1) 由于本例是无重复数设计 不能求出每个格子的方差 故不能计算方差的齐次性 这里 仅选择 S-N-K 法 进行均数之间的两两比较 (2) 在均衡子集表中 第一均衡子集 (Subset=1 栏 )仅包含第四组 (b=4) 它的均数为 87.13 概率 P=1.000 (3) 第二均衡子集 (Subset=2 栏中 )仅包含 第三组 (b=3) 它的均数为 93.00 概率为 1.000 (4) 第三均衡子集 (Subset=3 栏中 )包含 第二组 (b=2)和第一组 (b=1) 它们的均数分别 为 99.50 和 101.00 两组均数比较的概率为 0.311 按 0.01 检验水准 接受无效假设 可认 为放置时间为 0 分钟和放置时间为 45 分钟的均数之间无明显差异 (5) 第一 二组 (b=1 2)与第三组 (b=3)与第四组 (b 4)未列在均衡子集表的同一格子中 可以认为它们的均数并非均衡 而是存在显著差异 z 图 9-36 响应变量散点图显示 (1) 四条线基本平行 (2) 但第一条和第二条相隔很近 可见它们差别较小 从而暗示第二组 (b=2)和第一组 (b=1)无明显差异 而这两条线和第三条 第四条之间有着明显的距离 从而暗示第一 二 组 (b=1 2)与第三 (b=3) 四组 (b 4)之间存在显著差异 下面举出一个双因素重复试验的方差分析 [例 9-8] 从三个工厂随机抽查一些男女职工的血原卟啉 g/100ml ,数据如下表 9-44 问 各厂男女职工的血原卟啉有无差异 建立工作数据表 变量 x 为观测数据变量 变量 a 为不同工厂 变量 b 为不同性别 如图 9-37 所示 选择 Analyze ? General Linear Model ? Univariate 进入 Univariate 主对话 框 把变量 x 放入 Dependent 栏 变量 a b 放入 Fixed Factor(s)栏 表 9-44 工厂男女职工血原卟啉原始数据表 性 别 工 厂 男 1 女 2 绣品厂 (1) 54.1,31.8,19.1,20.7 36.6,53.4,28.7,27.1,31.8, 21.4,31.8,22.3 电视机厂 (2) 15.0,21.7,21.7,23.3,41.7 35.0,15.0,28.3,36.7 电池厂 (3) 163.9,192.3,183.6,129.4 160.8,160.8,155.6,188.8,129.0, 110.1,90.0,97.9,136.4 图 9-37 工厂男女职工血原卟啉数据文件 点击 Model 按钮 激活 Model 对话框 采用系统默认值选用在 Specify Model 栏中 的 Full factorial 单击 Continue 按钮返回主对话框 在主对话框中 单击 Post Hoc 按钮 打开 Post Hoc 对话框 在此对话框中 把 Factor(s) 栏中的变量 a 选入 Post Hoc Test for 栏 在 Equal Variance Assumed 中选择 S-N-K 法 在 Equal Variance Not Assumed 中选择 Tamhane’s T2 法 单击 Continue 按钮返回主对话框 主对话框中 单击 Options 按钮 打开 Options 对话框 把 Factor(s) and Factor Interactions 栏中的 OVERALL a b 和 a*b 都选入 Display Mean for 栏中 在 Display 栏中选择 Descriptive Statistics Estimates of effect size Observed power Homogeneity tests 和 Spread vs. level plot 等 单击 Continue 返回主对话框 在主对话框中 单击 Plots 打开 Profile Plots 对话框 把变量 a 放入 Horizontal Axis 把变量 b 放入 Separate Lines 栏 单击 Add 按钮 然后单击 Continue 按钮 返回主 对话框 点击 OK 按钮 提交运行该过程 得到结果如表 9-45 到表 9-51 图 9-38 到图 9-40 所示 表 9-45 各目标因素 N 工厂 1 2 3 性别 1 2 12 9 13 13 21 表 9-46 描述统计量结果 工厂 性别 Mean Std. Deviation N 1 1 2 Total 31.200 31.638 31.492 16.089 10.138 11.664 4 8 12 2 1 2 Total 24.680 28.750 26.489 10.038 9.858 9.562 5 4 9 3 1 2 Total 167.300 136.700 146.115 27.920 32.793 33.584 4 9 13 Total 1 2 Total 70.569 76.114 73.994 69.327 58.073 61.637 13 21 34 表 9-47 残差方差齐性的 Levene 检验 F df1 df2 Sig. 3.653 5 28 .011 Tests the null hypothesis that the error varian of the dependent variable is equal across group a. Design: Intercept+A+B+A*B 表 9-48 估计边缘均数 95% Confidence Interval Mean Std.Error Lower Bound Upper Bound 70.045 3.931 61.992 78.097 95% Confidence Interval 工厂 Mean Std.Error Lower Bound Upper Bound 1 2 3 31.419 26.715 152.000 6.631 7.264 6.507 17.836 11.836 138.671 45.002 41.594 165.329 95% Confidence Interval 性别 Mean Std.Error Lower Bound Upper Bound 1 2 74.393 65.696 6.040 5.033 62.021 55.386 85.755 76.006 95% Confidence Interval 工厂 性别 Mean Std.Error Lower Bound Upper Bound 1 1 2 31.200 31.638 10.828 7.657 9.019 15.953 53.381 47.322 2 1 2 24.680 28.750 9.685 10.828 4.841 6.569 44.519 50.931 3 1 2 167.300 136.700 10.828 7.219 145.119 121.913 189.481 151.487 表 9-49 各目标检验结果 Source Type III Sun of Squares Df Mean Square F Sig EtaSquar ed Noncent. Parameter Observe d Power a Corrected Model Ubterceot A B A*B Error Corrected Total Total 112237.742 148910.814 106603.208 573.992 1905.032 13132.537 311524.680 125370.279 5 1 2 1 2 28 34 33 22447.5 148911 53301.6 573.992 952.516 469.019 46.861 317.494 113.645 1.224 2.031 .000 .000 .000 .278 .150 .895 .919 .890 .042 .127 239.303 317.494 227.290 1.224 4.062 1.000 1.000 1.000 .188 .383 a. Computed using alpha=.05 b. R Squared=.895 (Adjusted R Squared=.877) 表 9-50 多重比较结果 95% Confidence Interval (I) 工厂 I 工厂 Mean Difference (I-J) Std.Error Sig. Lower Bound Upper Bound 1 2 3 5.003 -114.624* 9.550 8.670 .648 .000 -7.144 -141.207 17.149 -88.041 2 1 3 -5.003 -119.626* 9.550 9.391 .648 .000 -17.149 -146.135 7.144 -93.118 Tamhane 3 1 2 114.624* 119.626* 8.670 9.391 .000 .000 88.041 93.118 141.207 146.135 Based on observed means. *. The mean difference is significant at the .05 level. 表 9-51 Post Hoc 检验因素 a 之均衡子集 Subset 工厂 N 1 2 Student-Newman-Keuls a 2 1 3 Sig 9 12 13 22.489 31.492 .591 146.115 1.000 Means for groups in homogeneous subsets are displayed. Based on Type III S um of Squares The error term is mean Square (Error)=469.019. a. Uses Harmonic Mean Sample Size=11.055. b. The group sizes are unequal. The harmonic mean of the group sizes is used. Type I error Levels are not guaranteed. c. Alpha=.05. Spread vs. Level Plot of 血原卟啉 Groups: 工厂 * 性别 Level (Mean) 18016014012010080604020 Spread (Standard Deviation) 40 30 20 10 0 图 9-38 以标准差为纵轴的响应变量 x 水平散点图 Spread vs. Level Plot of 血原卟啉 Groups: 工厂 * 性别 Level (Mean) 18016014012010080604020 Spread (Variance) 1200 1000 800 600 400 200 0 图 9-39 以方差为纵轴的响应变量 x 水平散点图 Estimated Marginal Means of 血原卟啉 工厂 321 Estimated Marginal Means 200 100 0 性别 1 2 图 9-40 响应变量 x 的估计边缘均数图 由上述图表可得 z 表 9-45 显示 (1) 因素 a 为不同工厂 分 3 个水平 水平 1 为绣品厂 水平 2 为电视机厂 水平 3 为电池厂 每个水平分别有 12 9 和 13 例 (2) 因素 b 为不同性别 分 2 个水平 水平 1 为男性 水平 2 为女性 每个水平分别 有 13 和 21 例 z 表 9-46 显示 各个格子和总的均数 标准差和例数 z 表 9-47 显示 方差齐性的 Levene 检验的 P=0.011 按 0.05 检验水准 拒绝无效假 设 可认为各格子响应变量的残差方差不齐同 z 表 9-48 显示 各水平和各格子和总的均数 标准误和 95 可信区间 z 表 9-49 显示 (1) 因素 a F=均方 a 因素 /均方残差 =113.645 P=0.000 按 0.05 检验水准 拒绝无效 假设 可认为因素 a 效应显著 不同工厂之间职工的血原卟啉全不等或不全等 (2) 因素 b F=均方 b 因素 /均方残差 =1.224 P=0.278 按 0.05 检验水准 接受无效假 设 可认为因素 b 效应不显著 不同性别之间的职工的血原卟啉相等 (3) 因素 a*b 的交互作用 F=均方 a*b 均方残差 =2.031 P=0.150 按 0.05 检验水准 接受无效假设 可认为因素 A 与因素 B 的交互效应不显著 即工厂与性别间不存在交互效 应 (4) Eta 平方 Eta 2 a >Eta 2 a*b >Eta 2 b 可认为各因素对总变异的贡献是因素 a>因素 a*b> 因素 b 非中心参数 各 F 值 其效应自由度 观察效能 观察效能 a=l.000 可认为因素 A 的检验效能很大 无须增加样本含量 观察效能 b=0.188 观察效能 a*b 0.383 可认为因素 b 和因素 a*b 的检验效能均很小 ,即 使增加样本含量 也难以得出显著差异的结果 z 表 9-50 显示 (1) 由于表 9-47 的结果 认为各个格子方差不齐同 应该选择了 Tamhane’s 法作均数 间两两比较 而不选择 SNK 法 (2) Tamhane’s 法结果显示 第一组与第三组比较 P=0.000 第二组与第三组比较 P=0.000 按 0.05 检验水准 拒绝无效假设 可认为第一组与第三组 第二组与第三组的 均数间均有显著差异 其余均无显著差异 z 由图 9-38 和图 9-39 可见 均数与标准差或均数与方差均近似成比例 z 图 9-40 可见 两线近似平行 提示因素 a 和因素 b 不存在交互作用 9.3.5 单响应变量多因素方差分析实例 有时 影响一个响应变量的因素往往不止一两个 虽然三个或三个以上的因素的方差 分析的基本原理与单因素方差分析 双因素方差分析的是类似的 但这时情况较前者复杂 如对于三因素方差分析 它们的交互效应有二维的 也有三维的 下面举出一个实例 [例 9-9] 下表 9-52 为三因素实验的资料 请用方差分析说明不同基础液与不同血清种 类对钩端螺旋体的培养计数的影响 血清种类 b 兔血清浓度 c 胎盘血清浓度 c 基础液 a 5 8 5 8 缓冲液 648 1246 1398 909 1144 1877 1671 1845 830 853 441 1030 578 669 643 1002 蒸馏水 1763 1241 1381 2421 1447 1883 1896 1926 920 709 848 574 933 1024 1092 742 自来水 580 1026 1026 830 1789 1215 1434 1651 1126 1176 1280 1212 685 546 595 566 定义分组变量名 基础液为 a 血清种类为 c 血清浓度为 c 钩端螺旋体的培养计数 为 x a=1 2 3 分别代表缓冲液 蒸馏水 自来水 b=1 2 分别代表兔血清浓度和胎盘 血清浓度 c=1 2 分别代表 5 和 8 的浓度 按顺序输入相应数值 建立数据文件如图 9-41 所示 图 9-41 钩端螺旋体的培养计数数据文件 从 Analyze ? General Linear Model ? Univariate 进入 Univariate 对话框 将变量 培养计数 [x] 放入 Dependent Variable 栏 把变量 基础液 [a] 血清种类 [b] 和 血清浓度 [c] 放入 Fixed Factor s 栏 点击 Post Hoc 按钮 进入 Post Hoc Multiple Comparisons for Observed Means 对话框 把 Factor s 栏中的变量 a 放入 Post Hoc Tests for 栏 在 Equal Variance s Assumed 栏 中选择 S-N-K 法 点击 Continue 返回主对话框 点击 Options 进入 Options 对话框 把 a b c a*b a*c b*c a*b*c 全放入 Display Mean for 一栏 点击 Continue 返回主对话框 点击 Plots 按钮 将 a 放入 Horizontal Axis 栏 b 放入 Separate Lines 一栏 单击 Add 按钮 则在 Plots 栏中出现 a*b 以相同的方法 在此栏中添加 a*c b*c 返 回主对话框 在主对话框中 单击 OK 按钮 提交运行 得到结果如表 9-53 到表 9-56 和图 9-42 到图 9-44 所示 表9-52 钩端螺旋体的培养计数原始数据表 N 基础 1 液 2 3 血清 1 种类 2 血清 1 浓度 2 16 16 16 24 24 24 24 表 9-54 各目标因素检验 Source Type III Sun of Squares df Mean Square F Si g. Corrected Model Intercept A B C A*B A*C B*C A*B*C Error Total Corrected Total 7928262.562 61474396.688 679967.375 4184873.521 238713.021 705473.042 107005.542 1089922.687 922307.375 2459233.750 71861893.000 10387496.312 11 1 2 1 1 2 2 1 2 36 48 47 720751.142 61474396.69 339983.687 4184873.521 238713.021 352736.521 53502.771 1089922.687 461153.687 68312.049 10.551 899.906 4.977 61.261 3.494 5.164 .783 15.955 6.751 .000 .000 .012 .000 .070 .011 .465 .000 .003 表 9-55 估计边缘均数 Dependent Variable: 培养计数 1 基础液 95% Confidence Interval 基础液 Mean Std.Error Lower Bound Upper Bound 1 2 3 1049.000 1300.000 1046.063 65.341 65.341 65.341 916.481 1167.481 913.544 1181.519 1432.519 1178.581 Dependent Variable: 培养计数 2 血清种类 95% Confidence Interval 血清种类 Mean Std.Error Lower Bound Upper Bound 1 2 3 1426.958 836.417 53.351 53.351 1318.757 728.216 1535.159 944.618 表9-53 各目标因素 Dependent Variable: 培养计数 3 血清浓度 95% Confidence Interval 血清浓度 Mean Std.Error Lower Bound Upper Bound 1 2 3 1061.167 1202.208 53.351 53.351 952.966 1094.007 1169.368 1310.409 Dependent Variable: 培养计数 4 基础液 * 血清种类 95% Confidence Interval 基础液 血清种类 Mean Std.Error Lower Bound Upper Bound 1 1 2 1342.250 755.750 92.407 92.407 1154.840 568.340 1529.660 943.160 2 1 2 1744.750 855.250 92.407 92.407 1557.340 667.840 1932.160 1042.660 3 1 2 1193.875 898.250 92.407 92.407 1006.465 710.840 1381.285 1085.660 Dependent Variable: 培养计数 5 基础液 * 血清浓度 95% Confidence Interval 基础液 血清浓度 Mean Std.Error Lower Bound Upper Bound 1 1 2 919.375 1178.625 92.407 92.407 731.965 991.215 1106.785 1366.035 2 1 2 1232.125 1367.875 92.407 92.407 1044.715 1180.465 1419.535 1555.285 3 1 2 1032.000 1060.125 92.407 92.407 844.590 872.715 1219.410 1247.535 Dependent Variable: 培养计数 6 基础液 * 血清种类 * 血清浓度 95% Confidence Interval 基础液 血清种类 血清浓度 Mean Std.Error Lower Bound Uppder Bound 1 2 2 1050.250 1634.250 130.683 130.683 785.213 1369.213 1315.287 1899.287 1 2 1 788.500 723.000 130.683 130.683 523.463 457.963 1053.537 988.037 2 1 1 2 1701.500 1788.000 130.683 130.683 1436.463 1522.963 1966.537 2053.037 2 1 2 762.750 947.750 130.683 130.683 497.713 682.713 1027.787 1212.787 1 1 2 865.500 1522.250 130.683 130.683 600.463 1257.213 1130.537 1787.287 3 2 1 2 1198.500 598.000 130.683 130.683 933.463 332.963 1463.537 863.037 表 9-56 Post Hoc 检验因素 A 之均衡子集 Subset 基础液 N 1 2 3 1 2 Sig 16 16 16 1046.06 1049.00 .975 1300.00 1.000 Means for groups in homogeneous subsets are displayed. Based on Type III Sum of Squares The error term is Mean Square (Error)=68312.049. a. Uses Harmonic Mean Sample Size=16.000. b. Alpha=.05. Estimated Marginal Means of 培养计数 基础液 321 Estimated Marginal Means 1800 1600 1400 1200 1000 800 600 血清种类 1 2 图 9-42 基础液为横轴血清种类为纵轴的估计边缘均数图 Estimated Marginal Means of 培养计数 基础液 321 Estimated Marginal Means 1400 1300 1200 1100 1000 900 800 血清浓度 1 2 图 9-43 基础液为横轴血清浓度为纵轴的估计边缘均数图 Estimated Marginal Means of 培养计数 血清种类 21 Estimated Marginal Means 1800 1600 1400 1200 1000 800 600 血清浓度 1 2 图 9-44 血清种类为横轴血清浓度为纵轴的估计边缘均数图 由上述图表得出如下结论 z 表 9-53 显示 (1) 因素 a 为不同基础液 分 3 个水平 水平 1 为缓冲液 水平 2 为蒸馏水 水平 3 为自来水 每个水平有 16 例 (2) 因素 b 为不同血清种类 分 2 个水平 水平 1 为兔血清 水平 2 为胎盘血清 每 个水平有 24 例 (3) 因素 c 为不同浓度 分 2 个水平 水平 1 为 5 水平 2 为 8 每个水平为 24 例 z 表 9-54 显示 (1) 因素 a F=均方 a 因素 /均方残差 =4.9775 P=0.012 按 0.05 检验水准 拒绝无效 假设 可认为因素 a 效应显著 不同基础液之间的培养计数全不等或不全等 (2) 因素 b F=均方 b 因素 /均方残差 =61.261 P=0.000 按 0.05 检验水准 拒绝无效 假设 可认为因素 b 效应显著 不同血清种类之间的培养计数不相等 (3) 因素 c F=均方 c 因素 /均方残差 =3.494 P=0.070 按 0.05 检验水准 接受无效假 设 可认为因素 c 效应不显著 不同血清浓度之间的培养计数相等 (4) 因素 a*b 的交互作用 F=均方 a*b 均方残差 =5.162 P=0.011 按 0.05 检验水准 拒绝无效假设 可认为因素 a 与因素 b 的交互效应显著 即基础液与血清种类之间存在交 互效应 (5) 因素 a*c 的交互作用 F=均方 a*c/均方残差 =0.783 P=0.465 按 0.05 检验水准 接受无效假设 可认为因素 a 与因素 c 的交互效应不显著 即基础液与血清浓度之间不存 在交互效应 (6) 因素 b*c 的交互作用 F=均方 b*c/均方残差 =15.955 P=0.000 按 0.05 检验水准 拒绝无效假设 可认为因素 b 与因素 c 的交互效应显著 即血清种类与血清浓度之间存在 交互效应 (7) 因素 a*b*c 的交互作用 F=均方 a*b*c/均方残差 =6.751 P=0.003 按 0.05 检验水 准 拒绝无效假设 可认为因素 a 因素 b 与因素 c 的交互效应显著 即基础液 血清种 类与血清浓度之间存在交互效应 z 表 9-55 显示 各水平和各格子和总的均数 标准误和 95 可信区间 z 表 9-56 (1) 由于本例是三因素非重复试验方差分析 故不能求出每个格子的方差 这里仅选 S-N-K 法进行均数之间的两两比较 (2) S-N-K 法结果显示 对于因素 a Subset=1 栏 第一组与第三组比较 P=0.975 Subset=2 栏 仅有第二组 P=1.000 按 0.05 检验水准 接受无效假设 可认为第一组与 第三组无显著差异 而第二组与第三组 第一组的均数间均有显著差异 z 由图 9-42 可见 两条线在坐标上不平行 暗示基础液与血清种类之间存在交互效 应 z 由图 9-43 可见 两线近似平行 提示因素 a 和因素 c 不存在交互作用 z 由图 9-44 可见 两条线在坐标上相交 暗示血清种类与血清浓度之间存在交互效应 9.4 协方差分析 在进行一般方差分析时 要求除研究的因素外 应该保证其他条件的一致 这就要用 到协方差分析 9.4.1 协方差分析的基本概念 协方差分析是利用线性回归的方法消除混杂因素的影响后进行的方差分析 这是实际 工作中经常要考虑的问题 例如 考虑药物对患者某个生化指标变化的影响 要比较实验 组与对照组该指标变化均值是否有显著性差异以确定药物的有效性 可能要考虑患者病程 的长短 年龄以及原指标水平对疗效的影响 要消除这些因素的影响 考虑药物疗效 即 比较实验组和对照组之间该生化指标变化量均值的差异显著性 才是科学的分析方法 只 有在考虑了这些因素 在测量对象的选择上 使这些条件都一致时 可以使用一般的方差 分析方法 对于动物实验比较容易达到 例如选择同品种 同一胎的大白鼠分组 在相同 的饲养条件下进行实验 可以相应的避免许多混杂的因素的影响 协方差分析从影响因素和协变量的个数分为单因素协方差分析 多因素协方差分析和 多协变量协方差分析等 从试验设计的方式分为完全随机设计协方差分析 随机区组设计 协方差分析和析因协方差分析 9.4.2 协方差分析的功能与应用 协方差分析的功能可用一句话进行概括 消除不可控因素的影响进行方差分析 协方 差用到的 SPSS 过程仍然是菜单 Analyze 中的 General Linear Model 的 Univariate 命令 调用该过程 选择合适的选择项 可以输出统计描述量 估计效应的大小 观察效能 参数估计值 对照系数矩阵 齐次性检验结果 水平散点图 残差图等等 也可以选择多 项式比较 均值多重比较等功能 9.4.3 单因素协方差分析 单因素协方差分析是协方差中最简单的一种模型 先从它讲起 在这个基础上对更复 杂的模型就不难理解了 下面举出一个完全随机设计的例子 [例 9-10] 比较三种猪饲料 A1 A2 A3 对猪催肥的效果测得每头猪增加的重量 (y)和 初始重量 (z) 数据如表 9-57 所示 表 9-57 催肥效果原始数据表 z 1513111212161417A1 y 8583657680918490 z 1716181821221918A2 y 97 90 100 95 103 106 99 94 z 2224202325273032A3 y 89 91 83 95 100 102 105 110 问三种饲料对猪的催肥有无显著的不同 首先建立数据文件如图 5-45 所示 变量 y 为猪的增加重量 (kg) 变量 z 为猪的初始重 量 (kg),分组变量为 g,g=1 2 3 分别代表 A1 A2 A3 种饲料 为了便于对比 先不考虑初始重量 z 的影响 对变量 y 和分组变量 g 作单因素方差分 析 然后 以变量 z 为协变量 进行协方差分析 图 9-45 催肥效果数据文件 1 不考虑协变量 z 而进行单因素方差分析 从 Analyze ? Compare Means ? One-Way ANOVA 进入单因素方差分析主 对话框 将变量 增加重量 [y] 放入 Dependent List 栏 将 分组变量 [z] 放入 Factor 栏 单击 Post Hoc 按钮 进入均数多重比较对话框 选择 LSD 和 S-N-K 两种方法 单 击 Continue 返回主对话框 单击 Options 进入 Options 对话框 选择 Descriptive 和 Homogeneity-of-variance 以返回主对话框 点击 OK 按钮 提交运行程序 得到结果如表 9-58 到表 9-62 所示 表 9-58 描述统计量结果 95% Confidence Interval for Mean N Mean Std.Deviation Std.Error Mini mum Maxi mum 1 2 3 Total 8 8 8 24 81.75 98.00 96.88 92.21 8.35 5.13 9.00 10.54 2.95 1.81 3.18 2.15 74.77 93.71 89.35 87.76 88.73 102.29 104.40 96.66 65 90 83 65 91 106 110 110 表 9-59 方差分析齐次性检验 Levene Statistic df1 df2 Sig. 1.276 2 21 .300 表 9-60 单因素方差分析结果 Sum of Squares df Mean F Sig Between Groups Within Groups Total 1317.583 1238.375 2555.958 2 21 23 658.792 58.970 11.172 .000 表 9-61 均数多重比较检验结果 95% Confidence Interval (I)分组变量 J 分组变量 Mean Difference(I-J) Std.Error Sig. Lower Bound Upper Bound LSD 1 2 3 -16.25* -15.13* 3.84 3.84 .000 .001 -24.23 -23.11 -8.27 -7.14 2 1 3 16.25* 1.13* 3.84 3.84 .000 .772 8.27 -6.86 24.23 9.11 3 1 2 15.13* -1.13* 3.84 3.84 .001 .772 7.14 -9.11 23.11 6.86 *.The mean difference is significant at the .05 level. 表 9-62 均衡子集 Subset for alpha=.05 分组变量 N 1 2 Student-Newman-Keulsa 1 3 2 Sig 8 8 8 81.75 1.000 96.88 98.00 .772 Means for groups is homogeneous subsets are displayed. a. Uses Harmonic Mean Sample Size=8.000. 2 考虑协变量 z 进行单因素协方差分析 从 Analyze ? General Linear Model ? Univariate 打开 Univariate 主对话框 把 增加重量 [y] 放入 Dependent Variable 栏 把 分组变量 [g] 放入 Fixed Fator(s)栏中 把 初始重量 [z] 放入 Covariate(s)栏中 如图 9-46 所示 打开 Options 对话框 选择 Descriptive Statistics Parameter estimates 和 Homogeneity tests 在 Factor(s)and Factor 栏中选择分组变量 g 放入 Display Mean for 栏 单击 Continue 返回主对话框 图 9-46 选择协变量的 Univariate 主对话框 单击 OK 按钮 提交运行 得到结果如表 9-63 到表 9-68 所示 表 9-63 各目标因素 N 分组 1 变量 2 3 8 8 8 表 9-64 描述统计量结果 分组变量 Mean Std.Deviation N 1 2 3 Total 81.75 98.00 96.88 92.21 8.35 5.13 9.00 10.54 8 8 8 24 表 9-65 残差方差齐次性的 Levene 检验 F df1 df2 Sig. .747 2 21 .486 Tests the null hypothesis that the error variance of the dependent variable is equal across groups. a. Design: Intercept+Z+G 表 9-66 各目标检验结果 Source Type III Sum of squares df Mean square F Sig. Corrected Model Intercept Z G Error Total Corrected Total 2328.344 a 980.448 1010.760 707.219 227.615 206613.000 2555.958 3 1 1 2 20 24 23 776.115 980.448 1010.760 353.609 11.381 68.196 86.150 88.813 31.071 .000 .000 .000 .000 a. R Squared=.911(Adjusted R Squared(调整 R 平方 )=.898) 表 9-67 参数估计 95% Confidence Interval Parameter B Std.Error T Sig. Lower Bound Upper Bound Intercept Z [G=1] [G=2] [G=3] 35.935 2.402 12.793 17.336 6.575 .255 3.409 2.409 5.465 9.424 3.753 7.196 .000 .000 .001 .000 22.219 1.870 5.682 12.310 49.651 2.933 19.904 22.361 a. This parameter is set to zero because it is redundant.由于 g=3 是多余项 该参数设为 0 表 9-68 估计边缘均数 95% Confidence Interval 分组变量 Mean Std.Error Lower Bound Upper Bound 1 2 3 94.959 a 99.501 a 82.165 a 1.840 1.203 1.964 91.120 96.991 78.068 98.798 102.011 86.263 a. Evaluated at covariates appeared in the model:初始重量 =19.25 通过模型中协变量估计调整均数 协变量 Z 的总均数等于 19.25 对上述表 9-58 到表 9-68 所得结果进行分析 得出如下结论 z 表 9-63 显示 因素 g 为分组变量 分 3 个水平 每个水平有 8 例 z 表 9-64 显示 各个格子和总的均数 标准差和例数 与表 9-58 相同 z 表 9-65 显示 残差方差检验结果 P=0.486 按 0.05 的水平检验 应接受假设 即认为各水平下响应变量 y 的残差方差齐同 相对于表 9-53 P=0.300 也应接受 方差齐性的假设 z 表 9-66 显示 各目标检验结果 协变量 z F=均方协变量 z/均方残差 =88.813 P=0.000 按 0.05 的检验水平 拒绝无 效假设 可认为回归效应显著 协变量 z 和响应变量 y 之间存在线性关系 利用 Analyze 的 Correlate 中的 Bivariate 命令 计算得到相关系数为 0.796 双尾检验的概率为 0.000 具有统计意义 初始重量 z 对猪的催肥有相当的影响 则初始重量与饲料的效应就会混杂 在一起 因而不考虑协变量 z 进行单因素方差分析时 表 9-58 到表 9-62 得出的一些结论 是不科学的 分组变量 g F=均方协变量 z/均方残差 =31.071 P=0.000 按 0.05 的检验水平拒绝无 效假设 可认为各水平 (不同饲料 )之间对催肥效果差异显著 由表 9-61 均数多重比较结果显示 A1 饲料和 A2 饲料 A1 饲料和 A3 饲料之间的差 异不显著 A2 和 A3 之间的差异显著 由表 9-62 均衡子集显示 在 Subset=1 栏中仅有 g=1(即饲料 A1) P=1.000 在 Subset=2 栏中有 g=3 和 g=2(饲料 A3 和饲料 A2) P=0.772 说明 A2 和 A3 饲料之间无 差异 z 表 9-67 显示 公共回归系数 B C =2.402 标准误 SE BC =0.255 P=0.000 按 0.05 的检验水平 拒绝无效假设 可认为公共回归系数不为 0 其可信区间为 1.872 到 2.933 z 表 9-68 显示各水平调整均数和 95 的可信区间 水平 2 的调整均数为 99.501> 水平 1 的调整均数 94.959> 水平 3 的调整均数 82.165 可见饲料 A2 优于 A1 A1 优于 A3 而由不考虑协变量 z 进行的单因素方差分析的表 9-58 可见 水平 2 的均数为 98.00 水平 3 的均数为 96.88 水平 1 的均数为 81.75 可以得出饲料 A2 优于 A3 A3 优于 A1 因此 我们可以发现 不考虑协变量 z 的单因素方差 分析和考虑协变量 z 的单因素方差分析之间结果的差异 显然 后者得出的结论 更为科学和准确 9.4.4 多因素协方差分析 如果在多因素试验中 有两个或两个以上的因素不能控制 而这些因素对试验又有影 响 解决这一类问题的思想和单因素一样 [例 9-11] 为无重复试验的多因素协方差分析 也为随机区组设计的协方差分析 [例 9-11] 在 核黄素缺乏对于蛋白质利用的影响之研究 中 将体重相近 (34-38 克 ) 出生三周的大白鼠 36 只 按照窝别 性别等条件分成 12 窝 每窝 3 只 随机分到核黄素 缺乏组 (1) 限食量组 (2)和不限食量组 (3)进行喂养 观察记录数据如下表 9-69 所示 建立数据文件 如图 9-47 所示 协变量 x 为食物消耗量 响应变量 y 为大白鼠的体重 因素 a 为不同饲料组 因素 b 为窝别 选择 Analyze ? General Linear Model ? Univariate 进入主对话框 把响应 变量 y放入 Dependent Variable栏 因素 a放入 Fixed Factor(s)栏 因素 b放入 Random Factor(s) 栏 协变量 x 放入 Covariate(s)栏中 如图 9-48 所示 单击 Model 按钮 打开 Model 对话框 在此对话框中选择 Custom 项 在效应选项 中 选择 Main effect 在 Factors &栏中选择 a(F) b(R)和 x(C) 在 Build Term(s)中单击向 右的箭头按钮 把 a(F) b(R)和 x(C)放入 Model 栏中 如图 9-49 所示 单击 Continue 按钮返回主对话框 表 9-69 不同饲料对体重增长影响的原始数据 x 256.9 271.6 210.2 300.1 262.2 304.4 272.4 248.2 242.8 342.9 356.9 198.2 缺乏组 y 27.0 41.7 25.0 52.0 14.5 48.8 48.0 9.5 37.0 56.5 76.0 9.2 x 260.3 371.1 214.7 300.1 269.7 307.5 278.9 256.2 240.8 340.7 356.3 199.2 限 食 量 组 y 32.0 47.7 36.7 65.0 39.0 37.9 51.5 26.7 41.0 61.3 102.1 8.1 x 544.7 481.2 418.9 556.6 394.5 426.6 416.1 549.9 580.5 608.3 559.6 371.9 不限食 量 组 y 160.3 96.1 114.6 134.8 76.3 72.8 99.4 133.7 147.0 165.8 169.8 54.3 图 9-47 不同饲料对体重增长影响的数据文件 图 9-48 选择好各变量后的主对话框 图 9-49 Model 对话框 在主对话框中 单击 Options 按钮 打开 Options 对话框 在此对话框中 选择 Parameter estimates 在 Factor(s) and Factor 栏中选择因素 a 放入 Display Means for 栏 选择 Compare main effects 单击 Continue 按钮返回主对话框 在主对话框中 单击 OK 按钮 提交运行该过程 得到结果如表 9-70 到表 9-76 所 示 表 9-70 各目标因素 Between-Subjects Factors N 不同 1 12 饲料 2 12 组 3 12 窝别 1 3 2 3 3 3 4 3 5 3 6 3 7 3 8 3 9 3 10 3 11 3 12 3 表 9-71 各目标因素检验 Source Type III Sum of squares df Mean Square F Sig Intercept Hypothesis Error A Hypothesis Error B Hypothesis Error X Hypothesis Error 1691.054 2409.854 469.157 2233.139 3761.319 2233.139 6175.031 2233.139 1 22.216 2 21 11 21 1 21 1691.054 108.474 a 234.578 106.340 b 341.938 106.340 b 6175.031 106.340 b 15.6 2.206 3.216 58.1 .001 .135 .010 .000 a. 90.058E-3MS(B)+.991 MS(Error)(0.009058 因素 b 均方 +0.991 歹 .差均方 ) b. MS(Error) 表 9-72 期望均方 Variance Component Source Var(B) Var(Error) Quadratic Term Intercept A B X Error 2.544E-02 .000 2.808 .000 .000 1.000 1.000 1.000 1.000 1.000 Intercept,A A X a. For each source, the expected mean square equals the sum of the coefficients in the cells times the variance components, plus a quadratic term involving effects in the Quadratic Term cell.(对于每种 来源 期望均方等于格子系数乘以方差分量 加上二次项格子中涉及效应的二次项的总和 ) b. Expected Mean Squares are based on the Type III Sums of Squares. (期望均方计算基于三类平方和 ) 表 9-73 参数估计 95% Confidence Interval Parameter B Std.Error t Sig. Lower Bound Upper Bound Intercept [A=1] [A=2] [A=3] [B=1] [B=2] [B=3] [B=4] [B=5] [B=6] -89.111 8.371 16.043 0 a 9.358 3.270 24.747 7.258 -2.010 7.386 22.527 12.540 . 9.913 9.572 8.525 10.905 8.876 9.699 9.135 -3.956 .668 1.292 . .944 .342 2.903 .666 -.226 -.762 .001 .512 . .944 .342 2.903 .666 -.226 -.762 1.690 -135.960 -17.707 -9.784 . -11.258 -16.636 7.019 -15.420 -20.469 -27.557 -42.263 34.449 41.870 . 29.974 23.176 42.475 29.936 16.450 12.784 续表 95% Confidence Interval Parameter B Std.Error t Sig. Lower Bound Upper Bound [B=7] [B=8] [B=9] [B=10] [B=11] [B=12] X [B=1] -2.010 -7.368 15.436 -6.073 10.958 -.553 23.483 0 a .409 9.842 9.934 12.579 12.328 . .054 1.690 -.617 1.103 -.044 1.905 . 7.620 -.617 1.103 -.044 1.905 . 7.620 -3.561 -26.541 -9.701 -26.713 -2.154 . .297 34.433 14.395 31.617 25.607 49.120 . .520 a. This parameter is set to zero because it is redundant.(由于 A=3 和 B=12 是多余的项 这些参数设为 0) 表 9-74 估计边缘均数 95% Confidence Interval 不同饮料组 Mean Std.Error Lower Bound Upper Bound 1 2 3 67.430 a 75.102 a 59.059 a 4.970 4.868 8.379 57.094 64.989 41.635 77.766 85.226 76.484 a. Evaluated at covariates appeared in the model:食物消耗量 =346.419 通过模型 协变量估计调整均数 协变量 X 的总均数 =346.419 表 9-75 两两比较 95% Confidence Interval for Difference a (I)不同饮料组 (J)不同饮料组 Mean Difference(I-J) Std. Error Sig. a Lower Bound Upper Bound 1 2 3 -7.672 8.371 4.212 12.540 .083 .512 -16.431 -17.707 1.087 34.449 2 1 3 7.672 16.043 4.212 12.419 .083 .210 -1.087 -9.784 16.431 41.871 3 1 2 -8.371 -16.043 12.540 12.419 .512 .210 -34.449 -41.870 17.707 9.784 Based on estimated marginal means a.Adjustment for multiple comparisons:Leatst significant Difference (equivalent to no adjustments) 调整均数的多数比较 最小显著差异法该检验过程与调整时 - 表 9-76 单变量检验 Sum of Squares df Mean Square F Sig. Contrast Error 469.157 2233.139 2 21 234.578 106.340 2.206 .135 The F tests the effect of 不同饲料组 This test is based on the Linearly independent pairwise comparisons among the estimated marginal means(因素 A 效应的 F 检验 这种检验是基 于线性独立 估计边缘间均数的两两比较 即总的调整均数间检验 ). 由上述图表 得到如下结论 z 表 9-70 显示 因素 a 为分组变量 分 3 个水平 即 核黄素缺乏组 (1) 限食量组 (2)和不限食 (3) 每 个水平有 12 例 因素 b 为区组变量 分 12 个水平 每个水平有 3 例 z 表 9-71 显示 因素 a F=均方因素 a/均方残差 =2.206 P=0.135 按 0.05 检验水准 接受无效假设 可认为调整均数间差异不显著 用不同饲料饲养对大白鼠的体重增长无统计学意义 因素 b F=均方因素 a/均方残差 =3.216 P=0.010 可认为因素 b 效应显著 各区组变 异不容忽略 协变量 x F=均方因素 a/均方残差 =65.277 P=0.000 按 0.05 的检验水准 拒绝无效假 设 可认为回归效应显著 协变量 x 与响应变量 y 存在线性关系 z 表 9-72 显示 各方差分量的系数和计算期望均方的公式 z 表 9-73 显示公共回归系数 B C =0.409 SE BC =0.054 P=0.000 按 0.05 检验水准 拒绝无效假设 可认为公共回归系数不为 0 其 95 可信区间为 0.297 到 0.520 z 表 9-74 显示各水平调整均数和 95 可信区间 核黄素缺乏组 =67.430 95 可信区间为 =[57.094 77.766] 限食量组 =75.102 95 可信区间 =[64.979 85.2261] 不限食量组 =59.059 95 可信区间 =[41.635 76.484] z 表 9-75 显示采用 LSD 法进行各调整间均数两两比较 核黄素缺乏组 (l) 限食量组 (2)和不限食量组 (3) 各调整均数间两两比较的 P 值均 >0.05 按 0.05 检验水准 接受无效假设 可认为各调整均数间两两比较均无显著差异 z 表 9-76 显示因素 a 效应检验 F=均方对比 /均方残差 =2.206 P=0.135 按 0.05 检 验的水准 接受无效假设 可认为总的调整均数间差异不显著 该结果与表 9-71 的因素 a 检验一致 [例 9-12] 为重复试验的多因素协方差分析 [例 9-12] 考察合成纤维总对纤维弹性有影响的两个因素 收缩率 a 和总拉伸倍数 b a b 各取四个水平 整个试验重复两次 后来发现在试验过程中电流周波 (z)在变化 根据生 产记录 数据如下表 9-77 所示 (y 表示弹性 ) 表 9-77 弹性 电流周波原始数据 因素 a 收缩率 0(a=1) 4(a=2) 8(a=3) 12(a=4) 460(b=1) z y 49.0 71 49.2 73 49.8 73 49.8 75 49.9 76 49.8 73 49.7 75 49.8 73 520(b=2) z y 49.5 72 49.3 73 49.9 76 49.8 74 50.2 79 50.1 77 49.4 73 49.4 72 580(b=3) z y 49.7 75 49.5 73 50.1 78 50.0 77 49.7 74 50.0 75 49.5 70 49.6 71 因 素 b: 总 拉 伸 倍 数 640(b=4) z y 49.9 77 49.7 75 49.6 74 49.3 74 49.5 74 49.2 73 49.0 69 48.9 69 以上表建立数据文件如下图 9-50 所示 图 9-50 弹性 电流周波数据文件 在主对话框中 单击 Options 按钮 打开 Options 对话框 在此对话框中 选择 Homogeneity tests Observed power 和 Parameter estimates 在 Factor(s) and Factor 栏中选择 因素 a b a*b 放入 Display Means for 栏 选择 Compare main effects 单击 Continue 按钮返回主对话框 在主对话框中 单击 OK 按钮 提交运行该过程 得到的结果如表 9-78 到表 9-86 所示 表 9-78 各目标因素 N 收缩率 1 2 3 4 总拉伸倍数 1 2 3 4 8 8 8 8 8 8 8 8 表 9-79 各目标效应检验 Source Type Df Mean Square F Sig. Noncent.Par ameter Observed Power a Corrected Model Intercept Z A B A*B Error Total Corrected Total 164.009 b 2.421 5.290 12.948 2.324 18.578 16.210 174673.000 180.210 16 1 1 3 3 9 15 32 31 10.251 2.421 5.290 4.316 .775 2.064 1.081 9.485 2.240 4.895 3.994 .717 1.910 .000 .155 .043 .028 .557 .129 151.766 2.240 4.895 11.982 2.151 17.191 1.000 .289 .544 .723 .167 .593 a. Computed using alpha=.05 b. R Squared=.910(Adjusted R Squared=.814) 表 9-80 参数估计 95% Confidence Interval Parameter B Std.Error t Sig. Lower Bound Upper Bound Noncent. Parameter Observe dpower a Intercept Z [A=1] [A=2] [A=3] [A=4] [B=1] [B=2] [B=3] [B=4] [A=1] *[B=1] [A=1] *[B=2] [A=1] *[B=3] [A=1] *[B=4] [A=2] *[B=1] [A=2] *[B=2] [A=2] *[B=3] [A=2] *[B=4] [A=3] *[B=1] [A=3] *[B=2] [A=3] *[B=3] [A=3] *[B=4] [A=4] *[B=1] [A=4] *[B=2] [A=4] *[B=3] [A=4] *[B=4] -156.170 4.600 3.090 2.700 2.660 0 b 1.320 1.430 -1.260 0 b -2.100 -3.090 .180 0 b -2.930 -2.270 2.000 0 b -2.620 -.610 -4.0E-02 0 b 0 b 0 b 0 b 0 b 101.775 2.079 2.050 1.470 1.331 . 1.961 1.399 1.624 . 3.448 2.299 2.220 . 1.743 1.474 1.470 1.597. 1.640 1.485 -1.534 2.212 1.507 1.837 1.998 . .673 1.022 -.776 -.609 -1.344 .081 . -1.681 -1.540 1.360 . -1.641 -.372 -.027 .146 .043 .153 .086 .064 . .511 .323 .450 . .552 .199 .936 . .113 .144 .194 . .122 .715 .979 -373.098 .168 -1.280 -.434 -.178 . -2.861 -1.551 -4.721 . -9.449 -7.990 -4.552 . -6.644 -5.411 -1.134 . -6.024 -4.106 -3.205 60.758 9.032 7.460 5.834 5.498 . 5.501 4.411 2.201 . 5.249 1.810 4.912 . .784 .871 5.134 . .784 2.886 3.125 1.534 2.212 1.507 1.837 1.998 . .673 1.022 .776 . .609 1.344 .081 . 1.681 1.540 1.360 . 1.641 .372 .027 .301 .544 .292 .405 .464 . .097 .160 .112 . .088 .242 .051 . .350 .303 .247 . .336 .064 .050 a. Caoputed using alpha=.05 b.This parameter is set to zero because it is redundant. 表 9-81 因素 a 收缩率的估计边缘均值 95% Confidence Interval 收缩率 Mean Std.Error Lower Bound Upper Bound 1 2 3 4 74.286a 74.349a 74.291a 72.449a .474 .508 .526 .565 73.277 73.266 73.169 71.245 75.296 75.432 75.413 73.653 a. Evaluated at covariates appeared in the model:周波影响 =49.619. 表 9-82 因素 a 收缩率的两两比较 95% Confidence Interval for Difference a (I)收缩率 (J)收缩率 Mean Difference(I-J) Std.Error Sig. a Lower Bound Upper Bound 1 2 3 4 -6.250E-02 -5.00E-03 1.838* .832 .852 .536 .941 .995 .004 -1.836 -1.822 .696 1.711 1.812 2.979 2 1 3 4 6.250E-02 5.750E-02 1.900 .832 .520 .937 .941 .913 .061 -1.711 -1.052 -9.725E-02 1.836 1.167 3.897 3 1 2 4 5.000E-03 -5.750E-03 1.843 .852 .520 .959 .995 .913 .074 -1.812 -1.167 -.201 1.822 1.052 3.886 4 1 2 3 -1.838* -1.900 -1.843 .004 .061 .074 .004 .061 .074 -2.979 -3.897 -3.886 -.696 9.725E-02 .201 Based on estimated marginal means *. The mean difference is significant at the .05 level. a. Adjustment for multiple comparisons:Least Significant Difference(equivalent to no adjustments). 表 9-83 响应变量弹性 y 的单变量检验 Sum of Squares df Mean Square F Sig. Noncent. Parameter Observed Power a Contrast Error 12.948 16.210 3 15 4.316 1.081 3.994 .028 11.982 .723 he F tests the effect of 收缩率 This test is based on the linearly independent pairwise comparisons among the estimated marginal means. a. Computed using alpha=.05 表 9-84 因素 b 总拉伸倍数的估计边缘均数 95% Confidence Interval 总拉伸倍数 Mean Std.Error Lower Bound Upper Bound 1 2 3 4 73.596 a 74.126 a 73.464 a 74.189 a .369 .404 .474 .605 72.812 83.264 72.454 72.899 74.380 74.988 74.473 75.479 a.Evaluated at covariates appeared in the model:周波影响 =49.619 表 9-85 因素 b 总拉伸倍数的两两比较 95% Confidence Interval for Difference a (I)总拉伸倍数 (J)总拉伸倍数 Mean Difference(I-J) Std. Error Sig. a Lower Bound Upper Bound 1 2 3 4 -.530 .132 -.592 .543 .593 .717 .344 .826 .422 -1.687 -1.132 -2.121 .627 1.397 .936 2 1 3 4 .530 .662 -6.250E-02 .543 .536 .832 .344 .235 .941 -.627 -.479 -1.836 1.687 1.804 1.711 3 1 2 4 -.132 -.662 -.725 .539 .536 .937 .826 .235 .451 -1.397 -1.804 -2.722 1.132 .479 1.272 4 1 2 3 .592 6.250E-02 .725 .717 .832 .937 .422 .941 .451 -.936 -1.711 -1.272 2.121 1.836 2.722 Based on estimated marginal means a. Adjustment for multiple comparisons:Least Significat Difference (equivalent to no adjustments). 表 9-86 响应变量弹性 y 的单变量检验 Sum of Squares Df Mean Square F Sig. Noncent. Parameter Observed Power a Contrast Error 2.324 16.210 3 15 .775 1.081 .717 .557 2.151 .167 The F tests the effect of 总拉伸倍数 This test is based on the linearly independent pairwise comparisons among the estimated marginal means. a. Computed using alpha=.05 表 9-87 收缩率 *总拉伸倍数的估计边缘均数 95% Confidence Interval for Difference a (I)收缩率 (J)收缩率 Mean Difference(I-J) Std.Error Lower Bound Upper Bound 1 1 2 3 4 74.386 a 73.506 a 74.086 a 75.166 a 1.305 .864 .736 .826 71.604 71.664 72.517 73.406 77.168 75.349 75.655 76.927 2 1 2 3 4 73.166 a 73.936 a 75.516 a 74.776 a .826 .878 1.159 .815 71.406 72.064 73.045 73.040 74.927 75.808 77.987 76.512 3 1 2 3 4 73.436 a 75.556 a 73.436 a 74.736 a .878 1.327 .878 .923 71.564 72.728 71.564 72.768 75.308 78.384 75.308 76.704 4 1 2 3 4 73.396 a 73.506 a 70.816 a 72.076 a .784 .864 .749 1.573 71.725 71.664 69.220 68.724 75.067 75.349 72.412 75.428 a. Evaluated at covariates appeared in the model: 周波影响 =49.619. 由上述图表 得到如下结论 z 表 9-78 显示 因素 a 为分组变量 分 4 个水平 即 收缩率为 0 4 8 12 每个水平有 8 例 因 素 b 为区组变量 分 4 个水平 即总拉伸倍数为 460 520 580 640 每个水平有 8 例 z 表 9-79 显示 因素 a F=均方因素 a/均方残差 =3.994 P=0.028 按 0.05 检验水准 拒绝无效假设 可认为调整均数间差异显著 不同收缩率对弹性的大小值差异显著 因素 b F=均方因素 a/均方残差 =0.717 P=0.557 可认为因素 b 效应显著 不同总拉 伸倍数下差异不容忽略 协变量 z F=均方因素 a/均方残差 =4.895 P=0.043 按 0.05 的检验水准 拒绝无效假 设 可认为回归效应显著 协变量 z 与响应变量 y 存在线性关系 z 表 9-80 显示 公共回归系数 B C =4.600 SE BC =2.079 P=0.043 按 0.05 检验水 准 拒绝无效假设 可认为公共回归系数不为 0 其 95 可信区间为 0.168 到 9.032 z 表 9-81 显示因素 a 各水平调整均数和 95 可信区间 水平 1(收缩率 0)=74.286 95 可信区间为 =[73.277 75.296] 水平 2(收缩率 4)=74.349 95 可信区间 =[73.266 75.432] 水平 3(收缩率 8)=74.291 95 可信区间 =[73.169 75.413] 水平 4(收缩率 12)=72.449 95 可信区间 =[71.245 73.653] z 表 9-82 显示采用 LSD 法进行因素 a 各调整间均数两两比较的结果 只有收缩率 0 与收缩率 4 之间两两比较的 P 值 <0.05 按 0.05 检验水准 拒绝无效假设 可认为 水平 1 与水平 4 之间调整均数间两两比较显著差异 其余两两水平之间的 P 值均 大于 0.005 说明它们之间的差异不显著 z 表 9-83 显示因素 a 效应检验 F=均方对比 /均方残差 =3.994 P=0.028 按 0.05 检 验的水准 拒绝无效假设 可认为总的调整均数间差异显著 该结果与表 9-82 的 因素 a 检验一致 z 表 9-84 显示因素 b 各水平调整均数和 95 可信区间 水平 1(总拉伸倍数 460)=73.596 95 可信区间 [72.812 74.380] 水平 2(总拉伸倍数 520)=74.126 95 可信区间 [73.264 74.988] 水平 3(总拉伸倍数 580)=73.464 95 可信区间 [72.454 74.473] 水平 4(总拉伸倍数 640)=74.189 95 可信区间 [72.899 75.479] z 表 9-85 显示采用 LSD 法进行因素 b 各调整间均数两两比较的结果 所有两两水平 之间的 P 值 >0.05 按 0.05 检验水准 接受无效假设 可认为两两水平之间调整均 数间两两比较显著不差异 z 表 9-86 显示因素 b 效应检验 F=均方对比 /均方残差 =0.717 P=0.557 按 0.05 检 验的水准 接受无效假设 可认为总的调整均数间差异不显著 该结果与表 9-86 的因素 b 检验一致 z 表 9-87 显示因素 a*b 各种情况下的调整均数 标准误和 95 可信区间 9.4.5 多协变量方差分析 迄今为止 我们讨论的都是只有一个协变量的协方差分析 多协变量的问题大多发生 在多元回归分析中 而其中又加入了个别响应变量 由于变量的增多 计算量也急剧的增 加 为了使读者了解多协变量的协方差分析方法 我们选用最简单的模型 该模型只有两 个协变量 一个响应变量 [例 9-13] 在酿酒工艺中 先将大麦浸在水内吸收一定的水分 (z1) 为了提高产量加入 某种化学溶剂浸泡一定的时间 (z2) 然后测量大麦吸入化学溶剂的份量 (y) 控制 y 的量对 于质量是极其重要的 由经验可知 y 和 z1 z2 之间有较好的线性关系 利用这个关系可 以达到控制 y 的目的 但是随着季节的变化 y 和 z1 z2 的关系有所改变 今在冬 春 夏对各同一仓库随机抽取的 6 份小麦各做了 1 次试验数据如下表 9-88 所示 表 9-88 吸入溶剂的试验数据 冬 春 夏试验编号 z1 z2 y z1 z2 y z1 z2 y 1 130 200 7.5 136 215 6.3 130 205 11.0 2 136 220 4.2 137 250 7.0 140 265 6.0 3 140 215 1.5 136 180 5.5 139 250 6.5 4 138 265 3.7 138 240 5.6 136 245 9.1 5 134 235 5.3 139 220 4.6 135 235 9.3 6 142 260 1.2 141 260 3.9 137 220 7.0 问季节对 y 和 z1 z2 的关系有无显著的影响 建立数据文件如图 9-51 所示 因素 a=1 2 3 分别标识冬 春 夏 因素 b=1 2 3 4 5 6 分别标识试验编号中的 1 2 3 4 5 6 图 9-51 吸入溶剂的数据文件 选择 Analyze ? General Linear Model ? Univariate 进入主对话框 把响应 变量 y放入 Dependent Variable栏 因素 a放入 Fixed Factor(s)栏 因素 b放入 Random Factor(s) 栏 协变量 z1 z2 放入 Covariate(s)栏中 单击 Model 按钮 打开 Model 对话框 在此对话框中选择 Custom 项 在效应选项 中 选择 Main effect 在 Factors &栏中选择 a(F) b(R)和 z1(C) z2(C) 在 Build Term(s) 中单击向右的箭头按钮 把 a(F) b(R)和 x(C)放入 Model 栏中 单击 Continue 按钮返 回主对话框 在主对话框中 单击 Options 按钮 打开 Options 对话框 在此对话框中 选择 Homogeneity tests Observed power 和 Parameter estimates 在 Factor(s) and Factor 栏中选择 因素 a b 放入 Display Means for 栏 选择 Compare main effects 单击 Continue 按钮返 回主对话框 在主对话框中 单击 OK 按钮 提交运行该过程 得到结果如表 9-89 到表 9-98 所 示 表 9-89 各目 标因素 N 标识 1 季节 2 3 标识 1 试验 2 编号 3 4 5 6 6 6 6 3 3 3 3 3 3 表 9-90 各目标因素检验 Source Type III Sum of Squares df Mean Square F Sig. Noncent. Paramete Observed Power a Intercept Hypothesis Error A Hypothesis Error B Hypothesis Error Z1 Hypothesis Error Z2 Hypothesis Error 18.769 1.217 44.712 1.217 .254 1.217 14.284 1.217 1.118 1.217 1 8.001 2 8 5 8 1 8 1 8 18.769 .152 b 22.356 .152 c 5.076E-02 .152 c 14.284 .152 c 1.118 .152 c 123.44 147.02 .334 93.934 7.354 .000 .000 .879 .000 .027 123.443 294.035 1.669 93.934 7.354 1.000 1.000 .096 1.000 .662 a. Computed using alpha=.05 b.1.730E-04 MS(B)+1.000MS(Error) c.MS(Error) 表 9-91 期望均方 Variance Component Source Var(B) Var(Error) Quadratic Term Intercept A B Z1 Z2 Error 4.012E-04 .000 2.318 .000 .000 .000 1.000 1.000 1.000 1.000 1.000 1.000 Intercept, A A Z1 Z2 a.For each source, the expected mean square equals the sum of the coefficients in the cells times the variance components, plus a quadratic term involving effects in the Quadratic Term cell. b. Expected Mean Squares are based on the Type III Sums of Squares. 表 9-92 参数估计 95% Confidence Interval Parameter B Std. Error t Sig. Noncent. Parameter Observe d Power a Intercept [A=1] [A=2] [A=3] [B=1] 89.936 -3.848 -1.421 0b -5.3E-02 8.032 .233 .278 . .508 11.197 -16.545 -5.112 . -.103 .000 .000 .001 . .920 71.415 -4.384 -2.062 . -1.224 108.458 -3.311 -.780 . 1.119 11.197 16.545 5.112 . .103 1.000 1.000 .993 . .051 续表 95% Confidence Interval Parameter B Std. Error t Sig. Noncent. Parameter Observe d Power a B=2] B=3] B=4] B=5] B=6] Z1 Z2 .248 4.440E-02 .335 .156 0b -.637 2.017E-02 .350 .367 .372 .377 . .066 .007 .709 .121 .901 .415 . -9.692 2.712 .498 .907 .394 .689 . .000 .027 -.559 -.801 -.523 -.714 . -.788 3.0E-03 1.055 .890 1.193 1.027 . -.485 3.7E-02 .709 .121 .901 .415 . 9.692 2.712 .096 .051 .125 .066 . 1.000 .66 a. computed using alpha=.05 b. This parameter is set to zero because it is redundant. 表 9-93 标识季节因素的估计边缘均数 95% Confidence Interval 标识季节 Mean Std.Error Lower Bound Upper Bound 1 2 3 3.753 a 6.180 a 7.601 a .160 .183 .175 3.384 5.759 7.196 4.122 6.601 8.005 表 9-94 标识季节因素的两两比较 95% Confidence Interval for Difference a (I)标识季节 (J)标识季节 Mean Difference(I-J) Std.Error Lower Bound Upper Bound 1 2 3 -2.427* -3.848* ..248 .233 .000 .000 -1.854 -3.311 2 1 3 2.427* -1.421* .248 .278 .000 .001 3.000 -.780 3 1 2 3.838* 1.421* .233 .278 .000 .001 4.384 2.062 Based on estimated marginal means 表 9-95 标识季节因素的单变量检验 Sum of Squares df Mean Square F Sig. Noncent. Parameter Observed Power a Contrast Error 44.712 1.217 2 8 22.356 .152 147.017 .000 294.035 1.000 表 9-96 标识试验编号因素的估计边缘均数 95% Confidence Interval 标识试验编号 Mean Std.Error Lower Bound Upper Bound 1 2 3 4 5 6 5.670 a 5.971 a 5.767 a 6.058 a 5.879 a 5.722 a .330 .236 .304 .253 .230 .273 4.910 5.426 5.066 5.475 5.348 5.092 6.430 6.516 6.467 6.641 6.410 6.353 表 9-97 标识试验编号的两两比较 95% Confidence Interval for Difference a ()I 标识试验编号 Mean Difference(I-J) Std.Error Si.g a Lower Bound Upper Bound 1 2 3 4 5 6 -.301 -9.697E-02 -.388 -.209 -5.257E-02 .424 .494 .422 .374 .508 .498 .849 .385 .591 .920 -1.279 -1.236 -1.360 -1.071 -1.224 .678 1.042 .584 .653 1.119 2 2 3 4 5 6 .301 .204 -8.695E-02 9.176E-02 .424 .408 .323 .331 .350 .498 .630 .795 .789 .498 -.678 -.736 -.832 -.672 -.559 1.279 1.144 .658 .855 1.055 3 2 3 4 5 6 9.697E-02 -.204 -.291 -1.112 4.440E-02 .494 .408 .443 .440 .367 .849 .630 .530 .786 .907 -1.042 -1.144 -1.312 -1.035 -.801 1.236 .736 .731 .810 .890 4 2 3 4 5 6 .388 8.695E-02 .291 .179 .335 .422 .323 .443 .337 .372 .385 .795 .530 .611 .394 -.584 -.658 -.731 -.599 -.523 1.360 .832 1.312 .957 1.193 5 2 3 4 5 6 .209 -9.176E-02 .112 -.179 .156 .374 .331 .400 .337 .337 .591 .789 .786 .611 .689 -.653 -.855 -.810 -.957 -.714 1.071 .672 1.035 .599 1.027 6 2 3 4 5 6 5.257E-02 -.248 -4.440E-02 -.335 -.156 .508 .350 .367 .372 .377 .920 .498 .907 .394 .689 -1.119 -1.055 -.890 -1.193 -1.027 1.224 .559 .801 .523 .714 表 9-98 标识试验编号的单变量检验 Sum of Squares df Mean Square F Sig. Noncent. Parameter Observed Power a Contrast Error .254 1.217 5 8 5.076E-02 .152 .334 .879 1.669 .096 由上述图表 得到如下结论 z 表 9-89 显示 因素 a 为分组变量 分 3 个水平 即 冬 春 夏 每个水平有 6 例 因素 b 为区组变量 分 6 个水平 来源于随机样本 即试验编号 1 至 6 号样品 每个 水平有 3 例 z 表 9-90 显示 因素 a F=均方因素 a/均方残差 =147.02 P=0.000 按 0.05 检验水准 拒绝无效假设 可认为调整均数间差异显著 不同季节对吸入化学溶剂的份量有显著差异 因素 b F=均方因素 a/均方残差 =0.334 P=0.879 接受无效假设 可认为因素 b 效应 不显著 不同编号的小麦样品对吸入化学溶剂的份量无显著差异 协变量 z1 F=均方因素 a/均方残差 =93.934 P=0.000 按 0.05 的检验水准 拒绝无效 假设 可认为回归效应显著 协变量 z1 与响应变量 y 存在线性关系 协变量 z2 F=均方因素 a/均方残差 =7.354 P=0.027 按 0.05 的检验水准 拒绝无效 假设 可认为回归效应显著 协变量 z2 与响应变量 y 存在线性关系 z 表 9-91 显示 各方差分量的系数和计算期望均方的公式 z 表 9-92 显示 协变量 z1 公共回归系数 B C =-0.637 SE BC =0.066 P=0.000 按 0.05 检验水准 拒绝 无效假设 可认为公共回归系数不为 0 其 95 可信区间为 -0.788 到 -0.485 协变量 z2 公共回归系数 B C =0.02017 SE BC =0.007 P=0.027 按 0.05 检验水准 拒 绝无效假设 可认为公共回归系数不为 0 其 95 可信区间为 0.0030 到 0.037 z 表 9-93 显示因素 a 各水平调整均数和 95 可信区间 水平 1 冬季 =3.753 95 可信区间为 =[3.384 4.122] 水平 2 春季 =6.180 95 可信区间 =[5.759 6.601] 水平 3 夏季 =7.601 95 可信区间 =[7.196 8.005] z 表 9-94 显示采用 LSD 法进行因素 a 各调整间均数两两比较的结果 三个水平之间 两两比较的 P 值都小于 0.05 按 0.05 检验水准 拒绝无效假设 可认为两两水平 之间差异显著 即冬 春 夏三季两两之间的差异显著 z 表 9-95 显示因素 a 效应检验 F=均方对比 /均方残差 =147.017 P=0.000 按 0.05 检验的水准 拒绝无效假设 可认为总的调整均数间差异显著 该结果与表 9-93 的因素 a 检验一致 z 表 9-96 显示因素 b 各水平调整均数和 95 可信区间 水平 1(试验编号 1)=5.670 95 可信区间 =[4.910 6.430] 水平 2(试验编号 2)=5.971 95 可信区间 [5.426 6.516] 水平 3(试验编号 3)=5.767 95 可信区间 [5.066 6.467] 水平 4(试验编号 4)=6.058 95 可信区间 [5.475 6.641] 水平 5(试验编号 5)=5.879 95 可信区间 [5.348 6.410] 水平 6(试验编号 6)=5.722 95 可信区间 [5.092 6.353] z 表 9-97 显示采用 LSD 法进行因素 b 各调整间均数两两比较的结果 所有两两水平 之间的 P 值 >0.05 按 0.05 检验水准 接受无效假设 可认为两两水平之间调整均 数间两两比较显著不差异 z 表 9-98 显示因素 b 效应检验 F=均方对比 /均方残差 =0.334 P=0.879 按 0.05 检 验的水准 接受无效假设 可认为总的调整均数间差异不显著 该结果与表 9-96 的因素 b 检验一致 9.5 多元方差分析过程 9.5.1 多元方差分析的基本概念 多元指的是在方差分析中响应变量不止一个 这样的情况在现实生活和科学研究中经 常遇到 例如 要对 m 个男人 n 个女人的头部四个典型解剖部位进行测量 研究男女头 部有无显著差异 又如 要研究片状钛合金在不同温度下 不同拉伸速度下的抗拉性能是 否一致 我们选取钛合金的两边 (S1 和 S2) 角 CO 和中心 (CE)看是否这四个部位在试 验中的抗拉强度 多元方差分析的基本原理与单响应变量的方差分析相似 都是通过检验两个或多个样 本均数间差异是否显著从而得出结论的统计方法 9.5.2 多元方差分析的功能与应用 在一些试验中 测量一个响应变量往往不足以得出科学的结论 而是需要由多个量共 同得出结论 多元方差分析就是用来考察这些量之间是否存在显著差异 以对综合结论的 得出提供依据的数学工具 在 SPSS 10.0 for Windows 中 调用 Multivariate 进行多元方差分析 能输出多变量检 验表 方差分析表 均数比较结果 均数的多变量检验结果 均数的单变量检验结果 参 数估计等等 9.5.3 多元方差分析的应用示例 [例 9-14] 对钛合金的两边 (S1 和 S2) 角 (CO)和中心 (CE)部位在温度 0 摄氏度 25 摄 氏度 50 摄氏度 70 摄氏度时分别以缓慢的速度和快速进行测量其抗拉性能 数据如表 9-99 所示 表 9-99 不同部位抗拉强度数据 缓慢速度 快速 S1 S2 CO CE S1 S2 CO CE 0 156 154 139 145 149 153 148 150 25 140 139 132 137 137 146 136 147 50 137 142 128 136 126 130 122 129 温 度 0 C 75 128 139 130 134 119 121 116 125 建立的数据文件如图 9-52 以变量 a 标识温 度因素 a=1 对应于 0 0 C a=2 对应于 25 0 C a=3 对应于 50 0 C a=4 对应于 75 0 C 以 b 标识拉伸速 度 b=1 对应于缓慢拉伸 b=2 对应于快速拉伸 从 Analyze ? General Linear Model ? Multivariate 进入 Multivariate 主对话框 把变量 s1 s2 co ce放入 Dependent Variables 栏中 这些变量为响应变量 (也可称为因变量 ) 将因素变量 a b 放入 Fixed Factor(s)栏中 如图 9-53 所示 图 9-53 Multivariate 主对话框 在主对话框中 单击 Model 按钮 展开相应的对话框 在 Model 对话框中选择 Custom 在 Build Term(s)选择 Main effects 将选中的变量 a b 放入 Model 一栏中 选择之后 单 击 Continue 按钮 返回主对话框 在主对话框中 单击 Contrasts 按钮 进入相应的对话框 在 Factors 框中选择 a 变量 按 Ctrl 键 再选中 b 变量 在 Change Contrast 栏内 单击 Contrasts 参数框内向下箭头 展开比较方法表 选择 Simple 选项 再选择 First 项为比较参考类 然后单击 Change 按 钮 如图 9-54 所示 选择结束后 鼠标单击 Continue 按钮 返回主对话框 图 9-52 不同部位抗拉强度数据文件 图 9-54 Contrasts 对话框 单击 OK 按钮 执行该过程 所得结果如表 9-100 到表 9-108 表 9-100 各目标因素 N A 1 2 3 4 B 1 2 2 2 2 2 4 4 表 9-100 是对参与分析的数据的综合信息 它显示 因素变量 a 有四个水平 这四个 水平分别为温度 0 25 50 75 摄氏度 每个水平有 2 例 因素变量 b 有两个水 平 分别为缓慢拉伸和快速拉伸 每个水平有 4 例 表 9-101 多变量检验表 Effect Value F Hypothesis Errordf Sig. Intercept Pillai’s Trace Wilks’ Lambda Hotelling’s Trace Roy’s Largest Root 1.000 .000 35935.380 35935.380 11978.460 a 11978.460 a 11978.460 a 11978.460 a 3.000 3.000 3.000 3.000 1.000 1.000 1.000 1.000 0.007 0.007 0.007 007 A Pillai’s Trace Wilks’ Lambda Hotelling’s Trace Roy’s Largest Root 1.279 .003 . 244.720 .743 2.872 . 244.720 b 9.000 9.000 9.000 9.000 9.000 2.584 . 3.000 .667 .235 . .000 B Pillai’s Trace Wilks’ Lambda Hotelling’s Trace Roy’s Largest Root .959 .041 23.574 23.574 7.858 a 7.858 a 7.858 a 7.858 a 3.000 3.000 3.000 3.000 1.000 1.000 1.000 1.000 .255 .255 .255 .255 表 9-101 显示的是多元方差分析的结果 给出了四种检验的方法 Pillais’s trace Wilks’ Lambad Hotelling’s trace 和 Roy’s Largest Root 下的 t 值 确切的 F 值 假设检验的自由度 误差自由度 F 检验的显著性概率 从显著性概率来看 对于因素 b 无论是哪种计算方法 显著性概率均大于 0.05 可以 认为钛合金在慢速拉伸和快速拉伸时的拉伸强度是没有显著差异的 对于因素 a Pillais’s trace Wilks’ Lambad 方法检验时显著性概率均大于 0.05 可认为在不同温度 (不大于 75 摄 氏度不小于 0 摄氏度 )下钛合金的拉伸强度无显著差异 Hotelling’s trace 对本数据文件无意 义 Roy’s Largest Root 方法计算所得的概率为 0.000 可认为不同温度 (不大于 75 摄氏度不 小于 0 摄氏度 )下钛合金的四个部分之间的拉伸强度显著差异 到底是那种方法的结果更科 学些 要进行进一步的分析 表 9-102 各目标因素效应检验表 方差分析表 Source Dependent Variable Type III Sum of Squares df Mean Square F Sig. Corrected Model s1 S2 C0 CE 1020.500 a 679.000 b 535.500 c 417.500 d 4 4 4 4 255.125 169.750 133.875 104.375 43.736 2.723 2.536 2.458 .005 .218 .235 .243 Intercept S1 S2 C0 CE 149058.000 157922.000 138075.125 152076.125 1 1 1 1 255.125 169.750 133.875 104.375 43.736 2.723 2.536 2.458 .005 .218 .235 .243 A S1 S2 C0 CE 908.000 607.000 529.375 417.375 3 3 3 3 149058.000 157922.000 138075.125 152076.125 25552.800 2533.508 2615.472 3581.773 .000 .000 .000 .000 B S1 S2 C0 CE 112.500 72.000 6.125 .125 1 1 1 1 302.667 202.333 176.458 139.125 51.886 3.246 3.343 3.277 .004 .180 .174 .178 Error S1 S2 C0 CE 17.500 187.000 158.375 127.375 3 3 3 3 112.500 72.000 6.125 .125 19.286 1.155 .116 .003 .022 .361 .756 .960 Total S1 S2 C0 CE 150096.000 158788.000 138769.000 152621.000 8 8 8 8 5.833 62.333 52.792 42.458 Corrected Total S1 S2 C0 CE 1038.000 866.000 693.875 544.875 7 7 7 7 表 9-102 为各目标因素检验表 第一栏 给出四个变量的方差来源 包括校正模型 截距 主效应 a 和 b 误差 总 的方差来源 第二栏 用系统默认的 Type 计算的平方和 第三栏 自由度 第四栏 均方差 第五栏 F 值 第六栏 Sig 值 即 F 值的显著性概率 从 a 的概率看 只有 s1 的 P=0.022 小于 0.05 表明 s1 该边在不同温度下的拉伸强度差异显著 其他三部分的概率均大于 0.05 即在不同 温度下拉伸强度的差异不显著 从 b 的概率看 也只有 s1 的 P=0.004 小于 0.05 表明 s1 该边在不同温度下的拉伸强度差异显著 其他三部分的概率均大于 0.05 即在不同温度下 拉伸强度的差异不显著 由上述分析 我们应当注意在制造过程中是否 s1 边有了问题 表 9-103 因素 a 的均数比较结果 Dependent Varialbe A Simple Contrast S1 S2 C0 CE Level 2 vs. Level Contrast Estimate Hypothesized Value Difference (Estimate-Hypothesized) Std.Error Sig. 95% Confidence Lower Bound Interval for Upper Bound -14.000 0 -4.000 2.451 .010 -21.686 -6.314 -11.00 0 -11.00 7.895 .258 -36.126 14.126 -9.500 0 -9.500 7.266 .282 -32.623 13.623 -5.500 0 -5.500 6..516 .461 -26.237 15.237 Level 3 vs. Level Contrast Estimate Hypothesized Value Difference (Estimate-Hypothesized) Std.Error Sig. 95% Confidence Lower Bound Interval for Upper Bound -21.00 0 -21.00 2.415 .415 .003 -28.686 -13.314 -17.500 0 -17.500 7.895 .113 -42.626 7.626 -18.500 0 -18.500 7.266 .113 -42.623 7.626 -15.000 0 -15.000 6.516 .105 -35.737 5.6737 Level 4 vs. Level Contrast Estimate Hypothesized Value Difference (Estimate-Hypothesized) Std.Err Sig. 95% Confidence Lower Bound Interval for Upper Bound -29.000 0 -29.000 2.415 .001 -36.686 -21.314 -23.500 0 -23.500 7.895 .059 -48.626 1.623 -20.500 0 -20.500 7.266 .067 -43.623 2.626 -18.000 0 -18.000 6.516 .070 -38.737 2.737 表 9-103 显示了每个响应变量均值比较的结果 比较的参考单元为 a=1 表中第一栏 A Simple Contrast 为比较结果的内容 包括两个水平的 Contrast Estimate 对比估计值 Hypothesized Value 无效假设 Std Error 标准误 Sig t 值的显著性概率 从 t 检验的结 果可以看出 除了 s1 边外其余三部分的均大于 0.05 也说明了 s1 该边在不同温度下的拉 伸强度差异显著 其他三部分在不同温度下拉伸强度的差异不显著 表 9-104 因素 a 的均数比较的多变量检验结果 Value F Hypothesis df Error df Seg Pillai`s trace Wilks`lambda Hotelling`s trace Roy`s largest root 279 .003 . 244.72 .743 2.872 . 244.720a 9.000 9.000 9.000 9.000 9.000 2.584 . 3.000 .667 .235 . .000 a.The statistic is an upper bound on Fthat yields a lowert bound on the Significance level. 表 9-104 为均数比较的多变量检验结果与表 9-101 的检验结果相同 表 9-105 因素 a 的均数比较的单变量检验结果 Source Dependent Varialbe Sum of Squares df Mean Square F Sig. Contrast S1 S2 C0 C3 908.00 607.00 529.375 417.375 3 3 3 3 302.67 202.33 176.46 139.13 51.886 3.246 3.343 3.277 .004 .180 .174 .178 Error S1 S2 C0 C3 17.500 187.000 158.375 127.375 3 3 3 3 5.833 62.333 52.792 42.458 表 9-105 为均数的单变量检验结果 是对每个响应变量单独进行 F 检验的结果 从每 个响应变量的 Sig. Of F 可以看出除了 s1 外 其余三部分的拉伸强度在不同温度下无显著 性差异 检验结果与表 9-102 相同 表 9-106 因素 b 的均数比较结果 Dependent Variable B Simple Contrast S1 S2 C0 C3 Level 1 vs Level 1 Contrast Estimate Hypothesized Value Difference (Estimate-Hypothesized) Std.Error Sig. 95% Confidence Lowser Bound Interval for Upper Bound -7.500 0 -7.500 1.708 .022 -12.935 -2.065 -6.000 0 -6.000 5.583 .361 -23.767 11.767 -1.750 -1.750 5.138 .756 -18.10 14.600 -.250 0 -.250 4.608 .960 -14.9 14.41 a. Reference category=1 表 9-106 显示每个响应变量均值比较的结果 比较的参考单元为 b=1 从 t 检验的结果 可以看出 除了 s1 边外 其余三部分的均大于 0.05 也说明了 s1 该边在不同温度下的拉 伸强度差异显著 其他三部分在不同温度下拉伸强度的差异不显著 表 9-107 因素 b 的均数比较的多变量检验结果 Vakye F Hypothesis Error Sig. Pillai’s trace Wilks’ lambda Hotelling’s trace Roy’s largest root .959 .041 .23.574 23.574 7.858 a 7.858 a 7.858 a 7.858 a 3.000 3.000 3.000 3.000 1.000 1.000 1.000 1.000 .255 .255 .255 .255 a. Exact statistic 表 9-107 为均数比较的多变量检验结果与表 9-101 的检验结果相同 表 9-108 因素 b 的均数比较的单变量检验结果 Source Dependent Variable Sum of Squares df Mean Square F Sig. Contrast S1 S2 C0 C3 112.500 72.000 6.125 .125 1 1 1 1 112.500 72.000 6.125 .125 19.286 1.155 .116 .003 .022 .361 .756 .960 Error S1 S2 C0 C3 17.500 187.000 158.375 127.375 3 3 3 3 5.833 62.333 52.792 42.458 表 9-108 为均数的单变量检验结果 从每个响应变量的 Sig. Of F 可以看出除了 s1 外 其余三部分的拉伸强度在不同温度下无显著性差异 检验结果与表 9-102 相同 9.5.4 多元方差分析过程 多响应变量 (多元 )方差分析的功能模块调用步骤为 Analyze ? General LinearModel ? Multivariate 最后展开 Multivariate 主对话框 如图 9-53 1 多元方差分析过程与单因变量方差分析过程的操作相同 下列多因变量方差分析过程的操作可参见 9.3 节 Model 功能按钮 (选择分析模型 ) Contrasts 功能按钮 (选择对照方法 ) Plots 功能按钮 (选择图形 ) Post Hoe 功能 按钮 (选择多重比较分析 ) Save 功能按钮 (选择保存运算值 ) 2 多响应变量方差分析过程与单响应变量方差分析过程不同的操作 二者操作上的不同在于 前者在 Dependent Variable 因变量框中可以选择多个响应变 量 后者只能选择一个响应变量 再有 Options 功能按钮也与单因变量方差分析过程略有 不同 下面介绍 Options 功能按钮 即选择输出项 在主对话框中 单击 Options 按钮 展开 Mutivariate Options 对话框 如图 9-55 所示 图 9-55 多元方差分析选择对话框 (1) Estimated Marginal Means 栏中的选项操作方法见 9.3.4 小节 (2) Display 框 z Descriptive statistics 复选项 输出描述统计量 z Estimates of effect size 复选项 效应量估计 选择和不选择此项决定了是否显示 F 检验和 t 检验效应的大小 z Observed power 复选项 选中此项必须给出计算功效的显著性水平 Alpha 值 该值应 该在 0.01~0.99 之间 选择此项 显示观测功效 系统默认的显著性水平是 0.05 z Parameter estimates 复选项 参数估计 z SSCP matrices 复选项 平方和与交叉积矩阵 z Residual SSCP matrix 复选项 残差的平方和与交叉积矩阵 z Transformation matrix 复选项 变换系数矩阵或 M 矩阵 z Homogeneity tests 复选项 齐次性检验 进行 Bartlett-Box F 检验 在输出窗中显 示 Cochran’s C 和 Box’s M 统计量 z Spread vs level plot 复选项 绘制观测量均值对标准差对方差的图形 z Residuals plot 复选项 绘制残差图 给出观测值 预测值散点图和观测量数目观 测数目对标准化残差的散点图 加上正态和标准化线差的正态概率图 z Lack of fit 复选项 检查独立变量和非独立变量间的关系是否被充分描述 z General estimable function 复选项 可以根据一般估计函数自定义假设检验 对比 系数矩阵的行与一般估计函数是线性组合的 (3) 在 Significance level 框中 改变 Confidence intervals 框内多重比较的显著性水平 9.6 重复测量设计的方差分析 9.6.1 重复测量设计的方差分析的基本概念 重复测量设计是对同一因变量进行重复测度 例如在教育心理研究中 为比较受试者 对三种视觉刺激 (处理 )的反应时 (响应变量 ) 可用一个重复测量设计去获得受试者之间与受 试者之内 (一个受试者的几次测量间 )的变异的比较 如果受试者之间变异大于受试者之内 的变异 视觉刺激反应时的实验是可行的 否则是不可行的 在重复测量设计的方差分析中总偏差平方和被分解为处理间的偏差平方和 受试者间 的偏差平方和 受试者之内的偏差平方和 这些偏差平方和除以各自的自由度得到相应均 方 它们与误差均方之商即为 F 检验的 F 值 处理间的偏差与受试者间的偏差称之为组间因素 (Between-subject Factors)造成的组间 偏差 受试者内部的偏差称之为组内因素 (Within-subject Factor)造成的组内偏差 9.6.2 重复测量设计的方差分析的功能与应用 重复测量设计的方差分析可以是同一条件下进行的重复测度 目的在于研究各种处理 之间是否存在显著性差异的同时 研究受试者之间的差异 受试者几次之间的差异以及测 试者与各种处理间的交互效应 也可以是不同条件下的重复测度 目的在于研究各种处理 间是否存在显著性差异的同时 研究形成重复测量条件间的差异以及这些条件与处理间的 交互效应 9.6.3 重复测量设计的方差分析的应用示例 进行重复测量方差分析的数据结构与其他类型的方差分析有所不同 它要求对受试者 的若干次测试结果作为响应变量出现在数据文件中 [例 9-15] 教育心理研究中的对刺激反应时测量的实验方法的研究中 设置了三个级别 的视觉刺激作为处理因素变量 12 位受试者随机分到三个数据刺激级别的实验组中 每个 受试者给予一个编号 该变量不参与分析只为输入数据时核对使用 对每个受试者在同样 的条件下测试三次 原始实验数据记录如下表 9-109 所示 表 9-109 测量原始数据 刺激 1 刺激 2 刺激 3 受试者 12345678910112 反应时 测量 1 0.9 1.5 0.5 0.8 2.4 1.9 2.9 2.4 1.5 2.1 1.1 1.6 反应时 测量 2 1.2 1.1 0.8 1.3 2.8 2.4 3.3 2.8 1.2 1.9 1.5 1.8 反应时 测量 3 0.7 0.8 0.5 0.9 2.1 2.2 2.7 2.9 1.9 2.2 1.0 1.3 建立数据文件如图 9-56 所示 图 9-56 刺激反应测量时数据文件 number 为受试者编号 vision 视觉刺激等级 (1 刺激 1 2 刺激 2 3 刺激 3) time1 为反应时测量 1 time2 为反应时测量 2 time3 为反应时测量 3 1 研究假设三种刺激的平均反应时之间差异显著 相应的零假设为三种视觉刺激的 平均反应时之间无显著性差异 在分析研究假设是否成立的同时 研究受试者之间反应时 的差异是否大于受试者之内反应时的差异 依此确定 视觉刺激反应时实验是否是可行的 2 操作步骤 (1) 从 Analyze ? General Linear Model ? Repeated Measures 打开 Repeated Measures Define Factor(s)对话框 如图 9-57 所示 图 9-57 定义组内因素对话框 (2) 定义组内因素变量 在 Repeated Measures Define Factor(S)对话框中进行以下操作 z 在 Within-Subject Factor 框中删除原有的 factorl 输入组内因素名 time z 在 Number of Levels 框中输入组内因素 time 的水平数 3 z 单击 Add 按钮 在大矩形框中显示 time(3) 此刻 Define 按钮加亮 组内因 素设置完成 由于没有再次的重复实验 不必操作 Measures 按钮 z 单击 Define 按钮 确认以上一个组内因素变量的单元 显示 Repeated Measures 主对话框如图 9-58 所示 图 9-58 重复测量方差分析主对话框 (3) 在主对话框中设置分析变量 z 在主对话框中进行下列操作以设置组内因素变量 time 与原始变量之间的对应关 系 在左面矩形框中选择 timel 变量 单击向右箭头按钮 在 Within-SubjectsVariables 框中第一项变为 time1(l) 同样方法设置第二个组内因素 time2(2)和第三个组内因素 time3(3) z 在左面矩形框中选择 刺激等级 [vision] 变量 单击下面一个向右箭头按钮 在 Between-Subjects Factor(s)框中显示 vision 变量名 视觉刺激反应时的实验设计 研究中的重复测量实验设计没有考虑协变量 因此不需要对 Coviriates 框进行操作 (4) 建立分析模型 在主对话框中 单击 Model 按钮 展开 Model 对话框如图 9-59 所示 进行如下操 作 图 9-59 重复设计方差分析 Model 对话框 z 在 Within-Subjects Variables 框中选择组内因素变量 time 单击中间的向右箭头按 钮 使 time 变量显示在 Within-Subjects Model 框中 z 在 Between-Subjects 框中选择组间因素变量 vision 单击中间的向右箭头按钮 使 vision 显示在 Between-Subjects Model 框中 z 在 Sum of 参数框中选择 TYPE 项 单击 Continue 按钮 返回主对话框 (5) 根据实验目的无需进行均值比较 Contrasts 对话框的操作无需进行 (6) 输出选择项 在主对话框中 单击 Options 按钮 展开 Options 对话框 进行如下操作 为在输出中显示观测均值 在 Factor(s) and Factor 框中选择 vision*time 项 单击向右 箭头按钮 使 vision*time 显示在 Display Means for 框中 目的是要求输出各单元格的均数 点击 Continue 返回主对话框 (7) 单击 OK 按钮 提交运行 4 输出结果如表 9-110 到表 9-117 所示 表 9-110 组内变量 TIME Dependent Varialbe 1 2 3 TIME1 TIME2 TIME3 表 9-111 组间变量 N 刺激 1 等级 2 3 4 4 4 表 9-112 多变量检验结果 Effect Value F Hypothesisdf Errordf Sig. TIME Pillai’s Trace Wilks’ Lambda Hotelling’s Trace Roy’s Largest Root .421 .579 .727 .727 2.908 a 2.908 a 2.908 a 2.908 a 2.000 2.000 2.000 2.000 8.000 8.000 8.000 8.000 .112 .112 .112 .112 TIME *VISION Pillai’s Trace Wilks’ Lambda Hotelling’s Trace Roy’s Largest Root .418 .619 .555 .407 1.189 1.083 a . 971 1.832 b 4.000 4.000 4.000 2.000 18.000 16.000 14.000 9.000 .349 .398 4.54 .215 a. Exact statistic b. The statistic is an upper bound on F that yields a lower bound on the significance level. c. Design: Intercept+YISION Within Subjects Design:TIME 表 9-113 组内效应检验 Epsilon a With in Subjects Effect Mauchly’s W Approx Chi-Square df Sig. Greenhouse- Geisser Huynh-F eldt Lower-b ound TIME .867 1.141 2 .563 .883 1.000 .500 Tests the null hypothesis that the error covariance matrix of the or thonormalized transformed dependent variables is proportional to an identity matrix. a. May be used to adjust the degrees of freedom for the averaged tests of significance. Corrected tests are displayed in the Tests of Within-Subjects Effects table. b.Design:Intercept+VISION Within Subjects Design:TIME 表 9-114 组内效应方差分析结果 Source Type III Sum of Squares df Mean Square F Sig. TIME Sphericity Assumed Greenhouse-Geisser Huynh-Feldt Lowet-bound .412 .412 .412 .412 2 1.765 2.000 1.000 .206 .233 .206 .412 3.255 3.255 3.255 3.255 .062 .070 .062 .105 TIME*VISION Sphericity Assumed Greenhouse-Geisser Huynh-Feldt Lowet-bound .283 .283 .283 .283 4 3.531 4.000 2.000 7.083E-02 8.025E-02 7.083E-02 .142 1.120 1.120 1.120 1.120 .378 .377 .378 .368 Error(TIME) Sphericity Assumed Greenhouse-Geisser Huynh-Feldt Lowet-bound 1.138 1.138 1.138 1.138 18 15.888 18.000 9.000 6.324E-02 7.165E-02 6.324E-02 .126 表 9-115 组内均数对比检验 Source TIME Type III Sum of Squares df Mean Square F Sig. TIME lineare Quadratic 6.667E-03 .405 1 1 6.667E-03 .405 .110 6.169 .748 .035 TIME*VISION lineare Quadratic 8.583E-02 .198 2 2 4.292E-02 9.875E-02 .705 1.504 .519 .273 Error (TMIE) lineare Quadratic .547 .591 9 9 6.083E-02 6.565E-02 表 9-116 组间效应方差分析表 Source Type III Sum of Squares df Mean Square F Sig. Intercept VISION Error 103.023 16.515 2.679 1 2 9 103.023 8.258 .298 346.079 27.739 .000 .000 表 9-117 各响应变量的单元均值 95% Confidence Interval 刺激等级 TIME Mean Std.Error Lower Bound Upper Bound 1 1 2 3 .925 1.100 .725 .206 .153 .200 .458 .753 .273 1.392 1.447 1.177 2 1 2 3 2.400 2.825 2.475 .206 .153 .200 1.933 2.478 2.023 2.867 3.172 2.927 3 1 2 3 1.575 1.600 1.600 .206 .153 .200 1.108 1.253 1.148 2.042 1.947 2.052 5 结果分析 表 9-110 是组内变量的基本数据信息 组内因素 time 3 个水平 作为三个变量 time1 time2 time3 表 9-111 是组间变量的基本信息 组间变量 分为三个组 每组样本含量都为 4 表 9-112 为多变量检验结果 包括对组内因素 time 的效应的检验 对组间与组内因素 交互效应的检验 这两部分检验都分别采用了四种不同的算法 但从 F 的显著性概率分析均大于 0.05 由此可得出结论 组内效应对造成视觉刺激反应时的差异没有显著性意义 组间与组内的 交互效应对造成视觉刺激反应时的均数没有显著性意义 表 9-113 为组内效应检验结果 显示平均单变量 F 检验的 Huynh-fedlt 和 Greenhouse-Geisser 经校正的显著性值 从表中的显著性概率为 0.565 大于 0.05 说明组内 效应无显著性差异 表 9-114 为组内效应的方差分析结果 方差来源包括组内主效应 time 组间与组内的 交互效应 time*vision 和偏差 从显著性概率分析 概率值大于 0.05 说明组内因素 time 对视觉刺激反应的差异没有显著性意义 表 9-115 为组内均数对比方差检验结果 方差来源包括组内因素 time 组内因素与因 素变量 vision 的交互项 vision*time 和误差 每一个来源分为与 time 是线性的 一次的 从 概率值来看 time 本身的线性无差异 二次有差异 交互项与 time 的线性效果 二次效果 无差异 表 9-116 为组间效应方差分析结果 从 Sig. of F 值近似为 0可以认为因素变量 vision 各 组均值之间的差异 即三种视觉刺激所造成的反应时间的差异 是反应时均值差异的主要来源 得出结论 否定三种视觉刺激的平均反应时无显著性差异的零假设 研究假设成立 表 9-117 给出了按组间变量分组的各单元的原始因变量的均值 标准误和 95 的置信 区间 综合分析可得出结论 视觉刺激反应时的实验设计是可行的 即可以根据此实验测试 每个受试者的视觉刺激反应时 9.6.4 重复测量设计的方差分析过程 重复测量方差分析的功能模块调用步骤为 Analyze ? General Linear Model ? Repeated Measures 顺序逐一单击鼠标键 打开 Repeated Measures Define Factor(s)对话 框 如图 9-57 所示 1 组内因素的定义 (1) 定义组内因素对话框 当在菜单中选择了 Repeated Measures 时 并不马上展开重复测量方差分析的主对话 框 而是需要先显示定义组内因素的对话框 如图 9-57 所示 上节的例题中研究的组内因素是三个视觉刺激反应时构成的 这个组内因素命名为 time 共有三个水平 因此在 Repeated Measures Define Factor(s)对话框内 Within-Subject Factor 框中输入组内因素名 time 在 Number of Levels 框中输入因素水平数 3 输入结束后 Add 按钮加亮 单击该按钮 定义表达式显示在大矩形框中 如果研究的课题中还有 另外的组内因素 可以用同样方法继续定义 已经定义的组内因素倘若有错误 单击出错的定义表达式 此时 Change Remove 按钮加亮 单击 Change 按钮 表达式分解为组内因素名和水平两部分分别显示在 Within-Subject Factor 和 Number of Levels 框中 在框中修改后 鼠标单击 Add 按钮 正确的表达式将显示在矩形框中 删除已经定义并显示在大矩形框中的组内因素 可以单 击该表达式 然后单击 Remove 按钮 如果对每个组内因素所代表的变量的测量仍有重复 可以用鼠标单击 Measure 按钮 展开定义对话框的下半部分定义表示重复测试的变量 如图 9-60 所示 (2) 重复测量方差分析的主对话框 检查所有定义的组内因素表达式 正确无误后 单击 Define 按钮 结束组内因素 定义 进入 Repeated Measures 主对话框 如图 9-58 所示 主对话框中有四个矩形框 z 左面一个矩形框显示了在数据文件中输入的所有变量 z 右面一个矩形框显示了在组内因素定义对话框中定义的所有因素水平与测度的组 合 标有 Within-Subjects 其后是已经定义的组内变量名 上节例题中为 time z 下面一个矩形框标有 Between-Subjects 组间因素框 z 最下面的矩形框标有 Covariates 协变量框 图 9-60 展开下部分的组内因素定义对话框 2 定义组内因素变量水平组合与原始变量的对应关系 在组内变量矩形框中显示有一系列 _?_(n) 表示组内变量第 n 个水平 在原始变量表中 选择用户认为是组内因素变量第 n 水平的变量 鼠标单击之 本例 选原始变量 timel 作为组内因素变量 time 的第一水平 因此单击左面矩形框中的 time1 后单击向右箭头按钮 在右面矩形框中的 _?_(1) 变为 time(1) 如果想要让 timel 作 time 变量的第 2 因素 可以单击向下箭头按钮 使 time(1)变为 time(2) 即可以使用上下箭头钮 改变组内因素变量水平与原始变量的对应关系 注意组内因素变量水平组合表达式括号内是水平组合本例只定义了一个组内因素 变量(time)因此表达式括号内为一个数字如果定义了两个组内因素变量表 达式括号为两个用逗号隔开的水平序号例如如果定义了组内因素变量x 有两水平y有3水在组内因素变量矩形框中将出现以下要求定义的表认式 _ _(1,1) _ _(1,2) _ _(1,3) _ _(2,1) _ _(2,2) _ _(2,3) 当然在数据文件中与之对应的应该有六个因变量 每个因变量对应着一种水平组合 读者不难反过来考虑这是种重复测度是怎样设计的 3 定义方差分析的组间因素变量 定义组间因素变量 方法与前面章节中定义因素变量的方法相同 4 定义协变量及其类型 如果有协变量 在变量框选中协变量 单击向右箭头按钮 将其送入 Covariates 框中 5 定义分析模型 在主对话框中 单击 Model 按钮 展开 Repeated Measures Model 模型定义对话 框 如图 9-58 所示 (1) 在 Specify Model 栏中选择定义模型的方式 z Full Factorial 选项 完全模型 系统默认方式 z Custom 选项 自定义方式 选择自定义方式激活定义组内模型 Within-Subject Model 组间模型 Between-Subject Model 的功能 (2) 自定义模型 在 Within-Subject 矩形框中列出了组内因素变量 Between-Subject 矩形框中列出了组 间因素变量 对应的右面两个矩形框分别是 Within-Subject Model 和 Between-Subject Model 矩形框 中间的 Building Terms 栏是对应效应类型的下拉表 参见 9.3.4 小节 注意如果有两个以上协变量不能指定协变量与协变量之间的交互效应但可以使 用Transform菜单中的Compute功能使两个协变量相乘建立新变量建 立指定新变量的各种效应 (3) 选择计算组间模型平方和方法 在 Sum of 框内可以选择分解平方和的方法 参见 9.3.4 小节 6 有关 Contrast 功能按钮 Plots 功能按钮 Post Hoc 功能按钮 Save 功能按钮 Option 功能按钮 参见 9.3.4 小节 7 在各子对话框中的选择项选定后 在各子对话框中 单击 Continue 按钮 返回 主对话框 一切选择确定后 可以进行下列操作 (1) 单击 OK 按钮可以直接进行定义的重复测量方差分析 结果在输出窗中显示运 算结果 (2) 单击 Paste 按钮 在 Syntax 语句窗中显示上述选择操作定义的命令语句 在该 窗中用鼠标置于命令语句起始位置 单击 Run 按钮执行从起始到由 . 结束的一组命 令语句 同样得到与 (1)系统的输出结果 在 Syntax 窗中可以估计需要对自动生成的语句进 行修改或增加新的语句 然后再按 Run 按钮执行之 在该窗可以用鼠标单击 Syntax 按钮显示一个的命令语句供修改或添加新语句时参考 (3) 单击 reset 按钮 废除此操作之前的一切设置和选择 可以进行重新定义组间 组 内因素变量 协变量 定义模型 选择均值比较方法和对输出项的选择等一系列选择操作 (4) 单击 Help 按钮 显示与重复测量方差分析有关的帮助信息 思 考 题 1 什么时候应该使用协方差分析才能得到较好的分析结果 2 如何判断方差分析中的显著性检验是否显著 若判断差异的显著性有实际的统计 意义 说明了什么问题 对现实生活中有什么指导意义 试选择一实例 (可自己另找 也可 选用本章例题 ) 进行分析和思考 3 如何进行重复测量设计 如何进行该设计的方差分析 在何种情况下要进行重复 测量设计 第1 0 章 回归分析 导 言 回归分析是一种非常实用的统计方法 应用范围很广 回归分析在数据分析上的定量 功能使之成为统计分析中的常用方法之一 由于在分析时 回归分析能生成数学表达式 故它有着独到的优越性 特别的 回归分析能对数据进行预测 回归分析的内容十分丰富 包括 线性回归 曲线估计 非线性回归 逻辑回归 Cox 回归 概率单位回归等等 其 中 Cox 回归分析也是一种生存分析 除了阐述各种回归方法的基本概念 功能与应用之外 本章还举出了大量实例 回归分析与方差分析同样是数理统计中常用的方法 它是用来研究变量与变量之间相 关关系的 在生产和科学研究中 我们常常会遇到多个变量同处于一个过程之中 它们是相互联 系 相互制约的 人们通过各种实践 发现变量之间的关系大致可以分成两类 一种类型 是 各变量之间存在着完全确定性的关系 即所谓函数关系 我们在微积分学中就是研究 的这种关系 另一种类型是 各变量之间也有一定的关系 但这种关系并不完全确定 例 如 人体身高与体重是两个变量 身高与体重有一定的关系 一般讲 (或平均来说 )身高者 体也重 但是它们之间不能用一个确定的函数关系式表达出来 又如 人的血压与年龄也 是这样 它们之间有一定的关系 一般讲年龄大者 血压相对也高一些 但是血压与年龄 之间不能用一个确定的函数关系式表达出来 因为这些变量其实都是随机变量 (或至少其中 有一个是随机变量 ) 这种随机变量之间 (或者是随机变量与二般变量之间 )的关系 我们通 常称为相关关系 相关分析我们在第七章已讨论过 为了深入了解事物的本质 尤其是生 产实践和科学技术问题的需要 往往要求我们寻找这些变量之间的数学关系式 回归分析 就是处理这类不完全确定的变量之间的相关关系的有力工具 回归分析不仅可以提供变量之间相关关系的数学表达式 (通常称为经验公式 ) 利用概 率统计的基础知识 对此关系进行分析 来判明所建立的经验公式的有效性 而且还可以 利用所得的经验公式 根据一个或几个变量的值 预测或控制另一个变量的值 并且可以 知道这种预测和控制可达到什么样的精确程度 另外 还可以进行因素分析 对于共同影 响一个变量的许多因素 找出哪些因素影响是显著的 哪些是不显著的 回归分析涉及的内容非常广 其中的方法也很多 常用的方法有线性回归分析 曲线 估计 非线性回归 Logistic 回归分析 Cox 回归分析 概率分析 权重 (或加权 )回归分析 2-Stage Least Squares(二段最小平方法 ) Optimal Scaling(最优编码回归 )等等 这里只介绍 常用的七种方法 10.1 线性回归 10.1.1 线性回归的基本概念 线性回归分析是描述一个因变量 (或称为响应变量 dependent variable)Y 与一个或多个 自变量 (independent variable)X 间的线性依存关系 根据自变量数目的不同可分为一元线性 回归 (只有一个自变量 )和多元线性回归 (有两个或两个以上的自变量 ) 一元线性回归 1 一元线性回归的基本概念 直线回归分析的任务就是根据若干个观测 (x i y i )i l,2…n 找出描述两个变量 x y 之 间关系的直线回归方程 y*=a+bx ,其中 y*是变量 y 的估计值 求直线回归方程 y*=a+bx 实 际上是用回归直线拟合散点图中的各观测点 常用的方法是最小二乘法 也就是使该直线 与各点的纵向垂直距离最小 即使实测值 y 与回归直线之差的平方和达到最小 也称为剩 余 (残差 )平方和 因此求回归方程的问题 归根到底就是求对取得最小值时 a 和 b 的问题 a 称为截距 b 为回归直线的斜率 也称回归系数 2 一元线性回归方程的假设理论 德国数学家高斯提出了 5 个假设理论 满足这些假设的线性回归模型称为古典线性模型 (l) 正态性假设 假设随机误差项 i 服从均值为零 方差为б 2 的正态分布 (2) 等方差件假设 它假设对于所有的 x i i 的条件方差同为б 2 且б为常数 即 Var( i x I )=б 2 (3) 独立性假设 即零均值假设 它假设在给定 x i 的条件下 i 的条件期望值为零 即 E( I )=0 (4) 无自相关性 假设随机误差项 i 的逐次观察值互不相关 即 Cov( i j )=0(i j) (5) 与 x 的不相关性 假设随机误差项 i 与相应的自变量 x i 对因变量 y 的影响相互 独立 换言之 两者对因变量 y 的影响是可以区分的 即 Cov( i x i ) 0 3 一元线性回归方程的检验 根据原始数据 求出回归方程后就需要对回归方程进行检验 检验的假设是总体回归 系数为 0 另外要检验回归方程对因变量的预测效果如何 (l) 回归系数的显著性检验 z 对叙率的检验 假设是 总体回归系数为 0 z 对截距的检验 假设是 总体回归方程截距 a=0 (2) R 2 判定系数 在判定一个线性回归直线的拟合优度的好坏时 R 2 系数是一个重要的判定指标 从公式可以得到判定系数等于回归平方和在总平方和中所占的比率 即 R 2 体现了回归 模型所能解释的因变量变异性的百分比 如果 R 2 =0.775 则说明变量 y 的变异中有 77.5 是由变量 x 引起的 当 R 2 =1 时 表示所有的观测点全部落在回归直线上 当 R 2 =0 时 表示自变量与因变量无线性关系 为了尽可能准确的反应模型的拟合度 SPSS 输出中的 Adjusted R Square 是消除了自 变量个数影响的 R 2 的修正值 (3) 方差分析 体现因变量观测值与均值之间的差异的偏差平方和 SS t 是由两个部分组成的 即回归 平方和 SS r 它们反应了自变量 X 的重要程度 残差平方和 SS e 它反应了实验误差以及其 他意外因素对实验结果的影响 表示为 SS t =SS r +SS e 这两部分除以各自的自由度 得到 它们的均方 统计量 F=回归均方 残差均方 当 F 值太大时 拒绝接受 b=0 的假设 (4) Durbin-Watson 检验 在对回归模型的诊断中 有一个非常重要的回归模型假设需要诊断 那就是回归模型 中的误差项的独立性 如果误差项不独立 那么对回归模型的任何估计与假设所作出的结 论都是不可靠的 其参数称为 D W 或 D D 的取值范围是 0<D<4 它的统计学意义如下 z 当残差与自变量互为独立时 D 2 z 当相邻两点的残差为正相关时 D<2 z 当相邻两点的残差为负相关时 D 2 (5) 残差图示法 在直角坐标系中 以预测值为 横轴 以 y 与之间 的误差 e t 为纵轴 (或学生化残差与拟和值或一个自变量为纵轴 ) 绘制残差的散点图 如果散点呈现 出明显的规律性 则认为存在自相关性或者非线性或者非常数方差的问题 这样需要对数 据 因变量或自变量进行变换 如果散点呈现随机分布 斜率为零 则认为自相关存在的 可能性不大 独立性假设成立 多元线性回归 1 多元线性回归的基本概念 根据多个自变量的最优组合建立回归方程来预测因变量的回归分析称为多元回归分 析 多元回归分析的模型为 y*=b 0 +b 1 x1+b 2 x2+…+b n xn 其中 y*多为根据所有自变量 X 计算出的估计值 b 0 为常数项 b 1 b 2 …b n 称为 y 对 应于 x 1 x 2 …x n 的偏回归系数 偏回归系数表示假设在其他所有自变量不变的情况下 某 一个自变量变化引起因变量变化的比率 多元线性回归模型也必须满足一元线性回归中所述的假设理论 2 多元线性回归分析中的参数 (l) 复相关系数 R 复相关系数表示自变量 x 与其他的因变量 x i 之间线性相关密切程度 的指标 复相关系数使用字母 R 表示 复相关系数的取值范围在 0 1 之间 其值越接近 1 表示其线性关系越强 而其值越 接近 0 表示线性关系越差 (2) R 2 判定系数与经调整的判定系数 与一元回归方程相同 在多元回归中也使用判定系数 R 2 来解释回归模型中自变量的变 异在因变量变异中所占比率 但是 判定系数的值随着进入回归方程的自变量的个数 (或样本容量的大小 n)的增加而 增大 因此 为了消除自变量的个数以及样本量的大小对判定系数的影响 引进了经调到 的判定系数 (Adjusted R Square) (3) 零阶相关系数 部分相关与偏相关系数 z 这里的零阶相关系数 (Zero-Order)计算所有自变量与因变量之间的简单相关关系 z 部分相关 (Part Correlation)表示 在排除了其他自变量对 x i 的影响后 当一个自变 量进入回归方程模型后 复相关系数的平方增加量 z 偏相关系数 (Partial Correlation)表示 在排除了其他变量的影响后 自变量 x i 与因 变量 y 之间的相关程度 部分相关系数小于偏相关系数偏相关系数也可以用来作 为筛选自变量的指标 即通过比较偏相关系数的大小来判别哪些变量对因变量具 有较大的影响力 3 多元线性回归分析的检验 建立了多元回归方程后 需要进行显著性检验 以确认建立的数学模型是否很好的拟 合了原始数据 即该回归方程是否有效 利用残差分析 确定回归方程是否违反了假设理 论 对各自变量进行检验 其假设是总体的回归方程自变量系数或常数项为 0 以便在回 归方程中保留对因变量 y 值预测更有效的自变量 以便确定数学模型是否有效 (l) 方差分析 与一元回归方程的检验相同 多元回归方程也采用方差分析方法对回归方程进行检 验 检验的假设是总体的回归系数均为 0 或不都为非 0 它是对整个回归方程的显著性检 验 使用统计量 F 进行检验 原理与一元回归的方程分析原理相同 (2) 偏回归系数与常数项的检验 检验的假设是 各自变量回归系数为 0 常数项为零 它使用的统计量是 t t=偏回归系数 /偏回归系数的标准误 (3) 方差齐性检验 方差齐性是指残差的分布是常数 与预测变量或因变量无关 即残差应随机的分布在 一条穿过 0 点的水平直线的两侧 在实际应用中 一般是绘制因变量预测值与学生残差的 散点图 在线性回归 Plots 对话框中的源变量表中 选择 SRESID(学生氏残差 )做 Y 轴 选 择 ZPRED(标准化预测值 )做 X 轴就可以在执行后的输出信息中显示检验方差齐性的散点 图 (4) 回归模型残差的正态性检验 检验的方法多种多样 其中最直观 最简单的方法是残差的直方图和累积概率图 需 要指出的是 希望残差完全服从于正态分布也是不现实的 即使存在很理想的总体数据 样本的残差的分布也只能是近似于正态分布 z 残差的直方图 在 Plots 子对话框中 选择 Histogram 选择项就可以得到残差的直 方图 z 残差的累积概率图 (P-P 图 ) P-P 图是一种概率分布图 它是用来判断一个变量的 分布是否符合一个特定的 检测分布 这个检测分布包括 Beta 分布 Chi-square 分布 Exponential 分布 Gamma 分布 Half-normal 分布 Laplace 分布 Logistic 分布 Lognormal 分布 Normal 分布 Pareto 分布 Student’t 分布 Weibull 分布 Uniform 分布 如果两种分布基本相同 那么在 P-P 图中的点应该围绕在一条斜线的周围 如果两种 分布完全相同 那么在 P-P 图中应该只有一条斜线 通过观察比较观测数据的残差 (曲线 ) 在假设直线 (正态分布 )周围的分布可以对两种分布进行比较 (5) 残差图示法 利用残差图可以判断模型拟合效果 在残差图中 如果各点呈随机状 并绝大部分落 在士 26 范围 (68 的点落在士 6 之中 96 的点落在士 26 之中 )内 说明模型对于数据的 拟合效果较好 如果大部分点落在士 26 范围之外 说明模型对于数据的拟合效果不好 10.1.2 线性回归的功能与应用 线性回归是描述变量之间线性依存关系的定量的统计方法 它可以根据一批样本值来 估计这种线性关系 建立回归方程 用回归方程可进行预测和由易测变量 X 求得难测变量 Y 等等 多元线性回归还可以进行因素分析 回归要求因变量 Y 服从正态分布 X 可以 是随机变动的 也可以是人为取值的变量 在多元线性回归分析中 用户还可根据需要 选用不同筛选自变量的方法 (如 逐步法 向前法 向后法等 ) 在 Analyze 下拉菜单中的 Regresion 菜单项里选择 Linear (线性回归分析 )命 令 如图 10-1 所示 图 10-1 回归菜单 该部分也可同时进行相关分析 运行该过程可输出常用统计量 方差分析表 回归系 数 共线性诊断 奇异值数据 残差统计量 散点图等等 10.1.3 线性回归的应用示例 [例 10-1] 某地一年级 12 名女大学生的体重 (Kg)x 与肺活量 (L)y 数据如下图 10-2 所示 试用直线回归方程描述其关系 1 首先使用系统默认选择项进行线性回归分析 从 Analyze ? Regression ? Linear 打开 Linear 线性回归主对话框 在左侧 的源变量栏中选择 体重 [y] 作为因变量进入 Dependent 栏中 选择 肺活量 [x] 作为自 变量进入 Independent(s)栏中 如图 10-2 所示 其余用默认选择项 单击 OK 按钮运行 该过程 得到结果如下表 10-1 到 10-4 所示 图 10-2 体重与肺活量数据文件 图 10-3 Linear 线性回归主对话框 表1 0-1 引入或剔除的变量 Model Variables Entered Variables Removed Method 1 体重 a Enter a. All requested variables entered. b. Dependent Variable:肺活量 表1 0-2 模型摘要 Model R R Square Adjusted R Square Std. Error of the Estimate 1 .749 a .562 .518 .2878 a. Predictors(Constant),体重 表1 0-3 方差分析 Model Sum of squares df Mean Square F Sig. 1 Regression Residual Total 1.061 .828 1.889 1 10 11 1.061 8.3E-02 12.82 .005 a a. Predictors(Constant),体重 b. Dependent Variable:肺活量 表1 0-4 回归系数 Unstandardized Coefficients Standardized Coefficients Model B Std.Error Beta t Sig. 1 (Constant) 体重 4.130E-04 5.883E-02 .815 .016 .749 .001 3.580 1.000 .005 a. Dependent Variable:肺活量 结果分析如下 表 10-1 引入或剔除的变量 (Variable Entered/Removed) 用强迫引入法 (Enter) 变量 X(体重 )被弓队 表 10-2 模型摘要 (Model Summary) 相关系数 (R)=0.749 判定系数 (R Square R 2 )=0.562 调整判定系数 (Adjusted R Square)=0.518 估计值的标准误 (Std Error of the Estimate)=0.2878 表 10-3 方差分析 (ANOVA) 回归的均方 (Regression-Mean Square)=1.061 剩余的均方 (Residual Mean Square)=0.0828 F=12.817 P=0.005 可认为变量 X 和 Y 之间有直线关系 表 10-4 回归分析中的系数 (Coefficients) 常数项 (Constant)=0.000413 回归系数 (B)=0.05883 回归系数的标准误 (Std Error)=0.016 标准化回归系数 (Beta)=0.749 回归系 数 t 检验的 t 值 =3.58 P=0.005(与方差分析一致 ) 可认为回归系数有显著意义 得直线回 归方程为 y=0.000413+0.05883x 2 使用选择项进行线性回归分析 从 Analyze ? Regression ? Linear 打开 Linear 线性回归主对话框 在左侧 的源变量栏中选择 体重 [y] 作为因变量进入 Dependent 栏中 选择 肺活量 [x] 作为自 变量进入 Independent(s)栏中 如图 10-3 所示 Method Enter 默认选择项 单击 Statistics 按钮 进入对话框如图 10-4 所示 选择以下 5 项 z Estimates 默认选择项 z Model fit 默认选择项 z Confidence intervals 回归系数 B 的 95 可信区间 (95 Confidence interval forB) z Descriptives 变量的均数 标准差 相关系数矩阵及单侧检验 z Casewise diagnostic 中的 All Cases 显示每一例的标准化残差 实测值和预测值 残差 z 单击 Plots 按钮 对话框如图 10-5 所示 选择以下 3 项 z 散点图 选用 DEPENDENT(Y 纵轴变量 )与 *ZPRED(X 横轴变量 )作图 z Histogram 标准化残差的直方图 并给出正态曲线 z Normal Probability plot 标准化残差的正态概率图 (P-P 图 ) 单击 Save 按钮 对话框如图 10-6 所示 选择保存以下新变量 预测值 (Predicted Values)中的 Unstandardized 未标准化的预测值 (新变量为 pre_l)和 S.E. of mean Predictions 预测值的标准误 (新变量为 sep_l) 残差 (Residuals)中的 Unstandardized 末标准化残差 (新变量为 res_l) 预测区间估计 (Prediction Intervals)中 Mean 当自变量为某定值时 预测值的均数的 可信区间 (新变量 lmci_l 为下限 umic_1 为上限 ) Individual 个体值的容许区间 即总体 中 当自变量为某定值时 个体值的波动范围 (新变量 lici_l 为下限 uici_l 为上限 ) Confidence 可信区间 默认为 95 的可信区间 用户可以自己设定 单击 OK 按钮 运行程序 得到输出结果 (部分结果同表 10-1 到 10-4 故不再重复 ) 如下表 10-5 到表 10-8 图 10-6 到 10-9 所示 图 10-4 Statistics 统计 对话框 图 10-5 Plots 图形 对话框 表1 0-5 描述统计量 Mean Std.Deviation N 肺活量 体重 2.9025 49.33 .4144 5.28 12 12 图 10-6 Save 保存新变量 对话框 表1 0-6 相关分析 肺活量 体重 Pearson Correlation 肺活量 体重 1.000 .749 .749 1.000 Sig. (1-tailed) 肺活量 体重 . .003 .003 . N 肺活量 体量 12 12 12 12 表1 0-7 回归诊断 Case Number Std. Residual 肺活量 Predicted Value Residual 1 2 3 4 5 6 7 8 9 10 11 12 .274 -.942 .151 -1.065 .325 -.458 1.627 .550 1.392 -.728 .305 -1.433 2.55 2.20 2.75 2.40 2.80 2.81 3.41 3.10 3.46 2.85 3.50 3.00 2.4711 2.4711 2.7064 2.7064 2.7064 2.9417 2.9417 2.9417 3.0594 3.0594 3.4123 3.4123 7.889E-02 -.2711 4.359E-02 -.3064 9.359E-02 -.1317 .4683 .1583 .4006 -.2094 8.767E-02 -4.123 a. Dependent Variable:肺活量 表1 0-8 残差统计 Minimum Maximum Mean Std.Deviation N Predicted value Std.Predicted value Standard Error of Predicted Value Adjusted predicted Value Residual Std. Residual Stud.Residual Deleted Residual Stud.Deleted Residual Mahal.Distance Cook’s Distance Centered Leverage Value 2.4711 -1.389 8.379E-02 2.4436 -.4123 -1.433 -1.748 -.6138 -1.991 .016 .002 .001 3.4123 1.641 .1649 3.6138 .4683 1.627 1.701 .5117 1.914 2.694 .747 .245 2.9025 .000 .1133 2.9175 -1.5E-16 .000 -.023 -1.5E-02 -.023 .917 .119 .083 .3106 1.000 3.225-02 .3305 .2744 .953 1.050 .3357 1.132 1.065 .208 .0970 12 12 12 12 12 12 12 12 12 12 12 12 a. Dependent Variable:肺活量 Regression Standardized Residual 1.50 1.00 .50 0.00 -.50 -1.00 -1.50 Histogram Dependent Variable: 肺活量 Frequency 5 4 3 2 1 0 Std. Dev = .95 Mean = 0.00 N = 12.00 图 10-7 标准化残差的直方图 Normal P-P Plot of Regression Standardized Residual Dependent Variable: 肺活量 Observed Cum Prob 1.00.75.50.250.00 Expected Cum Prob 1.00 .75 .50 .25 0.00 图 10-8 标准化残差的正态概率 Scatterplot Dependent Variable: 肺活量 Regression Standardized Predicted Value 2.01.51.0.50.0-.5-1.0-1.5 肺活量 3.6 3.4 3.2 3.0 2.8 2.6 2.4 2.2 2.0 图 10-9 散点图 图 10-10 Save 增加新变量到正在使用的数据文件 结果分析 表 10-5 是描述性统计 (Descriptive)的结果 显示变量 y 和 x 的均数 (Mean) 标准差 (Std. Deviation)和例数 (N) 表 10-6 是相关分析的结果 Pearson 相关系数为 0.749 单尾显著性检验 P=0.003 回归系数 95 的可信区间 (Confidence intervals 的结果 )是 0.022~0.095 该结果添加 在表 10-4 的右侧端 表 10-7 是对全部观察单位进行回归诊断 (Casewise Diagnostics-all cases)的结果 显示 每一例的标准化残差 (Std. Residual) 因变量 y 的实测值和预测值 (Predicted value) 以及残 差 (Residual) 可见第 7 例的标准化残差最大 为 1.627(但未超过 2 或 3) 表 10-8 是残差统计 (Residual Statistics 或 Save 或 Plots)的结果 主要显示预测值 (Predicted Value) 标准化预测值 (Std. Predicted value) 残差 Residual 和标准化残差 (Std. Residual)等统计量的最小值 (Minimum) 最大值 (Maximum)均数 (Mean)和标准差 (Std. Deviation) 可见标准化残差的最大绝对值为 1.627 图 10-7 残差的直方图 正态曲线被加载在直方图上 判断标准化残差是否呈正态分 布 因例数少 此例难以作出判断 图 10-8 观察值的累加概率图 (P-P 图 ) 对比观察值的残差分布图与假设的正态分布图 是否相同 如标准化残差呈正态分布 则散点在直线上或靠近直线 图 10-9 散点图 选用 DEPENDENT(Y 纵轴变量 )与 *ZPRED(X 横轴变量 )作图 可见 两变量呈直线趋势 图 10-10 是 Save 的结果 增加新变量到正在使用的数据文件中 可进行直线回归的区 间估计 例如 当 x=50时 预测值均数的标准误 (Sep_l)为 0.08379 95 可信区间为 2.75503(lmci) 到 3.12840(umci) 个体 y值的 95 容许区间为 2.27394(lici)到 3.60949(uici) 10.1.4 线性回归过程 1 线性回归主对话框 (1) 从 Analyze ? Regression ? Linear 打开 Linear 线性回归主对话框 如 图 10-3 所示 (2) 在左侧的源变量栏中选择一数值变量作为因变量进入 Dependent 栏中 选择一个 或更多的变量作为自变量进入 Independent(s)栏中 (3) 如果要对不同的自变量采用不同的引入方法 (例如对某两个变量用强迫引入法 对 其他自变量用向前引入法 ) 可利用 Previous (前 )与 Next (后 )按钮把自变量归类到不 同的自变量块中 (Block) 然后对不同的变量子集选用不同的引入方法 (Method) (4) 在 Method 方法 选择框中确定一种建立回归方程的方法 有 5 种方法可供选择 z Enter(强迫引入法 默认选择项 ) 定义的全部自变量均引入方程 z Remove(强迫剔除法 ) 定义的全部自变量均删除 z Forward(向前引入法 ) 自变量由少到多一个一个引入回归方程 直到不能按检验 水准引入新的变量为止 该法的缺点是 当两个变量一起时效果好 单独时效果 不好 有可能只引入其中一个变量 或两个变量都不能引入 z Backward(向后剔除法 ) 自变量由多到少一个一个从回归方程中剔除 直到不能按 检验水准剔除为止 能克服向前引入法的缺点 当两个变量一起时效果好 单独 时效果不好 该法可将两个变量都引入方程 z Stepwise(逐步引入一剔除法 ) 将向前引入法和向后剔除法结合起来 在向前引入 的每一步之后都要考虑从已引入方程的变量中剔除作用不显著者 直到没有一个 自变量能引入方程和没有一个自变量能从方程中剔除为止 缺点同向前引入法 但选中的变量比较精悍 (5) 为弥补各种选择方法和各种标准的局限性 不妨分别用各种方法和多种引入或剔 除处理同一问题 若一些变量常被选中 它们就值得重视 (6) 容差 (Tolerance)是不能由方程中其它自变量解释的方差所占的构成比 所有进入方 程的变量的容差必须大于默认的容差水平值 (Tolerance 0.0001) 该值愈小 说明该自变量 与其他自变量的线性关系愈密切 该值的倒数为方差膨胀因子 (Variance Inflation Factor) 当自变量均为随机变量时 若它们之间高度相关 则称自变量间存在共线性 在多元线性 回归时 共线性会使参数估计不稳定 逐步选择变量是解决共线性的方法之一 (7) Selection variable(选择变量 ) 可从源变量栏中选择一个变量 单击 Rule 后 通过 该变量大于 小于或等于某一数值 选择进入回归分析的观察单位 2 Statistics(统计 )对话框 单击 Statistics 按钮 进入统计对话框如图 10-4 所示 z Estimates(默认选择项 ) 回归系数的估计值 (B)及其标准误 (Std. Error) 常数 (Constant) 标准化回归系数 (Beta) B 的 t 值及其双尾显著性水平 (Sig.) z Model fit(默认选择项 ) 列出进入或从模型中剔除的变量 显示下列拟合优度统计 量 复相关系数 (R) 判定系数 (R 2 ) 调整 R 2 (Adjusted R Square) 估计值的标准误 以及方差分析表 z Confidence intervals 回归系数 B 的 95 可信区间 (95 Confidence interval for B) z Descriptives 变量的均数 标准差 相关系数矩阵及单尾检验 z Covariance matrix 方差 协方差矩阵 z R squared change R 2 和 F 值的改变 以及方差分析 P 值的改变 z Part and partial correlations 显示方程中各自变量与因变量的零阶相关 (Zero-order 即 Pearson 相关 ) 偏相关 (partial)和部分相关 (part) 进行此项分析要求方程中至少 有两个自变量 z Collinearity diagnostic(共线性诊断 ) 显示各变量的容差 (Tolerance) 方差膨胀因子 (VIC Variance Inflation Factor)和共线性的诊断表 z Durbin-Waston 用于残差分析 z Casewise diagnostic 对标准化残差 (服从均数 =0 标准差 =l 的正态分布 )进行诊断 判断有无奇异值 (Outliers) Outliers 显示标准化残差超过 n 个标准差的奇异值 n=3 为默认值 All Cases 显示每一例的标准化残差 实测值和预测值 残差 3 P1ots 图形 对话框 (1) 单击 Plots 按钮 对话框如图 10-5 所示 P1ots 可帮助分析资料的正态性 线性 和方差齐性 还可帮助检测奇异值或异常值 (2) 散点图 可选择如下任何两个变量为 Y 纵轴变量 与 X 横轴变量 作图 为 获得更多的图形 可单击 Next 按钮来重复操作过程 z DEPENDENT 因变量 z *ZPRED 标准化预测值 z *ZRESID 标准化残差 z *DRESID 删除的残差 z ADJPRED 调整残差 z SRESID Student 氏残差 z SDRESID Student 氏删除残差 (3) Standardized Residual Plots 标准化残差图 z Histogram 标准化残差的直方图 并给出正态曲线 z Normal probality plot 标准化残差的正态概率图 (P-P 图 ) (4) Produce all partial plots 偏残差图 4 Save 保存新变量 对话框 (1) 单击 Save 按钮 对话框如图 10-6 所示 每项选择都会增加新变量到正在使用 的数据文件中 (2) 预测值 (Predicted Values) z Unstandardized 未标准化的预测值 简称预测值 (新变量为 pre_l) z Standardized 标准化的预测值 (新变量为 Zpr_1) z S. E. of mean predictions 预测值的标准误 (新变量为 Sep_l) (3) 残差 (Residuals) z Unstandardized 未标准化残差 (新变量为 res_l) z Standardized 标准化残差 (新变量为 Zre_1) (4) 预测区间估计 (Prediction Intervals) z Mean 是总体中当 X 为某定值时预测值的均数的可信区间 (新变量 lmci_1 为下限 umci_1 为上限 ) z Individual 个体 Y 值的容许区间 即总体中 当 X 为某定值时 个体 Y 值的波 动范围 (新变量 lici_1 为下限 uici_1 为上限 ) Confidence 可信区间 默认为 95 的可信区间 但用户可以自己设定 5 Options 选择项对话框 (1) 单击 Option 按钮 打开 Options 对话框 如图 10-11 所示 (2) 逐步方法准则 (Stepping Method Criteria) z Use probability of F(使用 F 显著水平值 ) 当候选变量中最大 F 值的 P 值小于或等于 引入值 (默认 0.05)时 引入相应的变量 已进入方程的变量中 最小 F 值的 P 值 大于或等于剔除值 (默认 0.10)时 剔除相应的变量 所设定的引入值必须小于剔除 值 用户可设定其它标准 如引入 0.10 剔除 0.11 放宽变量进入方程的标准 z Use F value 使用 F 值 含义同上 z Include constant in equation 线性回归方程中含有常数项 图 10-11 Options 对话框 (3) 缺失值的处理方法 (Missing Value) z Exclude cases listwise 串列删除缺失值 z Exclude cases pairwise 成对删除缺失值 z Replace with mean 以平均数代替缺失值 6 WLS (Weight Least Squares)按钮 (1) 利用加权最小平方法给于观测量不同的权重值 它或许用来补偿采用不同测量方 式时所产生的误差 (2) 单击 WLS 按钮 出现确定加权变量框 将左侧源变量框中的加权变量选入 WLS Weight 框中 10.1.5 多元线性回归实例 [例 10-2] 29 例儿童的血液中血红蛋白 (y,g)与钙 (x1) 镁 (x2) 铁 (x3) 锰 (x4)及铜 (x5) 的含量如下图 10-12 所示 用逐步回归方法筛选对血红蛋白又显著作用的微量元素 (ug) 从菜单 Analyze ? Regression ? Linear 打开 Linear 线性回归主对话框 在 左边的源变量栏中选择 y 作为因变量进入 Dependent 栏中 选择 x1 到 x5 作为自变量进入 Independent(s)栏中 在 Method 栏中选择 Stepwise(逐步引入一剔除法 ) 单击 Options 按钮 进入 Options 对话框 在 Use probability of F 栏中的 Entry 框内 输入 0.10 Remove 框中输入 0.11 单击 Statistics 按钮 进入 Statistics 对话框 选择 Descriptives Casewise diagnostic 中的 Outliers n=3 为默认值 其余使用默认选项 单击 OK 按钮 运行程序 得到结果如表 10-9 到 10-16 所示 图 10-12 多元线性回归数据文件 表1 0-9 描述性统计量 Mean Std. Deviation N 血红蛋白含量 钙含量 镁含量 铁含量 锰含量 铜含量 10.5362 59.7359 34.1962 381.0048 4.34E-02 1.14083 2.1800 9.5551 6.0998 64.0838 .16764 .31367 29 29 29 29 29 29 表1 0-10 相关分析 血红蛋白含量 钙含量 镁含量 铁含量 锰含量 铜含量 Pearson Correlation 血红蛋白含量 钙含量 镁含量 铁含量 锰含量 铜含量 1.000 .097 .569 .863 .146 .217 .097 1.000 .538 .300 -.085 .620 .569 .538 1.000 .635 -.115 .545 .863 .300 .635 1.000 .180 .269 .146 -.085 -.115 .180 1.000 -.063 .217 .620 .545 .269 -.062 1.000 Sig.(1-tailed) 血红蛋白含量 钙含量 镁含量 铁含量 锰含量 铜含量 . .308 .001 .000 .225 .125 .308 . .001 .057 .331 .000 .001 .001 . .000 .276 .001 .000 .057 .000 . .175 .079 .225 .331 .276 .175 .129 .000 .001 .079 .374 N 血红蛋白含量 钙含量 镁含量 铁含量 锰含量 铜含量 29 29 29 29 29 29 29 29 29 29 29 29 29 29 29 29 29 29 29 29 29 29 29 29 29 29 29 29 29 29 29 29 29 29 29 29 表1 0-11 引入或剔除的变量 Model Variables Entered Variables Removed Method 铁含量 钙含量 . . Stepwise(Criteria: Probability-of-F-to-enter<=.100, Probability-of-F-to-remove>=.110). Stepwise(Criteria: Probability-of-F-to-enter<=.100, Probability-of-F-to-remove>=.110). a. Dependent Variable:血红蛋白含量 表1 0-12 模型摘要 Model R R Square A djusted R Square Std. Error of the Estimate 1 2 .863 a .880 b .745 .774 .736 .757 1.1200 1.0753 a. Predictors:(Constant),铁含量 b. Predictors:(Constant),铁含量 钙含量 c. Dependent Variable:血红蛋白含量 表1 0-13 方差分析 Model Sum of Squares df Mean Square F Sig. 1 ?????Regression Residual Total 99.195 33.870 133.064 1 27 28 99.195 1.254 79.075 .000 a 2 ????Regression Residual Total 103.004 30.060 133.064 2 26 28 51.502 1.156 44.545 .000 b a. Predictors:(Constant),铁含量 b. Predictors:(Constant),铁含量 钙含量 c. Dependent Variable:血红蛋白含量 表1 0-14 回归系数 Unstandardized Coefficients Standard Ized Coefficients Model B Std.Error Beta t Sig. 1 (Constant) 铁含量 -.654 2.937E-02 1.275 .003 .863 -.513 8.892 .612 .000 2 (Constant) 铁含量 钙含量 1.074 3.118E-02 -4.0E-02 1.551 .003 .022 .917 -.177 .692 9.381 -1.815 .495 .000 .081 a. Dependent Variable:血红蛋白含量 表1 0-15 模型外的变量 Collinearity Statistics Model Beta In t Sig. Partial Correlation Tolerance 1 钙含量 镁含量 锰含量 铜含量 0.177 a .035a -.010 a -.016 a -1.815 .277 -.098 -.154 .081 .784 .923 .879 -.335 .054 -.019 .030 .910 .597 .968 .928 2 镁含量 锰含量 铜含量 .178b -.036 b .133 b 1.322 -.370 1.122 .198 .714 .273 .256 -.074 .219 .464 .946 .608 a. Predictors in the Model(Constant)铁含量 b. Predictors in the Moed(Constant) 铁含量 钙含量 c. Dependent Variable:血红蛋白含量 表1 0-16 残差统计 Minimum Maximum Mean Std. Deviation N Predicted Value Residual Std. Predicted Value Std. Residual 6.6785 -2.2428 -2.011 -2.086 13.1022 2.0715 1.338 1.927 10.5362 2.052E-15 .000 .000 1.9180 1.0361 1.000 .964 29 29 29 29 c. Dependent Variable:血红蛋白含量 结果分析如下 表 10-9 显示各变量的均数 (mean) 标准差 (Std. Deviation)和例数 (N) 表 10-10 显示各变量间的 Pearson 相关系数和显著性检验单尾 P 值及例数 如 x3 与 y 的相关系数为 0.863 单尾 P 值为 0.000 例数为 29 表 10-11 显示变量的引入和剔除 以及引入和剔除的标准 逐步引入一剔除法 (Stepwise) 最先引入了变量 x3 建立了模型 (Model)1 接着引入了变量 x1 没有变量被剔除 故模型 2 中有变量 x3 和 x1 表 10-12 显示各模型的拟合情况 模型 2 的复相关系数 (R)为 0.880 判定系数 (R square 即 R 2 )为 0.774 调整判定系数 (Adjusted R Square)为 0.757(若作用不显著的变量引入方程 则该系数减少 ) 估计值的标准误 (Std Error of the Estimate)为 1.0753 表 10-13 显示各模型的方差分析结果 模型 2 经方差分析 F=44.545 P=0.000 按 =0.05 水平 认为 y(血红蛋白含量 )与 x3(铁含量 )和 x1(钙含量 )之间有直线关系 表 10-14 显示各模型的偏回归系数 (B) 标准误 (Std Error) 常数 (Constant) 标准化 偏回归系数 (Beta 消除了单位的影响 ) 回归系数假设检验的 t 值和 P 值 (Sig.) 根据模型 2 建立的多元线性回归方程为 y=1.0740 0.04046x1 0.03118x3 方程中的常数项为 1.074 偏回归系数 b1 为 -0.04046 b3 为 0.03118 经 t 检验 b3 和 b1 的 P 值分别为 0.000 和 0.081 按 =0.10 水平 均有显著性意义 表 10-15 显示方程外各模型变量的有关统计量 即 Beta t 值和 P 值 偏相关系数 (Partial Correlation)和共线性统计的容许值 (Collinearity Statistics Tolerance) 可见模型 2 方程外的各 变量偏回归系数 经重检验 P 值均大于 0.10 故不能引入方程 表 10-16 是残差统计的结果 此例标准化残差 (Std. Residual)的绝对值最大为 2.086 没有超过默认值 3 如超过 3 则显示具体观察单位 (Case number)的标准化残差 以帮助发 现奇异值 (或异常值 ) 如引入变量的 P 值定为 0.05 剔除变量的 P 值定为 0.10 此例用 Backward 法可引入 变量 x3 和 x1 用 Forward 和 Stepwise 法只能引入 x3 这提示当 x3 和 x1 两个变量一起时 效果好 如引入变量的 P 值定为 0.10 剔除变量的 P 值定为 0.11 则上述三种方法的结果一致 即都可引入变量 x3 和 x1 10.2 曲线拟合 10.2.1 曲线估计的基本概念 线性回归可以满足许多数据分析 然而线性回归不会对所有的问题都适用 有时因变 量与自变量是通过一个己知或未知的非线性函数关系相联系 尽管有可能通过一些函数的 转换方法 在一定范围内将它们转变为线性关系 但这种转换有可能导致更为复杂的计算 或数据失真 在很多情况下有两个相关的变量 用户希望利用其中的一个变量对另一个变量进行预 测 此时可采用的方法也很多 从简单的直线模型到复杂的时间序列模型 如果不能马上 根据观测量数据确定一种最佳模型 可以利用曲线估计在众多的回归模型中来建立一个简 单而又比较适合的模型 在充分了解观测量数据特性的情况下 可以根据数据的特点选择相应的函数模型 但 是在大多数情况下 对已有的数据在认识上往往是模糊不清的 不能辨别变量之间的准确 关系 这时第一步骤将数据绘制成散点图 观察观测量数据在散点图中的分布情况 并根 据数据具有不同的函数特性和图形的分布特点确定应采用的模型 由于有些函数的图形是 十分接近的 即使对不同的函数图形特点有所了解 也可能在判断上会产生误差 如果数据在图中呈线性分布 此时可以选择线性模型 如果数据的分布不呈线性分布 则可以同时引入其他多种模型 最直接的方法是从 R 2 值的大小以及生成的图形本身进行比 较直至确定最佳模型 自变量与因变量的类型应该属于数值型变量 如果在自变量选择项中选择了时间选择 项 那么曲线估计过程将产生一个时间变量 如果选择了时间选择项 要求因变量是以连 续的时间作为量度的变量 在进行时间分析时 要求数据文件中的每一个观测量所使用的 时间间隔和长度单位是完全统一的 使用图形观察数据的分布情况 以便确定因变量与自变量之间的关系 (线性的 指数的 等 ) 一个好的模型的残差应该是任意分布的 呈现正态的特点 如果使用一个线性模型 因变量必须是正态分布 观测的自变量与因变量的方差分布 应该是一个常数 自变量与因变量之间的关系应该是线性的 并且所有的观测量应该是独 立的 (非共线的 ) 10.2.2 曲线估计的功能与应用 调用此过程可完成下列有关曲线拟合的功能 1 Linear 拟合直线方程 实际上与 Linear 过程的二元直线回归相同 即 Y = b0+ b1*X 2 Quadratic 拟合二次方程 (Y = b0+ b1*X+b2*X 2 ) 3 Compound 拟合复合曲线模型 (Y = b0×b1 x ) 4 Growth 拟合等比级数曲线模型 (Y = e (b0+b1*x) ) 5 Logarithmic 拟合对数方程 (Y = b0+b1*lnX) 6 Cubic 拟合三次方程 (Y = b0+ b1*X+b2*X 2 +b3*X 3 ) 7 S 拟合 S 形曲线 (Y = e (b0+b1/X) ) 8 Exponential 拟合指数方程 (Y = b0 e b1X 9 Inverse 数据按 Y = b0+b1/X 进行变换 10 Power 拟合乘幂曲线模型 (Y = b0X b1 ) 11 Logistic 拟合 Logistic 曲线模型 (Y = 1/ 1/u + b0*b1 x 10.2.3 曲线估计的应用示例 [例 10-3] 某地大气中氰化物测定结果如下表 10-17 所示 试拟合曲线 表1 0-17 氰化物测定结果表 污染距离 x 50 100 150 200 250 300 400 500 氰化物浓度 y 0.687 0.398 0.20 0.121 0.09 0.05 0.02 0.01 建立数据文件如图 10-13 所示 在菜单栏选择 Gaphs ? Scatter 进入 Scatterplot 对话框 单击 Simple 图形按钮 再单击 Define 按钮 在 Define 对话框 将变量 y 放入 Y Axis 栏 变量 x 放入 X Axis 栏 单击 OK 按钮 得散点图如图 10-14 所示 散点图提 示两变量呈指数曲线关系 从 Analyze ? Regression ? Curve Estimation 进入 Curve Estimation 对话框 把左侧源变量栏的变量 y 放 入 Dependents 栏中 变量 x 放入 Independent 栏中 选中 Models 栏中的 Exponetial 选项 点击选中 Display ANOVA Table 选项 如图 10-15 所示 图 10-13 氰化物测定结 果数据文件 污染距离 6005004003002001000 氰化物浓度 .7 .6 .5 .4 .3 .2 .1 0.0 图 10-14 氰化物测定散点图 图 10-15 Curve Estimation 对话框 单击 Save 按钮 进入变量储存对话框 选择 Predicted values Residuals 和 Prediction Intervals 单击 Continue 按钮返回 Curve Estimation 对话框 如图 10-16 所示 图 10-16 Save 对话框 在 Curve Estimation 对话框中 单击 OK 按钮 运行 Curve Estimation 过程 得到 结果如下表 10-18 图 10-17 图 10-18 所示 表1 0-18 线性拟合和指数拟合结果 MODEL: MOD_1.模型 1(线性拟合 ) Dependent variable.因变量 . Y Method.. LINEAR线性模型 Listwise Deletion of Missing Data Multiple R .82090 R Square .67387 Adjusted R Square .61952 Standard Error .14478 Analysis of Variance方差分析 : DF Sum of Squares Mean Square 自由度 平方和 均方 Regression 1 .25987262 .25987262 Residuals 6 .12576938 .02096156 F = 12.39758 Signif F = .0125 -------------------- Variables in the Equation 方程中的系数 ------------------- Variable B SE B Beta T Sig T 回归系数 标准误 标准偏回归系数 T值 P值 X -.001266 .000360 -.820896 -3.521 .0125 (Constant) .505543 .101484 4.982 .0025 MODEL MOD_2 模型 2 指数拟合 Dependent variable.. Y Method.. EXPONENT指数模型 Listwise Deletion of Missing Data 以 Listwise 方法忽略缺失值 Multiple R .99575 复回归系数 R Square .99152 判定系数 Adjusted R Square .99011 调整判定系数 Standard Error .14308 剩余标准差 Analysis of Variance:方差分析 DF Sum of Squares Mean Square 自由度 平方和 均方 Regression 1 14.366011 14.366011 Residuals 6 .122840 .020473 F = 701.69507 Signif F = .0000 -------------------- Variables in the Equation 方程中的回归系数 --------------- Variable B SE B Beta T Sig T 回归系数 B值标准误 标准偏回归系数 T值 p值 X -.009412 .000355 -.995752 -26.490 .0000 (Constant) .929305 .093205 9.971 .0001 The following new variables are being created:以下是新增变量 Name Label 变量名 标签 FIT_1 Fit for Y with X from CURVEFIT, MOD_1 LINEAR ERR_1 Error for Y with X from CURVEFIT, MOD_1 LINEAR LCL_1 95% LCL for Y with X from CURVEFIT, MOD_1 LINEAR UCL_1 95% UCL for Y with X from CURVEFIT, MOD_1 LINEAR FIT_2 Fit for Y with X from CURVEFIT, MOD_1 EXPONENTIAL ERR_2 Error for Y with X from CURVEFIT, MOD_1 EXPONENTIAL LCL_2 95% LCL for Y with X from CURVEFIT, MOD_1 EXPONENTIAL UCL_2 95% UCL for Y with X from CURVEFIT, MOD_1 EXPONENTIAL 氰化物浓度 污染距离 6005004003002001000 .8 .6 .4 .2 0.0 -.2 Observed Linear Exponential 图 10-17 指数拟合和线性拟合的曲线 图 10-18 保存新变量的数据文件 结果分析如下 表 10-18 显示 (1) 方差分析表 z 线性拟合 F=12.39758 Sign if F(P 值 )=0.0125 z 指数拟合 F=701.69507 Sign if F=0.0000 可见指数拟合比线性拟合的方程更为显著 (2) 判定系数 z 线性拟合 R 2 =0.67387 z 指数拟合 R 2 =0.99152 (3) 自变量 x 检验 z 线性拟合 t=-3.521 P=0.0125 z 指数拟合 t=-26.490 P=0.0000 (4) 拟合方程 z 线性拟合 y=0.505543-0.001266x z 指数拟合 lny =ln(0.929305)-0.929305x (5) 新增变量的描述 数据文件增加了 8 个变量 前四个为线性拟合的 后四个为指数拟合的 如图 10-17 所示 10.2.4 曲线估计的 SPSS 实现 1 Curve Estimation 主对话框 从主菜单中选择 Analyze ? Regression ? Curve Estimation 激活 Curve Estimation 主对话框 如图 10-15 所示 (1) Dependent s 因变量栏 (2) Independent 定义自变量选项 z Variable 把左侧源变量栏的某变量放入该栏作为自变量 系统默认值 z Time 以时间序列作为自变量 (3) Case Labels 病例标签栏 把左侧源变量栏的某变量放入该栏 该栏的变量值作为 结果散点图中的点标记 (4) Modelss 曲线模型选择栏 有 11 种类型曲线可供选择 z Linear 线性模型 方程 Y=b0 十 (b1*X) 系统默认值 z Logarithmic 对数曲线模型 方程 Y=b0 (bl*ln(X)) z Inverse 倒数曲线模型 方程 Y=b0 b1/X z Quadratic 二次项曲线模型 方程 Y=b0 bl*X b2*X 2 z Cubic 三次项曲线模型 方程 Y=b0 bl*X b2*X 2 b3* X 3 z Power 幂曲线模型 方程 Y=b0*X b1 或 lnY=lnb0+b1*lnX z Compound 复合曲线模型 方程 Y=b0*b1 x 或 lnY=lnb0+X*lnb1 z S S 形曲线模型 方程 Y=e b0+(b1*X) 或 lnY=b0 b1*X z Logistic Logistic 模型 方程 Y=1/(1/u (b0*(b1 x )))或 ln(1/Y 1/u)=ln(b0) ln(b0 (X*ln(b1))) 其中 u 为上限值 须为正数且大于最大的因变量数值 z Growth 增长曲线模型 方程 Y=e (b0+(b1*X)) 或 lnY b0+(b1*X) z Exponential 指数曲线模型 方程 Y=b0*(e (b1*X) )或 lnY=ln(b0)+(b1*X) (5) Display ANOVA Table 结果中显示方差分析表 (6) Include constant in equation 方程包含常数项 系统默认值 (7) Plot models 绘制曲线拟合图 系统默认值 (8) Save 按钮 变量储存按钮 激活变量储存对话框 2 Save 变量储存对话框 如图 10-16 所示 (1) Save variables(保存变量选项 ) 点击一个或全部选项 可将相应的数值以新变量形 式储存到数据库中 这些变量的定义将在结果中显示 z Predicted values 预测值选项 z Residuals 残差 (观察值与预测值之差 )选项 z Prediction intervals 预测值区间 (上 下限 )选项 z Confidence interval 可信区间选项 (2) Predict Case 预测病例 仅在以时间序列作为自变量时有效 z Predict from estimation period through last case:计算样本中数据的预测值 z Predict through 可计算样本中和样本之后的预测值 仅用于时间序列的数据 Oservation 病例号 10.2.5 非线性回归分析的基本概念 非线性回归过程建立因变量与一组自变量之间的非线性关系 非线性回归不像线性模 型那样有众多约束 非线性模型可以在自变量与因变量之间任意的达成某种模型 这些任 务的完成是依靠迭代估计运算获得 如果了解方程中参数值或者参数值的范围 并且方程 式不能被简单写为参数与几个自变量的乘积时 可以使用非线性回归分析 例如市场研究 中息票的偿还与时间的关系 或者与息票发行情况的关系 健康研究中的财政赤字对寿命 的影响 社会科学研究中人口增长与时间关系以及生物学与生理学研究中有关动物骨骼成 长与时间和营养关系等都是非线性关系 非线性回归模型中的因变量与自变量在一般情况下应该是数值型 像宗教 类变量应 该被重新编码为数值型变量 一般说来如果准确设置了一个能够很好描述因变量与自变量之间关系的函数 那么由 此而得到的结果就是可信的 准确的 另外 准确确定参数初始值也是相当重要的 有时 很可能呈现这种情况 准确的确定了自变量与因变量之间的函数关系 但是设置的初始值 却不理想 就有可能得不到一个较好的方程式 即使得到了一个不错的方程式 它所解决 的对象的范围也有可能是局部的 而不是全体的 如果定义的函数是线性函数 或者可以转换为线性函数 那么就应该使用线性回归过程 10.2.6 非线性回归分析的功能与应用 调用此过程可完成非线性回归的运算 所谓非线性回归 即为曲线型的回归分析 一 些曲线模型我们已在本章前几节中叙及 但在医学研究中 还经常会遇到除本章已叙及外 的曲线模型 对此 SPSS 提供 Nonlinear 过程让用户根据实际需要 建立各种曲线模型以 用于研究变量间的相互关系 在医学中 如细菌繁殖与培养时间关系的研究即可借助 Nonlinear 过程完成 下表 10-19 为一些曲线模型 是在论文中较常见的 提供给用户应用时作参考 表1 0-19 常用非线性方程式模型 模型名称 模型表达式 Asympt. Regression 1 Y = b1 + b2×exp( b3 X ) Asympt. Regression 2 Y = b1 -( b2 × ( b3 X )) Density Y = ( b1 + b2 ×X ) (-1/ b3 ) Gauss Y = b1× (1- b3×exp( -b2 ×X 2 )) Gompertz Y = b1×exp( -b2 ×exp( -b3 ×X )) Johnson-Schumacher Y = b1×exp( -b2 / ( X + b3)) Log Modified Y = ( b1 + b3×X ) b2 Log-Logistic Y = b1 -ln(1+ b2 ×exp( -b3×X )) Metcherlich Law of Dim. Ret. Y = b1 + b2×exp( -b3×X ) Michaelis Menten Y = b1×X /( X + b2 ) Morgan-Mercer-Florin Y = ( b1×b2 + b3×X b4 )/( b2 + X b4 ) Peal-Reed Y = b1 /(1+ b2 ×exp(-( b3×X + b4×X 2 + b5×X 3 ))) Ratio of Cubics Y = ( b1 + b2×X + b3×X 2 + b4×X 3 )/( b5×X 3 ) Ratio of Quadratics Y = ( b1 + b2×X + b3×X 2 )/( b4×X 2 ) Richards Y = b1 /((1+ b3×exp(- b2×X )) (1/ b4 ) ) Verhulst Y = b1 /(1 + b3×exp(- b2×X )) Von Bertalanffy Y = ( b1 (1 - b4 ) - b2×exp( -b3×X )) (1/(1 - b4 )) Weibull Y = b1 - b2×exp(- b3×X b4 ) Yield Density Y = (b1 + b2×X + b3×X 2 ) (-1) 10.2.7 非线性回归分析的应用示例 [例 10-4] 大白鼠在不同缺氧程度 (mmHg)x 条件下 受相同剂量放射线照射后骨髓内坏 死灶 (个 /50 个视野 )y 亦不同 数据如下表 10-20 所示 试进行非线性回归分析 表1 0-20 数据表 x 300 400 500 600 700 760 y 214.5 87.5 92.5 136.6 180.2 212.0 以上表建立数据文件如下图 10-18 所示 绘制散点图 按 10.2.3 小节绘制散点图 得到结果如图 10-19 所示 缺氧程度 800700600500400300200 坏死灶 220 200 180 160 140 120 100 80 图 10-19 数据文件 图 10-20 散点图 图 10-19 散点图提示 两变量呈抛物线关系 为求得初始值 方法如下 消元法 取三对观察值代入二次曲线方程 y=b0 b1*x b2*x 2 214.5=b0 b1*300 b2*300 2 (1) 87.5=b0 b1*400 b2*400 2 (2) 92.5=b0 b1*500 b2*500 2 (3) (2)-(1)式 -127=b1*100 b2*70000 (4) (3)-(1)式 -122=b1*200 b2*160000 (5) 由上述方程可解得 b0 b1 b2 初始值分别为 1387.5 -5.89 0.0066 拟合 拟合二次项曲线方程表达式 y b0 b1*x b2*x 2 在菜单栏中选择 Analyze ? Regression ? Nonlinear 进入 Nonlinear Regression 对话框 单击 Parameter 按钮 进入参数录入对话框 输入初始值 b0=1387.5 b1=-5.89 b2=0.0066 如图 10-20 所示 单击 Continue 按钮 返回 Nonlinear Regression 对话框中 将变量 y 放入因变量 栏 在模型表达式栏中写入曲线模型的数学表达式 b0 b1*x b2*x 2 如图 10-21 所示 单 击 OK 按钮 图 10-21 Parameters 对话框 图 10-22 Nonlinear Regression 对话框 得到结果如下表 10-21 所示 表1 0-21 非线性分析结果 All the derivatives will be calculated numerically. Iteration Residual SS B0 B1 B2 1 371332.0876 1387.50000 -5.8900000 .006600000 1.1 2645.962481 671.996333 -2.2462744 .002186230 2 2645.962481 671.996333 -2.2462744 .002186230 2.1 2645.962481 671.996234 -2.2462739 .002186229 Run stopped after 4 model evaluations and 2 derivative evaluations. Iterations have been stopped because the relative reduction between successive residual sums of squares is at most SSCON = 1.000E-08 Nonlinear Regression Summary Statistics Dependent Variable Y Source DF Sum of Squares Mean Square Regression 3 155652.38752 51884.12917 Residual 3 2645.96248 881.98749 Uncorrected Total 6 158298.35000 (Corrected Total) 5 16217.86833 R squared = 1 - Residual SS / Corrected SS = .83685 Asymptotic 95 % Asymptotic Confidence Interval Parameter Estimate Std. Error Lower Upper B0 671.99623413 155.91632858 175.80089031 1168.1915780 B1 -2.246273917 .624463273 -4.233594754 -.258953080 B2 .002186229 .000581564 .000335434 .004037025 Asymptotic Correlation Matrix of the Parameter Estimates B0 B1 B2 B0 1.0000 -.9865 .9620 B1 -.9865 1.0000 -.9927 B2 .9620 -.9927 1.0000 分析结果如下 判定系数 R 2 为 0.83685 抛物线方程为 y 671.996-2.246*x 0.00219*x 2 10.2.8 非线性回归分析的 SPSS 实现 1 Nonlinear Regression 对话框 在主菜单中选择 Analyze ? Regression ? Nonlinear 进入 Nonlinear Regression 非线性回归分析主对话框 如图 10-21 所示 (1) Parameter 参数显示栏 显示输入的初始值 (2) Dependent 因变量栏 (3) Model Expression 模型表达式栏 输入曲线模型的数学表达式 (4) Functions 函数列表栏 列出可供选择的函数表达式 可根据曲线方程的需要 选 择合适的函数 从该栏选中一定的函数表达式 单击向上的箭头加入模型表达式栏 (5) 数字及运算符栏 单击各数字和运算符 可输入模型表达式栏 以建立数学表达式 (6) Parameters 参数录入按钮 激活 Parameter 对话框 如图 10-20 所示 (7) Loss Loss 函数按钮 激活 Loss 函数对话框 (8) Constraint 参数限制按钮 激活 Constraint 对话框 (9) Save 变量储存按钮 激活 Save 对话框 (10) Options 选择项按钮 激活 Options 对话框 2 Parameters 参数录入对话框 如图 10-20 所示 (1) Name 系数名栏 输入方程系数名 (2) Starting 系数初始值栏 输入系数初始值 (3) Add 添加按钮 将系数名及其初始值加入到参数栏 (4) Change 更改按钮 更改系数初始值 (5) Remove 删除按钮 删除已输入的系数名及其初始值 3 Loss Functiion Loss 函数对话框 如图 10-23 所示 图 10-23 Loss 对话框 (1) Sum of squared residuals 离均差平方和选项 选择此项 采用最小二乘法作参数 估计 采用系统默认值 (2) User-defined loss function 用户自定义 loss 函数项 选择此项时 允许用户自定义 参数估计时的最小化标准 4 Parameter Constraints 参数限制对话框 如图 10-24 所示 (1) Unconstrained 无参数限制选项 系统默认值 (2) Define parameter constraint 参数限制选项 选择此项允许用户自定义参数范围 图 10-24 Parameter Constraint 参数限制对话框 5 Save New Var 变量储存对话框 如图 10-25 所示 图 10-25 Save New Var 变量储存对话框 (1) Predicted values 预测值选项 (2) Residuals 残差 (实测值 预测值 )选项 (3) Derivatives 派生值选项 (4) Loss function values Loss 函数数值选项 6 Options 选择项对话框 如图 10-26 所示 图 10-26 Options 选择项对话框 (1) Bootstrap estimates of standard error 标准误的 Bootstrap 估计 (2) Estimation Method 估计选项 z Sequential quadratic program 用连续二次方程迭代法求解方程 选择该方法后 有以下参数可供设定 均可用系统默认值 Maximum 设定最大迭代次数 设定后为优先项 Step limit 设定参数矢量长度改变的最大允许值 Optimality 设定函数方程显著性 P 值的显示位数 Function 设定要求函数方程要达到的精确度 Infinite step 设定迭代时不能收敛的标识值 z Levenberg –Marquardt 为默认选项 用 Levenberg-Marquardt 迭代法求解方程 有 以下结束迭代的参数可供设定 均可用系统默认值 Maximum iterations 设定最大迭代次数 设定后为优先项 Sum-of-squares 收敛结束的均方标识值 为二级项 Parameter convergence 收敛结束的参数标识值 为三级项 10.3 逻辑回归分析 10.3.1 逻辑分析的基本概念 使用多元线性回归来分析多个自变量与一个因变量的关系 因变量要求正态分布的连 续随机变量 所谓 Logistic 回归 是指因变量为二级计分或二类评定的回归分析 这在医 学研究中经常遇到 如 死亡与否 (即生 死二类评定 )的概率跟病人自身生理状况和所患 疾病的严重程度有关 对某种疾病的易感性的概率 (患病 不患病二类评定 )与个体性别 年龄 免疫水平等有关 这类变量称二项分类变量 (0 1) 如果因变量是二项分类变量 显然不满足正态分布的条件 这时可用 Logistic 回归分析 在 Logistic 回归分析中常把自 变量 (Independent variable)称为协变量 (Covariate) SPSS 10.0 for Windows 增加了可以处理多项逻辑分析的功能 多项的含义是指有时事 物的状态不止两种 用二项分类变量不足以描述 无论是处理二项分类变量还是处理多项分类变量逻辑分析统称为逻辑分析 10.3.2 逻辑分析的功能与应用 从主菜单 Analyze 进入 点击 Regression 展开各种回归命令 可见两个与 Logistic 有关的命令 一为 Binary Logistic 一为 Multinomial Logistic 前者是处理二项分 类变量的 简称二项逻辑分析 后者是处理多项分类变量的 简称多项逻辑分析 本章主 要针对二项逻辑分析来说明逻辑分析的使用方法 多项逻辑分析的使用方法与之相似 调用此过程可完成 Logistic 回归的运算 特别指出 本节介绍的 Logistic 过程 应与日 常所说的 Logistic 曲线模型 (即 S 或倒 S 形曲线 )相区别 用户如果要拟合 Logistic 曲线模型 可调用 Curve Estimation 过程 系统提供 11 种曲线模型 其中含有 Logistic 曲线模型 在一般的多元回归中 若以 P 概率 为因变量 则方程为 P=b0+b1X1+b2X2+…+bkXk, 但用该方程计算时 常会出现 P>1 或 P<0 的不合理情形 为此 对 P 作对数单位转换 即 logitP=ln(P/1-P) 于是 可得到 Logistic 回归方程为 e b0+b1X1+b2X2+…+bkXk P = ——————————— 1+ e b0+b1X1+b2X2+…+bkXk 线性回归可以满足许多数据分析 然而线性回归不会对所有的问题都适用 有时因变 量与自变量是通过一个己知或未知的非线性函数关系相联系 尽管有可能通过一些函数的 转换方法 在一定范围内将它们转变为线性关系 但这种转换有可能导致更为复杂的计算 或数据失真 调用该过程 能够进行 Logistic 回归模型的建立 Logistic 回归曲线的拟合 进行协变 量的筛选 以及各种检验如模型卡方检验 区组变量卡方检验残差检验等等 10.3.3 逻辑分析的应用示例 [例 10-5] 某医师研究男性胃癌患者发生术后院内感染的影响因素 资料如下表 10-22 所示 请通过 Logistic 回归统计方法对主要影响因素进行分析 建立数据文件 定义变量名 术后感染为 y(字符变量 有输入 Y 无输入 N) 年龄为 x1 手术创伤程度为 x2 营养状态为 x3 术前预防性抗菌为 x4(字符变量 有输入 Y 无 输入 N) 白细胞数为 x5 癌肿病理分度为 x6 如图 10-26 所示 表1 0-22 术后院内感染数据表 术后 感染 (有无 ) Y 年龄 (岁 ) X1 手术创伤 程度 5 等级 X2 营养 状态 3 等 级 X3 术前预 防性抗 菌 有 无 X4 白细胞 数 109/L X5 癌肿病理分 度 TNM 得 分总和 X6 有 69 4 2 无 5.6 9 有 72 5 3 无 4.4 6 无 57 3 2 无 9.7 4 无 41 1 1 有 11.2 5 无 32 1 1 有 10.4 5 有 65 3 3 有 7.0 5 无 58 3 2 有 3.1 6 有 54 4 2 无 6.6 6 有 55 2 2 有 7.9 7 无 59 1 1 有 6.0 4 无 64 2 2 无 9.1 6 无 36 1 1 有 8.4 8 无 42 3 1 有 5.3 6 无 48 4 2 有 4.6 5 无 50 1 2 有 12.8 4 图 10-27 术后院内感染数据文件 从 Analyze ? Regression ? Binary Logistic 弹出 Logistic Regression 对话框 如图 10-28 所示 从对话框左侧的变量列表中选 y 点击向右的箭头按钮使之进入 Dependent 框 选 x1 x2 x3 x4 x5 和 x6 点击向右的箭头按钮使之进入 Covariates 框 点击 Method 处的下拉按钮 系统提供 7 种方法 本例选用 Forward: Conditional 法 以便选择有主要作 用的影响因素 图 10-28 Logistic 逻辑回归分析主对话框 点击 Options 按钮 弹出 Logistic Regression:Options 对话框 在 Display 框中选取 At last step 项 要求只显示最终计算结果 如图 10-29 所示 图 10-29 Options 选择项对话框 点击 Continue 按钮返回 Logistic Regression 对话框 再点击 OK 按钮即可 得 到结果如下表 10-23 到表 10-34 所示 表1 0-23 总例数和分析例数 Unweighted Cases a N Percent Selected Cases Included in Analysis Missing Cases Total Unselected Cases Total 15 0 15 0 15 100.0 .0 100.0 .0 100.0 a. If weight is in effect, see classification table for the total number of cases. 表1 0-24 因变量 y 的源编码值和内部编码值 Original Value Internal Value Y n 0 1 表1 0-25 x4 的源编码值和内部编码值 Parameter coding Frequency (1) X4 n Y 5 10 1.000 .000 表1 0-26 模型仅含常数时 y 的预测分类表 Predicted Y Observed y n Percentage Correct Step 0 y y n Overall Percentage 0 0 5 10 .0 100.0 66.7 a. Constant is included in the model. b. The cut value is .500 表1 0-27 Step 0 时方程中包含的变量 B S.E. wald df Sig. Exp(B) Step 0 Constant .693 .548 1.602 1 .206 2.000 表1 0-28 Step 0 时方程中没包含的变量 Score df Sig. Step Variables x1 X2 X3 X4(1) X5 X6 Overall Statistics 5.139 4.974 6.328 2.400 1.438 2.921 9.638 1 1 1 1 1 1 6 .023 .026 .012 .121 .230 .087 .141 表1 0-29 模型系数检验 Chi-square df Sig. Step 1 Step Block Model 8.510 8.510 8.510 1 1 1 .004 .004 .004 Step 2 Step Block Model 6.766 15.276 15.276 1 2 2 .009 .000 .000 表1 0-30 模型概况 Step -2 Log likelihood Cox & Snell R Square Nage1kerke R Square 1 2 10.586 3.819 .433 .639 .601 .887 表1 0-31 模型的预测分类表 Predicted Y Observed y N Percentage Correct Step 1 y y n Overall Percentage 2 0 3 10 40.0 100.0 80.0 Step 2 y y n Overall Percentage 4 0 1 10 80.0 100.0 93.0 a. The cut value is .500 表1 0-32 最终方程中所含的变量 B S.E. wald df Sig. Exp(B) Step X3 1 a constant Step x3 2 b x6 constant -10.071 20.652 -30.517 -10.280 123.405 61.102 122.207 298.053 107.956 1155.107 .027 .029 .010 .009 .011 1 1 1 1 1 .869 .866 .918 .924 .915 .000 9.32E+0.8 .000 .000 3.93E+53 a. Variable (s) entered on step 1:x3. b. Variable (s) entered on step 1:x6. 表1 0-33 最终方程中所不含的变量 Score df Sig. Step Variables X1 X2 X4(1) X5 X6 OVERALL Statistics Step variables x1 x2 x4(1) x5 .690 .909 .533 .298 4.327 7.158 1.932 2.250 .750 .028 1 1 1 1 1 5 1 1 1 1 .406 .340 .465 .585 .038 .209 .165 .134 .387 .868 a. Residual Chi-Squares are not computed because of redundancies. 表1 0-34 第一步第二步执行概况 Improvement Model Step Chi-square df Sig. Chi-square df Sig Correct Class% Variable 1 2 8.510 6.766 1 1 .004 .009 8.510 15.276 1 2 .004 .000 80.0% 93.3% In:X3 IN:X6 a.No more variables can be deleted from or added to the current mode. b. End block:1 上述表提供了有关分析例数 各种检验和最终分析所得结果等情况 但最主要的结果 为表 10-32 表 10-33 表 10-34 所示 第一步自变量 X3 入选 方程分类能力达 80.00% 第二步自变量 X6 入选 方程分类能力达 93.3% 方程有效性经卡方检验 2 =15.276 P=0.000 Logistic 回归的分类概率方程为 e 123.405-30.517X3-10.280X6 P = —————————————— 1+ e 123.405-30.517X3-10.280X6 根据该方程 若一胃癌患者营养状态评分 (X3)为 3 癌肿病理分度 (X6)为 9 则其 P=4.5×10-27 0 这意味着术后将发生院内感染 另一胃癌患者营养状态评分 (X3)为 1 癌 肿病理分度 X6 为 4 则其 P=0.98105 1 这意味着术后将不会发生院内感染 10.3.4 逻辑分析过程 1 Logistic 回归过程对话框 如图 10-28 所示 (1) Dependent 因变量栏 用于放入因变量 因变量可以是数值型或短字符型的二分 变量 (2) Previous Block 1 of Next 设定不同区组 Block 的协变量 可以用不同 的协变量筛选方法分析对不同区组的协变量进行筛选 (3) Covariates 协变量栏 用于放入协变量或一级交互作用的协变量 用 >a*b 按钮 (4) Method 协变量筛选方法选项 可选择七种筛选协变量方法的其中之一 z Enter 所有自变量强制进入回归方程 z Forward: Conditional 以假定参数为基础作似然比概率检验 向前逐步选择自变量 z Forward: LR 以最大局部似然为基础作似然比概率检验 向前逐步选择自变量 z Forward: Wald 作 Wald 概率统计法 向前逐步选择自变量 z Backward: Conditional 以假定参数为基础作似然比概率检验 向后逐步选择自变 量 z Backward: LR 以最大局部似然为基础作似然比概率检验 向后逐步选择自变量 z Backward: Wald 作 Wald 概率统计法 向后逐步选择自变量 (5) Select 按钮 选择按钮 激活选择病例栏 z 放入将要按规则选择病例的变量 z Rule 规则按钮 激活 Set Rule 对话框 设定规则 选择病例变量等于 不 等于 小于 小于或等于 大于 大于或等于某值 (6) Categorical 定义分类协变量按钮 激活定义分类协变量对话框 可定义一个 或多个字符型和数值型变量作为分类变量 (7) Save 储存新变量按钮 激活储存新变量对话框 (8) Options 选择按钮 激活选择对话框 2 Define Categorical Variables 定义分类协变量对话框 如图 10-30 所示 图 10-30 Define Categorical Variables(定义分类协变量 )对话框 (1) Covariates 协变量栏 列出源协变量 (2) Categorical 分类协变量栏 用于放入分类协变量 (3) Change Contrast 改变对照方法选项 z Contrast 栏 对照方法选项 Indicator 比较显示是否具有同类效应 这种对比与传统的 虚拟变量 分组等效 为系统默认值 Deviation 除参照分类外 各分类与总效应比较 Simple 除参照分类外 各分类与参照分类比较 Difference 逆 Helmert 对照 除第一分类外 各分类与以前平均分类效应比较 Helmert 除最后分类外 各分类与以后平均分类效应比较 Repeated 除第一分类外 各分类与以前分类效应比较 Polynomial 假定分类等距 该分类仅用于数值型变量 z Reference 参照方法选项 Last 最后的分类为参照分类 系统默认值 First 第一分类为参照类 3 Save New Variables 储存新变量 对话框 如图 10-31 所示 图 10-31 Save New Variables 保存新变量对话框 (1) Predicted Value 预测值选项 z Probability 每个病例的事件发生的预测概率 z Group membership 基于病例的预测概率归组 (2) Residual 残差选项 z Unstandardized 非标准化残差 观察值与预测值之差 z Logit Logit 单位的残差 使用 Logit 单位的预测模型残差 z Studentized 学生化残差 某病例删除时 模型偏差的改变量 z Standardized 标准化残差 非标准化残差除以其标准差 z Deviance 偏差 基于模型偏差的残差 (3) Influence 预测值影响量度选项 z Cook’ Cook’s 影响统计量 当删除某病例时 全部病例残差改变的量度 z Leverage values Leverage 值 每个观察值对模型拟合优度的相对影响 z Dfbeta(s) Beta 的差值 当删除某病例时 回归系数的改变量 4 Options 选择项对话框 如图 10-29 所示 Statistics and Plot 统计量和图形选项 z Classification plots 显示有关因变量观察值与预测值的分类直方图 z Correlations of esti 显示模型中参数估计的相关矩阵 z Hosmer-Lemeshow goodness-of-f 估计模型拟合优度 特别是在较多协变量或协变 量是连续变量时 z Iteration history 在参数估计过程中 显示每次迭代的系数和对数似然比统计量 z Casewise listing of residuals 显示非标准化残差 预测概率 观察和预测组关系 Outliers outside 显示某个标准差以外的奇异值 默认值是 2 个标准差 All cases 显示所有病例的残差 z Display 显示方法选项 At each step 显示每一步的结果 系统默认值 At last step 显示综合中间过程和最后结果 Probability for Stepwise 协变量引入或删除的概率标准选项 Entry 栏 引入协变量标准 默认值为 0.05 Removal 栏 删除协变量标准 系统默认值为 0.01 Classification 栏 因变量分类界限 系统默认值为 0.5 Maximum 栏 设定最大迭代次数 系统默认值为 20 次 Include constant in m 模型包含常数项 系统默认值 10.4 bCOX 回归分析 10.4.1 COX 回归分析的基本概念 COX 回归分析既是一种回归分析也是一种生存分析 在随访研究中 病人治疗后的生存时间有赖于各种预测变量 如疾病的严重性 治疗 的方法和病人的一般情况等等 研究这些预测变量对生存时间的影响 采用一种特定的回 归模型 Cox 回归模型 它可以分析时间 -事件 (time-event)的数据 也可以分析含有截尾值 (censored value)的数据 10.4.2 COX 回归分析的功能与应用 调用此过程可完成对病例随访资料中事件发生时 点与一系列相关独立变量之间关系 的评价 即建立 Cox 回归模型 (亦称比例风险模型 ) 在 Cox 回归模型中 某一时点 t 除了有一个本底风险量 h0(t)外 第 i 个影响因素可 使该本底风险量 h0(t)增至 e iXi 倍而成为 h0(t)·e iXi 因此如果有 k 个因素同时影响生存过 程 那么时点 t 的风险量 (常称之为风险函数 )表达为 h(t) = h0(t) ·e ( 1X1+ 2X2+...+ kXk) 10.4.3 COX 回归分析的应用示例 [例 10-6] 50 例急性淋巴细胞白血病病人在入院治疗时 取外周血中白细胞数 (千个人 /mm 3 )用 X1 表示 浸润淋巴结 (根据浸润程度分 0 1 2 三级 )用 X2 表示 治疗缓解后 病人有无巩固治疗 (有 =1 无 =0)用 X3 表示 随访取得病人生存时间 t 按月计算 设定状 态变量 S 失效事件取值为 1 截尾取值为 0 工作数据表如图 10-32 所示 试作 Cox 回归 分析 图 10-32 Cox 回归分析数据文件 选择 Analyze ? Survival ? Cox Regression 激活 Cox Regression 对话框 在 Cox Regression 对话框中 从左侧源变量栏中选择因变量 t 放入 Time 栏 选择状态变量 s 放入 Status 栏 选择协变量 x1 和 x3 放入 Covariates 栏 选择分层变量 x2 放入 Strata 栏 如图 10-33 所示 图 10-33 Cox Regression 对话框 选中 Status 状态栏中的状态变量 s(?) 激活 Define Event 按钮 并单击之 进入 Define Event for Status Variables 对话框 在此对话框中的 Single Value 栏中 输入 1 值 如图 10-34 所示 单击 Continue 按钮 返回 Cox Regression 对话框 单击 Plots 按钮 进入 Plots 对话框 在 Plots 对话框中 选择 Survival Hazard Log minus to 和 One minus Survival 如图 10-35 所示 单击 Continue 按钮 返回 Cox Regression 对话框 图 10-34 Define Event for Status Variable 对话框 图 10-35 Plots 对话框 单击 Options 按钮 进入 Options 对话框 在此对话框中 选择 CI for exp(B) Correlation of estim 和 Display baseline function 如图 10-36 所示 单击 Continue 按钮 返回 Cox Regression 对话框 图 10-36 Options 对话框 在 Cox Regression 对话框中 单击 OK 按钮 提交运行该过程 得到结果如下表 10-35 到表 10-42 和图 10-37 到图 10-40 所示 表1 0-35 总例数和分析例数 N Percent Cases available Event a In analysis Censored Total Cases dropped Cases with missing Values Cases with Non-positive time Censored cases Before the earliest Event in a stratum Total 45 5 50 10 0 0 10 60 75.0% 8.3% 83.3% 16.7% .0% .0% 16.7% 100.0% a. Dependent Variable:T 表1 0-36 分层状态 Stratum Event Censored Censored Percent Total 32 13 45 3 2 5 8.6% 13.3% 10.0% 表1 0-37 初始 Beginning 时 Omnibus 检验的模型系数 2-Log Likelihood 227.172 表1 0-38 模型检验 Overall(score) Change From Previous step Change From Previous Block -2 Log Likelihood Chi-square df Sig. Chi-square df Sig. Chi-square df Sig. 199.3 30.217 2 .000 27.890 2 .000 27.890 2 .000 a. Beginning Block Number 0, initial Log Likelihood function:-2 Log likelihood:-227.172 b. Beginning Block Number 1. Method: Enter 表1 0-39 方程中的变量 95% CI for Exp(B) B SE Wald df Sig Exp(B) Lower Upper X1 X3 .001 -1.977 .002 .403 .180 24.098 1 1 .671 .000 1.001 .138 .997 .063 1.005 .305 表1 0-40 回归分析的相关系数 X1 X3 .016 表1 0-41 协变量的平均值 Mean X1 X3 34.496 .500 表1 0-42 各层的生存时间和各种函数 At mean of covariates Time Baseline Cum Hazard Survival SE Cum Hazard X2 .400 = 3.830 0 4.030 4.200 5.000 5.270 5.670 7.070 7.530 7.670 8.330 9.230 11.000 11.770 11.830 11.970 13.160 14.830 15.170 18.230 20.570 21.000 23.770 .054 .112 .173 .238 .308 .383 .465 .550 .637 .821 1.026 1.141 1.271 1.421 1.584 1.766 1.990 2.281 2.628 3.376 3.834 4.322 5.027 .979 .958 .936 .913 .888 .863 .837 .810 .783 .730 .675 .645 .614 .580 .544 .508 .466 .417 .365 .274 .230 .190 .145 .020 .029 .036 .042 .048 .053 .059 .064 .068 .074 .080 .082 .085 .087 .089 .090 .091 .091 .092 .087 .083 .077 .066 .021 .043 .066 .091 .118 .147 .178 .211 .245 .315 .394 .438 .488 .545 .608 .678 .764 .876 1.009 1.296 1.472 1.659 1.930 续表 At mean of covariates Time Baseline Cum Hazard Survival SE Cum Hazard 26.000 28.330 31.330 37.770 66.830 73.570 X 23.730 = 4.000 2 4.170 4.200 7.260 7.330 7.530 7.600 8.300 8.800 11.830 21.870 6.131 7.437 9.032 11.085 13.983 18.968 .206 .329 .471 .646 .871 1.162 1.580 2.329 3.559 5.046 6.953 . .095 .058 .031 .014 .005 .001 .924 .881 .835 .780 .716 .640 .545 .409 .255 .144 .069 .000 .057 .044 .030 .017 .007 .002 .049 .064 .078 .092 .103 .113 .121 .123 .135 .109 .071 . 2.354 2.855 3.467 4.255 5.368 7.281 .079 .126 .181 .248 .334 .446 .606 .894 1.366 1.937 2.669 . Survival Function at mean of covariates T 806040200-20 Cum Survival 1.2 1.0 .8 .6 .4 .2 0.0 -.2 X2 2 0 图 10-37 协变量均数的累计生存函数图 One Minus Survival Function at mean of covariates T 806040200-20 One Minus Cum Survival 1.2 1.0 .8 .6 .4 .2 0.0 -.2 X2 2 0 图 10-38 协变量均数的 1 累计生存图 Hazard Function at mean of covariates T 80706050403020100 Cum Hazard 8 6 4 2 0 -2 X2 2 0 图 10-39 协变量均数的累计风险函数图 LML Function at mean of covariates T 80706050403020100 Log minus log 3 2 1 0 -1 -2 -3 -4 X2 2 0 图 10-40 协变量均数的 LML 函数图 结果分析 表 10-35 显示 总共分析 50 个病例 45 例失效和 5 例截尾 采用 Enter 法引入变量 表 10-36 显示 各分析层的分析例数 失效例数和截尾例数信息 表 10-37 显示 开始时 Omnibus 检验的模型系数 表 10-38 表 10-39 表 10-40 显示 z 模型分析 Overall Previous block 和 Previous step 的 P 值均为 0 以按 0.05 检验水 准 拒绝无效假设 可认为模型中协变量系数全不为 0 或不全为 0 即模型显著 z 模型中的协变量分析 在两个协变量中 按 0.05 检验水准 仅有协变量 X3 显著 P=0.000 回归系数 B=-1.977 标准误 SE=0.403 协变量 X3 的风险度 -0.138 可认为协变量 X3 是一个保护因素 巩固治疗有助于增加 生存时间 协变量 X3 的风险度的 95 CI CIx3= 0.063 0.305 风险函数 h(t)=[h0(t)e (0.001x1 1.977x3) ] 协变量 X3 与 X1 的相关系数 R=0.016 可认为它们不相关 表 10-41 显示 协变量 X1 X3 均数 表 10-42 图 10-37 图 10-38 和图 10-39 的综合分析 z 第 0 层 (即 X2=0 淋巴结无浸润 ) 该层整个生存期大约以 30 个月为界 30 个月之前 生存函数曲线急剧下降和风险函数曲线急剧上升 提示这些病人在 30 个月内陆续死亡 30 个月之后 生存函数和风险函数曲线变化平稳 提示活过 30 个月的病人 以后存 活机会趋向稳定 但是 由于此时的生存率低 死亡率 =1 生存率 故很少病人活过 3 个 月 z 第 2 层 (即 X2=2 二级淋巴结浸润 ) 该层也是生存函数曲线和风险函数曲线 急剧下降和上升 几乎没有平稳期 提示患二级淋巴结浸润的病人更易死亡 生 存期大约一年 图 10-40 显示 两条 LML 函数线不平衡 提示两层比例风险假设不成立 重要结论 z 对生存时间有显著影响的因素 协变量 X3 它是一个保护因素 z 由于两层比例风险假设不成立 可以分层分析 z 预测方程 ho)=h(t)=[h0(t)e (0.001x1 1.977x3) ] 10.4.4 COX 回归分析过程 1 Cox Regression 对话框 如图 10-33 所示 (1) Time 生存时间变量栏 放入生存时间变量 该变量值可以是完全数据 (uncensored) 或不完全数据 (cencored) 也可以用任意时间单位 但不可以是负值 (2) Status 生存状态变量栏 放入生存状态变量且激活 Define Event 按钮 该变量 指示病例的事件是否发生 或数据是否完全 z Define Event 定义事件按钮 激活 Define Event for Status Variable 对话框 (3) Previous Block 1 of Next 设定不同区组 Block 的协变量 可以用不同 的协变量筛选法分析对不同区组的协变量 (4) Covariates 协变量栏 用于放入协变量或一级交互作用的协变量 用 >a*b 按钮 (5) Method 协变量筛选方法选项 可选择七种筛选协变量方法之一 各种筛选方法 的意义与 Logistic 回归相同 (6) Strata 分层变量栏 所谓分层变量即分组变量 通过采用分层变量可以获得各 层分别的生存和风险函数 分层变量可以是短字符型或分类变量 (7) Categorical 定义分类协变量按钮 激活 Define Categorical Covariates 对话框 可定义一个或多个字符型和数值型变量作为分类变量 (8) Plots 显示函数图按钮 激活 Plots 对话框 (9) Save 储存新变量按钮 激活 Save New Variables 对话框 (10) Options 按钮 选择按钮 激活 Options 对话框 2 Define Event for Status Variable 对话框 如图 10-34 所示 Value(s) Indicating Event Has Occurred 表示事件发生选项 z Single value 单值表示事件发生 系统默认值 在其右侧栏中输入某个表示事件 发生的值 除该值以外的其他值均表示事件不发生 z Range of value 范围值表示事件发生 当状态变量为数值型变量时 在其右侧第 一栏和第二栏中分别输入某范围的最小值与最大值 该范围数值表示事件的发生 除该范围以外的其他值均表示事件不发生 z List of values 系列值表示事件发生 在其右侧栏中输入某个表示事件发生的数值 同时激活 Add 按钮 Add 添加按钮 把 List of values 栏中输入的数值加入其右侧栏 该栏内所有数 值均表示事件发生 Change 改变按钮 改变其右侧栏中的数值 Remove 删除按钮 删除其右侧栏中的数值 3 Define Categorical Covariates 对话框 对话框内各项的意义与 Logistic 回归分析的一致 4 Plots 对话框 如图 10-35 所示 (1) Plot Type 绘图类型选项 选择以下任一绘图类型均激活 Covariate Values Plotted 栏 Separate Lines 栏和 Change Value 选项 z Survival 显示累计生存函数图 z Hazard 显示累计风险函数图 z Log minus survival 显示 Log minus Log(LML)图 以 ln( ln)转换后的累计生存函 数估计值绘图 用图视检验比例风险假设 z One minus survival 显示 1 生存函数图 (2) Covariate Values Plotted 协变量值绘图栏 存放将要绘图的协变量 (3) Separate Lines 分离线栏 如果绘图的协变量是分类变量 可以把该分类变量放入 分离线栏 按其各种水手绘图 (4) Change Value 改变绘图值选项 z Mean 按协变量均数绘图 系统默认值 z Value 按设定值绘图 在 Value 右侧栏中输入设定值 z Change 按钮 改变按钮 改变 Covariate Values Plotted 栏中的协变量绘图值 5 Save New Variables 对话框 如图 10-41 所示 (1) Survival 生存函数变量选项 z Function 储存累计生存函数估计值 z Standard error 储存累计生存函数估计值的标准误 z Log minus log 储存 ln(-ln)转换后的累计生存函数估计值 (2) Diagnostics 诊断测量变量选项 z Hazard function 储存累计风险函数估计值 (也称 Cox-Snell 残差 ) z Partial residual 储存最终模型的每个协变量偏残差 可用偏残差与生存时间绘图 来检验比例风险度假设 z DfBeta(s) 删除一个病例时 回归系数估计值的改变量 (3) X * Beta 线性预测分数选项 均数校正协变量值的总和乘以相应参数估计值 图 10-41 Save New Variables 对话框 6 Options 对话框 如图 10-36 所示 (1) Model Statistics 显示模型统计量选项 z CI for exp 风险度 (exp(B))的可信区间 系统默认值为 95 z Correlation of estim 回归系数的相关矩阵 z Display model 显示模型选项 At each step 显示每一步结果 系统默认值 At last step 显示综合中间过程和最后结果 (2) Probability for Stepwise 逐步筛选协变量的概率标准选项 z Entry 引入协变量标准 系统默认值为 0.05 z Removal 删除协变量标准 系统默认值为 0.10 (3) Maximum Iterations 最大迭代次数选项 系统默认值为 20 (4) Display baseline function 显示基准风险函数 生存函数和风险函数选项 10.5 概率单位回归 10.4.1 概率单位回归的基本概念 概率单位回归 (Probit Probability unit)是计算半数效量 (ED 50 Median effect dose)的常 用方法之一 半数效量是指全部实验量有半数产生特定效应所需的某量 例如使全部实验 动物的半数死亡所需的某药剂量称为半数致死量 (LD 50 Median lethal dose) 剂量分组 一 般取 5 到 8 组 要求死亡率在 50 上下约各有一半的组 各剂量组间可呈等差级数 但更 多采用等比级数 (换算成对数时 呈等差级数 ) 对数剂量与反应率的曲线为一条对称的 S 型曲线 若将反应率换算成概率单位 则剂量反应 (或死亡 )曲线直线化 概率单位分析与 Logistic 分析十分接近 事实上当选择 Logit 转换时 统计过程实际上 是 Logistic 运算 一般情况下 概率单位分析更多的运用于有计划的实验中 而 Logistic 统计主要运用于观测研究 输出结果上的差异在于 概率单位分析的输出结果侧重于产生 各种响应比例结果的有效值 而 Logistic 回归过程的统计结果侧重于因变量的取值概率 10.4.2 概率单位回归的功能与应用 调用此过程可完成剂量 -效应关系的分析 通过概率单位使剂量 -效应的 S 型曲线关系 转化成直线 从而利用回归方程推算各效应水平的相应剂量值 10.4.3 概率单位回归的应用示例 [例 10-7] 研究抗疟药环氯胍对小白鼠的毒性 试验结果如下表 10-43 所示 试计算环 氯胍的半数致死剂量 表1 0-43 抗疟药环氯胍对小白鼠毒性原始数据表 剂量 (mg/kg) 动物数 死亡数 12 9 7 6 5 4 3 5 7 19 34 38 12 5 5 6 11 17 12 2 0 以上表建立数据文件 定义变量名 剂量为 DOSE 试验动物数为 OBSERVE 死亡 动物数为 DEAD 如图 10-42 所示 图 10-42 抗疟药环氯胍对小白鼠毒性原始数据文件 从 Analyze ? Regression ? Probit 进入 Probit Analysis 对话框 从对话框 左侧的变量列表中选 dead 点击向右的箭头按钮使之进入 Response Frequency 框 选 observe 点击向右的箭头按钮使之进入 Total Observed 框 选 dose 点击向右的箭头按钮 使之进入 Covariate(s)框 并点击下拉 Transform 菜单 选 Log base 10 项 (即要求对剂量 进行以 10 为底的对数转换 ) 如图 10-43 所示 系统在 Model 栏中提供两种模型 一是概率单位模型 (Probit) 另一是比数比自然对数 模型 (Logit) 本例选用概率单位模型 点击 Options 按钮 弹出 Probit Analysis Options 对话框 在 Natural Response Rate 栏选 Calculate from data 项 要求计算各剂量组的实际反应率 如图 10-44 所示 之后点击 Continue 按钮返回 Probit Analysis 对话框 再点击 OK 按钮即可 图 10-43 Probit Analysis 对话框 图 10-44 Optionst 对话框 得到结果如下 * * * * * * * * * * * * P R O B I T A N A L Y S I S * * * * * * * * * * * * DATA Information 7 unweighted cases accepted. 七个未加权的观察单位纳入分析 0 cases rejected because of missing data. 0 例因缺失值被剔除 0 cases are in the control group. 0 例在对照组中 0 cases rejected because LOG-transform can't be done. 由于对数转换不能进行 0 例被拒 绝 MODEL Information 模型信息 ONLY Normal Sigmoid is requested. 仅接受对称 S 型曲线 Natural Response rate to be estimated 估计自然响应率 CONTROL group is not provided. 没有提供对照组 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - * * * * * * * * * * * * P R O B I T A N A L Y S I S * * * * * * * * * * * * Parameter estimates converged after 14 iterations. 参数估计在迭代 14 次后得到理想结果 Optimal solution found. 得到优化解 Parameter Estimates (PROBIT model: (PROBIT(p)) = Intercept + BX):(参数模型 ) Regression Coeff. Standard Error Coeff./S.E. 回归系数 标准误 DOSE 5.95215 2.39832 2.48180 Intercept Standard Error Intercept/S.E. -4.66313 截距 2.19942 -2.12017 可求得直线方程 PROBIT = - 4.66313 5.95215 X . Estimate of Natural Response Rate = .000000 with S.E. = .26448 Pearson Goodness-of-Fit Chi Square = .833 DF = 4 P = .934 该方程拟合优度 2 检验结果 2 = 0.833 P=0.934 Since Goodness-of-Fit Chi square is NOT significant, no heterogeneity factor is used in the calculation of confidence limits. 由于卡方检验是不显著的 因而在可信区间的计算中没有使用非齐同因素 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - Covariance(below) and Correlation(above) Matrices of Parameter Estimates DOSE NAT RESP DOSE 5.75192 .82926 NAT RESP .52601 .06995 * * * * * * * * * * * * P R O B I T A N A L Y S I S * * * * * * * * * * * * Observed and Expected Frequencies 观察值的实际频数和理论频数 Number of Observed Expected DOSE Subjects Responses Responses Residual Prob 1.08 5.0 5.0 4.804 .196 .96082 .95 7.0 6.0 5.917 .083 .84534 .85 19.0 11.0 12.221 -1.221 .64320 .78 34.0 17.0 16.573 .427 .48745 .70 38.0 12.0 11.688 .312 .30757 .60 12.0 2.0 1.682 .318 .14016 .48 5.0 .0 .171 -.171 .03413 * * * * * * * * * * * * P R O B I T A N A L Y S I S * * * * * * * * * * * * Confidence Limits for Effective DOSE 半数效量的 95 可信区间 95% Confidence Limits Prob DOSE Lower Upper .01 2.46942 .02752 4.27407 .02 2.74406 .04534 4.54351 .03 2.93394 .06223 4.72430 .04 3.08539 .07895 4.86574 .05 3.21433 .09580 4.98445 .06 3.32832 .11295 5.08821 .07 3.43158 .13047 5.18134 .08 3.52676 .14845 5.26651 .09 3.61561 .16694 5.34550 .10 3.69937 .18597 5.41954 .15 4.06733 .29060 5.74092 .20 4.38570 .41395 6.01572 .25 4.67862 .56021 6.26792 .30 4.95831 .73436 6.51010 .35 5.23239 .94261 6.75083 .40 5.50646 1.19286 6.99754 .45 5.78528 1.49529 7.25814 .50 6.07347 1.86306 7.54282 .55 6.37600 2.31299 7.86673 .60 6.69886 2.86587 8.25522 .65 7.04974 3.54439 8.75565 .70 7.43942 4.36395 9.46545 .75 7.88416 5.30688 10.59747 .80 8.41075 6.29069 12.60617 .85 9.06910 7.21514 16.40563 .90 9.97116 8.09412 24.20723 .91 10.20216 8.27760 26.73475 .92 10.45918 8.46892 29.82521 .93 10.74927 8.67177 33.68623 .94 11.08278 8.89128 38.64763 .95 11.47580 9.13511 45.26992 .96 11.95538 9.41572 54.59749 .97 12.57252 9.75590 68.85539 .98 13.44249 10.20577 93.92886 .99 14.93751 10.92195 153.73066 Probit Transformed Responses Log of DOSE 1.0.9.8.7.6.5 Probit 1.5 1.0 .5 0.0 -.5 -1.0 图 10-45 剂量的对数和反应散点图 结果分析如下 回归方程的各参数在经过 14 次叠代运算后确定 即 PROBIT=-4.66313 5.95215 X 该方程拟合优度 2 检验结果 2 =0.833 P=0.934 拟合良好 由上述结果可知剂量对数值 (DOSE) 实际观察例数 (Number of Subjects) 试验动物反 应数 (Observed Responses) 预期反应数 (Expected Responses) 残差 (Residual)和效应的概率 (Prob) 之后 显示各效应概率水平的剂量值及其 95%可信区间值 按本例要求 环氯胍 的半数致死剂量 (即 Prob=0.50 时 )为 6.07347 其 95%可信区间为 1.86305 到 7.54282 由图 10-45 所示 系统输出以剂量对数值为自变量 X 以概率单位为应变量 Y 的回归 直线散点图 从图中各点的分布状态亦可看出 回归直线的拟合程度是很好的 10.4.4 概率单位回归过程 1 Probit Analysis 对话框 如图 10-43 所示 按 Analyze ? Regnssion ? Probit 顺序逐一单击鼠标键 打开 Probit Analysis 对对话框 (1) Response Frequency 栏 选择一个变量作为响应频数变量进入该框中 这个变量用 来对实验刺激作出反应的观测量的数目总和 该变量的值不能为负数 (2) Total Observed 框 选择一个变量作为总观测变量进入该框中 这个变量表示被用于 刺激的观测量总数 这个变量的值不能为负数或是不能小于作为响应频数变量的观测值 (3) Factor 选择一个因变量进入 Factor 框中 如果选择了因子变量则必须对这组变量 给出一个确定的范围 (4) 把一个因变量放入 Factor 框 激活 Define Range 按钮 单击该按钮 打开 Define Range 对话框 如图 10-46 所示 在 Minimum 框中输入分组值的最小值 在 Maximum 框中输入分组值的最大值 单击 Continue 按钮返回主对话框 用 Cancel 按 钮取消设置 Help 按钮获得帮助 (5) Covariate(s)框 选择至少一个协变量进入该框中 这个变量是不同的实验刺激条件 值 如果没有确定进行转换 系统将会自动在分析中给出一控制组 如果对协变量进行转 换 在 Transform 框中选取转换模式 z None 选项 不进行转换 z Log base 10 选项 用以 10 为底的对数进行转换 z Natural log 选项 以 e 为底的自然对数进行转换 (6) 在 model 栏中确定一种分析方式 z Probit 用逆累积标准正态分布的函数来转换响应比例 z Logit 选项 用自然对数为底的奇比率 p/(l-p)来转换响应比例 2 Options 对话框 如图 10-44 所示 单击 Options 按钮 打开 Options 对话框 选择要计算的参数 (l) Statistics 统计量栏 z frequencies 复选项 观测值与预测值的频数以及每一个观测值的残差 z Relative median potency 复选项 显示每一对分组水平的相对中位数潜力以及 95% 的相对中位数的区间 对两组变量来说 相对中位数潜力是指完成 50 反应比例 的计量 相对中位数潜力在未指定因变量或者选择一个以上的协变量的情况下不 能选择它 z Parallelism test 复选项 平行检验 用来检验各分组统计结果具有相同的斜率的假 图 10-46 Define Range 对话框 设 z Fiducial confidence intervals 复选项 如果设置了一组变量 那么将会显示每一组完成从 0.01 到 0.99 反应比例所需的强度 的可信区间 如果拟合化度检测有显著意义 那么置信区间将会与一个非均匀因子一起计 算 如果选择了一个以上的协变量 此选择项不适用 如果选中了恢复选项 那么在 significance level for use of 框中键入一个显著性水平值 那么在以后的计算中 如果计算所得的拟合优度检验小于设定值 Probit 还会选择其他的 纠正方法进行可信区间的计算 如果选择了一个以上的协变量 那么置信区间与相对中位数潜力的计算都不适用 相 对中位数潜力与平行检验 只有在选择了一个因子变量后才是适用的 (2) Natural Response Rate 栏 计算在没有刺激条件下是否会有一个自然的响应率 z None 选项 不计算自然响应率 z Calculate from data 选项 依据现有数据 计算在缺少刺激条件下的响应频率来估 计自然响应比率 数据必须包含刺激强度为零的观测量 z Value 选项 如果了解自然响应频率 那么将其键入 这个数值必须小于 1 (3) Criteria 栏 设置控制这代的参数估计算法 z Maximum iterations 参数框 键入最大迭代步数 当达到所设置的最大迭代数后 迭代停止 z Step limit 参数框 选择参数向量中所允许的最大变化量 z Optimality tolerance 参数框 选择优化容忍度 即损失函数的精确值 思 考 题 1 理解各个回归分析方法的基本概念 对其功能与应用范围要熟练了解 2 对下列数据进行线性回归分析 以 salepric 为因变量 landval improval 为自变量 3 如何判断回归系数的显著水平 判定系数 R 2 的作用是什么 4 学会将非线性回归分析转化为线性回归分析 从这一点出发 思考先做散点图的 意义所在 第11章 聚类与判别 导 言 聚类和判别都是分类学的基本方法 而分类学是人类认识世界的基础科学 试想一想 平时我们对事物的认识有哪一种不是与分类有关的 掌握聚类和判别的方法对进一步运用 统计这一工具来认识世界有着极其重要的意义 聚类有两种基本的方法 快速样本聚类和 分层聚类 判别的分类方法就是先根据事物特点的变量值和它们所属的类求出判别函数 再根据判别函数对未知所属类别的事物进行分类的一种分析方法 11.1 聚类 判别分析及其分析过程 分类学是人类认识世界的基础科学 聚类分析和判别分析是研究事物分类的基本方 法 广泛的用于自然科学研究 社会科学研究 工农业生产各个领域 人们认识事物时 往往先把被认识的对象进行分类 以便寻找其中相同与不同的特征 因而分类学是人们认识世界的基础科学 在医学实践中也经常需要做分类的工作 如根据 病人的一系列症状 体征和生化检查的结果 判断病人所患疾病的类型 或对一系列检查 方法及其结果 将之划分成某几种方法适合用于甲类病的检查 另几种方法适用于乙类病 的检查 等等 统计学中常用的分类统计方法主要是聚类分析与判别分析 聚类分析是直接比较各事物之间的性质 将性质相近的归为一类 将性质差别较大的 归入不同的类 判别分析则先根据已知类别的事物的性质 利用某种技术建立函数式 然 后对未知类别的新事物进行判断以将之归入已知的类别中 聚类分析与判别分析有很大的 不同 聚类分析事先并不知道对象类别的面貌 甚至连共有几个类别也不确定 判别分析 事先已知对象的类别和类别数 它正是在这样的情形下总结出分类方法 用于对新对象的 分类 11.1.1 聚类分析 聚类分析 (Cluster Analysis)是根据事物本身的特性研究个体分类的方法 聚类分析的原 则是同一类中的个体有较大的相似性 不同类的个体差异很大 根据分类对象不同分为样品聚类和变量聚类 样品聚类在统计学中又称为 Q 型聚类 用 SPSS 的术语来说就是对事件 (cases)进行聚 类 或是说对观测量进行聚类 是根据被观测的对象的各种特征 即反映被观测对象的特 征的各变量值进行分类 变量聚类在统计学中有称为 R 型聚类 反映事物特点的变量有很多 我们往往根据所 研究的问题选择部分变量对事物的某一方面进行研究 11.1.2 判别分析 判别分析 (Discriminant)是根据表明事物特点的变量值和它们所属的类求出判别函数 根据判别函数对未知所属类别的事物进行分类的一种分析方法 在自然科学和社会科学的各个领域经常遇到需要对某个个体属于哪一类进行判断 如 动物学家 植物学家对动物 植物如何分类的研究和某个动物 植物属于哪一类 哪一目 哪一纲的判断等 11.1.3 Classify 的功能 SPSS 中进行聚类和判别分析的统计过程 是由菜单 Analyze ? Classify 导出的 选择 Classify 可以显示三个过程命令 1 K-Means Cluster 进行快速聚类过程 2 Hierarchical Cluster 进行样本聚类和变量聚类过程 3 Discriminant 进行判别分析过程 11.2 快速样本聚类 11.2.1 快速样本聚类的基本概念 当要聚成的类数已知时 使用快速聚类过程可以很快将观测量分到各类中去 其特点 是处理速度快 占用内存少 K-Means Cluster 执行快速样本聚类 使用 k 均值分类法对观测量进行聚类 可以完全 使用系统默认值执行该命令 也可以对聚类过程设置各种参数进行人为的干预 例如 可 以事先指定把数据文件的观测量分为几类 指定使聚 类过程中止的判据 或迭代次数等 进行快速样本聚类首先要选择用于聚类分析的变量和类数 参与聚类分析的变量必须 是数值型变量 且至少要有一个 为了清楚地表明各观测量最后聚到哪一类 还应该指定 一个表明观测量特征的变量作为标识变量 例如编号 姓名之类的变量 聚类必须大于等 于 2 但聚类数不能大于数据文件中的观测量数 如果选择了 n 个数值型变量参与聚类分析 最后要求聚类数为 k 那么可以由系统首 先选择 k 个观测量 (也可以由用户指定 )作为聚类的种子 n 个变量组成 n 维空间 每个观测 量在 n 维空间中是个点 K 个事先指定的观测量就是 k 个聚类中心点 也称为初始类中心 按照距这几个类中心的距离最小原则把观测量分派到各类中心所在地类中 形成第一次迭 代形成的 k 类 根据组成每一类的观测量计算各变量均值 每一类中的 n 个均值在 n 维空 间中又形成 k 个点 这就是第二次迭代的类中心 按照这种方法依次迭代下去 直到达到 指定的迭代次数或中止迭代的判据要求时 迭代停止 聚类结束 从上述分析过程可以看 出 K-Means Cluster 不仅是快速样本聚类过程 而且是一种逐步聚类分析 所谓逐步聚类 分析就是先把被聚对象进行初始分类 然后逐步调整 得到最终分类 11.2.2 快速样本聚类的功能与应用 快速聚类适用于大样本的聚类分析 它能快速的把各观测量分到各类中去 11.2.3 快速样本聚类的应用示例 [例 11-1] 为研究儿童生长发育的分期 调查 1253 名 1 个月至 7 岁儿童的身高 (cm) 体重 (kg) 胸围 (cm)和坐高 (cm)资料 资料作如下整理 先把 1 个月至 7 岁划成 19 个月份 段 分月份算出各指标的平均值 将第 1 月的各指标平均值与出生时的各指标平均值比较 求出月平均增长率 (%) 然后第 2 月起的各月份指标平均值均与前一月比较 亦求出月平均 增长率 (%) 结果见下表 欲将儿童生长发育分为四期 故指定聚类的类别数为 4 请通过 聚类分析确定四个儿童生长发育期的起止区间 数据如表 11-1 所示 表11 -1 数据表格 月平均增长率月份 身高 (cm) 体重 (Kg) 胸围 (cm) 坐高 (cm) 1 2 3 4 6 8 10 12 15 18 24 30 36 42 48 54 60 66 72 11.03 5.47 3.58 2.01 2.13 2.06 1.63 1.17 1.03 0.69 0.77 0.59 0.65 0.51 0.73 0.53 0.36 0.52 0.34 50.30 19.30 9.85 4.17 5.65 1.74 2.04 1.60 2.34 1.33 1.41 1.25 1.19 0.93 1.13 0.82 0.52 1.03 0.49 11.81 5.20 3.14 1.47 1.04 0.17 1.04 0.89 0.53 0.48 0.52 0.30 0.49 0.16 0.35 0.16 0.19 0.30 0.18 11.27 7.18 2.11 1.58 2.11 1.57 1.46 0.76 0.89 0.58 0.42 0.14 0.38 0.25 0.55 0.34 0.21 0.55 0.16 建立数据文件 定义变量名 虽然月份分组不作分析变量 但为了更直观地了解聚类 结果 也将之输入数据文件 其变量名为 month 身高 体重 胸围和坐高的变量名分别 为 x1 x2 x3 和 x4 输入原始数据 如图 11-1 所示 激活 Analyze 菜单选 Classify 中的 K-Means Cluster 项 弹出 K-Means Cluster Analysis 对话框 (如图 11-2 所示 ) 从对话框左侧的变量列表中选 x1 x2 x3 x4 点击向 右的按钮使之进入 Variables 框 在 Number of Clusters(即聚类分析的类别数 )处输入需要聚 合的组数 本例为 4 在聚类方法上有两种 Iterate and classify 指先定初始类别中心点 而后按 K-means 算法作叠代分类 Classify only 指仅按初始类别中心点分类 本例选用前 一方法 图 11-1 数据文件 图 11-2 K-Means Cluster Analysis 对话框 为在原始数据库中逐一显示分类结果 点击 Save 按钮弹出 K-Means Cluster Save New Variables 对话框 选择 Cluster membership 项 如图 11-3 所示 点击 Continue 钮 返回 K-Means Cluster Analysis 对话框 本例还要求对聚类结果进行方差分析 故点击 Options 钮弹出来 K-Means Cluster Options 对话框 在 Statistics 栏中选择 ANOVA table 项 如图 11-4 所示 点击 Continue 钮返回 K-Means Cluster Analysis 对话框 再点击 OK 按钮提交运行该过程 图 11-3 Save New Variables 对话框 图 11-4 Options 对话框 得到结果如下表 表11 -2 初始分类中心 Cluster 1 2 3 4 X1 X2 X3 X4 11.03 50.30 11.81 11.27 5.47 19.30 5.20 7.18 3.58 9.85 3.14 2.11 .34 .49 .18 .16 表11 -3 初始分类中心 Change in Cluster Centers Iteration 1 2 3 4 1 2 .000 .000 .000 .000 2.457 .000 1.269 .000 a. Convergence achieved due to no or small distance change. The maximum distance by which any center has changed is .000. The current iteration is 2. The minimum distance between initial centers is 10.520 表11 -4 中止分类中心 Cluster 1 2 3 4 X1 X2 X3 X4 11.03 50.30 11.81 11.27 5.47 19.30 5.20 7.18 2.86 7.75 2.09 2.11 .91 1.47 .48 .66 表11 -5 方差分析 Cluster Error Mean Square df Mean Square df F Sig. X1 X2 X3 X4 37.581 817.116 45.409 46.099 3 3 3 3 .369 1.355 .282 .236 15 15 15 15 101.785 603.259 161.115 195.493 .000 .000 .000 .000 The F tests should be used only for descriptive purposes because the clu : Have been chosen to maximize the differences among cases in different Clusters. The observed significance levels are not corrected for this an Thus cannot be interpreted as tests of the hypothesis that the cluster m are equal. 表11 -6 每类例数 Culster 1 2 3 4 Valid Missing 1.000 1.000 2.000 15.000 19.000 .000 结果分析 表 11-2 到表 11-4 显示 首先系统根据用户的指定 按 4 类聚合确定初始聚类的各变 量中心点 未经 K-means 算法叠代 其类别间距离并非最优 经叠代运算后类别间各变量 中心值得到修正 表 11-5 表 11-6 显示 对聚类结果的类别间距离进行方差分析 方差分析表明 类别 间距离差异的概率值均 <0.001 即聚类效果好 这样 原有 19 类 (即原有的 19 个月份分组 ) 聚合成 4 类 第一类含原有 1 类 第二类含原有 1 类 第三类含原有 2 类 第四类含原有 15 类 具体结果系统以变量名 QCL_1 存于原始数据文件中 如图 11-5 所示 图 11-5 聚类分析最终结果文件 在原始数据文件 (图 11-5)中 我们可清楚地看到聚类结果 参照专业知识 将儿童生 长发育分期定为 第一期 出生后至满月 增长率最高 第二期 第 2 个月起至第 3 个月 增长率次之 第三期 第 3 个月起至第 8 个月 增长率减缓 第四期 第 8 个月后 增长率显著减缓 11.2.4 快速样本聚类过程 1 K-Means Cluster Analysis 对话框 如图 11-2 所示 (1) Variables 分析变量栏 (2) Label Cases 标识变量栏 (3) Number of 框 分类数栏 系统默认值为 2 (4) Method 栏 聚类方法栏 z Iterate and classify 指先定初始类别中心点 而后按 K-means 算法作叠代分类 z Classify only 指仅按初始类别中心点分类 (5) 类中心数据的输入与输出 在 K-Means Cluster Analysis 主对话框中单击 Centers 按钮 展开 Cluster Centers 带 有选择类的对话框 如图 11-6 所示 图 11-6 设置读入 初始 /保存 结果 类中心数据文件的 K-Means Cluster Analysis 主对话框 z Read initial from 复选框 要求使用指定数据文件中的观测量作为初始类中心 选择此项单击鼠标键后 再按其后的 File 按钮 显示选择文件的对话框 指定 文件所在位置 路径 和文件名 按 OK 按钮返回 在 Center 选择框中的 File 按钮后面显示文件全名 包括路径 选择此项 需要事先建立一个数据集 其 中观测量的数目与要聚成的类数相等 每个观测量都由参与聚类的变量组成 z 选择 Write final as 复选框 要求把聚类结果中的各类中心数据保存到指定的文件 中 打开的对话框同 Read initial from 类似 操作方法也相同 (6) 控制聚类分析过程停止的选择项 只有在主对话框中选择了 Iterate and classify 方法进行聚类 才可以进一步选择迭代 参数 在主对话框中单击 Iterate 按钮 展 开设置迭代参数的对话框 如图 11-7 所示 z Maximum Iterations 参数框 限定 K-Means 算法的迭代次数 改变后面框中的数字 图 11-7 指定迭代参数对话框 则改变迭代次数 当达到限定的迭代次数时 即使没有满足收敛判据 迭代也停 止 系统默认值为 10 选择范围为 1 到 999 z Convergence Criterion 参数框 指定限定 K-Means 算法的收敛判据 其值必须大于 等于 0 且小于 1 系统默认值为 0 该项数值为 N 的含义为 当两次迭代计算的 最小的类中心的变化距离小于初始类中心距离的 N%时 迭代停止 z 如果设置了以上两个参数 只要在迭代过程中满足了一个参数 迭代就停止 Convergence Criterion 设置为 0 就是要求 Maximum Iterations 最大迭代次数为迭 代停止的判据 z Use running means 复选框 选中该框 限定在每个观测量被分配到一类后 即刻 计算新的类中心 如果不选择此项 则在完成了所有观测量的一次分配后 再计 算各类的类中心 不选择此项会节省迭代时间 (7) Save New Variables(保存新变量 )对话框 如图 11-3 所示 z 选择 Cluster Member 复选框 建立一个新变量 系统默认变量名为 qxl_1 其值 表示聚类结果 即各观测量被分配到哪一类 其值为 1 2 3…的序号 该变量 存入输入数据文件中 z 选择 Distance from cluster center 复选框 建立一个新变量 系统默认变量名为 qcl_2 聚类结束后 把各观测量距所属类中心间的欧氏距离存入输入数据文件中 (8) Options 对话框 如图 11-4 所示 在此对话框中指定要计算的统计量和对带有缺失值得观测量的处理方式 z 在 Statistics 栏中 可以选择要求计算和输出的统计量有 Initial cluster centers (初始类中心 )复选框 ANOVA table (方差分析表 )复选框 Cluster information for each case(每个观测量的分类信息 )复选框 如分配到哪一类和该 观测量距所属类中心的距离 z 在 Missing Values 栏中选择一种处理带有缺失值观测量的方法 Exclude cases listwise 选项 将出现在 Variables 变量表中变量带有缺失值得观测量从 分析中剔除 Exclude cases pairwise 选项 只有当一个观测量的全部聚类变量值均缺失时 才将其 从分析中剔除 否则 根据所有其他非缺失变量值把它分配到最近的一类中去 11.3 分层聚类 11.3.1 分层聚类的基本概率 聚类的方法有多种 除了 11.2 节中介绍的快速聚类法外 最常用的是分层聚类法 根 据聚类过程不同又分为凝聚法和分解法 分解法 聚类开始把所有个体 (观测量或变量 )都视为属于一大类 然后根据距离和相 似性逐层分解 直到参与聚类的每个个体自成一类为止 凝聚法 聚类开始把参与聚类的每个个体 (观测量或变量 )视为一类 根据两类之间的 距离或相似性逐步合并 直到合并为一个大类为止 无论哪种方法 其聚类原则都是近似的聚为一类 即距离最近或最相似的聚为一类 实际上以上两种方法是方向相反的两种聚类过程 11.3.2 分层聚类的功能与应用 调用此过程可完成系统聚类分析 在系统聚类分析中 用户事先无法确定类别数 系 统将所有例数均调入内存 且可执行不同的聚类算法 系统聚类分析有两种形式 一是对 研究对象本身进行分类 称为 Q 型举类 另一种是对研究对象的观察指标进行分类 称为 R 型聚类 通常情况下 在聚类进行之前 Proximitice 过程先根据反映各类特性的变量对原始数 据进行预处理 即利用标准化方法对原始数据进行一次转换 并进行相似性测度或距离测 度 然后 Cluster 过程根据转换后的数据进行聚类分析 在 SPSS for Windows 中 分层聚 类各方法都包含了 Proximitice 过程对数据的处理和 Cluster 过程对数据的分析 给出的统 计量可以帮助用户确定最好的分类结果 Cluster 过程可以通过 Plot 选择项给出两种统计图 Dendrogram 树形图 Icicle 冰柱图 Cluster 过程的输出项可以选择 还可以建立新变量 把聚类结果即每个个体被分配到 的类号作为新变量的值保存到当前的工作数据文件中 11.3.3 分层聚类的应用示例 [例 11-2] 29 名儿童的血红蛋白 (g/100ml)与微量元素 ( g/100ml)测定结果如表 11-7 所 示 由于微量元素的测定成本高 耗时长 故希望通过聚类分析 (即 R 型指标聚类 )筛选代 表性指标 以便更经济 快捷地评价儿童的营养状态 表11 -7 儿童的血红蛋白与微量元素的测定结果 编号 N0. 钙 X1 镁 X2 铁 X3 锰 X4 铜 X5 血红蛋白 X6 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 54.89 72.49 53.81 64.74 58.80 43.67 54.89 86.12 60.35 54.04 61.23 60.17 69.69 72.28 55.13 70.08 63.05 48.75 52.28 52.21 49.71 61.02 53.68 50.22 65.34 56.39 66.12 73.89 47.31 30.86 42.61 52.86 39.18 37.67 26.18 30.86 43.79 38.20 34.23 37.35 33.67 40.01 40.12 33.02 36.81 35.07 30.53 27.14 36.18 25.43 29.27 28.79 29.17 29.99 29.29 31.93 32.94 28.55 448.70 467.30 425.61 469.80 456.55 395.78 448.70 440.13 394.40 405.60 446.00 383.20 416.70 430.80 445.80 409.80 384.10 342.90 326.29 388.54 331.10 258.94 292.80 292.60 312.80 283.00 344.20 312.50 294.70 0.012 0.008 0.004 0.005 0.012 0.001 0.012 0.017 0.001 0.008 0.022 0.001 0.012 0.000 0.012 0.012 0.000 0.018 0.004 0.024 0.012 0.016 0.048 0.006 0.006 0.016 0.000 0.064 0.005 1.010 1.640 1.220 1.220 1.010 0.594 1.010 1.770 1.140 1.300 1.380 0.914 1.350 1.200 0.918 1.190 0.853 0.924 0.817 1.020 0.897 1.190 1.320 1.040 1.030 1.350 0.689 1.150 0.838 13.50 13.00 13.75 14.00 14.25 12.75 12.50 12.25 12.00 11.75 11.50 11.25 11.00 10.75 10.50 10.25 10.00 9.75 9.50 9.25 9.00 8.75 8.50 8.25 8.00 7.80 7.50 7.25 7.00 建立数据文件 定义变量名 钙 镁 铁 锰 铜和血红蛋白的变量名分别为 x1 x2 x3 x4 x5 x6 之后输入原始数据 如图 11-8 所示 图 11-8 儿童的血红蛋白与微量元素的测定结果数据文件 从 Analyze 菜单 ? Classify 中的 Hierarchical Cluster 项 弹出 Hierarchical Cluster Analysis 对话框 从对话框左侧的变量列表中选 x1 x2 x3 x4 x5 x6 点击向右的箭 头按钮使之进入 Variable(s)框 在 Cluster 处选择聚类类型 其中 Cases 表示观察对象聚类 Variables 表示变量聚类 本例选择 Variables 如图 11-9 所示 图 11-9 Hierarchical Cluster Analysis 对话框 点击 Statistics 按钮 弹出 Hierarchical Cluster Analysis Statistics 对话框 选择 Proximty matrix 要求显示欧氏不相似系数平方矩阵 如图 11-10 所示 点击 Continue 按钮返回 Hierarchical Cluster Analysis 对话框 本例要求系统输出聚类结果的树状关系图 故点击 Plots 按钮弹出 Hierarchical Cluster Analysis Plots 对话框 选择 Dendrogram 项 如图 11-11 所示 点击 Continue 按钮返 回 Hierarchical Cluster Analysis 对话框 图 11-10 Statistics 对话框 图 11-11 Plots 对话框 点击 Method 按钮弹出 Hierarchical Cluster Analysis Method 对话框 系统提供了 7 种聚类方法供用户选择 本例选择类间平均链锁法 (系统默认方法 ) 对选择距离测量技术 时 系统提供了 8 种形式供用户选择 本例选用 Pearson correlation 如图 11-12 所示 点 击 Continue 按钮返回 Hierarchical Cluster Analysis 对话框 再点击 OK 按钮即完成分 析 图 11-12 Method 对话框 得到结果如表 11-7 到表 11-9 和图 11-13 图 11-14 所示 表11 -7 处理数据的基本信息 Cases Valid Missing Total N Percent N Percent N Percent 29 100.0% 0 .0% 29 100.0% a. Correlation between vectors of values used 表11 -8 欧氏不相似系数平方矩阵 Matrix File Input Case X1 X2 X3 X4 X5 X6 X1 X2 X3 X4 X5 X6 .538 .300 .148 .625 .097 .538 .635 -.121 .582 .569 .300 .635 -.271 .265 .863 .148 -.121 -.271 .294 -.323 .625 .582 .265 .294 .248 .097 .569 .863 -.323 .248 表11 -9 聚类的凝聚过程表 Cluster combined Stage cluster First Appears Stage Cluster1 Cluster2 Cluster 1 Cluster2 Next Stage 1 2 3 4 5 3 1 2 1 1 6 5 3 2 4 .863 .625 .602 .338 -.054 0 0 0 2 4 0 0 1 3 0 3 4 4 5 0 Case Number of clusters X4 X6 X3 X2 X5 X1 1 2 3 4 5 X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X X 图 11-13 聚为五类的冰柱图 图 11-14 聚类树形图 结果分析如下 表 11-7 表 11-8 表 11-9 显示 共 29 例样本进入聚类分析 采用相关系数测量技术 先显示各变量间的相关系数 这对于后面选择典型变量是十分有用的 然后显示类间平均 链锁法的合并进程 即第一步 X3 与 X6 被合并 它们之间的相关系数最大 为 0.863 第二步 X1 与 X5 合并 其间相关系数为 0.625 第三步 X2 与第一步的合并项被合并 它们之间的相关系数为 0.602 第四步 它们与第二步的合并项再合并 其间相关系数为 0.338 第五步 与最后一个变量 X4 合并 这个相关系数最小 为 -0.054 图 11-13 显示 按类间平均链锁法 变量合并过程的冰柱图如下 先是 X3 与 X6 合并 接着 X1 与 X5 合并 然后 X3 X6 与 X2 合并 接着再与 X1 X5 合并 最后加上 X4 六个变量全部合并 图 11-14 显示 用更为直观的聚类树状关系图表示 即 X1 X2 X3 X5 X6 先聚合 后再与 X4 聚合 这表明 在评价儿童营养状态时 可在微量元素钙 镁 铁 铜和血红 蛋白 5 个指标中选择一个 再加上微量元素锰即可 其效果与六个指标都是基本等价的 但更经济更迅速 11.3.4 分层聚类过程 1 Hierachical Cluster Analysis 主对话框 如图 11-9 所示 (1) Variable s 栏 存放分析变量栏 (2) Label Cases 栏 存放标识变量 (3) Cluster 栏选择聚类类型 z 选择 Variables 项 要进行变量聚类 z 选择 Cases 项 要进行观测量聚类 2 Method 对话框 如图 11-12 所示 用于确定聚类方法 在主对话框中 用鼠标单击 Method 按钮 展开 Method 分层聚类分析的方法选择 对话框 在对话框中根据需要指定聚类方法 距离测度的方法 对数值进行转换方法 即 标准化数值的方法和对测度的转换方法 (l) 聚类方法选择 用鼠标对准 Cluster Method 框中的向下箭头按钮 单击鼠标键 展开方法菜单 表中 列出可以选择的聚类方法 z Between-groups linkage 类间平均链锁 合并两类的结果使所有的两两项对之间 的平均距离最小 项对的两个成员分别属于不同的类 该方法中使用的是各对之 间的距离 即非最大距离 也非最小距离 z Within-groups linkage 类内平均链锁法 若当两类合并为一类后 合并后的类中 的所有项之间的平均距离最小 两类间的距离即是合并后的类中所有可能的观测 量对之间的距离平方 z Nearest neighbor 最近邻居法 该方法首先合并最近的或最相似的两项 用两类 间最近点间的距离代表两类间的距离 z Furthest neighbor 最远邻居法 用两类之间最远点的距离代表两类之间的距离 也称之为完全连接法 z Centroid clustering 重心法 应与欧氏距离平方法一起使用 像计算所有各项均值 之间的距离那样计算两类之间的距离 该距离随聚类的进行不断减小 z Median clustering 中间距离法 应与欧氏距离平方法一起使用 z Ward's method 离差平方和法 应与欧氏距离平方法一起使用 (2) 对距离的测度方法选择 在 Measure 栏中指定的是 用哪两点间的距离决定是否合并两类 距离的具体计算方 法还根据参与距离的变量类型从以下 3 种对话框选择其一 展开选择菜单后再进行具体方 法的选择 这 3 个对话框分别对应于等间隔测度的变量 (一般为连续变量 ) 计数变量 (一般 为离散变量 )和二值变量 以下为 3 个对话框及其可选择的距离或不相似性测度方法 z Interval 参数框 应用于等间隔测度的变量 单击矩形框右侧的向下箭头展开下拉菜单 在菜单中选择连续变量距离测度的方法 这些方法是 Euclidean distance Euclidean 距离 即两观察单位间的距离为其值差的平方和的平方 根 该技术用于 Q 型聚类 Squared Euclidean distance Euclidean 距离平方 即两观察单位间的距离为其值差的平 方和 该技术用于 Q 型聚类 Cosine 变量矢量的余弦 这是模型相似性的度量 Pearson correlation 相关系数距离 适用于 R 型聚类 Chebychev Chebychev 距离 即两观察单位间的距离为其任意变量的最大绝对差值 该技术用于 Q 型聚类 Block City-Block 或 Manhattan 距离 即两观察单位间的距离为其值差的绝对值和 适用于 Q 型聚类 Minkowski 距离是一个绝对幂的度量 即变量绝对值的第 p 次幂之和的平方根 p 由 用户指定 Customized 距离是一个绝对幂的度量 即变量绝对值的第 p 次幂之和的第 r 次根 p 与 r 由用户指定 z Count 参数框 应用于计数变量 (离散变量 ) 单击参数框右侧的向下箭头 展开下列两种方法选择不相似性测度的方法 Chi-Square measure 选项 卡方测度 用卡方值测度不相似性 该测度是根据两个集的 频数相等的卡方检验 测度产生的值是卡方值的平方根 这是系统默认的 对计数变量的不相似性测度方法 是根据被计算的两个观测量或两个变量总频数计算 其不相似性 期望值来自观测量或变量 (x y)的独立模型 Phi-Square measure 选项 两组频数之间的 2 测度 该测度试图考虑减少样本量对实 际度值的实际预测频率减少的影响 该测度把 2 除以联合频数的平方根 使不相似性的卡 方测度规范化 该测度值与被计算不相似性的两个观测量或两个变量的总频数无关 z Binary 参数框 应用于二值变量 可用单击 Binary参数框右侧的向下箭头展开下拉菜单的方法选择距离或不相似性测度 的方法 首先应该明确 对二值变量 系统默认用 1 表示某特性出现 (或发生 ) 用 0 表示特性 不出现 (或不发生 ) 对二值变量的相似性或不相似性测度都基于一个四格表 如表 11-10 所示 表11 -10 四格表 第二特性 第一特性 发生 不发生 发生 a B 不发生 c d 对二值数据的相似性或不相似性测度或二值距离测度算法很多 大致分为以下几类 匹配系数的计算 包括 RR SM SSI RT JACCARD DICE SS2 KI SS3 与条件概率有关的测度包括 K2 SS4 HAMANN 与预测特性有关的测度包括 Y Q LAMBDA D 其他距离 相关等测度包括 BEUCLID BSEUCLID SIZE PA17ERN BSHAPE OCHIANI SS5 PHI 等 下面给出各相似性或不相似性测度的选择项的解释 Euclidean distance 选项 二值欧氏距离 根据四格表计算 SQRT(b 十 c) b 和 c 表示事 件在一项中发生 在另一项不发生的对角单元 其最小值为 0 无上限 Squared Euclidean distance 选项 二值欧氏距离平方 计算的是不匹配事件的数目 其 最小值为 0 无上限 数值等于 b c Size difference 选项 不对称指数 其值范围在 0 l 之间 Pattern difference 选项 不相似性测度 范围为 0 1 之间 根据四格表计算 bc/n 2 其中 b 和 c 表示与事件在一项中发生 而在另一项中不发生的对角单元 N 是观测量 (或变量 )总数 Variance 选项 方差不相似性测度 根据四格表计算出 (b c)/4n 其中 b 和 c 表示与 事件在一项中发生 而在另一项中不发生的对角单元 n 是观测量 (或变量 )总数 Variance 的值范围为 0 l Dispersion 选项 是一个相似性指数 其范围为 -l 到 l Shape 选项 距离测度 范围无上下限 它不利于匹配的不对称性 Simple matching 选项 匹配数对值的总数的比值 它给匹配与不匹配以相同的权重 Phi 4-point correlation 选项 皮尔逊相关系数二值模拟 其值范围为 -l 到 l Lambda 选项 是一种相似性测度 当预测方向同等重要时 该系数估计的是使用一 项预测另一项的误差降低的比例 其值范围为 0 到 l Anderberg’D 选项 该指数取决于用一项预测另一项 (在两个方向上进行预测 )的误差降 低的实际数值 其值范围为 0 l Dice 选项 这是个指数 该指数中剔除了联合不发生 给匹配的双倍权重 Hamann 选项 相似性测度 该指数是匹配数减去不匹配数后再除以总项数 其值范 围是 -1 到 1 Jaccard 选项 这也是一个不考虑联合缺席的指数 它给匹配与不匹配以相等的权重 Kulczynski 1 选项 这是联合出现与非匹配数的比 该指数有下界 0 无上界 Kulczynski 2 选项 相似性测度 该指数根据某特性在一项中出现的条件概率给出在 其他项中出现的概率 计算该指数时 每一项作为其 他项的预测值时 各值取其平均数 Lane and Williams 选项 根据四格表计算 (b c)/(2a b c) 其中 a 表示与事件在两项 中都发生相对应的单元 b 和 c 表示事件在一项中发生而在另一项中不发生的对角单元 该测度的值的范围为 0 l Ochiai 选项 该指数是余弦相似性测度的二元形式 范围为 0 l Rogers and Tanimoto 选项 是一个给不匹配的双倍权重的指数 Russel and Rao 选项 是内积 (点积 )的二元形式 对匹配与不匹配都给予相等的权重 是二元相似数据的系统默认方法 Sokal and Sneath l 选项 是给匹配以双倍权重的一种指数 Sokal and Sneath 2 选项 是给不匹配以双倍权重的一种指数 而且不考虑联合缺席的情况 Sokal and Sneath 3 选项 是匹配与不匹配的比 该指数下界为 0 无上界 无不匹配 的情况是理论上没有定义的 当值为未定义或大于 9999 999 时 软件给与该指数一个特 定常数 9999.999 Sokal and Sneath 4 选项 同一匹配状态 (某特性出现或不出现 )在另一项出现或不出现 的条件概率 计算该指数时 每一项作为其他项的预测值时 各项值取其平均数 该指数 范围为 0 l Sokal and Sneath 5 选项 该指数是正负匹配的条件概率的几何平均数的平方 它独立 于项编码 其值范围为 0 l Yule’ s Y 选项 该指数是 2 2 表交叉比的函数 且独立于边际总和 范围为 -1 到 l (3) Transform Values 栏 确定标准化的方法 单击 Transform Values 栏右侧向下的箭头按钮 展开标准化方法列表 只有等间隔测 度的数据 (选择了 Interval)或计数数据 (选择了 Counts)才可以进行标准化 对数据进行标准化的可选择的方法有 z None 选项 不进行标准化 是系统默认值 z Z scores 选项 把数值标准化到 Z 分数 标准化后变量均值为 0 标准差为 1 系 统将每一个值减去正被标准化的变量或观测量的均值 再除以其标准差 如果标 准差为 0 则将所有值置为 0 z Range -1 to 1 选项 把数值标准化到 -1 到 +1 范围内 选择该项 对每个值用正在 被标准化的变量或观测量的值的范围去除 如果范围为 0 所有值不变 z Maximum magnitude 选项 把数值标准化到最大值 1 该方法是把正在标准化的变 量或观测量的值用最大值去除 如果最大值为 0 则用最小值的绝对值除再加 1 z Range 0 to l 选项 把数值标准化到 0 到 1 的范围内 对正在被标准化的变量或观 测量的值剪去正在被标准化的变量或观测量的最小值 然后除以范围 如果范围 是 0 将所有变量值或观测量值设置为 0.5 z Mean of 1 选项 把数值标准化到一个均值的范围内 对正在被标准化的变量或观 测量的值除以正在被标准化的变量或观测量的值的均值 如果均值是 0 对变量 或观测量的所有值都加 1 使其均值为 1 z Standard deviation of 1 选项 把数值标准化到单位标准差 该方法对每个值除以正 在被标准化的变量或观测量的标准差 如果标准差为 0 则这些值保持不变 (4) Transform Measure 栏 测度的转换方法选择栏 z Absolute Values 复选项 把距离值取绝对值 当数值符号表示相关方向 且只对 负相关关系感兴趣时 使用此方法进行变换 z Change sign 复选项 把相似性值变为不相似性值或相反 用求反的方法使距离顺 序颠倒 z Rescale to 0 1 range 复选项 通过首先减去最小值 然后除以范围的方法使距离标准化 3 Statistics 对话框 选择要求输出的统计量 如图 11-10 所示 (1) Agglomeration schedule 复选项 凝聚状态表 凝聚状态表显示聚类过程中每一步合 并的类或观测量 被合并的类或观测量之间的距离以及观测量或变量加入到一类的类水平 因此可以根据此表跟踪聚类的合并过程 因为最接近的两类先聚为一类 因此可以通过聚 类过程仔细地查看那些观测量更接近一些 (2) Proximity Matrix 复选项 各项间的距离矩阵 以矩阵形式给出各项之间的距离或相 似性测度值 产生什么类型的矩阵 (相似性矩阵或不相似性矩阵 )取决于在 Method 对话框中 Measure 栏中的选择 如果项数很大 (观测量数或变量数 ) 该选择项产生的输出量也很大 (3) Cluster Membership(类成员栏 ) 显示每个观测量被分派到的类 (即分类结果 各观测量属于哪一类 )或显示若干步凝聚过程 z None 选项 不显示类成员表 是系统默认值 z Single solution 选项 要求列出聚为一定类数的各观测量所属的类 在该选择项右 侧的矩形框中输入限定显示的类数 该数值必须是大于 1 小于等于参与聚类的 观测量或变量总数的整数 例如指定此选择项 并且在其后的矩形框中输入了数 字 3 则会在输出窗中显示聚为三类时每个观测量属于哪一类 z Range of solutions 选项 要求列出某个范围中每一步各观测量所属的类 在该选 择项右侧的矩形框中输入限定显示的类数范围 输入一个最小类数值 (左 )和一个动 类数值 (右 ) 这两个数值必须是不等于 1 的正整数 最大类数值不能大于参与聚类 的观测量数或变量总数 4 Plots 对话框 选择统计图表 如图 11-11 所示 可选择输出的统计图表有两种 一个是树形图 一个是冰柱图 (1) Dendrogram 复选项 树形图 (2) Icicle 冰柱图栏 对于生成什么样的冰柱图还可以进一步用以下选择项确定 z All clusters 选项 聚类的每一步都表现在图中 可用此种图查看聚类的全过程 但如果参与聚类的个体很多会造成图过大 没有必要 可以使用下面一个选择项 限定显示的范围 z Specified range of clusters 选项 指定显示的聚类范围 当选择此项时 该项下面 的选择框加亮 表示等待输入显示范围 在 Start 后的矩形框中输入要求显示聚类 过程的起始步数 在 Stop 后的矩形框中输入显示中止于哪一步 把显示的两步之 间的增量输入到 By 后面的矩形框中 输入到矩形框中的数字必须是正整数 z None 不生成冰柱图 (3) 对于显示方向可以在 Orientation 栏中确定 z Vertical 选项 纵向显示的冰柱图 z Horizontal 选项 显示水平的冰柱图 5 Save New Variables 保存新变量对话框 如图 11-15 所示 聚类分析的结果可以用新变量保存在工作数据文件中 单击主对话框的 Save 按钮 展开相应的对话框 如图 11-15 所示 z None 选项 不建立新变量 z Single solution 选项 即单一结果 生成一个新变量 表明每个个体聚类最后所属 的类 在该项后面的矩形框中指定类数 z Range of solutions 选项 即指定范围内的结果 生成若干个新变量 表明聚为若干个 类时 每个个体聚类后所属的类 在该项后面的矩形框中指定显示范围 即把表示从 第几类显示到第几类的数字分别输入到后面的矩形框和 thred 后面的矩形框中 6 执行 Cluster 过程 点击主对话框中的 OK 按钮即可 图 11-15 Save New Variables 对话框 11.4 判别分析 11.4.1 判别分析的基本概念 判别分析是一种常用的统计分析方法 判别分析是根据观察或测量到若干变量值 判 断研究对象如何分类的方法 例如 医学实践中根据各种化验结果 疾病症状 体征判断 患者患的是什么疾病 体育选材中根据运动员的体形 运动成绩 生理指标 心理素质指 标 遗传因素判断是否选入运动队继续培养 动物 植物分类等都可以用判别分析来解决 是应用计算机进行运动员选材 动物 植物分类以及疾病辅助诊断的主要统计学基础 进行判别分析必须已知观测对象的分类和若干表明观测对象特征的变量值 判别分析 就是要从中筛选出能提供较多信息的变量并建立判别函数 使得利用推导出的判别函数对 观测量判别其所属类别时的错判率最小 判别函数一般形式是 Y a 1 x 1 + a 2 x 2 +……+ a n x n 其中 Y为判别分数 判别值 X 1 X 2 X 3 为反映研究对象特征的变量 a l a 2 a 3 a n 为各变量的系数 也称判别系数 SPSS for Windows 对于分为 m 类的研究对象 建立 m 个线性判别函数 对每个个体 进行判别时 把测试的各变量值代入判别函数 得出判别分数 从而确定该个体属于哪一 类 或者计算属于各类的概率 从而判断该个体属于哪一类 还建立标准化和未标准化的 典则判别函数 11.4.2 判别分析的功能与应用 SPSS for Windows 提供的判别分析过程是 Discriminant 过程 Discriminant 过程根据已知的观测量分类和表明观测量特征的变量值推导出判别函数 并把各观测量的自变量值回代到判别函数中 根据判别函数对观测量所属类别进行判别 对比原始数据的分类和技判别函数所判的分类 给出错分概率 判别分析可以根据类间协方差矩阵 也可以根据类内协方差矩阵 每一已知类的先验 概率可以取其值相等即等于 1/mi m 为已知类数 也可以与各类样本量成正比 判别分析可以根据要求 给出各类观测量的单变量的描述统计量 线性 (费雪 Fisher) 判别函数系数或标准化及本标准化的典则判别函数的系数 类内相关矩阵 类内 类间协 方差矩阵和总协方差矩阵 给出按判别函数判别 (回代 )的各观测量所属类别 带有错分率 的判别分析小结 还可以根据要求生成表明各类分布的区域图和散点图 如果希望把部分 聚类结果存入文件 还可以在工作数据文件中建立新变量 表明观测量按判别函数分派的 类别 按判别函数计算的判别分数和分到各类去的概率 Discriminant 过程的大部分功能都可以通过对话框来指定 还有一些功能可以在 Syntax 窗中给予补充或修改 11.4.3 判别分析的应用示例 [例 11-3]为研究舒张期血压和血浆胆固醇对冠心病的作用 某医师测定了 50~59 岁冠 心病人 15 例和正常人 16 例的舒张压和胆固醇指标 结果如表 11-11 所示 试作判别分析 建立判别函数以便在临床中用于筛选冠心病人 表11 -11 舒张压和胆固醇指标数据表 冠心病人组 正常人组编号 舒张压 kPa x1 胆固醇 mmol/L x2 编号 舒张压 kPa x1 胆固醇 mmol/L x2 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 9.86 13.33 14.66 9.33 12.80 10.66 10.66 13.33 13.33 13.33 12.00 14.66 13.33 12.80 13.33 5.18 3.73 3.89 7.10 5.49 4.09 4.45 3.63 5.96 5.70 6.19 4.01 4.01 3.63 5.96 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 10.66 12.53 13.33 9.33 10.66 10.66 9.33 10.66 10.66 10.66 10.40 9.33 10.66 10.66 11.20 9.33 2.07 4.45 3.06 3.94 4.45 4.92 3.68 2.77 3.21 5.02 3.94 4.92 2.69 2.43 3.42 3.63 建立数据文件如图 11-16 所示 舒张压 胆固醇的变量名分别以 x1 x2 表示 将冠心 病人资料和正常人资料合并 一同输入 而后 再定义一变量名为 result 用于区分冠心病 人资料和正常人资料 即冠心病人资料的 result 值均为 1 正常人资料的 result 值均为 2 图 11-16 舒张压和胆固醇指标数据文件 从 Analyze 菜单 ? Classify ? Discriminant 项 弹出 Discriminant Analysis 对话 框 如图 11-17 所示 从对话框左侧的变量列表中选 result 点击向右的箭头按钮使之进入 Grouping Variable 框 并点击 Define Range 钮 在弹出的 Discriminant Analysis Define Range 对话框 如图 11-18 所示 中 定义判别原始数据的类别区间 本例为两类 故在 Minimum 处输入 1 在 Maximum 处输入 2 点击 Continue 钮返回 Discriminant Analysis 对话框 再从对话框左侧的变量列表中选 x1 x2 点击向右的箭头按钮使之进入 Independents 框 作为判别分析的基础数据变量 系统提供两类判别方式供选择 一类是 Enter Independent together 即判别的原始变量全部进入判别方程 另一类是 Use stepwise method 即采用逐 步的方法选择变量进入方程 本例由于变量数仅为 2 个 倾向让两个变量均进入方程 故 选用 Enter Independent together 判别方式 图 11-17 Discriminant Analysis 主对话框 图 11-18 Define Range 对话框 点击 Statistics 按钮 弹出 Discriminant Analysis Statistics 对话框 在 Descriptive 栏中选 Means 项 要求对各组的各变量作均数与标准差的描述 在 Function Coefficients 栏中选 Unstandardized 项 要求显示判别方程的非标准化系数 如图 11-19 所示 之后 点击 Continue 按钮返回 Discriminant Analysis 对话框 图 11-19 Statistics 对话框 点击 Classify 按钮 弹出 Discriminant Analysis Classification 对话框 在 Plot 栏 选 Combined groups 项 要求作合并的判别结果分布图 在 Display 栏中选 Casewise Results 项 要求对原始资料根据建立的判别方程作逐一回代重判别 同时选 Summary table 项 要求对这种回代判别结果进行总结评价 如图 11-20 所示 之后 点击 Continue 按钮返 回 Discriminant Analysis 对话框 图 11-20 Classification 对话框 点击 Save 按钮 弹出 Discriminant Analysis Save New Variables 对话框 选 Predicted group membership 项要求将回代判别的结果存入原始数据库中 如图 11-21 所示 点击 Continue 按钮返回 Discriminant Analysis 对话框 之后再点击 OK 按钮即完成分析 图 11-21 Save 对话框 得到结果如表 11-12 到表 11-17 表11 -12 数据分析过程简明表 Unweighted Cases N Percent Valid Excluded Missing or Out-of-range group Codes At least one missing discriminating variable Both missing or Out-of-range group Codes and at least one Missing discriminating Variable Total 31 0 0 0 0 31 100.0 .0 .0 .0 .0 100.0 表11 -13 统计量基本信息 Valid N (listwise) RESULT Mean Std.Deviation Unweighted Weighted 1 X1 X2 12.4940 4.8680 1.6406 1.1295 15 15 15.000 15.000 2 X1 X2 10.6287 3.6625 1.0968 .9247 16 16 16.000 16.000 Total X1 X2 11.5313 4.2458 1.6600 1.1823 31 31 31.000 31.000 表11 -14 典型判别函数特征值表 (包括 6 个表 ) Function Eigenvalue % of Variance Cumulative % Canonical Correlation 1 1.239 a 100.0 100.0 .744 a. First 1 canonical discriminant functions were used in the analysis. a Test of Function(s) Wilks’ Lambda Chi-square df Sig. 1 .447 22.571 2 .000 b Function 1 X1 X2 .884 .823 c Function 1 X1 X2 .625 .544 Pooled within-groups correlations between discriminating variables and standardized canonical discriminant functions variables or dered by absolute size of correlation within functiodn. d Function 1 X1 X2 (Constant) .638 .800 -10.753 Unstandardized coeffic: e Function RESULT 1 1 2 1.112 -1.042 Unstandardized canonical discrimiua functions evaluated at group means f 表11 -15 用判别函数对观测量分类的结果 (共有 2 表 ) Processed Exluded Missing or Out-of-range grou Codes At least one miss Discriminating Variable Used in Output 31 0 0 31 a Cases Used in Analysis RESULT Prior Unwei ghted Weighted 1 2 Total .500 .500 1.000 15 16 31 15.000 16.000 31.000 b 表11 -16 对原始数据逐一进行判别分析 Casewise Statistics 1 2** .469 1 .682 .524 1 .318 2.047 -.319 1 1 .706 1 .819 .142 2 .181 3.158 .735 1 1 .549 1 .974 .359 2 .026 7.583 1.711 1 1 .816 1 .861 .054 2 .139 3.694 .880 1 1 .488 1 .978 .480 2 .022 8.107 1.805 1 2** .717 1 .824 .131 1 .176 3.213 -.680 1 2** .516 1 .715 .423 1 .285 2.263 -.392 1 1 .647 1 .792 .209 2 .208 2.880 .655 1 1 .159 1 .995 1.980 2 .005 12.684 2.519 1 1 .231 1 .993 1.438 2 .007 11.246 2.311 1 1 .458 1 .981 .552 2 .019 8.393 1.855 1 1 .487 1 .979 .483 2 .021 8.121 1.807 1 1 .878 1 .880 .023 2 .120 4.005 .959 1 1 .426 1 .647 .633 2 .353 1.847 .317 1 1 .159 1 .995 1.980 2 .005 12.684 2.519 2 2 .210 1 .993 1.573 1 .007 11.620 -2.297 2 1** .755 1 .839 .097 2 .161 3.396 .800 2 1** .361 1 .587 .834 2 .413 1.540 .199 2 2 .544 1 .974 .368 1 .026 7.623 -1.649 2 2 .516 1 .715 .423 1 .285 2.263 -.392 2 2 .305 1 .528 1.053 1 .472 1.273 -.016 2 2 .415 1 .983 .663 1 .017 8.815 -1.857 2 2 .488 1 .978 .482 1 .022 8.115 -1.737 2 2 .732 1 .955 .117 1 .045 6.233 -1.385 2 1** .294 1 .516 1.099 2 .484 1.224 .064 2 2 .939 1 .896 .006 1 .104 4.319 -.966 2 2 .859 1 .874 .032 1 .126 3.908 -.865 2 2 .448 1 .981 .575 1 .019 8.484 -1.801 2 2 .334 1 .988 .934 1 .012 9.739 -2.009 2 2 .865 1 .876 .029 1 .124 3.937 -.872 2 2 .393 1 .985 .730 1 .015 9.054 -1.897 C a s e N u m b e r 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 Original Actual Group Predict ed Group p d f P(D>d | G=g) P(G=g | D=d) Squared Mahalano bis Distance to Centroid Highest Group G r o u p P(G=g | D=d) Squared Mahalan obis Distanc e to Centroi d Second Highest Group Function 1 Discrimi nant Scores Misclassified case **. 表11 -17 预测分类结果小结 Predicted Group Membership RESULT 1 2 Total Count 1 2 12 3 3 13 15 16 Origina % 1 2 80.0 18.8 20.0 81.3 100.0 100.0 a. 80.6% of original grouped cases correctly classified. 图 11-22 增加表示回归判别结果的新变量的数据文件 分析结果如下 表 11-12 表 11-13 显示 系统处理数据简明表 数据按变量 RESULT 分组 共有 31 个样本作为判别基础数据进入分析 其中第一组 15 例 第二组 16 例 同时 分组给出各 变量的均数 (means)与标准差 (standard deviations) 表 11-14 为典型判别方程的方差分析结果 其特征值 (Eigenvalue)即组间平方和与组内 平方和之比为 1.239 典型相关系数 (Canonical Corr)为 0.744 Wilks 值为 0.447 经 2 检验 2 为 22.571 P<0.000 用户可通过判别方程的标准化系数 确定各变量对结果的作用大小 如本例舒张压 (X1) 的标准化系数 (0.884)大于胆固醇 (X2)的标准化系数 (0.823) 因而舒张压对冠心病的影响作 用大于胆固醇 考察变量作用大小的另一途径是使用变量与函数间的相关系数 本例显示 X1 的变量与函数间的相关系数为 0.625 X2 为 0.544 同样表明舒张压对冠心病的影响作 用大于胆固醇 表 11-15 和表 11-16 为原始数据逐一回代的判别结果和预测分类结果的显示 其中病 人组有 3 人被错判 (编号为 1 6 7 打 **者 ) 正常人组有 3 人被错判 (编号为 17 18 25 打 **者 ) 接着用分布图的形式显示判别结果 图中 1 代表病人 2 代表正常人 每四个 1 或 2 代表一个人 图中可见 有三个病人跨过 0 界进入负值区 被错判为正常人 也有三 个正常人跨过 0 界进入正值区 被错判为病人 最后系统对回代判别的情况作评价 即病 人组判别正确率为 80.0% 正常人组为 81.3% 总判别正确率为 80.65% 根据系统显示的非标准化判别方程系数 得到判别方程为 D=0.638X1 + 0.800X2 - 10.753 依此方程 病人组的中心得分点为 1.112 正常人组的中心得分点为 -1.042 本例为二 类判别 二类判别以 0 为分界点 若将某人的舒张压和胆固醇值代入判别方程 求出的判 别分 >0 的为冠心病人 判别分 <0 的为正常人 图 11-22 显示 系统提示将判别回代的结果以变量名 DIS_1 存于原始数据库中 11.4.4 判别分析过程 1 Discriminant Analysis 判别分析主对话框 如图 11-17 所示 (1) 选择分类变量及其范围 在主对话框中左面的矩形框中选择表明已知的观测量所属类别的变量 (一定是离散变 量 ) 按上面的一个向右的箭头按钮 使该变量名移到右面的 Grouping Variable 框中 此时 矩形框下面的 Define Range 按钮加亮 按该按钮 屏幕显示一个小对话框如图 11-18 所 示 供指定该分类变量的数值范围 在 Minimum 框中输入该分类变量的最小值 在 Maximum 框中输入该分类变量的最大 值 按 Continue 按钮 返回主对话框 (2) 指定判别分析的自变量 在主对话框的左面的变量表中选择表明观测量特征的变量 按下面一个箭头按钮 把 选中的变量移到 Independents 矩形框中 作为参与判别分析的变量 (3) 选择观测量 如果希望使用一部分观测量进行判别函数的推导 而且有一个变量的某个值可以作为 这些观测量的标识 则用 Select 功能进行选择 操作方法是 单击 Select 按钮 展开 Selection Variable 选择框 如图 11-23 所示 并从变量列表框中选择变量移入该框中 再单击 Selection Variable 选择框右侧的 Value 按钮 展开 Set Value(子对话框 )对话框 如图 11-24 所示 键入标识参与分析的观测量所 具有的该变量值 一般均使用数据文件中的所有合法观测量 此步骤可以省略 (4) 选择分析方法 在主对话框中自变量矩形框下面有两个选择项 被选中的方法前面的圆圈中加有黑 点 这两个选择项是用于选择判别分析方法的 z Enter independent together 选项 当认为所有自变量都能对观测量特性提供丰富的 信息时 使用该选择项 选择该项将不加选择地使用所有自变量进行判别分析 建立全模型 不需要进一步进行选择 z Use stepwise method 选项 当不认为所有自变量都能对观测量特性提供丰富的信 息时 使用该选择项 因此需要判别贡献的大小再进行选择 当鼠标单击该项时 Method 按钮加亮 可以进一步选择判别分析方法 图 11-23 展开 Selection Variable 对话框的主对话框 图 11-24 Set Value 子对话框 2 Method 对话框 如图 11-25 所示 单击 Method 按钮 展开 Stepwise Method 对话框 图 11-25 Stepwise Method 对话框 (1) Method 栏 选择进行逐步判别分析的方法 可供选择的判别分析方法有 z Wilks’lambda 选项 每步都是 Wilk 的 概计量最小的进入判别函数 z Unexplained variance 选项 每步都是使各类不可解释的方差和最小的变量进入判 别函数 z Mahalanobis’distance 选项 每步都使靠得最近的两类间的 Mahalanobis 距离最大的 变量进入判别函数 z Smallest F ratio 选项 每步都使任何两类间的最小的 F 值最大的变量进入判刑函数 z Rao’s V 选项 每步都会使 Rao V 统计量产生最大增量的变量进入判别函数 可以 对一个要加入到模型中的变量的 V 值指定一个最小增量 选择此种方法后 应该 在该项下面的 V-to-enter 后的矩形框中输入这个增量的指定值 当某变量导致的 V 值增量大于指定值的变量后进入判别函数 (2) Criteria 栏 选择逐步判别停止的判据 可供选择的判据有 z Use F value 选项 使用 F 值 是系统默认的判据 当加人一个变量 (或剔除一个变 量 )后 对在判别函数中的变量进行方差分析 当计算的 F 值大于指定的 Entry 值 时 该变量保留在函数中 默认值是 Entry 为 3.84 当该变量使计算的 F 值小于 指定的 Removal 值时 该变量从函数中剔除 默认值是 Removal 为 2.71 即当被 加入的变量 F 值为 3.84 时才把该变量加入到模型中 否则变量不能进入模型 或 者 当要从模型中移出的变量 F 值 2.71 时 该变量才被移出模型 否则模型中 的变量不会被移出 设置这两个值时应该注意 Entry 值 Removal 值 z Use Probability of F 选项 用 F检验的概率决定变量是否加入函数或被剔除而不是 用 F 值 加入变量的 F 值概率的默认值是 0.05(5 ) 移出变量的 F 值概率是 0.10(10 ) Removal 值 (移出变量的 F 值概率 ) Entry 值 (加入变量的 F 值概率 ) (3) Display 栏 显示选择的内容 对于逐步选择变量的过程和最后结果的显示 可以通过 Display 栏中的两项进行选择 z Summary of steps 复选项 要求在逐步选择变量过程中的每一步之后显示每个变量 的统计量 z F for Pairwise distances 复选项 要求显示两两类之间的两两 F 值矩阵 3 Statistics 对话框 指定输出的统计量 如图 11-19 所示 可以选择的输出统计量分为以下 3 类 (l) 描述统计量 在 Descriptives 栏中选择对原始数据的描述统计量的输出 z Means 复选项 可以输出各类中各自变量的均值 MEAN 标准差 std Dev 和各自变 量总样本的均值和标准差 z Univariate ANOV 复选项 对各类中同一自变量均值都相等的假设进行检验 输出 单变量的方差分析结果 z Box’s M 复选项 对各类的协方差矩阵相等的假设进行检验 如果样本足够大 表明差异不显著的 p 值表明矩阵差异不明显 (2) Function coefficients 栏 选择判别函数系数的输出形式 z Fisherh’s 复选项 可以直接用于对新样本进行判别分类的费雪系数 对每一类给 出一组系数 并给出该组中判别分数最大的观测量 z Unstandardized 复选项 未经标准化处理的判别系数 (3) Matrices 栏 选择自变量的系数矩阵 z Within-groups correlation matrix 复选项 即类内相关矩阵 它是根据在计算相关矩 阵之前将各组 (类 )协方差矩阵平均后计算类内相关矩阵 z Within-groups covariance matrix 复选项 即计算并显示合并类内协方差矩阵 是将 各组 (类 )协方差矩阵平均后计算的 区别于总协方差阵 z Separate-groups covariance matrices 复选项 对每类输出显示一个协方差矩阵 z Total covariance matrix 复选项 计算并显示总样本的协方差矩阵 4 Classification 对话框 指定分类参数和判别结果 如图 11-20 所示 在主对话框中单击 Classify 按钮 展开相应的对话框 (1) 在 Prior Probabilities 栏中选择先验概率 两者选其一 z All groups equal 选项 各类先验概率相等 若分为 m类 则各类先验概率均为 1/m z Compute from groups sizes 选项 由各类的样本量计算决定 即各类的先验概率与 其样本量成正比 (2) Use Covariance Matrix 栏 选择分类使用的协方差矩阵 z Within-groups 选项 指定使用合并组内协方差矩阵进行分类 z Separate-groups 选项 指定使用各组协方差矩阵进行分类 由于分类是根据判别 函数 而不是根据原始变量 因此该选择项不是总等价于二次判别 (3) Plots 栏 选择要求输出的统计图 z Combined-groups 复选项 生成一张包括各类的散点图 该散点图是根据前两个判 别函数值作的散点图 如果只有一个判别函数 就输出直方图 z Separate-groups 复选项 根据前两个判别函数值对每一类生成一张激点图 共分 为几类就生成几张散点图 如果只有一个判别函数 就输出直方图 z Territorial map 复选项 生成用于根据函数值把观测量分到各组中去的边界图 此 种统计图把一张图的平面划分出与类数相同的区域 每一类占据一个区 各类的 均值在各区中用 *号标出 如果仅有一个判别函数 则不作此图 (4) Display 栏 选择生成到输出窗中的分类结果 z Casewise results 复选项 要求输出每个观测量包括判别分数 实际类 预测类 (根据 判别函数求得的分类结果 )和后验概率等 选择此项 还可以选择其附属选择项 Limits cases to 复选项 并在后面的小矩形框中输入观测量数 n 选择此项则仅对前 n 个观测量输出分类结果 观测数量大时可以选择此项 z Summary table 复选项 要求输出分类的小结 给出正确分类观测量数 (原始类和根 据判别函数计算的预测类相同 )和错分观测量数和错分率 z Leave-one-out classification 复选项 输出对每个观测量进行分类的结果 所依据的 判别是由除该观测量以外的其他观测量导出的 也称为交互校验结果 (5) 在 Classification 对话框的最下面有一个选择项 用以选择对缺失值的处理方法 选中 Replace missing value with mean 复选项 即用该变量的均值代替缺失值 该选择项前 面的小矩形框中出现 “ ”时表示选定所示的处理方法 5 Save 对话框 指定生成并保存在数据文件中的新变量 如图 11-21 所示 (1) Predicted group membership 复选项 要求建立一个新变量 预测观测量的分类 是 根据判别分数把观测量按后验概率最大指派所属的类 每运行一次 Discriminant 过程 就 建立一个表明使用判别函数预测各观测量属于哪一类的新变量 第 1 次运行建立新变量的 变量名为 dis_l 如果在工作数据文件中不把前一次建立的新变量删除 第 n 次运行 Descriminant 过程建立的新变量默认的变量名为 dis_n (2) Discriminant score 复选项 要求建立表明判别分数的新变量 该分数是由未标准化 的判别系数乘自变量的值 将这些乘积求和后加上常数得来 每次运行 Discriminant 过程 都给出一组表明判别分数的新变量 建立几个判别函数就有几个判别分数变量 参与分析 的观测量共分为 m 类 则建立 m 个典则判别函数 指定该选择项 就可以生成 m-l 个表明 判别分数的新变量 (3) Probabilities of group membership 复选项 要求建立新变量表明观测量属于某一类 的概率 有 m 类 对一个观测量就会给出 m 个概率值 因此建立 m 个新变量 6 选择好各选择项之后 点击 OK 按钮 提交运行 Discriminant 过程 思 考 题 1 理解聚类和判别的作用和意义 区别它们之间的异同之处 学会判断什么时候使 用聚类 什么时候使用判别的方法 2 区别快速样本聚类和分层聚类应用范围的差异 3 学会利用假设检验概率判断聚类是否有效 4 针对本章实例中出现的聚类树形图或聚类冰柱图理解聚类分析过程 第1 2 章 因子分析 导 言 因子分析是将多个实测变量简化为较少变量的方法 利用因子分析能简化分析 更能 反映事物的本质 学习因子分析能确定那些变量应该保留 那些应该剔除 并能得到主要 成分的表达式 这些表达式是原有变量的线性组合 而用这些主要成分便能代替原来众多 的实测变量 12.1 因子分析和因子分析 Factor 过程简介 因子分析是将多个实测变量转换为少数几个不相关的综合指标的多元统计分析方法 线性综合指标往往是不能直接观测到的 但它更能反映事物的本质 因此在医学 心理学 经济学等科学领域以及社会生产中因子分析都得到了应用 12.1.1 因子分析的基本概念 在各个领域的科学研究中 往往需要对反映事物的多个变量进行大量的观测 收集大 量数据以便进行分析寻找规律 多变量大样本无疑会为科学研究提供丰富的信息 但也在 一定程度上增加了数据采集的工作量 更重要的是在大多数情况下 许多变量之间可能存 在相关性 从而增加了问题分析的复杂性 由于各变量间存在一定的相关关系 因此有可 能用较少的综合指标分别综合存在于各变量中的各类信息 而综合指标之间彼此不相关 即各指标代表的信息不重叠 这样就可以对综合指标根据专业知识和指标所反映的独特含 义给予命名 这种分析方法称为因子分析 代表各类信息的综合指标就称为因子或主成份 根据因子分析的目的我们知道 综合指标应该比原始变量少 但包含的信息量应该相对损 失较少 设原始变量 X1 X2 X3 X4 Xm 主成份 Z1 Z2 Z3 Z4 Zn 则各因子与原始变量之间的关系可以表示成 X1 b ll Z1 b 12 Z2 b 13 Z3 b ln Zn e 1 X2 b 2l Z1 b 22 Z2 b 23 Z3 b 2n Zn e 2 X3 b 3l Z1 b 32 Z2 b 33 Z3 b 3n Zn e 3 …… Xm b ml Z1 b m2 Z2 b m3 Z3 b mn Zn e m 写成矩阵形式为 X BZ E 其值 X 为原始变量向量 B 为公因子负荷系数矩阵 Z 为公因子向量 E 为残差向量 因子分析的任务就是求出公因子负荷系数和残差 如果残差 E 的影响很小可以忽略不计 数学模型变为 X BZ 如果 Z 中各分量之间彼 此不相关 形成特殊形式的因子分析 称为主成份分析 主成份分析的目的是把系数矩阵 A 求出 因子分析的一个重要目的还在于对原始变量进行分门别类的综合评价 如果因子分析 结果保证了因子之间的正交性 (不相关 )但对因子不易命名 还可以通过对因子模型的旋转 变换使公因子负荷系数向更大 (向 1)或更小 (向 0)方向变化 使得对公因子的命名和解释变 得更加容易 进行正交变换可以保证变换后各因子仍正交 这是比较理想的情况 如果经 过正交变换后对公因子仍然不易解释 也可以进行斜交旋转 或许可以得到比较容易解释 的结果 12.1.2 因子分析 Factor 过程简介 SPSS for Windows 使用 FACTOR 过程进行因子分析 从菜单 Analyze ? Data Reduction ? Factor 可以通过对话框指定因子提取的方法 以及控制因子提取进程 的参数 可以指定旋转方法 可以对参与因子分析的变量给出描述统计量 指定输出负荷 矩阵的格式 还可以产生其值为因子得分的新变量并将其保存在数据文件中 使用 FACTOR 过程的命令语句和一系列 1 一个命令完成多种方法的分析 对一种因子提取结果的多种旋转 2 指定在提取因子及旋转时的迭代的收敛判据 控制因子提取及旋转的进程 3 指定产生单个的旋转因子散点图 4 具体指定保存多少个因子得分 5 把相关矩阵或因子负荷矩阵写到磁盘上 以便进一步分析 6 指定主轴因子法的对角线上的值 7 从磁盘读取相关矩阵或因子负荷矩阵 并进一步分析 12.2 因子分析 12.2.1 因子分析的功能与应用 由于在实际工作中 指标间经常具备一定的相关性 故人们希望用较少的指标代替原 来较多的指标 但依然能反映原有的全部信息 于是就产生了主成分分析 对应分析 典 型相关分析和因子分析等方法 调用 Data Reduction 菜单的 Factor 过程命令项 可对多指标或多因素资料进行因子分 析 因子分析的基本目的就是用少数几个因子去描述许多指标或因素之间的联系 即将相 关比较密切的几个变量归在同一类中 每一类变量就成为一个因子 (之所以称其为因子 是 因为它是不可观测的 即不是具体的变量 这与上一章的聚类分析不同 ) 以较少的几个因 子反映原资料的大部分信息 12.2.2 因子分析的应用示例 [例 12-1] 表 12-1 为 25 名健康人的 7 项生化检验结果 7 项生化检验指标依次命名为 X1 至 X7 请对该资料进行因子分析 表1 2-1 数据表格 X1 X2 X3 X4 X5 X6 X7 3.76 8.59 6.22 7.57 9.03 5.51 3.27 8.74 9.64 9.73 8.59 7.12 4.69 5.51 1.66 5.90 9.84 8.39 4.94 7.23 9.46 9.55 4.94 8.21 9.41 3.66 4.99 6.14 7.28 7.08 3.98 0.62 7.00 9.49 1.33 2.98 5.49 3.01 1.34 1.61 5.76 9.27 4.92 4.38 2.30 7.31 5.35 4.52 3.08 6.44 0.54 1.34 4.52 7.07 2.59 1.30 0.44 3.31 1.03 1.00 1.17 3.68 2.17 1.27 1.57 1.55 1.51 2.54 1.03 1.77 1.04 4.25 4.50 2.42 5.11 5.28 10.02 9.84 12.66 11.76 6.92 3.36 11.68 13.57 9.87 9.17 9.72 5.98 5.81 2.80 8.84 13.60 10.05 6.68 7.79 12.00 11.74 8.07 9.10 12.50 9.77 7.50 2.17 1.79 4.54 5.33 7.63 3.53 13.13 9.87 7.85 2.64 2.76 4.57 1.78 5.40 9.02 3.96 6.49 4.39 11.58 2.77 1.79 3.75 2.45 13.74 10.16 2.73 2.10 6.22 7.30 8.84 4.76 18.52 11.06 9.91 3.43 3.55 5.38 2.09 7.50 12.67 5.24 9.06 5.37 16.18 3.51 2.10 4.66 3.10 4.78 2.13 1.09 0.82 1.28 2.40 8.39 1.12 2.35 3.70 2.62 1.19 2.01 3.43 3.72 1.97 1.75 1.43 2.81 2.27 2.42 1.05 1.29 1.72 0.91 建立数据文件 定义变量名 分别为 X1 X2 X3 X4 X5 X6 X7 按顺序输入 相应数值 如图 12-1 所示 图 12-1 数据文件 从 Analyze ? Data Reduction ? Factor 弹出 Factor Analysis 对话框 在对 话框左侧的变量列表中选变量 X1 至 X7 点击向右的箭头按钮使之进入 Variables 框 如 图 12-2 所示 图 12-2 Factor Analysis(因子分析主 )对话框 点击 Descriptives 按钮 弹出 Factor Analysis Descriptives 对话框 在 Statistics 中 选 Univariate descriptives 项要求输出各变量的均数与标准差 在 Correlation Matrix 栏内选 Coefficients 项要求计算相关系数矩阵 并选 KMO and Bartlett’s test of sphericity 项 要求 对相关系数矩阵进行统计学检验 如图 12-3 所示 点击 Continue 按钮返回 Factor Analysis 对话框 点击 Rotation 按钮 弹出 Factor Analysis Rotation 对话框 系统有 5 种因子旋转 方法可选 旋转的目的是为了获得简单结构 以帮助我们解释因子 本例选 Varimax 正交 旋转法 之后点击 Continue 按钮 如图 12-4 所示 返回 Factor Analysis 对话框 图 12-3 Descriptives 对话框 图 12-4 Rotation 对话框 点击 Extraction 按钮 弹出 Factor Analysis:Extraction 对话框 本例选用 Principal components 方法 如图 12-5 所示 之后点击 Continue 按钮返回 Factor Analysis 对话框 图 12-5 Extraction 对话框 点击 Scores 按钮 弹出 Factor Analysis Scores 对话框 系统提供 3 种估计因子得 分系数的方法 本例选 Regression 回归因子得分 如图 12-6 所示 之后点击 Continue 按钮返回 Factor Analysis 对话框 再点击 OK 按钮即完成分析 图 12-6 Factor Scores 对话框 得到结果如下表 12-2 到表 12-9 和图 12-7 所示 表1 2-2 描述统计量 Mean Std.Deviation Analysis N X1 X2 X3 X4 X5 X6 X7 7.1000 4.7732 2.3488 9.1524 5.4584 7.1672 2.3460 2.3238 2.4178 1.6656 3.0141 3.2734 4.5582 1.6109 25 25 25 25 25 25 25 表1 2-3 相关矩阵 X1 X2 X3 X4 X5 X6 X7 Correlation X1 X2 X3 X4 X5 X6 X7 1.000 .580 .201 .909 .283 .287 -.533 .580 1.000 .364 .837 .166 .261 -.608 .201 .364 1.000 .436 -.704 -.681 -.649 .909 .837 .436 1.000 .163 .203 -.678 .283 .166 -.704 .163 1.000 .990 .427 .287 .261 -.681 .203 .990 1.000 .357 -.533 -.608 -.649 -.678 .427 .357 1.000 表1 2-4 相关矩阵 Kaiser-Meyer-01kin measure of sampling Adequacy. Bartlett’s Test of Approx. chi-Square Sphericity df Sig. .321 326.285 21 .000 表1 2-5 完全变量解释 Initial Eigenvalues Extraction Sums of squared Loadings Rotation Sums of squared Loadings component Total % of Variance Cumula- tive % Total % of Variance Cumul- ative% Total % of Variance Cumula - tive% 1 2 3 4 5 6 7 3.395 2.806 .436 .276 .081 .004 .000 48.503 40.090 6.236 3.946 1.160 5.95E-02 5.81E-3 48.503 88.593 94.828 98.775 99.935 99.994 100.000 3.395 2.806 48.503 40.090 48.503 88.593 3.306 2.895 47.231 41.361 47.231 88.593 Extraction Method:Principal Comonent Analysis. 表1 2-6 变量的共同度 Initial Extraction X1 X2 X3 X4 X5 X6 X7 1.000 1.000 1.000 1.000 1.000 1.000 1.000 .797 .773 .859 .980 .983 .976 .834 Extraction Method: Principal Component Analysis. 表1 2-7 旋转前的因子 主成分 提取结果 Component 1 2 X1 X2 X3 X4 X5 X6 X7 .746 .796 .709 .911 -.234 -.177 -.886 .489 .372 -597 .389 .963 .972 .219 Extraction Method: Principal Component Analysis. a.2 components extracted. 表1 2-8 旋转后的因子 主成分 负荷矩阵 Component 1 2 X1 X2 X3 X4 X5 X6 X7 .878 .878 .421 .990 .159 .215 .732 .161 3.332E-02 -.826 4.135E-03 .979 .964 .547 Extraction Method: Principal Component Analysis. Rotation Method: Varimax with Kaiser Normalization a. Rotation converged in 3 iterations. 表1 2-9 因子旋转矩阵 Component 1 2 1 2 .921 .389 -.389 .921 Extraction Method: Principal Component A Rotation Method: Varimax with Kaiser Nor 图 12-7 保存表明各观测量的两个因子得分的新变量的数据文件 结果分析如下 表 12-2 表 12-3 表 12-4 显示 系统首先输出各变量的均数 (Mean)与标准差 (Std Dev) 并显示共有 25 例观察单位进入分析 接着输出相关系数矩阵 (Correlation Matrix) 经 Bartlett 检验表明 Bartlett 值 =326.285 P<0.0001 即相关矩阵不是一个单位矩阵 故考虑进行因 子分析 Kaiser-Meyer-Olkin Measure of Sampling Adequacy 是用于比较观测相关系数值与 偏相关系数值的一个指标 其值愈逼近 1 表明对这些变量进行因子分析的效果愈好 今 KMO 值 =0.321 偏小 意味着因子分析的结果可能不能接受 表 12-5 表 12-6 和表 12-7 显示 使用主成分分析法得到 2 个因子 因子矩阵 (Factor Matrix)如下 变量与某一因子的联系系数绝对值越大 则该因子与变量关系越近 如本例 变量 X7 与第一因子的值为 -0.886 与第二因子的值为 0.219 可见其与第一因子更近 与 第二因子更远 或者因子矩阵也可以作为因子贡献大小的度量 其绝对值越大 贡献也越 大 在 Final Statistics 一栏中显示了各因子解释掉方差的比例 也称变量的共同度 (Communality) 共同度从 0 到 1 0 为因子且不解释任何方差 1 为所有方差均被因子解释 掉 一个因子解释掉变量的方差越大 说明因子包含原有变量信息的量越多 表 12-8 和表 12-9 显示 经正交旋转后的因子负荷矩阵 (Rotated Factor Matrix)和因子转 换矩阵 (Factor Transformation Matrix) 旋转的目的是使复杂的矩阵变得简洁 即第一因子 替代了 X1 X2 X4 X7 的作用 第二因子替代了 X3 X5 X6 的作用 图 12-7 显示 将第一因子的因子分用变量名 fac_1 第二因子的因子分用变量名 fac_2 存入原始数据库中 这些值既可用于模型诊断 又可用于进一步分析 12.2.3 因子分析过程 1 Factor Analysis 主对话框 如图 12-2 所示 (1) Variables 栏 存放分析变量栏 (2) Selection Variable 选择变量栏 用于限制有特殊值的样本子集的分析 当一个变量 进入该栏时 激活右侧的 Value 按钮 (3) 待 Value 按钮激活后 单击该键 打开 Set Value 对话框 可在该对话框键入标 识参与分析的观测量所具有的该变量值 如图 12-8 所示 图 12-8 Set Value 对话框 (4) Descriptivs 按钮 点击之 展开 Descriptives 对话框 如图 12-3 所示 可以选 择单变量的描述统计量和初始分析结果 (5) Rotation 按钮 单击之 展开 Rotation 对话框 如图 12-4 所示 可以选择因 子旋转方法 (6) Extraction 按钮 点击之 进入 Extraction 对话框 如图 12-5 所示 可以选择 不同的提取公因子的方法和控制提取结果的判据 (7) Scores 按钮 单击之 进入 Factor Scores 对话框 如图 12-6 所示 可以要求 计算因子得分 选择显示或作为新变量保存 (8) Options 对话框 单击之进入相应的子对话框 可以进一步选择各种输出项 2 Descriptives 对话框 描述统计量选择项 如图 12-3 所示 (l) Statistics 统计量栏 z Univariate descriptive 复选项 单变量描述统计量 选择此项可以输出参与分析的 各原始变量的均值 标准差等 z Initial solution 复选项 初始分析结果 选择此项可以给出因子提取前分析变量的 公因子方差 对主成分分析来说 这些值是要进行分析变量的相关或协方差矩阵 的对角元素 对因子分析来说 是每个变量用其他变量作预测因子的载荷平方和 (2) Correlation Matrix 相关矩阵栏 z Coefficients 复选项 相关系数 选择此项给出原始分析变量间的相关 系数矩阵 z Significance levels 复选项 显著性水平 选择此项给出每个相关系数相对于相关 系数为 0 的单尾假设检验的水平 z Determinant 复选项 相关系数矩阵的行列式 z Inverse 复选项 相关系数矩阵的逆矩阵 z Reproduced 选项 再生相关阵 选择此项给出因子分析后的相关阵 还给出残差 即原始相关与再生相关之间的差值 z Anti-image 复选项 包括偏相关系数的负数 反映象协方差阵 包括偏协方差的 负数 在一个好的因子模型中除对角线上的系数较大外 远离对角钱的元素应该 比较小 z KMO and Bartlett’s test of Sphericity 复选项 KMO 和球形 Bartlett 检验 选择此项 给出对采样充足度的 Kaisex-Meyer-Olkin 测度 检验变量间的偏相关是否很小 Bartlett 球形检验 检验相关阵是否是单位阵 它表明因子模型是否是不合适宜的 3 Rotation 对话框 如图 12-4 所示 (l) Method 栏 选择旋转方法 z None 选项 不进行旋转 此为系统默认的选择项 z Varimax 选项 方差最大旋转 是一种正交旋转方法 它使每个因子上的具有最 高载荷的变量数最小 因此可以简化对因子的解释 z Direct Oblilmin 选项 直接斜交旋转 指定此项可以在下面的矩形框中键入 值 该值应该在 0 到 l 之间 0 值产生最高相关因子 z Quartmax 选项 四次最大正交旋转 该旋转方法使每个变量中需要解释的因子数 最少 可以简化对变量的解释 z Equamax 选项 平均正交旋转 是简化对因子的解释的 Varimax 方法与简化对变 量解释的 Quartmax 方法的结合 结果在一个因子上有高载荷的变量数和在需要解 释的变量的因子数最少 z Promax 选项 斜交旋转方法 允许因子彼此相关 它比直接斜交旋转更快 因此 适用于大数据集的因子分析 (2) Display 栏 选择有关输出显示 z Rotated solution 选项 旋转结果 指定旋转方法才能指定此项 指定此项将对正 交 旋转显示旋转后的因子矩阵模式 因子转换矩阵 对斜交旋转显示旋转后的 因子矩阵模式 因子结构矩阵和因子间的相关阵 z Loading plot(s)选项 因子载荷散点图 指定此项将给出以两两因子为坐标轴的各 变量的载荷散点图 如果有两个因子 给出各原始变量在 Fatorl Factor2 坐标系 中的散点图 如果多于两个因子 则给出前三个因子的三维因子载荷散点图 如 果只提取了一个因子 不会输出载荷散点图 注意 选择此项给出的是经旋转后 的因子载荷图 (3) Maximum iterations for Convergence 参数框 指定旋转收敛的最大迭代次数 系统 默认值为 25 可以在此项后面的矩形框中键入指定值 4 Extraction 对话框 如图 12-5 所示 (l) Method 因子提取方法选择项 Method 参数框是一组指定提取方法的选择项 单击矩形框右面的箭头可以展开提取方 法选择项表 提供了七种提取方法以供选择 z Principal components 选项 主成份法 该方法假设变量是因子的纯线性组合 第 一成分有最大的方差 后续的成分 其可解释的方差逐个递减 往往使用主成分 法获取初始的因子分析结果 z Unweighted least Square 选项 不加权最小平方法 该方法使观测的和再生的相关 阵之差的平方和最小 不计对角元素 z Generalized least squares 选项 用变量单的倒数值加权 使观测的和再生的相关阵 之差的平方和最小 较高值的比较低值的给予的权重要小 z Maximum Likelihoud 选项 最大似然法 此方法不要求多元正态分布 给出参数 估计 如果样本来自多元正态总体 那它们与原始变量的相关阵极为相似 原始 分析变量用变量单值倒数加权 使用迭代算法 z Principal Axis factoring 选项 使用多元相关的平方作为对公因子方差的初始估计 初始估计公因子方差时 多元相关系数的平方置于对角线上 这些因子载荷用于 估计新公因子方差 替换对角线上的前一次的公因子方差估计 这样的迭代持续 到 本次到下一次迭代结果中公因子方差的变化满足提取因子的收敛判据 z Alpha factoring 选项 因子提取法 z Image factoring 选项 映象因子提取法 是由 Guttman 提出的因子提取方法 根据 映像学原理提取公因子的方法 把一个变量看作其他各变量的多元回归 而不是 假设因子的函数 (2) Analyze 栏 指定分析矩阵的选择项 z Correlation Matrix 选项 指定以分析变量的相关矩阵为提取因子的依据 如果参 与分析的变量的测度单位不同时应该选择此项 z Covariance matrix 选项 指定以分析变量的协方差矩阵为提取因子的依据 (3) Display 栏 指定与因子提取有关的输出项 z Unrotated factor solution 复选项 要求显示未经旋转的因子提取结果 此项为系统 默认的输出方式 z Scree plot 复选项 要求显示按特征值大小排列的因子序号 以特征值为两个坐标轴 的碎石图 可以有助于确定保留多少个因子 典型的碎石图会有一个明显的拐点 在该点之前是与大因子连接的陡峭的折线 之后是与小因子相连的缓坡折线 (4) Extract 栏 控制提取进程和提取结果的选择项 z Eigenvalues over 选项 该选择项指定提取的因子的特征值 在此项后面的矩形框 中给出 系统默认值为 1 即要求提取那些特征值大于 1 的因子 指定特征值决定 提取因子数目的方法是系统默认的方法 z Number of factors 选项 该选择项指定提取公因子的数目 用鼠标单击选择此项后 将指定提取公因子的数目 理论上有多少个分析变量就有多少个因子 因此 键 入到该选择项后面的矩形框中的数应该是 0 到分析变量数目之间的正整数 (5) Maximum iterations for Convergence 参数框 指定因子分析收敛的最大迭代次数 系统默认的最大迭代次数为 25 5 Factor Scores 对话框 有关因子得分的选择项 如图 12-6 所示 (l) Save as variables 复选项 将因子得分作为新变量保存在数据文件中 (2) Method 栏 指定计算因子得分的方法 z Regression 选项 回归法 其因子得分的均值为 0 方差等于估计因子得分与实际 因子得分之间的多元相关的平方 z Bartlett 选项 巴特利特法 因子得分均值为凡超出变量范围的各因子平方和被最 小化 z Anderson-Rubin 选项 是为了保证因子的正交性而对 Bartlett 因子得分的调整 其 因子得分的均值为 0 标准差为 1 且彼此不相关 (3) Display factor score coefficient matrix 复选项 选择此项将在输出窗中显示因子得分 系数矩阵 是标准化的得分系数 原始变量值进行标准化后 可以根据该矩阵给出的系数 计算各观测量的因子得分 还显示协方差阵 6 Options 对话框 有关输出的选择项 如图 12-9 所示 (l) Missing Values 栏 选择处理缺失值方法 z Exclude cases listwise 选项 在分析过程中对那些指定的分析变量中有缺失值的观 测量一律剔除 所有分析变量带有缺失值的观测量都不参与分析 z Exclude cases pairwise 选项 成对剔除带有缺失值的观测量 换句话说 在计算两 个变量的相关系数时 只把这两个变量中带有缺失值的观测量剔除 如果一个观 测量在正进行相关系数计算的变量中没有缺失值 其他变量中带有缺失值 那么 不影响当前相关系数的计算 z Replace with mean 选项 用该变量的均值代替工作变量的所有缺失值 图 12-9 Options 对话框 (2) Coefficient Display Format 栏 决定载荷系数的显示格式 z Sorted by size 复选项 选中此项 载荷系数按其数值的大小排列并构成矩阵 使 在同一因子上具有较高载荷的变量排在一起 以便于得出结论 z Suppress absolute values less than 复选项 选中此项 不显示那些绝对值小于指定 值的载荷系数 选择此项后还需要在该项的框中键入 0 到 l 之间的数作为临界值 系统默认的临界值为 0.10 选择此项可以突出载荷较大的变量 以便于得出结论 思 考 题 1 理解因子分析的意义 作用和操作过程 2 理解因子分析过程中旋转的作用 3 理解因子得分 Component Score Coefficient 的含义 并由此写出主要成分的表达 式 并进一步体会主要成分对数据分析的实际意义 第1 3 章 列联表分析 导 言 列联表分析主要功能是分析各事物 现象的差异性 与以前分析差异显著性分析方法 不同的 列联表分析生成二维和多维交叉表 因此 它可以分析一个行变量和一个列变量 的差异性 13.1 Crosstabs 过程 Crosstabs 列联表 过程构成两维到多维的各水平的列联表 并为两维表提供了多种 检验与相关的计算 13.1.1 列联表对话框 从主菜单 Analyze ? Descriptive Statistics ? Crosstabs 进入 Crosstabs 对话 框 如图 13-1 所示 图 13-1 Crosstabs 列联表 对话框 1 Row(s) 行变量栏 2 Column(s) 列变量栏 3 Previous Layer 1 of Next 层变量栏 选择分组变量及控制分组变量的分层 (1) Previous 前一层分组变量按钮 在建立后一层变亮时 表示单击该按钮可返 回前一层 (2) Next 后一层分组变量按钮 该层变量是前一层变量的分组变量 在建立前 一层时变亮 表示单击该按钮可建立或显示后一层的变量 4 Display clustered bar charts 显示聚类条图 此条图概述分类数据 SPSS 会为每个 行变量产生一个聚类条图 5 Suppress table 隐藏表格 选择此项 则 SPSS 将不显示 R C crosstabulation R C 列联表 且 Cell 按钮与 Format 按钮无效 6 Statistics 统计量按钮 7 Cells 格子按钮 它是用于选择表中每个格子里显示的内容 8 Format 表格格式按钮 它是用于定义列联表行变量排列格式 13.1.2 Crosstabs 过程的变量 Crosstabs 过程至少要有一个行变量与列变量 在 Crosstabs 过程中有三类变量 均为 分组变量 它们可以是数值型的 也可以是短字符串型的 层变量是控制变量 如果选择了层变量 则 SPSS 会为每个层变量的分类组合输出结果 由于 Crosstabs 过程中的变量是分组变量 若使用连续型变量作列联表 则必须先对变 量进行分组 可用 Record 过程 选择 Transform ? Record ? Into Same Variable 对数据重新编码 13.1.3 Statistics 对话框 单击 Statistics 统计量按钮 可进入 Statistics 对话框 如图 13-2 所示 图 13-2 Statistics 对话框 1 Chi-square 卡方值 它是用于进行行 列变量是否独立的卡方检验 (Chi-square Test) (1) 在最小期望频数 (minimum expected count)>1 少于 1/5 格子的期望频数 (Vexpected xount)<5 且有效例数 (N of valid cases)>40 时 一般使用皮尔逊卡方值 (Pearson Chi-square) (2) 在 2 2 表情况下 SPSS 显示连续校正卡方值 (Continuity Corrected Chi-square) 一 般是在 l<最小期望频数 <5 总例数 N>40 时使用 (3) 在 2 2 表情况下 SPSS 显示费歇尔精确检验 (Fsher’s Exact Test) 一般是在最小 期望频数 1 或总例数 N 40 时使用 2 Correlations 相关系数 在数值型变量下 此项选择才有效 3 Kappa 卡帕系数 它是评价判断一致性 (agreement)程度的指标 适用于行与列有 相同的分类 4 Risk 相对危险度 它用于 2 2 表 是指暴露于某因素的发病率与非暴露者的发 病率之比 若相对而言 危险度为 1 则表示因素与事件不存在联系 例如 检验吸烟是 否与心脏病有关 SPSS 是用比数比 (odds ratio)作相对危险度的近似估计值 5 McNemar 它是用于两个相关二项分类变量的非参数检验 6 Nominal 名义数据 它是指行与列变量均是无序分类变量 例如 血型 A B AB O 型 (1) Contingency coefficient 列联系数 它是根据卡方公式修改而得 其值的大小与行 列数目有关 在 0 l 之间取值 但不可能达到 1 (2) Phi and Cramer’s V 斐与克莱姆 V 值 它们都是校正列联系数 也是由卡方公式 修改而来 其值可达到 1 (3) Lambda 兰姆达 它是以一变量的不同水平 (level)来预测另一变量的可能结果时 误差的机率减少的比率 它是用于反应当用自变量的值来预测因变量的值时 可能发生的 错误 在 0 1 之间取值 l 表示自变量可以很好地预测因变量 0 表示两变量独立 (4) Unvertainty coefficient 不确定系数 它是用于计算不定和非对称的系数 其值越 接近其上限 1 表明从第一个观察量获得的有关第二个变量的值的信息越多 其值越接近 其下限 0 表明第一个观察量获得的有关第二个变量的值的信息越少 7 Ordinal 双向有序数据 它是指行与列变量均是有序分类数据 例如 痊愈 好 转 无效 (1) Gamma 它是依据某一水平所测得的两变量之间的联系水平 其值为 1 时 表示 所有的观测量都集中在表格的左上角到右下角的对角线上 0 表示观测量相互独立 (2) Somers’d 萨默尔 d 值 它是反应两个有序变量之间的联系水平 在计算 Gamma 时 不会对因变量与自变量作出区分 数据被认为是对称的 而 Somers’d 则是 Gamma 的 非对称扩展 其区别仅在于包括与自变量不相关的成对数据 表明在那些与自变量并不相 关的数据中的一致性数据 Discordant 的比例部分 (3) Kendall’s tau-b 它是对相关的有序变量进行的非参数相关检验 适合行数与列数 相同表格的检验 其值在一 l 到 l 之间 (4) Kendall’s tau-c 它是对 R C 表格标签忽视相关系数的非参数相关检验 其值在一 l 到 l 之间 如果表格的边缘包含近似相等的频数 Kendall’s tau-b 与 Kendall’s tau-c 所得的 值基本一致 8 Nominal by Interval 名义尺度数据 它是指其中一个是定量变量的数据 另一个 变量是名义变量且是数值型变量 Eta 它是非对称并不存在假设两个变量之间存在线性关系下 显示因变量与自变量之 间联系 其平方可以被解释为由不同变量分类组所解释的因变量方差的比例 13.1.4 Cell 对话框 单击 Cells 按钮 进入 Cells Display 对话框 如图 13-3 所示 1 Counts 频数 (1) Observed 观察频数 系统默认值 (2) Expected 期望频数 2 Percentage 百分数 (1) Row 行百分数 (2) Column 列百分数 (3) Total 总百分数 3 Residual 残差 (1) Unstandardized 未标准化残差 (2) Standardized 标准化残差 (3) Adj-Standardized 校正标准化残差 图 13-3 Cell Display 对话框 13.1.5 Format 对话框 单击 Format 按钮 进入 Table Format 对话框 如图 13-4 所示 Row order 行顺序 Ascending 升序 行变量由左至右升序显示 系统 默认值 Descending 降序 行变量由左至右降序显示 13.2 四格表卡方检验 13.2.1 四格表卡方检验 [例 13-1] 在二乙基亚硝胺诱发大白鼠咽癌的实验中 一组单纯用亚硝胺向鼻腔滴注 (鼻 注组 ) 另一组在鼻注的基础上加肌注维生素 B12 实验结果如表 13-1 所示 问两组发癌 率有无差别 图 13-4 Table Format 对话框 表1 3-1 两组大白鼠发癌率的比较数据表 处理 发癌鼠数 未发癌鼠数 合计 发癌率 (%) 鼻注组 (1) 52 19 71 73.24 鼻注 B12 组 39 3 42 92.86 合计 91 22 113 80.53 建立数据文件 如图 13-4 所示 以变量 r 标识处理的不同组别 r=1 标识鼻注组 r=2 标识鼻注 B12 组 变量 c 标识大白鼠的状态 c=1 标识发癌组 c=2 标识未发癌组 以变 量 f 标识发癌或未发癌的大白鼠的数量 选择 Data ? Weight Cases 进入 Weight Cases 对话框 把 频数 [f] 放入 Frequency 栏中 如图 13-5 所示 单击 OK 按钮 图 13-5 Weight Cases 对话框 从 Analyze ? Descriptive Statistics ? Crosstabs 进入 Crosstabs 对话框 如 图 13-1 所示 把 处理 [f] 放入 Row(s)栏 把 状况 [c] 放入 Column(s)栏 选择 Display clustered bar charts 项 单击 Statistics 按钮 进入 Statistics 对话框 如图 13-2 所示 选择 Chi-square 与 Correlations 单击 Continue 按钮 返回 Crosstabs 主对话框 单击 Cell 按钮 进入 Cells Display 格子显示对话框 如图 13-3 所示 选择全部项 目 单击 Continue 按钮 返回 Crosstabs 主对话框 在主对话框中 单击 OK 按钮 提交运行 Crosstabs 过程 得到结果如下表 13-2 到 表 13-5 和图 13-6 所示 表1 3-2 Case Processing Summary 数据处理概况 Cases Valid Missing Total N Percent N Percent N Percent 处理 *状况 113 100.0% 0 .0% 113 100.0% 表1 3-3 处理 *状况 Crosstabulation 列联表 状况 1 2 Total 处理 1 Count Expected Count % within处理 %within状况 % of Total Residual Std.Residual Ad justed Residual 52 57.2 73.2% 57.1% 46.0 -5.2 -.7 -2.5 19 13.8 26.8% 86.4% 16.8% 5.2 1.4 2.5 71 71.0 100.0% 62.8% 62.8% 2 Count Expected Count % within处理 %within状况 % of Total Residual Std.Residual Ad justed Residual 39 33.8 92.9% 42.9% 34.5% 5.2 .9 2.5 3 8.2 7.1% 13.6% 2.7% -5.2% -1.8 -2.5 42 42.0 100.0% 37.2% 37.2% Total Count Expected Count % within处理 %within状况 % of Total 91 91.0 80.5% 100.0% 80.5% 22 22.0 19.5% 100.0% 19.5% 113 113.0 100.0% 100.0% 100.0% 表1 3-4 Chi-Square Tests 卡方检验 value df Asymp.sig. (2-sided) Exact.sig. (2-sided) Exact Sig. (1-sided) Pearson chi-square Continuity correction a Likelihood Ratio Fisher’s Exact Test Linear-by-Linear Association N of valid cases 6.468 b 5.287 7.310 6.420 113 1 1 1 1 .011 .021 .007 .011 .013 .008 a. Computed only for a 2x2 table b. 0 cells (.0%) have expected count less than 5. The minimum expected count is 8.18. 表1 3-5 Symmetric Measure 对称测量 Value Asymp.std.Error a Approx.T b Approx.Sig. Interval by Interval Pearson’s R Ordinal by ordinal Spearman correlation N of valid cases -.239 -.239 113 .074 .074 -2.598 -2.598 .011 c .011 c a. Not assuming the null hypothesis. a. Using the asymptotic standard error assumint the null hypothesis. c. Based on normal approximation. 处理 21 Count 60 50 40 30 20 10 0 状况 1 2 图 13-6 各组状况直方条形图 由表 13-4 得到 N=113>40 且最小期望频数为 8.18>5 因此卡方值 =6.478 df=1 P=0.011<0.05 故可认为两组处理的发癌率差别是有统计意义的 13.2.2 四格表校正卡方检验 [例 13-2] 某矿石粉厂当生产一种矿石粉石时 在数天内即有部分工人患职业性皮肤 炎 在生产季度开始 随机抽取 15 名车间工人穿上新防护服 其余仍穿原用的防护服 生 产进行一个月后 检验两组工人的皮肤患病率 资料如表 13-6 所示 问两组工人的皮肤患病率有无差别 建立数据文件 以变量 r 标识防护服种类 r=1 标识 新防护服 r=2 标识旧防护服 变量 c 标识皮肤炎症 c=1 标识阳性 c=2 标识阴性 以变量 f 标识阳性或阴性的数 量 如图 13-7 所示 图 13-7 穿新旧防护服工人的 皮肤炎患病率比较数据文件 表1 3-6 穿新旧防护服工人的皮肤炎患病率比较数据表 皮肤炎症防护服种类 阳性例数 阴性例数 合计 患病率 (%) 新 114156.7 旧 10 18 28 35.7 合计 11 32 43 25.6 选择 Data ? Weight Cases 进入 Weight Cases 对话框 把 频数 [f] 放入 Frequency 栏中 单击 OK 按钮 从 Analyze ? Descriptive Statistics ? Crosstabs 进入 Crosstabs 对话框 把 防护服种类 [r] 放入 Row(s)栏 把 皮肤炎症 [c] 放入 Column(s)栏 单击 Statistics 按钮 进入 Statistics 对话框 选择 Chi-square 与 Correlations 单击 Continue 按钮 返回 Crosstabs 主对话框 单击 Cell 按钮 进入 Cells Display 格子显示对话框 选择 Observed Expected Row Column 单击 Continue 按钮 返回 Crosstabs 主对话框 在主对话框中 单击 OK 按钮 提交运行 Crosstabs 过程 得到结果如下表 13-7 到 表 13-10 所示 表1 3-7 Case Processing Summary 数据处理概况 Cases Valid Missing Total N Percent N Percent N Percent 防护服种类 *皮肤炎症 43 100.0% 0 .0% 43 100.0% 表1 3-8 防护服种类 *皮肤炎症 Crosstabulation 列联表 皮肤炎症 1 2 Total 防护 1 Count 服种 Expected Count 类 % within 防护服种类 %within皮肤炎症 1 3.8 6.7% 9.1% 14 11.2 93.3% 43.8% 15 15.0 100.0% 34.9% 2 Count Expected Count % within 防护服种类 %within皮肤炎症 10 7.2 35.7% 90.9% 18 20.8 64.3% 56.3% 28 28.0 100.0% 65.1% 3 Count Expected Count % within 防护服种类 %within皮肤炎症 11 11.0 25.6% 100.0% 32 32.0 74.4% 100.0% 43 43.0 100.0% 100.0% 表1 3-9 卡方检验 Valud df Asymp.Sig. (2-sided) Exact Sig. (2-sided) Exact sig. (1-sided) Pearson chi-square Continuity correction a Likelihood Ratio Fisher’s Exact Test Linear-by-Linear Association N of valid cases 4.329 b 2.938 5.056 4.228 43 1 1 1 1 .037 .087 .025 .040 .065 .038 表1 3-10 Symmetric Measures 对称测量 Value Asymp.std.Error a Approx.T b Approx.Sig. Interval by Interval Pearson’s R Ordinal by ordinal spearman correlation N of valid cases -3.17 -.317 43 .112 .112 -2.142 -2.142 .038 c .038 c a. Not assuming the null hypothesis. b. Using the asymptotic standard error assuming the null hypothesis. c. Based on normal approximation. 由表 13-9 得出 N=43>40 且最小期望频数 1<3.84<5 因此卡方值 =2.938 df=1 P=0.087>0.5 故不能认为穿不同防护服的两组工人的皮肤炎患病率有统计意义 13.3 R C 表卡方检验 13.3.1 多个率的比较 [例 13-3] 某省观察三个地区的花生污染黄曲霉毒素 B1 的情况 如下表 13-11 所示 问三个地区花生的黄曲霉毒素 B1 污染率有无差别 表1 3-11 某省三个地区的花生污染黄曲霉毒素比较数据表 检验的样品数地区 未污染 污染 合计 污染率 (%) 甲 6 23 29 79.3 乙 30 14 44 31.8 丙 8 3 11 27.3 合计 44 40 84 47.6 建立数据文件 以变量 r 标识不同地区 r=1 标识地区甲 r=2 标识地区乙 r=3 标识 地区丙 变量 c 标识污染情况 c=1 标识未污染 c=2 标识污染 以变量 f 标识污染或未污 染的检验样品数 如图 13-8 所示 图 13-8 某省三个地区的花生污染黄曲霉毒素比较数据文件 选择 Data ? Weight Cases 进入 Weight Cases 对话框 把 频数 [f] 放入 Frequency 栏中 单击 OK 按钮 从 Analyze ? Descriptive Statistics ? Crosstabs 进入 Crosstabs 对话框 把 地区 [r] 放入 Row(s)栏 把 污染情况 [c] 放入 Column(s)栏 单击 Statistics 按钮 进入 Statistics 对话框 选择 Chi-square 单击 Continue 按 钮 返回 Crosstabs 主对话框 单击 Cell 按钮 进入 Cells Display 格子显示 对话框 选择 Observed Expected Row Column 单击 Continue 按钮 返回 Crosstabs 主对话框 在主对话框中 单击 OK 按钮 提交运行 Crosstabs 过程 得到结果如表 13-12 到 表 13-14 所示 表1 3-12 Case Processing Summary 数据处理概况 Cases Valid Missing Total N Percent N Percent N Percent 地区 *污染情况 84 100.0% 0 .0% 84 100.0% 表1 3-13 地区 *污染情况 Crosstabulation 列联表 污染情况 1 2 Total 1 Count Expected Count % within 地区 % within 污染情况 6 15.2 20.7% 13.6% 23 13.8 79.3% 57.5% 29 29.0 100.0% 34.5% 2 Count Expected Count % within 地区 % within 污染情况 30 23.0 68.2% 68.2% 14 21.0 31.8% 35.0% 44 44.0 100.0% 52.4% 地区 3 Count Expected Count % within 地区 % within 污染情况 8 5.8 72.7% 18.2% 3 5.2 27.3% 7.5% 11 11.0 100.0% 13.1% Total Count Expected Count % within地区 % within污染情况 44 44.0 52.4% 100.0% 40 40.0 47.6% 100.0% 84 84.0 100.0% 100.0% 表1 3-14 卡方检验 value Df Asymp. Sig.(2-sided) Pearson chi-square Likelihood Ratio Linear-by-Linear Association N of valid Cases 17.907a 18.755 14.315 84 2 2 1 .000 .000 .000 a. 0 cells (.0%) have expected count less than 5.The minimum expected count is 5.24 由表 13-14 得到有效例数为 84 大于 40 且最小期望频数 5.24>5 因此卡方值 =17.907 df=2 P<0.5 故可以认为三个地区的花生黄曲霉毒素 B1 污染率的差别有统计意义 13.3.2 多个构成比比较 [例 13-4] 1979 年某地暴发松毛虫病 333 例患者按年龄以 14 岁为界分为两组 资料 如表 13-15 所示 试考察两组病人类型的构成比有无差别 表1 3-15 某地两组松毛虫病患者类型构成比 地区 皮炎症 骨关节炎症 软组织炎症 混合型 合计 甲 50 48 18 72 29 乙 105 10 7 23 44 合计 155 58 25 95 84 建立数据文件 以变量 r 标识不同地区 r=1 标识地区甲 r=2 标识地区乙 变量 c 标 识不同病型 c=1 标识皮炎症 c=2 标识骨关节炎症 c=3 标识软组织炎症 c=4 标识混合 型 以变量 f 标识人数 如图 13-9 所示 图 13-9 某地两组松毛虫病患者类型构成比数据文件 选择 Data ? Weight Cases 进入 Weight Cases 对话框 把 频数 [f] 放入 Frequency 栏中 单击 OK 按钮 从 Analyze ? Descriptive Statistics ? Crosstabs 进入 Crosstabs 对话框 把 年龄 [r] 放入 Row(s)栏 把 病型 [c] 放入 Column(s)栏 单击 Statistics 按钮 进入 Statistics 对话框 选择 Chi-square 单击 Continue 按 钮 返回 Crosstabs 主对话框 单击 Cell 按钮 进入 Cells Display 格子显示对话框 选择 Observed Expected Row Column 单击 Continue 按钮 返回 Crosstabs 主对话框 在主对话框中 单击 OK 按钮 提交运行 Crosstabs 过程 得到结果如下表 13-16 到表 13-18 所示 表1 3-16 Case Processing Summary 数据处理概况 Cases Valid Missing Total N Percent N Percent N Percent 年龄 *病型 333 100.0% 0 .0% 333 100.0% 表1 3-17 年龄 *病型 Crosstabulation 列联表 病型 1 2 3 4 Total 1 Count Expected Count % within 年龄 % within 病型 % of Total 50 87.5 26.6% 32.3% 15.5% 48 32.7 25.5% 82.8% 14.4% 18 14.1 9.6% 72.0% 5.4% 72 53.6 38.3% 75.8% 21.6% 188 188.0 100.0% 56.5% 56.5% 年龄 2 Count Expected Count % within 年龄 % within 病型 % of Total 105 67.5 72.4% 67.7% 31.5% 10 25.3 6.9% 17.2% 3.0% 7 10.9 4.8% 28.0% 2.1% 23 41.4 15.9% 24.2% 6.9% 145 145.0 100.0% 43.5% 43.5% Total Count Expected Count % within年龄 % within病型 % of Total 155 155.0 46.5% 100.0% 46.5% 58 58.0 17.4% 100.0% 17.4% 25 25.0 7.5% 100.0% 7.5% 95 95.0 28.5% 100% 28.5% 333 333.0 100.0% 100.0% 100.0% 表1 3-18 卡方检验 Value df Asymp.Sig.(2-Sided) Pearson Chi-Square Likelihood Ratio Linear-by-Linear Association N of Valid Cases 70.143a 73.004 45.074 333 3 3 1 .000 .000 .000 a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 10.89. 由上述表得出有效例数为 238>40 且最小期望频数 8.19>5 因此卡方值 =23.829 df=2 P<0.0005 故可以认为两组检验松毛虫病患者的构成差别有统计意义 13.3.3 双向有序列联表 [例 13-5] 某矿职工医院探讨不同期次患者的胸部平片肺门密度变化 把 492 名患者的 资料归纳 如表 13-19 所示 问矽肺患者肺门密度的增加与矽肺的期次有无关系 表1 3-19 不同期次矽肺患者肺门密度数据表格 肺门密度级别 合计矽肺 期次 43 188 14 245 196 72160 617 5 78 合计 50 301 141 492 建立数据文件 以变量 r 标识不同矽肺期次 r=1 标识 r=2 标识 r=3 标识 变量 c 标识不同肺门密度级别 c=1 标识 c=2 标识 c=3 标识 以变量 f 标识人数 如图 13-10 所示 选择 Data ? Weight Cases 进入 Weight Cases 对话框 把 频数 [f] 放入 Frequency 栏中 单击 OK 按钮 从 Analyze ? Descriptive Statistics ? Crosstabs 进入 Crosstabs 对话框 把 矽肺期次 [r] 放入 Row(s)栏 把 肺门密 度级别 [c] 放入 Column(s)栏 单击 Statistics 按钮 进入 Statistics 对话框 选择 Chi-square 单击 Continue 按 钮 返回 Crosstabs 主对话框 单击 Cell 按钮 进入 Cells Display 格子显示对话框 选择 Observed Expected Row Column 单击 Continue 按钮 返回 Crosstabs 主对话框 在主对话框中 单击 OK 按钮 提交运行 Crosstabs 过程 得到结果如下表 13-20 到表 13-22 所示 表1 3-20 Case Processing Summary 数据处理概况 Cases Valid Missing Total N Percent N Percent N Percent 矽肺期次 * 肺门密度级别 492 100.0% 0 .0% 492 100.0% 图 13-10 不同期次矽肺患者肺门密度数据文件 表1 3-21 年龄 *病型 Crosstabulation 列联表 病型 1 2 3 Total 1 Count Expected Count % within 矽肺期次 % within 肺门密度级别 43 24.9 17.6% 86.0% 188 149.9 76.7% 62.5% 14 70.2 5.7% 9.9% 245 245.0 100.0% 49.8% 2 Count Expected Count % within 矽肺期次 % within 肺门密度级别 1 17.2 .6% 2.0% 96 103.4 56.8% 72 48.4 42.6% 169 169.0 100.0% 矽肺 期次 l 3 Count Expected Count % within 矽肺期次 % within 肺门密度级别 6 7.9 7.7% 12.0% 17 47.7 21.8% 5.6% 55 22.4 70.5% 39.0% 78 78.0 100.0% 15.9% Total Count Expected Count % within矽肺期次 % within肺门密度级别 50 50.0 10.2% 100.0% 301 301.0 61.2% 100.0% 141 141.0 28.7% 100.0% 492 492.0 100.0% 100.0% 表1 3-22 卡方检验 Value Df Asymp.Sig.(2-Sided) Pearson Chi-Square Likelihood Ratio Linear-by-Linear Association N of Valid Cases 163.007 a 184.792 125.510 492 4 4 1 .000 .000 .000 a. 0 cells (.0%) have expected count less than 5. The minimum expected count is 7.93. 由上述表得出有效例数为 238>40 且最小期望频数 8.19>5 因此卡方值 =23.829 df=2 P<0.0005 故可以认为两组检验松毛虫病患者的构成差别有统计意义 思 考 题 1 理解列联表分析的不同于其他差异显著性分析方法的特点 2 什么是四格表卡方检验 什么是 R C 表卡方检验 两者有何异同 第1 4 章 非参数检验 导 言 非参数检验是相对于参数检验而言的这两种检验方法在实际中有着广泛的应用但 它们有着不同数理统计原理和应用场合非参数检验的内容十分丰富主要有卡方检验 二项分布检验游程检验单样本K-S检验两个独立样本检验多个独立样本检验两 个相关样本检验多个相关样本检验等读者要学会区分选用合适的非参数检验方法为 了便于读者掌握各种非参数检验方法本章举出了大量实例 非参数检验是不依赖总体分布的统计推断方法是指在总体不服从正态分布且分布 情况不明时用来检验数据资料是否来自同一个总体假设的一类检验方法由于这些方法 一般不涉及总体参数而得名这类方法的假定前提比参数件假设检验方法少得多也容易 满足适用于计量信息较弱的资料且计算方法也简便易行所以在实际中有广泛的应用 SPSS中进行非参数检验由主菜单的Analyze下拉菜单中的Nonparametric Tests 菜单项导出选择“Nonparametric Tests”单击鼠标键显示小菜单其中包括 1 Chi-square test卡方检验 2 Binomial test二项分布检验 3 Runs test游程检验 4 1-Simple K-S test一个样本柯尔莫哥洛夫一斯米诺夫检验 5 2 Independent Sample test两个独立样本检验 6 K Independent Samples test多个独立样本检验 7 2 Related Sample test两个相关样本检验 8 K Related Sample test多个相关样本检验 14.1 卡方检验 14.1.1 卡方检验的基本概念 在前面介绍的方法中往往都事先假定总体服从正态分布然后对其均值或方差作检 验但某个随机变量是否服从某种特定的分布是需要进行检验的可以根据以往的经验或 实际来观测数据的分布情况推测总体可能服从某种分布函数F(X)利用这些样本数据来 具体检验该总体分布函数是否就是F(X)卡方检验(Chi-square test)就是这样一种用来检验 给定的概率值下数据来自同一总体的无效假设的方法 14.1.2 卡方检验的功能与应用 调用此过程可对样本数据的分布进行卡方检验卡方检验适用于配合度检验主要用 于分析实际频数与某理论频数是否相符 14.1.3 卡方检验的应用示例 [例14-1] 某地一周内各日死亡数的分布如表14-1请检验一周内各日的死亡危险性是 否相同 表1 4-1 一周内死亡数数据表 周日死亡数 一 11 二 19 三 17 四 15 五 15 六 16 日 19 建立数据文件定义变量名各周日为day 死亡数为death如图14-1所示 从Data菜单中选Weight Cases进入 Weight Cases对话框把death放入Frequency Variable框定义死亡数为权数再点击OK 钮即可 从Analyze ? Nonparametric Tests ? Chi-Square进入Chi-Square Test对话框(如 图14-2所示)现欲对一周内各日的死亡数进行 分布分析故在对话框左侧的变量列表中选day 点击向右的箭头钮使之进入Test Variable List框点击OK按钮即可 图14-2 Chi-Square Test对话框 得到结果如表14-2和表14-3所示 图14-1 一周内死亡数数据文件 表1 4-2 分析数据信息 Observed N Expected N Residual 1 2 3 4 5 6 7 Total 11 19 17 15 15 16 19 112 16.0 16.0 16.0 16.0 16.0 16.0 16.0 -5.0 3.0 1.0 -1.0 -1.0 .0 3.0 表1 4-3 卡方检验结果 DAY Chi-Squar a Df Asymp.Sig. 2.875 6 .824 0 cells (.0%) have expected frequencies less than 5. The minimum expected cell frequency is 16.0 由上述表格显示一周内各日死亡的理论数(Expected)为16.0即一周内各日死亡均数 还算出实际死亡数与理论死亡数的差值(Residual)卡方值 2 =2.875自由度数(D.F.)=6 P=0.824可认为一周内各日的死亡危险性是相同的 14.1.4 卡方检验的 SPSS 实现 1 Chi-Square Test对话框如图14-2所示 (1) Test Variable List(指定检验变量)框 从左侧变量列表中选择需要进行检验的变量单击鼠标键使之置于光带中单击右面 一个向右的箭头按钮使变量名移到Test Variable List框中如果变量为多个则重复上 述过程直至指定完 (2) Expected Range栏确定检验值的范围 z Get from data选项即最小值和最大值所确定的范围系统默认该项 z Use specified range选项只检验数据中一个子集的值在Lower和Upper参数框 中键入检验范围的下限和上限 (3) Expected Values栏指定期望值 z All categories equal选项系统默认的检验值是所有组对应的期望值都相同这意 味着你要检验的总体是否服从均匀分布 z Values选项选定所要检验的与总体是否服从某个给定的分布并在其右边的框 中键人相应各组所对应的由给定分布所计算而得的期望值 每输一个值后按Add按钮于是在它右边的框中便增加了刚键入的期望值期望 值必须大于0一直到输完所有的期望值为止如果在输入数据过程中出现了错误并已 按Add按钮使录入值进入了右下框中则可用鼠标键来进行纠正即用鼠标将光标移 到错误处单击鼠标左上键使错误值置于光带中如果它是刚录入的值则用鼠标将光标 移到Remove按钮上单击鼠标左上键即可将它移走然后重新录入如果错误值在录 入值中间则先将它置于光带中然后在Add右边的框中键入修改的期望值后按Change 按钮则错误值被替换 2 Options对话框 单击Options按钮打开 Chi-Square Test Options对话框如图14-3所示 (l) Statistics栏选择输出统计量 z Descriptive复选项输出想了解 变量的均值标准差最大值 最小值非缺失个体的数量 z Quartiles复选项输出结果将 包括四分位数的内容 (2) 在Missing Values栏中选择对缺失值的处理方式 z Exclude cases test-by-test选项将参与对比中的缺失值排除 z Exclude cases listwise选项将任何变量中所有含有缺失值的分析个体排除 3单击Chi-Square Test对话框中的OK按钮提交运行该过程 14.2 二项分布检验 14.2.1 二项分布检验的基本概念 有些总体只能划分为两类如医学中的生与死患病的有与无从这种二分类总体中 抽取的所有可能结果要么是对立分类中的这一类要么是另一类其频数分布称为二项 分布 二项分布检验(Binomial test)是一种用来检验在给定的落入二项式中第一项概率值的 前提下数据来自二项分布的无效假设的方法 14.2.2 二项分布检验的功能与应用 调用Binomial过程可对样本资料进行二项分布分析检验二项分类变量是否来自概率 为P的二项分布 14.2.3 二项分布检验的应用示例 [例14-2] 某地某一时期内出生40名婴儿其中女性12名(定Sex=0)男性28名(定 Sex=1)问这个地方出生婴儿的性比例与通常的男女性比例(总体概率约为0.5)是否不同 建立数据文件定义性别变量为sex按出生顺序输入数据男性为1女性为0如 图14-4所示 图14-3 Options对话框 图14-4 婴儿男女性别数据文件 从Analyze ? Nonparametric Tests ? Binomial Test进入Binomial Test对 话框如图14-5所示在对话框左侧的变量列表中选sex点击向右的箭头按钮使之进入 Test Variable List框在Test Proportion框中键入0.50再点击OK按钮即可 图14-5 Binomial Test对话框 得到结果如表14-4所示 表1 4-4 二项分布检验结果 Category N Observed Prop. Test Prop. Asymp.Sig.(2-tailed) SEX Group1 Group2 Total 0 1 12 28 40 .30 .70 1.00 .50 .018 a a. Based on z Approximation. 二项分布检验表明女婴12名男婴28名观察概率为0.70(即男婴占70%)检验 概率为0.50二项分布检验的结果是双侧概率为0.018可认为男女比例的差异有高度显著 性即与通常的0.5的性比例相比该地男婴比女婴明显多 14.2.4 二项分布检验的 SPSS 实现 1 Binomial Test对话框如图14-5所示 (1) Test Variable框指定检验变量 从左侧变量列表中选择需要进行检验的变量将其移到该框中 (2) Define Dichotomy栏定义二分值 z Get from data选项适用于指定的变量只有两个有效值无缺失值 z Cut point选项如果指定的变量超过两个值选择该项后并在其参数框中键入一个 试算点的值比试算点的值小的将形成第一项比试算点的值大的将形成第二项 (3)Test参数框指定检验概率值 系统默认的检验概率值是0.5这意味着要检验的二项是服从均匀分布的如果落入 每一项中的个体的期望比率不等换言之所要检验的二项不是同概率分布参数框中键 入第一项所对应的概率期望值 (4) Options对话框选择输出结果形式及缺失值处理方式同14.1.4节 (5) 在Binomial Test主对话框中点击OK按钮提交运行该过程 14.3 游程检验 14.3.1 游程检验的基本概念 一个游程就是某序列中位于一种符号之前或之后的另一种符号持续的最大主序列或 者说一个游程是指某序列中同类元素的一个持续的最大主集或者说一个游程是指依时 间或其他顺序排列的有序数列中具有相同的事件或符号的连续部分 游程检验Runs test是指根据游程数所作的两分变量的随机性检验 14.3.2 游程检验的功能与应用 游程检验可用来检验样本的随机性这对于统计推断是很重要的游程检验也可用来 检验任何序列的随机性而不管这个序列是怎样产生的此外还可用来判断两个总体的分 布是否相同从而检验出它们的位置中心有无显著差异 调用Runs过程可进行游程检验即用于检验序列中事件发生过程的随机性分析 14.3.3 游程检验的应用示例 [例14-3] 某村发生一种地方病其住户沿一条河排列调查时对发病的住户标记为 1对非发病的住户标记为0共26户如下表14-5所示 表1 4-5 调查所得数据表 0 1 1 0 0 0 1 0 0 1 0 0 0 0 1 1 0 0 1 0 0 0 0 1 0 1 建立数据文件定义住户变量为epi按住户顺序输入数据发病的住户为1非发病 的住户为0如图14-6所示 图14-6 调查所得数据文件 从Analyze ? Nonparametric Tests ? Runs Test.进入Runs Test对话框 如图14-7所示在对话框左侧的变量列表中选epi点击向右的箭头按钮使之进入Test Variable List框在临界割点Cut Point框中选Custom项在其方框中键入1(根据需要选 项本例是0 1二分变量故临界割点值用1)再点击OK按钮即可 图14-7 Runs Test对话框 得到结果如表14-6所示 从检验结果可见本例游程个数为14检验临界割点值(Test value)=1.00小于1.00 者有17个案例而大于或等于1.00者有9个案例Z=0.325双尾检验概率P=0.746所 以认为此地方病的病户沿河分布的情况无聚集性而是呈随机分布 表1 4-6 游程检验结果 EPT Test Value a Total Cases Number of Runs Z Asymp.Sig.(2-tailed) 1 26 14 .325 .746 a. User-sqecified. 14.3.4 游程检验的 SPSS 实现 1 Runs Test对话框如图14-7所示 (1) Test Variable框指定检验变量 从左侧变量列表中选择需要进行检验的变量并将其移入该框 (2) Cut Point栏确定划分二类的试算点 在该框中提供了用来定义两类的试算点方法变量值小于试算点的个体形成第一类 其他个体形成第二类 z Median中位数作临界割点其值在临界割点之下的为一类大于或等于临界割 点的为另一类 z Mode众数作临界割点其值在临界割点之下的为一类大于或等于临界割点的 为另一类 z Mean均数作临界割点其值在临界割点之下的为一类大于或等于临界割点的 为另一类 z Custom用户指定临界割点其值在临界割点之下的为一类大于或等于临界割 点的为另一类 2 Options对话框选择输出结果形式及缺失值处理方式同14.1.4 3在Runs Test对话框中点击OK按钮提交运行游程检验过程 14.4 单样本K-S检验 14.4.1 单样本 K-S 检验的基本概念 单样本K-S检验又称单样本柯尔莫哥洛夫-斯米诺夫检验(one-smple Kolmogorov-Smirnov test)是用来检验样本来自同一个总体(Normal Uniform Poisson)的假 设这也是一种拟合适度检验方法它主要是运用某随机变量工的顺序样本来构造样本分 布函数使得能以一定的概率保证X的分布函数F(x)落在某个范围内 14.4.2 单样本 K-S 检验的功能与应用 单样本K-S检验是频数优度拟合检验用于检验变量是否服从某一指定分布调用此 过程可对单样本进行Kolmogorov-Smirnov Z检验它将一个变量的实际频数分布与正态分 布(Normal)均匀分布(Uniform)泊松分布(Poisson)进行比较 14.4.3 单样本 K-S 检验的应用示例 [例14-4] 某地正常成年男子144人红细胞计数万/立方毫米的频数资料如表14-7 所示问该资料的频数是否呈正态分布 表1 4-7 频数数据资料 红细胞计数人数红细胞计数人数 420- 440- 460- 480- 500- 520- 2 4 7 16 20 25 540- 560- 580- 600- 620- 640- 24 22 16 2 6 1 建立数据文件定义频数变量名为f标识人数依次输入人数数据如图14-8所示 图14-8 频数数据文件 从Analyze ? Nonparametric Tests ? 1-Sample K-S进入One-Sample Kolmogorov-Smirnov Test对话框如图14-9所示在对话框左侧的变量列表中选f点击 向右的箭头按钮使之进入Test Variable List框在Test Distribution框中选Normal项表 明与正态分布形式相比较再点击OK按钮即可 图14-9 One-Sample Kolmogorov-Smirnov Test对话框 得到运算结果如表14-8所示 表1 4-8 单样本 K-S 检验结果 F N Normal Parameters a,b Mean Std. Deviation Most Extreme Absolute Differences Positive Negative Kolmogorov-smirnov Z Asymp. Sig(2-tailed) 12 12.08 9.32 .207 .207 -.163 .718 .681 a. Test distribution is Normal. b. Calculated from data. K-S正态性检验的结果显示Z值=0.718双尾检验概率P值=0.7060可认为该地正 常成年男子的红细胞计数符合正态分布 14.4.4 单样本 K-S 检验的 SPSS 过程 1 One-Sample Kolmogorov-Smirnov Test对话框如图14-9所示 (1) Test Variable框指定检验变量 从左侧变量列表中选择需要进行检验的变量移入该框 (2) Test Distribution框确定分布检验 在Test Distribution框中提供了所要检验的分布分别有 z Normal正态分布复选项 z Uniform均匀分布复选项 z Polsson泊松分布复选项 z Exponential指数分布复选项 系统默认值为正态分布SPSS命令语言也允许用户去设定正态分布的平均数和标准 差为泊松分布指定平均数为均匀分布指定最大值和最小值 2 Options对话框选择输出结果形式及缺失值处理方式同14.1.4 3在One-Sample Kolmogorov-Smirnov Test对话框中单击OK按钮执行命令 14.5 两个独立样本检验 14.5.1 两个独立样本检验的基本概念 有时样本所隶属的总体的分布类型往往可能是事先不知道的但还是想知道在这种情 况下两个独立样本间是否具有相同的分布两个独立样本检验test for two independent samples就是用来处理此类问题的一种有效方法 14.5.2 两个独立样本检验的功能与应用 调用此过程可对两个独立样本的均数中位数离散趋势偏度等进行差异比较检验 最终以确定两个独立样本是否服从相同分布 14.5.3 两个独立样本检验的应用示例 [例14-5] 某实验室观察局部温热治疗小鼠移植肿瘤的疗效以生存日数作为观察指 标实验结果如表14-9所示试检验两小鼠生存日数有无差别 表1 4-9 生存日数数据表 组别生存日数 N 实验组 10 12 15 15 16 17 18 20 23 90 10 对照组 2 3 4 5 6 7 8 9 10 11 12 13 12 建立数据文件定义变量sur存放生存日数变量组别g标识实验组和对照组g=1 为实验组g=2为对照组如图14-10所示 图14-10 生存日数数据文件 从Analyze ? Nonparametric Tests ? 2 Independent Samples进入 Two-Independent-Samples Test对话框在对话框左侧的变量列表中选sur,点击向右的箭头 按钮使之进入Test Variable List框把变量g放入Grouping Variables栏中 单击Define Groups按钮进入Two Independent Samples Define Groups对话框 在Group1中输入1在Group2中输入2如图14-11所示单击Continue按钮返回 Two-Independent-Samples Test对话框如图14-12所示 图14-11 Define Groups对话框 图14-12 Two-Independent-Samples Test对话框 在图14-11所示的对话框中点击OK按钮即可提交运行两个独立样本检验过程 得到结果如表14-10表14-11所示 表1 4-10 Ranks 秩 G N Mean Rank Sum of Ranks SUR 1 2 Total 10 12 22 17.00 6.92 170.00 83.00 表1 4-11 检验统计量 SUR Mann-whitney U Wilcoxon w Z Asymp.Sig.(2-tailed) Exact Sig. [2*(1-tailed Sig.)] 5.000 83.000 -3.630 .000 .000 a a. Nor corrected for ties. b. Groupoing Variable:G 由表14-9可得实验组的秩和t1=170.00对照组的秩和t2=83由表14-10得到统计 量U=5.000 W=83.000 P<0.05故可认为实验组和对照组生存日数有统计意义 14.5.4 两个独立样本检验的 SPSS 实现 1 Two-Independent-Samples Test对话框如图14-12所示 (1) Test Variable框指定检验变量 (2) Grouping Variable框指定分组变量 从左侧变量列表中指定用来分组的变量并使之移到Grouping Variable框中点击 Define Groups按钮进入Define Groups对话框如图14-11所示在Define Groups 对话框中的Group 1和Group 2后的栏中可指定分组变量的值 (3) Test Type框确定用来进行检验的方法 在Test Type框中提供了可供用来检验的四种方法它们分别是Mann-Whitney U复 选项Kolmogorov-Smirnov Z复选项Moses extreme reactions复选项Wald-Wolfowitz runs 复选项系统默认值为Mann-Whitney U复选项在这四种方法中至少应选择一种 2 Options对话框选择输出结果形式及缺失值处理方式同14.1.4小节 3在Two-Independent-Samples Test对话框中单击OK按钮执行命令 14.6 多个独立样本检验 14.6.1 多个独立样本检验的基本概念 要解决两个独立样本间是否具有相同的分布的问题需借助于多个独立样本检验(test for several independent samples)方法多个独立样本检验的基本原理与两个独立样本检验的 相同两个独立样本检验是多个独立样本检验中最基本的形式 14.6.2 多个独立样本检验的功能与应用 调用K Independent Samples过程可对多个独立样本进行中位数检验和Kruskal-Wallis H检验 14.6.3 多个独立样本检验的应用示例 [例14-6] 随机抽样得以下表14-12中三组人的血桨总皮质醇测定值( g/L)试比较有 无差异 表1 4-12 血桨总皮质醇测定值数据表 正常人单纯性肥胖皮质醇增多症 0.4 1.9 2.2 2.5 2.8 3.1 3.7 3.9 4.6 7.0 0.6 1.2 2.0 2.4 3.1 4.1 5.0 5.9 7.4 13.6 9.8 10.2 10.6 13.0 14.0 14.8 15.6 15.6 21.6 24.0 建立数据文件定义分组变量为group(正常人为1单纯性肥胖为2皮质醇增多症为 3)总皮质醇测定值为pzc如图14-13所示 图14-13 血桨总皮质醇测定值数据文件 从Analyze ? Nonparametric Tests ? k Independent Samples进入Tests for Several Independent Samples主对话框在对话框左侧的变量列表中选pzc,点击向右的箭头按钮使 之进入Test Variable List框选group点击箭头按钮使之进入Grouping Variable框点击 Define Range按钮在弹出的K Independent Samples Define Range对话框内定义 Mininum为1 Maxinum为3如图14-14所示之后点击Continue按钮返回 Two-Independent-Samples-Test对话框在Test Type框中有两个检验方法的选项 Kruskal-Wallis H和Median本例选Kruskal-Wallis H项选择完后的主对话框如图14-15 之后点击OK按钮即可 图14-14 Define Range对话框 图14-15 Tests for Several Independent Samples主对话框 得到结果如下表14-13和表14-14所示 表1 4-13 Ranks 秩 组别 N Mean Rank 总皮质醇测定值 1 2 3 Total 10 10 10 30 9.65 11.75 25.10 表1 4-14 检验统计量 总皮质醇测定值 Chi-Square df Asymp.Sig. 18.130 2 .000 a. Kruskal Wallis Test b.Grouping variable:组别 结果显示1至3组的平均秩次(Mean Rank)分别为9.65 11.75 25.10 2 值(即H 值)为18.130 P=0.000可认为三组人的血桨总皮质醇测定值有差异根据本例情况可看 出皮质醇增多症组高于其他两组人 14.6.4 多个独立样本检验的 SPSS 实现 1 Tests for Several Independent Samples对话框如图14-15所示 (1) Test Variable框指定检验变量 从左侧变量列表中选择需要进行检验的变量移入该框 (2) Grouping Variable框指定分组变量值范围 从左面变量列表中指定用来分组的变量并使之移到该框中单击Define Range 按钮进入Define Range对话框如图14-14所示定义变量值范围 z Minimum分组变量范围的下限 z Maximum分组变量范围的上限 (3) Test Type框确定用来进行检验的方法 在该框中提供了可供用来检验的两种方法分别如下 z Kruskal-Wallis H复选项为单向方差分析检验多个样本在中位数上是否有差异 z Median复选项为中位数检验检验多个样本是否来自具有相同中位数的总体 系统默认值为 Kruskal Wallis H法在这三种方法中至少应选择一种 2 Options对话框选择输出结果形式及缺失值处理方式同14.1.4小节 3在主对话框中点击OK按钮提交运行命令 14.7 两个相关样本检验 14.7.1 两个相关样本检验的基本概念 在实际的研究工作中我们经常遇到从同一个被测试对象身上测试2个或多个观测值 的情况这样的数据间就不再是相互独立的了而是彼此相关在此种情况下检验样本 间是否具有相同的分布要用两个相关样本检验(test for two related samples) 14.7.2 两个相关样本检验的功能与应用 调用2 Related Samples过程可对两个相关样本资料(如配对配伍资料)进行秩和检验 14.7.3 两个相关样本检验的应用示例 [例14-7] 用二乙胺化学法与气相色谱法测定车间空气中SO 2 的含量(mg/m 3 )如表 14-15所示问两法所得结果有无差别 表1 4-15 两法测定空气中 SO2的含量 mg/m 3 结果 样品号 12345678910 化学法 50.7 3.3 28.8 46.2 1.2 25.5 2.9 5.4 3.8 1.0 色谱法 60.0 3.3 30.0 43.2 2.2 27.5 4.9 5.0 3.2 4.0 建立数据文件定义变量huax标识化学法sep标识色谱法如图14-16所示 图14-16 两法测定空气中SO 2 的含量(mg/m 3 )数据文件 从Analyze ? Nonparametric Tests ? 2 Related Samples进入Two-Related-Samples Tests主对话框在对话框左侧的变量列表中选中化学法[huax]该变量出现在Current Selection当前选择栏中的第一个Variable后面单击选中色谱法[sep]该变量出现在 Current Selection当前选择栏中的第二个Variable后面点击向右的箭头按钮使Current Selection的变量进入Test Pair(s) List框在Test Type栏中选择Wilcoxon和Sign项如图 14-17所示之后点击OK按钮即可得到运算结果如表14-16到表14-19所示 图14-17 Two-Related-Samples Tests主对话框 表1 4-16 Ranks 秩 N Mean Ranl Sum of Ranks 色谱法-化学法 Negative Ranks Positive Ranks Ties Total 3 a 6 b 1 c 10 3.50 5.75 10.50 34.50 a.色谱法<化学法 b.色谱法>化学法 c.化学法=色谱法 表1 4-17 统计检验 a 色谱法-化学法 Z Asymp.Sig.(2-tailed) -1.424 a .154 a. Based on negative ranks. b. Wilcoxon Signed Ranks Test 表1 4-18 频数表 N 色谱法-化学法 Negative Banks Positive Ranks Ties Total 3 6 1 10 a.色谱法<化学法 b.色谱法>化学法 c.化学法=色谱法 表1 4-19 统计检验 b 色谱法-化学法 Exact Sig.(2-tailed)双尾精确概率 .508 a 由表14-17得到配对符号秩和检验之统计量Z=-1.424 P=0.154>0.05故不能认为两 法测定车间空气中SO 2 的含量有统计意义由表14-19得到P=0.508>0.05故不能认为两 法测定车间空气中SO 2 的含量有统计意义与配对符号秩和检验结果一样 14.7.4 两个相关样本检验的 SPSS 实现 1 Two-Relate-Samples Tests主对话框如图14-17所示 (1) Current Selections框指定检验变量对 从左面变量列表中选择检验的两个相关变量单击鼠标键使它们置于光带中在 Current Selections框的Variable l和Variable2后面的框中依次出现所选择的两个相关变量 名单击右面一个向右的箭头按钮变量名被移到Test Pair(s) List框中如果相关的成对 变量为多组则重复上述过程直至指定完 (2) Test Type框确定用来进行检验的方法 在Test Type框中提供了可供用来检验的四种方法它们分别是Wilcoxon复选项 Sign复选项McNemar复选项Marginal Homogeneit复选项系统默认值为Wilcoxon法 在这四种方法中至少应选择一种检验方法 2 Options对话框中选择输出结果形式及缺失值处理方式同14.1.4小节 3在主对话框中单击OK按钮执行命令 14.8 多个相关样本检验 14.8.1 多个相关样本检验的基本概念 上节所提到的两个相关样本检验是多个相关样本检验中最基本的形式要解决多个相 关样本间是否具有相同的分布的问题需借助于多个相关样本检验(test for several related Samples方法 14.8.2 多个相关样本检验的功能与应用 调用多个相关样本检验过程可对多个相关样本资料(如配伍资料)进行秩和检验 14.8.3 多个相关样本检验的应用示例 [例18-8] 用某药治疗血吸虫病患者采用三天疗法在治疗前和治疗后一周二周和 三周各测定7名患者血清谷丙转氨酶SGPT值的变化以观察该药对肝功能的影响结果 如下表14-20所示问患者四个阶段的血清谷丙转氨酶SGPT值有无不同 建立数据文件定义变量治疗前为before治疗后一周为w1二周为w2三周为 w3按顺序输入各组SGPT数据如图14-18所示 从Analyze ? Nonparametric Tests ? k Related Samples进入Tests for Serveral Related Samples主对话框在对话框左侧的变量列表中选before w1 w2和w3点击向 右的箭头按钮使before w1 w2和w3均进入Test Variables框在Test Type框中有三种 选项Friedman Cochran's Q Kendall's W Kendall本例选Friedman和Kendall’s W两种 检验方法再点击Statistics按钮弹出K Related-Samples Statistics对话框在Statistics 栏中选Decriptive项要求计算均数标准差等指标如图14-19所示点击Continue 按钮返回K Related-Samples Tests对话框如图14-20所示最后点击OK钮即可 表1 4-20 患者四个阶段的血清谷丙转氨酶 SGPT 值数据表 治 疗 后患者号治疗前 一周二周三周 1 2 3 4 5 6 7 63 90 54 45 54 72 64 188 238 300 140 175 300 207 138 220 83 213 150 163 185 54 144 92 100 36 90 87 图14-18 患者四个阶段的血清谷丙转氨酶SGPT值数据文件 图14-19 Statistics对话框 图14-20 Tests for Several Related Samples主对话框 得到运行结果如下表14-21到表14-25所示 N Mean Std. Deviation Minimum Maximum 治疗前 一周 二周 三周 7 7 7 7 63.14 221.14 164.57 86.14 14.70 61.55 47.28 34.49 45 140 83 36 90 300 220 144 表1 4-22 Friedman Test Ranks 秩 Mean Rank 治疗前 一周 二周 三周 1.29 3.86 3.00 1.86 表1 4-23 Friedman Test 检验统计量 N Chi-Square df Asymp.Sig. 7 16.714 3 .001 a.Friedman Test 表1 4-24 Kendall's Test Ranks 秩 Mean Rank 治疗前 一周 二周 三周 1.29 3.86 3.00 1.86 表1 4-25 Kendall's Test 检验统计量 N Kendall’s w Chi-Square df Asymp.Sig. 7 .796 16.714 3 .001 a.Kendall;’s Coefficient of Concordance 由上述表得到卡方值为16.714 df=3 P=0.001<0.05故可认为治疗前后四个阶段的 SGPT差别有统计意义 14.8.4 多个相关样本检验的 SPSS 实现 l Test for Several Related Samples主对话框如图14-20所示 表14-21 描述统计量 (1) Test Variable框指定检验变量 从左侧变量列表中选择需要进行检验的变量移入该框 (2 Test Type框确定用来进行检验的方法 在Test Type框中提供了可供用来检验的三种方法 z Friedman复选项双向方差分析考察多个相关样本是否来自同一总体 z Cochran's Q复选项作为两相关样本McNemar检验的多样本推广特别适用于 定性变量和二分字符变量 z Kendall's W Kendall和谐系数检验复选项通过计算Kendall和谐系数W以检 验多个相关样本是否来自同一分布的总体 2 Statistics对话框如图14-19所示 (1) Descriptive描述统计量显示均数标准差最小值最大值与不含缺失值例数 (2) Quartiles四分位数显示第25 50与75百分位数 3在主对话框中点击OK按钮提交运行过程 思 考 题 1了解各个非参数检验方法的基本概念思考各个检验方法的应用场合 2参数检验和非参数检验的区别是什么它们都基于什么条件和原理它们的使用 范围有何差别 3怎么判断一个样本是否服从指定分布检验概率的作用和含义是什么 4怎样确定两个样本的分布是否相同 第1 5 章 常用统计图 导 言 本章主要介绍利用 SPSS 作统计图以及对生成统计图的编辑 统计图结果比数据结果 来得更为直观和生动 学会利用统计图来分析问题是相当重要的 统计图有许多种 如条 形图 线图 面积图等 不同的统计图有着不同的使用场合 读者在学习本章时一定要弄 清每种统计图的使用功能 作用 15.1 统计图概述 统计图是用点 线 面等各种几何图形表达统计数据的一种形象的形式 其特点是简 明生动 形象具体 通俗易懂且又一目了然 SPSS 具有很强的制图功能 可以绘制多种统计图形 这些图形可以由各种统计分析过程 产生 也可以直接由菜单 Graphs 图形菜单产生 SPSS 图形的制作可分为三个过程 1 建立数据文件 2 生成图形 3 修饰生成的图形 统计图形的生成与数据文件的结构和类型紧密相关 数据文件结构往往决定着生成何 种图形 同样是来源于同一资料 可以做成不同的数据文件结构 从而产生各种不同的统 计图形 医学统计学常用的图形主要有条形图 面积图 圆图 线图 直方图 箱图 误 差图和散点图等等 数据类型又称为资料类型 统计资料常常分为定量资料和定性资料两大类 所谓定量 指标是指对每个观察单位用计量方法测量某项指标数值的大小 而定性指标是指记录每个 观察单位的某一方面的特征和性质 两类指标进一步有进一步细分为计数资料 计量资料 标称资料和次序资料 计量资料的具体取值通常是正数 零和负数 可以取某区间内所有的数值 计数资料 的具体取值通常是零和正整数 标称资料取值通常是文字 字母和代号 即使用数值表示 也只是一种分组的标志 并不代表数量的大小 次序资料的取值与标称资料相同 只是不 同取值之间有半定量的关系 可以按数量的相对大小或程度高低排除顺序 称为等级资料 SPSS 将统计数据分为 3 类 根据它们测定水平由高到低排列如下 Scale 定量资料 Ordinal 次序资料 Nominal 资料 它们在 Define Variable 定义变量对话框中的 Measurement 变量测定水平框中进行转化 15.2 条形图 (Bar Charts) 15.2.1 条形图 (Bar Charts)的功能与应用 调用 Graphs 菜单的 Bar 过程 可绘制直条图 直条图用直条的长短来表示非连 续性资料 (该资料可以是绝对数 也可以是相对数 )的数量大小 常用的有单式条形图和复 式条形图 15.2.2 条形图 (Bar Charts)的生成 [例 15-1] 研究血压状态与冠心病各临床型发生情况的关系 分析资料如表 15-1 所示 试绘制统计图 表1 5-1 数据表格 年龄标化发生率 1/10 万血压状态 冠状动脉机能不全 猝死 心绞痛 心肌梗塞 正常 临界 异常 8.90 10.63 19.84 12.00 18.05 30.55 34.71 46.18 73.06 44.00 67.24 116.82 建立数据文件 定义变量名 年龄标化发生率为 RATE 冠心病临床型为 DISEASE 血压状态为 BP RATE 按原数据输入 DISEASE 按冠状动脉机能不全 =1 猝死 =2 心绞 痛 =3 心肌梗塞 =4 输入 BP 按正常 =1 临界 =2 异常 =3 输入 如图 15-1 所示 图 15-1 数据文件 从 Graphs 菜单到 Bar 过程 进入 Bar Chart 对话框 在定义选项框的下方有一 数据类型栏 系统提供了 3 种数据类型 Summaries for groups of cases 以组为单位体现数据 Summaries of separate variables 以变量为单位体现数据 Values of individual cases 以观察样例为单位体现数据 大多数情形下 统计图都是以组为单位的形式来 体现数据的 在定义选项框的上方有 3 种直条图可选 Simple 为单一直条图 Clustered 为复式直条图 Stacked 为堆积式直条图 本例选复式直条图 如图 15-2 所示 图 15-2 Bar Charts 定义选项框 点击 Define 按钮 弹出 Define Clustered Bar Summaries for Groups of Cases 对话 框 如图 15-3 所示 在左侧的变量列表中选 年龄标化发生率 [rate] 点击向右的箭头按钮 使之进入 Bars Represent 栏的 Other summary function 选项的 Variable 框 选中 病症 [disease] 点击向右的箭头按钮使之进入 Category Axis 框 选中 血压状况 [bp] 点击 向右的箭头按钮使之进入 Define Clusters by 框 图 15-3 Define Clustered Bar Summaries for Groups of Cases 对话框 点击 Titles 按钮 弹出 Titles 对话框 在 Title 栏内输入 血压状态与冠心病各临床 型年龄标化发生率的关系 如图 15-4 所示 点击 Continue 按钮返回 Define Clustered Chart Summaries for Groups of Cases 对话框 再点击 OK 钮即完成 得到结果如图 15-5 所示 图 15-4 Titles 对话框 血压状态与冠心病各临床型年龄标化发生率 的关系 病症 4321 M e a n 年龄标化发生率 140 120 100 80 60 40 20 0 血压状况 1 2 3 图 15-5 血压状态与冠心病各临床型年龄标化发生率的关系条形图 系统在统计图编辑窗口中输出直条图 由于在原始数据库中 为了输入的方便 分组 采用简单的 1 2 3……等数字表示 故体现在统计图中的分组条目会让读者感到不理解 为此 用户可点击窗口上端工具栏中的 Edit 按钮 对统计图进行编辑 用户欲在图中 的哪一部位 (如 标题 纵横轴的尺度与标目 统计图的色彩或花纹 等等 )进行编辑 只 须将鼠标箭头指向这一部位并双击鼠标左键 系统即弹出相应的编辑对话框 下面对其进 行详细介绍 15.2.3 条形图 (Bar Charts)的编辑 为了进一步探查数据或增强视觉效果 常常需要对 SPSS 生成的图形进行编辑 如本 例在 SPSS 结果输出窗口 Output 中 可直接对生成的图 15-5 进行编辑 方法是双击 Output 中的图形 即可展开图形编辑窗口 Chart Editor 而原有生成的图 形覆以网影 表示该图形正处于编辑之中 如图 15-6 所示 图 15-6 对生成的图形进行编辑 Chart Editor 编辑窗口的命令菜单有十类 主要有 Gallery 图形转换菜单 可以将当前图形的形式转变成另一种适合当前数据文件结构的 图形形式 SPSS 系统可以自动识别可转换的图形 Chart 图形要素菜单 可对已生成的图形进行修饰 如改变图形版面 调整图形的尺度 增加图例说明等等 Series 图列菜单 可以通过选择而重新编排图列 从而改变原有图形等 下面以对图 15-5 的编辑为例说明其具体操作过程 1 改变图形的编排顺序 欲将原来在条形图横轴上的排列次序改为 4 3 2 1 的操作步骤如下 (1) 在结果输出窗口 Output 的生成图中 双击该图形激活图形编辑窗口 如图 15-6 所 示 (2) 选择并单击 Series ? Displayed 进入 Bar/Line/Area Displayed Data 对话框 如图 15-7 所示 z Series 图列 Legend Title 图例标题 本例为血压状况 Omit 省略 此栏的图例将不在新转换的图形中出现 Display 展示 此栏的图例将在新转换的图形中出现 Series Display as 显示图形类型 有 Bar 条形图 Line 线形图和 Area 面积图可供选择 z Categories 分类 Category 显示分类轴轴题 本例为病症 Omit 省略 此栏的分类轴将不在新转换的图形中出现 Display 展示 此栏的分类轴将在新转换的图形中出现 通过 Display 栏和 Omit 栏的变量相互调换 可以改变 Display 栏中变量的顺序 变为 4 3 2 1 调换的方法是先将 Categories 中的 Display 栏中的 1 2 3 选中 使用左 侧的向左的箭头按钮 使它们进入 Omit 栏中 这时 Display 栏中只剩下 4 再选中 Omit 栏中的 3 点击向右的箭头按钮使之进入 Display 栏中 这时 3 排在 4 之后 依次将 2 1 选中进入 Display 栏 如图 15-7 所示 改变后的图形如图 15-8 所示 图 15-7 Bar/Line/Area Displayed Data 对话框 血压状态与冠心病各临床型年龄标化发生率 的关系 病症 1234 M e a n 年龄标化发生率 140 120 100 80 60 40 20 0 血压状况 1 2 3 图 15-8 改变编排顺序后的图形 2 改变刻度轴轴题 例如欲将本例横轴轴题 病症 消除 并将纵轴轴题改为 发生率 (1/10 万 ) 的操作 步骤如下 (1) 只要在图形编辑窗口分别对着轴题双击之 分别产生 Scale Axis 刻度选择对话框和 Category Axis 分类轴选择对话框 如图 15-9 和图 15-10 所示 (2) 选择图 15-9 的 Display axis line 在 Axis 栏中输入轴题 发生率 (1/10 万 ) 并在 Title 栏下选择 Center 项 从而使轴题位于刻度轴的中部 (3) 在图 15-10 中的 Axis 栏将 疾病 删除即可 图 15-9 Scale Axis 对话框 图 15-10 Category Axis 对话框 改变后的图形如图 15-11 所示 3 将原图的边框消除 在图形编辑窗口中 选择并单击 Chart ? Outer Frames ? Inner Frames 使 之处于非激活状态 消失即可 改变后的图形如图 15-11 所示 4 改变刻度显示等 本例欲将原图刻度由 20 改为 10 (1) 双击原生成图坐标轴附近 即可激活 Scale Axis 对话框 如图 15-9 所示 z Scale 刻度轴标尺 有两种 Linear 普通线性标尺 Log 以 10 为底的对数标尺 z Major/Minor Division 主 /次刻度 Increment 增量 主刻度增量须大于次刻度增量 Ticks 刻度标记 Grid 刻度格线 Bar Origin 条的起始点 (2) 在 Major/Minor Division 的 Increment 增量中键入 10 单击 OK 按钮即可 此 外还可以改变颜色字体 改变后的图形如图 15-11 所示 血 压状态与冠心病各临床型年龄标化发生率 的关系 1234 发 生 率 140 130 120 110 100 90 80 70 60 50 40 30 20 10 0 血压状况 1 2 3 图 15-11 改变后的图形 上图为经编辑后血压状况与冠心病各临床型年龄标化发生率关系的条形图 从图中可 见 冠心病各临床型的发生率以冠状动脉机能不全 (以 1 标记 )最低 心肌梗塞 (以 4 标识 ) 最高 随血压的升高 疾病发生率升高 异常血压对心肌梗塞 (以 4 标识 )发生的影响作用 大于其他临床型 下面各节的统计图的编辑与条形图的编辑的方法基本相同 读者可以参照本节的方法 加以尝试 15.3 线图 (Line Charts) 15.3.1 线图 (Line Charts)的功能与应用 调用 Graphs 菜单的 Line 过程 可绘制线图 线图是用线条的上下波动形式 反映连续性的相对数资料的变化趋势 非连续性的资料一般不用线图表现 15.3.2 线图 Line Charts 的生成 [例 152] 某地调查居民心理问题的存在现状 资料如下表 15-2 所示 试绘制线图比较 不同性别和年龄组的居民心理问题检出情况 表1 5-2 不同性别和年龄组的居民心理问题数据表格 心理问题检出率 %年龄分组 男性 女性 15- 25- 35- 45- 55- 65- 75- 10.57 11.57 9.57 11.71 13.51 15.02 16.00 19.73 11.98 15.50 13.85 12.91 16.77 21.04 建立数据文件 定义变量 心理问题检出率为 RATE 年龄分组为 AGE 性别为 SEX AGE 与 SEX 可定义为字符变量 RATE 按原数据输入 AGE 按分组情况分别输入 15- 25- 35- 45- 55- 65- 75- SEX 是男的输入 M 女的输入 F 如图 15-12 所示 图 15-12 不同性别和年龄组的居民心理问题数据文件 从 Graphs ? Line 进入 Line Chart 对话框 弹出 Line Chart 定义选项框 有 3 种线图可选 Simple 为单一线图 Multiple 为多条线图 Drop-line 为落点线图 本例选多 条线图 如图 15-13 所示 点击 Define 按钮 进入 Define Multiple Line Summaries for Groups of Cases 对话 框 在左侧的变量列表中选中 检出率 [rate] 点击向右的箭头按钮使之进入 Lines Represent 栏的 Other summary function 选项的 Variable 框 选中 年龄 [age] 点击向右的箭头按钮 使之进入 Category Axis 框 选中 性别 [sex] 点击向右的箭头按钮使之进入 Define Lines by 框 如图 15-14 所示 点击 Titles 按钮 弹出 Titles 对话框 在 Title 栏内输入 某地男女年龄性别心理问 题检出率比较 如图 15-15 所示 点击 Continue 按钮返回 Define Multiple Line Summaries for Groups of Cases 对话框 再点击 OK 按钮即可提交运行该过程 图 15-13 Line Charts 定义选项框 图 15-14 Titles 对话框 图 15-15 Define Multiple Line Summaries for Groups of Cases 对话框 得到结果如图 15-16 所示 分析表明 15-岁组和 65-岁以上组的心理问题检出率较其他年龄组为高 女性的心理 问题检出率较男性为高 某地男女性年龄别心理问题检出率比较 年龄 75-65-55-45-35-25-15- M e a n 检出率 22 20 18 16 14 12 10 8 性别 1 2 图 15-16 某地男女年龄性别心理问题检出率比较的线性图 15.4 面积图 (Area Charts) 15.4.1 面积图 (Area Charts)的功能与应用 调用 Graphs 菜单的 Area 过程 可绘制面积图 实际上面积图是用面积来表现 连续性的频数分布资料 面积越大 频数越多 反之亦然 15.4.2 面积图 (Area Charts)的生成 [例 15-3] 在某城市抽样研究 20-49 岁已婚育龄妇女的避孕现状 频数分布资料参见表 15-3 所示 试绘制面积图 表1 5-3 频数分布资料 避孕现状年龄分组 有无 20- 25- 30- 35- 40- 45- 63 939 1860 1277 1141 987 68 184 273 91 173 399 建立数据文件 定义变量名 避孕有无的人数为 NUMBER 年龄分组为 AGE 避孕 现状为 CONTRA AGE 与 CONTRA 可定义为字符变量 NUMBER 按实际人数输入 (有无 避孕的人数全部输入变量 NUMBER 中 ) AGE 按分组情况分别输入 20- 25- 30- 35- 40- 45- CONTRA 有的输入 Y 无的输入 N 如图 15-17 所示 图 15-17 频数分布数据文件 选 Graphs 菜单的 Area 过程 弹出 Area Chart 定义选项框 有 2 种线图可选 Simple 为简单高低图 Stacked 为堆积高低图 本例选堆积高低图 如图 15-18 所示 点击 Define 按 钮 弹出 Define Stacked Area Summaries for Groups of Cases 对话框 在左 侧的变量列表中选 人数 [number] 点 击向右的箭头按钮使之进入 Areas Represent 栏的 Other summary function 选项的 Variable 框 选 年龄 [age] 点 击向右的箭头按钮使之进入 Category Axis 框 选 避孕状 况 [contra] 点击向右的箭头按钮使之进入 Define Areas by 框 如图 15-19 所示 点击 Titles 按钮 弹出 Titles 对话框 在 Title 栏内输入 某市已婚育龄妇女避孕状 况分析 如图 15-20 所示 点击 Continue 按钮返回 Define Stacked Area Summaries for Groups of Cases 对话框 再点击 OK 按钮即完成 得到结果如图 15-21 所示 图 15-20 Define Stacked Area Summaries for Groups of Cases 对话框 图 15-18 Area Chart 定义选项框 图 15-19 Title 对话框 某市已婚育龄妇女避孕状况分析 年龄 45-40-35-30-25-20- S u m 人数 3000 2000 1000 0 避孕状况 y n 图 15-21 某市已婚育龄妇女避孕状况分析的面积图 上图显示 年轻妇女 (25 岁之前 )有避孕人数与无避孕人数差不多 25 岁之后 有避孕 人数占绝大多数 而 45 岁以后 无避孕人数又开始增加 15.5 圆图 (Pie Charts) 15.5.1 圆图 (Pie Charts)的功能与应用 调用 Graphs 菜单的 Pie 过程 可绘制圆图 圆 图也称馅饼图 用一个圆来表现百分构成 读者可根据圆 中各个扇形面积的大小 来判断某一部分在全部中所占比 例的多少 15.5.2 圆图 (Pie Charts)的生成 [例 15-4] 如图 15-22 为某地 1983 年五种主要死因构成数据文件 将其生成圆图 从 Graphs 菜单的 Pie 过程 弹出 Pie Chart 定义选项框 在三种统计量描述模式 中选择其中一项 本例选择 Values of individual cases 观测值描述模式 如图 15-23 所示 点击 Define 按钮 弹出 Define Pie Values of individual cases 对话框 在左侧的变量列 表中选 死因分类 点击向右的箭头按钮使之进入 Slices Labels 栏的 Variable 框 选 构 成比 点击向右的箭头按钮使之进入 Slices Represent 框 如图 15-24 所示 点击 OK 按钮提交完成 图 15-23 Pie Charts 定义选项框 图 15-22 某地 1983 年五种 主要死因构成 图 15-24 Define Pie Values of Individual Cases 对话框 在 Ouput 窗口生成的圆图如图 15-25 所示 消化系病 呼吸系病 恶性肿瘤 脑血管病 心脏病 图 15-25 未编辑的 Pie Chart 圆图 对所生成的圆图进行编辑 双击 Output 中的圆图 产生图形编辑窗口 单击并选择 Chart ? Options 产生 Pie Options 圆图要素选择对话框 Position First 确定第一个 扇面的位置 圆图的扇面是按钟表的表盘方式排列 如果录入的数据为 8 则第一个扇面 是从 8 点的位置开始顺时针排列 系统默认值为 12 Collapse (Sum) Slices Less than 为合 并小于指定百分比的扇面 Label 标识 通过此选项可对每个扇面进行标识或编辑这个标 识 本例选择 Text 扇面文字标识 和 Percent(扇面占整个百分比标识 ) 如图 15-26 所示 选择好后点击 OK 按钮 编辑后的圆图如图 15-27 所示 图 15-26 Pie Options 圆图要素选择对话框 4.5% 9.6% 18.6% 31.8% 35.5% 消化系病 呼吸系病 恶性肿瘤 脑血管病 心脏病 图 15-27 编辑后的 Pie Chart 圆图 15.6 高低图 (High-Low Charts) 15.6.1 高低图 (High-Low Charts)的功能与应用 调用 Graphs 菜单的 High-Low 过程 可绘制高低图 高低图用于表现多种形式 的数据区域 如一组测定值的范围 (最小值 最大值 ) 95%可信区间值 (低限 高限 ) 1.96 SD(低值 均值 高值 )等 形象直观 15.6.2 高低图 (High-Low Charts)的生成 [例 15-5] 为了解水体污染情况 某市测定三种水源中放射性元素锶 ( 90 Sr)的含量 (10 -2 Bq·L -1 ) 资料如表 15-4 所示 试绘制高低图 表1 5-4 放射性元素锶 ( 90 Sr)的含量数据表格 水源点 范围 均值 自来水 湖 水 水库水 0.65 0.93 1.31 2.11 1.01 2.16 0.79 1.71 1.58 建立数据文件 定义变量名 数据的变量名为 DATA 将范围的低值与高值以及均值一并输入 设一变量为 CAT 用于定义低值 高值和均值 低值为 1 高值为 2 均值为 3 水源点变量名为 GROUP 依次输入 1 2 3 如图 15-28 所 示 从 Graphs 菜单到 High-Low 过程 弹出 High-Low Chart 定义选项框 高低图有 5 种 即 Simple High-Low-Close 简单线型高低图 图 15-28 放射性元素锶 ( 90 Sr) 的含量数据文件 Clustered High-Low-Close 复式线型高低图 Simple Range Bar 简单直条型高低图 Clustered Range Bar 复式直条型高低图 Difference Line 差异线图 本例选用简单线型高低图 在 Data in Chart Are 栏中选择 Summaries for groups ofcases 如图 15-29 所示 图 15-29 High-Low Chart 定义选项框 然后点击 Define 按钮 弹出 Define Simple High-Low-Close Summaries for Groups of Cases 对话框 在左侧的变量列表中选 data 点击向右的箭头按钮使之进入 Bars Represent 栏的 Other summary function 选项的 Variable 框 选 cat 点击向右的箭头按钮使之进入 Category Axis 框 , 选 group 点击箭头按钮使之进入 Define High-Low-Close by 框 如图 15-30 所示 图 15-30 Define Simple High-Low-Close Summaries for Groups of Cases 对话框 点击 Titles 按钮 弹出 Titles 对话框 在 Title 栏内输入 某市测定不同水体放射性 元素锶的含量比较 如图 15-31 所示 点击 Continue 按钮返回 Define Simple High-Low-Close Summaries for Groups of Cases 对话框 再点击 OK 钮即完成提交 图 15-31 Titles 对话框 得到结果如下图 15-32 所示 该图显示放射性元素锶的含量在湖水中最高 在自来水 中最低 但水库水中其含量不仅高而且变化幅度最大 某市测定不同水体放射性元素锶 的含量比较 CAT 321 Mean DATA 2.5 2.0 1.5 1.0 .5 GROUP 1 2 3 图 15-32 高低图 15.7 直条构成线图 (Pareto Charts) 15.7.1 直条构成线图 (Pareto Charts)的功能与应用 调用 Graphs 菜单的 Pareto 过程 可绘制直条构成线图 (又称佩尔托图 ) 直条构 成线图用直条的长短表现各组绝对数的多少 同时用线段的逐渐上升趋势表现各组百分构 成比接近 100.00%的过程 15.7.2 直条构成线图 (Pareto Charts)的生成 [例 15-6] 随访 1000 名 20-25 岁的男性一年 分季节考察其感冒发生情况 结果如下 表 15-5 所示 试绘制直条构成线图 表1 5-5 男性感冒发生情况数据表格 季节 病例数 百分构成 % 春 夏 秋 冬 443 104 379 187 39.80 9.35 34.05 16.80 合计 1113 100.00 建立数据文件 定义变量名 各季节病例数的变量名为 DATA 输入具体数字 季节 的变量名为 SEASON 依次输入 1 2 3 4 百分构成不必建立变量 也不必输入数据 系统会自动生成 如图 15-33 所示 选 Graphs 菜单的 Pareto 过程 进入 Pareto Chart 定义选项框 有 2 种直条构成 线图可选 Simple 为单一直条构成线图 Stacked 为堆积式直条构成线图 本例选用单一直 条构成线图 如图 15-34 所示 图 15-33 数据文件 图 15-34 Pareto Chart 定义选项框 然后点击 Define 按钮 弹出 Define Simple Pareto Summaries for Groups of Cases 对话框 在左侧的变量列表中选 data 点击向右的箭头按钮使之进入 Sums of variable 框 选 season 点击向右的箭头按钮使之进入 Category Axis 框 如图 15-35 所示 图 15-35 Define Simple Pareto Summaries for Groups of Cases 对话框 点击 Titles 按钮 弹出 Titles 对话框 在 Title 栏内输入 1000 名 20-25 岁男性各季 节感冒发生人数分析 如图 15-36 所示 点击 Continue 按钮返回 Define Simple Pareto Summaries for Groups of Cases 对话框 再点击 OK 钮即完成 得到结果如图 15-37 所示 图 15-36 Title 对话框 1000名 20-25岁男性各季节 感冒发生人数分析 SEASON 2431 DATA 1400 1200 1000 800 600 400 200 0 Percent 100 50 0 113 204 413 483 图 15-37 直条构成线图 图 15-37 显示 春秋季的感冒病例比其他季节多 仅春季的病例数已接近全年病例数 的一半 夏季感冒病例最少 占全年病例数的比例不到 10% 15.8 质量控制图 (Control Charts) 15.8.1 质量控制图 (Control Charts)的功能与应用 调用 Graphs 菜单的 Control 过程 可绘制质量控制图 质量控制图是进行质量 控制的常用工具 可提示工作过程中所发生的变化及其趋势 从而提醒人们的警觉与注意 以便分析原因 采取解决对策 15.8.2 质量控制图 (Control Charts)的生成 [例 15-7] 对一种标准试液中某物质含量测平行样 5 次 结果如下表 15-6 试绘制质量 控制图以便对准确度与精确度进行评价 表1 5-6 某物质含量数据表格 平行样测定次序 第一次 第二次 均数 极差 1 2 3 4 5 10.4 10.8 9.8 9.4 10.1 10.1 11.0 10.4 11.0 11.3 10.25 10.90 10.10 10.20 10.70 0.3 0.2 0.6 1.6 1.2 建立数据文件 定义变量名 平行样数据的变量名为 DATA 将测定数据一并输入 设一变量为 GROUP 用于定义测定次序 依次输入 1 2 3 4 5 均数和极差的数据不 必输入 系统会自动生成 如图 15-38 所示 图 15-38 某物质含量数据文件 从 Graphs 菜单到 Control 过程 弹出 Control Charts 定义选项框 有 5 种质量控 制图可选 X-Bar R s 均数控制图和极差 (标准差 )控制图 均数控制图又称图 用于控制重复 测定的准确度 极差控制图又称 R 图 用于控制例数较少时重复测定的精确度 标准差控 制图又称 s 图 用于控制例数较多时重复测定的精确度 Individuals, Moving Range 个值控制图 根据容许区间的原理绘制 适用于单个测定 值的控制 p np 率的控制图 根据率的二项分布原理绘制 适用于率的控制 c u 数量控制图 根据组中非一致测定值绘制 各组例数相等时用 u 图 不相等时 用 c 图 适用于属性资料的质量控制 本例选用 X-Bar R s 选项框的下方为 数据类型选择栏 Data Organization Cases are units 表示数据文件中各观察样例只是一个值 其分组需要再定义 Cases are subgroups 表示数 据文件中各观察样例本身就是一个组 本例选 择 Cases are units 如图 15-39 所示 点击 Define 按钮 弹出 X-Bar R s Cases Are Units 对话框 在左侧的变量列表中 选 data 点击向右的箭头按钮使之进入 Process Measurement 框 选 group 点击向右的箭头按 图 15-39 Control Chart 定义选项框 钮使之进入 Subgroups Defined by 框 因本例样品少 故在 Charts 栏中选 X-Bar and range 项 要求输出均数控制图和极差控制图 如图 15-40 所示 图 15-40 X-Bar R s Cases Are Units 对话框 点击 Titles 按钮 弹出 Titles 对话框 在 Title 栏内输入 样品测定的质量控制图 如图 15-41 所示 点击 Continue 按钮返回 X-Bar R s Cases Are Units 对话框 再点 击 OK 按钮即完成 图 15-41 Titles 对话框 得到结果如图 15-42 和图 15-43 所示 图 15-42 为均数控制图 平均中心线的值为五 组均数的平均值 其极差均值为五组极差的平均值 并由此计算得到上 下控制限 该图 将用于日后测定的准确度检查 测定值在上 下控制限之内的属随机波动 超出上 下控 制限的为测定失控 图 15-43 为极差控制图 将用于日后测定的精确度检查 测定值的极 差在上 下控制限之内的范围随机波动 超出上 下控制限的为测定失控 样品测定的质量控制图 Sigma level: 3 54321 Mean 12.01369 11.22184 10.43000 9.63816 8.84631 DATA UCL = 11.896 Average = 10.430 LCL = 8.964 图 15-42 均数控制图 样品测定的质量控制图 Sigma level: 3 54321 Range 3.0 2.5 2.0 1.5 1.0 .5 0.0 DATA UCL = 2.548 Average = .780 LCL = .000 图 15-43 极差控制图 15.9 箱图 (Boxplots) 15.9.1 箱图 (Boxplots)的功能与应用 调用 Graphs 菜单的 Boxplot 过程 可绘制箱图 箱图可用于表现观测数据的中 位数 四分位数和两头极端值 15.9.2 箱图 (Boxplots)的生成 [例 15-8] 下图 15-44 为两组小鼠发癌后生存日数的数据文件 将其生成箱图 从 Graphs 到 Boxplot 过程 进入 Boxplot 定义选项对话框 选择 Simple 单一箱 图 并选择 Summaries for groups of cases 如图 15-45 所示 图 15-44 两组小鼠发癌后的生存日数 图 15-45 Boxplot 定义选项对话框 点击 Define 按钮 弹出 Define Simple Boxplot Summaries for Groups of Cases 对话 框 在左侧的变量列表中选 survival 点击向右的箭头按钮使之进入 Variable 框 选 group 点击向右的箭头按钮使之进入 Category Axis 框 如图 15-46 所示 图 15-46 Define Simple Boxplot Summaries for Groups of Cases 对话框 单击 OK 按钮 提交运行 得到结果如下表 15-7 和图 15-47 所示 表1 5-7 分析处理概况 Cases Valid Missing Total 组别 N Percent N Percent N Percent 生存日数 对照组 3 100.0% 0 .0% 3 100.0% 实验组 4 100.0% 0 .0% 4 100.0% 对图 15-47 的解释如下 矩形框 是箱图的主体 上 中 下三条线分别表示变量值的第 75 50 25 百分位 数 变量的 50 的观测值落在这一区域中 触须线 是中间的纵向直线 上截止横线是变量值本体最大值 下截止横线是变量值 本体最小值 本体是指除奇异值和极值以外的变量值称为本体值 奇异值是指其变量值大 于或小于 (P 75 P 25 ) 1.5 极值是指其变量值大于或小于 (P 75 P 25 ) 3.0 43N = 组别 实验组对照组 生存日数 20 10 0 图 15-47 Simple Boxplot 简单箱图 15.10 误差条图 (Error Bar Charts) 15.10.1 误差条图 (Error Bar Charts)的功能与应用 调用 Graphs 菜单的 Error Bar 过程 可绘制误差条图 正态分布资料的描述性 指标 如均值 标准差 标准误 并由此求得的参照值范围 总体均值的可信区间等 都 可用误差条图来表现 15.10.2 误差条图 (Error Bar Charts)的生成 [例 15-9] 下图 15-48 为某地 29 名 13 岁男童的身高 体重 肺活量数据文件 将其中 的两变量生成误差条图 从 Graphs 到 Error Bar 进入 Error Bar 定义选项框 选择 Simple 单一误差条图 和 Summaries of Separate Variables 如图 15-49 所示 图 15-48 某地 13 岁男童的数据文件 图 15-49 Error Bar 定义选项框 点击 Define 按钮 进入 Define Simple Error Bar Summaries of Separate Variables 对话框 将变量 身高 和 体重 放入 Error Bars 框中 在 Bars Represent 选择 Standard deviation 在 Multiple 栏中输入 1.96 如图 15-50 所示 单击 OK 按钮 提交运行该过 程 运算结果如图 15-51 所示 图 15-50 Define Simple Error Bar Summaries of Separate Variables 对话框 99N = 体重身高 Mean +- 1 .96 SD 200 100 0 图 15-51 Simple Error BarChart 单一误差条图 15.11 散点图 (Scatterplots) 15.11.1 散点图 (Scatterplots)的功能与应用 调用 Graphs 菜单的 Scatter 过程 可绘制散点图 散点图用于表现测量数据的 原始分布状况 读者可从点的位置判断测量值的高低 大小 变动趋势或变化范围 15.11.2 散点图 (Scatterplots)的生成 [例 15-10] 研究饮茶对人体血清微量元素 ( mol/L)的影响作用 结果如表 15-8 所示 试绘制散点图 表1 5-8 饮茶对人体血清微量元素作用的数据表格 多喝茶组 少喝茶组 不喝茶组编号 Zn Fe Mn Zn Fe Mn Zn Fe Mn 1 2 3 15.87 16.27 16.77 36.87 35.90 37.45 0.29 0.28 0.24 13.25 12.98 13.64 32.40 32.65 33.04 0.21 0.22 0.19 11.40 10.89 11.05 29.87 30.14 30.70 0.12 0.14 0.11 建立数据文件 定义变量名 数据的变量名为 DATA 将各组各微量元素的测定值一 并输入 设一变量为 CATE1 用于定义喝茶状况组 多喝茶组为 1 少喝茶组为 2 不喝 茶组为 3 再设一变量为 CATE2 用于定义微量元素种类 Zn 为 1 Fe 为 2 Mn 为 3 如图 15-52 所示 图 15-52 饮茶对人体血清微量元素作用的数据文件 从 Graphs 菜单到 Scatter 过程 弹出 Scatterplot 定义选项框 散点图有 4 种 Simple 为单层散点图 Overlay 为多层散点图 Matrix 为矩阵散点图 3-D 为立体散点图 本例选用单层散点图 如图 15-53 所示 图 15-53 Scatterplot 定义选项框 然后点击 Define 按钮 弹出 Simple Scatterplot 对话框 在左侧的变量列表中选 data 点击向右的箭头按钮使之进入 Y Axis 框 选 cate1 点击向右的箭头按钮使之进入 X Axis 框 (指定饮茶状况为横轴标目 ) 选 cate2 点击向右的箭头按钮使之进入 Set Markers by 框 (指 定微量元素种类为散点标志 ) 如图 15-54 所示 图 15-54 Simple Scatterplot 对话框 点击 Titles 按钮 弹出 Titles 对话框 在 Title 栏内输入 饮茶与人体血清微量元素 的关系 如图 15-55 所示 点击 Continue 按钮返回 Simple Scatterplot 对话框 再点击 OK 钮即完成 得到结果如图 15-56 所示 饮茶与人体血清微量元素的关系 CATE1 3.53.02.52.01.51.0.5 DATA 40 30 20 10 0 -10 CATE2 3 2 1 图 15-55 Titles 对话框 图 15-56 饮茶与人体血清微量元素的散点图 图 15-56 显示 横轴标目中 1.0 为多喝茶组 2.0 为少喝茶组 3.0 为不喝茶组 图中可 见 饮茶对提高人体血清铁 (Fe 标识为 2)和锌 (Zn 标识为 1)的含量有明显的作用 且饮茶 量越大 效果越明显 但对锰 (Mn 标识为 3)的作用较小 饮茶量与效果的关系不明显 15.12 直方图 (Histogram) 15.12.1 直方图 (Histogram)的功能与应用 调用 Graphs 菜单的 Histogram 过程 可绘制直方图 直方图是用直条的长短来 表示连续性的绝对数 (或称频数 )资料的多少 其意义与本章第三节介绍的区域图相似 但 区域图能进行多组资料的比较 (如堆积式区域图 ) 而直方图不能 15.12.2 直方图 (Histogram)的生成 [例 15-11] 现有某地某年流行性乙型脑炎患者的年龄分布资料如表 15-9 所示 试绘制 直方图 表1 5-9 流行性乙型脑炎患者的年龄分布数据表格 年龄分组 患者人数 每岁患者人数 0- 1- 2- 3- 4- 5- 6- 7- 8- 9- 10-14 15-19 20-24 25-29 30-34 35-44 45-54 55-6 30 30 75 78 77 49 71 59 56 67 143 77 16 10 12 7 3 1 30.0 30.0 75.0 78.0 77.0 49.0 71.0 59.0 56.0 67.0 28.6 15.4 3.2 2.0 2.4 0.7 0.3 0.1 建立数据文件 定义变量名 频数资料的变量名为 NUMBER 将每岁患者人数资料 输入 变量 GROUP 用于定义年龄组 将各年龄分组的下限值输入 如图 15-57 所示 图 15-57 流行性乙型脑炎患者的年龄分布数据文件 为使频数资料在作图中生效 应选 Data 菜单的 Weight Cases 命令 在弹出的 Weight Cases 对话框中取 Weight cases by 项 并选变量 number 点击向右的箭头按钮使之 进入 Frequency Variable 框 点击 OK 按钮即可 选 Graphs 菜单的 Histogram 过程 因直方图只有一种类型 故直接弹出 Histogram 对话框 在左侧的变量列表中选 group 点击箭头按钮使之进入 Variable 框 如图 15-58 所示 图 15-58 Histogram 对话框 点击 Titles 按钮 弹出 Titles 对话框 在 Title 栏内输入 某地某年流行性乙型脑炎 患者年龄分布 如图 15-59 所示 点击 Continue 按钮返回 Histogram 对话框 再点击 OK 钮即完成 得到结果如图 15-60 所示 GROUP 55.0 50.0 45.0 40.0 35.0 30.0 25.0 20.0 15.0 10.0 5.0 0.0 某地某年流行性乙型脑炎患者年龄分布 Cases weighted by NUMBER 400 300 200 100 0 Std. Dev = 4.06 Mean = 5.6 N = 644.70 图 15-59 Titles 对话框 图 15-60 流行性乙型脑炎患者的年龄分布的直方图 由图 15-60 可以看出 该地流行性乙型脑炎患者主要集中在 10 岁之前 10 岁之后患 者数骤减 尤其是 35 岁之后患者数几乎为 0 15.13 正态概率分布图 (Normal P-P Plots) 15.13.1 正态概率分布图 (Normal P-P Plots)的功能与应用 调用 Graphs 菜单的 Normal P-P 过程 可绘制正态概率分布图 如果变量值是 正态分布的 则所绘制的正态概率分布图将呈现一条从纵轴零点指定右上角的直线 15.13.2 正态概率分布图 (Normal P-P Plots)的生成 [例 15-12] 某医师测得 30 名健康女大学生血清总蛋白含量 (g/L) 资料如下图数据文件 15-61 所示 试绘制正态概率分布图 图 15-61 30 名健康女大学生血清总蛋白含量数据文件 选 Graphs 菜单的 Normal P-P 过程 弹出 Normal P-P Plot 对话框 在左侧的变 量列表中选 蛋白含量 点击向右的箭头按钮使之进入 Variable 框 在 Transform 栏中 系统有 4 种数据转换形式供用户选择 Natural Log transform 作自然对数的转换 Standardize values 作标准化值 (即 Z 值 )的转换 Difference 使用系列值与 n 个相近观察值的差别值替代原始值 Seasonally difference 使用系列值与 n 个时期值的差别值替代原始值 本例不作数据转换 在 Proportion Estimation Formula 栏中 共有 4 种计算预期正态概率值的方法 Blom’s 公式为 (r (3/8))/(n+(1/4) Tukey’s 公式为 (r (1/2))/n Rankit 公式为 (r (1/3))/(n+(1/3) Van der Waerden 公式为 r/(n+1 上列各式中 n 为观察单位数 r 为 1~n 的秩次 本例选 Blom’s 方法 如图 15-62 所示 点击 OK 按钮完成操作 得到结果如图 15-63(a)和图 15-63(b)所示 图 15-62 Normal P-P Plot 对话框 Normal P-P Plot of 蛋白含量 Observed Cum Prob 1.00.75.50.250.00 Expected Cum Prob 1.00 .75 .50 .25 0.00 Detrended Normal P-P Plot of 蛋白 含 Observed Cum Prob 1.0.8.6.4.20.0 Deviation from Normal .06 .04 .02 0.00 -.02 -.04 -.06 -.08 图 15-63(a) Normal P-P 正态概率分布图 图 15-63(b) 正态概率分布无趋势图 图 15-63(a)显示观察值紧贴正态概率线分布 由此可知其服从正态分布 15.14 正态概率单位分布图 (Normal Q-Q Plots) 15.14.1 正态概率单位分布图 (Normal Q-Q Plots)的功能与应用 调用 Graphs 菜单的 Normal Q-Q 过程 可绘制正态概率单位分布图 绘制正态 概率单位分布图的意义与本章 15.13 介绍的正态概率分布图一样 只是其纵轴采用概率单 位而不是采用概率 15.14.2 正态概率单位分布图 (Normal Q-Q Plots)的生成 [例 15-13] 某医师研究了不同布氏菌苗免疫后布氏菌素皮肤反应情况 资料如表 15-10 所示 试绘制正态概率单位分布图 表1 5-10 不同布氏菌苗免疫后布氏菌素皮肤反应情况数据 A 组菌苗皮肤浸润直径 mm 20.0 24.0 25.0 23.0 22.0 20.5 17.5 19.0 25.0 23.0 24.0 24.0 16.5 21.0 15.0 11.5 20.5 15.5 22.5 25.5 B 组菌苗皮肤浸润直径 mm 20.0 20.0 22.0 20.0 15.5 18.5 16.5 15.5 18.0 16.5 15.5 20.0 14.0 13.5 13.5 12.5 16.5 14.5 13.0 20.5 20.5 25.0 10.0 20.0 22.5 18.0 建立数据文件 A 组菌苗皮肤浸润直径的数据变量名为 X1 将原始测定值输入 B 组 菌苗皮肤浸润直径的数据变量名为 X2 也将原始测定值输入 如图 15-64 所示 图 15-64 不同布氏菌苗免疫后布氏菌素皮肤反应情况的数据文件 选 Graphs 菜单的 Normal Q-Q 过程 弹出 Normal Q-Q Plot 对话框 在左侧的变 量列表中选 x1 x2 点击向右的箭头按钮使之进入 Variable 框 不作数据转换 选择 Blom’s 方法推算预期正态概率单位值 如图 15-65 所示 点击 OK 按钮完成操作 图 15-65 Normal Q-Q Plot 对话框 得到结果如图 15-66 到图 16-69 所示 由于是对两个变量作正态概率单位分布图 故 系统输出 4 张图 比较变量 X1 与 X2 的正态概率单位分布图 可看到变量 X1 的分布形式 偏离正态 因其值大多落在 0 概率单位之下 故呈现一定程度的正偏态 而变量 X2 的分 布形式接近正态 其值较均匀地紧贴正态概率单位线 Normal Q-Q Plot of X1 Observed Value 302010 Expected Normal Value 30 28 26 24 22 20 18 16 14 12 Normal Q-Q Plot of X2 Observed Value 2624222018161412108 Expected Normal Value 26 24 22 20 18 16 14 12 10 图 15-66 变量 X1 的正态概率分布图 图 15-67 变量 X2 的正态概率分布图 Detrended Normal Q-Q Plot of X1 Observed Value 262422201816141210 Deviation from Normal 1.5 1.0 .5 0.0 -.5 -1.0 -1.5 -2.0 -2.5 Detrended Normal Q-Q Plot of X2 Observed Value 2624222018161412108 Deviation from Normal .8 .6 .4 .2 -.0 -.2 -.4 -.6 图 15-68 变量 X1 的正态概率分布无趋势图 图 15-69 变量 X2 的正态概率分布无趋势图 15.15 普通序列图 (Sequence Charts) 15.15.1 普通序列图 (Sequence Charts)的功能与应用 调用 Graphs 菜单的 Sequence”过程 可绘制普通序列图 普通序列图用于表现一 组或几组观察值随另一序列性变量变化的趋势 15.15.2 普通序列图 (Sequence Charts)的生成 [例 15-14] 研究气相色谱仪采用硅胶采样管测定苯胺的稳定性 资料如表 15-11 所示 试绘制普通序列图 表1 5-11 测定苯胺的数据表格 分析时间 (min) 加入值 ( g) 测定值 ( g) 0 1 3 5 7 10 100 100 100 100 100 100 101.8 106.0 104.0 98.0 99.0 96.0 建立数据文件 定义变量名 加入值数据的变量名为 X1 测定值数据的变量名为 X2 分析时间的变量名为 TIME 将原始数据一一输入即可 如图 15-70 所示 图 15-70 测定苯胺数据文件 从 Graphs 菜单到 Sequence 过程 弹出 Sequence Chart 对话框 在左侧的变量 列表中选 x1 x2 点击向右的箭头按钮使之进入 Variable 框 选 time 点击箭头按钮使之进 入 Time Axis Labels 框 点击 OK 按钮即完成 如图 15-71 所示 图 15-71 Sequence Chart 对话框 得到结果如图 15-72 所示 TIME 1075310 108 106 104 102 100 98 96 94 X1 X2 图 15-72 苯胺测定的 Sequence Chart 普通序列图 图 15-72 为气相色谱仪采用硅胶采样管测定苯胺的稳定性研究图 该图显示 测定值 围绕加入值作小幅度 (<6%)的波动 测定前期 测定值高于实际加入值 测定后期 测定 值低于实际加入值 最佳测定时间为样品加入后 3 5 分钟内 15.16 时间序列图 (Time Series Charts) 15.16.1 时间序列图 (Time Series Charts)的功能与应用 调用 Graphs 菜单的 Time Series 过程 可绘制时间序列图 时间序列是指按时 间顺序排列的随机变量的一组实测值 分析时间序列图 可以从运动的角度认识事物的本 质 如几个时间序列之间的差别 一个较长时间序列的周期性 或对未来的情况进行预测 15.16.2 时间序列图 (Time Series Charts)的生成 [例 15-15] 连续 4 周 (每周 5 个工作日 )测定某无菌操作室空气中的细菌含量 ( 103/M3) 资料如表 15-12 所示 试绘制时间序列图 看是否存在周期性变动趋势 建立数据文件 定义变量名为 DATA 然后按时间顺序从第一周第 1 天起将观察数据 依次输入 如图 15-73 所示 表1 5-12 某无菌操作室空气中的细菌含量数据表 时间 第一周 第二周 第三周 第四周 第 1 天 第 2 天 第 3 天 第 4 天 第 5 天 3.7 4.0 11.5 7.5 3.8 3.0 6.6 12.7 5.9 2.0 4.4 4.9 10.8 5.6 4.1 3.2 4.8 10.9 5.8 6.0 表 15-73 某无菌操作室空气中的细菌含量数据文件 在 Graphs 菜单的 Time Series 项中 含两个过程 Autocorrelations 自相关时间序列图 自相关指相关值来自一组时间序列中前一 时间序列与其后序列的各对应观测值的相关 Cross-correlations 交叉相关时间序列图 交互相关指相关值来自某一时间序列变 量与相邻另一个或一些时间序列变量的各对应观测值的相关 本例只有一个随机变量 故选用 Autocorrelations 过程 在弹出的 Autocorrelations 对话框中 选左侧变量列表中的 data 点击向右的箭头按钮使之进入 Variable 框 在 Display 栏选 Autocorrelations 项 要求仅绘制自动相关的时间序列图 如图 15-74 所示 图 15-74 Autocorrelations 对话框 点击 Options 按钮 弹出 Autocorrelations Options 对话框 在 Maximum Number of Lags 处输入 5 表示时间序列阶段为每 5 天一个周期 如图 15-75 所示 图 15-75 Autocorrelation Options 对话框 点击 Continue 钮返回 Autocorrelations 对话框 再点击 OK 按钮即完成 得到结 果如图 15-76 所示 DATA Lag Number 54321 ACF 1.0 .5 0.0 -.5 -1.0 Confidence Limits Coefficient 图 15-76 某无菌操作室空气中的细菌含量的时间序列图 在时间序列图中 用户可根据相关系数的大小来判断序列模型的变动趋势 一般地说 相关系数为 0 或为 <0 则前后序列或相邻序列的变动趋势保持原状 当最大的正相关系数 出现在最后一个时点之前的任一时点时 表明趋势变动 完整地说 是后面的或相邻变量 的序列较前面的或相邻前面变量的序列延迟 前面的或相邻前面变量的序列超前的时点即 在最大正相关系数所在的时点 如本例 系统按用户指向 一个时间序列为 5 个时点段 图 15-76 显示最大正相关系数位于最后一个时点 故表明前后时间序列稳定 即具有周期 性 思 考 题 1 熟悉各种统计图生成的过程 掌握不同的统计图有着不同的使用场合 2 如何改变生成统计图的横坐标 纵坐标的标识和刻度 了解常用统计图的编辑方法