C,CHENG 结束 返回章目录 返回总目录
第 1章绪论 第 1页 共 666页
医学本科生用
医 学 统 计 学
主讲 程 琮
泰山医学院预防医学教研室
zcheng@tsmc.edu.cn
C,CHENG 结束 返回章目录 返回总目录
第 1章绪论 第 2页 共 666页
The teaching plan
for medical students
Professor Cheng Cong
Dept,of Preventive Medicine
Taishan Medical College
C,CHENG 结束 返回章目录 返回总目录
第 1章绪论 第 3页 共 666页
预防医学教授,硕士生导师。男,1959年 6月出生。汉族,无党派。
1982年 12月,山东医学院公共卫生专业五年本科毕业,获医学学士学位。
1994年 7月,上海医科大学公共卫生学院研究生毕业,获医学硕士学位。
2003年 12月晋升教授。现任预防医学教研室副主任。主要从事, 医学统
计学,,, 预防医学,,, 医学人口统计学, 等课程的教学及科研工作,
每年听课学生 500-800人。自 2000年起连续六年,为硕士研究生开设, 医
学统计学,,, SPSS统计分析简明教程,,, 卫生经济学, 等课程,同
时指导研究生的科研设计、开题报告及科研资料的统计处理与分析。发
表医学统计学及预防医学的科研论文 30多篇。代表作有, 锌对乳癌细胞
生长、增殖与基因表达的影响,,,,行列相关的测度, 等。主编、副
主编各类教材及专著 8部,代表作有, 医学统计学,,, SPSS统计分析简
明教程, 获得院级科研论文及科技进步奖 8项,院第四届教学能手比赛二
等奖一项,院教学评建先进工作者一项。获 2004年泰山医学院首届十大
教学名师奖。
程琮教授简介
C,CHENG 结束 返回章目录 返回总目录
第 1章绪论 第 4页 共 666页
医学统计学总目录
? 第 1章绪论
? 第 2章定量资料统计描述
? 第 3章总体均数的区间估计和假设检验
? 第 4章方差分析
? 第 5章定性资料的统计描述
? 第 6章总体率的区间估计和假设检验
? 第 7章二项分布与泊松分布
? 第 8章秩和检验
? 第 9章直线相关与回归
? 第 10章实验设计
? 第 11章调查设计
? 第 12章统计表与统计图
C,CHENG 结束 返回章目录 返回总目录
第 1章绪论 第 5页 共 666页
第 1章绪论 目录
? 第五节 学习统计学应注意的几个问题
? 第二节 统计工作的基本步骤
? 第三节 统计资料的类型
? 第四节 统计学中的几个基本概念
? 第一节 医学 统计学的定义和内容
C,CHENG 结束 返回章目录 返回总目录
第 1章绪论 第 6页 共 666页
第一章 绪论
第一节 医学统计学的定义和内容
? 医学统计学 (medical statistics) ---是以
医学理论为指导,运用数理统计学的原理和方
法研究医学资料的搜集、整理与分析,从而掌
握事物内在客观规律的一门学科。
C,CHENG 结束 返回章目录 返回总目录
第 1章绪论 第 7页 共 666页
医学研究的对象 ----主要是人以及与其健康有关的各
种影响因素。
医学统计学的主要内容,
1.统计设计 包括实验设计和调查设计, 它可以合理地,
科学地安排实验和调查工作, 使之能较少地花费人力,
物力和时间, 取得较满意和可靠的结果 。
2.资料的统计描述和总体指标的估计 通过计算各种统
计指标和统计图表来描述资料的集中趋势, 离散趋势
和分布特征况 ( 如正态分布或偏态分布 ) ;利用样本
指标来估计总体指标的大小 。
C,CHENG 结束 返回章目录 返回总目录
第 1章绪论 第 8页 共 666页
3.假设检验 是通过统计检验方法 ( 如 t检验, u
检验, F检验, 卡方检验, 秩和检验等 ) 来推
断两组或多组统计指标的差异是抽样误差造成
的还是有本质的差别 。
4.相关与回归 医学中存在许多相互联系, 相互
制约的现象 。 如儿童的身高与体重, 胸围与肺
活量, 血糖与尿糖等, 都需要利用相关与回归
来分析 。
C,CHENG 结束 返回章目录 返回总目录
第 1章绪论 第 9页 共 666页
5.多因素分析 如多元回归, 判别分析, 聚类
分析, 正交设计分析, 主成分分析, 因子分析,
logistic回归, Cox比例风险回归等, 都是分
析医学中多因素有效的方法 ( 本书不涉及, 请
参考有关统计书籍 ) 。 这些方法计算复杂, 大
部分需借助计算机来完成 。
6.健康统计 研究人群健康的指标与统计方法,
除了用上述的某些方法外,他还有其特有的方
法,如寿命表、生存分析、死因分析、人口预
测等方法
C,CHENG 结束 返回章目录 返回总目录
第 1章绪论 第 10页 共 666页
医学统计工作可分为四个步骤,
统计设计, 搜集资料, 整理资料和分析资料 。
这四个步骤密切联系, 缺一不可, 任何一个步骤
的缺陷和失误, 都会影响统计结果的正确性 。
第二节 统计工作的基本步骤
C,CHENG 结束 返回章目录 返回总目录
第 1章绪论 第 11页 共 666页
设计( design) 是统计工作的第一步,也是关
键的一步,是对统计工作全过程的设想和计划
安排。
统计设计 ---就是根据研究目的确定试验因
素、受试对象和观察指标,并在现有的客观条
件下决定用什么方式和方法来获取原始资料,
并对原始资料如何进行整理,以及整理后的资
料应该计算什么统计指标和统计分析的预期结
果如何等。
一、统计设计
C,CHENG 结束 返回章目录 返回总目录
第 1章绪论 第 12页 共 666页
搜集资料 (collection of date) —— 是根据设计
的要求,获取准确可靠的原始资料,是统计分
析结果可靠的重要保证。
医学统计资料的来源主要有以下三个方面,
1.统计报表 统计报表是医疗卫生机构根据国家规
定的报告制度,定期逐级上报的有关报表。如
法定传染病报表、出生死亡报表、医院工作报
表等,报表要完整、准确、及时。
二、搜集资料
C,CHENG 结束 返回章目录 返回总目录
第 1章绪论 第 13页 共 666页
2.医疗卫生工作记录 如病历、医学检查
记录、卫生监测记录等。
3.专题调查或实验研究 它是根据研究目
的选定的专题调查或实验研究,搜集资
料有明确的目的与针对性。它是医学科
研资料的主要来源。
C,CHENG 结束 返回章目录 返回总目录
第 1章绪论 第 14页 共 666页
整理资料 ( sorting data) 的目的就是将搜集到的原始资
料进行反复核对和认真检查, 纠正错误, 分类汇总, 使其
系统化, 条理化, 便于进一步的计算和分析 。 整理资料的
过程如下,
1.审核:认真检查核对, 保证资料的准确性和完整性 。
2.分组:归纳分组, 分组方法有两种,
① 质量分组, 即将观察单位按其类别或属性分组, 如按性别,
职业, 阳性和阴性等分组 。
② 数量分组, 即将观察单位按其数值的大小分组, 如按年龄
的大小, 药物剂量的大小等分组 。
三、整理资料
C,CHENG 结束 返回章目录 返回总目录
第 1章绪论 第 15页 共 666页
3.汇总, 分组后的资料要按照设计的要求进行
汇总,整理成统计表。原始资料较少时用手工汇
总,当原始资料较多时,可使用计算机汇总。
四、分析资料
? 分析资料 (analysis of data) —— 是根据设计的
要求,对整理后的数据进行统计学分析,结合
专业知识,作出科学合理的解释。
C,CHENG 结束 返回章目录 返回总目录
第 1章绪论 第 16页 共 666页
1.统计描述 (descriptive statistics) 将计算出
的统计指标与统计表, 统计图相结合, 全面描述
资料的数量特征及分布规律 。
2.统计推断 (inferential statistics) 使
用样本信息推断总体特征。通过样本统计量进行
总体参数的估计和假设检验,以达到了解总体的
数量特征及其分布规律,才是最终的研究目的。
统计分析包括以下两大内容,
C,CHENG 结束 返回章目录 返回总目录
第 1章绪论 第 17页 共 666页
?医学统计资料按研究指标的性质一般分为定量资料、
定性资料和等级资料三大类。
一,定量资料
?定量资料( quantitative data) 亦称计量资料
( measurement data),是用定量的方法测定观察单
位(个体)某项指标数值的大小,所得的资料称定量
资料。如身高(㎝)、体重(㎏)、脉搏(次 /分)、
血压( kPa)等为数值变量,其组成的资料为定量资
料。
第三节 统计资料的类型
C,CHENG 结束 返回章目录 返回总目录
第 1章绪论 第 18页 共 666页
? 定性资料 ( qualitative data) 亦称计数资料
( enumeration data) 或分类资料 ( categorical
data), 是将观察单位按某种属性或类别分组, 清点
各组的观察单位数, 所得的资料称定性资料 。
? 定性资料的观察指标为 分类变量 ( categorical
variable) 。 如人的性别按男, 女分组;化验结果按
阳性, 阴性分组;动物实验按生存, 死亡分组;调查
某人群的血型按 A,B,O,AB分组等, 观察单位出现的
结果为分类变量, 分类变量没有量的差别, 只有质的
不同, 其组成的资料为定性资料 。
二、定性资料
C,CHENG 结束 返回章目录 返回总目录
第 1章绪论 第 19页 共 666页
三、等级资料
?等级资料( ranked data) 亦称有序分类
资料( ordinal categorical data),是
将观察单位按属性的等级分组,清点各组
的观察单位数,所得的资料为等级资料。
?如治疗结果分为治愈、显效、好转、无效
四个等级。
C,CHENG 结束 返回章目录 返回总目录
第 1章绪论 第 20页 共 666页
? 根据需要,各类变量可以互相转化 。若
按贫血的诊断标准将血红蛋白分为四个等
级:重度贫血、中度贫血、轻度贫血、正
常,可按等级资料处理。有时亦可将定性
资料或等级资料数量化,如将等级资料的
治疗结果赋以分值,分别用 0,1,2… 等表
示,则可按定量资料处理。
? 如调查某人群的尿糖的情况,以人为观
察单位,结果可分 —, ±,+、++、+
++五个等级。
C,CHENG 结束 返回章目录 返回总目录
第 1章绪论 第 21页 共 666页
同质( homogeneity) 是指观察单位或研究个
体间被研究指标的主要影响因素相同或基本相
同。如研究儿童的生长发育,同性别、同年龄、
同地区、同民族、健康的儿童即为同质儿童。
变异 ( variation) 由于生物个体的各种指标
所受影响因素极为复杂,同质的个体间各种指
标存在差异,这种差异称为变异。如同质的儿
童身高、体重、血压、脉搏等指标会有一定的
差别。
第四节 统计学中的几个基本概念
一、同质与变异
C,CHENG 结束 返回章目录 返回总目录
第 1章绪论 第 22页 共 666页
二、总体与样本
样本( sample),是从总体中随机抽取的部分
观察单位变量值的集合。样本的例数称为样本
含量 ( sample size) 。
注意,
1。总体是相对的,总体的大小是根据研究目
的而确定的。
2。样本应有代表性,即应该随机抽样并有足
够的样本含量。
C,CHENG 结束 返回章目录 返回总目录
第 1章绪论 第 23页 共 666页
图示:总体与样本
population
sample2
sample1
sample3
sample4
sample5
C,CHENG 结束 返回章目录 返回总目录
第 1章绪论 第 24页 共 666页
三、参数与统计量
参数( parameter),由总体计算或得到的统计
指标称为参数。总体参数具有很重要的参考价
值。如总体均数 μ,总体标准差 ? 等。
统计量( statistic),由样本计算的指标称为
统计量。如样本均数,样本标准差 s等。
注意,一般不容易得到参数,而容易获得样本
统计量。
C,CHENG 结束 返回章目录 返回总目录
第 1章绪论 第 25页 共 666页
四、抽样误差
?抽样误差( sample error), 由于随机抽样所
引起的 样本统计量与总体参数之间的差异 以及
样本统计量之间的差别称为抽样误差。如样本
均数与总体均数之间的差别,样本率与总体率
的差别等。
?注意,抽样误差是 不可避免的 。无论抽样抽得
多么好,也会存在抽样误差。
C,CHENG 结束 返回章目录 返回总目录
第 1章绪论 第 26页 共 666页
五、概率
? 概率( probability),是描述随机事件发生可能
性大小的量值。用英文大写字母 P来表示。概
率的取值范围在 0~ 1之间。当 P= 0时,称为不
可能事件;当 P= 1时,称为必然事件。
? 小概率事件,统计学上一般把 P≤0.05或 P≤0.01
的事件称为小概率事件。
? 小概率原理,小概率事件在一次试验中几乎不
可能发生。利用该原理可对科研资料进行假设
检验。
C,CHENG 结束 返回章目录 返回总目录
第 1章绪论 第 27页 共 666页
第五节 学习医学统计学应注意的问题
?1.重点掌握医学统计学的基本知识、基本技能、
基本概念和基本方法,掌握使用范围和注意事
项。
?2.要培养科学的统计思维方法,提高分析问题、
解决问题的能力。
?3.掌握调查设计和实验设计的原则,培养搜集、
整理、分析统计资料的系统工作能力。
C,CHENG 结束 返回章目录 返回总目录
第 1章绪论 第 28页 共 666页
课后作业
? 列举出计量资料、分类资料、等级资料
各 10个实例。
? 列举出可能事件、必然事件、不可能事
件及小概率事件各 10个。
? 认真复习本章已学过的基本概念 2- 3遍。
C,CHENG 结束 返回章目录 返回总目录
第 1章绪论 第 29页 共 666页
Best Wishes to All of You!
Thank You for Listening!
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 30页
医学本科生用
主讲 程 琮
泰山医学院预防医学教研室
zcheng@tsmc.edu.cn
医学统计学
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 31页
The teaching plan
for medical students
Professor Cheng Cong
Dept,of Preventive Medicine
Taishan Medical College
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 32页
第 2章定量资料的统计描述 目录
? 第二节 集中趋势的描述
? 第三节 离散趋势的描述
? 第四节 正态分布
? 第一节 频数分布表
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 33页
统计描述,是 用统计图表、统计指标来描述资
料的分布规律及其数量特征。
频数分布表 ( frequency distribution table),
主要由组段和频数两部分组成表格。
第一节 频数分布表
第二章 定量资料的统计描述
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 34页
二、频数分布表的编制
? 编制步骤,
? 1,计算全距 (range),一组变量值最大值和最小值
之差称为全距 (range),亦称极差,常用 R表示。
? 2,确定组距 (class interval),组距用 i表示;
? 3,划分组段,每个组段的起点称组下限,终点称组
上限。一般分为 8~ 15组。 ;
? 4,统计频数,将所有变量值通过划记逐个归入相应
组段 ;
? 5.频率与累计频率,将各组的频数除以 n所得的比值
被称为频率。累计频率等于累计频数除以总例数。
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 35页
表 2-2 某年某市 120名 12岁健康男孩身高( cm)的频数分布
身高组段
(1)
频数
(2)
频率 (%)
(3)
累计频数
(4)
累计频率
(%) (5)
125~ 1 0.83 1 0.83
129~ 4 3.33 5 4.17
133~ 10 8.34 15 12.50
…… …… …… …… ……
合计 120 100.00
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 36页
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 37页
二、频数分布表的用途
1.揭示资料的分布类型
2.观察资料的集中趋势和离散趋势
3.便于发现某些特大或特小的可疑值
4.便于进一步计算统计指标和作统计处理
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 38页
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 39页
第二节 集中趋势的描述
?集中趋势,代表一组同质变量值的集中趋势
或平均水平。
?常用的平均数有算术均数、几何均数和中位数。
?另外不常用的有:众数,调和平均数和调整均
数等。
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 40页
一、算术均数
?算术均数 (arithmetic mean),简称均数。
?适用条件,对称分布或近似对称分布的资料。
?习惯上以希腊字母 μ 表示总体均数 (population
mean),以英文字母表示样本均数 (sample mean)
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 41页
1,直接法:用于观察值个数不多时
n
X
X
?
?
计算方法
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 42页
2.加权法 (weighting method):用于变量值个数
较多时。
f
fX
fff
fff
k
kk
?
?
?
???
???
?
?
?
21
2211
XXX
X
注意,权数即频数 f,为权重权衡之意。
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 43页
身高
(1)
组中值 X
(2)
频数 f
(3)
fX
(4)=(2)(3)
fX2
(5)=(2)(4)
125~ 127 1 127 16129
129~ 131 4 524 68644
133~ 135 10 1350 182250
…… …… …… …… ……
合计 120 17168 2460040
表 2-4 120名 12岁健康男孩身高 (cm)均数和标准差加权法计算表
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 44页
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 45页
? 120名 12岁健康男孩身高均数为 143.07cm。
07.143
120
1 7 1 6 8
??X
计算结果
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 46页
? 几何均数 (geometric mean,简记为 G ):表示
其平均水平。
? 适用条件,对于变量值呈倍数关系或呈对数正
态分布 (正偏态分布 ),如抗体效价及抗体滴度,
某些传染病的潜伏期,细菌计数等。
? 计算公式,有直接法和加权法。
二、几何均数
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 47页
1.直接法,用于变量值的个数 n较少时
n
nXXXXG ?321 ???
?
?
?
?
?
? ?
??
?
?
?
?
? ???
?
??
n
X
n
XXX
G n
lg
lg
lglglg
lg
1211 ?
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 48页
31.116432168426 ???????G
31.110536.1lg
6
64lg32lg16lg8lg4lg2lglg 11 ???
?
??
?
? ?????? ??G
直接法计算实例
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 49页
2.加权法, 用于资料中相同变量值的个数 f
(即频数)较多时。
?
?
?
?
?
?
?
?
?
?
?
?
f
Xf
G
lg
lg
1
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 50页
抗体滴度
( 1)
频数 f
( 2)
滴度倒数 X
(3)
lgX
(4)
flgX
(5)=(2)(4)
1:4 2 4 0.6020 1.2040
1:8 6 8 0.9031 5.4186
1:16 7 16 1.2041 8.4287
…… …… …… …… ……
合计 50 - - 89.1045
表 2-5 50名儿童麻疹疫苗接种后血凝抑制抗体滴度几何均数计算表
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 51页
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 52页
55.607 8 2 1.1lg
50
1 0 4 5.89
lg 11 ???
?
?
?
?
?? ??G
50名儿童麻疹疫苗接种后平均血凝抑制抗体
滴度为 1:60.55。
计算结果,将有关已知数据代入公式有
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 53页
① 变量值中不能有 0;
②不能同时有正值和负值;
③若全是负值,计算时可先把负号去掉,得出结
果后再加上负号。
计算几何均数注意事项,
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 54页
㈠ 中位数
? 定义,将一组变量值从小到大按顺序排列, 位次
居中的变量值称为中位数 (median,简记为 M)。
?适用条件,① 变量值中出现个别特小或特大的数
值 ;② 资料的分布呈明显偏态, 即大部分的变量值
偏向一侧 ;③ 变量值分布一端或两端无确定数值,
只有小于或大于某个数值 ;④ 资料的分布不清 。
三、中位数及百分位数
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 55页
? 定义,百分位数 (percentile)是一种位置
指标,以 Px表示。百分位数是将频数等分
为一百的分位数。一组观察值从小到大按
顺序排列,理论上有 x%的变量值比 Px小,
有 (100-x)%的变量值比 Px大。故 P50分位数
也就是中位数,即 P50=M 。
㈡ 百分位数
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 56页
?① 描述一组资料在某百分位置上的水平;
?② 用于确定正常值范围;
?③ 计算四分位数间距 。
百分位数的应用条件,
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 57页
计算方法:有直接法和加权法
1.直接法:用于例数较少时
)
2
1
(
?? nXM
2/][
)1
2
()
2
( ?
?? nn XXM
n为奇数时
n为 偶数 时
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 58页
2.频数表法,用于例数较多时
)
2
( L
m
f
n
f
i
LM ????
)%( L
x
x fxn
f
i
LP ?????
中位数
百分位数
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 59页
潜伏期 (小时 )
( 1)
频数 f
( 2)
累计频数
(3)
累计频率(%)
(4)
0~ 17 17 11.7
6 ~ 46 63 43.4
12 ~ 38 101 69.9
…… …… …… ……
合计 145 - -
表 2-6 145例食物中毒病人潜伏期分布表
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 60页
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 61页
1,先找到包含 Px的最小累计频率;
2,该累计频率同行左边的组段值为 L;
3,L同行右边的频数为 fx(或 fm);
4,L前一行的累计频数为 ∑ fL;
5,将上述已知条件代入公式计算 Px或 P50 。
计算中位数及百分位数的步骤,
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 62页
计算结果,
5.13)63%50145(
38
612 ?????M
51.8)17%251 4 5(
46
66
25 ?????P
45.19)101%75145(
32
618
75 ?????P
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 63页
? 定义,用来说明变量值的离散程度或变异程度。
? 注意,仅用集中趋势尚不能完全反映一组数据的
特征。故应将集中趋势和离散趋势结合起来才能
更好地反映一组数据的特征。
? 常用离散指标有,极差、四分位数间距、标准差、
方差、变异系数。
第三节 离散趋势的描述
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 64页
? 甲组,184 186 188 190 192
? 乙组,180 184 188 192 196
? 两组球员的平均身高都是 188cm,但甲组球员
身高比较集中,乙组球员身高比较分散。为了
说明离散趋势,就要用离散指标。
实例分析
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 65页
㈠ 极差
? 极差 (range,简记为 R)亦称全距,即一组变
量值中最大值与最小值之差 。
?特点,计算简单,不稳定,不全面,易变化;
可用于各种分布的资料。
一、极差和四分位数间距
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 66页
㈡ 四分位数间距
? 公式,
Q= P75- P25
? 特点, 比极差稳定,只反映中间两端值的差异。
计算不太方便。可用于各种分布的资料。
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 67页
二、方差和标准差
? ㈠ 方差( variance)
N
X 22 )( ?
?
??
?
1
)( 22
?
??
?
n
XX
S
总体方差
样本方差
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 68页
自由度 (degree of freedom)的概念
?n-1是自由度,用希腊小写字母 ν 表示,读作
[nju:]。
?定义:在 N维或 N度空间中能够自由选择的维数
或度数。
?例,A+ B= C,共有 n=3个元素,其中只能任选
2个元素的值,故自由度 ν = n-1=3-1=2。
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 69页
方差的特点
1,充分反映每个数据间的离散状况,意义深刻;
2,指标稳定,应用广泛,但计算较为复杂,不
易理解;
3,方差的单位与原数据不同,有时使用时不太
方便;
4,在方差分析中应用甚广而极为重要。
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 70页
(二)标准差 (standard deviation)
N
X 2)( ?
?
??
?
1
)( 2
?
??
?
n
XX
S
总体标准差
样本标准差
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 71页
牢记:离均差平方和展开式,
n
x
xxxl
2
22 )(
)(
?
??????
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 72页
标准差的特点,
1,意义同方差,是方差的开平方;
2,标准差的单位与原数据相同,使用方便,
意义深刻,应用广泛;故一般已作为医
学生物学领域中反映变异的标准,故称
标准差。
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 73页
标准差的计算方法:可分为直接法和加权法。
? 1.直接法
1
)( 22
?
???
?
n
nXX
S
? 2.加权法
1
)( 22
??
????
?
f
ffXfX
S
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 74页
直接法:标准差计算实例,
例 2.12 例 2.2中 7名正常男子红细胞数 ( 1012/L) 如
下,4.67,4.74,4.77,4.88,4.76,4.72,4.92,计算其
标准差 。
? ∑x=4.67+4.74+4.77+4.88+4.76+4.72+4.92=33.46
?∑x2=4.672+4.742+4.772+4.882+4.762+4.722+4.922=15
9.99
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 75页
计算结果,
089.0
17
7/46.3399.159
.
2
?
?
?
?S
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 76页
? 例 2.13 对表 2-4资料用加权法计算 120名 12岁健
康男孩身高值的标准差。
加权法:标准差计算实例,
)(70.5
1120
120/171682 4 6 0 0 4 0 2
cmS ?
?
?
?
在表 2-4中已算得 ∑ fx=17168,∑fx 2 =2460040,代入公式
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 77页
? 变异系数 (coefficient of variation),简记为 CV ;
? 特征:①变异系数为无量纲单位,可以比较
不同单位指标间的变异度;②变异系数消除
了均数的大小对标准差的影响,所以可以比
较两均数相差较大时指标间的变异度。
三、变异系数
%100??
X
S
CV
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 78页
? 例 2.14 某地 20岁男子 160人,身高均数为
166.06cm,标准差为 4.95cm; 体重均数为
53.72kg,
标准差为 4.96kg。试比较身高与体重的
变异程度。
变异系数 计算实例
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 79页
身高
%98.2%100
06.166
95.4 ???CV
体重
%23.9%1 0 0
72.53
96.4 ???CV
变异系数 计算结果
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 80页
第四节 正态分布
一、正态分布的概念和特征
? 正态分布( normal distribution),也
称高斯分布,是医学和生物学最常见的连续性
分布。如身高、体重、红细胞数、血红蛋白等。
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 81页
图 2-1 120名 12岁健康男孩身高的频数分布
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 82页
㈠ 正态分布的函数和图形
2
2
1
2
1 ?
?
?
?
?
? ?
?
?
?
?
??
X
e)X(f
正态分布的密度函数,即正态曲线的方程为,
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 83页
图 2-2 频数分布逐渐接近正态分布示意
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 84页
为了应用方便,常按公式( 2.19)作变量变换
?
??
?
X
u
u值称为标准正态变量或标准正态离差,有的参
考书也将 u值称为 z值。
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 85页
这样将正态分布变换为标准正态分布
( standard normal distribution)
2
2
2
1
u
e)u(
?
?
?
?
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 86页
图 2-3 正态分布的面积与纵高
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 87页
㈡ 正态分布的特征
1,集中性 正态曲线的高峰位于正中央,
即均数所在的位置。
2,对称性 正态曲线以均数为中心,左右对
称,
3,正态分布有两个参数,即均数和标准差。
4,正态曲线下面积 有一定的分布规律
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 88页
图 2-4 不同标准差的正态分布示意
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 89页
二、正态曲线下面积的分布规律
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 90页
标准正态分布表( u值表)
? 标准正态分布曲线下的面积,由此表可查出
曲线下某区间的面积。查表时应注意,
①表中曲线下面积为 -∞ 到 u 的下侧累计面积;
②当已知 μ, ?,和 X时,先按公式( 2.19)求得
u值,再查表;当和未知时,并且样本例数在 100
例以上,常用样本均数和标准差 S分别代替 μ 和
?,按公式( 2.19)求得 u值;
③曲线下横轴上的总面积为 100%或 1
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 91页
? 例 2.16 前例 2.1中,某年某市 120名 12岁健康男孩身
高,已知均数 =143.07cm,标准差 S=5.70cm,
? ① 估计该地 12岁健康男孩身高在 135cm以下者占该地 12
岁男孩总数的百分数;
? ②估计身高界于 135cm~ 150cm范围内 12岁男孩的比例;
? ③分别求出均数 ± 1S、均数 ± 1.96S、均数 ± 2.58S范围
内 12岁男孩人数占该 120名男孩总数的实际百分数,说
明与理论百分数是否接近。
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 92页
根据题意,按公式( 2.19)作 u变换
421
705
70143135
1,.
.
u ??
?
?
221
705
07143150
2,.
.
u ?
?
?
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 93页
身高范围所占面积
? 故估计该地 12男孩身高在 135cm
以下者约占 7.78%;
? 身高界于 135cm~ 150cm范围内者
约占 81.10%。
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 94页
三、正态分布的应用
㈠ 制定医学参考值范围
参考值范围也称为正常值范围。医学上常把绝大数正
常人的某指标范围称为该指标的正常值范围。这里的“绝大
多数”可以是 90%,95%,99%,最常用的是 95%。
㈡ 质量控制
常以均数 ± 2S作为上、下警戒值,以均数 ± 3S作为上、
下控制值。
㈢ 正态分布是很多统计方法的理论基础
X X
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 95页
THE END
THANK YOU FOR LISTENING
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 96页
本科生用
医学统计学教案
主讲 程 琮
泰山医学院预防医学教研室
Zcheng@tsmc.edu.cn
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 97页
The teaching plan
for medical students
Professor Cheng Cong
Dept,of Preventive Medicine
Taishan Medical College
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 98页
第 3章总体均数的区间估计和假设检验 目录
? 第五节 均数的 u 检验
? 第二节 t 分布
? 第三节 总体均数的区间估计
? 第四节 假设检验的意义和基本步骤
? 第一节 均数的抽样误差与标准误
? 第六节 均数的 t 检验
? 第七节两个方差的齐性检验和 t’检验
? 第八节 Ⅰ 型错误和 Ⅱ 型错误
? 第九节 应用假设检验应注意的问题
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 99页
图示:总体与样本
Population
μ
sample2
sample1
sample3
sample4
sample5
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 100页
? 一、标准误的意义及其计算
? 统计推断 (statistical inference), 根据样本信息来
推论总体特征。
? 均数的抽样误差,由抽样引起的样本均数与总体
均数的差异称为均数的抽样误差。
? 标准误 (standard error):反映均数抽样误差大
小的指标。
第一节 均数的抽样误差与标准误
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 101页
σ已知,
nX
?
? ?
n
S
S
X
?
标准误计算公式
σ未知,
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 102页
实例,如某年某市 120名 12岁健康男孩,已求得 均
数为 143.07cm,标准差为 5.70cm,按公式计算,则标
准误为,
52.0
1 2 0
70.5
??
X
S
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 103页
? 1.表示抽样误差的大小 ;
? 2.进行总体均数的区间估计;
? 3.进行均数的假设检验等 。
二、标准误的应用
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 104页
? 正态变量 X采用 u= (X- μ)/? 变换, 则一般
的正态分布 N (μ,?) 即变换为标准正态分布 N
(0,1)。
? 又因从正态总体抽取的样本均数服从正态分布
N(μ,),同样可作正态变量的 u变换,即
第二节 t 分布
一,t 分布的概念
X?
X?
n
XX
u
X ?
?
?
? ?
?
?
?
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 105页
? 实际工作中由于理论的标准误往往未知,而
用样本的标准误作为的估计值,此时就不是 u
变换而是 t变换了,即下式,
nS
X
S
X
t
X
?? ?
?
?
?
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 106页
t分布于 1908年由英国统计学家
W.S.Gosset以, Student”笔名发表,
故又称 Student t 分布 (Students’
t-distribution)。
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 107页
二,t分布曲线的特征
?t分布曲线是单峰分布,以 0为中心,左右两侧对称,
?曲线的中间比标准正态曲线( u分布曲线)低,两侧翘得
比标准正态曲线略高。
?t分布曲线随自由度 υ 而变化,当样本含量越小(严格地
说是自由度 υ =n -1越小),t分布与 u分布差别越大;当
逐渐增大时,t分布逐渐逼近于 u分布,当 υ =∞ 时,t分
布就完全成正态分布 。
?t分布曲线是一簇曲线,而不是一条曲线。
?t分布下面积分布规律:查 t分布表。
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 108页
t 分布示意图
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 109页
t分布曲线下双侧或单侧尾部合计面积
? 我们常把自由度为 υ 的 t分布曲线下双侧尾部
合计面积或单侧尾部面积为指定值 α 时, 则横
轴上相应的 t界值记为 tα,υ 。 如当 υ =20,
α= 0.05时, 记为 t0.05,20;当 υ =22,α
=0.01时, 记为 t0.01,22。 对于 tα,υ 值, 可根据
α 和 υ 值, 查附表 2,t界值表 。
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 110页
?t分布是 t检验的理论基础 。 由公式 ( 3.4) 可知,
│ t│ 值与样本均数和总体均数之差成正比, 与
标准误成反比 。
?在 t分布中 │ t│ 值越大, 其两侧或单侧以外的
面积所占曲线下总面积的比重就越小, 说明在
抽样中获得此 │ t│ 值以及更大 │ t│ 值的机会
就越小, 这种机会的大小是用概率 P来表示的 。
?│ t│ 值越大, 则 P值越小;反之, │ t│ 值越小,
P值越大 。 根据上述的意义, 在同一自由度下,
│ t│≥ tα, 则 P≤ α ; 反之, │ t│ < tα,
则 P> α 。
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 111页
第三节 总体均数的区间估计
? 参数估计,用样本指标(统计量)估计总
体指标(参数)称为 参数估计 。
? 估计总体均数的方法有两种, 即,
? 点值估计 ( point estimation )
? 区间估计 ( interval estimation) 。
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 112页
一、点值估计
? 点值估计,是直接用样本均数作为
总体均数的估计值。
? 此法计算简便,但由于存在抽样误
差,通过样本均数不可能准确地估
计出总体均数大小,也无法确知总
体均数的可靠程度 。
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 113页
二、区间估计
?区间估计 是按一定的概率 ( 1-α ) 估计包含总
体均数可能的范围, 该范围亦称总体均数的可
信区间 ( confidence interval,缩写为 CI) 。
?1-α 称为 可信度, 常取 1-α 为 0.95和 0.99,即
总体均数的 95%可信区间和 99%可信区间 。
?1-α ( 如 95% ) 可信区间的 含义是,总体均数
被包含在该区间内的可能性是 1-α, 即 ( 95
% ), 没有被包含的可能性为 α, 即 ( 5% ) 。
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 114页
总体均数的可信区间的计算
? 1.未知 ? 且 n较小 (n<100) 按 t分布的原理
XStX ??,?
2.已知 ? 或 n较大 (n≥100) 按 u分布的原理 ?
X
SuX ??
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 115页
? 95%的可信区间
? 为 123.7± 2.064× 2.38,即 ( 118.79,
128.61) 。 故该地 1岁婴儿血红蛋白平均
值 95% 的可信区间为 118.7~ 128.61
( g/L) 。
例 3.1 为了了解某地 1岁婴儿的血红蛋白浓度,从
该地随机抽取了 1岁婴儿 25人,测得其血红蛋白的
平均数为 123.7g/L,标准差为 11.9g/L。试求该地 1
岁婴儿的血红蛋白平均值 95%的可信区间。
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 116页
例 3.2 上述某市 120名 12岁健康男孩身高均数为
143.07cm,标准误为 0.52cm,试估计该市 12岁康
男孩身高均数 95%和 99%的可信区间。
? 95%的可信区间为 143.07± 1.96× 0.52,
即 ( 142.05,144.09) 。
? 99%的可信区间为 143.07± 2.58× 0.52,
即( 141.73,144.41)。
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 117页
注 意 点
?标准误愈小, 估计总体均数可信区间的范
围也愈窄, 说明样本均数与总体均数愈接
近, 对总体均数的估计也愈精确;
?反之, 标准误愈大, 估计总体均数可信区
间的范围也愈宽, 说明样本均数距总体均
数愈远, 对总体均数的估计也愈差 。
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 118页
表 3-1 标准差和标准误的区别
标 准 差( S ) 标 准 误 (
X
S )
1,表 示 个 体 变 量 值 的 变 异 度 大 小, 即 原 始 变 量 值 的
离散程度。公式为:
1
)(
2
?
??
?
n
XX
S
2,计算变量值的频数分布范围,如,
( SX 96.1? ) 。
3,可 对 某 一 个 变 量 值 是 否 在 正 常 值 范 围 内 作 出 初 步
判断。
4,用于计算标准误。
1,表 示 样 本 均 数 抽 样 误 差 的 大 小,即 样 本 均 数 的 离 散 程
度。公式为:
n
S
S
X
?
2,计算总体均数的可信 区间,如,
(
X
SX 96.1?
) 。
3,可对总体均数的大小作出初步的判断。
4,用于进行假设检验。
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 119页
第四节 假设检验的意义和基本步骤
? 假设检验( hypothesis test),亦称 显
著性检验( significance test),是统
计推断的重要内容。它是指先对总体的参
数或分布作出某种假设,再用适当的统计
方法根据样本对总体提供的信息,推断此
假设应当拒绝或不拒绝。
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 120页
例 3.3 根据大量调查,已知健康成年男子脉搏的均数为 72
次 /分钟,某医生在一山区随机测量了 25名健康成年男子脉搏
数,求得其均数为 74.2次 /分钟,标准差为 6.5次 /分钟,能
否认为该山区成年男子的脉搏数与一般健康成年男子的脉搏
数不同?
? 本例两个均数不等有两种可能性,
? ①山区成年男子的脉搏总体均数与一般健康成年男子的脉搏
总体均数是相同的,差别仅仅由于抽样误差所致;
? ②受山区某些因素的影响,两个总体的均数是不相同的。如
何作出判断呢?按照逻辑推理,如果第一种可能性较大时,
可以接受它,统计上称 差异无统计学意义( no statistical
significance) ;
? 如果第一种可能性较小时,可以拒绝它而接受后者,统计上
称 差异有统计学意义( statistical significance)。
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 121页
假设检验的一般步骤如下,
? 1.建立检验假设
? 一种是 无效假设( null hypothesis),符
号为 H0;
?一种是 备择假设( alternative hypothesis)
? 符号为 H1。
0?? ?
0?? ?
H0,H1,
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 122页
表 3-2 样本均数所代表的未知总体均数
与已知总体均数的比较
目 的 H
0
H
1
双侧检验
是否
0
?? ?
0
?? ?
0
?? ?
单侧检验
是否
0
?? ?
是否
0
?? ?
0
?? ?
0
?? ?
0
?? ?
0
?? ?
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 123页
表 3-3 两样本均数所代表的未知总体均数的比较
目 的 H 0 H 1
双 侧 检 验 是否
21
?? ?
21
?? ?
21
?? ?
单 侧 检 验
是否
21
?? ?
是否
21
?? ?
21
?? ?
21
?? ?
21
?? ?
21
?? ?
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 124页
? 2.确定检验水准 检验水准 (size of a test)
亦称 显著性水准 (significance level),符号
为 α 。 它是判别差异有无统计意义的概率水
准, 其大小应根据分析的要求确定 。 通常取 α
α = 0.05。
? 3.选定检验方法和计算统计量 根据研究设计
的类型和统计推断的目的要求选用不同的检验
方法。如完全随机设计中,两样本均数的比较
可用 t检验,样本含量较大时( n>100),可用 u
检验。不同的统计检验方法,可得到不同的统
计量,如 t 值和 u值。
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 125页
? 4.确定概率 P值 P值是指在 H0所规定的总体中
作随机抽样,获得等于及大于(或小于)现有
统计量的概率。
│ t│≥ tα,υ,则 P≤ α ; │ t│< tα,υ,
则 P > α 。
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 126页
? 5.作出推断结论
? ① 当 P≤α 时, 表示在 H0成立的条件下, 出现等于及
大于现有统计量的 概率是小概率, 根据小概率事件
原理, 现有样本信息不支持 H0,因而拒绝 H0,结论
为按所取检验水准拒绝 H0,接受 H1,即差异有统计
学意义, 如例 3.3 可认为两总体脉搏均数有差别;
? ② 当 P>α 时, 表示在 H0成立的条件下, 出现等于及
大于现有统计量的概率 不是小概率, 现有样本信息
还不能拒绝 H0,结论为按所取检验水准不拒绝 H0,
即差异无统计意义, 如例 3.3 尚不能认为两总体脉
搏均数有差别 。
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 127页
下结论时的注意点,
? P ≤α,拒绝 H0,不能认为 H0肯定不成立,因
为虽然在 H0成立的条件下出现等于及大于现有
统计量的概率虽小,但仍有可能出现;
? 同理,P >α,不拒绝 H0,更不能认为 H0肯定
成立。由此可见,假设检验的结论是 具有概率
性的,无论拒绝 H0或不拒绝 H0,都有可能发生
错误,即 第一类错误 或 第二类错误
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 128页
第五节 均数的 u检验
?国外统计书籍及统计软件亦称为单样本 u检验
( one sample u-test)。
?样本均数与总体均数比较的 u检验适用于,
?① 总体标准差 ? 已知的情况;
?② 样本含量较大时, 比如 n>100时 。 对于后者,
是因为 n较大, υ 也较大, 则 t分布很接近 u分
布的缘故 。
一、样本均数与总体均数比较的 u检验
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 129页
u 值的计算公式为,
总体标准差 ? 已知
时,不管 n的大小。
n/
X
u
0
0
?
??
?
nS
X
u
/
0??
?
总体标准差 ? 未知
时,但 n>100时。
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 130页
例 3.4 某托儿所三年来测得 21~ 24月龄的 47名
男婴平均体重 11kg。查得近期全国九城市城区大
量调查的同龄男婴平均体重 11.18kg,标准差为
1.23kg。 问 该托儿所男婴的体重发育状况与全国
九城市的同期水平 有无不同?(全国九城市的调
查结果可作为总体指标)
实 例
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 131页
? ( 1) 建立检验假设
? H0,μ = μ 0, 即该托儿所男婴的体重发育状
况与全国九城市的同期水平相同, α =
0.05(双侧 )
? H1,μ≠μ 0, 即该托儿所男婴的体重发育状
况与全国九城市的同期水平不同 。
? ( 2) 计算 u值 本例因总体标准差 ? 已知, 故
可用 u检验 。
? 本例 n=47,样本均数 =11,总体均数 =11.18,总
体标准差 =1.23,代入公式 ( 3.7)
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 132页
? ( 3)确定 P值,作出推断结论 查 u界值
表(附表 2,t界值表中为 ∞ 一行),得
u0.05=1.96,u=1.003< u0.05=1.96,故
P>0.05。按 α=0.05 水准,不拒绝 H0,差
异无统计学意义。
? 结论,可认为该托儿所男婴的体重发育
状况与全国九城市的同期水平相同。
0 0 31
47231
181111,
/.
.u ???
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 133页
二、两样本均数比较的 u检验
? 该检验也称为 独立样本 u检验 (independent
sample u-test),适用于两样本含量较大 ( 如
n1>50且 n2>50) 时, u值可按下式计算,
2
2
2
1
2
1
21
n
S
n
S
XX
u
?
?
?
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 134页
例 3.5 测得某地 20~ 24岁健康女子 100人
收缩压均数为 15.27kPa,标准差为 1.16kPa;
又测得该地 20~ 24岁健康男子 100人收缩压
均数为 16.11kPa,标准差为 1.41kPa。问该
地 20~ 24岁健康女子和男子之间收缩压均
数有无差别?
实 例
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 135页
( 1)建立检验假设
H0,μ 1 = μ 2,即该地 20~ 24岁健康女子和
男子之间收缩压均数相同;
H1,μ 1≠μ 2,即该地 20~ 24岁健康女子和男
子之间收缩压均数不同。
α = 0.05(双侧)
( 2)计算 u值
本例 n1=100,均数 1=15.27,S1=1.16
n2=100,均数 2=16.11,S2=1.41
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 136页
? ( 3)确定 P值,作出推断结论 查 u界值表
(附表 2,t界值表中为 ∞ 一行),得 u0.05=1.96,
现 u>u0.05=1.96,故 P<0.05。按水准 α =0.05,
拒绝 H0,接受 H1,差异有统计学意义。
? 结论,可认为该地 20~ 24岁健康人的收缩压均
数男性高于女性。
604
100
411
100
161
11162715
22
.
..
..
u ?
?
?
?
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 137页
第六节 均数的 t 检验
?当样本含量较小(如 n<50)时,t分布和
u分布有较大的出入,所以小样本的样本
均数与总体均数的比较以及两个样本均
数的比较要用 t检验。
?t检验的 适用条件,①样本来自正态总体
或近似正态总体;②两样本总体方差相
等。
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 138页
一、样本均数与总体均数比较的 t检验
? 亦称为 单样本 t检验( one sample t-test) 。即样本
均数代表的未知总体均数与已知的总体均数(一般为
理论值、标准值或经过大量观察所得的稳定值等)进
行比较。这时检验统计量 t值的计算在 H0成立的前提条
件下由公式( 3.4)变为,
nS
X
t
0??
?
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 139页
例 3.6 对例 3.3资料进行 t检验。
( 1) 建立检验假设
H0,μ = μ 0, 即该山区健康成年男子脉搏均数与一般
健康成年男子脉搏均数相同;
H1,μ≠μ 0, 即该山区健康成年男子脉搏均数与一般
健康成年男子脉搏均数不同 。
α = 0.05( 双侧 )
( 2) 计算 t值 本例 n = 25,s = 6.5,样本均数
=74.2,总体均数 =72,代入公式 ( 3.10)
6 9 2.1
255.6
|722.74| ????t
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 140页
( 3) 确定 P值,作出推断结论
本例 υ =25- 1=24,查附表 2,t界值表, 得
t0.05,24=2.064, 现 t=1.692< t0.05,24=2.064,
故 P>0.05。 按 α =0.05的水准, 不拒绝 H0,差
异无统计学意义 。
结论,即根据本资料还不能认为此山区健康成
年男子脉搏数与一般健康成年男子不同。
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 141页
二、配对资料的 t检验
? 医学科研中配对资料的三种主要类型,
?同一批受试对象治疗前后某些生理、生化指标
的比较;
?同一种样品,采用两种不同的方法进行测定,
来比较两种方法有无不同;
?配对动物试验,各对动物试验结果的比较等。
? 配对实验设计得到的资料称为配对资料。
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 142页
? 先求出各对子的差值 d的均值,若两种处理的效应无
差别,理论上差值 d 的总体均数应为 0。
所以这类资料的比较可看作是样本均数与总体均数为 0
的比较。
要求差值的总体分布为正态分布。
? t检验的公式为,
nS
d
nS
d
S
dt
ddd
d |||0||| ????? ?
配对资料的 t 检验
(paired samples t-test)
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 143页
例 3.7 设有 12名志愿受试者服用某减肥药,服
药前和服药后一个疗程各测量一次体重 (kg),数
据如表 3-4所示。问此减肥药是否有效?
( 1) 建立检验假设
H0,μ d=0,即该减肥药无效;
H1,μ d≠ 0, 即该减肥药有效 。
单侧 α= 0.05
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 144页
表 3-4 某减肥药研究的体重 (kg)观察值
个体号 服药前( X 1 ) 服药后( X 2 ) 差值 ( d = X
2
- X
1
) d
2
101
131
131
143
124
137
126
95
90
67
84
101
100
136
126
150
128
126
116
105
87
57
74
109
- 1
5
- 5
7
4
- 11
- 10
10
- 3
- 10
- 10
8
1
25
25
49
16
121
100
100
9
100
100
64
1
2
3
4
5
6
7
8
9
10
11
12
合 计 — — - 16 710
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 145页
? ( 2) 计算 t值
? 本例 n = 12,Σd = -16,Σd 2 = 710,
? 差值的均数 =Σd /n = -16/12 = -1.33(kg )
? ?
)(91.7
112
12)16(710
1
222
kg
n
ndd
S d ?
?
??
?
?
???
?
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 146页
? ( 3) 确定 P值, 作出推断结论 自由度 =n-
1=12-1=11,查附表 2,t界值表, 得单侧
t0.05,11=2.201,现 t=0.58 <t0.05,11=2.201,
故 P > 0.05。 按 α= 0.05水准, 不拒绝 H0,
差异无统计学意义 。
? 结论,故尚不能认为该减肥药有减肥效果 。
58.0
1291.7
|33.1|
?
?
?t
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 147页
例 3.8 某单位研究饮食中缺乏维生素 E与肝中维生
素 A含量的关系,将同种属的大白鼠按性别相同,年
龄、体重相近配成 8对,并将每对中的两头动物随机
分到正常饲料组和维生素 E缺乏组,然后定期将大白
鼠杀死,测得其肝中维生素 A的含量如表 3-5。
问不同饲料组的大白鼠肝中维生素 A含量有无差别?
(自学内容)
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 148页
三、两样本均数比较的 t检验
? 两本均数比较的 t检验亦称为成组 t检验,又称为 独立
样本 t检验 ( independent samples t-test)。
? 适用于比较按完全随机设计而得到的两组资料,比较
的目的是推断它们各自所代表的总体均数和是否相等。
21
21
XX
S
XX
t
?
?
?
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 149页
? 样本估计值为,
??
?
?
??
?
?
??
?
21
2 11
21 nnXX
??
??
?
?
??
?
?
?
?
???
?
?
??
?
?
??
?
21
212
21
2 11
21 nn
nn
S
nn
SS cc
XX
2
/)(/)(
21
2
2
2
2
21
2
1
2
12
??
????????
nn
nXXnXXS
c
总体方差已知,
标准误的计算公式
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 150页
若 n1=n2时,
? 已知 S1和 S2时,
2
)1()1(
21
2
22
2
112
??
???
?
nn
SnSn
S c
2
2
21
2
1
22
2121
nSnSSSS XXXX ?????
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 151页
例 3.9 测得 14名慢性支气管炎病人与 11名健康人的尿中
17酮类固醇( mol/24h)排出量如下,试比较两组人的尿
中 17酮类固醇的排出量有无不同。
? 原始调查数据如下,
? 病 人 X1,n=14; 10.05 18.75 18.99 15.94 13.96
17.67 20.51 17.22 14.69 15.10 9.42 8.21
7.24 24.60
? 健康人 X2,n=11; 17.95 30.46 10.88 22.38
12.89 23.01 13.89 19.40 15.83 26.72 17.29
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 152页
( 1)建立检验假设
H0,μ 1 = μ 2,即病人与健康人的
尿中 17酮类固醇的排出量相同
H1,μ 1 ≠ μ 2,即病人与健康人
的尿中 17酮类固醇的排出量不同
α = 0.05
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 153页
? ( 2) 计算 t值
? 本例 n1=14,ΣX 1=212.35,ΣX 12=3549.0919
? n2=11,ΣX 2=210.70,ΣX 22=4397.64
)24/(17.151435.212111 hm o lnXX ?????
9993.2921114 11)70.210(6486.439714)35.212(0919.3549
22
2 ?
??
????
cS
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 154页
? ( 3) 确定 P值 作出推断结论 υ =14+11-2=23,查 t界
值表, 得 t0.05,23=2.069,现 t=1.8035<t0.05,23= 2.069,故
P>0.05。 按 α= 0.05水准, 不拒绝 H0,差异无统计学意义 。
结论,尚不能认为慢性支气管炎病人与健康人的尿中 17
酮类固醇的排出量不同 。
2068.2
1114
11149993.29
21
??
?
??
?
?
?
??
? XXS
8035.1
2068.2
|15.1917.15| ???t
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 155页
四、两样本几何均数 t检验
?比较两样本几何均数的目的是推断它们各自代表的总
体几何均数有无差异。
?适用于,
?①观察值呈等比关系,如血清滴度;
?②观察值呈对数正态分布,如人体血铅含量等。。
?两样本几何均数比较的 t检验公式与两样本均数比较的
t检验公式相同。
?只需将观察 X用 lgX来代替就行了
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 156页
? 例 3.10 将 20名钩端螺旋体病人的血清随机分为两组,分
别用标准株和水生株作凝溶试验,抗体滴度的倒数(即稀
释度)结果如下。问两组抗体的平均效价有无差别?
标准株 (11人 ),100 200 400 400 400 400 800 1600 1600
1600 3200
水生株 (9人 ),100 100 100 200 200 200 200 400 1600
将两组数据分别取对数, 记为 x1,x2 。
x1,2.000 2.301 2.602 2.602 2.602 2.602 2.903 3.204 3.204
3.204 3.505
x2,2.000 2.000 2.000 2.301 2.301 2.301 2.301 2.602 3.204
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 157页
? 一、两样本方差的齐性检验
? 用较大的样本方差 S2比较小的样本方差 S2
第七节 两总体方差的齐性检验和 t'检验
(较小)
较大)
2
2
2
1
(
S
S
F ?
υ 1为分子自由度,υ 2为分母自由度
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 158页
?注意,
?①方差齐性检验本为双侧检验,但由于
公式( 3.18)规定以较大的方差作分子,
F值必然大于 1,故附表 3单侧 0.025的界
值,实对应双侧检验 P=0.05;
?②当样本含量较大时( 如 n1和 n2均大于
50),可不必作方差齐性检验。
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 159页
? 深层水,n1=8,样本均数 =1.781(mg/L),S1=1.899
(mg/L)
? 表 层 水, n2=10,样 本 均 数 =0.247(mg/L),S2=0.210
(mg/L)
例 3.11 某研究所为了了解水体中汞含量的垂直变化,对
某氯碱厂附近一河流的表层水和深层水作了汞含量的测定,
结果如下。试检验两个方差是否齐性。
9180
2100
8991
2
2
.
.
.
F ??
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 160页
? 确定 P值 作出推断结论 本例 υ 1= 8-1=7,
υ 2= 10-1=9, 查附表 3,F界值表 ( 方差齐
性检验用 ),
? 得 F0.05,7,9=4.20,本例 F = 80.97> F
0.05,7,9=4.20; 故 P<0.05,按 α= 0.05 水准,
拒绝 H0,接受 H1,
? 结论,故可认为两总体方差不齐 。
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 161页
? 方差不齐时, 两小样本均数的比较, 可选
用以下方法,
? ① 采用适当的变量变换, 使达到方差齐的
要求;
? ② 采用秩和检验;
? ③ 采用近似法 t' 检验 。
二,t' 检验
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 162页
计算统计量 t' 值
2
2
2
1
2
1
21
'
n
S
n
S
XX
t
?
?
?
22
,
2
,
2
'
21
2211
..
XX
XX
SS
tStS
t
?
?
?
????
?
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 163页
? 例 3.12 由例 3.11已知表层水和深
层水含汞量方差不齐, 试比较其均
数有无差别?
自学内容
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 164页
? 假设检验中作出的推断结论可能发生两种错误,
? ①拒绝了实际上是成立的 H0,这叫 Ⅰ 型错误
(typeⅠerror) 或第一类错误,也称为 α 错误。
? ②不拒绝实际上是不成立的 H0,这叫 Ⅱ 型错误
(typeⅡerror) 或第二类错误,也称为 β 错误。
第八节 Ⅰ 型错误和 Ⅱ 型错误
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 165页
表 3-6 可能发生的两类错误
假设检验的结果
客观实际
拒绝 H 0 不拒绝 H 0
H 0 成立 Ⅰ 型 错 误(
?
) 推 断 正 确 ( 1 -
?
)
H 0 不成立 推断正确( 1 - β ) Ⅱ型错误( β )
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 166页
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 167页
? 联系,一般 α增大,则 β减小; α减小,则 β增
大;
? 区别,
? ( 1)一般 α为已知,可取单侧或双侧,如
0.05,或 0.01。
? ( 2)一般 β为未知,只取单侧,如取 0.1或
0.2。 1- β(把握度 )≮ 0.75。
两类错误的联系与区别
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 168页
? 1-β 称为检验效能 (power of test)
或把握度,其意义是两总体确有差别,
按 α 水准能发现它们有差别的能力。
? α 与 β 的大小应根据实际情况适当
取值。
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 169页
? 1.资料要来自严密的抽样研究设计
? 2.选用假设检验的方法应符合其应用条件
? 3.正确理解差别有无显著性的统计涵义
正确理解差别有统计学意义 及临床上的差
别的统计学意义。
? 4.假设检验的推断结论不能绝对化
? 5.要根据资料的性质事先确定采用双侧检验或
单侧检验
第九节 应用假设检验的注意问题
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 170页
THANK YOU FOR LISTENING
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 171页
医学本科生用
泰山医学院 预防医学教研室
Email,zcheng@tsmc.edu.cn
主 讲 程 琮
医学统计学
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 172页
Teaching Plan
for Medical Students
Medical Statistics
Professor Cheng Cong
Dept,of Preventive Medicine
Taishan Medical College
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 173页
第 4章 方差分析 目录
? 第五节 多个方差的齐性检验
? 第二节 单因素方差分析
? 第三节 双因素方差分析
? 第四节 多个样本均数间的两两比较
? 第一节 方差分析的基本思想
? 第六节 变量变换
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 174页
第四章 方差分析
? 学习要求,
? 1。掌握方差分析的基本思想;
? 2。掌握单因素、双因素方差分析的应用条件、意义及计
算方法;
? 3。熟悉多个均数间两两比较的意义及方法;
? 4。了解方差齐性检验和 t’检验的意义及方法;
? 5。熟悉变量变换的意义和方法。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 175页
第一节 方差分析的基本思想
? 一, 方差分析的用途及应用条件
? 方差分析 ( analysis of variance,缩写为 ANOVA)
? 是常用的统计分析方法之一 。 其应用广泛, 分析效率高,节省样本含
量 。
? 主要用途有,
? ① 进行两个或两个以上样本均数的比较;
? ② 可以同时分析一个, 两个或多个因素对试验结果的作用和影响;
? ③ 分析多个因素的独立作用及多个因素之间的交互作用;
? ④ 进行两个或多个样本的方差齐性检验等 。
? 方差分析对分析数据的要求及条件比较严格, 即要求各样本为随机样
本, 各样本来自正态总体, 各样本所代表的总体方差齐性或相等 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 176页
? 二, 方差分析的基本思想
? 处理因素可分为若干个等级或不同类型, 通常称为 水平 。
在不同的水平下进行若干次试验并取得多个数据, 可以将
在每个水平下取得的这些数据看作一个 样本 。 若某个因素
有四个水平, 每个水平的数据代表一个样本, 则获得四个
样本的数据 。
?设有 k个相互独立的样本, 分别来自 k个正态总体 X1,
X2,… Xk,且方差相等,
?即要求检验假设为
此假设的意义为,在某处理因素的不同水平下,各样本的
总体均数相等。
222221 ???? ???? k?
kH ??? ??? ?210,
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 177页
? 1。设某因素有多个水平,即试验数据产生多个样本。由
多个样本的全部数据可以计算出总变异,称为总的离均差
平方和。即 SS总 。
? 2。数理统计证明,SS总 可以由几个部分构成。单因素方
差分析中,SS总 由组间变异和组内变异构成。
? SS总 = SS组间 + SS组内 。
? 3。组间变异主要受到 处理因素 和 个体误差 两方面影响,
组内变异主要受 个体误差 的影响。当 H0 为真时,由于处
理因素不起作用,组间变异只受 个体误差 的影响。此时,
组间变异与组内变异相差不能太大。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 178页
表 4- 2 PCNA在三种不同胃组织中的表达结果
标本 Xj
不同胃组织 Xi
A B C
1 56 30 21
2 46 37 14
3 39 20 27
… … … …
∑Xj 553 221 100 874 ( ∑X)
ni 10 9 8 27 ( N)
均数 55.30 24.56 12.5 32.37(总均值)
∑Xj2 31291 6273 1672 39236( ∑X2)
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 179页
? 4。各种变异除以相应的自由度,称为均方,用 MS表示,
也就是方差。当 H0为真时,组间均方与组内均方相差不大,
两者比值 F值约接近于 1。
即 F=组间均方/组内均方 ≈ 1。
? 5。当 H0不成立时,处理因素产生了作用,使得组间均方
增大,此时,F>> 1,当大于等于 F临界值时,则
P≤0.05 。 可认为 H0不成立,各样本均数不全相等。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 180页
? 三、方差分析的类型
? 1。 单因素方差分析( one-way ANOVA) 也称为完全随机
设计 (completely random design)的方差分析。该设计只
能分析一个因素下多个水平对试验结果的影响。
? 2。 双因素方差分析( two-way ANOVA) 称为随机区组
设计( randomized block design)的方差分析。该设计
可以分析两个因素。一个为处理因素,也称为列因素;一
个为区组因素,也称为行因素。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 181页
3。 三因素方差分析 也称为拉丁方设计( Latin square
design) 的方差分析。该设计特点是,可以同时分析三个
因素对试验结果的作用,且三个因素之间相互独立,不能
有交互作用。
4。 析因设计 ( factorial design) 的方差分析 当两个因
素或多个因素之间存在相互影响或交互作用时, 可用该设
计来进行分析 。 该设计不仅可以分析多个因素的独立作用,
也可以分析多个因素间的交互作用, 是一种高效率的方差
分析方法 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 182页
5。 正交试验设计的方差分析 如果要分析的
因素有三个或三个以上,可进行正交试验
设计 ( orthogonal experimental design)
的方差分析。当分析因素较多时,试验次
数会急剧增加,用此设计进行分析则更能
体现出其优越性。该设计利用正交表来安
排各次试验,以最少的试验次数,得到更
多的分析结果。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 183页
? 四、方差分析的基本步骤
? 1。计算总变异:指所有试验数据的离均差平方和。
NXXXXSS /)()( 222 ???????总
NXC /)( 2??
? 2。计算各部分变异, 单因素方差分析中,可以分出
组间变异 ( SS组间 ) 和 组内变异 ( SS组内 ) ;双因素方差
分析中,可以分出 处理组变异 ( SS处理 ),区组变异 ( SS
区组 ) 或称为 配伍组变异 ( SS配伍 ) 及误差变异 ( SS误差 ) 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 184页
? 3。 计算各部分变异的均方 在方差分析中,方差也称
为均方,是各部分的离均差平方和除以其相应的自由度,
用 MS表示。基本公式为,MS= SS/ ν 。
? 4。计算统计量 F值 F值是指两个均方之比。一般是用较
大的均方除以较小的均方。故 F值一般不会小于 1。
? 5。 确定 P值,推断结论 根据分子 ν 1,分母 ν 2,查 F界
值表(方差分析用),得到 F值的临界值( critical
value),即:如果 F≥F 界值,则 P≤0.05,在 α=0.05 水
准上拒绝 H0,接受 H1。可以认为各样本所代表的总体均数
不全相等。如果想要了解哪两个样本均数之间有差异,可
以继续进行各样本均数的两两比较。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 185页
第二节 单因素方差分析
? 1 。 特点 单因素方差分析是按照完全随机设计的原则将
处理因素分为若干个 不同的水平, 每个水平代表一个 样本,
只能分析 一个因素 对试验结果的影响及作用 。 其设计简单,
计算方便, 应用广泛, 是一种常用的分析方法, 但其效率
相对较低 。 该设计中的总变异可以分出两个部分,
? 即 SS总 = SS组间 + SS组内 。
? 2。 常用符号及其意义
? ( 1) Xij 意义为第 i组的第 j个数据 。 其中下标 i 表示列, j
表示行 。
? ( 2) 意义为将第 i组的全部 j个数据合计 。
?j ijX
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 186页
? ( 3) 将第 i组的 j个数据合计后平方,
再将所有各 i组的平方值合计 。
? ( 4) 变异来源 ① SS总, 表示变异由处理因素及随机误
差共同所致; ② SS组间,表示变异来自处理因素的作用
或影响; ③ SS组内,表示变异由个体差异和测量误差等随
机因素所致 。
? ?i j ijX 2)(
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 187页
计算公式
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 188页
? 三。计算实例
? 例 4.1 科研人员研究细胞增殖核抗原 ( PCNA) 在胃癌组
织 ( A组 ), 胃癌旁组织 ( B组 ) 及正常胃粘膜组织 ( C组 )
中的表达状况 。 检测结果用表达指数来表示 。
? 数据见表 4- 2。 试分析 PCNA在三种胃组织中的表达有无差
异 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 189页
表 4- 2 PCNA在三种不同胃组织中的表达结果
标本 Xj
不同胃组织 Xi
A B C
1 56 30 21
2 46 37 14
3 39 20 27
… … … …
∑Xj 553 221 100 874 ( ∑X)
ni 10 9 8 27 ( N)
均数 55.30 24.56 12.5 32.37(总均值)
∑Xj2 31291 6273 1672 39236( ∑X2)
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 190页
? 检验步骤及方法
? ⑴ 建立检验假设
? H0,PCNA在三种组织中的表达指数相同, μ 1= μ 2= μ 3;
? H1,PCNA在三种组织中的表达指数不全相同 。
? α = 0.05,
? ⑵ 计算检验统计量 F值 由表 4-2的数据计算有,
? 校正系数 C= ( ∑ X) 2/ N= ( 874) 2/ 27= 28291.70
? SS总 = ∑ X2- C= 39236-28291.70=10944.3
? υ 总 = N- 1=27-1=26
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 191页
? υ 组间 = k-1=3-1=2
? SS组内 = SS总 - SS组间 = 10944.3-8965.98=1978.32
98.896570.2 8 2 9 168.3 7 2 5 7
70.2 8 2 9 1
8
)100(
9
)221(
10
)553(
)(
222
2
???
?????? ?
?
C
n
X
SS
i i
j
ij
组间
99.4 4 8 2
2
98.8 9 6 5 ???
组间
组间
组间 ?
SSMS
43.82
24
32.1 9 7 8 ???
组内
组内
组内 ?
SSMS
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 192页
? (3) 列方差分析表 见表 4-3。
? (4) 确定 P值 根据 α = 0.05,υ 1= υ 组间 = 2,υ 2= υ 组
内 = 24,查附表 4,F界值表, 得 F界值,F0.01(2,24)=5.61。
本例 F= 54.39,大于界值 F0.01(2,24)=5.61,则 P<0.01。
? ( 5) 推断结论 由于 P< 0.01,在 α = 0.05水准上拒绝 H0,
接受 H1,差异有统计学意义 。 可以认为 PCNA在三种不同胃
组织中的表达指数不全相同 。
? 该结论的意义为, 至少有两种组织的 PCNA表达指数不同 。
如果想确切了解哪两个组织的 PCNA表达指数有差异, 可进
一步作多个样本均数的两两比较 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 193页
表 4- 3 方差分析表
变异来源 SS 自由度 均方 F值 F0.05 F0.01 P值
( 1) ( 2) ( 3) ( 4) ( 5) ( 6) ( 7) ( 8)
SS总 10944.30 26
SS组间 8965.98 2 4482.99 54.39 3.40 5.61 <0.01
SS组内 1978.32 24 82.43
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 194页
第三节 双因素方差分析
? 一、特点及意义
? 1.特点 按照随机区组设计的原则来分析两个因素对试验
结果的影响及作用 。 其中一个因素称为 处理因素, 一般作
为 列因素 ;另一个因素称为 区组因素或配伍组因素, 一般
作为 行因素 。 两个因素相互独立, 且无交互影响 。 双因素
方差分析使用的样本例数较少, 分析效率高, 是一种经常
使用的分析方法 。
? 但双因素方差分析的设计对选择受试对象及试验条件等方
面要求较为严格, 应用该设计方法时要十分注意 。 该设计
方法中, 总变异可以分出三个部分,
? SS总 = SS处理 + SS区组 + SS误差
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 195页
? 2.常用符号及其意义
? ⑴, 将第 i个处理组的 j个数据合计后平方, 再将
所
? 有 i个处理组的平方值合计 。
? ⑵, 将第 j个区组的 i个数据合计后平方, 再将所有 j
? 个区组的平方值合计 。
? ⑶ 各种变异来源
? SS总,总变异,由处理因素, 区组因素及随机误差的综合作用而形
成 。
? SS处理,各处理组之间的变异, 可由处理因素的作用所致 。
? SS区组 或 SS配伍,各区组之间的变异, 可由区组因素的作用所致 。
? SS误差,从总变异中去除 SS处理 及 SS区组 后剩余的变异 。 此变异由个
体差异和测量误差等随机因素所致 。
? ?i j ijX 2)(
? ?j i ijX 2)(
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 196页
计算公式
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 197页
? 三、计算实例
? 例 4.2 某医院研究五种消毒液对四种细菌
的抑制效果。抑制效果用抑菌圈直径( mm)
表示。数据见表 4-5。试分析五种消毒液对
细菌有无抑制作用,对四种细菌的抑制效
果有无差异。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 198页
表 4- 5 消毒液对不同细菌的抑制效果
消毒液类型 细菌类型
A B C D E
∑ i X
大肠杆菌 15 17 15 14 12 73
绿边杆菌 11 12 14 13 9 59
葡萄球菌 25 28 25 30 22 130
痢疾杆菌 20 17 19 13 17 86
∑ j X 71 74 73 70 60 348 ( ∑X )
各组均数 17, 75 18, 50 18, 25 17, 50 15, 00 17, 4 (总均数)
∑ j X
2
1371 1506 1407 1434 998 6716 ∑X
2
)
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 199页
? 检验步骤及方法
? ( 1) 建立检验假设
? 1)对处理因素作用的检验假设
? H0:五种消毒液的消毒效果相同, μ 1= μ 2= μ 3= μ 4=
μ 5;
? H1:五种消毒液的消毒效果不全相同 。
? α = 0.05
? 2)对区组因素作用的检验假设
? H0:四种细菌的抑菌圈直径相同, μ 1= μ 2= μ 3= μ 4;
? H1:四种细菌的抑菌圈直径不全相同 。
? α = 0.05
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 200页
? ( 2) 计算统计量 F值 由表 4- 5数据计算, 有,
? 校正系数 C=(∑X )2/N=(348)2/20=6055.2
? SS总 = ∑ X2- C= 6716- 6055.2= 660.8
? υ 总 = N- 1= 20- 1= 19
? υ 处理 = k- 1= 5- 1= 4
3.312.60555.6086
2.6055
4
6070737471
)(
22222
2
???
?
????
??? ?
?
C
b
X
SS
i
j
ij
处理
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 201页
? υ 区组 = b- 1= 4- 1= 3
? SS误差 = SS总 - SS处理 - SS区组
? = 660.8- 31.3 - 566 =63.5
? υ 误差 = (k-1)(b-1)= ( 5- 1) ( 4- 1) = 12
5662.60555.6621
2.6055
5
861305973
)(
2222
2
???
?
???
??? ?
?
C
k
X
SS
j
i
ij
区组
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 202页
? υ 误差 = υ 总 - υ 处理 - υ 区组 = ( 4- 1) ( 5- 1) = 12
? MS处理 = SS处理 / υ 处理 = ( 31.3) / 4= 7.825
? MS区组 = SS区组 / υ 区组 = ( 566) / 3= 188.667
? MS误差 = SS误差 / υ 误差 = ( 63.5) / 12= 5.292
? F处理 = MS处理 / MS误差 = 7.825/ 5.292=1.4796
? F区组 = MS区组 / MS误差 = 188.667/ 5.292=35.65
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 203页
变异
来源
SS 自由
度
MS F 值 F0.05 F0.01 P 值
( 1 ) ( 2 ) ( 3 ) ( 4 ) ( 5 ) ( 6 ) ( 7 ) ( 8 )
SS 总 660.8 19
SS 处理 31.3 4 7.825 1.48 3.26 5.41 >0.05
SS 区组 566 3 1 8 8, 6 6 7 35.65 3.49 5.95 < 0.05
SS 误差 63.5 12 5.292
表 4-6 双因素方差分析表
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 204页
? 4) 确定 P值 根据 α = 0.05,υ 1= υ 处理 = 4,υ 2= υ 误
差 = 12,查附表 4,F界值表, 得 F0.05(4,12)= 3.26, F0.01(4,12)
= 5.41, 再由 υ 1= υ 区组 = 3,υ 2= υ 误差 = 12,查 F
界值表, 得 F0.05(3,12)= 3.49, F0.01(3,12)= 5.95 。 本例 F处
理 = 35.65,P<0.01; F区组 = 1.48,P> 0.05。
? ( 5) 推断结论 由表 4-6知,
? ① 处理组间的 P>0.05,在 α = 0.05水准上不拒绝 H0,差异
无统计学意义 。 可以认为五种消毒液之间的消毒效果相同 。
? ② 区组间 P< 0.05,在 α = 0.05水准上拒绝 H0,接受 H1,差
异无统计学意义 。 可认为不同细菌的抑菌圈直径不全相同,
即消毒液对不同细菌类型的抑菌效果不全相同 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 205页
第四节 多个样本均数间的两两比较
? 一、均数两两比较的特点和意义
? 1。 当分析结果为 P≤α,拒绝 H0时,得出的结论只是指各总体均数不
全相等。如果想要确切了解哪两个样本均数之间的差异有统计学意义
(总体均数不等),哪两个样本均数之间的差异无统计学意义(总体
均数相等),可以进行多个样本均数的两两比较。
? 2。 当有三个及三个以上样本均数比较时,如果仍使用一般的 t检验对
样本均数两两组合后进行比较,会使检验水平 α 值增大,即增大第一
类错误的概率,这样,就可能把本来无差别的两个总体均数判为有差
别。例如,有 4个样本均数进行两两比较,如用一般的 t检验,则可以
比较
6)!24(!2 !424 ???C
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 206页
? 例如,有 4个样本均数进行两两比较,如用一般的 t检验,
则可以比较
? 6次,即可有 6个对比组。若每次比较的检验水准 α = 0.05,
则每次比较不犯第一类错误的概率为( 1- 0.05) =0.95。
那么根据概率的乘法法则,比较 6次均不犯第一类错误的
概率为( 1-0.05) 6= 0.7351。此时,总的显著性水平变
为,α = 1- 0.7351= 0.2649。此值已远远大于规定的检
验性水平 α = 0.05。
6)!24(!2 !424 ???C
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 207页
? 二,SNK- q 检验法
? ( 一 ) 特点及意义
? SNK- q检验法, 全称为 Student-Newman-Keuls q检验法,
也简称为 SNK法 。 这是国内外常用而较为经典的检验方法 。
可以对所有对照组及处理组的样本均数进行两两比较 。 式
中,q 为检验统计量, 及 为任意比较的两
样本均数,
? 为两样本均数差值的标准误 。
AX BX
BA XXS ?
BA XX
BA
S
XX
q
?
?
?
||
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 208页
? 当两样本 n相等时
? 自由度= υ 误差
? 当两样本 n不相等时
? 上式中 MS误差 在单因素
方差分析中即为 MS组内 。
nMSS
BA XX
/误差??
)(误差
BA
XX nn
MS
S
BA
11
2
???
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 209页
? ( 三 ) 计算步骤及方法
? 1.首先将多个样本均数由大到小顺序排列 。
? 2.按照两均数组合原则, 计算出每两个样本均数比较的统
计量 q 值 。
? 3.根据误差的自由度和两样本间隔组数 a,查 q界值表得 q
界值。 注意:组数 a的计算方法,由于各样本均数已由大
到小顺序排列,因此,相邻两样本均数比较时,组数 a=2,
中间间隔一个样本均数时,组数 a=3,间隔两个样本均数
时,组数 a=4,余类推。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 210页
? ( 四 ) 计算实例
? 例 4.3 仍以例 4.1为计算实例说明计算方法 。 例 4.1的数
据经单因素方差分析, P< 0.01,拒绝 H0,接受 H1。 可以
认为三种胃组织的 PCNA表达指数不全相等 。 进一步作样本
均数的两两比较 。
? ( 1) 建立检验假设
? H0:任意两样本的总体均数相等, μ A= μ B
? H1:任意两样本的总体均数不相等, μ A≠μ B
? α = 0.05
? ( 2) 计算统计量 q值
? 1) 将三个样本均数由大到小顺序排列, 见表 4-7。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 211页
? 表 4-7 三个样本均数顺序排列结果
顺序 1 2 3
均数 55.30 24.56 12.50
组别 A B C
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 212页
? 表 4-8 样本均数两两比较 q检验表
比较组
A与 B
两均数
之差 组数 a 标准误 q值 q 0.05 q 0.01 P值
(1) (2) (3) (4) (5) (6) (7) (8)
1与 2 30.74 2 2.95 10.42 2.92 3.96 <0.01
1与 3 42.80 3 3.05 14.03 3.53 4.54 <0.01
2与 3 12.06 2 3.12 3.87 2.92 3.96 <0.05
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 213页
? ⑶ 推断结论 在 α =0.05水准上 拒绝 H0,接受 H1,各样本均数
的两两比较的差异均有统计学意义。可以认为,胃癌组织,
胃癌旁组织及正常胃粘膜组织的 PCNA 表达指数各不相同。
42.10
95.2
74.30||
21
21 ????
? XXS
XX
q
计算统计量 q值 。 应用第 ( 2) 栏数据除以第 ( 4) 栏数
据即得 q值 。 例如, 1与 2组比较有,
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 214页
(一)特点及意义
? LSD英文全称为 least-significant-difference,译为最小
显著差异法或最小有意义差异法, 也可简称为 LSD法 。 LSD法
实际上是一种 t检验法, 但它与以前描述的一般 t检验法有所
不同 。 两种 t检验法的 主要区别在于 计算标准误中的合并方
差及自由度的不同 。
? LSD法在计算标准误时, 用 MS组内 或 MS误差 取代一般 t 检验
标准误中的, 自由度则用 MS误差 的自由度 υ 误差 = N- K
或 υ 误差 = ( k-1) (b-1)取代一般 t检验法中的自由度 υ =
n1+n2- 2。 根据 α 及 υ, 查一般的 t值表得 t界值, 与 LSD计
算的统计量 t值的大小进行比较, 并确定 P值 。 据此作出判断
和结论 。
2cS
三,LSD- t检验法
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 215页
? ( 二 ) 计算公式
? 自由度= υ 误差
BA XX
BA
S
XX
t
?
?
?
||
)(误差
BA
XX nn
MSS
BA
11
??
?
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 216页
? ( 三 ) 计算步骤及方法
? LSD- t检验法在查 t值表确定 t界值时, 不
需要组数 a,故各样本均数也不需要按大小
顺序排列 。 各样本均数两两比较时, 仍需
要进行组合 。 组合计算公式及方法与 q检验
法相同 。 其它计算步骤与一般 t检验法相同 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 217页
? ( 四 ) 计算实例
? 例 4.4 仍用例 4.1为计算实例,说明 LSD法的计算过程 。
? ( 1) 建立检验假设
? H0,任意两样本的总体均数相等, μ A= μ B
? H1,任意两样本的总体均数不相等, μ A≠μ B
? 双侧 α = 0.05
? ( 2) 计算统计量 t值
? 列出样本均数两两比较 t检验表, 见表 4-9。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 218页
? 表 4-9 样本均数两两比较 t检验表
比较组
A与 B
两均数
之差 标准误 t值 t 0.05 t 0.01 P值
(1) (2) (3) (4) (5) (6) (7)
1与 2 30.74 4.17 7.37 2.064 2.797 <0.01
1与 3 42.80 4.31 9.93 2.064 2.797 <0.01
2与 3 12.06 4.41 2.73 2.064 2.797 <0.05
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 219页
? ( 2)计算标准误和 t值;
? (3)推断结论 在 α =0.05水准上拒绝 H0,接受 H1,各样本
均数的两两比较的差异均有统计学意义。此结论与 q检验
法的结论完全相同。
17.4
9
1
10
143.8211
21
21
??? )+(=)+(误差
nn
MSS XX
37.7
17.4
74.30||
21
??
?
?
? XX
BA
S
XX
t
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 220页
(一)特点及意义
? 在进行科研时,经常需要设立一个对照组和若干个实验组
或处理组。按照研究目的和设计要求,有时只需要将各个
处理组的试验结果与一个对照组进行比较,而各处理组之
间并不需要比较。此时,仍可应用前述 SNK- q检验法或
LSD- t检验法处理资料。因为前两种检验方法均包括所
有各组之间的比较。但处理此类资料也有非常常用而经典
的方法,称为 Dunnett- t检验法。该法在大型统计软件中
的应用非常广泛。
四、多个处理组与一个对照组均数间的两两比较
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 221页
? ( 二 ) 计算公式
? Dunnett-t检验计算公式为,
ci XX
ci
S
XX
t
?
?
?
||
)(误差
ci
XX nnMSS ci
11 ??
?
n/MSS
ci XX 误差
2??
当比较组两样本含
量 ni相等时
当比较组两样本含量
ni不相等时
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 222页
? ( 四 ) 计算实例
? 例 4.5 以例 4.2为计算实例,说明该方法的计算过程。
顺序 1 2 3 4
均数 26 17.2 14.6 11.80
组别 葡萄球菌 痢疾杆菌 大肠杆菌 绿脓杆菌
表 4-10 各组均数排列顺序
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 223页
? 表 4-11 Dunnett- t检验表
比较
组
A与 B
两均
数之
差
组数
a
标准
误 t值 t 0.05 t 0.01 P值
(1) (2) (3) (4) (5) (6) (7) (8)
1与 3 11.4 3 1.45 7.86 2.50 3.39 <0.01
2与 3 2.6 2 1.45 1.79 2.18 3.05 >0.05
4与 3 2.8 2 1.45 1.93 2.18 3.05 >0.05
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 224页
? 计算均数差值的标准误, 计算 1与 3比较组的标准误。
4515292522
31
./.n/MSS XX ????? 误差
( 3)推断结论 本例只有 1与 3比较组 P< 0.01,故在
α = 0.05水准上拒绝 H0,接受 H1,差异有统计学意义。
可以认为消毒液对大肠杆菌和葡萄球菌的抑制效果不
相同;其它各对比组的 P> 0.05,不拒绝 H0,差异无
统计学意义。则可认为消毒液对大肠杆菌,绿脓杆菌
和痢疾杆菌的抑制效果相同。
?
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 225页
第五节 多个方差的齐性检验
? 一、概念及意义
? Bartlett 检验法的基本思想是, 设各总体方差相等, 均等于其合并
方差 。 则各样本方差与合并方差相差不会很大 。 如果相差很大, 则计
算的样本的 值较大, 当超过 X2界值时, 则 P≤α 。 可以认为各
样本所代表的总体方差不全相等 。
? 注意,统计软件中, 最常用的是 Levene方差齐性检验 。 可用于正态
分布及非正态分布的资料 。
? Bartlett 检验法,主要用于正态分布的资料, 对于非正态分布的资
料不适用 。
? 具体内容自学 。
2c?
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 226页
第六节 变量变换
? 一、概念及意义
? ( 一 ) 概念
? 变量变换 ( data transformation) 也称为变量代换, 是
指将原始数据 X经过某种数学方法转换为其它的数据形式,
使其达到统计学上的某种要求, 以利于对资料进行统计处
理 。 如对变量 X取对数 lgX或取平方根等 。 常用的变量变换
方法有:对数变换, 平方根变换, 倒数变换, 平方根反正
弦变换, 概率单位变换, logit变换, 乘方变换等 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 227页
? (二 )意义
? 原始数据经变量变换后主要应该达到下列 几个目的,
? 1.使非正态分布的原始数据达到正态分布或近似正态分布 。
? 2.使各样本方差不齐的数据达到方差齐性 。
? 3.作曲线回归方程时, 使之直线化 。
? 4.按照统计学要求, 经变量变换后简化运算过程 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 228页
(一)对数变换
? 对数变换 ( logarithm transformation) 是将原始数据 X
取对数, 并以对数值作为统计分析的新数据, 一般对原始
数据取常用对数 。
? 对数变换常用于, ① 正偏态分布的资料, 尤其是数据呈
等比关系的资料, 使之成为正态分布或近似正态分布 。 这
类资料也称为对数正态分布资料 。 ② 各样本方差不齐 。
③ 各样本方差与均数呈正比关系 。
? 公式为 Y=lgX
? 当原始数据有小值或零值时
? Y=lg(X+1), Y=lg(X+k), Y=lg(X-k)
二、常用变量变换
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 229页
平方根变换 ( square root transformation) 是将原始数据 X
开平方, 以平方根值作为统计分析新的变量值 。
? 平方根变换的用途,① 可以将泊松分布的数据转化为正态
分布或近似正态分布; ② 轻度正偏态分布的资料转化为近
似正态分布; ③ 各样本方差不齐或样本方差与均数之间呈
正比关系时, 可以达到方差齐性, 消除或削弱样本方差与均
数的正比关系 。
Xx ? 50,Xx ??
kXx ?? kXx ??
(二)平方根变换
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 230页
? 平方根反正弦变换 ( square root arcsine
transformation)是将原始数据取平方根后,再计算反正
弦函数值,得到转换后的新变量值。
psi nx 1??
当 P= 0%时用下式
nsi nx 4
11??
当 P= 100%时用下式
nsi nx 4
111 ?? ?
(三)平方根反正弦变换
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 231页
? 主要用于百分率的转换 。
? 百分率服从二项分布, 如各种疾病的患病率, 发病率, 死
亡率以及各种百分率等相对数 。 尤其是当百分率偏离 50%
较远如大于 70% 或小于 30% 时, 二项分布偏离正态分布较
远 。 经过将百分率转换后, 可使新变量值接近正态分布,
且往往达到方差齐性 。 据此, 可对百分率 p的均数进行 t检
验或方差分析 。
? 例题:自学内容 。
平方根反正弦变换的用途,
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 232页
THANK YOU FOR LISTENING
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 233 页
医学统计学
主讲 程 琮
泰山医学院预防医学教研室
zcheng@tsmc.edu.cn
本科生用中文教案
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 234 页
Chinese Teaching Plan
for Medical Students
Medical Statistics
Professor Cheng Cong
Dept,of Preventive Medicine
Taishan Medical College
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 235 页
第 5章定性资料的统计描述 目录
? 第五节 常用的相对数指标
? 第二节 应用相对数应注意的问题
? 第三节 率的标准化法
? 第四节 动态数列及其分析指标
? 第一节 常用相对数
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 236 页
第五章 定性资料的统计描述
第一节 常用相对数
? 绝对数 --调查或实验研究中清点定性资料得到的实
际数据被称为绝对数。
? 相对数,两个有联系指标之比。
? 医学上常用的相对数有率、构成比相对比等统计指标。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 237 页
一、率
? 率( rate)又称频率指标,是某现象实际发生的观察
单位数与可能发生该现象的观察单位总数之比,用以
说明某现象发生的频率或强度。计算公式为,
K?? 单位总数可能发生某现象的观察 数发生某现象的观察单位率
式中,K为比例基数,常以百分率( %)、千分率( ‰ )、
万分率( 1/万)、十万分率( 1/10万)表示,原则上使计算
结果至少保留 1~ 2位整数。但在医学资料中某些指标的比
例基数是固定的。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 238 页
常见率的指标如下,
? ⒈ 粗死亡率, 出生率, 人口自然增长率, 婴儿死亡率,
新生儿死亡率等人口学指标常用的比例基数是 1000‰ 。
? 2.恶性肿瘤的死亡率, 发病率, 患病率通用比例基
数是 100000/10万 。
? 3.生存率, 病死率通用的比例基数是 100%。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 239 页
二、构成比
? 构成比( proportion)又称构成指标,说明某一事物
内部各组成部分所占的比重或分布。
? 常用来表示疾病或死亡的顺位、位次或所占比重。由
于构成比之和为 100%,一部分变化会影响其它部分的
也发生变化。
%100??
观察单位总数同一事物各组成部分的
位数某一组成部分的观察单构成比
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 240 页
率和构成比的区别(补充)
构成比 率
1。各部分可直接相加 各率不可直接相加。
2。各部分之和等于 100%。 总率不一定等于各率之
和。
3。某部分变化,其它部
分随之变化。
某率的变化,不影响其它
各率。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 241 页
三、比( 相对比)
? 比 ( ratio) 又称相对比, 是 A,B两个有关指标之比,
说明 A是 B的若干倍或百分之几, 通常用倍数或分数表
示 。 计算公式为,
B
A?比
(或 × 100%)
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 242 页
? 常用相对比指标
? 1.对比指标,指两个同类事物某种指标(绝对数、两
个率或其它同类指标)的比。
? 2.关系指标,指两个有关的、但非同类事物的数量的
比。
? 3.计划完成指标,说明计划完成的程度,常用实际数
达到计划数的百分之几或几倍表示。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 243 页
表 5-1 1993~ 1998年某地损伤与中毒病死率( %)与构成比( %)
年度 发病人数 病死人数 病死率 构成比 相对比
( 1) ( 2) ( 3) ( 4) ( 5) ( 6)
1993 584 8 1.37 8.8 —
1994 571 10 1.75 11.0 1.28
1995 714 12 1.68 13.2 1.23
1996 748 16 2.14 17.6 1.56
1997 942 21 2.23 23.0 1.63
1998 1095 24 2.19 26.4 1.60
合计 4654 91 1.96 100.0 —
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 244 页
第二节 应用相对数应注意的问题
?1.计算相对数时分母一般不宜过小,一般不能小于 30例。
?2.分析时不能以构成比代替率 。
?3.对观察单位数不等的几个率,不能直接相加求其总率。
?4.应当注意不能用构成比的动态分析代替率的动态分析。
?5.在比较相对数时应注意可比性。
?6.对样本率(或构成比)的比较应随机抽样,并做假设检
验。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 245 页
第三节 率的标准化法
? 一、标准化法的意义和基本思想
? 率的标准化 --不同时间或不同地区的几组率比较时,
为了消除资料在 年龄、性别 或其它有关指标的构成的
不同,而选用某一标准人口构成加以校正,称为率的
标准化。
? 不同地区,不同时间的两个或多个率直接进行比较是
不太合适的。会造成错误的结论。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 246 页
表 5-4 甲、乙两地各年龄组人口数及死亡率( ‰ )
年龄组
甲 地 乙 地
人口数 死亡人
数
死亡率 人口数 死亡人
数
死亡率
0~ 9300 532 57.2 4800 349 72.9
5~ 12200 44 3.6 6600 30 4.6
20~ 19000 101 5.3 35300 254 7.2
40~ 7600 92 12.1 2800 39 14.2
60~ 1900 76 40.0 500 23 46.0
合计 50000 845 16.9 50000 695 13.90
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 247 页
二、标准化率的计算
? 标准化率 ( standardized rate)亦称调整率
( adjusted rate)。
? 常用的计算方法按已知条件有,
1,直接法:间接法:不讲。反推法:不讲。
2。选择标准人口的方法,
1)选择两地数据之一的人口数或构成比;
2)选择两地数据之和的人口数或构成比;
3)选择当地或全国的人口数或构成比;
4)国际间比较选用世界通用标准。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 248 页
表 5-6 按公式( 5.4)用直接法计算标准化死亡率( ‰ )
年龄组 标准人口数 甲 地 乙 地
(岁) ( Ni) 原死亡率 pi 预期死亡数
Npi
原死亡率 pi 预期死亡数 Npi
( 1) ( 2) ( 3) ( 4) =( 2)
( 3)
( 5) ( 6) =( 2)
( 5)
0~ 14100 57.2 807 72.9 1028
5~ 18800 3.6 68 4.6 86
20~ 54300 5.3 288 7.2 391
40~ 10400 12.1 126 14.2 148
60~ 2400 40.0 96 46.0 110
合计 100000(N) 16.19 1385(ΣN ipi) 13.90 1763( ΣN ipi)
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 249 页
标化结果
? 甲地标准化死
亡率
? 乙地标准化死
亡率
%85.13
1000
1000
000,100
1385 ????p
%63.17
1000
1000
000,100
1763 ????p
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 250 页
表 5-7 按公式( 5.5)用直接法计算标准化死亡率( ‰ )
年龄组 标准人口构成
比
甲 地 乙 地
(岁) ( Ni/N) 原死亡率 pi 分配死亡率
( Ni/N) pi
原死亡率 pi 分配死亡率
( Ni/N) pi
( 1) ( 2) ( 3) ( 4) =( 2)
( 3)
( 5) ( 6) =( 2)
( 5)
0~ 0.141 57.2 8.07 72.9 10.28
5~ 0.188 3.6 0.68 4.6 0.86
20~ 0.543 5.3 2.88 7.2 3.91
40~ 0.104 12.1 1.26 14.2 1.48
60~ 0.024 40.0 0.96 46.0 1.10
合计 1.000 16.19 13.85(P’) 13.90 17.63(P’)
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 251 页
三、标准化法使用注意事项
? 1.标准化法是采用统一标准人口年龄构成;
? 2.标准化后的率并不表示某地实际水平,只能表明相
对水平 ;
? 3.如不计算标准化率,而分别比较各组的率,也可得
出正确结论,但不能比较总率的大小。
? 4.两样本标准化率是样本值,存在抽样误差,应作假
设检验。检验方法比较麻烦。一般参考书上也没有。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 252 页
第四节 动态数列及其分析指标
?动态数列 ( dynamic series) 是一系列按时间顺序排
列起来的统计指标, 包括绝对数, 相对数或平均数,
用以说明事物在时间上的变化和发展趋势 。
? 1.时间动态数列 各个指标在时点上的数据;
? 2.时期动态数列 各个指标在一定的时间间隔内陆续
发生并积累的数据 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 253 页
?常用动态数列有,
? 1.绝对增长量 说明事物在一定时期所增长的绝对值。
? 2.发展速度和增长速度:①定基比 ;②环比。
? 3.平均发展速度和平均增长速度 用于概括某一时期
的速度变化, 即该时期环比的几何均数, 其计算公式
为,
n n
a
a
0
平均发展速度=
1展速度-平均增长速度=平均发
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 254 页
表 5-9 某地 1990~ 1998年床位发展动态
年份 指标
符号
年末
床位数
绝对增长量 发展速度 % 增长速度 %
累计 逐年 定基 环比 定基 环比
( 1) ( 2) ( 3) ( 4) ( 5) ( 6) ( 7) ( 8) ( 9)
1990 a0 5420 — — — — — —
1991 a1 5608 188 188 103.4 103.4 3.4 3.4
1992 a2 5766 346 158 106.4 102.9 6.4 2.9
1993 a3 5886 466 120 108.6 102.1 8.6 2.1
1994 a4 5991 571 105 110.5 101.7 10.5 1.7
… … … … … … … … …
1998 a8 7352 1932 1932 135.6 135.6 135.6 135.6
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 255 页
例 5.4 对表 5-9第( 1)、( 3)栏资料作动态分析
039.1
5420
7352
8 ?平均发展速度=
039.01039.1 ??平均增长速度=
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 256 页
例 根据表 5-9数据,预测 2003年床位数
13 13
5420
039.1
a
=
8 9 1 213 ?a
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 257 页
第五节 常用的相对数指标
1.发病率 ( incidence rate) 指一定时期内, 可能发
生某病的一定人群中新发生的某病病例数的频率 。
比例基数 K可为,100%,1000‰,10000/万, 100000/
10万 。 注意,分子为新发生病例数, 分母为可能发生
病例数 。 一定时期常指一年 。 计算公式为,
K?? 病的平均人口数一定时期内可能发生某 例数该期间新发生的某病病发病率
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 258 页
? 2.患病率 ( prevalence rate) 又称现患率, 指在
某时点上受检人数中现患某种疾病的人数所占比例 。
? 注意,病人可以是新老病人 。 时点,常指几天, 一周
或二周等 。
K?? 该时点受检人口数 病例总数检查时发现的某病现患患病率
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 259 页
? 3.死亡率 ( mortality rate) 亦称粗死亡率 ( crude
death arte), 是指某人群在一定期间内死于所有原
因的人数在该人群中所占的比例 。 时期常为一年 。 我
国总死亡率稳定在 7‰ 左右;按 13亿人估计:每年正常
死亡者约 910万人 。
1000??
该人群同年平均人口数
某人群某年总死亡人数死亡率
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 260 页
? 4。 婴儿死亡率 ( infant mortality rate) 指某年内不
满一岁的婴儿死亡人数与全年活产数的比值 。
? 我国 1949年以前:该率为 200‰ ;现在:城市为 14‰ ;农村
为,34‰ ;印度,50~ 80‰ ;非洲,120‰ 。
西方发达国家,8~ 12‰ 。 该率变化反映经济水平和生活
水平 。 不受人口构成影响, 各国可直接比较 。
10001 ??
某年活产总数
岁婴儿死亡数同年不满婴儿死亡率
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 261 页
? 5.新生儿死亡率 ( neonatal mortality
rate) 指某年内出生之不满 28天的死
亡人数与全年活产数的比值 。 产科指标 。
100028 ??
某年活产数
天以内的死亡数同年出生新生儿死亡率
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 262 页
? 6,围产儿死亡率 ( prenatal mortality
rate) 孕期满 28周至生后 7天以内的死
亡, 称为围产儿死亡 。
? 产科指标 。
???? 活产数周以上的死产数妊娠 天内新生儿死亡数周以上的死产数妊娠围产儿死亡率 28 728
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 263 页
? 7,出生率( birth rate) 亦称粗出生率,
指一年内每千人口中的出生数。我国总出生
率为 17‰ ;每年出生约 2210万。去除正常
死亡的 910万,净增长 1300万。增长率为
10‰ 。
?
某年平均人口数
同年活产总数
出生率 1000??
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 264 页
? 8.人口自然增长率 ( natural increase
rate) 指出生率与死亡率之差 。 我国
已控制在 10‰ 以下 。 这是我国的基本目
标 。 北京, 上海为负增长, 泰安也为负
增长 。 法国, 德国:为负增长 ;非洲约:
35‰ 左右 。
? 人口自然增长率 =出生率-死亡率
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 265 页
9.某病病死率( case fatality)表示一定
期间内,某病患者中死于该病的频率。
反映疾病严重程度。也可评价医院医疗
水平。注意:各医院比较时,要有可比
性。一般不同级别的医院不能直接比较。
%100??
同期某病病人数
数观察期间因某病死亡人
某病病死率
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 266 页
? 生存率常用于评价某些慢性病如癌症、心血管等
的远期疗效。可以计算 3年,5年或 10年生存率。
10.生存率 ( survival rate) 是指患某种疾病的人 ( 或
接受某种治疗的某病病人 ) 经 n年的随访, 到随访结束
时仍存活的病例数所占的比例 。
100%??
年的该病病例数随访满
年的某病病例数活滿
年生存率
n
n
n
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 267 页
Best wishes to you,
Thank you for listening
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 268 页
主讲 程 琮
泰山医学院预防医学教研室
zcheng@tsmc.edu.cn
本科生用教案
医学统计学
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 269 页
Chinese Teaching Plan
for Medical Students
Medical Statistics
Professor Cheng Cong
Dept,of Preventive Medicine
Taishan Medical College
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 270 页
第 6章总体率的区间估计和假设检验
目彔
? 第二节 率的 u 检验
? 第三节 卡方检验
? 第四节 四格表的确切概率法
? 第一节 率的抽样误差与总体率的
区间估计
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 271 页
第六章 总体率的区间估计和假设检验
第一节 率的抽样误差与总体率的区间估计( 1)
? 一。率的抽样误差,在同一总体中按一定的样本含量 n
抽样,样本率和总体率或样本率之间也存在着差异,这
种差异称为率的抽样误差。
? 率的抽样误差的大小是用 率的标准误 来表示的。
np
)1( ??
?
?
?
n
ppS
p
)1( ??
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 272 页
For example
? 例 6.1 检查居民 800人粪便中蛔虫阳性 200人,
阳性率为 25%,试求阳性率的标准误 。
? 本例,n=800,p=0.25,1-p=0.75,
%53.10153.0
800
75.025.0
??
?
?pS
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 273 页
? 二、总体率的区间估计
? ㈠正态分布法
? 样本含量 n足够大,np与 n(1-p)均 ≥ 5时,
pSup ??
第一节 率的抽样误差与总体率
的区间估计
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 274 页
For example
? 例 6.2 求例 6.1当地居民粪便蛔虫阳性率的
95%可信区间和 99%的可信区间 。
? 95%的可信区间为, 25%± 1.96× 1.53% 即
( 22.00%,28.00%)
? 99%的可信区间为, 25%± 2.58× 1.53% 即
( 21.05%,28.95%)
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 275 页
?㈡ 查表法
?当样本含量较小(如 n≤50 ),np或 n(1- p)<5
时,样本率的分布呈二项分布,总体率的可信
区间可据二项分布的理论求得。
?例 6.3 某医院用某药治疗脑动脉硬化症 22例,
其中显效者 10例 。 问该药总显效率的 95%可信
区间为多少?
?本例 n=22,X=10,查附表 7( 201页 ), 得此两
数相交处的数值为 24~ 68,即该药总显效率的
95%可信区间为 ( 24%,68%) 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 276 页
第二节 率的 u 检验( 1)
? 应用条件:样本含量 n足够大,np与 n(1
- p)均 ≥ 5 。
? 此时,样本率 p也是以总体率为中心呈正
态分布或近似正态分布的 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 277 页
一、样本率与总体率比较的 u检验
? u值的计算公式为,
n
pp
u
p )1(
||||
00
00
??
?
?
?
?
?
?
?
?
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 278 页
For example
? 例 6.5 根据以往经验, 一般胃溃疡病患
者有 20%(总体率 )发生胃出血症状 。 现某
医生观察 65岁以上胃溃疡病人 152例, 其
中 48例发生胃出血, 占 31.6%( 样本率 ) 。
问老年胃溃疡病患者是否较一般胃溃疡
病患者易发生胃出血 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 279 页
计算结果及判断
? 判断,u=3.58 > u0.05=1,64(单侧),P<0.05。
? 在 α=0.05 水准上,拒绝 H0,接受 H1,差异有统计
学意义。
58.3
1 5 2)20.01(20.0
|20.03 1 6.0|
?
?
?
?u
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 280 页
? 二, 两样本率比较的 u检验
? 适用条件为两样本的 np和 n(1-p)均
大于 5。
? 计算公式为
)11)(1( 21
2121
21
nnpp
pp
S
pp
u
ccpp ??
?
?
?
?
?
21
21
nn
xxp
c ?
??
第二节 率的 u检验( 3)
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 281 页
For example
? 例 6.6 某中药研究所试用某种草药预防
流感, 观察用药组和对照组 ( 未用药组 )
的流感发病率, 其结果见表 6-1。 问两组
流感发病率有无差别?
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 282 页
表 6-1 用药组和对照组流感发病率比较
组 别 观察人数 发病人数 发病率( %)
用药组 100 14 14
对照组 120 30 25
合 计 220 44 20
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 283 页
计算结果
? 本例 n1=100,p1=14%,n2=120,p2=25%,
pc=20%,1- pc=80%,代入公式
031.2
)12011001(80.020.0
25.014.0
?
??
?
?u
判断, u = 2.031>u
0.05=1.96,故 p < 0.05。
在 α=0.05水准上,拒绝 H0,接受 H1,差异有统计学意
义。
?
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 284 页
第三节 X2检验
? X2检验 (chi- square test)或称卡方检
验, 是一种用途较广的假设检验方法,
常用于检验 两个或多个样本率及构成比
之间有无差别, 还用来检验配对定性资
料及两种属性或特征之间是否有关系等 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 285 页
一、四格表资料的检验
? 四格表资料的检验 主要用于 两个样本率
( 或构成比 ) 的假设检验, 一般制成表
6-2的计算格式 ( 以阳性和阴性为例 ) 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 286 页
表 6-2 四格表资料检验计算表
组 别 阳性数 阴性数 合计
甲 组 a b a+b
乙 组 c d c+d
合 计 a+c b+d a+b+c+d=n
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 287 页
X2检验的基本公式为
? 理论频数 T
? ?
?
?
?
T
TA
2
2?
n
nn
T CRRC ?
? 条件,n> 40,
T>= 5
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 288 页
四格表检验专用公式
? 省去计算 T值
? ?
))()()((
2
2
dbcadcba
nbcad
????
?
??
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 289 页
例 6.7 以例 6.6资料为例
表 6-3 用药组和对照组流感发病率的比较
组 别 发病人数 未发病人数 合计
用药组 14( 20) 86( 80) 100
对照组 30( 24) 90( 96) 120
合 计 44 176 220
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 290 页
两种方法计算结果
? ? ? ? ? ? ? ? 125.4
96
9690
24
2430
80
8086
20
2014 22222 ??????????
? ?
1 2 5.4
1 7 6441 2 01 0 0
2 2 030869014 22
?
???
???
??
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 291 页
结果判断
? X2临界值,X20.05,1= 3.84,
请记住, X2 0.01,1= 6.63,
X2=u2
本例, X2=4.125> X20.05,1= 3.84,两组差别有统
计学意义。与前面的结论相同。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 292 页
四格表值的校正
? 条件,
? ( 1) 任一格的 1≤ T< 5,且 n≥ 40时, 需计算校正值 。
? ( 2) 任一格的 T< 1或 n≤ 40时, 用确切概率计算法 。
? ?
?
??
?
T
TA 22 5.0
?
? ?
))()()((
2 22
dbcadcba
nnbcad
????
??
??
基本公式
专用公式
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 293 页
例 6.8 某医师用甲、乙两疗法治疗小儿单纯性消化
不良,治疗结果如表 6-4,问两疗法的治愈率是否
相等?
表 6-4 甲、乙两疗法治疗小儿单纯性消化不良的治愈率比较
组 别 发病人数 未发病人数 合计
用药组 26(28.8) 7(4.2) 33
对照组 36(33.2) 2(4.8) 38
合 计 62 9 71
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 294 页
计算结果及判断
? 本例,X2= 2.71< X2 0.05,1=3.84
? 本例若对 X2值不校正,α =4.06,得 P<0.05,结论正好
相反。
? ?
74.2
9623833
71271367226
2
2 ?
???
????
??
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 295 页
二、配对四格表资料的检验
? 1。用于配对定性资料差异性的假设检验 。
? ?
cb
cb
?
?
?
2
2?
? ?
cb
cb
?
??
?
2
2 1?若 b+c≤40,需计算 X
2校正值
若 b+c> 40,公式为,
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 296 页
例 6.9 有 28份白喉病人的咽喉涂抹标本,把每份标本分别
接种在甲、乙两种白喉杆菌培养基上,观察两种白喉杆菌
生长情况,,+”号表示生长,,-”号表示不生长,结果如
表 6-5。问两种白喉杆菌培养基的效果有无差别?
? 表 6-5 甲、乙两种白喉杆菌培养基的培养结果
甲种 乙种 合计 + -
+ 11( a) 9 ( b) 20
- 1 ( c) 7 ( d) 8
合计 12 16 28
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 297 页
本例检验步骤如下,
( 1) 建立检验假设
H0:总体 B=C,即两种白喉杆菌培养基的效果相同
H1:总体 B≠C,即两种白喉杆菌培养基的效果不同
α=0.05
( 2) 计算值 本例 b=9,c=1,b+c<40,
90.4
19
)1|19(| 22 ?
?
????
( 3) 确定 P值 本例 X2= 4.90> X2= 3.84,P< 0.05。
( 4) 推断结论 在 α =0.05的水准上, 拒绝 H0,接收 H1,差
异有统计学意义 。 可认为甲, 乙两种白喉杆菌培养基的效果
有差别, 甲培养基培养效果优于乙培养基 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 298 页
三、行 × 列表的检验
? 行 × 列表( R× C表)的检验主要用于解决多个样本率
或多个样本构成比的比较以及有序分类资料的关联性
检验。
?
??
?
?
??
?
?
?? ? 1
2
2
CR nn
A
n?
式中 n为总例数, A为每格子的实际频数, nR,nC分别
为与某格子实际频数 ( A) 同行, 同列的合计数 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 299 页
(一)多个样本率的比较
? 例 6.10 某市重污染区, 一般市区和农村的出生婴儿的致畸情
况如表 6-6,问三个地区的出生婴儿的致畸率有无差别?
地区 畸形数 无畸形数 合计 致畸率( ‰ )
重污染区 114 3278 3392 33。 61
一般市区 404 40143 40547 9。 96
农村 67 8275 8342 8。 03
合计 585 51695 52281 11。 19
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 300 页
计算 X2值
( 3) 确定 P值 本例 υ =( 3- 1) ( 2- 1) =2,
查界值表, X20.05,2= 5,99。
( 4) 推断结论 在 α= 0.05的水准上, 拒绝 H0,接受 H1,
差异有统计学意义 。 可认为三个地区出生婴儿的致
畸率有差别 。
???
?
???????? 5169640547
40143
58540547
404
516963392
3278
5853392
11452281 22222?
111671
516968342
8275
5858342
67 22,?
???
??
?
?
?
?
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 301 页
(二)多个构成比的比较
? 6.11 某医院研究鼻咽癌患者与眼科病人的血型构成情况有无不
同, 资料如表 6-7,问其血型构成有无差别?
表 6-7 鼻咽癌患者与眼科病人的血型构成
组别 A型 B型 O型 AB型 合计
鼻咽癌患者 55 45 57 19 176
眼科病人 44 23 36 9 112
合计 99 68 93 28 288
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 302 页
计算 X2值
( 3) 确定 P值 本例 υ =( 2- 1) ( 4- 1) =3,查界值 X2
0.05,3=7.81。
( 4) 推断结论 在 α= 0.05的水准上, 接受 H0,差异无统计学意义 。
故尚不能认为鼻咽癌患者与眼科病人的血型构成有差别 。
???
? ?
?????????? 99112
44
28176
19
93176
57
68176
45
99176
55288 222222?
5621
28112
9
93112
36
68112
23 222,?
???
??
?
?
?
?
?
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 303 页
(三)双向有序分类资料的关联性检
验
? 例 6.12 某工厂在冠心病调查中研究冠心病与眼底动脉硬化的关
系,共调查 588人,资料如表 6-8,问冠心病与眼底动脉硬化有无
关系?
表 6-8 某厂职工冠心病与眼底动脉硬化调查结果
眼底动脉硬
化分级
冠心病诊断结果
合计
正常 可疑 冠心病
0 340 11 6 357
Ⅰ 73 13 6 92
Ⅱ 100 20 19 139
合计 513 44 31 588
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 304 页
? ( 3) 确定 P值,υ =( 3- 1) ( 3- 1) =4,查 X2界值表,
X2 0.05,4=9.49,本例 X2= 53.18 > X2=9.49,P<0.05。
? ( 4) 推断结论 在 α= 0.05的水准上, 拒绝 H0,接受
H1,差异有统计学意义 。 可认为冠心病诊断结果与眼
底动脉硬化分级有关系 。
计算 X2值
13.581
31139
19
44357
11
513357
340588 2222 ?
???
?
???
? ?
?
??
?
?
?
? ??
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 305 页
计算列联系数( Pearson法) r值。
? r值在 0~ 1之间,0表示完全独立,1表示完全相关,r
愈接近 0,说明几乎没有关系,r愈接近 1,说明关系愈
密切。
2
2
?
?
?
?
n
r
300
1358588
1358,
.
.r ?
?
?
本例 列联系数为,
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 306 页
行 × 列表资料的检验的注意事项
? 1,理论数不宜太小,一般不宜有 1/5以上格子
的理论频数小于 5,或有一个理论频数小于 1。
对理论数太小有三种处理方法,
? ①最好增加样本含量以增大理论频数; 根本的
方法。
? ②删去理论频数太小的行和列; 此法不好。
? ③将理论频数较小的行或列与邻行或邻列合并
以增大理论频数。但后两法可能会损失信息,
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 307 页
行 × 列表资料的检验的注意事项
? 2.当多个样本率(或构成比)比较的检验,结
论为拒绝检验假设,只能认为各总体率(或总
体构成比)之间不全相等,但不能认为彼此间
都不相等。若要比较彼此间的差别,可用下述
的行 × 列表的 分割法。
? 3.对于行 × 列表单向等级资料 ( 单向有序资料 )
组间的比较, 宜用第八章秩和检验, 如作卡方
检验法只说明各处理组的效应在构成比上有无
差异, 而不能说明组间整体效应的差异 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 308 页
四、行 × 列表的分割法
? X2分割的目的是进行多个率之间的两两比较 。
? 分割法是利用 X2值的 可加性原理, 把原 R× C表
分割为若干个分割表, 这些分割表的自由度之
和等于原 R× C表的自由度, 其值之和十分接近
原表的值 。
? 分割的方法是按最相近的原则, 把阳性率 ( 或
构成比 ) 相差不大的样本分割出来, 计算其 X2
值 。 当差异无统计学意义时, 就把它合并为一
个样本, 再把它与另一较相近的样本比较, 如
此进行下去直到结束 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 309 页
例 6.13 对例 6.10三个地区的出生婴儿的致畸率的分析
结果作进一步的两两比较
地 区 畸形数 无畸形 数 合计 致畸率( ‰ ) X2 υ P
一般市区 404 40143 40547 9.96
农 村 67 8275 8342 8.03 2.72 1 >0.05
合 计 471 84818 48889 9.63
一般市区 +农
村 471 84818 48889 9.63
重污染区 114 3278 3392 33.61 164.78 1 <0.005
合 计 585 51696 52281 11.19 167.49 2
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 310 页
第四节 * 四格表的确切概率法
(Fisher’s exact test)
? 前已述及, 四格表若有理论频数 T小于 1,或 n<40时, 尤其是用其
他检验方法所得概率接近检验水准时, 宜用四格表的确切概率法
(exact probabilities in 2× 2 table),即四格表概率的直接
计算法 。
? 本法的 基本思想 是:在四格表周边合计不变的情况下,获得某个
四格表的概率为,
!n!d!c!b!a
)!db()!ca()!dc()!ba(P ?????
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 311 页
例 6.14 抽查两批食品的卫生状况,作大肠杆菌检查,
检查结果见表 6-10。问两批食品的卫生状况有无差别?
? 表 6-10 甲乙两批食品大肠杆菌检查结果
组 别 阳性数 阴性数 合计 阳性率(%)
甲批 26(28.8) 7(4.2) 33 41.67
乙批 36(33.2) 2(4.8) 38 10.00
合 计 62 9 71 27.27
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 312 页
计算 P 值
? 表 6-10中甲批食品阳性率 P1=0.4167,乙批食
品阳性率 P2=0.1000,两者之差 | p1 - p2
|=0.3167。 在周边合计数不变的条件下, 可
能还有其它组合的四格表, 其阳性率之差
≥ 0.3167,所有这些比当前四格表更极端的
情况都应考虑进去, 因为这些极端情况在 H0
条件下都有可能发生 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 313 页
? 表 6-11中 | p1- p2 |≥0.3167 的四格表为序
号( 0)、( 1)、( 5)、( 6)的情形,按公式
( 6.16)求得序号( 1)的概率为
1 0 6 10
229175
1661012
1
.
!!!!!
!!!!
P
)(
??
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 314 页
序号( i ) 阳性 阴性 P
1
| P
1
- P
2
| P
( i )
P
2
0 6 6 0, 5 0 0 0 0, 5 0 0 0 0, 0 1 2 4
0 1 0 0, 0 0 0 0
1 5 7 0, 4 1 6 7 0, 3 1 6 7 0, 1 0 6 1
1 9 0, 1 0 0 0
2 4 8 0, 3 3 3 3 0, 1 3 3 3
2 8 0, 2 0 0 0
3 3 9 0, 2 5 0 0 0, 0 5 0 0
3 7 0, 3 0 0 0
4 2 1 0 0, 1 6 6 7 0, 2 3 3 3
4 6 0, 4 0 0 0
5 1 1 1 0, 0 8 3 3 0, 4 1 6 7 0, 0 4 0 5
5 5 0, 5 0 0 0
6 0 1 2 0, 0 0 0 0 0, 6 0 0 0 0, 0 0 2 8
6 4 0, 6 0 0 0
表 6-11 确切概率计算表(四格表周边合计数不变)
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 315 页
?余仿此,P(0)=0.0124,P(5)=0.0405,P(6)=0.0028,
因此所求概率为,
? 推断结论 按 =0.05的水准,不拒绝 H0,差异无
统计学意义。还不能认为两批食品卫生状况有差
别。
P =P(0)+P(1)+P(5)+P(6)=0.0124+0.1061
+0.0405+0.0028=0.1618
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 316 页
THANK YOU FOR LISTENING
THE END
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 317 页
泰山医学院预防医学教研室
zcheng@tsmc.edu.cn
主讲 程 琮
医学本科生用
医学统计学
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 318 页
Teaching Plan
For Medical Students
Medical Statistics
Professor Cheng Cong
Dept,of Preventive Medicine
Taishan Medical College
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 319 页
第 7章二项分布与泊松分布 目彔
? 第二节 Poisson分布及其应用
? 第三节 二项分布与 Poisson分布
的拟合优度检验
? 第一节 二项分布及其应用
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 320 页
第七章 二项分布与 Poisson分布
第一节 二项分布及其应用
一、二项分布的概念及应用条件
? 二项分布( binominal distribution)
是一种重要的离散型分布,在医学上常遇到属于两分
类的资料,每一观察单位只具有相互独立的一种结果,
如检查结果的阳性或阴性,动物试验的生存或死亡,
对病人治疗的有效或无效等。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 321 页
如果已知发生某一结果(如阳性)的概率为 π,其对立
结果(阴性)的概率为( 1-π ),且各观察单位的观察
结果相互独立,互不影响,则从该总体中随机抽取 n例,
其中出现阳性数为 X (X=0,1,2,3,…, n)的概率服从二
项分布。
? 二项分布
也称为贝努里分布( Bernoulli distribution)或贝努
里模型,是由法国数学家 J.Bernoulli于 1713年首先阐
述的概率分布。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 322 页
贝努里模型应具备下列三个基本条件。
? 试验结果只出现对立事件 A或,两者只能出现其中之
一。这种事件也称为互斥事件。
? 试验结果是相互独立,互不影响的。例如,一个妇
女生育男孩或女孩,并不影响另一个妇女生育男孩或
女孩等。
? 每次试验中,出现事件 A的概率为,而出现对立事件
的概率为1 -。则有总概率 +( 1-) =1。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 323 页
二,二项分布的概率函数
? 根据贝努里模型进行试验的三个基本条件, 可以求
出在 n 次独立试验下, 事件 A出现的次数 X的概率分布 。
X为离散型随机变量, 其可以取值为 0,1,2,…,n。
则 X的概率函数为,
XnXX
nn CXP
??? )1()( ??
X=0,1,2,…,n (7.1)
式中,0<π<1, 为组合数,公式( 7.1)称随机变量 X
服从参数为 n,π 的二项分布,则记为 X~ B(n,π) 。
XnC
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 324 页
三,二项分布的性质
? 二项分布是概率分布, 因此它就具备概率分布的各
种性质 。
1,二项分布的每种组合的概率符合二项展开式, 其总概
率等于 1
?????????? ?
?
?? 11100
0
)1()1()1()]1([ nnnn
n
X
XnXX
n
n CCC ????????
1)1()1( 0111 ????? ?? ???? nnnnnn CC
( 7.2)
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 325 页
由公式( 7.2)可看出二项展开式有以下特点,
( 1)展开式的项数为 n+1。
( 2) 展开式每项和 ( 1-) 指数之和为 n。
( 3)展开式每项的指数从 0到 n;( 1-)的指数从 n到 0。
2,二项分布的累积概率 设 m1≤X≤m2 ( m1< m2),则 X在
m1至 m2区间的累积概率有,
?
?
?????
2
1
)1()( 21
m
mX
XnXX
nn CmXmP ??
(7.3)
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 326 页
? 至多有 x例阳性的概率为,
? 至少有 x例阳性的概率为,
?
?
??
x
X
n XPxXP
0
)()(
X=0,1,2,…, x (7.4)
?
?
??
n
xX
n XPxXP )()(
X=x,x+1,…, n (7.5)
公式( 7.4)为下侧累计概率,公式( 7.5)为上侧累计概率。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 327 页
3.二项分布的概率分布图形
? 以 X为横坐标, P( X) 为纵坐标, 在坐标纸上可绘出二项
分布的图形,由于 X为离散型随机变量, 二项分布图形由横
坐标上孤立点的垂直线条组成 。
? 二项分布的图形取决于与 n的大小 。 当 n充分大时, 二项
分布趋向对称, 可以证明其趋向正态分布 。
? 一般地, 如果 n乘以 π 即 nπ 之积大于 5时, 分布接近正态
分布;当 nπ <5时, 图形呈偏态分布 。 当 π =0.5时, 图形
分布对称, 近似正态 。 如果 π ≠ 0.5或距 0.5较远时, 分布
呈偏态 。 见图 7-1。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 328 页
图 7-1 二项分布示意图
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 329 页
4.二项分布的数字特征 这里的数字特征主要指
总体均数、方差、标准差等参数。
(1) 随机变量 X的数学期望 E( X) = μ, 即指总体均数,
μ = nπ (7.6);
(1) 随机变量 X的方差 D( X) = σ 2 为,
(3) 随机变量 X的标准差为,
)1( ??? ?? n
( 7,7) )1(2 ??? ?? n
( 7,8)
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 330 页
( 7.9)
?? ?
p
n
p
)1( ??
?
?
?
( 7.10)
⑷ 若 X的总体均数和标准差用率来表示,则将公式
( 7.6)和公式( 7.8)分别除以 n,得,
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 331 页
四、二项分布展开式各项的系数
? 二项分布展开式的各项之前均有一个系数,用组合公
式来表示。计算公式为,
)!(!
!
XnX
n
C
X
n
?
?
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 332 页
? 该 系数 也可用杨辉三角来表示,见
图 7-2。国外参考书习惯称之为 巴斯
噶三角。 当试验次数 n较小时,可直
接利用杨辉三角将二项分布展开式
各项的系数写出来,应用十分方便。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 333 页
图 7-2 杨辉三角模式图
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 334 页
杨辉三角的意义,
? ① 杨辉三角中每行有几个数字,表示展开式有
几项。当试验次数为 n 时,有 n+1项。
? ② 杨辉三角中每行中的数字表示展开式中每项
的系数大小。
? ③ 杨辉三角中的各数字项及其数字的排列很有
规律。可依照规律继续写下去。第一行的第一、
第二项均为数字1,以后每下一行的首项及末
项均为1,中间各项为上一行相邻两项数字之
和。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 335 页
五、二项分布的应用
? 二项分布在生物学及医学领域中,主要
应用在下列几个方面,
? ①总体率的可信区间估计,
? ②率的 u检验,
? ③样本率与总体率比较的直接计算概率
法。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 336 页
(一)应用二项分布计算概率
? 例 7.1 如出生男孩的概率 =0.5,出生女孩的概
率为 ( 1-) =0.5。 在一个妇产医院里有 3名产妇
分娩 3名新生儿, 其中男孩为 X=0,1,2,3的概率按
公式 ( 7.1) 计算的结果列于表 7-1的第 ( 3) 栏
中 。
? 分析,根据题意,已知生育男孩为事件 A,其概
率 P(A)=0.5(即 π =0.5);生育女孩为事件,其
概率为 P()=1-P(A)=1-0.5= 0.5(即 1-π =0.5)。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 337 页
? 三个妇女生育一个男孩,两个女孩的概率为,
? 三个妇女生育均为女孩(即无男孩)的概率为,
125.05.05.0
)!03(!0
!3
)1()0( 303003 ???
?
??? ??CP
375.05.05.0
)!13(!1
!3
)1()1( 212113 ???
?
??? ??CP
余类推,见表 7-1第( 3)栏。表 7-1第( 5)栏为至少生育 X
个男孩的累积概率。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 338 页
(二 )样本率与总体率的比较的直接概率法
? 此法适用 n和 n(1-)均小于 5的情形。
? 应注意,
? ①当样本率大于总体率时,应计算大
于等于阳性人数的累积概率。
? ②当样本率小于总体率时,应计算小
于等于阳性人数的累积概率。
0?
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 339 页
? 例 7.2 A药治疗某病的有效率为 80% 。 对 A药进行改
进后, 用改进型 A药继续治疗病人, 观察疗效 。 ① 如果
用改进型 A药治疗 20例病人, 19例有效 。 ② 如果用改进
型 A药治疗 30例病人, 29例有效 。 试分析上述二种情形
下, 改进型 A药是否疗效更好 。
? 分析, A药有效率为 80%, 可以作为总体率, 即 π 0
= 0.8 。 治疗 20例病人的样本有效率为 ( 19/ 20)
× 100% = 95% ;治疗 30例病人的样本有效率为 ( 29/
30) × 100% = 96.67% 。 两个样本率均大于总体率 80
%, 故应计算大于等于有效例数的单侧累积概率 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 340 页
情形一,治疗 20例病人的疗效分析
? ( 1) 建立检验假设
? H0, 改进型 A药的疗效与原 A药相同, π= π0 = 0.80
H1,改进型 A药的疗效高于原 A药, π > π0 = 0.80
? 单侧 α = 0.05
? ( 2)计算概率值 根据二项分布有,
02020201191920 )20.0()80.0()20.0()80.0()20()19()19( CCPPXP ?????
= 0.0548+0.0115=0.0663
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 341 页
情形二,治疗 30例病人的疗效分析
( 1)检验假设同情形一。
( 2)计算单侧累积概率有,
( 3) 推断结论 本例 P= 0.0663,在= 0.05水准上,不拒绝 H0。
尚不能认为改进型 A药的疗效优于原 A药。
03030301292930 )20.0()80.0()20.0()80.0()30()29()29( CCPPXP ?????
=0.008975+0.001238=0.0102
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 342 页
( 3) 推断结论 本例 P= 0.0102,在= 0.05水准上,拒绝
H0,接受 H1。可以认为改进型 A药的疗效优于原 A药。
? 注意,治疗 20例病人的有效率为 95%,治疗
30例病人的有效率为 96.67%,两个样本有效
率很接近。但最终得出的结论却不相同。一般
地,临床上观察疗效,样本含量不能太小。随
着观察例数的增加,疗效的稳定性及可靠性也
相应增加,受到偶然因素影响的机会也变得较
小。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 343 页
分析, 本例总体率= 1%。调查人群样本反应率为
( 1/ 300) × 100%= 0.33%。由于样本率小于总
体率,故应计算小于等于阳性人数的累积概率。
? 例 7.3 一般人群对 B药的副作用反应率为 1%。
调查使用 B药者 300人,其中只有 1人出现副作
用。问该调查人群对 B药的副作用反应率是否
低于一般人群。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 344 页
? ( 1) 建立检验假设
? H0:调查人群反应率与一般人群相同, π= π0= 0.01
H1,调查人群反应率低于一般人群, π<π0 = 0.01
? 单侧 α = 0.05
? ( 2) 计算单侧累积概率,
1976.01486.00490.0)99.0()01.0()99.0()01.0()1()0()1( 2 9 9113 0 03 0 0003 0 0 ???????? CCPPXP
( 3) 推断结论 本例 P= 0.1976,在 α = 0.05水准上,
不拒绝 H0。尚不能认为调查人群的 B药副作用反应率低于
一般人群。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 345 页
第二节 Poisson分布及其应用
? 一,Poisson分布的概念及应用条件
? (一 )Poisson分布的概念
? Poisson分布由法国数学家 S.D.Poisson在 1837
年提出。该分布也称为 稀有事件模型,或 空间
散布点子模型。 在生物学及医学领域中,某些
现象或事件出现的机会或概率很小,这种事件
称为稀有事件或罕见事件。稀有事件出现的概
率分布服从 Poisson分布。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 346 页
? Poisson分布的直观描述,如果稀有事件 A在每个单元
(设想为 n次试验)内平均出现 λ次,那么在一个单元
( n次)的试验中,稀有事件 A出现次数 X的概率分布
服从 Poisson分布。
? Poisson分布属于离散型分布 。 在 Poisson分布中, 一个
单元可以定义为是单位时间, 单位面积, 单位体积或
单位容积等 。 如每天 8小时的工作时间, 一个足球场的
面积, 一个立方米的空气体积, 1升或 1毫升的液体体
积,培养细菌的一个平皿, 一瓶矿泉水等都可以认为是
一个单元 。 一个单元的大小往往是根据实际情况或经
验而确定的 。 若干个小单元亦可以合并为一个大单元 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 347 页
(二 )常见 Poisson分布的资料
在实际工作及科研中,判定一个变量是否服从
Poisson分布仍然 主要依靠经验以及以往累积的资料 。
以下是常见的 Poisson分布的资料,
1.产品抽样中极坏品出现的次数;
2.枪打飞机击中的次数;
3.患病率较低的非传染性疾病在人群中的分布;
4.奶中或饮料中的病菌个数;
5.自来水中的细菌个数;
6.空气中的细菌个数及真菌饱子数;
7.自然环境下放射的粒子个数;
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 348 页
8.布朗颗粒数;
9.三胞胎出生次数;
10.正式印刷品中错误符号的个数;
11.通讯中错误符号的个数;
12.人的自然死亡数;
13.环境污染中畸形生物的出现情况;
14.连体婴儿的出现次数;
15.野外单位面积某些昆虫的随机分布;
16.单位容积内细胞的个数;
17.单位空气中的灰尘个数;
18.平皿中培养的细菌菌落数等。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 349 页
二,Poison分布的概率函数及性质
? ㈠ 定义
? 若变量 X的概率函数为
?? ?? e
X
XP
X
!
)(
其中 λ > 0,则称 X服从参数 λ 为的 Poisson分布。
记为 X~ P(λ) 。式中,λ 为总体均数,λ = nπ 或 λ=np ; X
为稀有事件发生次数; e为自然底数,即 e =2.71828 。
? ( X=0,1,2,… )
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 350 页
亦可用下列公式计算
P( 0) = e- λ
X
XPXP
?
)1()( ??
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 351 页
(二 ) 性质
1,所有概率函数值 ( 无穷多个 ) 之和等于 1,即
?
?
?
? ?
0
1
!X
X
e
X
??
2.分布函数
?
?
????
x
X
X
eXxXPXF
0 !
)()( ??( X=0,1,2,… x)
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 352 页
( 0≤ x1< x2)
3.累积概率
?
?
????
2
1
!
)( 21
x
xX
X
e
X
xXxP ??
4.其它性质
总体均数,
方差,
标准差,
?? ?
μ = λ= nπ (或 np)
σ 2= λ
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 353 页
(三) Poisson分布的图形
? 一般地,Poisson分布的图形取决于 λ 值的大
小。 λ 值愈小,分布愈偏; λ 值愈大,分布愈
趋于对称。 当 λ = 20时, 分布接近正态分布 。
此时可按正态分布处理资料。 当 λ = 50时,分
布呈正态分布。 见图 7-3。这里通过计算一个
具体实例来观察 Poisson分布的概率分布趋势。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 354 页
图 7-3 Poisson分布的概率分布图
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 355 页
例 7.4 计算 Poisson分布 X~P(3.5)的概率。
5.3
!
5.3)( ?? e
X
XP
X
0302.071828.2)0( 5.35.3 ???? ??eXP
1057.00302.01 5.3)0(1 5.3)1( ?????? XPXP
1850.01057.02 5.3)1(2 5.3)2( ?????? XPXP
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 356 页
余类推。经计算得到一系列数据,见表 7-2。
2 1 5 8.01 8 5 0.03 5.3)2(3 5.3)3( ?????? XPXP
X 的 出 现 次
数( 1 )
0 1 2 3 4 5 6 7 8 9 ??
X 的 概 率 值
P ( X ) ( 2 )
0.0302 0.1057 0.1850 0.2185 0.1888 0.1322 0.0771 0.0386 0.0169 0.0066 ??
表 7-2 X~ P( 3.5)的 Poisson分布
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 357 页
(四) Poisson分布的可加性
? 从同一个服从 Poisson分布的总体中抽取若干
个样本或观察单元,分别取得样本计数值 X1,
X2,X3,…, Xn,则 ∑Xi 仍然服从 Poisson分布 。
根据此性质,若抽样时的样本计数 X值较小时,
可以多抽取几个观察单元,取得计数 Xi,将其
合并以增大 X计数值。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 358 页
三,Poisson分布与二项分布的比较
? Poisson分布也是以贝努里模型为基础的。实际上,
Poisson分布是二项分布的一种特殊情形,即稀有事例
A出现的概率很小,而试验次数 n很大,也可将试验次
数 n看作是一个单元。此时,n或 np =λ为一个常数,
二项分布就非常近似 Poisson分布。或 p愈小,n愈大,
近似程度愈好。
? 设 λ= 1。 当 n=100,=0.01时, 及 n=1000,=0.001时, 按
照二项分布及 Poisson分布计算概率 P( X) 。 计算结果
见表 7-3。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 359 页
表 7- 3 二项分布与 Poisson分布计算的概率值比较
事件 A 出现次数
X
( 1 )
Poisson 分布
λ = 1
( 2 )
二项分布
( n =1000,
?
=0.001 )
(3)
二项分布
( n =100,
?
=0.01 )
(4)
0 0.3679 0.3677 0.3660
1 0.3679 0.3681 0.3697
2 0.1839 0.1840 0.1849
3 0.0613 0.0613 0.0610
4 0.0153 0.0153 0.0149
5 0.003 1 0.0030 0.0029
6 0.0005 0.0005 0.0005
7 0.0001 0.0001 0.0001
0.0000 0.0000 0.0000 8
合计 1.0000 1.0000 1.0000
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 360 页
余类推。
1.按二项分布计算
已知,n=100,π =0.01,1- π =0.99, 代入公式有,
3 6 6 0.0)99.0()01.0()0( 10000100 ??? CXP
3697.0)99.0()01.0()1( 99111 0 0 ??? CXP
1 8 4 9.0)99.0()01.0()2( 9822100 ??? CXP
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 361 页
2.按 Poisson分布计算 代入公式有,
余类推。
36788.071828.2
!0
1)0( 110 ???? ??eXP
3 6 7 8 8.0)0(
1
1)1( ???? XPXP
1 8 3 9 4.0)1(21)2( ???? XPXP
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 362 页
四,Poisson分布的应用
? Poisson分布有 多种用途 。
主要包括总体均数可信区间的估计,
样本均数与总体均数的比较,
两样本均数的比较等 。
? 应用 Poisson分布处理医学资料时, 一定要注
意所处理资料的特点和性质, 资料是否服从
Poisson分布 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 363 页
(一)总体均数的估计
? 总体均数的估计包括 点估计和区间估计 。
? 点估计 是指由样本获得的稀有事件 A出现的次数 X
值, 作为总体均数的估计值 。 该法的优点是计算简
便, 但缺点是无法得知样本代表总体均数的可信程
度 。
? 区间估计 可以确切获知总体均数落入一个区域
的可信度, 一般可信度取 95% 或 99% 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 364 页
? 估计总体均数可信区间一般分为小样本
法和大样本法 。 小样本一般指样本均数或样本
计数值 X≤ 50的情形, 可直接通过查表法得到
可信区间 。 当样本均数 X> 50时, Poisson分布
近似正态分布, 可按正态分布处理资料 。
? 1.小样本法 当样本均数或样本计数值
X≤ 50时, 可直接查附表 9,,Poisson分布的
可信区间, 表, 得到可信区间 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 365 页
? 例 7.5 在 20ml的当归浸液中含某种颗粒 30
个。试分析该单元浸液中总体颗粒数的 95%和 99
%的可信区间。
分析,将 20ml当归浸液看作一个单元,该单元的样本均
数 X= 30,小于 50。可查附表 9,求出总体均数 λ的可信区
间。
查附表 9(205页 )得,
总体均数 λ95% 的可信区间为 ( 20.2,42.8)
总体均数 λ99% 的可信区间为 ( 17.7,47.2)
?
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 366 页
2.正态近似法 当样本均数或计数 X> 50时,可
按正态分布法处理。
? 总体均数 λ95%的可信区间为
? 总体均数 λ99%的可信区间为
XX 96.1?
XX 58.2?
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 367 页
例 7.6 某防疫站检测某天然水库中的细菌总数。平均每
毫升 288个细菌菌落。求该水体每毫升 95%和 99%的可信
区间。
? 应用公式有,
λ95%的可信区间
28896.1288 ? =( 255.74,320.26)
2 8 858.22 8 8 ?
λ99%的可信区间
=( 244.22,331.78)
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 368 页
(1) 发病人数的 95%可信区间为,
? 例 7.7 调查 1985年某市某区 30万人, 流行性出血热发
病人数为 204人 。 求该市发病人数及发病率 ( 1/ 10万 )
95% 的可信区间 。
? 分析:已知样本均数 X为 204人,观察单元 n= 30万人。
先计算出发病人数的可信区间,再按照发病率的要求
以 10万人作为观察单元,计算发病率可信区间的上下
限值。
20496.1204 ? =( 176,232)
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 369 页
(2) 发病率的 95%可信区间为,
? 上限值,
? 下限值,
万/万=万/万 1067.58101030176 ?
万/万=万/万 1033.77101030232 ?
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 370 页
(二)样本均数与总体均数的比较
? 常用的方法有两种 。
? ① 直接计算概率法:与二项分布的计算思路
基本相同 。 即当 λ < 20时, 按 Poisson分布直
接计算概率值 。
? ② 正态近似法:当 λ≥ 20时, Poisson分布
接近正态分布 。 按正态分布使用 u检验处理资
料 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 371 页
1.直接计算概率法
? 例 7.8 某地区以往胃癌发病率为 1/万 。 现在
调查 10万人, 发现 3例胃癌病人 。 试分析该地
区现在的胃癌发病率是否低于以往的发病率 。
? H0,现在胃癌发病率与以往相同, π = π0
=0.0001
? H1,现在胃癌发病率低于以往, π < π0
? 单侧 α = 0.05
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 372 页
( 2)计算概率值
? 已知,n=100000,=0.0001,= n=100000× 0.0001=10。
?根据题意, 应计算小于等于 3人发病的概率 P( X≤3),
即,P( X≤3) = P(0)+ P(1)+P(2)+P(3)
? 应用公式 ( 7.14) 及 ( 7.15) 有,
51010 1054.471828.2)0( ???? ?????? eeXP ?
45 1054.41054.410)0(
1
10)1( ?? ???????? XPXP
0 0 2 2 7.01054.4310)1(210)2( 4 ??????? ?XPXP
00757.000227.0310)2(310)3( ?????? XPXP
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 373 页
( 3)推断结论 本例 P= 0.0103,小于 P= 0.05。
在 α = 0.05水准上拒绝 H0,接受 H1。可以认为
现在该地区胃癌发病率低于以往发病率。
0103.0)00757.0()00227.0()1054.4()1054.4()3( 45 ???????? ??XP
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 374 页
2.正态近似法 当 λ≥20 时,用 u检验法。
例 7.9 根据医院消毒卫生标准, 细菌总数按每立方米菌
落形成单位 ( CFU/ m3) 表示 。 无菌间的卫生标准为
细菌菌落数应不大于 200( CFU/ m3) 。 某医院引进
三氧消毒机, 每天自动对无菌间进行 2小时消毒 。 对无
菌间抽样调查显示, 细菌总数为 121CFU/ m3。 试问
该医院无菌间的细菌总数低于国家卫生标准 。
0
0
?
??
?
X
u
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 375 页
? (1) 建立检验假设
H0,无菌间的细菌总数符合国家卫生标准, λ=λ0=200
H1,无菌间的细菌总数低于国家卫生标准, λ<λ0
单侧 α= 0.05
?( 2) 计算 u值,
已知,λ0= 200 CFU/ m3,X= 121 CFU/ m3,代入公式
( 7.23) 有,
59.5
200
|200121|
?
?
?u
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 376 页
(3)确定 P值 查附表 2,t界值表(一栏),单侧
u0.0005=3.2905,现 u> u0.0005,故 P<0.0005。
⑷推断结论 因 P<0.0005,拒绝 H0,接受 H1,差异有统计学
意义。可以认为该医院无菌间的细菌总数低于国家卫生标准。
? 例 7.10 某地区以往恶性肿瘤发病率为 126.98
/ 10万人。今调查发现,该地区恶性肿瘤发病
率上升为 148.62/10万人。试分析现在的发病
率是否高于以往的发病率。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 377 页
( 3)确定 P值 本例 u=1.92,大于单侧 u0.05=1.64,则 P< 0.05。
( 4)推断结论 在= 0.05水准上拒绝 H0,接受 H1,差异有统计学意
义。可以认为该地区恶性肿瘤发病率高于以往的发病率。
( 1) 建立检验假设
H0,现在的发病率与以往的发病率相同, λ = λ 0= 126.98
H1,现在的发病率高于以往的发病率, λ > λ 0
单侧= 0.05
( 2) 计算 u值,
92.1
98.1 2 6
98.1 2 662.1 4 8
0
0 ?????
?
?X
u
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 378 页
(三)两样本均数的比较
? 应用条件要求资料服从 Poisson分布,两个样本均数
X1及 X2均大于 20。
? 1,两样本观察单元相同 观察单元可以指单位面积、
容积、体积、时间等。
?注意,Poisson分布中的观察单元具有可加性,如 ∑X1
和 ∑X2。检验公式为,
21
21
21
21
XX
XX
XX
XX
u
???
???
?
?
?
?
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 379 页
例 7.11 空气中负离子状况可以反映空气的新鲜感及
污染状况 。 现调查某风景名胜区不同地点的负离子状
况 。 海拔较高的山上风景点负离子数为 240个/ cm3。
该景区商业区的百货大楼内的负离子数为 146个/ cm3。
试分析该风景区两个不同地点负离子状况有无差异 。
(1) 建立检验假设
H0,两地点负离子状况相同, λ1= λ2
H1,两地点负离子状况不同, λ1≠λ2
双侧= 0.05
( 2) 计算 u值,
61.4
149240
149240
21
21 ?
?
?
?
?
?
?
XX
XX
u
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 380 页
(3)确定 P值 查附表 2,u0.001=3.2905,现
u> u0.001,故 P<0.001。
⑷推断结论 因 P<0.001,拒绝 H0,接受 H1,
差异有统计学意义。
可以认为 该风景区两个不同地点的空气
负离子状况有差异。海拔较高的风景点空
气状况要好于百货大楼。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 381 页
例 7.12 调查某地区人群死亡状况 。 结果显示, 男性及
女性的意外死亡率分别为 62人/ 10万人和 72人/ 10万
人 。 试分析男女意外死亡率有无差异 。
分析,该资料服从 Poisson分布, 每 10万人可以作为一个
观察单元 。
( 1) 建立检验假设
H0:男女意外死亡率相等,
H1:男女意外死亡率不相等,
α= 0.05
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 382 页
(3)确定 P值,推断结论 本例 u=0.86,小于 u0.05=1.96,则 P>
0.05。
在 α = 0.05水准上,不拒绝 H0,无统计学意义。可以认为男
女性意外死亡率无差异。
86.0
7262
7262
?
?
?
?u
( 2)计算 u值,
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 383 页
例 7.13 某医院使用一定方法对住院病房进行消毒, 并检测
某一病房消毒前后的细菌菌落数 ( CFU/ m3) 。 消毒
前后均检测 9次 。 消毒前的菌落数为 18,10,9,15,5,2,6,5,2。
消毒后的菌落数为 5,4,5,6,7,2,3,2,1。 试分
析该病房消毒前后的卫生状况有无差异 。
分析,该资料服从 Poisson分布 。 根据 Poisson分布的可加
性, 将 9次取样的菌落数相加为一个观察单元 。 消毒前
为 ∑X1= 72;消毒后为 ∑X2= 35。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 384 页
( 1) 建立检验假设
H0:消毒前后菌落数相等, λ1= λ2
H1:消毒前后菌落数不等, λ1≠ λ2
α =0.05
( 2) 计算 u值, 应用公式 ( 7.24) 有,
58.3
3572
3572
21
21
?
?
?
?
?
?
?
? ?
? ?
XX
XX
u
( 3)确定 P值,推断结论 本例 u=3.58,大于 u0.05=2.58,则 P< 0.01。
在 α = 0.05水准上拒绝 H0,接受 H1。
可以认为该病房消毒前后的卫生状况不同。消毒后的细菌菌落数减
少,卫生状况得到改善。
?
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 385 页
2,两样本观察单元不同 当两样本观察单元不同时, 不
可直接比较或直接相加后进行比较 。 可以将两样本观
察单元先转化为相等的观察单元后, 再应用公式进行
比较 。
? 一般可计算两样本均数和, 再按下式计算 u值 。
2
2
1
1
21
n
X
n
X
XX
u
?
?
?
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 386 页
例 7.14 某防疫站检验某商场的两种品牌的矿泉水 。 检测
每 ml的细菌总数 ( CFU/ ml) 。 品牌 A抽查 4瓶, 结果
为 132,156,182,143;品牌 B抽查 6瓶, 结果为 313,
298,356,384,348,306。 试分析 A,B两种品牌矿泉
水的细菌总数有无差异 。
分析,本例观察单元不相同, 可以先求出均数 。
25.1 5 34/)1 4 31 8 21 5 61 3 2(1 ?????X
17.3346/)306348384356298313(2 ???????X
品牌 A的均数
品牌 B的均数
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 387 页
( 1)建立检验假设
H0:两种品牌矿泉水菌落数相等,λ 1= λ 2
H1:两种品牌矿泉水菌落数不等,λ 1≠ λ 2
α= 0.05
( 2)计算 u值,应用公式( 7.25)有,
66.18
6
17.3 3 4
4
25.1 5 3
17.3 3 425.1 5 3
?
?
?
?u
( 3)确定 P值,推断结论 本例 u=18.66,大于
u0.01=2.58,则 P< 0.01。可以认为 A,B两种品牌矿
泉水受细菌污染程度不同。其中品牌 B矿泉水的污
染程度较高。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 388 页
(四)多个样本均数的比较
? 当比较的样本为二个以上时,可进行多样本均数或样
本计数值的检验。使用的方法为卡方检验。检验公式
及步骤如下。
? 1.首先计算观察单元的均数估计值 。符号,∧,读
作,hat”。英文为“帽子”之义。 ??
i
i
n
n
u
X
uuu
XXX
?
?
?
???
????
?
?
21
21=?
式中,X1,X2,…, Xn为样本计数值,u1,u2,…, un为观察单
元值。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 389 页
? 2.将样本计数值 Xi(即 X1,X2,…, Xn)转换为 Zi值。
公式为,
?
?
?
?
?
?
?
?
???
?
?iii uXZ 12
?
?
?
?
?
?
?
?
??
?
?iii uXZ 2
?
? ?ii uX
?
? ?ii uX
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 390 页
3.计算值 X2值,
? 自由度 υ =组数 -1 。
22
iZ???
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 391 页
? 例 7.15 某医院对三个病房进行空气采样, 检
测细菌污染状况 。 细菌总数用每立方米菌落形
成单元 ( CFU/ m3) 来表示 。 检测结果如下 。
病房 A为 168 CFU/ m3,病房 B为 131 CFU/ m3,
病房 C为 630 CFU/ 2m3。 试分析三个病房的细
菌污染状况有无差异 。
? 分析,应注意病房 A与 B的观察单元为 1个 m3,
病房 C的观察单元则为 2个 m3,可以看作为 2个
观察单元 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 392 页
? (1) 建立检验假设
? H0,三个病房的细菌总数相同, λ 1= λ 2= λ 3
? H1,三个病房的细菌总数不全相同 。
? 双侧 α = 0.05
? ( 2) 计算均数估计值
? 应用公式 ( 7.27) 有,
25.232
211
630131168
?
??
??
?
?
?
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 393 页
? ( 3) 计算 Zi值
? 已知,X1=168,X2=131,X3=630; u1=1,u2=1,u3=2。
? X1及 X2均小于,
? 应用公式 ( 7.28) 有,
25.23225.2321 ?????iu
? ? 480.425.23211168212 111 ????????
?
?
???
? ??? ??uXZ
? ? 501.725.23211131212 222 ????????
?
?
???
? ??? ??uXZ
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 394 页
? X3= 630,大于
5.46425.23223 ?????u
应用公式( 7.29)有,
? ? 095.725.232263022 333 ??????
?
?
???
? ?? ??uXZ
( 4)计算值 按公式( 7.30)
2?
67.1 2 6)0 9 5.7()5 0 1.7()4 8 0.4( 222
2
3
2
2
2
1
2
??????
??? ZZZ?
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 395 页
( 5) 确定 P值 根据组数即病房数为 3,自
由度= 3- 1= 2,查值表得:= 10.60。
本例 >,则 P< 0.005。
(6)推断结论 在= 0.05水准上拒绝 H0,接受
H1,差异有统计学意义 。 可以认为三个
病房的细菌总数不全相同, 即三个病房
的细菌污染状况不同 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 396 页
(五)应用 Poisson分布的注意事项
? 1.Poisson分布的观察单元具有可加性 。
当样本均数 X或样本计数值< 20时, 可通
过增加或合并观察单元以增大样本均数
或样本计数值 。 当 X> 20时, Poisson分
布近似正态分布, 可按正态分布进行
Poisson分布均数比较的 u检验 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 397 页
2,Poisson分布的观察单元可以由大缩小, 而不可
以由小扩大 。 例如, 实际观察 1个平皿中的细
菌菌落数为 34个, 不能据此将其扩大而认为 10
个平皿的菌落数为 340个 。 如果实际观察了 10
个平皿的菌落数为 340个, 可以将其缩小而认
为 2个平皿有 68个菌落数 。
3,判断一组数据或一个资料是否服从 Poisson分
布, 主要是依靠以往积累的经验或专业知识 。
必要时也可进行拟合优度检验以确定资料分布
类型 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 398 页
第三节 二项分布与 Poisson分布的
拟合优度检验
? 在实际工作中,科研人员经常需要了解取得的
数据的分布特征。了解数据的分布特征一般有
两种方法。一是根据以往积累的经验来判断,
二是由公式进行检验。后者常用的方法为拟合
优度检验( goodness of fit test),也称为配合
适度检验。其目的是检验数据的频数分布与一
个已知分布是否相符合。常用的拟合优度检验
为检验。
? 其基本方法与步骤, 略。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 399 页
Thank You for
Listening
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 400 页
主讲 程 琮
泰山医学院预防医学教研室
zcheng@tsmc.edu.cn
医学统计学
临床医学本科生用
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 401 页
Chinese Teaching Plan
for Medical Students
Medical Statistics
Professor Cheng Cong
Dept,of Preventive Medicine
Taishan Medical College
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 402 页
第 8章秩和检验 目彔
? 第五节 多个样本间两两比较的秩和检验
? 第二节 配对设计资料的秩和检验
? 第三节 两样本比较的秩和检验
? 第四节 完全随机设计多个样本比较的秩
和检验
? 第一节 非参数统计的概念
? 第六节 随机区组设计资料的秩和检验
? 第七节随机区组设计资料的两两比较
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 403 页
教学目的及要求
? 第八章 秩和检验
? 掌握秩和检验的应用条件及其基本概念。
? 掌握秩和检验的基本思想及分析方法。
? 掌握秩和检验编排秩次的基本方法。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 404 页
第一节 非参数统计的概念
? 秩和检验( rank sum test) 属于非参数统计
( nonparametric statistics)。它的假设检验是推
断总体分布是否相同,而不是推断总体参数是否相等,
故称为 非参数检验( nonparametric test) 。非参数
检验有时也称为 任意分布检验( free istribution) 。
? 参数统计:如 t检验,F检验统计推断的是两个或多个
总体均数(总体参数)是否相等,这类统计方法称为
参数统计( parametric statistics)。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 405 页
非参数检验适用于以下类型的资料,
? 1.等级资料 ( 有序分类资料 ) 。 如疗效按治愈, 显效, 有效, 无
效分组的资料;临床化验结果按, -, ±, +, ++,+++,++++”
分组的资料等 。
? 2.偏态分布资料 。 当观察值呈偏态或极度偏态分布, 而又未经变
量变换或虽经变换但仍未达到正态或近似正态分布 。
? 3.分布不明的资料 。 如新指标分布形态不明;小样本, 但不趋向
正态分布资料 。
? 4.各组方差明显不齐, 且不易变换达到齐性 。
? 5.组内个别观察值偏离过大的资料 。 这里指随机的偏离, 而不是
,过失误差, 。
? 6.开口分组资料 。 数据分组某一端或两端无明确数值的资料, 只
给出一个下限或上限, 而没有具体数值, 如 <0.01μg, ≥ 60岁
等 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 406 页
非参数检验的特点
? 非参数检验 特点,
? 1。 主要优点是不受总体分布的限制, 适用范围广 。
? 2。 但对适宜用参数统计检验的资料, 若用非参数检验处
理, 常损失部分信息, 降低统计检验效率, 即犯第二类
错误的概率 β比参数检验大 。
? 3。 对于适合参数统计检验条件的资料或经变量变换后适
合于参数统计检验, 应最好用参数检验 。 当资料不具备
用参数检验的条件时, 非参数检验是很有效的分析方法 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 407 页
第二节 配对设计资料的秩和检验
( Wilcoxon配对法)
? 例 8.1 12名宇航员航行前及返航后 24小时的心率(次 /
分)变化如表 8-1。问航行对心率有无影响?
? (1)建立检验假设
? H0:宇航对心率无影响,即差值的总体中位数 Md=0
? H1:宇航对心率有影响,即 Md≠0
? α =0.05
? (2)求差值 计算每对观察值的差值 d,见表 8-1第( 4)
栏。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 408 页
表 8-1 宇航员航行前后的心率比较
编号 航前 航后 差值 秩次
( 1) ( 2) ( 3) ( 4) ( 5)
1 76 93 - 17 9
2 71 68 3 1
3 70 65 5 4
4 61 65 - 4 3
5 80 93 - 13 8
… … … … …
12 63 60 3 2
T+ = 7,T- = 71
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 409 页
? (3)编秩次 是关键。 按差值的绝对值从小到大编秩次,
即 1,2,3,…, n,并按差值的正负标上正负号,如表
8-1第( 5)栏。编秩次时应注意:①遇差值为 0时,弃
去不计,对子数 n也随之减少;②遇有差值相等,符号
相同时,按顺序编秩次并标上相应的正负号,如本例差
值有两个 3,两个 -6,按顺序编为 1,2,-5,-6即可;③
遇有差值相同,但符号不同时,要取平均秩次并分别标
上相应的正负号。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 410 页
? (4)求秩和并确定检验统计量 T值 分别求出正负秩次之
和,正秩和以 T+表示, 负秩和的绝对值以 T- 表示 。 T+
及 T- 之和等于 n(n+1)/2,即 1+2+3+…+ n之和。此式可
验算 T+和 T- 计算是否正确。
? 本例 T+=7,T- =71,其和为 78,而 12(12+1)/2=78,可见
T+,T- 计算无误。
? 任取 T+(或 T- )作检验统计量 T,本例取 T=7。
? (5)确定 P值和作出推断结论 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 411 页
2)正态近似法 当 n> 50超出了附表 10,T界值表的范围,
可按公式( 8.1)计算 u值。
? 因为当 n逐渐增大时,
T值的分布将逐渐逼近
于均数为 n (n+4) /4,
标准差为的正态分布,
故可按正态分布进行 u
检验并作出结论。
? 有相同差数 个数较多
时,用校正公式,
24121
5041
/)n)(n(n
./)n(nT
u
??
???
?
48
)(
24
)12)(1(
5.04/)1(
3? ?
?
??
???
?
jj ttnnn
nnT
u
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 412 页
第三节 两样本比较的秩和检验
(两个独立样本比较的秩和检验)
? 1。两样本比较的秩和检验( Wilcoxon两样本比较法)
适用于完全随机设计两组定量资料和等级资料的比较。
? 2。 例 8.2 测得铅作业与非铅作业工人的血铅值
( mol/L)如表 8-2第( 1)、( 2)栏,问两组工人的
血铅值有无差别?
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 413 页
表 8-2 两组工人血铅值的秩和检验
非铅作业组 秩次 铅作业组 秩次
(1) (2) (3) (4)
0.24 1 0.82 9
0.24 2 0.86 10.5
0.29 3 0.96 12
0.34 4 1.20 14
0.43 5 1.63 15
0.58 6 2.06 16
0.62 7 2.11 17
… …
n2=10 T1=59.5 n1=7 T1=93.5
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 414 页
检验步骤( 1)
? ( 1) 建立检验假设
? H0:两组工人血铅值的总体分布位置相同
? H1:铅作业工人血铅值高于非铅作业工人
? 单侧 α =0.05
? ( 2) 编秩 将两组原始数据由小到大统一编秩,编秩时如遇同组
相同数据按顺序编秩,如本例非铅作业组有 2个 0.24,分别编秩次
1,2即可;如遇不同组相同数据取原秩次的平均秩次,如两组各
有一个 0.86,原秩次为 10和 11,各取平均秩次( 10+11) /2=10.5。
? ( 3) 求秩和并确定检验统计量 T值 以 n1和 n2分别代表两样本含
量,以样本含量小者为 n1,其秩和 T1为统计量 T;若 n1= n2,可取任
一组的秩和为 T。本例 n1=7,n2=10,检验统计量 T=93.5。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 415 页
? ( 4)确定 P值和作出推断结论
? 1) 查表法 当 n1≤10,n2- n1≤10时,查附表 11,T界值表。查表时,
若统计量 T值在某一行的上、下 T界值范围内,其 P值大于表上方
相应的概率水平,差异无统计学意义;若 T值恰等于上、下界值
或在界值的范围以外,则 P值等于或小于相应的概率水平,差异
有统计学意义。
? 本例 T= 93.5,以 n1=7,n2- n1= 3,查附表 11,T界值表,单侧
T0.005( 7,3) 为 37~ 89,现 T值在此范围以外,故 P<0.005。按单侧 α
=0.05,拒绝 H0,接受 H1,差异有统计学意义。故可认为铅作业
工人的血铅值高于非铅作业工人。
检验步骤( 2)
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 416 页
公式法:当 n1或 n2- n1超出附表 11的范围,可按
公式( 8.4)求统计量 u值。
? 当相同的秩次较
多时(超过
25%),应对 u值
进行校正,u值经
校正后略大,P值
相应减少。
121
5021
21
1
/)N(nn
./)N(nT
u
?
???
?
C/uu c ?
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 417 页
表 8-3 某药对支气管炎两种病情疗效的秩和检验
疗效 单纯性 单纯性合 合 计 秩次范围 平均秩次 秩 和
并肺气肿 单纯性 合并肺气肿
( 1 ) ( 2 ) ( 3 ) ( 4 ) = ( 2 ) + ( 3 ) ( 5 ) ( 6 ) ( 7 ) = ( 2 )( 6 ) ( 8 ) = ( 3 )( 6 )
控制 6 5 4 2 1 0 7 1 ~ 1 0 7 5 4 3 5 1 0 2 2 6 8
显效 1 8 6 2 4 1 0 8 ~ 1 3 1 1 1 9, 5 2 1 5 1 7 1 7
有效 3 0 2 3 5 3 1 3 2 ~ 1 8 4 1 5 8 4 7 4 0 3 6 3 4
无效 1 3 1 1 2 4 1 8 5 ~ 2 0 8 1 9 6, 5 2 5 5 4, 5 2 1 6 1, 5
合计 n
2
= 1 2 6 n
1
= 8 2 2 0 8 — — T
2
= 1 2 9 5 5, 5 T
1
= 8 7 8 0, 5
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 418 页
例 8.3 用某药治疗不同病情的老年慢性支气管炎病人,疗效见表 8-
3第( 2)、( 3)栏,问该药对两种病情的疗效有无差别?
疗效 单纯性 合并性 合计 秩次范围 平均秩次 单纯性 秩和 合并性 秩和
( 1) ( 2) ( 3) ( 4) ( 5) ( 6) ( 7) ( 8)
控制 65 42 107 1~ 107 54 3510 2268
显效 18 6 24 108~ 131 119.5 2151 717
有效 30 23 53 132~ 184 158 4740 3634
无效 13 11 24 185~ 208 196.5 2554.5 2161.5
合计 n2=126 n1=82 208 T2=12955.5 T1=8780.5
表 8-3 某药对支气管炎两种病情疗效的秩和检验
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 419 页
检验步骤( 1)
? ( 1)建立检验假设
? H0:两种病情病人的疗效总体分布位置相同
? H1:两种病情病人的疗效总体分布位置不同
? α =0.05
? ( 2)编秩 本例为等级资料,先计算各等级的合计人数,见第
( 4)栏,再确定秩次范围。如疗效控制者 107例,其秩次范围
1~ 107,平均秩次为( 1+107) /2=54,依此得第( 6)栏。
? ( 3)求两组的秩和 将第( 6)栏分别乘以第( 2)、( 3)栏,
相加即得两组各自的秩和,见第 (7),(8)栏合计。用公式( 8.3)
检查,T1+ T2=8780.5+12955.5=21736,
? n (n+1)/2=208× 209/2=21736,说明计算无误。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 420 页
? 4)计算 u值 由于 n1=82,超出了附表 11的范围,故需用 u检验。本
例 n1=82,T=8780.5,N=208,代入公式( 8.4)。相同秩次过多 时,
则用校正公式。
检验步骤( 2)
12120812682
50212088258780
/)(
./)(.
u
??
???
?
208208
24245353242410710711
3
3333
3
3
?
?????????
?
??? ? )()()()(
NN
)tt(C jj
544084420500,./.u c ??
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 421 页
? 5)确定 P值和得出推断结论 查附表 2,t界值表( υ=∞
一行),u0.50=0.6745,现 uc< u0.50,故 P>0.50。按 =0.05的
检验水准,接受 H0,差异无统计学意义。尚不能认为该
药对两种病情的疗效有差别。
? 两组疗效评价,表 8-3可见,按照从控制到无效顺序排列,
疗效等级愈好,平均秩次愈小;疗效等级愈差,平均秩
次愈大,所以平均秩和小的组疗效优于平均秩和大的组。
反之,如果按照从无效到控制顺序排列,疗效等级愈差,
平均秩次愈小;疗效等级愈好,平均秩次愈大,这时平
均秩和大的组疗效优于平均秩和小的组。
检验步骤( 3)
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 422 页
第四节 完全随机设计
多个样本比较的秩和检验
? 1。此方法也称为 Kruskal-Wallis法,即 H检验。
? 2。主要适用于非正态分布,而不宜用方差分析检验的
定量资料以及多组等级资料的比较。
? 例 8.4 某医生分别测定了 10名正常人、单纯性肥胖和
皮质醇增多症患者血浆中总皮质醇的含量见表 8-4。问
三组人的血浆总皮质醇含量有无差别?
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 423 页
检验步骤( 1)
? ( 1) 建立检验假设
? H0:三组人的血浆总皮质醇的总体分布位置相同
? H1:三个总体分布位置不同或不全相同
? υ =0.05
? ( 2) 编秩 每组内数值由小到大依次排队,三组统一
编秩。数值相同而不同组的均编为平均秩次,如正常
人组和单纯肥胖组各有一个 3.1,均取原秩次 10及 11的
平均秩值次 10.5;在同一组内的相同数值直接编相应
秩次即可。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 424 页
表 8-4 三组人的血浆总皮质醇测定值( g/L)
正常人 单纯性肥胖 皮质醇增多症
测定值 秩 次 测定值 秩 次 测定值 秩 次
0, 4 1 0, 6 2 9, 8 2 0
1, 9 4 1, 2 3 1 0, 2 2 1
2, 2 6 2, 0 5 1 0, 6 2 2
2, 5 8 2, 4 7 1 3, 0 2 3
2, 8 9 3, 1 1 0, 5 1 4, 0 2 5
3, 1 1 0, 5 4, 1 1 4 1 4, 8 2 6
3, 7 1 2 5, 0 1 6 1 5, 6 2 7
3, 9 1 3 5, 9 1 7 1 5, 6 2 8
4, 6 1 5 7, 4 1 9 2 1, 6 2 9
7, 0 1 8 1 3, 6 2 4 2 4, 0 3 0
i
R — 9 6, 5 — 1 1 7, 5 — 2 5 1
n
i
— 1 0 — 1 0 — 10
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 425 页
? 表 8-4 三组人的血浆总皮质醇测定值( g/L)
检验步骤( 2)
正常人 单纯性肥胖 皮质醇增多症
测定值 秩 次 测定值 秩 次 测定值 秩 次
0.4 1 0.6 2 9.8 20
1.9 4 1.2 3 10.2 21
2.2 6 2.0 5 10.6 22
2.5 8 2.4 7 13.0 23
2.8 9 3.1 10.5 14.0 25
… … … … … …
Ri 96.5 117.5 251
ni 10 10 10
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 426 页
? ( 3)求秩和并计算统计量 H值 将各组的秩次相加即得各组的秩
和( i为组别),并按公式( 8.6)计算统计量 H值。
检验步骤( 3)
)N(nR)N(NH
i
i 13
1
12 2 ??
?? ?
12.18)130(310 2515.1175.96)130(30 12
222
?????
?
?
???
? ??
??H
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 427 页
? ( 4)确定 P值和作出推断结论 ①若组数 k= 3,每组
例数 ni≤5 时,可查附表 12,H界值表。若 H<Hα,则
P>α ;反之,H≥ Hα, P≤ α 。②若组数 k> 3,
或每组例数 ni > 5时,H分布近似服从 X2分布,可查附
表 8,X2界值表,得 P值。
? 本例 ni均为 10,υ =3 - 1=2,查 X2界值表,
? X2 0.05,2=5.99,现 H=18.12> X2 0.05,2=5.99,故 P<
0.05。按 υ =0.05 的水准,拒绝 H0,接受 H1,差异有
统计学意义。三组人的血浆总皮质醇含量有差别。
检验步骤( 4)
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 428 页
? 当各样本的相同秩次较多时(如超过 25%),求校正 Hc
值,
?
?
?
?
?
?
?
?
?
??
?
??
NN
tt
H
C
H
H
jj
c
3
2
)(
1
检验步骤( 5)
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 429 页
? 例 8.5 五种病人阴道涂片按巴氏细胞学分级的检查结
果,见表 8-5第( 1)~( 6)栏,问五种病人的细胞学
分级有无程度上的差别?
? ( 1)建立检验假设
? H0:五种病人细胞学分级的总体分布位置相同
? H1:五个总体的位置不同或不全相同,
? α =0.05
? ( 2)编秩 先计算各等级的合计,见表 8-5第( 7)栏。
再确定秩次范围和计算平均秩次,见第( 8)、( 9)
栏。
例 8.5 检验步骤( 1)
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 430 页
表 8-5 五种病人阴道涂片的细胞学分级比较
巴氏 慢性炎症 不典型增生 原位癌 浸润癌 合计 秩次范围 平均秩次
分级 伴有化生 轻度 重度
( 1 ) ( 2 ) ( 3 ) ( 4 ) ( 5 ) ( 6 ) ( 7 ) ( 8 ) ( 9 )
Ⅰ 2 1 1 9 0 0 0 4 0 1 ~ 4 0 2 0, 5
Ⅱ 4 4 4 1 3 0 5 2 4 1 ~ 9 2 6 6, 5
Ⅲ 0 0 6 1 1 3 1 4 8 9 3 ~ 1 4 0 1 1 6, 5
Ⅳ 0 2 3 1 5 4 2 6 2 1 4 1 ~ 2 0 2 1 7 1, 5
Ⅴ 0 0 0 2 1 7 7 9 8 2 0 3 ~ 3 0 0 2 5 1, 5
i
n 2 5 2 5 5 0 5 0 1 5 0 3 0 0
i
R 6 9 6, 5 9 9 8, 5 3 9 4 0 9 3 3 5 30180
iR
2 7, 9 3 9, 4 7 8, 8 1 8 7, 6 2 0 1, 2
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 431 页
? 表 8-5 五种病人阴道涂片的细胞学分级比较
巴氏分
级
慢性炎
症
轻度增
生
重度增
生 原位癌 浸润癌
合
计 秩次范围
平均秩
次
( 1) ( 2) ( 3) ( 4) ( 5) ( 6) ( 7) ( 8) ( 9)
Ⅰ 21 19 0 0 0 40 1-40 20.5
Ⅱ 4 4 41 3 0 52 41-92 66.5
Ⅲ 0 0 6 11 31 48 93-140 116.5
Ⅳ 0 2 3 15 42 62 141-202 171.5
Ⅴ 0 0 0 21 77 98 203-300 251.5
ni 25 25 50 50 150 300
Ri 696.5 998.5 3940 9335 30180
平均 Ri 27.9 39.4 78.8 187.6 201.2
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 432 页
( 3)求秩和 如( 2)栏的秩和 T1是用( 2)栏各等级的频数与( 9)
栏平均秩次相乘再求和,即 R1=21× 20.5+ 4× 66.5=696.5,余仿此
得各 Ri值。
例 8.5 检验步骤( 2)
?????
?
?
???
? ????
?? )(
..
)(H 13003150
30180
50
9335
50
3940
25
5998
25
5696
1300300
12 22222
9 4 4 60300300 989862624848525240401 3 33333,)()()()()(C ?? ???????????
53195944607184,./.C/HH c ???
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 433 页
5) 确定 P值和作出推断结论 本例对比组数 k=5,
按 υ= k- 1= 5- 1= 4,查界值表,
X2 0.05,4=9.49,现 X2 =195.53> X2 0.05,4 =9.49,故
P<0.05。按 α=0.05 的水准,拒绝 H0,接受 H1,差
异有统计学意义。故可认为五种病人的细胞学分
级有程度上的差别。
例 8.5 检验步骤( 3)
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 434 页
第五节 多个样本间
两两比较的秩和检验
? 一、各组样本含量相等时的两两比较
? 各组样本含量相等时的两两比较秩和检验( Nemenyi-
Wilcoxon-Wilcox秩和检验)
BA RR
BA
s
RR
q
?
?
?
12
1 )na)(na(n
s
BA RR
?
??
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 435 页
? 例 8.6 例 8.4资料表结论为三组人的血浆总皮质醇含
量有差别。试进一步比较每两组间的差别。
? ( 1)建立检验假设
? H0:对比的两组血浆总皮质醇含量的总体分布位置相同
? H1:对比的两总体分布位置不同
? α=0.05
? ( 2)计算 q 值
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 436 页
? ( 1)先按各组秩和的大小从大到小排队,并编上组次,
见表 8-6。
秩和的组次( i ) 1 2 3
秩 和(
i
R ) 2 5 1 1 1 7, 5 9 6, 5
组 别 皮质醇增多症 单纯性肥胖 正常人
表 8-6 三组人的秩和按大小排列
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 437 页
对比组 两秩和之差 组 数 差值的标准误 q 值 q 界值 P 值
A 与 B
BA
RR ? a
BA
RR
s
?
q 0, 0 5 q 0, 0 1
( 1 ) ( 2 ) ( 3 ) ( 4 ) ( 5 ) = ( 2 ) / ( 4 ) ( 6 ) ( 7 ) ( 8 )
1 与 3 1 5 4, 5 3 2 7, 8 4 5, 5 5 3, 3 1 4, 1 2 < 0, 0 1
1 与 2 1 3 3, 5 2 1 8, 7 1 7, 1 4 2, 7 7 3, 6 4 < 0, 0 1
2 与 3 2 1, 0 2 1 8, 7 1 1, 1 2 2, 7 7 3, 6 4 > 0, 0 5
表 8-7 表 8-5资料两两比较的计算表( q检验)
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 438 页
? ( 2)列出两两比较的计算表(表 8-7)。
? 表中第( 1)栏为各比较组;
? 第( 2)栏为各比较组秩和之差;
? 第( 3)栏 a为从第 A组到第 B组范围内所包含的组数,
如比较 1与 3范围内包括 3组,故 a=3,余类推。
8427
12
131031010
31
.
))((
s RR ?
???
??
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 439 页
? ( 3)确定 P值 根据,和各比较组的 a值,查附表 5,q
界值表,得各比较组的 P值,见表 8-6第( 8)栏。
? ( 4)作出推断结论 按 α =0.05 的水准,2组与 3组间
不拒绝 H0,1组与 3组间,1组与 2组间拒绝 H0,接受 H1。
可认为皮质醇增多症病人的血浆总皮质醇水平高于正
常人及单纯肥胖者,而后两者无差别。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 440 页
? 二、各样本含量不等时的两两比较
BA RR
BA
s
RR
t
?
?
?
??
?
?
??
?
?
?
?
???
?
?
BA
RR nn)kN(
)HN)(N(N
s
BA
11
12
11
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 441 页
? 表 8-8 表 8-5资料两两比较的计算表( t 检验)
对比组 样本含量 两平均秩和之差 差值的标准误
A 与 B n
A
n
B
| BA RR ? |
BA RR
s
?
t 值 P 值
( 1 ) ( 2 ) ( 3 ) ( 4 ) ( 5 ) ( 6 ) = ( 4 ) / ( 5 ) ( 7 )
1 与 2 2 5 2 5 1 1, 5 1 4, 5 3 0, 7 9 > 0, 4 0
1 与 3 2 5 5 0 5 0, 9 1 2, 5 8 4, 0 5 < 0, 0 0 1
1 与 4 2 5 5 0 1 5 9, 7 1 2, 5 8 1 2, 69 < 0, 0 0 1
1 与 5 2 5 1 5 0 1 7 3, 3 1 1, 1 0 1 5, 6 1 < 0, 0 0 1
2 与 3 2 5 5 0 3 9, 4 1 2, 5 8 3, 1 3 < 0, 0 0 2
2 与 4 2 5 5 0 1 4 8, 2 1 2, 5 8 1 1, 78 < 0, 0 0 1
2 与 5 2 5 1 5 0 1 6 1, 8 1 1, 1 0 1 4, 5 8 < 0, 0 0 1
3 与 4 5 0 5 0 1 0 8, 8 1 0, 2 7 1 0, 5 9 < 0, 0 0 1
3 与 5 5 0 1 5 0 1 2 2, 4 8, 3 9 1 4, 5 9 < 0, 0 0 1
4 与 5 5 0 1 5 0 1 3, 6 8, 3 9 1, 6 2 > 0, 1 0
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 442 页
? 4)推断结论 按水准,1组与 2组间,4组与 5组间接受 H0;
其余组间均拒绝 H0,接受 H1。可认为慢性炎症伴有化生者
与轻度不典型增生者、原位癌与侵润癌患者之间巴氏细
胞学分级无差别;其余组间均有差别。
790
25
1
25
1
530012
5319513001300300
21
.
)(
).)((
s
RR
??
?
?
?
?
? ?
?
???
?
?
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 443 页
第六节 随机区组设计
资料的秩和检验
? 前面已介绍了用方差分析方法来处理随机区组设计
(配伍组设计)资料,当资料不能满足方差分析的要
求时,则可用秩和检验来处理。
? 例 8.8 某监测站为研究长江某段水中的生化需氧量,
同时在 6个采样点和 4个不同的时间进行采样测定,结
果见表 8-9。问不同月份以及不同采样点间水中生化需
氧量有无差别?
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 444 页
? 表 8-9 长江某段不同月份间生化需氧量 (mg/L)比较的秩和检验
采样点 一月 二月 七月 八月
测定值 秩次 测定值 秩次 测定值 秩次 测定值 秩次
1 1, 3 9 4 0, 7 6 3 0, 4 0 2 0, 3 5 1
2 1, 3 4 4 0, 8 3 3 0, 3 0 1, 5 0, 3 0 1, 5
3 1, 8 4 4 0, 7 7 3 0, 3 6 1 0, 5 0 2
4 1, 1 6 4 0, 3 1 2 0, 7 0 3 0, 1 0 1
5 1, 7 2 4 0, 8 5 3 0, 1 6 1 0, 8 0 2
6 1, 6 5 4 1, 6 0 3 0, 6 0 1 1, 5 5 2
月份秩和
i
R — 2 4 — 1 7 — 9, 5 — 9, 5
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 445 页
? ( 2) 编秩 每一区组 ( 同一采样点 ) 数据由小到大编
秩 。 编秩时, 若有相同数据则取平均秩次, 若第 2行有
2个 0.3,均取原秩次 1和 2的平均秩次 1.5。
? ( 3) 求统计量 M值
? 1) 分别求四个处理组 ( 月份 ) 的秩和 Ri 将各月份秩
次相加即得, 见表 8-9下部 。
? 2) 求平均秩和 本例 =(24+17+9.5+9.5)/4=15;或
根据公式 ( 8.12) 计算 。
iR
)k(bR 1
2
1
??
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 446 页
? 3)计算 M值 按公式( 8.13)计算 M值。
? ?? ?? 2ii RRM
本例 M=(24- 15)2+ (17- 15)2+ (9.5- 15)2
+ (9.5- 15)2 = 145.5
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 447 页
? 如果处理组数 k或区组数 b超过了附表 13的范围,则按
公式( 8.14)或公式( 8.15)求值。
? 2.采样点间比较的秩和检验 ( 略 ) 。
?
)k(bk
M
r
1
122
?
??
)k(bk
M
r
1
122
?
??
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 448 页
第七节 随机区组设计资料的两两比较
? 当随机区组资料多个样本比较的秩和检验认为各总体
的位置不同时, 可进一步作两两比较的秩和检验 。 其
方法和步骤与第五节完全随机设计各样本含量相等时
的两两比较相同, 作 q检验, 只是将公式 ( 8.9) 差值
的标准误换为公式 ( 8.16) 即可 。
12
)1( ?
??
kbk
s
BA RR
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 449 页
? 表 8-12 月份间生化需氧量的两两比较
比较组 两秩和之差 组数
163
2
.
)(
q ? q 界值 P 值
A 与 B
BA
RR ? a q
0, 0 5 q 0, 0 1
( 1 ) ( 2 ) ( 3 ) ( 4 ) ( 5 ) ( 6 ) ( 7 )
1 与 4 1 4, 5 4 4, 5 9 3, 6 3 4, 4 0 < 0, 0 1
1 与 3 1 4, 5 3 4, 5 9 3, 3 1 4, 1 2 < 0, 0 1
1 与 2 7, 0 2 2, 2 2 2, 7 7 3, 6 4 > 0, 0 5
2 与 4 7, 5 3 2, 3 7 3, 3 1 4, 1 2 > 0, 0 5
2 与 3 7, 5 2 2, 3 7 2, 7 7 3, 6 4 > 0, 0 5
3 与 4 0 2 0 2, 7 7 3, 6 4 —
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 450 页
? ( 5) 确定 P值和作出推断结论 根据, 和各
比较组的 a值, 查附表 5,q界值表, 得 P值,
见表 8-10第 ( 5) 栏 。 按水准, 可认为一月
与七, 八月间生化需氧量有差别, 其余月份
间尚无差别 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 451 页
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 452 页
THANK YOU
FOR LISTENING
THE END
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 453 页
医学本科生用
医学统计学
泰山医学院 预防医学教研室
zcheng@tsmc.edu.cn
主讲 程 琮
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 454 页
Teaching Plan
for Medical Students
? Medical Statistics
Professor Cheng Cong
Dept,of Preventive Medicine
Taishan Medical College
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 455 页
第 9章直线相关与回归 目彔
? 第五节 曲线直线化
? 第二节 直线回归
? 第三节 进行直线相关与回归应
注意的问题
? 第四节 等级相关
? 第一节 直线相关
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 456 页
? 第九章 直线相关与回归
? 掌握直线相关与回归的概念、意义及应用条件;
? 掌握直线相关与回归各指标的意义、应用及计算方法;
? 熟悉直线相关与回归的联系及区别;
? 了解曲线回归的概念、意义及类型。
教学目的及要求
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 457 页
第九章 直线相关与回归
第一节 直线相关
1。当两事物或现象在数量上的协同变化呈直线趋势时则称
为直线相关( linear correlation),又称简单相关
( simple correlation),用于分析双变量正态分布资料。
表示两变量相关关系的重要指标就是相关系数。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 458 页
一、相关系数的意义
? 相关系数 (correlation coefficient)又称为积差相关系数,
用符号 r表示。它描述两变量间相关关系的密切程度和相关
方向。其数值 1≥ r≥ - 1,当 r为正值时,表示一变量随另一
变量的增加而增加称为 正相关 ;当 r为负值时,表示一变量
随另一变量的增加而减少,称为 负相关 。当 │ r│ 愈接近 1,
表示两变量的相关愈密切;当 │ r│ 愈接近 0时,表示两变量
相关程度愈低;当 │ r│ = 0时,称为 零相关,表示两变量无
直线相关关系,见示意图 9-1。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 459 页
? 一般认为,当样本含量较大的情况下( n>100),大致可
按下列标准估计两变量相关的程度
│ r│≥0.7 高度相关
0.7>│ r│≥0.4 中度相关
0.4>│ r│≥0.2 低度相关
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 460 页
图 9-1 相关系数示意
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 461 页
? 二、相关系数的计算
? 相关系数 r的计算公式,
第一节 直线相关
YYXX
XY
ll
l
YYXX
YYXXr ?
????
????
22 )()(
))((
? 式中 lXX与 lYY分别为变量 X与 Y的离均差平方和,lXY为两
变量 X, Y的离均差积和。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 462 页
? 计算公式为,
n
X
Xl XX
2
2 )( ????
n
YYl
YY
2
2 )( ????
n
YX
XYl XY
))(( ??
???
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 463 页
? 例 9.1 某研究者测量 10名 20岁男青年身高与前臂长 。 见表
9-1。 问身高与前臂长有无直线相关关系?
? 计算步骤,
? ( 1) 由原始数据绘制散点图 9-2,本资料呈直线相关趋势 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 464 页
表 9-1 身高与前臂长数据与计算表
身高 ( c m )
X
前臂长 ( c m )
Y
X
2
Y
2
XY
( 1 ) ( 2 ) ( 3 ) ( 4 ) ( 5 )
170 45 28900 2025 7650
173 42 29929 1764 7266
160 44 25600 1936 7040
155 41 24025 1681 6355
173 47 29929 2209 8131
188 50 35344 2500 9400
178 47 31684 2209 8366
183 46 33489 2 1 1 6 8418
180 49 3240 0 2401 8820
165 43 27225 1849 7095
1725
∑ X
454
∑ Y
298525
∑ X
2
20690
∑ Y
2
78541
∑ XY
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 465 页
? ( 2) 根据表 9-1原始数据计算出 ∑ X,∑ Y,∑ X2,∑ Y2,
∑ XY 。
? 本例 ∑ X= 1725,∑ Y= 454,
? ∑ X2= 298525,∑ Y2= 20690,∑ XY= 78541。
? ( 3) 计算 X,Y的离均差平方和与离均差积和
5.962101725298525)(
22
2 ???????
n
XXl
XX
4.78
10
4542 0 6 9 0)( 222 ???????
n
YYl
YY
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 466 页
? ( 4) 求相关系数 r
226
10
454172578541))(( ?????????
n
YXXYl
XY
8227.0
4.785.962
226
???
YYXX
XY
ll
l
r
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 467 页
? 三、相关系数的检验假设
? 检验 r是否来自总体相关系数 ρ 为零的总体。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 468 页
? 1。 t 检验法 t检验的计算公式
rr S
r
S
r
t
|||0|
?
?
?
2
1
2
?
?
?
n
r
S
r
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 469 页
? 例 9.2 对例 9.1资料所得 r值, 检验 20岁男青年身高与前
臂长是否有直线相关关系 。
? ( 1) 建立检验假设
Ho,ρ = 0,两变量间无直线相关关系
H1,ρ≠ 0,两变量间有直线相关关系
? α = 0.05
? ( 2) 计算 t值 本例 n=10,r=0.8227, 按公式 ( 9.5)
和公式 ( 9.6) 计算 t值
09.4
210
8 2 2 7.01
8 2 2 7.0
2
1 22
?
?
?
?
?
?
?
n
r
r
t
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 470 页
? ( 3) 确定 P值, 作出推断结论 按 υ = n-2=8查 t界值
表, 得 0.002<P<0.005,按 α = 0.05水准, 拒绝 Ho,接
受 H1,故可认为 20岁男青年身高与前臂长呈正直线相关关
系 。
? 2.查表法 查附表 14,r界值表列出了相关系数 r与 0差别
显著性的判断界值, 按自由度= n-2查 r界值表, 当
r≥r α,n -2时, 则 P≤α ;反之, r< rα,n -2 时, 则 P> α 。
本例 r= 0.8227,大于 r0.05(8)= 0.738, 故 P<0.05。 r值有
意义 。 检验结果与 t检验相同 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 471 页
第二节 直线回归
? 一,直线回归的概念
? 1。回归:反映两变量数量依存的关系,即指由一个变量推
算另一个变量的数量关系。直线回归是回归分析中最基本
最简单的一种,故又称 简单回归( simple regression)。
? 2。反映回归关系的方程称为直线回归方程。
bXaY ???
式中 为应变量 Y的估计值,a 为回归直线 Y轴上的
截距,b 为回归系数即回归方程的斜率。
Y?
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 472 页
? 二,直线回归方程的求法
? 求直线回归方程,关键在于计算 a,b两个系数,根据数学
上的最小二乘法原理即保证各实测点至回归直线的纵向距
离的平方和最小。
XX
XY
l
l
XX
YYXX
b ?
??
???
?
2)(
))((
XbYa ??
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 473 页
? 例 9.3 利用例 9.1资料已知 20岁男青年身高与前臂长之间
存在直线相关关系, 现求身高与前臂长的直线回归方程 。
? 计算步骤,
? ( 1) 列回归系数计算表同表 9-1,求出 ΣX, ΣY,
ΣXY, X2, ΣY 2 。
? 本例 ΣX =1725, ΣY =454, ΣXY =78541, ΣX 2=298525,
ΣY 2=20690 。前面已经计算出 lxx=962.5, lxy=226
5.1 7 2
10
1 7 2 5 ????
n
XX
4.45
10
4 5 4 ????
n
YY
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 474 页
? ( 3) 求回归系数 b和截距 a
2348.0
5.962
226 ???
XX
XY
l
lb
897.45.1722348.04.45 ?????? XbYa
XY 2 3 4 8.08 9 7.4? ??
( 4) 列出回归方程
将求出的 a 和 b
代入公式 ( 9.7) 得
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 475 页
? 三,回归直线的绘制
? 在自变量 X的实测值范围,任意指定相距较远且易读的两
个数值,代入直线回归方程,求出相应的 Y的估计值,确
定两点,用直线连接。如本例取 X1=155,则 ; X2=185,
则。在图上确定( 155,41.291)和( 185,48.335)两个
点,直线连接,即得出直线回归方程的图形,
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 476 页
图 9-2 20岁男青年身高与前臂长散点图
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 477 页
? 四,回归系数的假设检验
? 回归系数 b为样本回归系数,假设在总体回归系数 β =0的
总体中抽样,得出样本的 b不一定为 0,因此需作总体回归
系数 β 是否为 0的假设检验,常用 t检验或方差分析。因方
差分析计算较为繁琐不在此讲述。
bb
b
S
b
S
b
t
|||0|
?
?
?
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 478 页
? Sb为回归系数的标准误,Syx为各观察值 Y 距回归直线的
标准差,即剩余标准差;为剩余平方和,它反映 X对 Y的线
性影响之外的因素对 Y的变异作用。在散点图中,各实测
点离回归直线越近,越小,说明直线回归的估计误差越小。
XX
YX
b l
SS ?
2
)?( 2
?
???
n
YYS
YX XX
XY
YY l
llYY 22)?( ????
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 479 页
例 9.4 根据例 9.3所得 b值,检验身高与前臂长是否有直线
回归关系。
( 1) 建立检验假设
H0,β =0,即身高与前臂长无直线回归关系
H1,β ≠ 0,即身高与前臂长有直线回归关系
α= 0.05
( 2) 计算 t值 前面已经求得 lXX=962.5,lXY=226,lYY=78.4,
代入公式 ( 9.13) 有
33.255.9622264.78)?(
22
2 ???????
XX
XY
YY l
llYY
78.1210 33.252 )
?( 2
??????? n YYS YX
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 480 页
? ( 3) 确定 P值, 作出推断结论 本例 υ =10-2=8,查附表
2,t界值表得 t0.005(8)=3.833,现 t>t0.005(8), 故 P<0.005。
按 α =0.05的水准, 拒绝 Ho,接受 H1,可认为 20岁男青年
身高与前臂长有直线回归关系 。
0574.0
5.962
78.1
???
XX
YX
b
l
S
S
09.4
0 5 7 4.0
2 3 4 8.00
???
?
?
bb
b S
b
S
b
t
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 481 页
? 五、直线回归方程的应用
? (一)描述两变量间的依存关系
? 可用直线回归来描述 。
? (二)利用回归方程进行预测
? 将 X代入直线回归方程, 可得到应变量 Y的估计值 。
? (三)利用回归方程进行统计控制
? 通过 X取值来控制 Y的变化。
XY 2 3 4 8.08 9 7.4? ??
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 482 页
? 1.作相关回归分析要有实际意义 。 不要把毫无联系的两种
现象作相关回归分析 。
? 2.相关关系不一定是因果关系,也可能是伴随关系。
? 3.在进行直线相关与回归分析之前,应先绘制散点图,当
观察到点的分布呈直线趋势时,方可进行分析,如散点图
呈曲线趋势,应进行曲线回归分析。
第三节 进行直线相关与回归分析时
应注意的问题
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 483 页
? 4.直线相关与回归的区别
? ① 在资料需求上, 相关分析要求两变量 X与 Y均为服从正
态分布的随机变量, 即两者都不能预先指定;回归分析要
求 Y是正态随机变量, 而 X可以不是正态随机变量而是一确
定值, 此时回归分析称为 Ⅰ 型回归, X也可以是正态随机
变量, 此时回归分析称为 Ⅱ 型回归 。
? ② 在意义上, 相关反映两变量的相关关系;回归反映两变
量间的依存关系 。
? ③ 在应用上, 说明两变量间的相关程度及相关方向用相关;
说明两变量间的依存变化的数量关系用回归 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 484 页
? 5,相关与回归的联系
? ① 在同一组数据, 相关系数 r与回归系数 b的符号一致 。
? ② 同一组数据, r与 b的假设检验是等价的, 即 tr=tb。 因 r
的假设检验可直接查表, 较为简便, 故可代替 b的假设检
验 。
? 6,回归方程一般只适用于自变量 X的原始数据范围内, 不
能任意外延 。 因为超出这个范围, X与 Y就不一定仍然呈线
性关系 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 485 页
7,同一组资料由 X推 Y和由 Y推 X的直线回归方程是不同的 。
XX
XY
YX l
l
b ?
XbYa YX??
XbaY YX ?? ??
?由 X推 Y,回归系数
回归方程
截 距
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 486 页
由 Y推 X,回归系数
8,建立回归方程的条件(时间、地点、方法、测量仪
器等)一旦改变,原回归方程就不宜继续使用。
YY
XY
XY l
lb ?
YbXa XY??
YbaX XY???
?截 距
?回归方程
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 487 页
第四节 等级相关
?当遇到有些资料并不呈正态分布,对于此类资料就不宜用
上述所讲的直线相关与回归分析,而常用等级相关处理资
料。
?等级相关( rank correlation) 亦称为 秩相关,适用于分
布类型不明的资料、偏态分布资料和等级资料的相关分析。
本节主要介绍 Spearman等级相关法。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 488 页
? 其分析步骤如下,
? 1,先将 X,Y 分别由小到大列出等级, 即编秩次, 数字
相同时需要求平均等级;
? 2,求出每一对 X,Y 的等级之差 d 值;
? 3,按下列公式计算等级相关系数 rs
)1(
6
1
2
2
?
?
??
nn
d
r s
式中 rs 为等级相关系数,
d2 为等级之差,n 为样
本含量。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 489 页
? 4,根据 n查附表 15,rs界值表, 确定 P值 。 如 rs≥ rα,
n,,则 P≤α, 说明 X,Y两变量相关有统计学意义;如
rs< rα, n, 则 P>α, 说明 X,Y两变量相关无统计学意
义 。
? 例 9.5在肝癌病因研究中, 某地调查了 10个乡肝癌死亡率
( 1/10万 ) 与某种食物中黄曲霉毒素相对含量, 见表 9-2。
试分析黄曲霉毒素相对含量与肝癌死亡率有无相关的关系 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 490 页
? 表 9-2 黄曲霉毒素相对含量与肝癌死亡率
黄曲霉毒素相对含量 肝癌死亡率( 1 / 1 0 万) d d
2
乡编
号
( 1 )
X
( 2 )
等级
( 3 )
Y
( 4 )
等级
( 5 )
( 6 )
( 7 )
1 0, 7 1 2 1, 5 3 - 2 4
2 1, 0 2 1 8, 9 2 0 0
3 1, 7 3 1 4, 4 1 2 4
4 3, 7 4 4 6, 5 7 - 3 9
5 4, 0 5 2 7, 3 4 1 1
6 5, 1 6 6 4, 6 9 - 3 9
7 5, 6 7 4 6, 3 6 1 1
8 5, 7 8 3 4, 2 5 3 9
9 5, 9 9 7 7, 6 10 - 1 1
1 0, 0 10 5 5, 1 8 2 4 10
合计 — — — — — 42
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 491 页
? 分析步骤,
? ( 1) 建立检验假设
? Ho,ρ s=0, 即黄曲霉毒素相对含量与肝癌死亡率无相关
关系
? H1,ρ s≠ 0,即黄曲霉毒素相对含量与肝癌死亡率有相关
关系
? α =0.05
? ( 2) 编秩次 先将 X值由小到大依序排列, 再将两变量 X、
Y 的数值分别由小到大编秩次, 如有相同数值求平均秩次,
列于表第 ( 3) 栏和第 ( 5) 栏 。
? ( 3) 求秩次之差 d 和 d2 列于表第 ( 6) 栏和第 ( 7)
栏 。
? ( 4) 计算等级相关系数 rs 将表 9-2中数据代入公式
( 9.14) 有
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 492 页
? ( 5) 确定 P值 查附表 15,rs 界值表, n =10,
r0.05,10=0.648,现 rs0.7455 > r0.05,10 =0.648, 故 P<0.05。
? ( 6)推断结论 在 α =0.05水准上,拒绝 Ho,接受 H1,
可认为黄曲霉毒素相对含量与肝癌死亡率之间存在正相关
关系。
7 4 5 5.0
)110(10
426
1
)1(
6
1
22
2
?
?
?
??
?
?
??
nn
d
r s
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 493 页
第五节 曲线直线化( 1)
? 一,曲线直线化的概述
? 在医学研究中,有时两种变量间不呈直线关系,而是呈曲
线关系。需要把这些关系变动的特征恰当地反映出来,需
要根据实测资料的曲线类型找到能反映变量关系的曲线回
归方程,求曲线回归方程的过程及方法叫曲线拟合。医学
上常见的曲线类型有,指数曲线、对数曲线、双曲线、抛
物线和, S”型曲线等。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 494 页
? ( 一 ) 曲线直线化的用途
? 1.修匀 由于抽样误差的影响, 实测资料存在一定的波动,
难于绘出一条能完全符合每一观察点的光滑曲线, 但得到
的该回归曲线却能比较恰当的显示原资料中两变量间的回
归关系 。 因此经过修匀的曲线比原资料的观察点合理而稳
定 。
? 2.估计 即由较易测得的自变量 X 推算较难测得的应变
量 Y的估计值 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 495 页
? 3.求极大点或极小点 这是拟合抛物线的
特有用途, 如细菌生长的最适温度是多少?
人体发育在哪个年龄最快等, 这些数据很
难从散点图上确定, 只有拟合成曲线后,
才能根据曲线回归方程推算极大点或极小
点的最可能数值 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 496 页
( 二 ) 曲线拟合步骤
? 1.定曲线型 对实测数据选择何种曲线类型, 一般要根据
以下三个方面,
? ① 根据专业知识及过去经验或文献资料;
? ② 根据全部观察点在普通坐标纸上所呈现的总趋势;
? ③ 根据观察点在某种变换值的坐标纸上是不是呈现直线趋
势 。 如半对数纸上点图呈现直线趋势可选用指数曲线或对
数曲线;如在双对数纸上呈直线趋势可选用双曲线;如在
对数概率单位纸上呈直线趋势时, 可选用 S型曲线 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 497 页
? 2.直线化 对呈曲线关系的变量进行适当变换, 使变换后
的两个变量之间呈直线关系, 称为直线化 。 直线化既可以
验证所确定的曲线型是否恰当, 更便于用求直线方程的方
法得到曲线方程 。 除多项式曲线可不必经直线化外, 其它
几类曲线拟合大多经过直线化 。
? 3.求曲线回归方程
? 4.求估计值
? 5.作曲线图
? 6.必要时作拟合优度检验 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 498 页
? 二、指数与对数曲线的拟合
? 这种 X与 Y之间的关系可归纳为下面二点:
① 二者关系始终是正比例或始终是反比例;
② 变化始终是, 加速度, 的或始终是, 减
速度, 的 。 具有这种性质的资料一般均可
拟和指数曲线或对数曲线 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 499 页
? 指数曲线方程的一般形式为 ( 9.15)
bXaY ?? 10
XABY ?
bXaY ??lg
BXAY lglglg ??
若 10a =A,10b =B,则公式可表示为( 9.16)
公式( 9.15)两边取对数,得( 9.17)
公式( 9.16)两边取对数,得( 9.18)
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 500 页
? 令 lgA=a lgB=b 则公式( 9.18)也变成公
式( 9.17)的形式。公式( 9.17)是指数
曲线方程的对数形式。如令 y=lgY 则公式
( 9.17)就变成了直线回归方程形式,可
按最小二乘法求知直线回归方程,得 a和 b
值后,直接可写成( 9.15)的形式或经求
得 A=lg-1a,B=lg-1b后,写成公式( 9.16)
的形式。指数曲线的形式可概括为四种类
型,见图 9-3。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 501 页
? 图 9-3 四型指数曲线的模型
第五节 曲线直线化( 8)
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 502 页
? 例 9.6 某地大气中离污染源不同距离处氰化物浓度测定结
果见表 9-3。试拟合曲线。
与 污 染 源 距 离 ( m ) 氰化物浓度 ( mg / m
3
) y = l g Y
Y
?
X
( 1 )
Y
( 2 )
( 3 )
( 4 )
50 0, 6 8 7 - 0, 1 6 3 0 0, 5 8 4
100 0, 3 9 8 - 0, 4 0 0 1 0, 3 6 4
150 0, 2 0 0 - 0, 6 9 9 0 0, 2 2 7
200 0, 1 2 1 - 0, 9 1 7 2 0, 1 4 2
250 0, 0 9 0 - 1, 0 4 5 8 0, 0 8 3
300 0, 0 5 0 - 1, 3 0 1 0 0, 0 5 5
400 0, 0 2 0 - 1, 6 9 9 0 0, 0 2 1
500 0, 0 1 0 - 2, 0 0 0 0 0, 0 0 8
1950
∑ X
— - 8, 2 2 5 1
∑ y
—
表 9-3 某地氰化物浓度与污染源距离的关系
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 503 页
? 拟合曲线的步骤如下,
? ( 1) 定曲线型 将表 9-3第 ( 1), ( 2) 栏各 ( X,Y) 点
绘于普通坐标纸上, 得到图 9-4,对照图 9-3各型, 接近 Ⅱ
型指数曲线, 即 lgY=a-bX,
? ( 2) 直线化 将表 9-3第 ( 1), ( 2) 栏数据在半对数纸
上作图, 置 Y于对数轴, X置于真数轴, 得观察点连线, 见
图 9-5,其分布近于直线, 说明直线化效果较好 。 故取
y=lgY,见表 9-3( 3) 栏 。
? ( 3)求直线方程
)0 0 4 1.00 2 8 7.0(?lg XY ???
XXXY )9906.0(9361.0101010? 0 0 4 1.00 2 8 7.0)0 0 4 1.00 2 8 7.0( ???? ????
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 504 页
图 9-4 污染源距离与氰化物浓度指数曲线 图 9-5 曲线直线化
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 505 页
? (二 ) 对数曲线的拟合
? 当自变量 X取常用对数, 而应变量 Y取原测定值, 则对数曲
线方程为 (9.19)
XbaY lg??
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 506 页
?对数曲线(亦有书通称指数曲线)的形状亦可概括为四型
见图 9-6。
图 9-6 四型对数曲线模型
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 507 页
?对数曲线四型的形状与相应的指数曲线形状类似, 只是对数
曲线方程是以 X变量为对数, 故渐近线与 Y轴平行 。 在选择曲
线方程时应注意这一点 。 对数曲线的拟合与指数曲线的拟合
方法与步骤基本一样, 只是将 X值置于对数轴上, Y值置于真
数轴上, 进行直线化 。 如果 X与 Y尚未达到直线化, 可取 X± k
作校正, k的数值需经尝试, 以使观察点逐步逼近直线趋势 。
?例 9.7 某研究室以不同浓度的免疫球蛋白 lgA( g%) 作火
箭电泳, 测得火箭的高度 ( mm) 如表 9-4。 试拟合曲线 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 508 页
? 拟合曲线的步骤如下,
? ( 1) 确定曲线类型 将表 9-4第 ( 1), ( 3) 栏各 ( X,Y)
点绘于普通坐标纸上, 得图 9-7上的观察点 。 对照图 9-6各
型, 接近 Ⅳ 型对数曲线, 即 Y=a+blgX
? ( 2) 直线化 将表 9-4第 ( 1) ( 3) 栏数据在半对数纸上
作图, 置 X于对数轴, Y于真数轴, 得观察点见图 9-8。 其
分布近于直线, 说明直线化效果较好 。 故取 x=lgX,见表
9-4第 ( 2) 栏 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 509 页
? 表 9-4 lgA浓度与火箭高度之间的关系
lg A ( ? g% ) x = lg X 火箭高度 ( mm )
Y
?
X
( 1 )
( 2 )
Y
( 3 )
( 4 )
0, 2 0, 6 9 8 9 7 7, 6 7, 2 3
0, 4 - 0, 3 9 7 9 4 1 2, 3 1 2, 6 2
0, 6 - 0, 2 2 1 8 5 1 5, 7 1 5, 7 7
0, 8 - 0, 0 9 6 9 1 1 8, 2 1 8, 0 1
1, 0 0, 0 0 0 0 0 1 8, 7 1 9, 7 5
1, 2 0, 0 7 9 1 8 2 1, 4 2 1, 1 6
1, 4 0, 14613 2 2, 6 2 2, 3 6
0, 2 0 4 1 2 2 3, 8 2 3, 4 0 1, 6
合计
- 0, 9 8 6 2 4 1 4 0, 3 -
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 510 页
图 9-7 IgA浓度与火箭高度的
对数拟合曲线
图 9-8 对数曲线直线化
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 511 页
?则直线方程为
xY 90733.1774512.19? ??
?求对数曲线方程 将 x= lgX代入直线方程得
XY lg9 0 7 3 3.177 4 5 1 2.19? ??
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 512 页
三、曲线方程的假设检验和拟合优度
?当用拟合的曲线回归方程描述两变量间的曲线关系时,
经常需要回答两个问题:一是拟合的曲线方程有无意义,
即此曲线关系能否成立;二是拟合的效果如何 。 回答第
一个问题需要作曲线回归方程的假设检验;回答第二个
问题可用相关系数的大小说明 。
?曲线回归方程是否有统计学意义, 可以用方差分析来检
验 。 其公式为,
剩余剩余
回归剩余总
剩余剩余
回归回归 )(=
?
?
?
?
//
/
l
ll
l
l
F
?
?
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 513 页
? 计算出 F值后, 根据 υ 1= υ 回归,υ 2 = υ 剩余, 查附
表 4,F界值表, 得出 P值, 按所选择的检验水准作出结论 。
? 在曲线回归方程有统计学意义的前提下,曲线拟合得好
坏可以看 l剩余 的大小。如果 l剩余 对 l总 的比例愈小,说明实
际观察值与估计愈接近,曲线拟合得愈好;反之愈差。这
种拟合度,可以用相关指数( R2)来表示。 R2愈接近 1,
表示拟合得愈好。计算公式为,
2
2
2
)(
)?
11
yy
yy
l
l
R
??
??
???
(
=
总
剩余
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 514 页
? 例 9.8 以例 9.6已经拟合成指数曲线为例,对曲线方程进
行假设检验并判断拟合的情况。已经拟合的曲线方程为,
按指数曲线方程计算其估计值,见表 9-5。
? 指数曲线拟合的相关指数为,
966.0
3855.0
013.0
112 ???? =
总
剩余
l
l
R
说明指数曲线拟合较好。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 515 页
THANG YOU FOR LISTENING
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 516 页
医学统计学
主 讲 程琮
泰山医学院预防医学教研室
zcheng@tsmc.edu.cn
本科生用
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 517 页
Teaching Plan
for Medical Students
Medical Statistics
Professor Cheng Cong
Dept,of Preventive Medicine
Taishan Medical College
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 518 页
第 10章实验设计 目彔
? 第五节 常用实验设计方法
? 第二节 实验设计的基本要素
? 第三节 实验设计的基本原则
? 第四节 样本含量的估计
? 第一节 实验研究
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 519 页
第十章 实验设计
? 1。掌握实验设计的基本概念及意义。
? 2。掌握实验设计的三个基本要素及四个基本原则。
? 3。了解样本含量估计的意义及常用方法。
? 4。熟悉常用实验设计方法。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 520 页
第一节 实验研究
? 一、实验设计的概念
? 实验研究 (experimental research )是使设计的实验
因素或处理因素在其它干扰因素被严格控制的条件下,
观察其对实验结果或实验效应的作用及影响。
? 实验设计 (experiment design)是指研究人员对实验因
素作合理的、有效的安排,最大限度地减少实验误差,
使实验研究达到高效、快速和经济的目的。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 521 页
? 医学实验设计 (medical experimental design)是将实
验设计的基本原理和方法应用于医学领域,主要包括
基础医学、临床医学和预防医学。其目的是研究如何
科学地、合理地安排实验因素,研究并排除实验中所
有影响实验结果及效应的各种干扰因素的作用。
? 干扰因素 也称为非处理因素或背景因素,它是指处理
因素以外的可以影响实验效应及实验结果的一切可能
的因素。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 522 页
? 非处理因素 一般多为受试对象本身的特征及外界环
境因素, 其来源复杂, 范围广, 经常不易控制或不易
察觉 。
? 实验设计的基本构成 包括三个基本要素及四个基本
原则 。
? 三个基本要素是,受试对象, 处理因素和试验效应 。
? 四个基本原则是,随机化的原则, 对照的原则, 重复
的原则及均衡的原则 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 523 页
实验设计
的
基本构成
三个基本要素
四个基本原则
受试对象
处理因素
试验效应
随机化的原则
对照的原则
重复的原则
均衡的原则
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 524 页
? 实验研究主要具有 三个基本特点,
? 第一,研究人员能够按照实验设计的目的及要求设置
处理因素。
? 第二,受试对象可以通过随机化原则随机地接受某种
处理因素或某种处理因素的不同水平。
? 第三,由于应用了随机化原则,使各比较组之间达到
了较好的均衡性,因而,最大限度地减少了非处理因
素对实验效应及结果的干扰和影响。
二、实验研究的特点
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 525 页
? 由于实验研究具备这三个特点,就使得实验研究中各
比较组之间具有较好的均衡性及可比性,大大减少了
各种非处理因素或背景干扰因素对实验效应及结果的
影响,可以更为有效地控制实验误差,提高了实验研
究的效率及实验结果的可靠性。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 526 页
? 实验研究有多种分类方法, 一般常根据受试对象的特
征分为三大类,
? 1.动物实验 (animal experiment) 是指用人工饲养繁
殖的动物进行实验研究 。 其特点是, 容易控制处理因
素及背景干扰因素, 实验误差较小, 实验成本较低,
观察的实验效应较为客观 。 如果在实验研究中, 出现
因各种原因而导致动物意外死亡或缺失时, 可据情予
以补充, 收集资料及分析资料均较为方便 。
三、实验研究的分类
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 527 页
? 1。 动物实验 几乎可用于医学研究的各个领域 。 由于动
物与人体之间在种属等等方面存在巨大差异, 因此, 动
物实验的研究结果不能直接推论到人体上, 而是可以作
为人体研究的参考依据或基础数据 。
? 常用于医学研究的实验动物有 大白鼠, 小白鼠, 豚鼠,
兔子, 猫, 狗, 羊和猪等, 还可以是猴及灵长目类动物 。
各种动物都有其自身的特点, 选择动物时, 要根据研究
目的先确定动物的种类, 还应特别注意动物的性别, 年
龄, 品系等特征 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 528 页
? 临床试验 是指按科学的实验方法,研究疾病在临床
阶段规律的试验。临床试验研究的对象主要是 病人或
健康人 。
? 1) 选择病人可以作为实验组也可以作为对照组。一般
是选择患某种确诊疾病的患者为观察病例。选择病人
除考虑病人本身的特征外,还要考虑疾病的特征,如
病情的发展状况,常规治疗方案的疗效情况,病人的
生存状况是否存在危险等等方面。
2.临床试验( clinical trial)
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 529 页
? 2)选择健康人
? 一般是作为试验的对照组,考虑的各方面因素与病
人相同或相近。 由于人的背景因素及个性特征极为复
杂,在进行临床试验研究时,除考虑上述因素外,还
要考虑医德等方面的问题。在选择病人及健康人、选
择处理因素时,要非常慎重。试验前应该经过科研小
组成员及有关专家的认真讨论,并进行周密设计,以
避免出现各种意外情况。因此,针对人体的临床试验
研究与动物试验研究存在很大的区别。这是每位医学
科研工作者应该十分注意的。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 530 页
? 3。 社区干预试验 ( community intervention trial)
是指对社区中的所有人群施加某种处理因素并观察一
段较长的时间 。
? 其目的是通过干扰某些在人群中存在的危险因素或施
加某种保护性措施, 观察处理因素在社区人群中产生
的效应或预防效果 。 典型的社区干预试验的实例之一
是在社区人群的饮水中加入氟化物以观察是否能够降
低人群的龋齿发生率的试验 。 由于社区干预试验中涉
及人群数量多, 人群结构复杂, 不易控制处理因素及
背景干扰因素, 且难以对人群给予处理因素时进行随
机化分配, 其试验效果及效应的确切性往往不易准确
判断或确定 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 531 页
? 典型的社区干预试验 的实例之一是在社区人群的饮水
中 加入氟化物 以观察是否能够降低人群的龋齿发生率
的试验 。 由于社区干预试验中涉及人群数量多, 人群
结构复杂, 不易控制处理因素及背景干扰因素, 且难
以对人群给予处理因素时进行随机化分配, 其试验效
果及效应的确切性往往不易准确判断或确定 。
第一节 实验研究
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 532 页
第二节 实验设计的基本要素
? 实验设计有 三个基本要素,即受试对象、处理因素和
实验效应。三个基本要素是相互联系的。
? 在实验设计阶段,研究人员应根据实验研究的目的,
紧紧抓住这三个基本要素,并应通盘考虑如何去合理
有效地安排这三个基本要素。只有这样,实验设计才
会有明确的方向。 实验设计是实验研究中最为重要和
关键的第一步。必须给予高度重视。
? 有些研究人员未能充分认识到这第一步的重要性。经
常是先进行实验研究工作,其后才考虑实验设计问题。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 533 页
? 一、受试对象
? 受试对象( study subjects) 是指在实验研究中研究
人员所要观察的客体,即处理因素作用的对象。受试
对象主要包括人、动物、微生物以及人或动物的试验
材料。如器官、组织、细胞、血液、尿液、粪便等。
第二节 实验设计的基本要素
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 534 页
? 选择受试对象是根据科研课题的研究目的而确定的 。
? 选择受试对象应考虑下列几点,
? ① 进行基础性的医学研究, 多选择动物及其材料作为
受试对象, 并可由此积累资料和基础数据;
? ② 观察临床疗效, 临床检验水平, 诊断水平及社区干
预试验等, 多选择人体及其材料作为受试对象 。 一般
常以病人为实验组, 健康人为对照组;也可选择几组
不同类型的病人分别作为实验组和对照组 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 535 页
? ( 一 ) 受试对象的基本条件
? 受试对象应具备下列基本条件 。
? ( 1) 敏感性:是指受试对象接受处理因素后, 容易显示实
验效应 。
? ( 2) 特异性:是指受试对象接受处理因素后, 只产生特定
的实验效应 。
? ( 3) 稳定性:是指受试对象产生的实验效应仅在特定范围
内波动, 且波动相对较小 。
? ( 4) 经济性:是指受试对象容易获取且价格便宜 。
? ( 5) 可行性:是指受试对象便于施加处理因素及获取标本 。
? ( 6) 相似性:是指动物产生的实验效应尽可能与人体近似 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 536 页
? ( 一 ) 常用受试对象的基本特征
? 1。 动物 医学研究中的各个领域几乎都要用到实验
动物 。 使用动物作为受试对象非常方便, 安全性高,
价格相对便宜, 而且不涉及人类的医德问题 。 研究中
动物意外缺失可以据情予以补充 。 饲养, 管理及观察
动物十分方便且容易做到 。 选择动物一般要考虑动物
的种类, 种属, 品系, 窝别, 性别, 年龄, 体重, 健
康状况, 是否容易饲养和存活, 对施加的处理因素的
反应特征等方面 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 537 页
? ( 1) 小白鼠及大白鼠 啮齿类动物 。 主要用于进行毒
理学研究 。 可以研究各种有害毒物的急慢性毒性作用
及, 三致, 作用, 即毒物的致突变作用, 致畸变作用
及致癌作用 。 用此类动物进行实验研究, 其 特点 是价
格低, 易饲养, 可以大量使用 。 但由于啮齿类动物缺
乏呕吐反射, 故凡是能引起呕吐反射的化合物的毒性
研究, 一般不能使用此类动物 。
? ( 2) 兔 也属于啮齿类动物 。 用于化合物的毒性试验
研究 。 尤其是 经皮肤接触的毒作用试验 。 也可用于胃
肠道对外来化合物的吸收动力学研究 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 538 页
? ( 3) 猫和狗 为非啮齿类动物的典型代表 。 可用于毒
理学试验研究, 也可用于生理学研究 。 如进行血压,
睡眠等方面的研究 。 但猫与狗的价格较高, 不适于大
数量使用 。
? ( 4)猪 其皮肤结构与人体较近似,可用于各种毒物
对 皮肤 的毒性作用研究。猪的躯体较大,价格较高,
不便于大量使用。
? ( 5) 其它 猴与灵长目类动物与人类较接近, 但其价
格昂贵, 只用于某些特殊研究 。 一般情况下不使用此
类动物 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 539 页
? 2。 人体 以人体作为观察对象, 涉及的问题很多且较
为复杂, 一般应考虑下列几个方面,
? ( 1) 一般条件 性别, 年龄, 民族, 个人嗜好, 生活
习惯, 居住地区等 。
? ( 2) 健康状况 既往病史, 家族成员病史, 目前健康
状况, 身体发育状况等 。
? ( 3)社会因素 职业、文化程度、经济条件、居住条
件、家庭状况、心理状况、个性特征、病人及其家属
的合作态度等。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 540 页
? ( 4) 疾病因素 病种, 病型, 病期, 病程, 病情, 诊
断方法, 诊断标准, 试验研究的时间期限等 。
? ( 5) 机体材料 标本的获取部位, 获取条件, 新鲜程
度, 保存方法, 培养条件, 运输及传送方式等 。
? ( 6) 外界环境因素 医院规模, 医疗水平, 医疗设
备, 医护人员的水平及素质, 病房的大小, 病房中病
人数量, 病人距离医院的远近, 就诊的方便程度等 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 541 页
? 人体作为受试对象,常用于临床治疗方案的疗效观察
研究以及某种疫苗在人群中预防某种疾病的效果观察
等。在临床治疗工作中,每一位病人都可以作为一个
观察对象。但是,按照实验设计的四个基本原则,如
想在特定时期内选择几组除处理因素不同以外,其它
各方面条件都基本一致的病例,则是一件相当困难的
事情。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 542 页
? 处理因素 ( study factor) 是指由研究人员施加于受试
对象并能产生一定试验效应的因素 。 医学科研中常用的处
理因素主要有下列几大类,
? 1.物理因素 电, 磁, 光, 声, 温度, 射线, 微波, 超声
波等 。
? 2.化学因素 药物, 营养素, 激素, 毒物, 各种有机和无
机化合物等 。
? 3.生物因素 寄生虫, 真菌, 细菌, 病毒及其生物制品等 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 543 页
? 处理因素 在实验设计阶段也要认真考虑并仔细分析 。 尤
其是处理因素的剂量及水平数应该通过预试验或据以往经
验有一定的了解和把握 。
? 处理因素剂量过小, 受试对象不产生反应, 达不到观察试
验效应的目的 。
? 如果剂量过大, 则可能导致受试对象的强烈反应乃至死亡 。
对动物进行毒理学研究时, 处理因素的剂量变化范围较大,
可以使动物不出现反应, 刚出现反应, 到动物出现较大反
应或死亡 。 对于临床试验, 由于针对的是人体, 控制处理
因素的剂量范围是非常重要的 。 其注意点是, 应在保证人
体安全的前提下, 将处理因素安全剂量范围内的不同剂量
水平施加于人体, 观察机体的反应及试验效应 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 544 页
? 在实验研究中,由于影响试验结果的因素很多,有时
则十分复杂。因此,在安排施加处理因素时,应考虑
下列几个方面 。
? 1。 抓住实验中的主要因素 任何一项实验研究都有其
主要的方面或主要矛盾。
? 2。 确定处理因素和非处理因素 实验研究中应根据研
究目的确定处理因素和非处理因素。一般情况下,两
者的区别并不困难。
? 3。 处理因素标准化 是指在进行同一个实验研究时,
施加于多个受试对象的处理因素是相同一致的。不能
随意加以改变。尤其是用于病人的药物。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 545 页
? 三、实验效应
? 实验效应( experimental effect) 是指处理因素施加于
受试对象并经过一定时间,受试对象产生的各种反应及表
现。这些反应可以是主观的,也可以是客观的。
? 实验效应可以用各种各样的具体指标来表示。观察实验效
应,应尽可能选择客观指标以及容易检测及分析的指标。
第二节 实验设计的基本要素
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 546 页
? (一)观察指标的分类
观察指标按其性质一般可以分为下列几类,
? 1.定量指标 可以用具体的度量衡单位来表示的指标 。
如人体的身高用厘米表示, 体重用公斤表示, 脉搏用
每分钟的次数来表示 。 计量指标可以根据具体指标的
要求, 精确到小数点后面若干位 。
? 2.分类指标 按受试对象的属性或特征先分类, 再计
数各类的个数 。 用绝对数或相对数来表示 。 如某检测
指标的结果可以用, 是, 或, 否,,, 阴性, 或, 阳
性, 来表示 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 547 页
? 3.等级指标 按试验效应的程度分为若干等级,并计
数各等级的个数。该指标介于定量及分类指标之间。
如用某治疗方案治疗病人,其观察结果可以分为四个
等级,即:无效,显效,好转,痊愈。这四个等级可
以用一个或多个具体量度指标来确定。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 548 页
? (二 ) 选择观察指标的要求
? 1.关联性 是指观察指标与研究目的有着本质而密切
的联系, 能够确切反映处理因素的试验效应 。 这些指
标可以通过查阅文献或根据以往经验而获得 。
? 2.客观性 是指能够借助各种检测手段及方法所观测
记录的指标 。 如血压, 红细胞数, 心电图, 尿铅含量
等指标 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 549 页
? 3.精确性 精确性包括两层含义。 其一是准确度,即
指实际测量值与真值的接近程度。准确度越高,测量
值越接近真值,误差则越小。尽管真值往往未知,但
准确度越高,指标的可靠性越高。 其二是精密度,指
在重复观察及测量时,观察值与其平均值的接近程度。
精密度越高,说明重复的测量值越接近,检测设备或
手段的稳定性越好。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 550 页
? 4.稳定性 是指观察指标变异度的大小 。 稳定性高,
则变异度小, 指标的代表性强, 反之亦然 。 稳定性一
般可以用该指标的变异系数来表示 。 如果变异系数不
超过 15%~ 20%,则该指标的稳定性较好 。
? 5.灵敏性 是指各种检测手段和方法能够检测出试验
效应微小变化的能力 。 灵敏性越高, 则检测出试验效
应微小变化的能力越强 。 随着科学技术的快速发展,
检测手段的灵敏性将会越来越高 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 551 页
? 6.特异性 是指检测指标的排它性,是观察指标对某种
特殊试验效应及结果的反映能力。特异性越强,观察
指标反映某种试验效应的能力越强。特异性对诊断严
重疾病的意义非常重要。如果某检测指标特异性强,
则该指标对确诊和早期发现严重疾病具有直接意义。
如检测指标甲胎蛋白对确诊早期肝癌具有重要意义。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 552 页
? 6.特异性 是指检测指标的排它性,是观察指标对某种
特殊试验效应及结果的反映能力。特异性越强,观察
指标反映某种试验效应的能力越强。特异性对诊断严
重疾病的意义非常重要。如果某检测指标特异性强,
则该指标对确诊和早期发现严重疾病具有直接意义。
如检测指标甲胎蛋白对确诊早期肝癌具有重要意义。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 553 页
? ( 三 ) 消除心理偏性的方法
? 心理偏性 是指研究人员及受试对象由于各自的心理偏
见而在观察或描述试验效应时产生的误差 。 如医护人
员容易认为自己使用的治疗方案要好于其他人的治疗
方案 。 病人则容易受医院规模大小, 医疗设备的先进
程度, 医院医疗水平的高低, 权威医护人员或普通医
护人员治疗等等方面的心理影响 。 这些影响可以导致
病人主观感觉的偏见 。 消除上述心理偏性的方法一般
是使用盲法设计 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 554 页
第三节 实验设计的基本原则
? 实验设计包括四项基本原则, 即随机化的原则, 对照
的原则, 重复的原则和均衡的原则 。
? 一、随机化的原则
? 1.概念及用途 随机化( randomization) 是指总体中
的每一个个体都有均等的机会被抽取或被分配到实验
组及对照组中去。随机化原则的核心是机会均等。使
用随机化方法可以消除在抽样及分组过程中,由于研
究人员对受试对象主观意愿的选择而造成试验效应的
误差。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 555 页
? 2.随机化的方法 随机化的方法有多种 。 常用的有 抽
签法, 抓阄法, 随机数字法 等 。 随机数字法一般有随
机数字表和随机排列表 。 普通函数型电子计算器也可
以显示随机数字 。 随机数字表中出现数字 0- 9的机会
或概率是均等的 。 利用随机数字分组的方法很多也很
灵活 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 556 页
? 对照( control) 是指在实验研究中使受试对象的处理
因素和非处理因素的试验效应的差异有一个科学的对
比。主要目的是为了排除对照组和实验组中非处理因
素对试验效应的影响或干扰作用,并使得实验组和对
照组具有可比性。对照的基本要求是,除处理因素作
有计划的变化外,实验组与对照组的其它条件尽量保
持一致。
二、对照的原则
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 557 页
? 实验研究中设置对照组是非常重要的 。 常用的对照方
法有下列几种 。
? (一)空白对照 空白对照是指对照组不施加任
何处理因素。常用于防疫系统疫苗接种效果的观察与
研究。
? 注意,在动物实验研究中, 可以使用空白对照, 而在
针对人体的临床试验研究中, 一般不能使用空白对照 。
对照组可以使用常规疗法以保证病人的生命安全, 而
对危重病人则更要注意不能使用空白对照 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 558 页
? ( 二 ) 标准对照
? 标准对照是指以公认 或习惯的标准方法、标准值或正
常值作为对照。这些对照值或标准值一般是多个地区
多年累积的经验结果,具有参考价值和意义。
? 实验研究中一般不用标准值作对照,主要是某项实验
研究中的实验条件难以与标准值的实验条件相一致,
不具备良好的可比性。临床试验研究中可以用常规疗
法或经验疗法作为标准对照组。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 559 页
? ( 三 ) 实验对照
? 实验对照是指对照组虽未施加处理因素,但却施加了
某种与处理因素有关的实验因素。这是一种比较特殊
的非处理因素。
? 例如,研究赖氨酸对促进儿童的生长发育作用,实验
组儿童的课间餐为加赖氨酸的面包,对照组为不加赖
氨酸的面包,两组儿童面包的数量是一致的。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 560 页
? (四) 自身对照
? 自身对照是指对照和实验在同一个受试对象身上进行,
只是在进行对照组和实验组的观察时,在时间上有前
后顺序的不同。
? (五) 相互对照
? 相互对照是指不专门设置对照组,而以各实验组之间
互为对照,比较各处理因素试验效应的相对大小及作
用。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 561 页
? (六) 安慰剂对照
? 安慰剂( placebo)是指一种无药理作用的假药,其与
治疗药物在外观、剂型等方面不能被受试对象所识别。
安慰剂对照则是指将安慰剂施加于对照组的受试对象。
安慰剂对照是一种特殊的空白对照,其目的主要是排
除病人或受试对象的心理偏见。
? 人作为受试对象具有复杂的心理过程,极易受到各种
外界因素的影响和干扰。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 562 页
? ( 七 ) 历史对照
? 历史对照是指以过去或以往的研究结果作为对照。主
要用于对难治或无法治愈的疾病的研究,如晚期恶性
肿瘤,狂犬病等疾病。
? 由于这些疾病难以治愈或无法治愈,这种累积下来的
治疗结果就成为历史对照。例如,狂犬病一但发病,
其治愈率几乎为零,这是一个历史的治疗结果。历史
对照一般不宜使用,应用时应特别注意资料的各种背
景条件因素及其可比性。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 563 页
? 三、重复的原则
? 重复( replication) 是指实验组和对照组的受试对象
应具有一定的数量。重复表现为二个含义:其一是样
本含量的大小;其二是同一试验重复次数的多少,两
者的本质是相同的。按照抽样误差变化的规律,在抽
样中,随着样本含量的增大或重复次数的增加,抽样
误差将逐渐减小。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 564 页
? 如果研究总体中的所有个体, 其优点是研究的指标准
确可靠, 没有抽样误差, 具有较高或很高的参考价值;
缺点是耗费大量的人力, 物力, 财力和时间, 一般情
况下是不采用的 。 研究样本的优点 是节省人力, 物力,
财力和时间;缺点是观察指标存在抽样误差, 降低了
指标的准确性和可靠性 。 如果未认真进行实验设计和
考虑抽样方法, 则样本指标常可导致错误的结论 。 这
也是在抽样研究中要十分注意的问题 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 565 页
? 四、均衡的原则
? 均衡的原则也称为齐同原则, 是指对照组除处理因素
与实验组不同外, 其它各种条件及因素应基本一致 。
这些条件及因素即指非处理因素或称为背景因素 。 对
照组与实验组应具有较好的均衡性, 这样才能保证各
组之间具有较好的可比性, 才能充分显示出实验组处
理因素的效应和作用, 排除其它各种因素的干扰和影
响 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 566 页
第四节 样本含量的估计
? 一、确定样本含量的意义
? 正确确定样本含量是实验设计中的一个重要部分,在
估计样本含量时,应当注意克服两种倾向,
?1。 某些研究工作者片面追求增大样本例数,认为样本
例数越大越好,甚至提出, 大量观察, 是确定样本含
量的一个重要原则,其结果导致人力、物力和时间上
的浪费。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 567 页
?2,确定总体标准差 ? 由于总体标准 ? 差往往未
知或不易获得, 一般可用预试验的样本标准差 S来估计
或代替 。
? 3,确定第一类错误的概率 α 也称为检验水准或显
著性水平, α 越小, 所需样本例数越多 。 习惯上, 检
验水准一般取 α = 0.05,并可根据专业要求决定取单
侧 α 或双侧 α 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 568 页
? 4,检验效能( 1-β ) 检验效能也称为把握度,
是指在特定水准下,若总体间确实存在差异,则该次
试验能发现此差异的概率。其中的 β 为第二类错误。
( 1- β )越大,即把握度越高,所需样本例数越多。
通常取 β = 0.1或 β = 0.2,相应的检验效能为 0.9或
0.8。一般检验效能不宜低于 0.75,否则第二类错误增
大,,存伪, 的概率增加。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 569 页
? 样本含量估计的方法较多,有些公式较为复杂,计算
繁琐。最常用的几种方法有,
? 1。 样本均数与总体均数的比较
? 2。 两样本均数的比较
? 3。 两样本率的比较
? 具体计算方法公式:略。
三、常用样本含量估计方法
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 570 页
? 完全随机设计( completely random design) 也
称为单因素设计,该设计只能分析一个处理因素的作用。
处理因素可有 2个或 2个以上水平,每个水平代表一个分组。
可用抽签法、抓阄法或随机数字法等将受试对象随机分配
到各实验组及对照组中。该设计的特点是,简单方便,应
用广泛,容易进行统计分析;但只能分析一个因素的作用,
效率相对较低。如果只有两个分组时,可用 t检验或单因
素方差分析处理资料。如果组数大于等于 3时,可用单因
素方差分析处理资料。
一、完全随机设计
第五节 常用实验设计方法
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 571 页
? 该设计如果用于临床试验,也可称为临床试验设计中
的 随机对照试验 ( randomized control trial);如
果其中采用了盲法设计,则又称为 随机盲法对照试验
( randomized blind control trial)。 注意,在受
试对象分组前,应使其非处理因素尽量达到均衡,然
后再采用随机方法对受试对象进行分组,这样才能使
得各组的可比性高,均衡性强。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 572 页
? 例 10.4 按单因素设计要求, 将 15只动物等量分为 A、
B,C三组 。
? 设计及分组步骤如下 。
? ( 1) 选取 15只品系相同, 性别相同, 年龄相同或相近,
体重相近的动物 15只 。
? ( 2) 将 15只动物任意编号为 1~ 15号 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 573 页
? 表 10-4 单因素设计动物分组方法
动物编号( 1 ) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
随机数字( 2 ) 1 0 15 11 12 3 13 14 1 2 6 9 4 7 8 5
动物分组( 3 ) B C C C A C C A A B B A B B A
?( 3)查附表 17,,随机排列表,,预先规定:从该表
第 12行顺序查抄 1~ 15范围内的随机数字 15个,小于 1及
大于 15的数字舍去。数字 1~ 5归入 A组,6~ 10归入 B组,
11~ 15归入 C组。
?( 4) 15只动物分组方法及结果,见表 10-4。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 574 页
? 配对设计( paired design) 是将受试对象按一定条件
配成对子,分别给予每对中的两个受试对象以不同的
处理。配对的条件是影响实验效应的主要非处理因素。
在这些非处理因素中,动物主要有:种属,性别,年
龄,体重,窝别等因素;人群主要有:种族,性别,
年龄,体重,文化教育背景,生活背景,居住条件,
劳动条件等。其中病人还应考虑疾病类型,病情严重
程度,诊断标准等方面。配对设计的目的是降低、减
弱或消除两个比较组的非处理因素的作用。
二、配对设计
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 575 页
? 该设计的特点是,可以节约样本含量, 增强组间均衡
性, 提高试验效率, 减轻人力, 物力和财力负担 。 在
临床试验中, 配对设计应用广泛 。 医学科研中常见的
配对设计有下列几种类型,
? ( 1) 配对设计 将两个条件相近的受试对象按 1:1配
成对子, 然后对每对中的个体随机分组, 再施加处理
因素观察效应 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 576 页
? ( 2) 自身对照设计 临床上常见情况是, 把病人治疗
前与治疗后的检测指标值作为一对数据 。 若干个病人
的检测值作为若干对数据 。 这种设计为配对设计中的
一种 。
? ( 3) 同一标本用两种方法检测 采集的同一份标本或
样品如果用两种方法进行检测, 则得到一对数据 。 检
测一批样品则得到若干对数据 。 此种设计也属于配对
设计 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 577 页
? 交叉设计 ( cross-over design) 是一种特殊的自身对
照设计 。 它克服了由于施加于受试对象的处理因素在
时间上的不同而导致的试验效应的偏差 。
? ( 一 ) 交叉设计的特点
? 1.节约样本含量, 试验效率高 。
? 2.可以均衡因施加处理因素的时间顺序不同对试验效
应的影响 。
? 3.每个受试对象均可接受 A和 B两种处理因素 。
? 4.需用交叉设计的方差分析方法处理数据, 其计算稍
嫌繁琐 。
三、交叉设计
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 578 页
? 例 10.5 试将 10对受试者随机分入甲, 乙两处理组 。
? 先将受试者编号, 如第一对第 1受试者编为 1.1,第 2受
试者编为 1.2,余仿此 。 随机指定附表 17随机排列表第
2行, 舍去 10~ 19之间的数字, 并规定单数取甲乙顺序,
双数取乙甲顺序 。
受试者号
1, 1
1, 2
2, 1
2, 2
3, 1
3, 2
4, 1
4, 2
5, 1
5, 2
6, 1
6, 2
7, 1
7, 2
8, 1
8, 2
9, 1
9, 2
1 0, 1
1 0, 2
随机数字
处 理
8
乙
甲
7
甲
乙
6
乙
甲
2
乙
甲
5
甲
乙
9
甲
乙
0
乙
甲
1
甲
乙
4
乙
甲
3
甲
乙
表 10-5 按配对设计的要求将 10对病人进行分组
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 579 页
? 5.要求两种处理因素不能相互影响 。 观察时间不能过
长, 处理效应不能持续过久 。
? 6.临床试验设计中, 不适合于急性病的疗效观察 。 由
于急性病的病程较短, 在试验的第一阶段该病可能已
经治愈, 则在第二阶段不可能再显示出疗效 。
? 7.该设计应采用双盲法设计较好, 以避免试验执行者
和病人的心理偏见 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 580 页
? ( 二 ) 设计方法
? 1.先将条件相近的受试对象按 1:1配成若干对子;
? 2.用随机方法将每对中的两个个体分为两组;
? 3.决定两个组中的哪个组的受试对象先用 A处理因素,
后用 B处理因素;另一组的受试对象则与此相反 。 例如,
第一组先给 A,第二组先给 B;经一定时间后, 第一组
再给 B,第二组再给 A。
? 4.在试验的不同时期即前后两个阶段, A与 B两种处理
因素既同时使用又交叉使用 。 两组中 A结果与 B结果之
差即为试验效应 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 581 页
? 例 10.6 已配成对子的 10对病人(共计 20例),请将他
们按交叉设计要求进行 A,B两种处理方式的随机分配。
? 分组方法及步骤如下 。
? ( 1) 将 10对病人任意编为 1~ 10号, 再将每对病人依
次编号为 1.1,1.2,2.1,2.2,… 等 。
? ( 2) 查附表 17随机排列表 。 任意指定随机排列表一行,
比如从该表第 9行, 舍去 10~ 20,将随机数字列于表
10-6中 。 若遇随机数字的单数, 则对子中的第 1个病人
先 A后 B,对子中的第 2个病人先 B后 A。 若遇双数, 则
对子中的第 1个病人先 B后 A,第 2个病人先 A后 B。 余
类推 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 582 页
受试者号
1, 1
1, 2
2, 1
2, 2
3, 1
3, 2
4, 1
4, 2
5, 1
5, 2
6, 1
6, 2
7, 1
7, 2
8, 1
8, 2
9, 1
9, 2
1 0, 1
1 0, 2
随机数字 9 3 0 2 1 5 8 6 4 7
用药顺序
AB
BA
AB
BA
BA
AB
BA
AB
AB
BA
AB
BA
BA
AB
BA
AB
BA
AB
AB
BA
表 10-6 按交叉设计要求对 10对病人进行分组
注意,所谓, 先 A后 B”是指试验开始的第一阶段,
先对相应病人使用 A处理因素;在试验的第二阶
段对该病人使用 B处理因素。, 先 B后 A”的意义与
此相反。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 583 页
? 随机区组设计( randomized block design) 也称为配
伍组设计或双因素设计。
? 它是 1:1配对设计的扩大。该设计是将受试对象按配对
条件先划分成若干个区组或配伍组,再将每一区组中
的各受试对象随机分配到各个处理组中去。
四、随机区组设计
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 584 页
? ① 进一步提高了各区组及处理组的均衡性及可比性;
②可控制一般设计中的混杂性偏倚;
? ③节约样本含量,增强试验效率;
? ④可同时分析两个处理因素的作用,且两因素应相互
独立,无交互作用;
? ⑤每一区组中受试对象的个数即为处理组数,每一处
理组中受试对象的个数即为区组数;
? ⑥可用双因素方差分析方法处理数据,计算较为繁琐;
⑦应特别注意该设计中受试对象的区组分组方法和处
理组分组方法,否则将影响到该设计的均衡性及试验
效率。
该设计的特点是,
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 585 页
? 例 10.7 研究人员在进行科研时, 要观察 2个因素的作用 。
欲用 20只动物分为五个区组和四个处理组 。 试进行设计
及分组 。
? 设计及分组方法和步骤如下,
? ( 1)该设计可采用随机区组设计方案。分析的两个因素
的作用可分别列为区组因素和处理组因素。两因素服从
正态分布、方差齐性且相互独立。
? ( 2)取同一品系的动物 20只。其中每一区组取同一窝出
生的动物 4只。五个区组即为五个不同窝别的动物。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 586 页
? ( 3) 将每一区组的 4只动物分别顺序编号为 1~ 4号,
5~ 8号, 9~ 12号, 13~ 16号, 17~ 20号, 接受 A,B、
C,D四种处理方式 。
? ( 4) 查附表 17 随机排列表, 任意指定 5行, 如第 9至
第 13行 。 每行只随机取数 1~ 4,其余数舍去 。 依次将
随机数字记录于各配伍组的编号下, 其随机数字即为
该动物应分入的处理组, 见表 10-7。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 587 页
表 10-7 按随机区组设计要求对 20只动物进行分组
表 10-8 20只动物的分组结果
动物编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
随机数字
分配组别
3
C
2
B
1
A
4
D
4
D
3
C
2
B
1
A
3
C
1
A
2
B
4
D
3
C
1
A
2
B
4
D
3
C
2
B
1
A
4
D
处理组
区组
A B C D
一 3 2 1 4
二 8 7 6 5
三 10 11 9 12
四 14 15 13 1 6
五 19 18 17
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 588 页
? 拉丁方( Latin square ) 是指用 r个拉丁字母排成 r行
r列的方阵,使每行每列中的每个字母都只出现一次,
此方阵叫 r阶拉丁方或 r× r拉丁方。拉丁方设计
( Latin square design)是利用拉丁方来安排并观察
分析三个处理因素试验效应的设计方法。
? 拉丁方设计的 基本要求 是,① 必须是三个因素的试验,
而且三个因素的水平数相等; ② 三个因素相互独立,
无交互作用; ③ 三个因素试验效应的测量指标服从正
态分布且方差齐性 。
?
五 *、拉丁方设计
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 589 页
? 拉丁方设计的 基本特点是, ① 拉丁方设计分别用行间,
列间和字母间表示三个因素及其不同水平; ② 拉丁方
方阵可以进行随机化, 目的是打乱原字母排列的有序
性 。 具体方法是, 将整行的字母上下移动或将整列的
字母左右移动 。 经多次移动即可以打乱字母的顺序性
并达到字母排列的随机化; ③ 无论如何随机化, 方阵
中每行每列每个字母仍只出现一次; ④ 拉丁方设计均
衡性强, 试验效率高, 节省样本含量, 可用拉丁方设
计的方差分析处理数据, 但计算较为繁琐 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 590 页
? 例 10.8 将 4× 4拉丁方的有序字母随机化 。 见表 10-9。
? 表 10-9中, 第 ( 1) 栏的拉丁方字母有顺序, 尚未随机
化 。 第 ( 2) 栏:将第 ( 1) 栏的第 1行与第 3行交换位
置 。 第 ( 3) 栏:将第 ( 2) 栏的第 1列与第 3列交换位
置 。 还可以继续随机化, 直到满意为止 。
表 10-9 拉丁方方阵的随机化
有序拉丁方
( 1 )
将 第( 1 )栏 的 第 1, 3 行
交换
( 2 )
将第( 2 )栏的第 1, 3 列
交换
( 3 )
A B C D A C D A B A A D C B
D A B C D A B C B A D C
C D A B A B C D C B A D
B C D A B C D A D C B A
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 591 页
六 *、析因设计
? (一 )概念及特点
? 析因设计( factorial design) 也称为析因实验
( factorial experiment),是一种多因素的交叉分组设
计。它不仅可检验每个因素各水平间的差异,而且可
检验各因素间的交互作用。
? 交互作用 是指两个或多个因素的作用相互影响,各
因素间互不独立,一个因素的水平有改变时,另一个
或几个因素的效应也相应有所改变。交互作用的结果
是使总的试验效应增强或降低。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 592 页
? 最简单的析因设计为 2× 2( 或 22) 析因设计 。 其意义
为,试验中共有 2个因素, 每个因素各有两个水平 。 再
如, 2× 2× 2( 或 23) 析因设计, 表示试验中有三个因
素, 每个因素各有两个水平 。
? 数字表达式 中的指数表示因素个数, 底数表示每个因
素的水平数 。
? 析因设计的特点是, ① 可分析多个因素多个水平的试
验效应, 可以分析各因素的独立作用及其各级交互作
用; ② 节省样本含量, 试验效率高; ③ 设计时较为复
杂, 计算较为繁琐 。 可用析因设计的方差分析处理数
据 。 当因素个数较多时, 计算量大, 计算工作相当繁
琐, 对计算结果的解释也会变得十分错综复杂 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 593 页
2× 2析因实验作用模式
? 表 10- 10 2× 2析因设计作用模式
因素 B
因素 A
B 1 B 2
A 1 A 1 B 1 A 1 B 2
A
A 2 A 2 B 1 A 2 B 2
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 594 页
(三)交互作用的类型
设实验研究中有 A,B,C,D四种因素, 其交互作用的类型如下 。
? ( 1) 独立作用, A,B,C,D,是四个因素各自的单独作用 。
? ( 2) 一级交互作用, A× B,A× C,A× D,B× C,B× D,
C× D,是任意两个因素的共同作用 。
? ( 3) 二级交互作用, A× B× C,A× B× D,A× C× D,
B× C× D,是任意三个因素的共同作用 。
? ( 4) 三级交互作用, A× B× C× D,是四个因素的共同作用 。
? 上述独立作用与交互作用总共需进行 15次试验, 目的在于得出各
因素的最佳水平及其组合 。 随着试验因素的增加, 交互作用及试
验次数会急剧增加 。 当试验次数很多时, 则宜采用正交试验设计 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 595 页
七 *、正交试验设计
? (一 ) 概念及特点
? 正交试验设计( orthogonal experimental design)是一
种高效的多因素试验的设计方法。它利用一套规格化
的正交表,合理地安排实验,通过对实验结果进行分
析,获得有用的信息。
? 正交设计的特点 是,
? ①可分析三个及三个以上因素的作用及其交互作用。
②用最少的试验次数获得更多的信息。
? ③可用方差分析处理正交设计的测量数据,但计算十
分繁琐。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 596 页
(二)设计方法及步骤
? 正交实验设计的步骤如下 。
? ( 1) 根据研究目的选择因素及其水平数;
? ( 2) 选择正交表 正交表是已经制好的统计用表, 专供
正交实验设计使用 。 表格的类型表示符号为 Ln(tk)。 其中 n
表示一套试验所需受试对象的个数, t表示每个因素的水
平数, k 表示可分析的因素数 。 例如, L8( 27) 的意义为:
一套试验需 8个受试对象, 每个因素有 2个水平, 最多可分
析 7个因素的作用及其交互作用 。 选择哪一种正交表取决
于某项研究的因素数, 各因素水平数及各因素间交互作用
的项数 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 597 页
(三)正交表应用实例分析
? 例 10.9 根据研究目的选择一个 L4( 23)正交表,并对该正交表及
其特点作出分析。
表 10- 11 L4( 23)正交表
列号
试验号
1 2 3
1 1 1 1
2 1 2 2
3 2 1 2
4 2 2 1
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 598 页
1.分析 该正交表 L4( 23) 的意义为:每套试验选择 4个
受试对象, 此处指表中试验号 。 最多可安排 3个试验因
素, 用列号表示 。 每因素有 2个水平, 水平 1和水平 2由
表中数字 1和数字 2表示 。 在 1号试验中, 第 1,2,3列
安排的 3个因素均取水平 1;第 2号试验中, 第 1,2,3
列的因素则分别取 1,2,2水平;余类推 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 599 页
2,该正交表的特点
(1)每列中出现水平 1和水平 2的次数相等 。
(2)对于任意两列的同一横行, 由两个数字构成数据对 。
本例的数据对有,( 1,1), ( 1,2), ( 2,1),
( 2,2) 。 在整个正交表中, 上述四个不同数据对出
现的次数相等 。 例如, 在第 1,2列同一横行中, 数据
对 ( 1,1), ( 1,2) 各出现一次;在第 1,3列的同
一横行中, 这两个数据对又各出现一次;在第 2,3列
中, 这两个数据对又再出现一次 。 这两个不同的数据
对总共各出现 3次 。 出现次数相等 。 其余二个数据对出
现次数也相等 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 600 页
八、盲法设计
? 盲法设计 ( design of blind method) 是指使研
究人员或病人不知道具体的研究设计方案, 从而避免
双方由于心理偏见造成的试验效应的偏差 。
? 盲法设计,一般分为单盲法及双盲法 。 单盲法是
指受试对象不知道自己被施加何种处理因素, 不知道
该处理因素的预期结果或效应, 而研究人员知道具体
的设计方案 。 该法主要用于消除受试对象的心理偏见 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 601 页
? 双盲法
是指实验执行者及受试对象均不知道具体的设计方
案及处理因素的预期结果或效应 。 只有该实验设计的
总负责人知道具体的设计方案 。 双盲法可以避免和消
除医护人员和病人双方的心理偏见 。 盲法设计在临床
试验中应用广泛, 尤其是针对病人的单盲法, 应用更
为广泛 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 602 页
THANK YOU FOR LISTENING
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 603 页
医学统计学
主讲 程 琮
泰山医学院预防医学教研室
zcheng@tsmc.edu.cn
医学本科生用
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 604 页
Teaching Plan
for Medical Students
? Medical Statistics
PROFESSOR CHENG CONG
Dept,of Preventive Medicine
Taishan Medical College
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 605 页
第 11章调查设计 目彔
? 第五节 样本含量的估计
? 第二节 调查计划
? 第三节 整理与分析计划
? 第四节 四种基本抽样方法
? 第一节 调查研究的特点
? 第六节 调查误差的控制
? 第七节 敏感问题的调查方法
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 606 页
第十一章 调查设计
第一节 调查研究的特点
调查设计,是统计研究设计的一个重要部分,是医学科
学研究的重要手段。
?调查研究 的主要特点是研究过程中没有人为施加的干
预措施,而是客观地观察记录某些现象的现状及其相
关特征。
?在调查中,与研究的现象及其相关特征(包括研究因
素和非研究因素)是客观存在的,不能采用随机分配
的方法来平衡或消除非研究因素对研究结果的影响,
这是调查研究 区别于 实验研究的最重要的特征。
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 607 页
?调查研究分为
( 1)横断面研究
( 2)现状研究
( 3)观察性研究。
通过横断面调查,可以了解某一特定时
间断面上特定人群中疾病或卫生服务的
现状及其与之相联系的各种因素(如某
病的患病率、人体的各种生理生化或病
理指标、卫生资源状况等)的分布情况。
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 608 页
第二节 调查计划
?调查计划,主要应解决下列几方面的问题。
?一、明确调查目的和指标
? 一是了解参数,用以说明总体特征;
? 二是研究变量间的相关联系,探索病因。这些都需
要通过具体指标来说明。因此,一定要把调查目的具
体到指标。
? 指标要精选,要重点突出。尽量选用客观性强、
灵敏度高和特异性强的定量指标,少用定性指标。
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 609 页
二、确定观察对象和观察单位
? 根据调查目的和指标, 确定观察对象和观察单位,
即划清调查总体的同质范围, 特别是作参数估计时更
为重要 。
?如上述食管癌调查, 观察对象是该地某年的常住人口,
观察单位是每个, 人,, 同属该地区和时间范围的全
部常住人口组成研究的总体 。
?注意:观察对象可以是人, 但观察单位则也可以是人
的眼睛或牙齿等 。
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 610 页
三、调查方法
?按调查的范围,可分为 普查 和 非全面调查,后者又以
抽样调查 和 典型调查 最为常用 。
? 1.普查 ( census) 亦称全面调查 ( complete survey)
就是将组成总体的所有观察单位全部加以调查, 如我
国的第五次人口普查 。 理论上只有普查才能取得总体
参数, 没有抽样误差, 但往往非抽样误差较大 。 普查
一般都是用于了解总体某一特定, 时点, 的情况, 如
年中人口数, 时点患病率等 。
? 2.抽样调查( sampling survey) 是指从总体中随机
抽取一定数量的观察单位组成样本,然后用样本信息
来推断总体特征。因而节省人力、财力和时间
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 611 页
3.典型调查( typical survey) 亦称案例调查,即在
对事物作全面分析的基础上,有目的地选定典型的人、
典型的单位进行调查。
由于典型调查没有遵循随机抽样的原则,不能用于
估计总体参数,但在一定条件下,根据专业知识,选
定一般典型,可对总体特征作经验推论,但这不属统
计推断的范畴。
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 612 页
四、搜集原始资料的方式
? 主要有两种:直接观察法和采访法
? 1.直接观察法 是由调查人员到现场对
观察对象进行直接观察、检查、测量或
计数来取得资料。
? 2.采访法 是根据被调查者的回答来搜
集资料。
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 613 页
采访的方式常用的有三种,
①访问,即通过调查人向被调查人作口头询问,将答案填
入调查表,此法可以保证被调查人对问题的理解与设
计要求一致和调查资料的准确性。
②开调查会,即利用召开知情人座谈会的方式来搜集一
些资料,如农村食管癌死亡调查中,可通过召开村乡
干部、乡村医生、妇女代表等知情人员的调查会,全
面回顾调查期内的死者,初步推定死因,填入, 死亡
人口登记表,,再从表中选出可疑的食管癌死者,逐
户进行访问后确诊。因此,开调查会可起到初筛和快
速取得资料的作用。
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 614 页
③ 信访,即将调查表邮寄给被调查人,请
他们填好后寄回,如病例随访调查等常
用。采用信访法可节省人力、财力,但
由于调查人与被调查人不见面,被调查
人对调查问题的理解,常发生与设计要
求不一致的情况,一般失访较多,以致
影响调查资料的质量。
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 615 页
五、确定调查项目和调查表
? 根据调查指标确定每个观察单位的调查项目包括分析
项目和备查项目。
1.分析项目 是直接用于计算调查指标,以及分析明确排
除混杂因素影响所必须的内容。
2.备查项目 是为了保证分析项目填写的完整、准确,便
于核查、补填和更正而设置的,通常不直接用于分析。
如姓名,地址,联系电话等。
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 616 页
表 11-1 调查表举例
居 民 食 管 癌 死 亡 调 查 表
(编码)
住址 ______________县 _____________乡 ____________村 ___________居民组 □□□□□□□□
死者姓名 ____________________
性别 1男 2女 □
死亡日期 ___________年 _______月 ________日 出生日期 ___________年 _______月 ______日
死时实足年龄 ______岁 □□□
诊断依据 检查,
X线 1阳性 2阴性 9可疑 □
细胞病理 1阳性 2阴性 9可疑 □
临床表现,
进行性吞咽困难 1有 2无 9不明 □
食物反流 1有 2无 9不明 □
胸骨后闷, 胀痛 1有 2无 9不明 □
进行性消瘦或恶病质 1有 2无 9不明 □
病程 __________月 □□
诊断结果 1是 2否 3可疑 □
调查人 _____________________ 调查日期 ___________年 ___________月 ___________日
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 617 页
? 项目的答案有两种设计,
? ①封闭式选择答案, 有确定的多个固定答案可选,
一般只选一项,此类宜多用。
? ②开放式回答 。即不预先给定固定答案,让被调查者
自由地说出自己的情况和想法,如症状或病程等。 优
点 是可用于设计者不了解答案有哪些,或答案难于一
一列举; 缺点 是容易离题,调查时间花费较多,不便
综合汇总。
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 618 页
调查表
? 调查表 (questionnaire),或称问卷,把调查项目按
提问的罗辑顺序列成表格, 供调查时使用 。
? 调查表的格式可分为单一表和一览表 。
? 单一表:每表只填一个观察单位, 每一观察单位的
调查项目较多时适用于大量人群的调查;整理资料十
分方便 。
?一览表:每表可填多个观察单位, 每一观察单位的调
查项目较少时 。 适用于较小人群的调查 。 整理资料不
太方便 。
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 619 页
六、制订调查的组织计划
? 主要包括,
? 组织领导, 宣传动员群众, 时间进度, 调查员培训,
任务分工与联系, 经费预算, 调查表格和宣传资料的
准备, 以及调查资料的检查制度等内容 。 在正式调查
之前, 应先作小范围的试查, 以便检验调查表设计,
并作必要的修改 。
? 检查资料有无错误, 一般从两方面考虑,
? ① 逻辑检查, 即根据项目的性质及其相互关系, 检查
填写内容有无矛盾,
? ② 计算机检查, 即验算计算机项目有无错误
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 620 页
第三节 整理与分析计划
一,数据的计算机录入与清理
1.录入前,设置数据范围。
2.录入时,对同一资料,用甲、乙两位录入员,分别重
复录入。
3.录入后
①抽查部分调查表,了解输入质量。
②用统计软件做些简单的统计描述,如编制频数分布表,
发现异常值;作两相关变量的散点图,发现异常点等
③针对调查项目间的逻辑关系,编制检查程序,用于检查
数据间的逻辑矛盾。
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 621 页
二、设计分析表和资料的分组
? 设计分组 (classification)是将性质相同的观察单位合在
一起,将性质不同的观察单位分开,把组内的差异性
或相似性显示出来。
? 分组有两种:①类型分组,按分组因素的类别来分组,
如将观察单位按性别、职业、疾病分类,某项检查结
果的阳性或阴性等分组;②数量分组,即按分组因素
的数量大小来分组,如将观察单位按年龄大小、血压
高低等分组。两种分组往往结合使用 。
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 622 页
三、汇总方法
手工汇总一般采用划记法或分卡法 。
1.划记法 就是汇总时用划, 正, 字或, +++, 来记数 。
此法简便易行, 但易出错, 因此, 划记时要小心细致,
至少要重复划两遍以资核对 。 常用于观察单位数不多,
调查项目较少的汇总 。
2.分卡法 就是直接把原始记录卡分别归入各组,经过
核对,然后清点每组卡片的张数,就是该组的观察单
位数。
3.穿孔法,在调查表的边缘打上一些孔,对于阳性指标
将孔剪开与外界相通,通过穿孔将阳性指标分出来。
此法在手工汇总中是最方便快捷的。
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 623 页
四、组织计划
? 一般包括,
组织分工、时间进度和汇总要求等,
特别是大规模的协作调查,有明确
的组织计划才能使各 协作 单位步骤
一致,按期完成总结。
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 624 页
第四节 四种基本抽样方法
? 不同抽样方法, 样本均数及其抽样误差的算法不同,
而且无限总体和有限总体抽样的算法也不同 。 前面各章
讲的都是无限总体抽样, 而在现场调查中, 常在有限总
体中抽样 。 常用的抽样方法有下列四种 。
一、单纯随机抽样
单纯随机抽样( simple random sampling) 是指先
将调查总体的全部观察单位编号,再用随机数字表或抽
签等方法随机抽取部分观察单位组成样本。
优点 是均数 ( 或率 ) 及标准误的计算简便 。
缺点 是当总体例数较多时, 要对观察单位一一编号, 甚为
麻烦, 实际工作中有时难于办到 。
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 625 页
二、系统抽样
系统抽样( systematic sampling) 又称等距抽样或机械
抽样。即先将总体的观察单位按某一顺序号等分成 n个部
分,再从第一部分随机抽第 k号观察单位,依次用相等间
隔,机械地从每一部分各抽一个观察单位组成样本。
系统抽样的 优点 是:①易于理解,简便易行。 ②容易得到
一个按比例分配的样本。
系统抽样的 缺点 是:①当总体的观察单位按顺序有周期趋
势或单调增减趋势,则系统抽样将产生明显的偏性。
②实际工作中的一般按单纯随机抽样方法估计抽样误差,
但系统抽样抽取各处观察单位并不是彼此独立的,
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 626 页
三、整群抽样
?而 整群抽样( cluster sampling) 是先将总体划
分为 K个, 群, 组,每个群包括若干观察单位;再随机
抽取 k个, 群,,并将被抽取的各个群的全部观察单位
组成样本。
?整群抽样的 最大优点 是便于组织,节省经费,容易控
制调查质量。它的 缺点 是当样本例数一定时,其抽样
误差一般大于单纯随机抽样的误差。
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 627 页
四、分层抽样
?分层抽样( stratified sampling) 又称分类抽样,即先
按影响观察值变异较大的某种特征,将总体分为若干
类型或组别,再从每一层内随机抽取一定数量的观察
单位,合起来组成样本。有两种方法,
?按比例分配( proportional allocation)法
?最优分配( optimum allocation)法
?分层抽样的 优点 是:①减少抽样误差。分层后增加了
层内的同质性,因而可导致观察值的变异度减小,各
层的抽样误差减小,。 ②便于对不同的层采用不同的
抽样方法。 ③还可对不同层独立进行分析。
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 628 页
第五节 样本含量估计
? 在抽样设计中还要考虑样本含量的大小, 即样本观察
单位数的多少问题 。 因为样本例数过少, 所得指标不够
稳定, 用于推断总体的精度差, 检验效能低;样本例数
过多, 不但造成不必要的浪费, 也给调查的质量控制带
来更多的困难 。 估计样本例数的目的是在保证一定精度
和检验效能的前提下, 确定最少的观察单位数 。
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 629 页
? 抽样方法不同, 估计样本例数的方法各异 。 本节重点
讲述单纯随机抽样时, 估计总体均数所需样本例数 n的
方法, 为此要确定,
? ① 容许误差 δ, 即预计样本统计量与相应总体参数的
最大相差值控制范围 。
? ② 所调查总体的标准差 ?, 若不了解, 须通过试查,
过去的经验或有关资料作估计 。 有限总体抽样, 还须
了解总体观察单位数 N。
? ③ 第一类错误的概率 α, 通常取 α =0.05。 若要求 α
越小, 则所需样本例数越多, 要结合需要与可能来决
定 。
? 具体抽样方法:略 。
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 630 页
第六节 调查误差的控制
? 调查结果常常出现误差。
? 除有抽样误差外, 还可能有非抽样误差 。 抽样误差不
仅易于控制, 还可作出估计, 但非抽样误差的控制却
比较复杂 。
?因为,① 抽样误差的控制主要与调查设计人员有关;
而非抽样误差的控制, 不仅与设计人员有关, 还涉及
到为数众多的调查人员和观察对象;
?② 从时间上来说, 抽样误差的控制, 主要在设计阶段;
而非抽样误差的控制, 则要求贯穿到设计, 资料搜集,
整理, 分析的全过程 。 非抽样误差来源纷繁, 形式多
样 。
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 631 页
一、设计阶段
非抽样误差可能来自,
①调查指标选择不当
②调查对象的范围划分不当。
③调查项目的定义不明确。
④周岁年龄计算不准确。
⑤编制周密的逻辑检查与计算检查提纲,以提高资料检
查的效果。
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 632 页
二、调查阶段
? 非抽样误差可能来自,
? ①调查人员的工作态度不好,业务水平不足。
? ②被调查者因故不在、躲避调查、拒绝回答、有意隐
瞒、记忆不清等。
? 为此应广泛开展宣传,争取群众积极配合;家访要摸
清被调查者在家的时间规律,并作必要的补查;对敏
感问题,要进行细致的思想工作,注意保密,或从侧
面了解,或用下节随机应答技术;对记忆不清者可请
知情人、同龄人帮助回忆。
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 633 页
三、整理与分析阶段
? 非抽样误差可能来自编码, 录入, 汇总, 计算等方面
的错误 。 为此, 应严格地进行资料清理和检查, 及时
发现和更正错误 。
? 评价调查质量必须联系非抽样误差的控制,后者一般
采用两种方法来衡量:①抽样复查。即随机抽取部分
已调查对象,再次组织更严格的标准调查,抽查人员
不得在原调查单位参加复查
? ②与不同来源的同类资料作对比。
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 634 页
第七节 * 敏感问题的调查方法
? 敏感问题 (sensitive question) 包括对国家政策、
社会规范、伦理道德的态度、经济收入、生活行为以
及个人隐私等。被调查者往往被拒绝回答或隐瞒,但
却是一个不容忽视的社会问题。
? 对敏感问题的调查应该既能满足其本人不泄密, 又
能如实了解社会群体的问题 。 对敏感问题的调查经常
采 用的 是随 机应 答技 术 ( randomized response
technique,RRT) 。
? 具体方法,略 。
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 635 页
Thank You for Listening
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 636 页
医学统计学
主讲 程琮
泰山医学院预防医学教研室
zcheng@tsmc.edu.cn
本科生用
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 637 页
第 12章统计表与统计图 目彔
? 第二节统计图
? 第一节 统计表
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 638 页
学习要求
? 掌握统计表与统计图的概念和意义;
? 掌握统计表与统计图的特点及应用条件;
? 掌握统计表与统计图的绘制原则;
? 掌握统计表与统计图的类型及各类型的应用条件,
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 639 页
?统计表( statistical table) --- 把统计分
析资料及其指标用表格列出,称为统计表。它
可以代替冗长的文字叙述,便于计算、分析和
对比。
?统计图( statistical graph) ---- 是用点、
线、面等表达统计资料中数量及其变化趋势,
使统计资料更形象、更易懂,可直观地反映出
事物间的数量关系。
第一节 统计表
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 640 页
?由于统计图对数量的表达比较粗略,
不便作深入细致的分析, 所以一般
在绘制统计图时, 都应附有统计表 。
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 641 页
? 统计表主要有表序、标题、标目、表体和线条等组成,
其基本格式如下,
纵标目?? 合计
表体(数字)
横标目
┆
┆
合计
顶线
标目线
合计线
底线
表序 标题 ××××××××
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 642 页
一、制表的基本要求
? 1.标题, 简明扼要能概括表中内容,它应包括时
间、地点、内容等。标题应写在表顶线的上端
中间的位置 。
? 2.标目 用以说明表内数字含义的部分叫标目 。
( 1) 横标目 横标目位于表左侧, 是统计表所要
叙述的主语, 它说明同一横行数字的意义 。
( 2) 纵标目 纵标目位于标目线的上端,是被
说明事物的宾语,一般是绝对数或统计指标。
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 643 页
? 3.线条 线条应尽量减少,除顶线、标目线、
合计线和底线外,其余线条均可省略。特别是
表的左上角的斜线和两侧的边线应一律不用 。
? 4.数字 表内的数字一律用阿位伯数字,同一
指标位数要对齐,小数点的位数要一致,一般
保留 1~ 2位小数。无数字的空格用, —,表示,
暂缺或未记录用, …” 表示。
? 5.备注 表内不应有其他文字出现,需要说明
的备注用, *” 号标出,写在表的底线下面。
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 644 页
二、统计表的种类
? 1.简单表 只按一个特征或标志分组的统计表称
为简单表 。 如表 12-1。
? 2.复合表 按两个或两上以上特征或标志结合起
来分组的统计表称复合表或组合表。
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 645 页
? 表 12-1 某地某年流行性脑脊髓炎各病型的病死率
病 型 病人数 死亡人数 病死率( % )
菌血型 59 4 6.78
脑 型 778 48 6.17
784 29 4.97 混合型
合 计 1621 91 5.61
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 646 页
轻 中 重
病死率 病人数 病死率 病人数 病死率
病 型
病人数 死亡
人数 ( % )
死亡
人数 ( % )
死亡
人数 ( % )
菌血型 25 0 0.00 27 0 0.00 7 4 54.14
脑 型 428 2 0.47 224 11 4.91 126 35 27.78
373 1 0.26 241 7 2.90 17 0 31 18.23 混合型
合 计 826 3 0.36 492 18 3.65 303 70 23.10
表 12-2 某地 1995年流行性脑脊髓膜炎不同病型病死率与病情轻重的关系
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 647 页
第二节 统计图
? 统计图 有多种,医学研究工作中常用的统计图
有,
? 直条图、百分直条图、圆形图、线图、半对数
线图、直方图、散点图、箱式图和统计地图等 。
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 648 页
1.根据资料性质和分析的目的,
正确选择合适的图型。
?间断性资料,
( 1)直条图、箱式图 —— 比较各个相互独立的
样本指标 。
( 2)圆形图、百分直条图 —— 表示各组成部分
或各构成部分的情况 。
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 649 页
? 连续性资料
? 线图 —— ① 表示数量随时间的变迁;②表示某
种现象随另一种现象而变迁 。
? 半对数线图 —— 比较两个或几个率的变化速度
? 直方图 —— 表示变量的频数分布。
? 地域性资料,
? 统计地图:表示某种事物的地理分布 。
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 650 页
? 2.每图应有标题,其要求与统计表相同,一般
放在图下方正中。
? 3.纵横两轴应有标目 并注明单位。
?横标目,一般表示主语,如疾病名称、发病时
间、年龄组等,尺度自左向右;
?纵标目,表示宾语,一般表示频数、比或率,
尺度自下而上,一般需从零开始,由小到大。
?纵横两轴 长宽比例 一般为 5:7为宜。
?4.若图中用不同颜色或线条代表不同事物,则
须在图中加以说明。
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 651 页
二、常用统计图及其绘制方法
? 1,直条图( bar graph)
? 它是以等宽直条的长短来表示各指标的数值,
用来表示各相互独立指标之间的对比关系。直
条图有 单式直条图 (见图 12-1),复式直条图
(见图 12-2)两种。
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 652 页
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 653 页
? 2,圆形图( pie graph)
? 圆形图是以圆面积为 100%,圆内各扇形面积为
各部分所占的百分比,用来表示总体各组成部
分的构成比。如图 12-3。
? 圆面积的百分之一相当于 3.6°, 将资料各
部分所占的百分数乘以 3.6° 即得各部分应占
的度数 。
? 圆内各部分按百分比的大小顺序或按事物自
然顺序排列, 一般以时钟 12点或 9点的位置作
始点, 顺时针方向排列 。
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 654 页
图 12-3 1996年我国农村居民主要疾病的死因构成比
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 655 页
? 3,百分直条图( percent bar graph)
亦称构成直条图,其作用和适用范围
与圆形图是相同的。它只是以一直条
的面积为 100%,直条内各段的面积为
相应部分所占的百分比。见图 12-4。
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 656 页
图 12-4 某地 1983年五种主要死因构
成
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 657 页
? 4,线图( line graph)
它是用线段的上升、下降来说明某事物
在时间上的发展变化的趋势,或某现象
随另一现象变迁的情况。如图 12-5,适
用于连续性资料。
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 658 页
图 12-5 某市市区人口各年度出生率( 1‰ )、死亡率
(1‰ )、自然增加率 (1‰ )
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 659 页
? 5.半对数线图 ( semilogarithmic line
graph)
它是纵轴为对数尺度, 横轴为算术尺度的
线图 。 由于同样的增长速度在对数尺度
上的距离是相等的, 因此便于两事物或
两种以上事物在发展速度上的对比 。 如
图 12-6。
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 660 页
图 12-6 某市市区各年度急性传染病、肺结核死亡率
(1/10万 )
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 661 页
? 6,直方图( histogram)
直方图是以各矩形的面积表示各组段的频数,
各矩形面积的总和为总频数,适用于表示连续
性资料的频数分布。
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 662 页
图 12-7 某市某年乙脑患者的年龄分布(正确图)
图 12-8 某市某年乙脑患者的年龄分布(错误图)
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 663 页
? 7,散点图 ( scatter diagram)
? 散点图是用点的密集程度和趋势表示两现象
间的相关关系 。 见第九章 。
?,箱式图 (box plot)
? 常用于反映几组数据的变化情况并进行直观比
较分析, 如图 12-9。 以, 箱子, 上端为 P75,下
端为 P25,中间以横线示 P50,最大值, 最小值
为, 箱子, 上下两个柄, 用于数据直观比较分
析 。
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 664 页
图 12-9 抑肿瘤药不同剂量组与对照组用药后小白鼠肿
瘤重量的比较
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 665 页
? 9,统计地图( statistical map)
? 统计地图是用点、线、颜色、形象
或其他符号绘制于地图上,以表示
某种事物的地理分布情况。
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 666 页
THANK YOU FOR LISTENING
第 1章绪论 第 1页 共 666页
医学本科生用
医 学 统 计 学
主讲 程 琮
泰山医学院预防医学教研室
zcheng@tsmc.edu.cn
C,CHENG 结束 返回章目录 返回总目录
第 1章绪论 第 2页 共 666页
The teaching plan
for medical students
Professor Cheng Cong
Dept,of Preventive Medicine
Taishan Medical College
C,CHENG 结束 返回章目录 返回总目录
第 1章绪论 第 3页 共 666页
预防医学教授,硕士生导师。男,1959年 6月出生。汉族,无党派。
1982年 12月,山东医学院公共卫生专业五年本科毕业,获医学学士学位。
1994年 7月,上海医科大学公共卫生学院研究生毕业,获医学硕士学位。
2003年 12月晋升教授。现任预防医学教研室副主任。主要从事, 医学统
计学,,, 预防医学,,, 医学人口统计学, 等课程的教学及科研工作,
每年听课学生 500-800人。自 2000年起连续六年,为硕士研究生开设, 医
学统计学,,, SPSS统计分析简明教程,,, 卫生经济学, 等课程,同
时指导研究生的科研设计、开题报告及科研资料的统计处理与分析。发
表医学统计学及预防医学的科研论文 30多篇。代表作有, 锌对乳癌细胞
生长、增殖与基因表达的影响,,,,行列相关的测度, 等。主编、副
主编各类教材及专著 8部,代表作有, 医学统计学,,, SPSS统计分析简
明教程, 获得院级科研论文及科技进步奖 8项,院第四届教学能手比赛二
等奖一项,院教学评建先进工作者一项。获 2004年泰山医学院首届十大
教学名师奖。
程琮教授简介
C,CHENG 结束 返回章目录 返回总目录
第 1章绪论 第 4页 共 666页
医学统计学总目录
? 第 1章绪论
? 第 2章定量资料统计描述
? 第 3章总体均数的区间估计和假设检验
? 第 4章方差分析
? 第 5章定性资料的统计描述
? 第 6章总体率的区间估计和假设检验
? 第 7章二项分布与泊松分布
? 第 8章秩和检验
? 第 9章直线相关与回归
? 第 10章实验设计
? 第 11章调查设计
? 第 12章统计表与统计图
C,CHENG 结束 返回章目录 返回总目录
第 1章绪论 第 5页 共 666页
第 1章绪论 目录
? 第五节 学习统计学应注意的几个问题
? 第二节 统计工作的基本步骤
? 第三节 统计资料的类型
? 第四节 统计学中的几个基本概念
? 第一节 医学 统计学的定义和内容
C,CHENG 结束 返回章目录 返回总目录
第 1章绪论 第 6页 共 666页
第一章 绪论
第一节 医学统计学的定义和内容
? 医学统计学 (medical statistics) ---是以
医学理论为指导,运用数理统计学的原理和方
法研究医学资料的搜集、整理与分析,从而掌
握事物内在客观规律的一门学科。
C,CHENG 结束 返回章目录 返回总目录
第 1章绪论 第 7页 共 666页
医学研究的对象 ----主要是人以及与其健康有关的各
种影响因素。
医学统计学的主要内容,
1.统计设计 包括实验设计和调查设计, 它可以合理地,
科学地安排实验和调查工作, 使之能较少地花费人力,
物力和时间, 取得较满意和可靠的结果 。
2.资料的统计描述和总体指标的估计 通过计算各种统
计指标和统计图表来描述资料的集中趋势, 离散趋势
和分布特征况 ( 如正态分布或偏态分布 ) ;利用样本
指标来估计总体指标的大小 。
C,CHENG 结束 返回章目录 返回总目录
第 1章绪论 第 8页 共 666页
3.假设检验 是通过统计检验方法 ( 如 t检验, u
检验, F检验, 卡方检验, 秩和检验等 ) 来推
断两组或多组统计指标的差异是抽样误差造成
的还是有本质的差别 。
4.相关与回归 医学中存在许多相互联系, 相互
制约的现象 。 如儿童的身高与体重, 胸围与肺
活量, 血糖与尿糖等, 都需要利用相关与回归
来分析 。
C,CHENG 结束 返回章目录 返回总目录
第 1章绪论 第 9页 共 666页
5.多因素分析 如多元回归, 判别分析, 聚类
分析, 正交设计分析, 主成分分析, 因子分析,
logistic回归, Cox比例风险回归等, 都是分
析医学中多因素有效的方法 ( 本书不涉及, 请
参考有关统计书籍 ) 。 这些方法计算复杂, 大
部分需借助计算机来完成 。
6.健康统计 研究人群健康的指标与统计方法,
除了用上述的某些方法外,他还有其特有的方
法,如寿命表、生存分析、死因分析、人口预
测等方法
C,CHENG 结束 返回章目录 返回总目录
第 1章绪论 第 10页 共 666页
医学统计工作可分为四个步骤,
统计设计, 搜集资料, 整理资料和分析资料 。
这四个步骤密切联系, 缺一不可, 任何一个步骤
的缺陷和失误, 都会影响统计结果的正确性 。
第二节 统计工作的基本步骤
C,CHENG 结束 返回章目录 返回总目录
第 1章绪论 第 11页 共 666页
设计( design) 是统计工作的第一步,也是关
键的一步,是对统计工作全过程的设想和计划
安排。
统计设计 ---就是根据研究目的确定试验因
素、受试对象和观察指标,并在现有的客观条
件下决定用什么方式和方法来获取原始资料,
并对原始资料如何进行整理,以及整理后的资
料应该计算什么统计指标和统计分析的预期结
果如何等。
一、统计设计
C,CHENG 结束 返回章目录 返回总目录
第 1章绪论 第 12页 共 666页
搜集资料 (collection of date) —— 是根据设计
的要求,获取准确可靠的原始资料,是统计分
析结果可靠的重要保证。
医学统计资料的来源主要有以下三个方面,
1.统计报表 统计报表是医疗卫生机构根据国家规
定的报告制度,定期逐级上报的有关报表。如
法定传染病报表、出生死亡报表、医院工作报
表等,报表要完整、准确、及时。
二、搜集资料
C,CHENG 结束 返回章目录 返回总目录
第 1章绪论 第 13页 共 666页
2.医疗卫生工作记录 如病历、医学检查
记录、卫生监测记录等。
3.专题调查或实验研究 它是根据研究目
的选定的专题调查或实验研究,搜集资
料有明确的目的与针对性。它是医学科
研资料的主要来源。
C,CHENG 结束 返回章目录 返回总目录
第 1章绪论 第 14页 共 666页
整理资料 ( sorting data) 的目的就是将搜集到的原始资
料进行反复核对和认真检查, 纠正错误, 分类汇总, 使其
系统化, 条理化, 便于进一步的计算和分析 。 整理资料的
过程如下,
1.审核:认真检查核对, 保证资料的准确性和完整性 。
2.分组:归纳分组, 分组方法有两种,
① 质量分组, 即将观察单位按其类别或属性分组, 如按性别,
职业, 阳性和阴性等分组 。
② 数量分组, 即将观察单位按其数值的大小分组, 如按年龄
的大小, 药物剂量的大小等分组 。
三、整理资料
C,CHENG 结束 返回章目录 返回总目录
第 1章绪论 第 15页 共 666页
3.汇总, 分组后的资料要按照设计的要求进行
汇总,整理成统计表。原始资料较少时用手工汇
总,当原始资料较多时,可使用计算机汇总。
四、分析资料
? 分析资料 (analysis of data) —— 是根据设计的
要求,对整理后的数据进行统计学分析,结合
专业知识,作出科学合理的解释。
C,CHENG 结束 返回章目录 返回总目录
第 1章绪论 第 16页 共 666页
1.统计描述 (descriptive statistics) 将计算出
的统计指标与统计表, 统计图相结合, 全面描述
资料的数量特征及分布规律 。
2.统计推断 (inferential statistics) 使
用样本信息推断总体特征。通过样本统计量进行
总体参数的估计和假设检验,以达到了解总体的
数量特征及其分布规律,才是最终的研究目的。
统计分析包括以下两大内容,
C,CHENG 结束 返回章目录 返回总目录
第 1章绪论 第 17页 共 666页
?医学统计资料按研究指标的性质一般分为定量资料、
定性资料和等级资料三大类。
一,定量资料
?定量资料( quantitative data) 亦称计量资料
( measurement data),是用定量的方法测定观察单
位(个体)某项指标数值的大小,所得的资料称定量
资料。如身高(㎝)、体重(㎏)、脉搏(次 /分)、
血压( kPa)等为数值变量,其组成的资料为定量资
料。
第三节 统计资料的类型
C,CHENG 结束 返回章目录 返回总目录
第 1章绪论 第 18页 共 666页
? 定性资料 ( qualitative data) 亦称计数资料
( enumeration data) 或分类资料 ( categorical
data), 是将观察单位按某种属性或类别分组, 清点
各组的观察单位数, 所得的资料称定性资料 。
? 定性资料的观察指标为 分类变量 ( categorical
variable) 。 如人的性别按男, 女分组;化验结果按
阳性, 阴性分组;动物实验按生存, 死亡分组;调查
某人群的血型按 A,B,O,AB分组等, 观察单位出现的
结果为分类变量, 分类变量没有量的差别, 只有质的
不同, 其组成的资料为定性资料 。
二、定性资料
C,CHENG 结束 返回章目录 返回总目录
第 1章绪论 第 19页 共 666页
三、等级资料
?等级资料( ranked data) 亦称有序分类
资料( ordinal categorical data),是
将观察单位按属性的等级分组,清点各组
的观察单位数,所得的资料为等级资料。
?如治疗结果分为治愈、显效、好转、无效
四个等级。
C,CHENG 结束 返回章目录 返回总目录
第 1章绪论 第 20页 共 666页
? 根据需要,各类变量可以互相转化 。若
按贫血的诊断标准将血红蛋白分为四个等
级:重度贫血、中度贫血、轻度贫血、正
常,可按等级资料处理。有时亦可将定性
资料或等级资料数量化,如将等级资料的
治疗结果赋以分值,分别用 0,1,2… 等表
示,则可按定量资料处理。
? 如调查某人群的尿糖的情况,以人为观
察单位,结果可分 —, ±,+、++、+
++五个等级。
C,CHENG 结束 返回章目录 返回总目录
第 1章绪论 第 21页 共 666页
同质( homogeneity) 是指观察单位或研究个
体间被研究指标的主要影响因素相同或基本相
同。如研究儿童的生长发育,同性别、同年龄、
同地区、同民族、健康的儿童即为同质儿童。
变异 ( variation) 由于生物个体的各种指标
所受影响因素极为复杂,同质的个体间各种指
标存在差异,这种差异称为变异。如同质的儿
童身高、体重、血压、脉搏等指标会有一定的
差别。
第四节 统计学中的几个基本概念
一、同质与变异
C,CHENG 结束 返回章目录 返回总目录
第 1章绪论 第 22页 共 666页
二、总体与样本
样本( sample),是从总体中随机抽取的部分
观察单位变量值的集合。样本的例数称为样本
含量 ( sample size) 。
注意,
1。总体是相对的,总体的大小是根据研究目
的而确定的。
2。样本应有代表性,即应该随机抽样并有足
够的样本含量。
C,CHENG 结束 返回章目录 返回总目录
第 1章绪论 第 23页 共 666页
图示:总体与样本
population
sample2
sample1
sample3
sample4
sample5
C,CHENG 结束 返回章目录 返回总目录
第 1章绪论 第 24页 共 666页
三、参数与统计量
参数( parameter),由总体计算或得到的统计
指标称为参数。总体参数具有很重要的参考价
值。如总体均数 μ,总体标准差 ? 等。
统计量( statistic),由样本计算的指标称为
统计量。如样本均数,样本标准差 s等。
注意,一般不容易得到参数,而容易获得样本
统计量。
C,CHENG 结束 返回章目录 返回总目录
第 1章绪论 第 25页 共 666页
四、抽样误差
?抽样误差( sample error), 由于随机抽样所
引起的 样本统计量与总体参数之间的差异 以及
样本统计量之间的差别称为抽样误差。如样本
均数与总体均数之间的差别,样本率与总体率
的差别等。
?注意,抽样误差是 不可避免的 。无论抽样抽得
多么好,也会存在抽样误差。
C,CHENG 结束 返回章目录 返回总目录
第 1章绪论 第 26页 共 666页
五、概率
? 概率( probability),是描述随机事件发生可能
性大小的量值。用英文大写字母 P来表示。概
率的取值范围在 0~ 1之间。当 P= 0时,称为不
可能事件;当 P= 1时,称为必然事件。
? 小概率事件,统计学上一般把 P≤0.05或 P≤0.01
的事件称为小概率事件。
? 小概率原理,小概率事件在一次试验中几乎不
可能发生。利用该原理可对科研资料进行假设
检验。
C,CHENG 结束 返回章目录 返回总目录
第 1章绪论 第 27页 共 666页
第五节 学习医学统计学应注意的问题
?1.重点掌握医学统计学的基本知识、基本技能、
基本概念和基本方法,掌握使用范围和注意事
项。
?2.要培养科学的统计思维方法,提高分析问题、
解决问题的能力。
?3.掌握调查设计和实验设计的原则,培养搜集、
整理、分析统计资料的系统工作能力。
C,CHENG 结束 返回章目录 返回总目录
第 1章绪论 第 28页 共 666页
课后作业
? 列举出计量资料、分类资料、等级资料
各 10个实例。
? 列举出可能事件、必然事件、不可能事
件及小概率事件各 10个。
? 认真复习本章已学过的基本概念 2- 3遍。
C,CHENG 结束 返回章目录 返回总目录
第 1章绪论 第 29页 共 666页
Best Wishes to All of You!
Thank You for Listening!
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 30页
医学本科生用
主讲 程 琮
泰山医学院预防医学教研室
zcheng@tsmc.edu.cn
医学统计学
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 31页
The teaching plan
for medical students
Professor Cheng Cong
Dept,of Preventive Medicine
Taishan Medical College
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 32页
第 2章定量资料的统计描述 目录
? 第二节 集中趋势的描述
? 第三节 离散趋势的描述
? 第四节 正态分布
? 第一节 频数分布表
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 33页
统计描述,是 用统计图表、统计指标来描述资
料的分布规律及其数量特征。
频数分布表 ( frequency distribution table),
主要由组段和频数两部分组成表格。
第一节 频数分布表
第二章 定量资料的统计描述
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 34页
二、频数分布表的编制
? 编制步骤,
? 1,计算全距 (range),一组变量值最大值和最小值
之差称为全距 (range),亦称极差,常用 R表示。
? 2,确定组距 (class interval),组距用 i表示;
? 3,划分组段,每个组段的起点称组下限,终点称组
上限。一般分为 8~ 15组。 ;
? 4,统计频数,将所有变量值通过划记逐个归入相应
组段 ;
? 5.频率与累计频率,将各组的频数除以 n所得的比值
被称为频率。累计频率等于累计频数除以总例数。
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 35页
表 2-2 某年某市 120名 12岁健康男孩身高( cm)的频数分布
身高组段
(1)
频数
(2)
频率 (%)
(3)
累计频数
(4)
累计频率
(%) (5)
125~ 1 0.83 1 0.83
129~ 4 3.33 5 4.17
133~ 10 8.34 15 12.50
…… …… …… …… ……
合计 120 100.00
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 36页
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 37页
二、频数分布表的用途
1.揭示资料的分布类型
2.观察资料的集中趋势和离散趋势
3.便于发现某些特大或特小的可疑值
4.便于进一步计算统计指标和作统计处理
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 38页
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 39页
第二节 集中趋势的描述
?集中趋势,代表一组同质变量值的集中趋势
或平均水平。
?常用的平均数有算术均数、几何均数和中位数。
?另外不常用的有:众数,调和平均数和调整均
数等。
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 40页
一、算术均数
?算术均数 (arithmetic mean),简称均数。
?适用条件,对称分布或近似对称分布的资料。
?习惯上以希腊字母 μ 表示总体均数 (population
mean),以英文字母表示样本均数 (sample mean)
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 41页
1,直接法:用于观察值个数不多时
n
X
X
?
?
计算方法
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 42页
2.加权法 (weighting method):用于变量值个数
较多时。
f
fX
fff
fff
k
kk
?
?
?
???
???
?
?
?
21
2211
XXX
X
注意,权数即频数 f,为权重权衡之意。
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 43页
身高
(1)
组中值 X
(2)
频数 f
(3)
fX
(4)=(2)(3)
fX2
(5)=(2)(4)
125~ 127 1 127 16129
129~ 131 4 524 68644
133~ 135 10 1350 182250
…… …… …… …… ……
合计 120 17168 2460040
表 2-4 120名 12岁健康男孩身高 (cm)均数和标准差加权法计算表
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 44页
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 45页
? 120名 12岁健康男孩身高均数为 143.07cm。
07.143
120
1 7 1 6 8
??X
计算结果
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 46页
? 几何均数 (geometric mean,简记为 G ):表示
其平均水平。
? 适用条件,对于变量值呈倍数关系或呈对数正
态分布 (正偏态分布 ),如抗体效价及抗体滴度,
某些传染病的潜伏期,细菌计数等。
? 计算公式,有直接法和加权法。
二、几何均数
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 47页
1.直接法,用于变量值的个数 n较少时
n
nXXXXG ?321 ???
?
?
?
?
?
? ?
??
?
?
?
?
? ???
?
??
n
X
n
XXX
G n
lg
lg
lglglg
lg
1211 ?
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 48页
31.116432168426 ???????G
31.110536.1lg
6
64lg32lg16lg8lg4lg2lglg 11 ???
?
??
?
? ?????? ??G
直接法计算实例
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 49页
2.加权法, 用于资料中相同变量值的个数 f
(即频数)较多时。
?
?
?
?
?
?
?
?
?
?
?
?
f
Xf
G
lg
lg
1
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 50页
抗体滴度
( 1)
频数 f
( 2)
滴度倒数 X
(3)
lgX
(4)
flgX
(5)=(2)(4)
1:4 2 4 0.6020 1.2040
1:8 6 8 0.9031 5.4186
1:16 7 16 1.2041 8.4287
…… …… …… …… ……
合计 50 - - 89.1045
表 2-5 50名儿童麻疹疫苗接种后血凝抑制抗体滴度几何均数计算表
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 51页
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 52页
55.607 8 2 1.1lg
50
1 0 4 5.89
lg 11 ???
?
?
?
?
?? ??G
50名儿童麻疹疫苗接种后平均血凝抑制抗体
滴度为 1:60.55。
计算结果,将有关已知数据代入公式有
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 53页
① 变量值中不能有 0;
②不能同时有正值和负值;
③若全是负值,计算时可先把负号去掉,得出结
果后再加上负号。
计算几何均数注意事项,
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 54页
㈠ 中位数
? 定义,将一组变量值从小到大按顺序排列, 位次
居中的变量值称为中位数 (median,简记为 M)。
?适用条件,① 变量值中出现个别特小或特大的数
值 ;② 资料的分布呈明显偏态, 即大部分的变量值
偏向一侧 ;③ 变量值分布一端或两端无确定数值,
只有小于或大于某个数值 ;④ 资料的分布不清 。
三、中位数及百分位数
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 55页
? 定义,百分位数 (percentile)是一种位置
指标,以 Px表示。百分位数是将频数等分
为一百的分位数。一组观察值从小到大按
顺序排列,理论上有 x%的变量值比 Px小,
有 (100-x)%的变量值比 Px大。故 P50分位数
也就是中位数,即 P50=M 。
㈡ 百分位数
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 56页
?① 描述一组资料在某百分位置上的水平;
?② 用于确定正常值范围;
?③ 计算四分位数间距 。
百分位数的应用条件,
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 57页
计算方法:有直接法和加权法
1.直接法:用于例数较少时
)
2
1
(
?? nXM
2/][
)1
2
()
2
( ?
?? nn XXM
n为奇数时
n为 偶数 时
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 58页
2.频数表法,用于例数较多时
)
2
( L
m
f
n
f
i
LM ????
)%( L
x
x fxn
f
i
LP ?????
中位数
百分位数
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 59页
潜伏期 (小时 )
( 1)
频数 f
( 2)
累计频数
(3)
累计频率(%)
(4)
0~ 17 17 11.7
6 ~ 46 63 43.4
12 ~ 38 101 69.9
…… …… …… ……
合计 145 - -
表 2-6 145例食物中毒病人潜伏期分布表
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 60页
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 61页
1,先找到包含 Px的最小累计频率;
2,该累计频率同行左边的组段值为 L;
3,L同行右边的频数为 fx(或 fm);
4,L前一行的累计频数为 ∑ fL;
5,将上述已知条件代入公式计算 Px或 P50 。
计算中位数及百分位数的步骤,
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 62页
计算结果,
5.13)63%50145(
38
612 ?????M
51.8)17%251 4 5(
46
66
25 ?????P
45.19)101%75145(
32
618
75 ?????P
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 63页
? 定义,用来说明变量值的离散程度或变异程度。
? 注意,仅用集中趋势尚不能完全反映一组数据的
特征。故应将集中趋势和离散趋势结合起来才能
更好地反映一组数据的特征。
? 常用离散指标有,极差、四分位数间距、标准差、
方差、变异系数。
第三节 离散趋势的描述
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 64页
? 甲组,184 186 188 190 192
? 乙组,180 184 188 192 196
? 两组球员的平均身高都是 188cm,但甲组球员
身高比较集中,乙组球员身高比较分散。为了
说明离散趋势,就要用离散指标。
实例分析
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 65页
㈠ 极差
? 极差 (range,简记为 R)亦称全距,即一组变
量值中最大值与最小值之差 。
?特点,计算简单,不稳定,不全面,易变化;
可用于各种分布的资料。
一、极差和四分位数间距
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 66页
㈡ 四分位数间距
? 公式,
Q= P75- P25
? 特点, 比极差稳定,只反映中间两端值的差异。
计算不太方便。可用于各种分布的资料。
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 67页
二、方差和标准差
? ㈠ 方差( variance)
N
X 22 )( ?
?
??
?
1
)( 22
?
??
?
n
XX
S
总体方差
样本方差
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 68页
自由度 (degree of freedom)的概念
?n-1是自由度,用希腊小写字母 ν 表示,读作
[nju:]。
?定义:在 N维或 N度空间中能够自由选择的维数
或度数。
?例,A+ B= C,共有 n=3个元素,其中只能任选
2个元素的值,故自由度 ν = n-1=3-1=2。
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 69页
方差的特点
1,充分反映每个数据间的离散状况,意义深刻;
2,指标稳定,应用广泛,但计算较为复杂,不
易理解;
3,方差的单位与原数据不同,有时使用时不太
方便;
4,在方差分析中应用甚广而极为重要。
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 70页
(二)标准差 (standard deviation)
N
X 2)( ?
?
??
?
1
)( 2
?
??
?
n
XX
S
总体标准差
样本标准差
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 71页
牢记:离均差平方和展开式,
n
x
xxxl
2
22 )(
)(
?
??????
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 72页
标准差的特点,
1,意义同方差,是方差的开平方;
2,标准差的单位与原数据相同,使用方便,
意义深刻,应用广泛;故一般已作为医
学生物学领域中反映变异的标准,故称
标准差。
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 73页
标准差的计算方法:可分为直接法和加权法。
? 1.直接法
1
)( 22
?
???
?
n
nXX
S
? 2.加权法
1
)( 22
??
????
?
f
ffXfX
S
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 74页
直接法:标准差计算实例,
例 2.12 例 2.2中 7名正常男子红细胞数 ( 1012/L) 如
下,4.67,4.74,4.77,4.88,4.76,4.72,4.92,计算其
标准差 。
? ∑x=4.67+4.74+4.77+4.88+4.76+4.72+4.92=33.46
?∑x2=4.672+4.742+4.772+4.882+4.762+4.722+4.922=15
9.99
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 75页
计算结果,
089.0
17
7/46.3399.159
.
2
?
?
?
?S
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 76页
? 例 2.13 对表 2-4资料用加权法计算 120名 12岁健
康男孩身高值的标准差。
加权法:标准差计算实例,
)(70.5
1120
120/171682 4 6 0 0 4 0 2
cmS ?
?
?
?
在表 2-4中已算得 ∑ fx=17168,∑fx 2 =2460040,代入公式
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 77页
? 变异系数 (coefficient of variation),简记为 CV ;
? 特征:①变异系数为无量纲单位,可以比较
不同单位指标间的变异度;②变异系数消除
了均数的大小对标准差的影响,所以可以比
较两均数相差较大时指标间的变异度。
三、变异系数
%100??
X
S
CV
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 78页
? 例 2.14 某地 20岁男子 160人,身高均数为
166.06cm,标准差为 4.95cm; 体重均数为
53.72kg,
标准差为 4.96kg。试比较身高与体重的
变异程度。
变异系数 计算实例
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 79页
身高
%98.2%100
06.166
95.4 ???CV
体重
%23.9%1 0 0
72.53
96.4 ???CV
变异系数 计算结果
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 80页
第四节 正态分布
一、正态分布的概念和特征
? 正态分布( normal distribution),也
称高斯分布,是医学和生物学最常见的连续性
分布。如身高、体重、红细胞数、血红蛋白等。
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 81页
图 2-1 120名 12岁健康男孩身高的频数分布
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 82页
㈠ 正态分布的函数和图形
2
2
1
2
1 ?
?
?
?
?
? ?
?
?
?
?
??
X
e)X(f
正态分布的密度函数,即正态曲线的方程为,
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 83页
图 2-2 频数分布逐渐接近正态分布示意
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 84页
为了应用方便,常按公式( 2.19)作变量变换
?
??
?
X
u
u值称为标准正态变量或标准正态离差,有的参
考书也将 u值称为 z值。
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 85页
这样将正态分布变换为标准正态分布
( standard normal distribution)
2
2
2
1
u
e)u(
?
?
?
?
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 86页
图 2-3 正态分布的面积与纵高
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 87页
㈡ 正态分布的特征
1,集中性 正态曲线的高峰位于正中央,
即均数所在的位置。
2,对称性 正态曲线以均数为中心,左右对
称,
3,正态分布有两个参数,即均数和标准差。
4,正态曲线下面积 有一定的分布规律
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 88页
图 2-4 不同标准差的正态分布示意
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 89页
二、正态曲线下面积的分布规律
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 90页
标准正态分布表( u值表)
? 标准正态分布曲线下的面积,由此表可查出
曲线下某区间的面积。查表时应注意,
①表中曲线下面积为 -∞ 到 u 的下侧累计面积;
②当已知 μ, ?,和 X时,先按公式( 2.19)求得
u值,再查表;当和未知时,并且样本例数在 100
例以上,常用样本均数和标准差 S分别代替 μ 和
?,按公式( 2.19)求得 u值;
③曲线下横轴上的总面积为 100%或 1
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 91页
? 例 2.16 前例 2.1中,某年某市 120名 12岁健康男孩身
高,已知均数 =143.07cm,标准差 S=5.70cm,
? ① 估计该地 12岁健康男孩身高在 135cm以下者占该地 12
岁男孩总数的百分数;
? ②估计身高界于 135cm~ 150cm范围内 12岁男孩的比例;
? ③分别求出均数 ± 1S、均数 ± 1.96S、均数 ± 2.58S范围
内 12岁男孩人数占该 120名男孩总数的实际百分数,说
明与理论百分数是否接近。
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 92页
根据题意,按公式( 2.19)作 u变换
421
705
70143135
1,.
.
u ??
?
?
221
705
07143150
2,.
.
u ?
?
?
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 93页
身高范围所占面积
? 故估计该地 12男孩身高在 135cm
以下者约占 7.78%;
? 身高界于 135cm~ 150cm范围内者
约占 81.10%。
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 94页
三、正态分布的应用
㈠ 制定医学参考值范围
参考值范围也称为正常值范围。医学上常把绝大数正
常人的某指标范围称为该指标的正常值范围。这里的“绝大
多数”可以是 90%,95%,99%,最常用的是 95%。
㈡ 质量控制
常以均数 ± 2S作为上、下警戒值,以均数 ± 3S作为上、
下控制值。
㈢ 正态分布是很多统计方法的理论基础
X X
END 返回章目录 C.CHENG 返回总目录
共 666页 第 2章定量资料统计描述 第 95页
THE END
THANK YOU FOR LISTENING
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 96页
本科生用
医学统计学教案
主讲 程 琮
泰山医学院预防医学教研室
Zcheng@tsmc.edu.cn
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 97页
The teaching plan
for medical students
Professor Cheng Cong
Dept,of Preventive Medicine
Taishan Medical College
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 98页
第 3章总体均数的区间估计和假设检验 目录
? 第五节 均数的 u 检验
? 第二节 t 分布
? 第三节 总体均数的区间估计
? 第四节 假设检验的意义和基本步骤
? 第一节 均数的抽样误差与标准误
? 第六节 均数的 t 检验
? 第七节两个方差的齐性检验和 t’检验
? 第八节 Ⅰ 型错误和 Ⅱ 型错误
? 第九节 应用假设检验应注意的问题
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 99页
图示:总体与样本
Population
μ
sample2
sample1
sample3
sample4
sample5
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 100页
? 一、标准误的意义及其计算
? 统计推断 (statistical inference), 根据样本信息来
推论总体特征。
? 均数的抽样误差,由抽样引起的样本均数与总体
均数的差异称为均数的抽样误差。
? 标准误 (standard error):反映均数抽样误差大
小的指标。
第一节 均数的抽样误差与标准误
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 101页
σ已知,
nX
?
? ?
n
S
S
X
?
标准误计算公式
σ未知,
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 102页
实例,如某年某市 120名 12岁健康男孩,已求得 均
数为 143.07cm,标准差为 5.70cm,按公式计算,则标
准误为,
52.0
1 2 0
70.5
??
X
S
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 103页
? 1.表示抽样误差的大小 ;
? 2.进行总体均数的区间估计;
? 3.进行均数的假设检验等 。
二、标准误的应用
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 104页
? 正态变量 X采用 u= (X- μ)/? 变换, 则一般
的正态分布 N (μ,?) 即变换为标准正态分布 N
(0,1)。
? 又因从正态总体抽取的样本均数服从正态分布
N(μ,),同样可作正态变量的 u变换,即
第二节 t 分布
一,t 分布的概念
X?
X?
n
XX
u
X ?
?
?
? ?
?
?
?
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 105页
? 实际工作中由于理论的标准误往往未知,而
用样本的标准误作为的估计值,此时就不是 u
变换而是 t变换了,即下式,
nS
X
S
X
t
X
?? ?
?
?
?
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 106页
t分布于 1908年由英国统计学家
W.S.Gosset以, Student”笔名发表,
故又称 Student t 分布 (Students’
t-distribution)。
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 107页
二,t分布曲线的特征
?t分布曲线是单峰分布,以 0为中心,左右两侧对称,
?曲线的中间比标准正态曲线( u分布曲线)低,两侧翘得
比标准正态曲线略高。
?t分布曲线随自由度 υ 而变化,当样本含量越小(严格地
说是自由度 υ =n -1越小),t分布与 u分布差别越大;当
逐渐增大时,t分布逐渐逼近于 u分布,当 υ =∞ 时,t分
布就完全成正态分布 。
?t分布曲线是一簇曲线,而不是一条曲线。
?t分布下面积分布规律:查 t分布表。
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 108页
t 分布示意图
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 109页
t分布曲线下双侧或单侧尾部合计面积
? 我们常把自由度为 υ 的 t分布曲线下双侧尾部
合计面积或单侧尾部面积为指定值 α 时, 则横
轴上相应的 t界值记为 tα,υ 。 如当 υ =20,
α= 0.05时, 记为 t0.05,20;当 υ =22,α
=0.01时, 记为 t0.01,22。 对于 tα,υ 值, 可根据
α 和 υ 值, 查附表 2,t界值表 。
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 110页
?t分布是 t检验的理论基础 。 由公式 ( 3.4) 可知,
│ t│ 值与样本均数和总体均数之差成正比, 与
标准误成反比 。
?在 t分布中 │ t│ 值越大, 其两侧或单侧以外的
面积所占曲线下总面积的比重就越小, 说明在
抽样中获得此 │ t│ 值以及更大 │ t│ 值的机会
就越小, 这种机会的大小是用概率 P来表示的 。
?│ t│ 值越大, 则 P值越小;反之, │ t│ 值越小,
P值越大 。 根据上述的意义, 在同一自由度下,
│ t│≥ tα, 则 P≤ α ; 反之, │ t│ < tα,
则 P> α 。
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 111页
第三节 总体均数的区间估计
? 参数估计,用样本指标(统计量)估计总
体指标(参数)称为 参数估计 。
? 估计总体均数的方法有两种, 即,
? 点值估计 ( point estimation )
? 区间估计 ( interval estimation) 。
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 112页
一、点值估计
? 点值估计,是直接用样本均数作为
总体均数的估计值。
? 此法计算简便,但由于存在抽样误
差,通过样本均数不可能准确地估
计出总体均数大小,也无法确知总
体均数的可靠程度 。
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 113页
二、区间估计
?区间估计 是按一定的概率 ( 1-α ) 估计包含总
体均数可能的范围, 该范围亦称总体均数的可
信区间 ( confidence interval,缩写为 CI) 。
?1-α 称为 可信度, 常取 1-α 为 0.95和 0.99,即
总体均数的 95%可信区间和 99%可信区间 。
?1-α ( 如 95% ) 可信区间的 含义是,总体均数
被包含在该区间内的可能性是 1-α, 即 ( 95
% ), 没有被包含的可能性为 α, 即 ( 5% ) 。
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 114页
总体均数的可信区间的计算
? 1.未知 ? 且 n较小 (n<100) 按 t分布的原理
XStX ??,?
2.已知 ? 或 n较大 (n≥100) 按 u分布的原理 ?
X
SuX ??
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 115页
? 95%的可信区间
? 为 123.7± 2.064× 2.38,即 ( 118.79,
128.61) 。 故该地 1岁婴儿血红蛋白平均
值 95% 的可信区间为 118.7~ 128.61
( g/L) 。
例 3.1 为了了解某地 1岁婴儿的血红蛋白浓度,从
该地随机抽取了 1岁婴儿 25人,测得其血红蛋白的
平均数为 123.7g/L,标准差为 11.9g/L。试求该地 1
岁婴儿的血红蛋白平均值 95%的可信区间。
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 116页
例 3.2 上述某市 120名 12岁健康男孩身高均数为
143.07cm,标准误为 0.52cm,试估计该市 12岁康
男孩身高均数 95%和 99%的可信区间。
? 95%的可信区间为 143.07± 1.96× 0.52,
即 ( 142.05,144.09) 。
? 99%的可信区间为 143.07± 2.58× 0.52,
即( 141.73,144.41)。
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 117页
注 意 点
?标准误愈小, 估计总体均数可信区间的范
围也愈窄, 说明样本均数与总体均数愈接
近, 对总体均数的估计也愈精确;
?反之, 标准误愈大, 估计总体均数可信区
间的范围也愈宽, 说明样本均数距总体均
数愈远, 对总体均数的估计也愈差 。
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 118页
表 3-1 标准差和标准误的区别
标 准 差( S ) 标 准 误 (
X
S )
1,表 示 个 体 变 量 值 的 变 异 度 大 小, 即 原 始 变 量 值 的
离散程度。公式为:
1
)(
2
?
??
?
n
XX
S
2,计算变量值的频数分布范围,如,
( SX 96.1? ) 。
3,可 对 某 一 个 变 量 值 是 否 在 正 常 值 范 围 内 作 出 初 步
判断。
4,用于计算标准误。
1,表 示 样 本 均 数 抽 样 误 差 的 大 小,即 样 本 均 数 的 离 散 程
度。公式为:
n
S
S
X
?
2,计算总体均数的可信 区间,如,
(
X
SX 96.1?
) 。
3,可对总体均数的大小作出初步的判断。
4,用于进行假设检验。
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 119页
第四节 假设检验的意义和基本步骤
? 假设检验( hypothesis test),亦称 显
著性检验( significance test),是统
计推断的重要内容。它是指先对总体的参
数或分布作出某种假设,再用适当的统计
方法根据样本对总体提供的信息,推断此
假设应当拒绝或不拒绝。
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 120页
例 3.3 根据大量调查,已知健康成年男子脉搏的均数为 72
次 /分钟,某医生在一山区随机测量了 25名健康成年男子脉搏
数,求得其均数为 74.2次 /分钟,标准差为 6.5次 /分钟,能
否认为该山区成年男子的脉搏数与一般健康成年男子的脉搏
数不同?
? 本例两个均数不等有两种可能性,
? ①山区成年男子的脉搏总体均数与一般健康成年男子的脉搏
总体均数是相同的,差别仅仅由于抽样误差所致;
? ②受山区某些因素的影响,两个总体的均数是不相同的。如
何作出判断呢?按照逻辑推理,如果第一种可能性较大时,
可以接受它,统计上称 差异无统计学意义( no statistical
significance) ;
? 如果第一种可能性较小时,可以拒绝它而接受后者,统计上
称 差异有统计学意义( statistical significance)。
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 121页
假设检验的一般步骤如下,
? 1.建立检验假设
? 一种是 无效假设( null hypothesis),符
号为 H0;
?一种是 备择假设( alternative hypothesis)
? 符号为 H1。
0?? ?
0?? ?
H0,H1,
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 122页
表 3-2 样本均数所代表的未知总体均数
与已知总体均数的比较
目 的 H
0
H
1
双侧检验
是否
0
?? ?
0
?? ?
0
?? ?
单侧检验
是否
0
?? ?
是否
0
?? ?
0
?? ?
0
?? ?
0
?? ?
0
?? ?
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 123页
表 3-3 两样本均数所代表的未知总体均数的比较
目 的 H 0 H 1
双 侧 检 验 是否
21
?? ?
21
?? ?
21
?? ?
单 侧 检 验
是否
21
?? ?
是否
21
?? ?
21
?? ?
21
?? ?
21
?? ?
21
?? ?
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 124页
? 2.确定检验水准 检验水准 (size of a test)
亦称 显著性水准 (significance level),符号
为 α 。 它是判别差异有无统计意义的概率水
准, 其大小应根据分析的要求确定 。 通常取 α
α = 0.05。
? 3.选定检验方法和计算统计量 根据研究设计
的类型和统计推断的目的要求选用不同的检验
方法。如完全随机设计中,两样本均数的比较
可用 t检验,样本含量较大时( n>100),可用 u
检验。不同的统计检验方法,可得到不同的统
计量,如 t 值和 u值。
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 125页
? 4.确定概率 P值 P值是指在 H0所规定的总体中
作随机抽样,获得等于及大于(或小于)现有
统计量的概率。
│ t│≥ tα,υ,则 P≤ α ; │ t│< tα,υ,
则 P > α 。
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 126页
? 5.作出推断结论
? ① 当 P≤α 时, 表示在 H0成立的条件下, 出现等于及
大于现有统计量的 概率是小概率, 根据小概率事件
原理, 现有样本信息不支持 H0,因而拒绝 H0,结论
为按所取检验水准拒绝 H0,接受 H1,即差异有统计
学意义, 如例 3.3 可认为两总体脉搏均数有差别;
? ② 当 P>α 时, 表示在 H0成立的条件下, 出现等于及
大于现有统计量的概率 不是小概率, 现有样本信息
还不能拒绝 H0,结论为按所取检验水准不拒绝 H0,
即差异无统计意义, 如例 3.3 尚不能认为两总体脉
搏均数有差别 。
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 127页
下结论时的注意点,
? P ≤α,拒绝 H0,不能认为 H0肯定不成立,因
为虽然在 H0成立的条件下出现等于及大于现有
统计量的概率虽小,但仍有可能出现;
? 同理,P >α,不拒绝 H0,更不能认为 H0肯定
成立。由此可见,假设检验的结论是 具有概率
性的,无论拒绝 H0或不拒绝 H0,都有可能发生
错误,即 第一类错误 或 第二类错误
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 128页
第五节 均数的 u检验
?国外统计书籍及统计软件亦称为单样本 u检验
( one sample u-test)。
?样本均数与总体均数比较的 u检验适用于,
?① 总体标准差 ? 已知的情况;
?② 样本含量较大时, 比如 n>100时 。 对于后者,
是因为 n较大, υ 也较大, 则 t分布很接近 u分
布的缘故 。
一、样本均数与总体均数比较的 u检验
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 129页
u 值的计算公式为,
总体标准差 ? 已知
时,不管 n的大小。
n/
X
u
0
0
?
??
?
nS
X
u
/
0??
?
总体标准差 ? 未知
时,但 n>100时。
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 130页
例 3.4 某托儿所三年来测得 21~ 24月龄的 47名
男婴平均体重 11kg。查得近期全国九城市城区大
量调查的同龄男婴平均体重 11.18kg,标准差为
1.23kg。 问 该托儿所男婴的体重发育状况与全国
九城市的同期水平 有无不同?(全国九城市的调
查结果可作为总体指标)
实 例
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 131页
? ( 1) 建立检验假设
? H0,μ = μ 0, 即该托儿所男婴的体重发育状
况与全国九城市的同期水平相同, α =
0.05(双侧 )
? H1,μ≠μ 0, 即该托儿所男婴的体重发育状
况与全国九城市的同期水平不同 。
? ( 2) 计算 u值 本例因总体标准差 ? 已知, 故
可用 u检验 。
? 本例 n=47,样本均数 =11,总体均数 =11.18,总
体标准差 =1.23,代入公式 ( 3.7)
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 132页
? ( 3)确定 P值,作出推断结论 查 u界值
表(附表 2,t界值表中为 ∞ 一行),得
u0.05=1.96,u=1.003< u0.05=1.96,故
P>0.05。按 α=0.05 水准,不拒绝 H0,差
异无统计学意义。
? 结论,可认为该托儿所男婴的体重发育
状况与全国九城市的同期水平相同。
0 0 31
47231
181111,
/.
.u ???
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 133页
二、两样本均数比较的 u检验
? 该检验也称为 独立样本 u检验 (independent
sample u-test),适用于两样本含量较大 ( 如
n1>50且 n2>50) 时, u值可按下式计算,
2
2
2
1
2
1
21
n
S
n
S
XX
u
?
?
?
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 134页
例 3.5 测得某地 20~ 24岁健康女子 100人
收缩压均数为 15.27kPa,标准差为 1.16kPa;
又测得该地 20~ 24岁健康男子 100人收缩压
均数为 16.11kPa,标准差为 1.41kPa。问该
地 20~ 24岁健康女子和男子之间收缩压均
数有无差别?
实 例
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 135页
( 1)建立检验假设
H0,μ 1 = μ 2,即该地 20~ 24岁健康女子和
男子之间收缩压均数相同;
H1,μ 1≠μ 2,即该地 20~ 24岁健康女子和男
子之间收缩压均数不同。
α = 0.05(双侧)
( 2)计算 u值
本例 n1=100,均数 1=15.27,S1=1.16
n2=100,均数 2=16.11,S2=1.41
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 136页
? ( 3)确定 P值,作出推断结论 查 u界值表
(附表 2,t界值表中为 ∞ 一行),得 u0.05=1.96,
现 u>u0.05=1.96,故 P<0.05。按水准 α =0.05,
拒绝 H0,接受 H1,差异有统计学意义。
? 结论,可认为该地 20~ 24岁健康人的收缩压均
数男性高于女性。
604
100
411
100
161
11162715
22
.
..
..
u ?
?
?
?
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 137页
第六节 均数的 t 检验
?当样本含量较小(如 n<50)时,t分布和
u分布有较大的出入,所以小样本的样本
均数与总体均数的比较以及两个样本均
数的比较要用 t检验。
?t检验的 适用条件,①样本来自正态总体
或近似正态总体;②两样本总体方差相
等。
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 138页
一、样本均数与总体均数比较的 t检验
? 亦称为 单样本 t检验( one sample t-test) 。即样本
均数代表的未知总体均数与已知的总体均数(一般为
理论值、标准值或经过大量观察所得的稳定值等)进
行比较。这时检验统计量 t值的计算在 H0成立的前提条
件下由公式( 3.4)变为,
nS
X
t
0??
?
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 139页
例 3.6 对例 3.3资料进行 t检验。
( 1) 建立检验假设
H0,μ = μ 0, 即该山区健康成年男子脉搏均数与一般
健康成年男子脉搏均数相同;
H1,μ≠μ 0, 即该山区健康成年男子脉搏均数与一般
健康成年男子脉搏均数不同 。
α = 0.05( 双侧 )
( 2) 计算 t值 本例 n = 25,s = 6.5,样本均数
=74.2,总体均数 =72,代入公式 ( 3.10)
6 9 2.1
255.6
|722.74| ????t
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 140页
( 3) 确定 P值,作出推断结论
本例 υ =25- 1=24,查附表 2,t界值表, 得
t0.05,24=2.064, 现 t=1.692< t0.05,24=2.064,
故 P>0.05。 按 α =0.05的水准, 不拒绝 H0,差
异无统计学意义 。
结论,即根据本资料还不能认为此山区健康成
年男子脉搏数与一般健康成年男子不同。
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 141页
二、配对资料的 t检验
? 医学科研中配对资料的三种主要类型,
?同一批受试对象治疗前后某些生理、生化指标
的比较;
?同一种样品,采用两种不同的方法进行测定,
来比较两种方法有无不同;
?配对动物试验,各对动物试验结果的比较等。
? 配对实验设计得到的资料称为配对资料。
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 142页
? 先求出各对子的差值 d的均值,若两种处理的效应无
差别,理论上差值 d 的总体均数应为 0。
所以这类资料的比较可看作是样本均数与总体均数为 0
的比较。
要求差值的总体分布为正态分布。
? t检验的公式为,
nS
d
nS
d
S
dt
ddd
d |||0||| ????? ?
配对资料的 t 检验
(paired samples t-test)
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 143页
例 3.7 设有 12名志愿受试者服用某减肥药,服
药前和服药后一个疗程各测量一次体重 (kg),数
据如表 3-4所示。问此减肥药是否有效?
( 1) 建立检验假设
H0,μ d=0,即该减肥药无效;
H1,μ d≠ 0, 即该减肥药有效 。
单侧 α= 0.05
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 144页
表 3-4 某减肥药研究的体重 (kg)观察值
个体号 服药前( X 1 ) 服药后( X 2 ) 差值 ( d = X
2
- X
1
) d
2
101
131
131
143
124
137
126
95
90
67
84
101
100
136
126
150
128
126
116
105
87
57
74
109
- 1
5
- 5
7
4
- 11
- 10
10
- 3
- 10
- 10
8
1
25
25
49
16
121
100
100
9
100
100
64
1
2
3
4
5
6
7
8
9
10
11
12
合 计 — — - 16 710
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 145页
? ( 2) 计算 t值
? 本例 n = 12,Σd = -16,Σd 2 = 710,
? 差值的均数 =Σd /n = -16/12 = -1.33(kg )
? ?
)(91.7
112
12)16(710
1
222
kg
n
ndd
S d ?
?
??
?
?
???
?
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 146页
? ( 3) 确定 P值, 作出推断结论 自由度 =n-
1=12-1=11,查附表 2,t界值表, 得单侧
t0.05,11=2.201,现 t=0.58 <t0.05,11=2.201,
故 P > 0.05。 按 α= 0.05水准, 不拒绝 H0,
差异无统计学意义 。
? 结论,故尚不能认为该减肥药有减肥效果 。
58.0
1291.7
|33.1|
?
?
?t
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 147页
例 3.8 某单位研究饮食中缺乏维生素 E与肝中维生
素 A含量的关系,将同种属的大白鼠按性别相同,年
龄、体重相近配成 8对,并将每对中的两头动物随机
分到正常饲料组和维生素 E缺乏组,然后定期将大白
鼠杀死,测得其肝中维生素 A的含量如表 3-5。
问不同饲料组的大白鼠肝中维生素 A含量有无差别?
(自学内容)
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 148页
三、两样本均数比较的 t检验
? 两本均数比较的 t检验亦称为成组 t检验,又称为 独立
样本 t检验 ( independent samples t-test)。
? 适用于比较按完全随机设计而得到的两组资料,比较
的目的是推断它们各自所代表的总体均数和是否相等。
21
21
XX
S
XX
t
?
?
?
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 149页
? 样本估计值为,
??
?
?
??
?
?
??
?
21
2 11
21 nnXX
??
??
?
?
??
?
?
?
?
???
?
?
??
?
?
??
?
21
212
21
2 11
21 nn
nn
S
nn
SS cc
XX
2
/)(/)(
21
2
2
2
2
21
2
1
2
12
??
????????
nn
nXXnXXS
c
总体方差已知,
标准误的计算公式
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 150页
若 n1=n2时,
? 已知 S1和 S2时,
2
)1()1(
21
2
22
2
112
??
???
?
nn
SnSn
S c
2
2
21
2
1
22
2121
nSnSSSS XXXX ?????
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 151页
例 3.9 测得 14名慢性支气管炎病人与 11名健康人的尿中
17酮类固醇( mol/24h)排出量如下,试比较两组人的尿
中 17酮类固醇的排出量有无不同。
? 原始调查数据如下,
? 病 人 X1,n=14; 10.05 18.75 18.99 15.94 13.96
17.67 20.51 17.22 14.69 15.10 9.42 8.21
7.24 24.60
? 健康人 X2,n=11; 17.95 30.46 10.88 22.38
12.89 23.01 13.89 19.40 15.83 26.72 17.29
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 152页
( 1)建立检验假设
H0,μ 1 = μ 2,即病人与健康人的
尿中 17酮类固醇的排出量相同
H1,μ 1 ≠ μ 2,即病人与健康人
的尿中 17酮类固醇的排出量不同
α = 0.05
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 153页
? ( 2) 计算 t值
? 本例 n1=14,ΣX 1=212.35,ΣX 12=3549.0919
? n2=11,ΣX 2=210.70,ΣX 22=4397.64
)24/(17.151435.212111 hm o lnXX ?????
9993.2921114 11)70.210(6486.439714)35.212(0919.3549
22
2 ?
??
????
cS
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 154页
? ( 3) 确定 P值 作出推断结论 υ =14+11-2=23,查 t界
值表, 得 t0.05,23=2.069,现 t=1.8035<t0.05,23= 2.069,故
P>0.05。 按 α= 0.05水准, 不拒绝 H0,差异无统计学意义 。
结论,尚不能认为慢性支气管炎病人与健康人的尿中 17
酮类固醇的排出量不同 。
2068.2
1114
11149993.29
21
??
?
??
?
?
?
??
? XXS
8035.1
2068.2
|15.1917.15| ???t
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 155页
四、两样本几何均数 t检验
?比较两样本几何均数的目的是推断它们各自代表的总
体几何均数有无差异。
?适用于,
?①观察值呈等比关系,如血清滴度;
?②观察值呈对数正态分布,如人体血铅含量等。。
?两样本几何均数比较的 t检验公式与两样本均数比较的
t检验公式相同。
?只需将观察 X用 lgX来代替就行了
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 156页
? 例 3.10 将 20名钩端螺旋体病人的血清随机分为两组,分
别用标准株和水生株作凝溶试验,抗体滴度的倒数(即稀
释度)结果如下。问两组抗体的平均效价有无差别?
标准株 (11人 ),100 200 400 400 400 400 800 1600 1600
1600 3200
水生株 (9人 ),100 100 100 200 200 200 200 400 1600
将两组数据分别取对数, 记为 x1,x2 。
x1,2.000 2.301 2.602 2.602 2.602 2.602 2.903 3.204 3.204
3.204 3.505
x2,2.000 2.000 2.000 2.301 2.301 2.301 2.301 2.602 3.204
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 157页
? 一、两样本方差的齐性检验
? 用较大的样本方差 S2比较小的样本方差 S2
第七节 两总体方差的齐性检验和 t'检验
(较小)
较大)
2
2
2
1
(
S
S
F ?
υ 1为分子自由度,υ 2为分母自由度
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 158页
?注意,
?①方差齐性检验本为双侧检验,但由于
公式( 3.18)规定以较大的方差作分子,
F值必然大于 1,故附表 3单侧 0.025的界
值,实对应双侧检验 P=0.05;
?②当样本含量较大时( 如 n1和 n2均大于
50),可不必作方差齐性检验。
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 159页
? 深层水,n1=8,样本均数 =1.781(mg/L),S1=1.899
(mg/L)
? 表 层 水, n2=10,样 本 均 数 =0.247(mg/L),S2=0.210
(mg/L)
例 3.11 某研究所为了了解水体中汞含量的垂直变化,对
某氯碱厂附近一河流的表层水和深层水作了汞含量的测定,
结果如下。试检验两个方差是否齐性。
9180
2100
8991
2
2
.
.
.
F ??
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 160页
? 确定 P值 作出推断结论 本例 υ 1= 8-1=7,
υ 2= 10-1=9, 查附表 3,F界值表 ( 方差齐
性检验用 ),
? 得 F0.05,7,9=4.20,本例 F = 80.97> F
0.05,7,9=4.20; 故 P<0.05,按 α= 0.05 水准,
拒绝 H0,接受 H1,
? 结论,故可认为两总体方差不齐 。
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 161页
? 方差不齐时, 两小样本均数的比较, 可选
用以下方法,
? ① 采用适当的变量变换, 使达到方差齐的
要求;
? ② 采用秩和检验;
? ③ 采用近似法 t' 检验 。
二,t' 检验
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 162页
计算统计量 t' 值
2
2
2
1
2
1
21
'
n
S
n
S
XX
t
?
?
?
22
,
2
,
2
'
21
2211
..
XX
XX
SS
tStS
t
?
?
?
????
?
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 163页
? 例 3.12 由例 3.11已知表层水和深
层水含汞量方差不齐, 试比较其均
数有无差别?
自学内容
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 164页
? 假设检验中作出的推断结论可能发生两种错误,
? ①拒绝了实际上是成立的 H0,这叫 Ⅰ 型错误
(typeⅠerror) 或第一类错误,也称为 α 错误。
? ②不拒绝实际上是不成立的 H0,这叫 Ⅱ 型错误
(typeⅡerror) 或第二类错误,也称为 β 错误。
第八节 Ⅰ 型错误和 Ⅱ 型错误
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 165页
表 3-6 可能发生的两类错误
假设检验的结果
客观实际
拒绝 H 0 不拒绝 H 0
H 0 成立 Ⅰ 型 错 误(
?
) 推 断 正 确 ( 1 -
?
)
H 0 不成立 推断正确( 1 - β ) Ⅱ型错误( β )
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 166页
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 167页
? 联系,一般 α增大,则 β减小; α减小,则 β增
大;
? 区别,
? ( 1)一般 α为已知,可取单侧或双侧,如
0.05,或 0.01。
? ( 2)一般 β为未知,只取单侧,如取 0.1或
0.2。 1- β(把握度 )≮ 0.75。
两类错误的联系与区别
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 168页
? 1-β 称为检验效能 (power of test)
或把握度,其意义是两总体确有差别,
按 α 水准能发现它们有差别的能力。
? α 与 β 的大小应根据实际情况适当
取值。
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 169页
? 1.资料要来自严密的抽样研究设计
? 2.选用假设检验的方法应符合其应用条件
? 3.正确理解差别有无显著性的统计涵义
正确理解差别有统计学意义 及临床上的差
别的统计学意义。
? 4.假设检验的推断结论不能绝对化
? 5.要根据资料的性质事先确定采用双侧检验或
单侧检验
第九节 应用假设检验的注意问题
共 666页
返回目录 END 返回总目录 C.CHENG
第 3章总体均数的区间估计和假设检验 第 170页
THANK YOU FOR LISTENING
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 171页
医学本科生用
泰山医学院 预防医学教研室
Email,zcheng@tsmc.edu.cn
主 讲 程 琮
医学统计学
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 172页
Teaching Plan
for Medical Students
Medical Statistics
Professor Cheng Cong
Dept,of Preventive Medicine
Taishan Medical College
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 173页
第 4章 方差分析 目录
? 第五节 多个方差的齐性检验
? 第二节 单因素方差分析
? 第三节 双因素方差分析
? 第四节 多个样本均数间的两两比较
? 第一节 方差分析的基本思想
? 第六节 变量变换
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 174页
第四章 方差分析
? 学习要求,
? 1。掌握方差分析的基本思想;
? 2。掌握单因素、双因素方差分析的应用条件、意义及计
算方法;
? 3。熟悉多个均数间两两比较的意义及方法;
? 4。了解方差齐性检验和 t’检验的意义及方法;
? 5。熟悉变量变换的意义和方法。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 175页
第一节 方差分析的基本思想
? 一, 方差分析的用途及应用条件
? 方差分析 ( analysis of variance,缩写为 ANOVA)
? 是常用的统计分析方法之一 。 其应用广泛, 分析效率高,节省样本含
量 。
? 主要用途有,
? ① 进行两个或两个以上样本均数的比较;
? ② 可以同时分析一个, 两个或多个因素对试验结果的作用和影响;
? ③ 分析多个因素的独立作用及多个因素之间的交互作用;
? ④ 进行两个或多个样本的方差齐性检验等 。
? 方差分析对分析数据的要求及条件比较严格, 即要求各样本为随机样
本, 各样本来自正态总体, 各样本所代表的总体方差齐性或相等 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 176页
? 二, 方差分析的基本思想
? 处理因素可分为若干个等级或不同类型, 通常称为 水平 。
在不同的水平下进行若干次试验并取得多个数据, 可以将
在每个水平下取得的这些数据看作一个 样本 。 若某个因素
有四个水平, 每个水平的数据代表一个样本, 则获得四个
样本的数据 。
?设有 k个相互独立的样本, 分别来自 k个正态总体 X1,
X2,… Xk,且方差相等,
?即要求检验假设为
此假设的意义为,在某处理因素的不同水平下,各样本的
总体均数相等。
222221 ???? ???? k?
kH ??? ??? ?210,
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 177页
? 1。设某因素有多个水平,即试验数据产生多个样本。由
多个样本的全部数据可以计算出总变异,称为总的离均差
平方和。即 SS总 。
? 2。数理统计证明,SS总 可以由几个部分构成。单因素方
差分析中,SS总 由组间变异和组内变异构成。
? SS总 = SS组间 + SS组内 。
? 3。组间变异主要受到 处理因素 和 个体误差 两方面影响,
组内变异主要受 个体误差 的影响。当 H0 为真时,由于处
理因素不起作用,组间变异只受 个体误差 的影响。此时,
组间变异与组内变异相差不能太大。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 178页
表 4- 2 PCNA在三种不同胃组织中的表达结果
标本 Xj
不同胃组织 Xi
A B C
1 56 30 21
2 46 37 14
3 39 20 27
… … … …
∑Xj 553 221 100 874 ( ∑X)
ni 10 9 8 27 ( N)
均数 55.30 24.56 12.5 32.37(总均值)
∑Xj2 31291 6273 1672 39236( ∑X2)
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 179页
? 4。各种变异除以相应的自由度,称为均方,用 MS表示,
也就是方差。当 H0为真时,组间均方与组内均方相差不大,
两者比值 F值约接近于 1。
即 F=组间均方/组内均方 ≈ 1。
? 5。当 H0不成立时,处理因素产生了作用,使得组间均方
增大,此时,F>> 1,当大于等于 F临界值时,则
P≤0.05 。 可认为 H0不成立,各样本均数不全相等。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 180页
? 三、方差分析的类型
? 1。 单因素方差分析( one-way ANOVA) 也称为完全随机
设计 (completely random design)的方差分析。该设计只
能分析一个因素下多个水平对试验结果的影响。
? 2。 双因素方差分析( two-way ANOVA) 称为随机区组
设计( randomized block design)的方差分析。该设计
可以分析两个因素。一个为处理因素,也称为列因素;一
个为区组因素,也称为行因素。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 181页
3。 三因素方差分析 也称为拉丁方设计( Latin square
design) 的方差分析。该设计特点是,可以同时分析三个
因素对试验结果的作用,且三个因素之间相互独立,不能
有交互作用。
4。 析因设计 ( factorial design) 的方差分析 当两个因
素或多个因素之间存在相互影响或交互作用时, 可用该设
计来进行分析 。 该设计不仅可以分析多个因素的独立作用,
也可以分析多个因素间的交互作用, 是一种高效率的方差
分析方法 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 182页
5。 正交试验设计的方差分析 如果要分析的
因素有三个或三个以上,可进行正交试验
设计 ( orthogonal experimental design)
的方差分析。当分析因素较多时,试验次
数会急剧增加,用此设计进行分析则更能
体现出其优越性。该设计利用正交表来安
排各次试验,以最少的试验次数,得到更
多的分析结果。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 183页
? 四、方差分析的基本步骤
? 1。计算总变异:指所有试验数据的离均差平方和。
NXXXXSS /)()( 222 ???????总
NXC /)( 2??
? 2。计算各部分变异, 单因素方差分析中,可以分出
组间变异 ( SS组间 ) 和 组内变异 ( SS组内 ) ;双因素方差
分析中,可以分出 处理组变异 ( SS处理 ),区组变异 ( SS
区组 ) 或称为 配伍组变异 ( SS配伍 ) 及误差变异 ( SS误差 ) 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 184页
? 3。 计算各部分变异的均方 在方差分析中,方差也称
为均方,是各部分的离均差平方和除以其相应的自由度,
用 MS表示。基本公式为,MS= SS/ ν 。
? 4。计算统计量 F值 F值是指两个均方之比。一般是用较
大的均方除以较小的均方。故 F值一般不会小于 1。
? 5。 确定 P值,推断结论 根据分子 ν 1,分母 ν 2,查 F界
值表(方差分析用),得到 F值的临界值( critical
value),即:如果 F≥F 界值,则 P≤0.05,在 α=0.05 水
准上拒绝 H0,接受 H1。可以认为各样本所代表的总体均数
不全相等。如果想要了解哪两个样本均数之间有差异,可
以继续进行各样本均数的两两比较。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 185页
第二节 单因素方差分析
? 1 。 特点 单因素方差分析是按照完全随机设计的原则将
处理因素分为若干个 不同的水平, 每个水平代表一个 样本,
只能分析 一个因素 对试验结果的影响及作用 。 其设计简单,
计算方便, 应用广泛, 是一种常用的分析方法, 但其效率
相对较低 。 该设计中的总变异可以分出两个部分,
? 即 SS总 = SS组间 + SS组内 。
? 2。 常用符号及其意义
? ( 1) Xij 意义为第 i组的第 j个数据 。 其中下标 i 表示列, j
表示行 。
? ( 2) 意义为将第 i组的全部 j个数据合计 。
?j ijX
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 186页
? ( 3) 将第 i组的 j个数据合计后平方,
再将所有各 i组的平方值合计 。
? ( 4) 变异来源 ① SS总, 表示变异由处理因素及随机误
差共同所致; ② SS组间,表示变异来自处理因素的作用
或影响; ③ SS组内,表示变异由个体差异和测量误差等随
机因素所致 。
? ?i j ijX 2)(
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 187页
计算公式
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 188页
? 三。计算实例
? 例 4.1 科研人员研究细胞增殖核抗原 ( PCNA) 在胃癌组
织 ( A组 ), 胃癌旁组织 ( B组 ) 及正常胃粘膜组织 ( C组 )
中的表达状况 。 检测结果用表达指数来表示 。
? 数据见表 4- 2。 试分析 PCNA在三种胃组织中的表达有无差
异 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 189页
表 4- 2 PCNA在三种不同胃组织中的表达结果
标本 Xj
不同胃组织 Xi
A B C
1 56 30 21
2 46 37 14
3 39 20 27
… … … …
∑Xj 553 221 100 874 ( ∑X)
ni 10 9 8 27 ( N)
均数 55.30 24.56 12.5 32.37(总均值)
∑Xj2 31291 6273 1672 39236( ∑X2)
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 190页
? 检验步骤及方法
? ⑴ 建立检验假设
? H0,PCNA在三种组织中的表达指数相同, μ 1= μ 2= μ 3;
? H1,PCNA在三种组织中的表达指数不全相同 。
? α = 0.05,
? ⑵ 计算检验统计量 F值 由表 4-2的数据计算有,
? 校正系数 C= ( ∑ X) 2/ N= ( 874) 2/ 27= 28291.70
? SS总 = ∑ X2- C= 39236-28291.70=10944.3
? υ 总 = N- 1=27-1=26
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 191页
? υ 组间 = k-1=3-1=2
? SS组内 = SS总 - SS组间 = 10944.3-8965.98=1978.32
98.896570.2 8 2 9 168.3 7 2 5 7
70.2 8 2 9 1
8
)100(
9
)221(
10
)553(
)(
222
2
???
?????? ?
?
C
n
X
SS
i i
j
ij
组间
99.4 4 8 2
2
98.8 9 6 5 ???
组间
组间
组间 ?
SSMS
43.82
24
32.1 9 7 8 ???
组内
组内
组内 ?
SSMS
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 192页
? (3) 列方差分析表 见表 4-3。
? (4) 确定 P值 根据 α = 0.05,υ 1= υ 组间 = 2,υ 2= υ 组
内 = 24,查附表 4,F界值表, 得 F界值,F0.01(2,24)=5.61。
本例 F= 54.39,大于界值 F0.01(2,24)=5.61,则 P<0.01。
? ( 5) 推断结论 由于 P< 0.01,在 α = 0.05水准上拒绝 H0,
接受 H1,差异有统计学意义 。 可以认为 PCNA在三种不同胃
组织中的表达指数不全相同 。
? 该结论的意义为, 至少有两种组织的 PCNA表达指数不同 。
如果想确切了解哪两个组织的 PCNA表达指数有差异, 可进
一步作多个样本均数的两两比较 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 193页
表 4- 3 方差分析表
变异来源 SS 自由度 均方 F值 F0.05 F0.01 P值
( 1) ( 2) ( 3) ( 4) ( 5) ( 6) ( 7) ( 8)
SS总 10944.30 26
SS组间 8965.98 2 4482.99 54.39 3.40 5.61 <0.01
SS组内 1978.32 24 82.43
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 194页
第三节 双因素方差分析
? 一、特点及意义
? 1.特点 按照随机区组设计的原则来分析两个因素对试验
结果的影响及作用 。 其中一个因素称为 处理因素, 一般作
为 列因素 ;另一个因素称为 区组因素或配伍组因素, 一般
作为 行因素 。 两个因素相互独立, 且无交互影响 。 双因素
方差分析使用的样本例数较少, 分析效率高, 是一种经常
使用的分析方法 。
? 但双因素方差分析的设计对选择受试对象及试验条件等方
面要求较为严格, 应用该设计方法时要十分注意 。 该设计
方法中, 总变异可以分出三个部分,
? SS总 = SS处理 + SS区组 + SS误差
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 195页
? 2.常用符号及其意义
? ⑴, 将第 i个处理组的 j个数据合计后平方, 再将
所
? 有 i个处理组的平方值合计 。
? ⑵, 将第 j个区组的 i个数据合计后平方, 再将所有 j
? 个区组的平方值合计 。
? ⑶ 各种变异来源
? SS总,总变异,由处理因素, 区组因素及随机误差的综合作用而形
成 。
? SS处理,各处理组之间的变异, 可由处理因素的作用所致 。
? SS区组 或 SS配伍,各区组之间的变异, 可由区组因素的作用所致 。
? SS误差,从总变异中去除 SS处理 及 SS区组 后剩余的变异 。 此变异由个
体差异和测量误差等随机因素所致 。
? ?i j ijX 2)(
? ?j i ijX 2)(
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 196页
计算公式
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 197页
? 三、计算实例
? 例 4.2 某医院研究五种消毒液对四种细菌
的抑制效果。抑制效果用抑菌圈直径( mm)
表示。数据见表 4-5。试分析五种消毒液对
细菌有无抑制作用,对四种细菌的抑制效
果有无差异。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 198页
表 4- 5 消毒液对不同细菌的抑制效果
消毒液类型 细菌类型
A B C D E
∑ i X
大肠杆菌 15 17 15 14 12 73
绿边杆菌 11 12 14 13 9 59
葡萄球菌 25 28 25 30 22 130
痢疾杆菌 20 17 19 13 17 86
∑ j X 71 74 73 70 60 348 ( ∑X )
各组均数 17, 75 18, 50 18, 25 17, 50 15, 00 17, 4 (总均数)
∑ j X
2
1371 1506 1407 1434 998 6716 ∑X
2
)
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 199页
? 检验步骤及方法
? ( 1) 建立检验假设
? 1)对处理因素作用的检验假设
? H0:五种消毒液的消毒效果相同, μ 1= μ 2= μ 3= μ 4=
μ 5;
? H1:五种消毒液的消毒效果不全相同 。
? α = 0.05
? 2)对区组因素作用的检验假设
? H0:四种细菌的抑菌圈直径相同, μ 1= μ 2= μ 3= μ 4;
? H1:四种细菌的抑菌圈直径不全相同 。
? α = 0.05
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 200页
? ( 2) 计算统计量 F值 由表 4- 5数据计算, 有,
? 校正系数 C=(∑X )2/N=(348)2/20=6055.2
? SS总 = ∑ X2- C= 6716- 6055.2= 660.8
? υ 总 = N- 1= 20- 1= 19
? υ 处理 = k- 1= 5- 1= 4
3.312.60555.6086
2.6055
4
6070737471
)(
22222
2
???
?
????
??? ?
?
C
b
X
SS
i
j
ij
处理
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 201页
? υ 区组 = b- 1= 4- 1= 3
? SS误差 = SS总 - SS处理 - SS区组
? = 660.8- 31.3 - 566 =63.5
? υ 误差 = (k-1)(b-1)= ( 5- 1) ( 4- 1) = 12
5662.60555.6621
2.6055
5
861305973
)(
2222
2
???
?
???
??? ?
?
C
k
X
SS
j
i
ij
区组
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 202页
? υ 误差 = υ 总 - υ 处理 - υ 区组 = ( 4- 1) ( 5- 1) = 12
? MS处理 = SS处理 / υ 处理 = ( 31.3) / 4= 7.825
? MS区组 = SS区组 / υ 区组 = ( 566) / 3= 188.667
? MS误差 = SS误差 / υ 误差 = ( 63.5) / 12= 5.292
? F处理 = MS处理 / MS误差 = 7.825/ 5.292=1.4796
? F区组 = MS区组 / MS误差 = 188.667/ 5.292=35.65
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 203页
变异
来源
SS 自由
度
MS F 值 F0.05 F0.01 P 值
( 1 ) ( 2 ) ( 3 ) ( 4 ) ( 5 ) ( 6 ) ( 7 ) ( 8 )
SS 总 660.8 19
SS 处理 31.3 4 7.825 1.48 3.26 5.41 >0.05
SS 区组 566 3 1 8 8, 6 6 7 35.65 3.49 5.95 < 0.05
SS 误差 63.5 12 5.292
表 4-6 双因素方差分析表
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 204页
? 4) 确定 P值 根据 α = 0.05,υ 1= υ 处理 = 4,υ 2= υ 误
差 = 12,查附表 4,F界值表, 得 F0.05(4,12)= 3.26, F0.01(4,12)
= 5.41, 再由 υ 1= υ 区组 = 3,υ 2= υ 误差 = 12,查 F
界值表, 得 F0.05(3,12)= 3.49, F0.01(3,12)= 5.95 。 本例 F处
理 = 35.65,P<0.01; F区组 = 1.48,P> 0.05。
? ( 5) 推断结论 由表 4-6知,
? ① 处理组间的 P>0.05,在 α = 0.05水准上不拒绝 H0,差异
无统计学意义 。 可以认为五种消毒液之间的消毒效果相同 。
? ② 区组间 P< 0.05,在 α = 0.05水准上拒绝 H0,接受 H1,差
异无统计学意义 。 可认为不同细菌的抑菌圈直径不全相同,
即消毒液对不同细菌类型的抑菌效果不全相同 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 205页
第四节 多个样本均数间的两两比较
? 一、均数两两比较的特点和意义
? 1。 当分析结果为 P≤α,拒绝 H0时,得出的结论只是指各总体均数不
全相等。如果想要确切了解哪两个样本均数之间的差异有统计学意义
(总体均数不等),哪两个样本均数之间的差异无统计学意义(总体
均数相等),可以进行多个样本均数的两两比较。
? 2。 当有三个及三个以上样本均数比较时,如果仍使用一般的 t检验对
样本均数两两组合后进行比较,会使检验水平 α 值增大,即增大第一
类错误的概率,这样,就可能把本来无差别的两个总体均数判为有差
别。例如,有 4个样本均数进行两两比较,如用一般的 t检验,则可以
比较
6)!24(!2 !424 ???C
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 206页
? 例如,有 4个样本均数进行两两比较,如用一般的 t检验,
则可以比较
? 6次,即可有 6个对比组。若每次比较的检验水准 α = 0.05,
则每次比较不犯第一类错误的概率为( 1- 0.05) =0.95。
那么根据概率的乘法法则,比较 6次均不犯第一类错误的
概率为( 1-0.05) 6= 0.7351。此时,总的显著性水平变
为,α = 1- 0.7351= 0.2649。此值已远远大于规定的检
验性水平 α = 0.05。
6)!24(!2 !424 ???C
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 207页
? 二,SNK- q 检验法
? ( 一 ) 特点及意义
? SNK- q检验法, 全称为 Student-Newman-Keuls q检验法,
也简称为 SNK法 。 这是国内外常用而较为经典的检验方法 。
可以对所有对照组及处理组的样本均数进行两两比较 。 式
中,q 为检验统计量, 及 为任意比较的两
样本均数,
? 为两样本均数差值的标准误 。
AX BX
BA XXS ?
BA XX
BA
S
XX
q
?
?
?
||
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 208页
? 当两样本 n相等时
? 自由度= υ 误差
? 当两样本 n不相等时
? 上式中 MS误差 在单因素
方差分析中即为 MS组内 。
nMSS
BA XX
/误差??
)(误差
BA
XX nn
MS
S
BA
11
2
???
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 209页
? ( 三 ) 计算步骤及方法
? 1.首先将多个样本均数由大到小顺序排列 。
? 2.按照两均数组合原则, 计算出每两个样本均数比较的统
计量 q 值 。
? 3.根据误差的自由度和两样本间隔组数 a,查 q界值表得 q
界值。 注意:组数 a的计算方法,由于各样本均数已由大
到小顺序排列,因此,相邻两样本均数比较时,组数 a=2,
中间间隔一个样本均数时,组数 a=3,间隔两个样本均数
时,组数 a=4,余类推。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 210页
? ( 四 ) 计算实例
? 例 4.3 仍以例 4.1为计算实例说明计算方法 。 例 4.1的数
据经单因素方差分析, P< 0.01,拒绝 H0,接受 H1。 可以
认为三种胃组织的 PCNA表达指数不全相等 。 进一步作样本
均数的两两比较 。
? ( 1) 建立检验假设
? H0:任意两样本的总体均数相等, μ A= μ B
? H1:任意两样本的总体均数不相等, μ A≠μ B
? α = 0.05
? ( 2) 计算统计量 q值
? 1) 将三个样本均数由大到小顺序排列, 见表 4-7。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 211页
? 表 4-7 三个样本均数顺序排列结果
顺序 1 2 3
均数 55.30 24.56 12.50
组别 A B C
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 212页
? 表 4-8 样本均数两两比较 q检验表
比较组
A与 B
两均数
之差 组数 a 标准误 q值 q 0.05 q 0.01 P值
(1) (2) (3) (4) (5) (6) (7) (8)
1与 2 30.74 2 2.95 10.42 2.92 3.96 <0.01
1与 3 42.80 3 3.05 14.03 3.53 4.54 <0.01
2与 3 12.06 2 3.12 3.87 2.92 3.96 <0.05
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 213页
? ⑶ 推断结论 在 α =0.05水准上 拒绝 H0,接受 H1,各样本均数
的两两比较的差异均有统计学意义。可以认为,胃癌组织,
胃癌旁组织及正常胃粘膜组织的 PCNA 表达指数各不相同。
42.10
95.2
74.30||
21
21 ????
? XXS
XX
q
计算统计量 q值 。 应用第 ( 2) 栏数据除以第 ( 4) 栏数
据即得 q值 。 例如, 1与 2组比较有,
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 214页
(一)特点及意义
? LSD英文全称为 least-significant-difference,译为最小
显著差异法或最小有意义差异法, 也可简称为 LSD法 。 LSD法
实际上是一种 t检验法, 但它与以前描述的一般 t检验法有所
不同 。 两种 t检验法的 主要区别在于 计算标准误中的合并方
差及自由度的不同 。
? LSD法在计算标准误时, 用 MS组内 或 MS误差 取代一般 t 检验
标准误中的, 自由度则用 MS误差 的自由度 υ 误差 = N- K
或 υ 误差 = ( k-1) (b-1)取代一般 t检验法中的自由度 υ =
n1+n2- 2。 根据 α 及 υ, 查一般的 t值表得 t界值, 与 LSD计
算的统计量 t值的大小进行比较, 并确定 P值 。 据此作出判断
和结论 。
2cS
三,LSD- t检验法
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 215页
? ( 二 ) 计算公式
? 自由度= υ 误差
BA XX
BA
S
XX
t
?
?
?
||
)(误差
BA
XX nn
MSS
BA
11
??
?
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 216页
? ( 三 ) 计算步骤及方法
? LSD- t检验法在查 t值表确定 t界值时, 不
需要组数 a,故各样本均数也不需要按大小
顺序排列 。 各样本均数两两比较时, 仍需
要进行组合 。 组合计算公式及方法与 q检验
法相同 。 其它计算步骤与一般 t检验法相同 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 217页
? ( 四 ) 计算实例
? 例 4.4 仍用例 4.1为计算实例,说明 LSD法的计算过程 。
? ( 1) 建立检验假设
? H0,任意两样本的总体均数相等, μ A= μ B
? H1,任意两样本的总体均数不相等, μ A≠μ B
? 双侧 α = 0.05
? ( 2) 计算统计量 t值
? 列出样本均数两两比较 t检验表, 见表 4-9。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 218页
? 表 4-9 样本均数两两比较 t检验表
比较组
A与 B
两均数
之差 标准误 t值 t 0.05 t 0.01 P值
(1) (2) (3) (4) (5) (6) (7)
1与 2 30.74 4.17 7.37 2.064 2.797 <0.01
1与 3 42.80 4.31 9.93 2.064 2.797 <0.01
2与 3 12.06 4.41 2.73 2.064 2.797 <0.05
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 219页
? ( 2)计算标准误和 t值;
? (3)推断结论 在 α =0.05水准上拒绝 H0,接受 H1,各样本
均数的两两比较的差异均有统计学意义。此结论与 q检验
法的结论完全相同。
17.4
9
1
10
143.8211
21
21
??? )+(=)+(误差
nn
MSS XX
37.7
17.4
74.30||
21
??
?
?
? XX
BA
S
XX
t
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 220页
(一)特点及意义
? 在进行科研时,经常需要设立一个对照组和若干个实验组
或处理组。按照研究目的和设计要求,有时只需要将各个
处理组的试验结果与一个对照组进行比较,而各处理组之
间并不需要比较。此时,仍可应用前述 SNK- q检验法或
LSD- t检验法处理资料。因为前两种检验方法均包括所
有各组之间的比较。但处理此类资料也有非常常用而经典
的方法,称为 Dunnett- t检验法。该法在大型统计软件中
的应用非常广泛。
四、多个处理组与一个对照组均数间的两两比较
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 221页
? ( 二 ) 计算公式
? Dunnett-t检验计算公式为,
ci XX
ci
S
XX
t
?
?
?
||
)(误差
ci
XX nnMSS ci
11 ??
?
n/MSS
ci XX 误差
2??
当比较组两样本含
量 ni相等时
当比较组两样本含量
ni不相等时
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 222页
? ( 四 ) 计算实例
? 例 4.5 以例 4.2为计算实例,说明该方法的计算过程。
顺序 1 2 3 4
均数 26 17.2 14.6 11.80
组别 葡萄球菌 痢疾杆菌 大肠杆菌 绿脓杆菌
表 4-10 各组均数排列顺序
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 223页
? 表 4-11 Dunnett- t检验表
比较
组
A与 B
两均
数之
差
组数
a
标准
误 t值 t 0.05 t 0.01 P值
(1) (2) (3) (4) (5) (6) (7) (8)
1与 3 11.4 3 1.45 7.86 2.50 3.39 <0.01
2与 3 2.6 2 1.45 1.79 2.18 3.05 >0.05
4与 3 2.8 2 1.45 1.93 2.18 3.05 >0.05
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 224页
? 计算均数差值的标准误, 计算 1与 3比较组的标准误。
4515292522
31
./.n/MSS XX ????? 误差
( 3)推断结论 本例只有 1与 3比较组 P< 0.01,故在
α = 0.05水准上拒绝 H0,接受 H1,差异有统计学意义。
可以认为消毒液对大肠杆菌和葡萄球菌的抑制效果不
相同;其它各对比组的 P> 0.05,不拒绝 H0,差异无
统计学意义。则可认为消毒液对大肠杆菌,绿脓杆菌
和痢疾杆菌的抑制效果相同。
?
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 225页
第五节 多个方差的齐性检验
? 一、概念及意义
? Bartlett 检验法的基本思想是, 设各总体方差相等, 均等于其合并
方差 。 则各样本方差与合并方差相差不会很大 。 如果相差很大, 则计
算的样本的 值较大, 当超过 X2界值时, 则 P≤α 。 可以认为各
样本所代表的总体方差不全相等 。
? 注意,统计软件中, 最常用的是 Levene方差齐性检验 。 可用于正态
分布及非正态分布的资料 。
? Bartlett 检验法,主要用于正态分布的资料, 对于非正态分布的资
料不适用 。
? 具体内容自学 。
2c?
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 226页
第六节 变量变换
? 一、概念及意义
? ( 一 ) 概念
? 变量变换 ( data transformation) 也称为变量代换, 是
指将原始数据 X经过某种数学方法转换为其它的数据形式,
使其达到统计学上的某种要求, 以利于对资料进行统计处
理 。 如对变量 X取对数 lgX或取平方根等 。 常用的变量变换
方法有:对数变换, 平方根变换, 倒数变换, 平方根反正
弦变换, 概率单位变换, logit变换, 乘方变换等 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 227页
? (二 )意义
? 原始数据经变量变换后主要应该达到下列 几个目的,
? 1.使非正态分布的原始数据达到正态分布或近似正态分布 。
? 2.使各样本方差不齐的数据达到方差齐性 。
? 3.作曲线回归方程时, 使之直线化 。
? 4.按照统计学要求, 经变量变换后简化运算过程 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 228页
(一)对数变换
? 对数变换 ( logarithm transformation) 是将原始数据 X
取对数, 并以对数值作为统计分析的新数据, 一般对原始
数据取常用对数 。
? 对数变换常用于, ① 正偏态分布的资料, 尤其是数据呈
等比关系的资料, 使之成为正态分布或近似正态分布 。 这
类资料也称为对数正态分布资料 。 ② 各样本方差不齐 。
③ 各样本方差与均数呈正比关系 。
? 公式为 Y=lgX
? 当原始数据有小值或零值时
? Y=lg(X+1), Y=lg(X+k), Y=lg(X-k)
二、常用变量变换
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 229页
平方根变换 ( square root transformation) 是将原始数据 X
开平方, 以平方根值作为统计分析新的变量值 。
? 平方根变换的用途,① 可以将泊松分布的数据转化为正态
分布或近似正态分布; ② 轻度正偏态分布的资料转化为近
似正态分布; ③ 各样本方差不齐或样本方差与均数之间呈
正比关系时, 可以达到方差齐性, 消除或削弱样本方差与均
数的正比关系 。
Xx ? 50,Xx ??
kXx ?? kXx ??
(二)平方根变换
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 230页
? 平方根反正弦变换 ( square root arcsine
transformation)是将原始数据取平方根后,再计算反正
弦函数值,得到转换后的新变量值。
psi nx 1??
当 P= 0%时用下式
nsi nx 4
11??
当 P= 100%时用下式
nsi nx 4
111 ?? ?
(三)平方根反正弦变换
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 231页
? 主要用于百分率的转换 。
? 百分率服从二项分布, 如各种疾病的患病率, 发病率, 死
亡率以及各种百分率等相对数 。 尤其是当百分率偏离 50%
较远如大于 70% 或小于 30% 时, 二项分布偏离正态分布较
远 。 经过将百分率转换后, 可使新变量值接近正态分布,
且往往达到方差齐性 。 据此, 可对百分率 p的均数进行 t检
验或方差分析 。
? 例题:自学内容 。
平方根反正弦变换的用途,
共 666页
END 返回章目录 返回总目录 C.CHENG
第 4章方差分析 第 232页
THANK YOU FOR LISTENING
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 233 页
医学统计学
主讲 程 琮
泰山医学院预防医学教研室
zcheng@tsmc.edu.cn
本科生用中文教案
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 234 页
Chinese Teaching Plan
for Medical Students
Medical Statistics
Professor Cheng Cong
Dept,of Preventive Medicine
Taishan Medical College
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 235 页
第 5章定性资料的统计描述 目录
? 第五节 常用的相对数指标
? 第二节 应用相对数应注意的问题
? 第三节 率的标准化法
? 第四节 动态数列及其分析指标
? 第一节 常用相对数
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 236 页
第五章 定性资料的统计描述
第一节 常用相对数
? 绝对数 --调查或实验研究中清点定性资料得到的实
际数据被称为绝对数。
? 相对数,两个有联系指标之比。
? 医学上常用的相对数有率、构成比相对比等统计指标。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 237 页
一、率
? 率( rate)又称频率指标,是某现象实际发生的观察
单位数与可能发生该现象的观察单位总数之比,用以
说明某现象发生的频率或强度。计算公式为,
K?? 单位总数可能发生某现象的观察 数发生某现象的观察单位率
式中,K为比例基数,常以百分率( %)、千分率( ‰ )、
万分率( 1/万)、十万分率( 1/10万)表示,原则上使计算
结果至少保留 1~ 2位整数。但在医学资料中某些指标的比
例基数是固定的。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 238 页
常见率的指标如下,
? ⒈ 粗死亡率, 出生率, 人口自然增长率, 婴儿死亡率,
新生儿死亡率等人口学指标常用的比例基数是 1000‰ 。
? 2.恶性肿瘤的死亡率, 发病率, 患病率通用比例基
数是 100000/10万 。
? 3.生存率, 病死率通用的比例基数是 100%。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 239 页
二、构成比
? 构成比( proportion)又称构成指标,说明某一事物
内部各组成部分所占的比重或分布。
? 常用来表示疾病或死亡的顺位、位次或所占比重。由
于构成比之和为 100%,一部分变化会影响其它部分的
也发生变化。
%100??
观察单位总数同一事物各组成部分的
位数某一组成部分的观察单构成比
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 240 页
率和构成比的区别(补充)
构成比 率
1。各部分可直接相加 各率不可直接相加。
2。各部分之和等于 100%。 总率不一定等于各率之
和。
3。某部分变化,其它部
分随之变化。
某率的变化,不影响其它
各率。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 241 页
三、比( 相对比)
? 比 ( ratio) 又称相对比, 是 A,B两个有关指标之比,
说明 A是 B的若干倍或百分之几, 通常用倍数或分数表
示 。 计算公式为,
B
A?比
(或 × 100%)
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 242 页
? 常用相对比指标
? 1.对比指标,指两个同类事物某种指标(绝对数、两
个率或其它同类指标)的比。
? 2.关系指标,指两个有关的、但非同类事物的数量的
比。
? 3.计划完成指标,说明计划完成的程度,常用实际数
达到计划数的百分之几或几倍表示。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 243 页
表 5-1 1993~ 1998年某地损伤与中毒病死率( %)与构成比( %)
年度 发病人数 病死人数 病死率 构成比 相对比
( 1) ( 2) ( 3) ( 4) ( 5) ( 6)
1993 584 8 1.37 8.8 —
1994 571 10 1.75 11.0 1.28
1995 714 12 1.68 13.2 1.23
1996 748 16 2.14 17.6 1.56
1997 942 21 2.23 23.0 1.63
1998 1095 24 2.19 26.4 1.60
合计 4654 91 1.96 100.0 —
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 244 页
第二节 应用相对数应注意的问题
?1.计算相对数时分母一般不宜过小,一般不能小于 30例。
?2.分析时不能以构成比代替率 。
?3.对观察单位数不等的几个率,不能直接相加求其总率。
?4.应当注意不能用构成比的动态分析代替率的动态分析。
?5.在比较相对数时应注意可比性。
?6.对样本率(或构成比)的比较应随机抽样,并做假设检
验。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 245 页
第三节 率的标准化法
? 一、标准化法的意义和基本思想
? 率的标准化 --不同时间或不同地区的几组率比较时,
为了消除资料在 年龄、性别 或其它有关指标的构成的
不同,而选用某一标准人口构成加以校正,称为率的
标准化。
? 不同地区,不同时间的两个或多个率直接进行比较是
不太合适的。会造成错误的结论。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 246 页
表 5-4 甲、乙两地各年龄组人口数及死亡率( ‰ )
年龄组
甲 地 乙 地
人口数 死亡人
数
死亡率 人口数 死亡人
数
死亡率
0~ 9300 532 57.2 4800 349 72.9
5~ 12200 44 3.6 6600 30 4.6
20~ 19000 101 5.3 35300 254 7.2
40~ 7600 92 12.1 2800 39 14.2
60~ 1900 76 40.0 500 23 46.0
合计 50000 845 16.9 50000 695 13.90
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 247 页
二、标准化率的计算
? 标准化率 ( standardized rate)亦称调整率
( adjusted rate)。
? 常用的计算方法按已知条件有,
1,直接法:间接法:不讲。反推法:不讲。
2。选择标准人口的方法,
1)选择两地数据之一的人口数或构成比;
2)选择两地数据之和的人口数或构成比;
3)选择当地或全国的人口数或构成比;
4)国际间比较选用世界通用标准。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 248 页
表 5-6 按公式( 5.4)用直接法计算标准化死亡率( ‰ )
年龄组 标准人口数 甲 地 乙 地
(岁) ( Ni) 原死亡率 pi 预期死亡数
Npi
原死亡率 pi 预期死亡数 Npi
( 1) ( 2) ( 3) ( 4) =( 2)
( 3)
( 5) ( 6) =( 2)
( 5)
0~ 14100 57.2 807 72.9 1028
5~ 18800 3.6 68 4.6 86
20~ 54300 5.3 288 7.2 391
40~ 10400 12.1 126 14.2 148
60~ 2400 40.0 96 46.0 110
合计 100000(N) 16.19 1385(ΣN ipi) 13.90 1763( ΣN ipi)
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 249 页
标化结果
? 甲地标准化死
亡率
? 乙地标准化死
亡率
%85.13
1000
1000
000,100
1385 ????p
%63.17
1000
1000
000,100
1763 ????p
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 250 页
表 5-7 按公式( 5.5)用直接法计算标准化死亡率( ‰ )
年龄组 标准人口构成
比
甲 地 乙 地
(岁) ( Ni/N) 原死亡率 pi 分配死亡率
( Ni/N) pi
原死亡率 pi 分配死亡率
( Ni/N) pi
( 1) ( 2) ( 3) ( 4) =( 2)
( 3)
( 5) ( 6) =( 2)
( 5)
0~ 0.141 57.2 8.07 72.9 10.28
5~ 0.188 3.6 0.68 4.6 0.86
20~ 0.543 5.3 2.88 7.2 3.91
40~ 0.104 12.1 1.26 14.2 1.48
60~ 0.024 40.0 0.96 46.0 1.10
合计 1.000 16.19 13.85(P’) 13.90 17.63(P’)
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 251 页
三、标准化法使用注意事项
? 1.标准化法是采用统一标准人口年龄构成;
? 2.标准化后的率并不表示某地实际水平,只能表明相
对水平 ;
? 3.如不计算标准化率,而分别比较各组的率,也可得
出正确结论,但不能比较总率的大小。
? 4.两样本标准化率是样本值,存在抽样误差,应作假
设检验。检验方法比较麻烦。一般参考书上也没有。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 252 页
第四节 动态数列及其分析指标
?动态数列 ( dynamic series) 是一系列按时间顺序排
列起来的统计指标, 包括绝对数, 相对数或平均数,
用以说明事物在时间上的变化和发展趋势 。
? 1.时间动态数列 各个指标在时点上的数据;
? 2.时期动态数列 各个指标在一定的时间间隔内陆续
发生并积累的数据 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 253 页
?常用动态数列有,
? 1.绝对增长量 说明事物在一定时期所增长的绝对值。
? 2.发展速度和增长速度:①定基比 ;②环比。
? 3.平均发展速度和平均增长速度 用于概括某一时期
的速度变化, 即该时期环比的几何均数, 其计算公式
为,
n n
a
a
0
平均发展速度=
1展速度-平均增长速度=平均发
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 254 页
表 5-9 某地 1990~ 1998年床位发展动态
年份 指标
符号
年末
床位数
绝对增长量 发展速度 % 增长速度 %
累计 逐年 定基 环比 定基 环比
( 1) ( 2) ( 3) ( 4) ( 5) ( 6) ( 7) ( 8) ( 9)
1990 a0 5420 — — — — — —
1991 a1 5608 188 188 103.4 103.4 3.4 3.4
1992 a2 5766 346 158 106.4 102.9 6.4 2.9
1993 a3 5886 466 120 108.6 102.1 8.6 2.1
1994 a4 5991 571 105 110.5 101.7 10.5 1.7
… … … … … … … … …
1998 a8 7352 1932 1932 135.6 135.6 135.6 135.6
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 255 页
例 5.4 对表 5-9第( 1)、( 3)栏资料作动态分析
039.1
5420
7352
8 ?平均发展速度=
039.01039.1 ??平均增长速度=
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 256 页
例 根据表 5-9数据,预测 2003年床位数
13 13
5420
039.1
a
=
8 9 1 213 ?a
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 257 页
第五节 常用的相对数指标
1.发病率 ( incidence rate) 指一定时期内, 可能发
生某病的一定人群中新发生的某病病例数的频率 。
比例基数 K可为,100%,1000‰,10000/万, 100000/
10万 。 注意,分子为新发生病例数, 分母为可能发生
病例数 。 一定时期常指一年 。 计算公式为,
K?? 病的平均人口数一定时期内可能发生某 例数该期间新发生的某病病发病率
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 258 页
? 2.患病率 ( prevalence rate) 又称现患率, 指在
某时点上受检人数中现患某种疾病的人数所占比例 。
? 注意,病人可以是新老病人 。 时点,常指几天, 一周
或二周等 。
K?? 该时点受检人口数 病例总数检查时发现的某病现患患病率
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 259 页
? 3.死亡率 ( mortality rate) 亦称粗死亡率 ( crude
death arte), 是指某人群在一定期间内死于所有原
因的人数在该人群中所占的比例 。 时期常为一年 。 我
国总死亡率稳定在 7‰ 左右;按 13亿人估计:每年正常
死亡者约 910万人 。
1000??
该人群同年平均人口数
某人群某年总死亡人数死亡率
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 260 页
? 4。 婴儿死亡率 ( infant mortality rate) 指某年内不
满一岁的婴儿死亡人数与全年活产数的比值 。
? 我国 1949年以前:该率为 200‰ ;现在:城市为 14‰ ;农村
为,34‰ ;印度,50~ 80‰ ;非洲,120‰ 。
西方发达国家,8~ 12‰ 。 该率变化反映经济水平和生活
水平 。 不受人口构成影响, 各国可直接比较 。
10001 ??
某年活产总数
岁婴儿死亡数同年不满婴儿死亡率
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 261 页
? 5.新生儿死亡率 ( neonatal mortality
rate) 指某年内出生之不满 28天的死
亡人数与全年活产数的比值 。 产科指标 。
100028 ??
某年活产数
天以内的死亡数同年出生新生儿死亡率
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 262 页
? 6,围产儿死亡率 ( prenatal mortality
rate) 孕期满 28周至生后 7天以内的死
亡, 称为围产儿死亡 。
? 产科指标 。
???? 活产数周以上的死产数妊娠 天内新生儿死亡数周以上的死产数妊娠围产儿死亡率 28 728
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 263 页
? 7,出生率( birth rate) 亦称粗出生率,
指一年内每千人口中的出生数。我国总出生
率为 17‰ ;每年出生约 2210万。去除正常
死亡的 910万,净增长 1300万。增长率为
10‰ 。
?
某年平均人口数
同年活产总数
出生率 1000??
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 264 页
? 8.人口自然增长率 ( natural increase
rate) 指出生率与死亡率之差 。 我国
已控制在 10‰ 以下 。 这是我国的基本目
标 。 北京, 上海为负增长, 泰安也为负
增长 。 法国, 德国:为负增长 ;非洲约:
35‰ 左右 。
? 人口自然增长率 =出生率-死亡率
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 265 页
9.某病病死率( case fatality)表示一定
期间内,某病患者中死于该病的频率。
反映疾病严重程度。也可评价医院医疗
水平。注意:各医院比较时,要有可比
性。一般不同级别的医院不能直接比较。
%100??
同期某病病人数
数观察期间因某病死亡人
某病病死率
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 266 页
? 生存率常用于评价某些慢性病如癌症、心血管等
的远期疗效。可以计算 3年,5年或 10年生存率。
10.生存率 ( survival rate) 是指患某种疾病的人 ( 或
接受某种治疗的某病病人 ) 经 n年的随访, 到随访结束
时仍存活的病例数所占的比例 。
100%??
年的该病病例数随访满
年的某病病例数活滿
年生存率
n
n
n
共 666页
END 返回章目录 返回总目录 C.CHENG
第 5章定性资料的统计描述 第 267 页
Best wishes to you,
Thank you for listening
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 268 页
主讲 程 琮
泰山医学院预防医学教研室
zcheng@tsmc.edu.cn
本科生用教案
医学统计学
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 269 页
Chinese Teaching Plan
for Medical Students
Medical Statistics
Professor Cheng Cong
Dept,of Preventive Medicine
Taishan Medical College
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 270 页
第 6章总体率的区间估计和假设检验
目彔
? 第二节 率的 u 检验
? 第三节 卡方检验
? 第四节 四格表的确切概率法
? 第一节 率的抽样误差与总体率的
区间估计
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 271 页
第六章 总体率的区间估计和假设检验
第一节 率的抽样误差与总体率的区间估计( 1)
? 一。率的抽样误差,在同一总体中按一定的样本含量 n
抽样,样本率和总体率或样本率之间也存在着差异,这
种差异称为率的抽样误差。
? 率的抽样误差的大小是用 率的标准误 来表示的。
np
)1( ??
?
?
?
n
ppS
p
)1( ??
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 272 页
For example
? 例 6.1 检查居民 800人粪便中蛔虫阳性 200人,
阳性率为 25%,试求阳性率的标准误 。
? 本例,n=800,p=0.25,1-p=0.75,
%53.10153.0
800
75.025.0
??
?
?pS
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 273 页
? 二、总体率的区间估计
? ㈠正态分布法
? 样本含量 n足够大,np与 n(1-p)均 ≥ 5时,
pSup ??
第一节 率的抽样误差与总体率
的区间估计
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 274 页
For example
? 例 6.2 求例 6.1当地居民粪便蛔虫阳性率的
95%可信区间和 99%的可信区间 。
? 95%的可信区间为, 25%± 1.96× 1.53% 即
( 22.00%,28.00%)
? 99%的可信区间为, 25%± 2.58× 1.53% 即
( 21.05%,28.95%)
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 275 页
?㈡ 查表法
?当样本含量较小(如 n≤50 ),np或 n(1- p)<5
时,样本率的分布呈二项分布,总体率的可信
区间可据二项分布的理论求得。
?例 6.3 某医院用某药治疗脑动脉硬化症 22例,
其中显效者 10例 。 问该药总显效率的 95%可信
区间为多少?
?本例 n=22,X=10,查附表 7( 201页 ), 得此两
数相交处的数值为 24~ 68,即该药总显效率的
95%可信区间为 ( 24%,68%) 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 276 页
第二节 率的 u 检验( 1)
? 应用条件:样本含量 n足够大,np与 n(1
- p)均 ≥ 5 。
? 此时,样本率 p也是以总体率为中心呈正
态分布或近似正态分布的 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 277 页
一、样本率与总体率比较的 u检验
? u值的计算公式为,
n
pp
u
p )1(
||||
00
00
??
?
?
?
?
?
?
?
?
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 278 页
For example
? 例 6.5 根据以往经验, 一般胃溃疡病患
者有 20%(总体率 )发生胃出血症状 。 现某
医生观察 65岁以上胃溃疡病人 152例, 其
中 48例发生胃出血, 占 31.6%( 样本率 ) 。
问老年胃溃疡病患者是否较一般胃溃疡
病患者易发生胃出血 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 279 页
计算结果及判断
? 判断,u=3.58 > u0.05=1,64(单侧),P<0.05。
? 在 α=0.05 水准上,拒绝 H0,接受 H1,差异有统计
学意义。
58.3
1 5 2)20.01(20.0
|20.03 1 6.0|
?
?
?
?u
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 280 页
? 二, 两样本率比较的 u检验
? 适用条件为两样本的 np和 n(1-p)均
大于 5。
? 计算公式为
)11)(1( 21
2121
21
nnpp
pp
S
pp
u
ccpp ??
?
?
?
?
?
21
21
nn
xxp
c ?
??
第二节 率的 u检验( 3)
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 281 页
For example
? 例 6.6 某中药研究所试用某种草药预防
流感, 观察用药组和对照组 ( 未用药组 )
的流感发病率, 其结果见表 6-1。 问两组
流感发病率有无差别?
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 282 页
表 6-1 用药组和对照组流感发病率比较
组 别 观察人数 发病人数 发病率( %)
用药组 100 14 14
对照组 120 30 25
合 计 220 44 20
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 283 页
计算结果
? 本例 n1=100,p1=14%,n2=120,p2=25%,
pc=20%,1- pc=80%,代入公式
031.2
)12011001(80.020.0
25.014.0
?
??
?
?u
判断, u = 2.031>u
0.05=1.96,故 p < 0.05。
在 α=0.05水准上,拒绝 H0,接受 H1,差异有统计学意
义。
?
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 284 页
第三节 X2检验
? X2检验 (chi- square test)或称卡方检
验, 是一种用途较广的假设检验方法,
常用于检验 两个或多个样本率及构成比
之间有无差别, 还用来检验配对定性资
料及两种属性或特征之间是否有关系等 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 285 页
一、四格表资料的检验
? 四格表资料的检验 主要用于 两个样本率
( 或构成比 ) 的假设检验, 一般制成表
6-2的计算格式 ( 以阳性和阴性为例 ) 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 286 页
表 6-2 四格表资料检验计算表
组 别 阳性数 阴性数 合计
甲 组 a b a+b
乙 组 c d c+d
合 计 a+c b+d a+b+c+d=n
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 287 页
X2检验的基本公式为
? 理论频数 T
? ?
?
?
?
T
TA
2
2?
n
nn
T CRRC ?
? 条件,n> 40,
T>= 5
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 288 页
四格表检验专用公式
? 省去计算 T值
? ?
))()()((
2
2
dbcadcba
nbcad
????
?
??
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 289 页
例 6.7 以例 6.6资料为例
表 6-3 用药组和对照组流感发病率的比较
组 别 发病人数 未发病人数 合计
用药组 14( 20) 86( 80) 100
对照组 30( 24) 90( 96) 120
合 计 44 176 220
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 290 页
两种方法计算结果
? ? ? ? ? ? ? ? 125.4
96
9690
24
2430
80
8086
20
2014 22222 ??????????
? ?
1 2 5.4
1 7 6441 2 01 0 0
2 2 030869014 22
?
???
???
??
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 291 页
结果判断
? X2临界值,X20.05,1= 3.84,
请记住, X2 0.01,1= 6.63,
X2=u2
本例, X2=4.125> X20.05,1= 3.84,两组差别有统
计学意义。与前面的结论相同。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 292 页
四格表值的校正
? 条件,
? ( 1) 任一格的 1≤ T< 5,且 n≥ 40时, 需计算校正值 。
? ( 2) 任一格的 T< 1或 n≤ 40时, 用确切概率计算法 。
? ?
?
??
?
T
TA 22 5.0
?
? ?
))()()((
2 22
dbcadcba
nnbcad
????
??
??
基本公式
专用公式
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 293 页
例 6.8 某医师用甲、乙两疗法治疗小儿单纯性消化
不良,治疗结果如表 6-4,问两疗法的治愈率是否
相等?
表 6-4 甲、乙两疗法治疗小儿单纯性消化不良的治愈率比较
组 别 发病人数 未发病人数 合计
用药组 26(28.8) 7(4.2) 33
对照组 36(33.2) 2(4.8) 38
合 计 62 9 71
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 294 页
计算结果及判断
? 本例,X2= 2.71< X2 0.05,1=3.84
? 本例若对 X2值不校正,α =4.06,得 P<0.05,结论正好
相反。
? ?
74.2
9623833
71271367226
2
2 ?
???
????
??
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 295 页
二、配对四格表资料的检验
? 1。用于配对定性资料差异性的假设检验 。
? ?
cb
cb
?
?
?
2
2?
? ?
cb
cb
?
??
?
2
2 1?若 b+c≤40,需计算 X
2校正值
若 b+c> 40,公式为,
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 296 页
例 6.9 有 28份白喉病人的咽喉涂抹标本,把每份标本分别
接种在甲、乙两种白喉杆菌培养基上,观察两种白喉杆菌
生长情况,,+”号表示生长,,-”号表示不生长,结果如
表 6-5。问两种白喉杆菌培养基的效果有无差别?
? 表 6-5 甲、乙两种白喉杆菌培养基的培养结果
甲种 乙种 合计 + -
+ 11( a) 9 ( b) 20
- 1 ( c) 7 ( d) 8
合计 12 16 28
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 297 页
本例检验步骤如下,
( 1) 建立检验假设
H0:总体 B=C,即两种白喉杆菌培养基的效果相同
H1:总体 B≠C,即两种白喉杆菌培养基的效果不同
α=0.05
( 2) 计算值 本例 b=9,c=1,b+c<40,
90.4
19
)1|19(| 22 ?
?
????
( 3) 确定 P值 本例 X2= 4.90> X2= 3.84,P< 0.05。
( 4) 推断结论 在 α =0.05的水准上, 拒绝 H0,接收 H1,差
异有统计学意义 。 可认为甲, 乙两种白喉杆菌培养基的效果
有差别, 甲培养基培养效果优于乙培养基 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 298 页
三、行 × 列表的检验
? 行 × 列表( R× C表)的检验主要用于解决多个样本率
或多个样本构成比的比较以及有序分类资料的关联性
检验。
?
??
?
?
??
?
?
?? ? 1
2
2
CR nn
A
n?
式中 n为总例数, A为每格子的实际频数, nR,nC分别
为与某格子实际频数 ( A) 同行, 同列的合计数 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 299 页
(一)多个样本率的比较
? 例 6.10 某市重污染区, 一般市区和农村的出生婴儿的致畸情
况如表 6-6,问三个地区的出生婴儿的致畸率有无差别?
地区 畸形数 无畸形数 合计 致畸率( ‰ )
重污染区 114 3278 3392 33。 61
一般市区 404 40143 40547 9。 96
农村 67 8275 8342 8。 03
合计 585 51695 52281 11。 19
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 300 页
计算 X2值
( 3) 确定 P值 本例 υ =( 3- 1) ( 2- 1) =2,
查界值表, X20.05,2= 5,99。
( 4) 推断结论 在 α= 0.05的水准上, 拒绝 H0,接受 H1,
差异有统计学意义 。 可认为三个地区出生婴儿的致
畸率有差别 。
???
?
???????? 5169640547
40143
58540547
404
516963392
3278
5853392
11452281 22222?
111671
516968342
8275
5858342
67 22,?
???
??
?
?
?
?
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 301 页
(二)多个构成比的比较
? 6.11 某医院研究鼻咽癌患者与眼科病人的血型构成情况有无不
同, 资料如表 6-7,问其血型构成有无差别?
表 6-7 鼻咽癌患者与眼科病人的血型构成
组别 A型 B型 O型 AB型 合计
鼻咽癌患者 55 45 57 19 176
眼科病人 44 23 36 9 112
合计 99 68 93 28 288
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 302 页
计算 X2值
( 3) 确定 P值 本例 υ =( 2- 1) ( 4- 1) =3,查界值 X2
0.05,3=7.81。
( 4) 推断结论 在 α= 0.05的水准上, 接受 H0,差异无统计学意义 。
故尚不能认为鼻咽癌患者与眼科病人的血型构成有差别 。
???
? ?
?????????? 99112
44
28176
19
93176
57
68176
45
99176
55288 222222?
5621
28112
9
93112
36
68112
23 222,?
???
??
?
?
?
?
?
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 303 页
(三)双向有序分类资料的关联性检
验
? 例 6.12 某工厂在冠心病调查中研究冠心病与眼底动脉硬化的关
系,共调查 588人,资料如表 6-8,问冠心病与眼底动脉硬化有无
关系?
表 6-8 某厂职工冠心病与眼底动脉硬化调查结果
眼底动脉硬
化分级
冠心病诊断结果
合计
正常 可疑 冠心病
0 340 11 6 357
Ⅰ 73 13 6 92
Ⅱ 100 20 19 139
合计 513 44 31 588
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 304 页
? ( 3) 确定 P值,υ =( 3- 1) ( 3- 1) =4,查 X2界值表,
X2 0.05,4=9.49,本例 X2= 53.18 > X2=9.49,P<0.05。
? ( 4) 推断结论 在 α= 0.05的水准上, 拒绝 H0,接受
H1,差异有统计学意义 。 可认为冠心病诊断结果与眼
底动脉硬化分级有关系 。
计算 X2值
13.581
31139
19
44357
11
513357
340588 2222 ?
???
?
???
? ?
?
??
?
?
?
? ??
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 305 页
计算列联系数( Pearson法) r值。
? r值在 0~ 1之间,0表示完全独立,1表示完全相关,r
愈接近 0,说明几乎没有关系,r愈接近 1,说明关系愈
密切。
2
2
?
?
?
?
n
r
300
1358588
1358,
.
.r ?
?
?
本例 列联系数为,
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 306 页
行 × 列表资料的检验的注意事项
? 1,理论数不宜太小,一般不宜有 1/5以上格子
的理论频数小于 5,或有一个理论频数小于 1。
对理论数太小有三种处理方法,
? ①最好增加样本含量以增大理论频数; 根本的
方法。
? ②删去理论频数太小的行和列; 此法不好。
? ③将理论频数较小的行或列与邻行或邻列合并
以增大理论频数。但后两法可能会损失信息,
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 307 页
行 × 列表资料的检验的注意事项
? 2.当多个样本率(或构成比)比较的检验,结
论为拒绝检验假设,只能认为各总体率(或总
体构成比)之间不全相等,但不能认为彼此间
都不相等。若要比较彼此间的差别,可用下述
的行 × 列表的 分割法。
? 3.对于行 × 列表单向等级资料 ( 单向有序资料 )
组间的比较, 宜用第八章秩和检验, 如作卡方
检验法只说明各处理组的效应在构成比上有无
差异, 而不能说明组间整体效应的差异 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 308 页
四、行 × 列表的分割法
? X2分割的目的是进行多个率之间的两两比较 。
? 分割法是利用 X2值的 可加性原理, 把原 R× C表
分割为若干个分割表, 这些分割表的自由度之
和等于原 R× C表的自由度, 其值之和十分接近
原表的值 。
? 分割的方法是按最相近的原则, 把阳性率 ( 或
构成比 ) 相差不大的样本分割出来, 计算其 X2
值 。 当差异无统计学意义时, 就把它合并为一
个样本, 再把它与另一较相近的样本比较, 如
此进行下去直到结束 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 309 页
例 6.13 对例 6.10三个地区的出生婴儿的致畸率的分析
结果作进一步的两两比较
地 区 畸形数 无畸形 数 合计 致畸率( ‰ ) X2 υ P
一般市区 404 40143 40547 9.96
农 村 67 8275 8342 8.03 2.72 1 >0.05
合 计 471 84818 48889 9.63
一般市区 +农
村 471 84818 48889 9.63
重污染区 114 3278 3392 33.61 164.78 1 <0.005
合 计 585 51696 52281 11.19 167.49 2
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 310 页
第四节 * 四格表的确切概率法
(Fisher’s exact test)
? 前已述及, 四格表若有理论频数 T小于 1,或 n<40时, 尤其是用其
他检验方法所得概率接近检验水准时, 宜用四格表的确切概率法
(exact probabilities in 2× 2 table),即四格表概率的直接
计算法 。
? 本法的 基本思想 是:在四格表周边合计不变的情况下,获得某个
四格表的概率为,
!n!d!c!b!a
)!db()!ca()!dc()!ba(P ?????
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 311 页
例 6.14 抽查两批食品的卫生状况,作大肠杆菌检查,
检查结果见表 6-10。问两批食品的卫生状况有无差别?
? 表 6-10 甲乙两批食品大肠杆菌检查结果
组 别 阳性数 阴性数 合计 阳性率(%)
甲批 26(28.8) 7(4.2) 33 41.67
乙批 36(33.2) 2(4.8) 38 10.00
合 计 62 9 71 27.27
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 312 页
计算 P 值
? 表 6-10中甲批食品阳性率 P1=0.4167,乙批食
品阳性率 P2=0.1000,两者之差 | p1 - p2
|=0.3167。 在周边合计数不变的条件下, 可
能还有其它组合的四格表, 其阳性率之差
≥ 0.3167,所有这些比当前四格表更极端的
情况都应考虑进去, 因为这些极端情况在 H0
条件下都有可能发生 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 313 页
? 表 6-11中 | p1- p2 |≥0.3167 的四格表为序
号( 0)、( 1)、( 5)、( 6)的情形,按公式
( 6.16)求得序号( 1)的概率为
1 0 6 10
229175
1661012
1
.
!!!!!
!!!!
P
)(
??
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 314 页
序号( i ) 阳性 阴性 P
1
| P
1
- P
2
| P
( i )
P
2
0 6 6 0, 5 0 0 0 0, 5 0 0 0 0, 0 1 2 4
0 1 0 0, 0 0 0 0
1 5 7 0, 4 1 6 7 0, 3 1 6 7 0, 1 0 6 1
1 9 0, 1 0 0 0
2 4 8 0, 3 3 3 3 0, 1 3 3 3
2 8 0, 2 0 0 0
3 3 9 0, 2 5 0 0 0, 0 5 0 0
3 7 0, 3 0 0 0
4 2 1 0 0, 1 6 6 7 0, 2 3 3 3
4 6 0, 4 0 0 0
5 1 1 1 0, 0 8 3 3 0, 4 1 6 7 0, 0 4 0 5
5 5 0, 5 0 0 0
6 0 1 2 0, 0 0 0 0 0, 6 0 0 0 0, 0 0 2 8
6 4 0, 6 0 0 0
表 6-11 确切概率计算表(四格表周边合计数不变)
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 315 页
?余仿此,P(0)=0.0124,P(5)=0.0405,P(6)=0.0028,
因此所求概率为,
? 推断结论 按 =0.05的水准,不拒绝 H0,差异无
统计学意义。还不能认为两批食品卫生状况有差
别。
P =P(0)+P(1)+P(5)+P(6)=0.0124+0.1061
+0.0405+0.0028=0.1618
共 666页
END 返回章目录 返回总目录 C.CHENG
第 6章总体率的区间估计和假设检验 第 316 页
THANK YOU FOR LISTENING
THE END
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 317 页
泰山医学院预防医学教研室
zcheng@tsmc.edu.cn
主讲 程 琮
医学本科生用
医学统计学
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 318 页
Teaching Plan
For Medical Students
Medical Statistics
Professor Cheng Cong
Dept,of Preventive Medicine
Taishan Medical College
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 319 页
第 7章二项分布与泊松分布 目彔
? 第二节 Poisson分布及其应用
? 第三节 二项分布与 Poisson分布
的拟合优度检验
? 第一节 二项分布及其应用
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 320 页
第七章 二项分布与 Poisson分布
第一节 二项分布及其应用
一、二项分布的概念及应用条件
? 二项分布( binominal distribution)
是一种重要的离散型分布,在医学上常遇到属于两分
类的资料,每一观察单位只具有相互独立的一种结果,
如检查结果的阳性或阴性,动物试验的生存或死亡,
对病人治疗的有效或无效等。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 321 页
如果已知发生某一结果(如阳性)的概率为 π,其对立
结果(阴性)的概率为( 1-π ),且各观察单位的观察
结果相互独立,互不影响,则从该总体中随机抽取 n例,
其中出现阳性数为 X (X=0,1,2,3,…, n)的概率服从二
项分布。
? 二项分布
也称为贝努里分布( Bernoulli distribution)或贝努
里模型,是由法国数学家 J.Bernoulli于 1713年首先阐
述的概率分布。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 322 页
贝努里模型应具备下列三个基本条件。
? 试验结果只出现对立事件 A或,两者只能出现其中之
一。这种事件也称为互斥事件。
? 试验结果是相互独立,互不影响的。例如,一个妇
女生育男孩或女孩,并不影响另一个妇女生育男孩或
女孩等。
? 每次试验中,出现事件 A的概率为,而出现对立事件
的概率为1 -。则有总概率 +( 1-) =1。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 323 页
二,二项分布的概率函数
? 根据贝努里模型进行试验的三个基本条件, 可以求
出在 n 次独立试验下, 事件 A出现的次数 X的概率分布 。
X为离散型随机变量, 其可以取值为 0,1,2,…,n。
则 X的概率函数为,
XnXX
nn CXP
??? )1()( ??
X=0,1,2,…,n (7.1)
式中,0<π<1, 为组合数,公式( 7.1)称随机变量 X
服从参数为 n,π 的二项分布,则记为 X~ B(n,π) 。
XnC
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 324 页
三,二项分布的性质
? 二项分布是概率分布, 因此它就具备概率分布的各
种性质 。
1,二项分布的每种组合的概率符合二项展开式, 其总概
率等于 1
?????????? ?
?
?? 11100
0
)1()1()1()]1([ nnnn
n
X
XnXX
n
n CCC ????????
1)1()1( 0111 ????? ?? ???? nnnnnn CC
( 7.2)
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 325 页
由公式( 7.2)可看出二项展开式有以下特点,
( 1)展开式的项数为 n+1。
( 2) 展开式每项和 ( 1-) 指数之和为 n。
( 3)展开式每项的指数从 0到 n;( 1-)的指数从 n到 0。
2,二项分布的累积概率 设 m1≤X≤m2 ( m1< m2),则 X在
m1至 m2区间的累积概率有,
?
?
?????
2
1
)1()( 21
m
mX
XnXX
nn CmXmP ??
(7.3)
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 326 页
? 至多有 x例阳性的概率为,
? 至少有 x例阳性的概率为,
?
?
??
x
X
n XPxXP
0
)()(
X=0,1,2,…, x (7.4)
?
?
??
n
xX
n XPxXP )()(
X=x,x+1,…, n (7.5)
公式( 7.4)为下侧累计概率,公式( 7.5)为上侧累计概率。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 327 页
3.二项分布的概率分布图形
? 以 X为横坐标, P( X) 为纵坐标, 在坐标纸上可绘出二项
分布的图形,由于 X为离散型随机变量, 二项分布图形由横
坐标上孤立点的垂直线条组成 。
? 二项分布的图形取决于与 n的大小 。 当 n充分大时, 二项
分布趋向对称, 可以证明其趋向正态分布 。
? 一般地, 如果 n乘以 π 即 nπ 之积大于 5时, 分布接近正态
分布;当 nπ <5时, 图形呈偏态分布 。 当 π =0.5时, 图形
分布对称, 近似正态 。 如果 π ≠ 0.5或距 0.5较远时, 分布
呈偏态 。 见图 7-1。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 328 页
图 7-1 二项分布示意图
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 329 页
4.二项分布的数字特征 这里的数字特征主要指
总体均数、方差、标准差等参数。
(1) 随机变量 X的数学期望 E( X) = μ, 即指总体均数,
μ = nπ (7.6);
(1) 随机变量 X的方差 D( X) = σ 2 为,
(3) 随机变量 X的标准差为,
)1( ??? ?? n
( 7,7) )1(2 ??? ?? n
( 7,8)
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 330 页
( 7.9)
?? ?
p
n
p
)1( ??
?
?
?
( 7.10)
⑷ 若 X的总体均数和标准差用率来表示,则将公式
( 7.6)和公式( 7.8)分别除以 n,得,
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 331 页
四、二项分布展开式各项的系数
? 二项分布展开式的各项之前均有一个系数,用组合公
式来表示。计算公式为,
)!(!
!
XnX
n
C
X
n
?
?
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 332 页
? 该 系数 也可用杨辉三角来表示,见
图 7-2。国外参考书习惯称之为 巴斯
噶三角。 当试验次数 n较小时,可直
接利用杨辉三角将二项分布展开式
各项的系数写出来,应用十分方便。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 333 页
图 7-2 杨辉三角模式图
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 334 页
杨辉三角的意义,
? ① 杨辉三角中每行有几个数字,表示展开式有
几项。当试验次数为 n 时,有 n+1项。
? ② 杨辉三角中每行中的数字表示展开式中每项
的系数大小。
? ③ 杨辉三角中的各数字项及其数字的排列很有
规律。可依照规律继续写下去。第一行的第一、
第二项均为数字1,以后每下一行的首项及末
项均为1,中间各项为上一行相邻两项数字之
和。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 335 页
五、二项分布的应用
? 二项分布在生物学及医学领域中,主要
应用在下列几个方面,
? ①总体率的可信区间估计,
? ②率的 u检验,
? ③样本率与总体率比较的直接计算概率
法。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 336 页
(一)应用二项分布计算概率
? 例 7.1 如出生男孩的概率 =0.5,出生女孩的概
率为 ( 1-) =0.5。 在一个妇产医院里有 3名产妇
分娩 3名新生儿, 其中男孩为 X=0,1,2,3的概率按
公式 ( 7.1) 计算的结果列于表 7-1的第 ( 3) 栏
中 。
? 分析,根据题意,已知生育男孩为事件 A,其概
率 P(A)=0.5(即 π =0.5);生育女孩为事件,其
概率为 P()=1-P(A)=1-0.5= 0.5(即 1-π =0.5)。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 337 页
? 三个妇女生育一个男孩,两个女孩的概率为,
? 三个妇女生育均为女孩(即无男孩)的概率为,
125.05.05.0
)!03(!0
!3
)1()0( 303003 ???
?
??? ??CP
375.05.05.0
)!13(!1
!3
)1()1( 212113 ???
?
??? ??CP
余类推,见表 7-1第( 3)栏。表 7-1第( 5)栏为至少生育 X
个男孩的累积概率。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 338 页
(二 )样本率与总体率的比较的直接概率法
? 此法适用 n和 n(1-)均小于 5的情形。
? 应注意,
? ①当样本率大于总体率时,应计算大
于等于阳性人数的累积概率。
? ②当样本率小于总体率时,应计算小
于等于阳性人数的累积概率。
0?
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 339 页
? 例 7.2 A药治疗某病的有效率为 80% 。 对 A药进行改
进后, 用改进型 A药继续治疗病人, 观察疗效 。 ① 如果
用改进型 A药治疗 20例病人, 19例有效 。 ② 如果用改进
型 A药治疗 30例病人, 29例有效 。 试分析上述二种情形
下, 改进型 A药是否疗效更好 。
? 分析, A药有效率为 80%, 可以作为总体率, 即 π 0
= 0.8 。 治疗 20例病人的样本有效率为 ( 19/ 20)
× 100% = 95% ;治疗 30例病人的样本有效率为 ( 29/
30) × 100% = 96.67% 。 两个样本率均大于总体率 80
%, 故应计算大于等于有效例数的单侧累积概率 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 340 页
情形一,治疗 20例病人的疗效分析
? ( 1) 建立检验假设
? H0, 改进型 A药的疗效与原 A药相同, π= π0 = 0.80
H1,改进型 A药的疗效高于原 A药, π > π0 = 0.80
? 单侧 α = 0.05
? ( 2)计算概率值 根据二项分布有,
02020201191920 )20.0()80.0()20.0()80.0()20()19()19( CCPPXP ?????
= 0.0548+0.0115=0.0663
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 341 页
情形二,治疗 30例病人的疗效分析
( 1)检验假设同情形一。
( 2)计算单侧累积概率有,
( 3) 推断结论 本例 P= 0.0663,在= 0.05水准上,不拒绝 H0。
尚不能认为改进型 A药的疗效优于原 A药。
03030301292930 )20.0()80.0()20.0()80.0()30()29()29( CCPPXP ?????
=0.008975+0.001238=0.0102
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 342 页
( 3) 推断结论 本例 P= 0.0102,在= 0.05水准上,拒绝
H0,接受 H1。可以认为改进型 A药的疗效优于原 A药。
? 注意,治疗 20例病人的有效率为 95%,治疗
30例病人的有效率为 96.67%,两个样本有效
率很接近。但最终得出的结论却不相同。一般
地,临床上观察疗效,样本含量不能太小。随
着观察例数的增加,疗效的稳定性及可靠性也
相应增加,受到偶然因素影响的机会也变得较
小。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 343 页
分析, 本例总体率= 1%。调查人群样本反应率为
( 1/ 300) × 100%= 0.33%。由于样本率小于总
体率,故应计算小于等于阳性人数的累积概率。
? 例 7.3 一般人群对 B药的副作用反应率为 1%。
调查使用 B药者 300人,其中只有 1人出现副作
用。问该调查人群对 B药的副作用反应率是否
低于一般人群。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 344 页
? ( 1) 建立检验假设
? H0:调查人群反应率与一般人群相同, π= π0= 0.01
H1,调查人群反应率低于一般人群, π<π0 = 0.01
? 单侧 α = 0.05
? ( 2) 计算单侧累积概率,
1976.01486.00490.0)99.0()01.0()99.0()01.0()1()0()1( 2 9 9113 0 03 0 0003 0 0 ???????? CCPPXP
( 3) 推断结论 本例 P= 0.1976,在 α = 0.05水准上,
不拒绝 H0。尚不能认为调查人群的 B药副作用反应率低于
一般人群。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 345 页
第二节 Poisson分布及其应用
? 一,Poisson分布的概念及应用条件
? (一 )Poisson分布的概念
? Poisson分布由法国数学家 S.D.Poisson在 1837
年提出。该分布也称为 稀有事件模型,或 空间
散布点子模型。 在生物学及医学领域中,某些
现象或事件出现的机会或概率很小,这种事件
称为稀有事件或罕见事件。稀有事件出现的概
率分布服从 Poisson分布。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 346 页
? Poisson分布的直观描述,如果稀有事件 A在每个单元
(设想为 n次试验)内平均出现 λ次,那么在一个单元
( n次)的试验中,稀有事件 A出现次数 X的概率分布
服从 Poisson分布。
? Poisson分布属于离散型分布 。 在 Poisson分布中, 一个
单元可以定义为是单位时间, 单位面积, 单位体积或
单位容积等 。 如每天 8小时的工作时间, 一个足球场的
面积, 一个立方米的空气体积, 1升或 1毫升的液体体
积,培养细菌的一个平皿, 一瓶矿泉水等都可以认为是
一个单元 。 一个单元的大小往往是根据实际情况或经
验而确定的 。 若干个小单元亦可以合并为一个大单元 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 347 页
(二 )常见 Poisson分布的资料
在实际工作及科研中,判定一个变量是否服从
Poisson分布仍然 主要依靠经验以及以往累积的资料 。
以下是常见的 Poisson分布的资料,
1.产品抽样中极坏品出现的次数;
2.枪打飞机击中的次数;
3.患病率较低的非传染性疾病在人群中的分布;
4.奶中或饮料中的病菌个数;
5.自来水中的细菌个数;
6.空气中的细菌个数及真菌饱子数;
7.自然环境下放射的粒子个数;
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 348 页
8.布朗颗粒数;
9.三胞胎出生次数;
10.正式印刷品中错误符号的个数;
11.通讯中错误符号的个数;
12.人的自然死亡数;
13.环境污染中畸形生物的出现情况;
14.连体婴儿的出现次数;
15.野外单位面积某些昆虫的随机分布;
16.单位容积内细胞的个数;
17.单位空气中的灰尘个数;
18.平皿中培养的细菌菌落数等。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 349 页
二,Poison分布的概率函数及性质
? ㈠ 定义
? 若变量 X的概率函数为
?? ?? e
X
XP
X
!
)(
其中 λ > 0,则称 X服从参数 λ 为的 Poisson分布。
记为 X~ P(λ) 。式中,λ 为总体均数,λ = nπ 或 λ=np ; X
为稀有事件发生次数; e为自然底数,即 e =2.71828 。
? ( X=0,1,2,… )
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 350 页
亦可用下列公式计算
P( 0) = e- λ
X
XPXP
?
)1()( ??
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 351 页
(二 ) 性质
1,所有概率函数值 ( 无穷多个 ) 之和等于 1,即
?
?
?
? ?
0
1
!X
X
e
X
??
2.分布函数
?
?
????
x
X
X
eXxXPXF
0 !
)()( ??( X=0,1,2,… x)
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 352 页
( 0≤ x1< x2)
3.累积概率
?
?
????
2
1
!
)( 21
x
xX
X
e
X
xXxP ??
4.其它性质
总体均数,
方差,
标准差,
?? ?
μ = λ= nπ (或 np)
σ 2= λ
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 353 页
(三) Poisson分布的图形
? 一般地,Poisson分布的图形取决于 λ 值的大
小。 λ 值愈小,分布愈偏; λ 值愈大,分布愈
趋于对称。 当 λ = 20时, 分布接近正态分布 。
此时可按正态分布处理资料。 当 λ = 50时,分
布呈正态分布。 见图 7-3。这里通过计算一个
具体实例来观察 Poisson分布的概率分布趋势。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 354 页
图 7-3 Poisson分布的概率分布图
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 355 页
例 7.4 计算 Poisson分布 X~P(3.5)的概率。
5.3
!
5.3)( ?? e
X
XP
X
0302.071828.2)0( 5.35.3 ???? ??eXP
1057.00302.01 5.3)0(1 5.3)1( ?????? XPXP
1850.01057.02 5.3)1(2 5.3)2( ?????? XPXP
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 356 页
余类推。经计算得到一系列数据,见表 7-2。
2 1 5 8.01 8 5 0.03 5.3)2(3 5.3)3( ?????? XPXP
X 的 出 现 次
数( 1 )
0 1 2 3 4 5 6 7 8 9 ??
X 的 概 率 值
P ( X ) ( 2 )
0.0302 0.1057 0.1850 0.2185 0.1888 0.1322 0.0771 0.0386 0.0169 0.0066 ??
表 7-2 X~ P( 3.5)的 Poisson分布
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 357 页
(四) Poisson分布的可加性
? 从同一个服从 Poisson分布的总体中抽取若干
个样本或观察单元,分别取得样本计数值 X1,
X2,X3,…, Xn,则 ∑Xi 仍然服从 Poisson分布 。
根据此性质,若抽样时的样本计数 X值较小时,
可以多抽取几个观察单元,取得计数 Xi,将其
合并以增大 X计数值。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 358 页
三,Poisson分布与二项分布的比较
? Poisson分布也是以贝努里模型为基础的。实际上,
Poisson分布是二项分布的一种特殊情形,即稀有事例
A出现的概率很小,而试验次数 n很大,也可将试验次
数 n看作是一个单元。此时,n或 np =λ为一个常数,
二项分布就非常近似 Poisson分布。或 p愈小,n愈大,
近似程度愈好。
? 设 λ= 1。 当 n=100,=0.01时, 及 n=1000,=0.001时, 按
照二项分布及 Poisson分布计算概率 P( X) 。 计算结果
见表 7-3。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 359 页
表 7- 3 二项分布与 Poisson分布计算的概率值比较
事件 A 出现次数
X
( 1 )
Poisson 分布
λ = 1
( 2 )
二项分布
( n =1000,
?
=0.001 )
(3)
二项分布
( n =100,
?
=0.01 )
(4)
0 0.3679 0.3677 0.3660
1 0.3679 0.3681 0.3697
2 0.1839 0.1840 0.1849
3 0.0613 0.0613 0.0610
4 0.0153 0.0153 0.0149
5 0.003 1 0.0030 0.0029
6 0.0005 0.0005 0.0005
7 0.0001 0.0001 0.0001
0.0000 0.0000 0.0000 8
合计 1.0000 1.0000 1.0000
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 360 页
余类推。
1.按二项分布计算
已知,n=100,π =0.01,1- π =0.99, 代入公式有,
3 6 6 0.0)99.0()01.0()0( 10000100 ??? CXP
3697.0)99.0()01.0()1( 99111 0 0 ??? CXP
1 8 4 9.0)99.0()01.0()2( 9822100 ??? CXP
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 361 页
2.按 Poisson分布计算 代入公式有,
余类推。
36788.071828.2
!0
1)0( 110 ???? ??eXP
3 6 7 8 8.0)0(
1
1)1( ???? XPXP
1 8 3 9 4.0)1(21)2( ???? XPXP
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 362 页
四,Poisson分布的应用
? Poisson分布有 多种用途 。
主要包括总体均数可信区间的估计,
样本均数与总体均数的比较,
两样本均数的比较等 。
? 应用 Poisson分布处理医学资料时, 一定要注
意所处理资料的特点和性质, 资料是否服从
Poisson分布 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 363 页
(一)总体均数的估计
? 总体均数的估计包括 点估计和区间估计 。
? 点估计 是指由样本获得的稀有事件 A出现的次数 X
值, 作为总体均数的估计值 。 该法的优点是计算简
便, 但缺点是无法得知样本代表总体均数的可信程
度 。
? 区间估计 可以确切获知总体均数落入一个区域
的可信度, 一般可信度取 95% 或 99% 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 364 页
? 估计总体均数可信区间一般分为小样本
法和大样本法 。 小样本一般指样本均数或样本
计数值 X≤ 50的情形, 可直接通过查表法得到
可信区间 。 当样本均数 X> 50时, Poisson分布
近似正态分布, 可按正态分布处理资料 。
? 1.小样本法 当样本均数或样本计数值
X≤ 50时, 可直接查附表 9,,Poisson分布的
可信区间, 表, 得到可信区间 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 365 页
? 例 7.5 在 20ml的当归浸液中含某种颗粒 30
个。试分析该单元浸液中总体颗粒数的 95%和 99
%的可信区间。
分析,将 20ml当归浸液看作一个单元,该单元的样本均
数 X= 30,小于 50。可查附表 9,求出总体均数 λ的可信区
间。
查附表 9(205页 )得,
总体均数 λ95% 的可信区间为 ( 20.2,42.8)
总体均数 λ99% 的可信区间为 ( 17.7,47.2)
?
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 366 页
2.正态近似法 当样本均数或计数 X> 50时,可
按正态分布法处理。
? 总体均数 λ95%的可信区间为
? 总体均数 λ99%的可信区间为
XX 96.1?
XX 58.2?
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 367 页
例 7.6 某防疫站检测某天然水库中的细菌总数。平均每
毫升 288个细菌菌落。求该水体每毫升 95%和 99%的可信
区间。
? 应用公式有,
λ95%的可信区间
28896.1288 ? =( 255.74,320.26)
2 8 858.22 8 8 ?
λ99%的可信区间
=( 244.22,331.78)
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 368 页
(1) 发病人数的 95%可信区间为,
? 例 7.7 调查 1985年某市某区 30万人, 流行性出血热发
病人数为 204人 。 求该市发病人数及发病率 ( 1/ 10万 )
95% 的可信区间 。
? 分析:已知样本均数 X为 204人,观察单元 n= 30万人。
先计算出发病人数的可信区间,再按照发病率的要求
以 10万人作为观察单元,计算发病率可信区间的上下
限值。
20496.1204 ? =( 176,232)
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 369 页
(2) 发病率的 95%可信区间为,
? 上限值,
? 下限值,
万/万=万/万 1067.58101030176 ?
万/万=万/万 1033.77101030232 ?
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 370 页
(二)样本均数与总体均数的比较
? 常用的方法有两种 。
? ① 直接计算概率法:与二项分布的计算思路
基本相同 。 即当 λ < 20时, 按 Poisson分布直
接计算概率值 。
? ② 正态近似法:当 λ≥ 20时, Poisson分布
接近正态分布 。 按正态分布使用 u检验处理资
料 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 371 页
1.直接计算概率法
? 例 7.8 某地区以往胃癌发病率为 1/万 。 现在
调查 10万人, 发现 3例胃癌病人 。 试分析该地
区现在的胃癌发病率是否低于以往的发病率 。
? H0,现在胃癌发病率与以往相同, π = π0
=0.0001
? H1,现在胃癌发病率低于以往, π < π0
? 单侧 α = 0.05
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 372 页
( 2)计算概率值
? 已知,n=100000,=0.0001,= n=100000× 0.0001=10。
?根据题意, 应计算小于等于 3人发病的概率 P( X≤3),
即,P( X≤3) = P(0)+ P(1)+P(2)+P(3)
? 应用公式 ( 7.14) 及 ( 7.15) 有,
51010 1054.471828.2)0( ???? ?????? eeXP ?
45 1054.41054.410)0(
1
10)1( ?? ???????? XPXP
0 0 2 2 7.01054.4310)1(210)2( 4 ??????? ?XPXP
00757.000227.0310)2(310)3( ?????? XPXP
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 373 页
( 3)推断结论 本例 P= 0.0103,小于 P= 0.05。
在 α = 0.05水准上拒绝 H0,接受 H1。可以认为
现在该地区胃癌发病率低于以往发病率。
0103.0)00757.0()00227.0()1054.4()1054.4()3( 45 ???????? ??XP
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 374 页
2.正态近似法 当 λ≥20 时,用 u检验法。
例 7.9 根据医院消毒卫生标准, 细菌总数按每立方米菌
落形成单位 ( CFU/ m3) 表示 。 无菌间的卫生标准为
细菌菌落数应不大于 200( CFU/ m3) 。 某医院引进
三氧消毒机, 每天自动对无菌间进行 2小时消毒 。 对无
菌间抽样调查显示, 细菌总数为 121CFU/ m3。 试问
该医院无菌间的细菌总数低于国家卫生标准 。
0
0
?
??
?
X
u
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 375 页
? (1) 建立检验假设
H0,无菌间的细菌总数符合国家卫生标准, λ=λ0=200
H1,无菌间的细菌总数低于国家卫生标准, λ<λ0
单侧 α= 0.05
?( 2) 计算 u值,
已知,λ0= 200 CFU/ m3,X= 121 CFU/ m3,代入公式
( 7.23) 有,
59.5
200
|200121|
?
?
?u
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 376 页
(3)确定 P值 查附表 2,t界值表(一栏),单侧
u0.0005=3.2905,现 u> u0.0005,故 P<0.0005。
⑷推断结论 因 P<0.0005,拒绝 H0,接受 H1,差异有统计学
意义。可以认为该医院无菌间的细菌总数低于国家卫生标准。
? 例 7.10 某地区以往恶性肿瘤发病率为 126.98
/ 10万人。今调查发现,该地区恶性肿瘤发病
率上升为 148.62/10万人。试分析现在的发病
率是否高于以往的发病率。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 377 页
( 3)确定 P值 本例 u=1.92,大于单侧 u0.05=1.64,则 P< 0.05。
( 4)推断结论 在= 0.05水准上拒绝 H0,接受 H1,差异有统计学意
义。可以认为该地区恶性肿瘤发病率高于以往的发病率。
( 1) 建立检验假设
H0,现在的发病率与以往的发病率相同, λ = λ 0= 126.98
H1,现在的发病率高于以往的发病率, λ > λ 0
单侧= 0.05
( 2) 计算 u值,
92.1
98.1 2 6
98.1 2 662.1 4 8
0
0 ?????
?
?X
u
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 378 页
(三)两样本均数的比较
? 应用条件要求资料服从 Poisson分布,两个样本均数
X1及 X2均大于 20。
? 1,两样本观察单元相同 观察单元可以指单位面积、
容积、体积、时间等。
?注意,Poisson分布中的观察单元具有可加性,如 ∑X1
和 ∑X2。检验公式为,
21
21
21
21
XX
XX
XX
XX
u
???
???
?
?
?
?
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 379 页
例 7.11 空气中负离子状况可以反映空气的新鲜感及
污染状况 。 现调查某风景名胜区不同地点的负离子状
况 。 海拔较高的山上风景点负离子数为 240个/ cm3。
该景区商业区的百货大楼内的负离子数为 146个/ cm3。
试分析该风景区两个不同地点负离子状况有无差异 。
(1) 建立检验假设
H0,两地点负离子状况相同, λ1= λ2
H1,两地点负离子状况不同, λ1≠λ2
双侧= 0.05
( 2) 计算 u值,
61.4
149240
149240
21
21 ?
?
?
?
?
?
?
XX
XX
u
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 380 页
(3)确定 P值 查附表 2,u0.001=3.2905,现
u> u0.001,故 P<0.001。
⑷推断结论 因 P<0.001,拒绝 H0,接受 H1,
差异有统计学意义。
可以认为 该风景区两个不同地点的空气
负离子状况有差异。海拔较高的风景点空
气状况要好于百货大楼。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 381 页
例 7.12 调查某地区人群死亡状况 。 结果显示, 男性及
女性的意外死亡率分别为 62人/ 10万人和 72人/ 10万
人 。 试分析男女意外死亡率有无差异 。
分析,该资料服从 Poisson分布, 每 10万人可以作为一个
观察单元 。
( 1) 建立检验假设
H0:男女意外死亡率相等,
H1:男女意外死亡率不相等,
α= 0.05
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 382 页
(3)确定 P值,推断结论 本例 u=0.86,小于 u0.05=1.96,则 P>
0.05。
在 α = 0.05水准上,不拒绝 H0,无统计学意义。可以认为男
女性意外死亡率无差异。
86.0
7262
7262
?
?
?
?u
( 2)计算 u值,
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 383 页
例 7.13 某医院使用一定方法对住院病房进行消毒, 并检测
某一病房消毒前后的细菌菌落数 ( CFU/ m3) 。 消毒
前后均检测 9次 。 消毒前的菌落数为 18,10,9,15,5,2,6,5,2。
消毒后的菌落数为 5,4,5,6,7,2,3,2,1。 试分
析该病房消毒前后的卫生状况有无差异 。
分析,该资料服从 Poisson分布 。 根据 Poisson分布的可加
性, 将 9次取样的菌落数相加为一个观察单元 。 消毒前
为 ∑X1= 72;消毒后为 ∑X2= 35。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 384 页
( 1) 建立检验假设
H0:消毒前后菌落数相等, λ1= λ2
H1:消毒前后菌落数不等, λ1≠ λ2
α =0.05
( 2) 计算 u值, 应用公式 ( 7.24) 有,
58.3
3572
3572
21
21
?
?
?
?
?
?
?
? ?
? ?
XX
XX
u
( 3)确定 P值,推断结论 本例 u=3.58,大于 u0.05=2.58,则 P< 0.01。
在 α = 0.05水准上拒绝 H0,接受 H1。
可以认为该病房消毒前后的卫生状况不同。消毒后的细菌菌落数减
少,卫生状况得到改善。
?
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 385 页
2,两样本观察单元不同 当两样本观察单元不同时, 不
可直接比较或直接相加后进行比较 。 可以将两样本观
察单元先转化为相等的观察单元后, 再应用公式进行
比较 。
? 一般可计算两样本均数和, 再按下式计算 u值 。
2
2
1
1
21
n
X
n
X
XX
u
?
?
?
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 386 页
例 7.14 某防疫站检验某商场的两种品牌的矿泉水 。 检测
每 ml的细菌总数 ( CFU/ ml) 。 品牌 A抽查 4瓶, 结果
为 132,156,182,143;品牌 B抽查 6瓶, 结果为 313,
298,356,384,348,306。 试分析 A,B两种品牌矿泉
水的细菌总数有无差异 。
分析,本例观察单元不相同, 可以先求出均数 。
25.1 5 34/)1 4 31 8 21 5 61 3 2(1 ?????X
17.3346/)306348384356298313(2 ???????X
品牌 A的均数
品牌 B的均数
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 387 页
( 1)建立检验假设
H0:两种品牌矿泉水菌落数相等,λ 1= λ 2
H1:两种品牌矿泉水菌落数不等,λ 1≠ λ 2
α= 0.05
( 2)计算 u值,应用公式( 7.25)有,
66.18
6
17.3 3 4
4
25.1 5 3
17.3 3 425.1 5 3
?
?
?
?u
( 3)确定 P值,推断结论 本例 u=18.66,大于
u0.01=2.58,则 P< 0.01。可以认为 A,B两种品牌矿
泉水受细菌污染程度不同。其中品牌 B矿泉水的污
染程度较高。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 388 页
(四)多个样本均数的比较
? 当比较的样本为二个以上时,可进行多样本均数或样
本计数值的检验。使用的方法为卡方检验。检验公式
及步骤如下。
? 1.首先计算观察单元的均数估计值 。符号,∧,读
作,hat”。英文为“帽子”之义。 ??
i
i
n
n
u
X
uuu
XXX
?
?
?
???
????
?
?
21
21=?
式中,X1,X2,…, Xn为样本计数值,u1,u2,…, un为观察单
元值。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 389 页
? 2.将样本计数值 Xi(即 X1,X2,…, Xn)转换为 Zi值。
公式为,
?
?
?
?
?
?
?
?
???
?
?iii uXZ 12
?
?
?
?
?
?
?
?
??
?
?iii uXZ 2
?
? ?ii uX
?
? ?ii uX
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 390 页
3.计算值 X2值,
? 自由度 υ =组数 -1 。
22
iZ???
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 391 页
? 例 7.15 某医院对三个病房进行空气采样, 检
测细菌污染状况 。 细菌总数用每立方米菌落形
成单元 ( CFU/ m3) 来表示 。 检测结果如下 。
病房 A为 168 CFU/ m3,病房 B为 131 CFU/ m3,
病房 C为 630 CFU/ 2m3。 试分析三个病房的细
菌污染状况有无差异 。
? 分析,应注意病房 A与 B的观察单元为 1个 m3,
病房 C的观察单元则为 2个 m3,可以看作为 2个
观察单元 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 392 页
? (1) 建立检验假设
? H0,三个病房的细菌总数相同, λ 1= λ 2= λ 3
? H1,三个病房的细菌总数不全相同 。
? 双侧 α = 0.05
? ( 2) 计算均数估计值
? 应用公式 ( 7.27) 有,
25.232
211
630131168
?
??
??
?
?
?
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 393 页
? ( 3) 计算 Zi值
? 已知,X1=168,X2=131,X3=630; u1=1,u2=1,u3=2。
? X1及 X2均小于,
? 应用公式 ( 7.28) 有,
25.23225.2321 ?????iu
? ? 480.425.23211168212 111 ????????
?
?
???
? ??? ??uXZ
? ? 501.725.23211131212 222 ????????
?
?
???
? ??? ??uXZ
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 394 页
? X3= 630,大于
5.46425.23223 ?????u
应用公式( 7.29)有,
? ? 095.725.232263022 333 ??????
?
?
???
? ?? ??uXZ
( 4)计算值 按公式( 7.30)
2?
67.1 2 6)0 9 5.7()5 0 1.7()4 8 0.4( 222
2
3
2
2
2
1
2
??????
??? ZZZ?
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 395 页
( 5) 确定 P值 根据组数即病房数为 3,自
由度= 3- 1= 2,查值表得:= 10.60。
本例 >,则 P< 0.005。
(6)推断结论 在= 0.05水准上拒绝 H0,接受
H1,差异有统计学意义 。 可以认为三个
病房的细菌总数不全相同, 即三个病房
的细菌污染状况不同 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 396 页
(五)应用 Poisson分布的注意事项
? 1.Poisson分布的观察单元具有可加性 。
当样本均数 X或样本计数值< 20时, 可通
过增加或合并观察单元以增大样本均数
或样本计数值 。 当 X> 20时, Poisson分
布近似正态分布, 可按正态分布进行
Poisson分布均数比较的 u检验 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 397 页
2,Poisson分布的观察单元可以由大缩小, 而不可
以由小扩大 。 例如, 实际观察 1个平皿中的细
菌菌落数为 34个, 不能据此将其扩大而认为 10
个平皿的菌落数为 340个 。 如果实际观察了 10
个平皿的菌落数为 340个, 可以将其缩小而认
为 2个平皿有 68个菌落数 。
3,判断一组数据或一个资料是否服从 Poisson分
布, 主要是依靠以往积累的经验或专业知识 。
必要时也可进行拟合优度检验以确定资料分布
类型 。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 398 页
第三节 二项分布与 Poisson分布的
拟合优度检验
? 在实际工作中,科研人员经常需要了解取得的
数据的分布特征。了解数据的分布特征一般有
两种方法。一是根据以往积累的经验来判断,
二是由公式进行检验。后者常用的方法为拟合
优度检验( goodness of fit test),也称为配合
适度检验。其目的是检验数据的频数分布与一
个已知分布是否相符合。常用的拟合优度检验
为检验。
? 其基本方法与步骤, 略。
共 666页
END 返回章目录 返回总目录 C.CHENG
第 7章 二项分布与泊松分布 第 399 页
Thank You for
Listening
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 400 页
主讲 程 琮
泰山医学院预防医学教研室
zcheng@tsmc.edu.cn
医学统计学
临床医学本科生用
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 401 页
Chinese Teaching Plan
for Medical Students
Medical Statistics
Professor Cheng Cong
Dept,of Preventive Medicine
Taishan Medical College
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 402 页
第 8章秩和检验 目彔
? 第五节 多个样本间两两比较的秩和检验
? 第二节 配对设计资料的秩和检验
? 第三节 两样本比较的秩和检验
? 第四节 完全随机设计多个样本比较的秩
和检验
? 第一节 非参数统计的概念
? 第六节 随机区组设计资料的秩和检验
? 第七节随机区组设计资料的两两比较
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 403 页
教学目的及要求
? 第八章 秩和检验
? 掌握秩和检验的应用条件及其基本概念。
? 掌握秩和检验的基本思想及分析方法。
? 掌握秩和检验编排秩次的基本方法。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 404 页
第一节 非参数统计的概念
? 秩和检验( rank sum test) 属于非参数统计
( nonparametric statistics)。它的假设检验是推
断总体分布是否相同,而不是推断总体参数是否相等,
故称为 非参数检验( nonparametric test) 。非参数
检验有时也称为 任意分布检验( free istribution) 。
? 参数统计:如 t检验,F检验统计推断的是两个或多个
总体均数(总体参数)是否相等,这类统计方法称为
参数统计( parametric statistics)。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 405 页
非参数检验适用于以下类型的资料,
? 1.等级资料 ( 有序分类资料 ) 。 如疗效按治愈, 显效, 有效, 无
效分组的资料;临床化验结果按, -, ±, +, ++,+++,++++”
分组的资料等 。
? 2.偏态分布资料 。 当观察值呈偏态或极度偏态分布, 而又未经变
量变换或虽经变换但仍未达到正态或近似正态分布 。
? 3.分布不明的资料 。 如新指标分布形态不明;小样本, 但不趋向
正态分布资料 。
? 4.各组方差明显不齐, 且不易变换达到齐性 。
? 5.组内个别观察值偏离过大的资料 。 这里指随机的偏离, 而不是
,过失误差, 。
? 6.开口分组资料 。 数据分组某一端或两端无明确数值的资料, 只
给出一个下限或上限, 而没有具体数值, 如 <0.01μg, ≥ 60岁
等 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 406 页
非参数检验的特点
? 非参数检验 特点,
? 1。 主要优点是不受总体分布的限制, 适用范围广 。
? 2。 但对适宜用参数统计检验的资料, 若用非参数检验处
理, 常损失部分信息, 降低统计检验效率, 即犯第二类
错误的概率 β比参数检验大 。
? 3。 对于适合参数统计检验条件的资料或经变量变换后适
合于参数统计检验, 应最好用参数检验 。 当资料不具备
用参数检验的条件时, 非参数检验是很有效的分析方法 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 407 页
第二节 配对设计资料的秩和检验
( Wilcoxon配对法)
? 例 8.1 12名宇航员航行前及返航后 24小时的心率(次 /
分)变化如表 8-1。问航行对心率有无影响?
? (1)建立检验假设
? H0:宇航对心率无影响,即差值的总体中位数 Md=0
? H1:宇航对心率有影响,即 Md≠0
? α =0.05
? (2)求差值 计算每对观察值的差值 d,见表 8-1第( 4)
栏。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 408 页
表 8-1 宇航员航行前后的心率比较
编号 航前 航后 差值 秩次
( 1) ( 2) ( 3) ( 4) ( 5)
1 76 93 - 17 9
2 71 68 3 1
3 70 65 5 4
4 61 65 - 4 3
5 80 93 - 13 8
… … … … …
12 63 60 3 2
T+ = 7,T- = 71
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 409 页
? (3)编秩次 是关键。 按差值的绝对值从小到大编秩次,
即 1,2,3,…, n,并按差值的正负标上正负号,如表
8-1第( 5)栏。编秩次时应注意:①遇差值为 0时,弃
去不计,对子数 n也随之减少;②遇有差值相等,符号
相同时,按顺序编秩次并标上相应的正负号,如本例差
值有两个 3,两个 -6,按顺序编为 1,2,-5,-6即可;③
遇有差值相同,但符号不同时,要取平均秩次并分别标
上相应的正负号。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 410 页
? (4)求秩和并确定检验统计量 T值 分别求出正负秩次之
和,正秩和以 T+表示, 负秩和的绝对值以 T- 表示 。 T+
及 T- 之和等于 n(n+1)/2,即 1+2+3+…+ n之和。此式可
验算 T+和 T- 计算是否正确。
? 本例 T+=7,T- =71,其和为 78,而 12(12+1)/2=78,可见
T+,T- 计算无误。
? 任取 T+(或 T- )作检验统计量 T,本例取 T=7。
? (5)确定 P值和作出推断结论 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 411 页
2)正态近似法 当 n> 50超出了附表 10,T界值表的范围,
可按公式( 8.1)计算 u值。
? 因为当 n逐渐增大时,
T值的分布将逐渐逼近
于均数为 n (n+4) /4,
标准差为的正态分布,
故可按正态分布进行 u
检验并作出结论。
? 有相同差数 个数较多
时,用校正公式,
24121
5041
/)n)(n(n
./)n(nT
u
??
???
?
48
)(
24
)12)(1(
5.04/)1(
3? ?
?
??
???
?
jj ttnnn
nnT
u
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 412 页
第三节 两样本比较的秩和检验
(两个独立样本比较的秩和检验)
? 1。两样本比较的秩和检验( Wilcoxon两样本比较法)
适用于完全随机设计两组定量资料和等级资料的比较。
? 2。 例 8.2 测得铅作业与非铅作业工人的血铅值
( mol/L)如表 8-2第( 1)、( 2)栏,问两组工人的
血铅值有无差别?
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 413 页
表 8-2 两组工人血铅值的秩和检验
非铅作业组 秩次 铅作业组 秩次
(1) (2) (3) (4)
0.24 1 0.82 9
0.24 2 0.86 10.5
0.29 3 0.96 12
0.34 4 1.20 14
0.43 5 1.63 15
0.58 6 2.06 16
0.62 7 2.11 17
… …
n2=10 T1=59.5 n1=7 T1=93.5
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 414 页
检验步骤( 1)
? ( 1) 建立检验假设
? H0:两组工人血铅值的总体分布位置相同
? H1:铅作业工人血铅值高于非铅作业工人
? 单侧 α =0.05
? ( 2) 编秩 将两组原始数据由小到大统一编秩,编秩时如遇同组
相同数据按顺序编秩,如本例非铅作业组有 2个 0.24,分别编秩次
1,2即可;如遇不同组相同数据取原秩次的平均秩次,如两组各
有一个 0.86,原秩次为 10和 11,各取平均秩次( 10+11) /2=10.5。
? ( 3) 求秩和并确定检验统计量 T值 以 n1和 n2分别代表两样本含
量,以样本含量小者为 n1,其秩和 T1为统计量 T;若 n1= n2,可取任
一组的秩和为 T。本例 n1=7,n2=10,检验统计量 T=93.5。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 415 页
? ( 4)确定 P值和作出推断结论
? 1) 查表法 当 n1≤10,n2- n1≤10时,查附表 11,T界值表。查表时,
若统计量 T值在某一行的上、下 T界值范围内,其 P值大于表上方
相应的概率水平,差异无统计学意义;若 T值恰等于上、下界值
或在界值的范围以外,则 P值等于或小于相应的概率水平,差异
有统计学意义。
? 本例 T= 93.5,以 n1=7,n2- n1= 3,查附表 11,T界值表,单侧
T0.005( 7,3) 为 37~ 89,现 T值在此范围以外,故 P<0.005。按单侧 α
=0.05,拒绝 H0,接受 H1,差异有统计学意义。故可认为铅作业
工人的血铅值高于非铅作业工人。
检验步骤( 2)
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 416 页
公式法:当 n1或 n2- n1超出附表 11的范围,可按
公式( 8.4)求统计量 u值。
? 当相同的秩次较
多时(超过
25%),应对 u值
进行校正,u值经
校正后略大,P值
相应减少。
121
5021
21
1
/)N(nn
./)N(nT
u
?
???
?
C/uu c ?
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 417 页
表 8-3 某药对支气管炎两种病情疗效的秩和检验
疗效 单纯性 单纯性合 合 计 秩次范围 平均秩次 秩 和
并肺气肿 单纯性 合并肺气肿
( 1 ) ( 2 ) ( 3 ) ( 4 ) = ( 2 ) + ( 3 ) ( 5 ) ( 6 ) ( 7 ) = ( 2 )( 6 ) ( 8 ) = ( 3 )( 6 )
控制 6 5 4 2 1 0 7 1 ~ 1 0 7 5 4 3 5 1 0 2 2 6 8
显效 1 8 6 2 4 1 0 8 ~ 1 3 1 1 1 9, 5 2 1 5 1 7 1 7
有效 3 0 2 3 5 3 1 3 2 ~ 1 8 4 1 5 8 4 7 4 0 3 6 3 4
无效 1 3 1 1 2 4 1 8 5 ~ 2 0 8 1 9 6, 5 2 5 5 4, 5 2 1 6 1, 5
合计 n
2
= 1 2 6 n
1
= 8 2 2 0 8 — — T
2
= 1 2 9 5 5, 5 T
1
= 8 7 8 0, 5
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 418 页
例 8.3 用某药治疗不同病情的老年慢性支气管炎病人,疗效见表 8-
3第( 2)、( 3)栏,问该药对两种病情的疗效有无差别?
疗效 单纯性 合并性 合计 秩次范围 平均秩次 单纯性 秩和 合并性 秩和
( 1) ( 2) ( 3) ( 4) ( 5) ( 6) ( 7) ( 8)
控制 65 42 107 1~ 107 54 3510 2268
显效 18 6 24 108~ 131 119.5 2151 717
有效 30 23 53 132~ 184 158 4740 3634
无效 13 11 24 185~ 208 196.5 2554.5 2161.5
合计 n2=126 n1=82 208 T2=12955.5 T1=8780.5
表 8-3 某药对支气管炎两种病情疗效的秩和检验
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 419 页
检验步骤( 1)
? ( 1)建立检验假设
? H0:两种病情病人的疗效总体分布位置相同
? H1:两种病情病人的疗效总体分布位置不同
? α =0.05
? ( 2)编秩 本例为等级资料,先计算各等级的合计人数,见第
( 4)栏,再确定秩次范围。如疗效控制者 107例,其秩次范围
1~ 107,平均秩次为( 1+107) /2=54,依此得第( 6)栏。
? ( 3)求两组的秩和 将第( 6)栏分别乘以第( 2)、( 3)栏,
相加即得两组各自的秩和,见第 (7),(8)栏合计。用公式( 8.3)
检查,T1+ T2=8780.5+12955.5=21736,
? n (n+1)/2=208× 209/2=21736,说明计算无误。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 420 页
? 4)计算 u值 由于 n1=82,超出了附表 11的范围,故需用 u检验。本
例 n1=82,T=8780.5,N=208,代入公式( 8.4)。相同秩次过多 时,
则用校正公式。
检验步骤( 2)
12120812682
50212088258780
/)(
./)(.
u
??
???
?
208208
24245353242410710711
3
3333
3
3
?
?????????
?
??? ? )()()()(
NN
)tt(C jj
544084420500,./.u c ??
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 421 页
? 5)确定 P值和得出推断结论 查附表 2,t界值表( υ=∞
一行),u0.50=0.6745,现 uc< u0.50,故 P>0.50。按 =0.05的
检验水准,接受 H0,差异无统计学意义。尚不能认为该
药对两种病情的疗效有差别。
? 两组疗效评价,表 8-3可见,按照从控制到无效顺序排列,
疗效等级愈好,平均秩次愈小;疗效等级愈差,平均秩
次愈大,所以平均秩和小的组疗效优于平均秩和大的组。
反之,如果按照从无效到控制顺序排列,疗效等级愈差,
平均秩次愈小;疗效等级愈好,平均秩次愈大,这时平
均秩和大的组疗效优于平均秩和小的组。
检验步骤( 3)
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 422 页
第四节 完全随机设计
多个样本比较的秩和检验
? 1。此方法也称为 Kruskal-Wallis法,即 H检验。
? 2。主要适用于非正态分布,而不宜用方差分析检验的
定量资料以及多组等级资料的比较。
? 例 8.4 某医生分别测定了 10名正常人、单纯性肥胖和
皮质醇增多症患者血浆中总皮质醇的含量见表 8-4。问
三组人的血浆总皮质醇含量有无差别?
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 423 页
检验步骤( 1)
? ( 1) 建立检验假设
? H0:三组人的血浆总皮质醇的总体分布位置相同
? H1:三个总体分布位置不同或不全相同
? υ =0.05
? ( 2) 编秩 每组内数值由小到大依次排队,三组统一
编秩。数值相同而不同组的均编为平均秩次,如正常
人组和单纯肥胖组各有一个 3.1,均取原秩次 10及 11的
平均秩值次 10.5;在同一组内的相同数值直接编相应
秩次即可。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 424 页
表 8-4 三组人的血浆总皮质醇测定值( g/L)
正常人 单纯性肥胖 皮质醇增多症
测定值 秩 次 测定值 秩 次 测定值 秩 次
0, 4 1 0, 6 2 9, 8 2 0
1, 9 4 1, 2 3 1 0, 2 2 1
2, 2 6 2, 0 5 1 0, 6 2 2
2, 5 8 2, 4 7 1 3, 0 2 3
2, 8 9 3, 1 1 0, 5 1 4, 0 2 5
3, 1 1 0, 5 4, 1 1 4 1 4, 8 2 6
3, 7 1 2 5, 0 1 6 1 5, 6 2 7
3, 9 1 3 5, 9 1 7 1 5, 6 2 8
4, 6 1 5 7, 4 1 9 2 1, 6 2 9
7, 0 1 8 1 3, 6 2 4 2 4, 0 3 0
i
R — 9 6, 5 — 1 1 7, 5 — 2 5 1
n
i
— 1 0 — 1 0 — 10
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 425 页
? 表 8-4 三组人的血浆总皮质醇测定值( g/L)
检验步骤( 2)
正常人 单纯性肥胖 皮质醇增多症
测定值 秩 次 测定值 秩 次 测定值 秩 次
0.4 1 0.6 2 9.8 20
1.9 4 1.2 3 10.2 21
2.2 6 2.0 5 10.6 22
2.5 8 2.4 7 13.0 23
2.8 9 3.1 10.5 14.0 25
… … … … … …
Ri 96.5 117.5 251
ni 10 10 10
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 426 页
? ( 3)求秩和并计算统计量 H值 将各组的秩次相加即得各组的秩
和( i为组别),并按公式( 8.6)计算统计量 H值。
检验步骤( 3)
)N(nR)N(NH
i
i 13
1
12 2 ??
?? ?
12.18)130(310 2515.1175.96)130(30 12
222
?????
?
?
???
? ??
??H
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 427 页
? ( 4)确定 P值和作出推断结论 ①若组数 k= 3,每组
例数 ni≤5 时,可查附表 12,H界值表。若 H<Hα,则
P>α ;反之,H≥ Hα, P≤ α 。②若组数 k> 3,
或每组例数 ni > 5时,H分布近似服从 X2分布,可查附
表 8,X2界值表,得 P值。
? 本例 ni均为 10,υ =3 - 1=2,查 X2界值表,
? X2 0.05,2=5.99,现 H=18.12> X2 0.05,2=5.99,故 P<
0.05。按 υ =0.05 的水准,拒绝 H0,接受 H1,差异有
统计学意义。三组人的血浆总皮质醇含量有差别。
检验步骤( 4)
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 428 页
? 当各样本的相同秩次较多时(如超过 25%),求校正 Hc
值,
?
?
?
?
?
?
?
?
?
??
?
??
NN
tt
H
C
H
H
jj
c
3
2
)(
1
检验步骤( 5)
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 429 页
? 例 8.5 五种病人阴道涂片按巴氏细胞学分级的检查结
果,见表 8-5第( 1)~( 6)栏,问五种病人的细胞学
分级有无程度上的差别?
? ( 1)建立检验假设
? H0:五种病人细胞学分级的总体分布位置相同
? H1:五个总体的位置不同或不全相同,
? α =0.05
? ( 2)编秩 先计算各等级的合计,见表 8-5第( 7)栏。
再确定秩次范围和计算平均秩次,见第( 8)、( 9)
栏。
例 8.5 检验步骤( 1)
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 430 页
表 8-5 五种病人阴道涂片的细胞学分级比较
巴氏 慢性炎症 不典型增生 原位癌 浸润癌 合计 秩次范围 平均秩次
分级 伴有化生 轻度 重度
( 1 ) ( 2 ) ( 3 ) ( 4 ) ( 5 ) ( 6 ) ( 7 ) ( 8 ) ( 9 )
Ⅰ 2 1 1 9 0 0 0 4 0 1 ~ 4 0 2 0, 5
Ⅱ 4 4 4 1 3 0 5 2 4 1 ~ 9 2 6 6, 5
Ⅲ 0 0 6 1 1 3 1 4 8 9 3 ~ 1 4 0 1 1 6, 5
Ⅳ 0 2 3 1 5 4 2 6 2 1 4 1 ~ 2 0 2 1 7 1, 5
Ⅴ 0 0 0 2 1 7 7 9 8 2 0 3 ~ 3 0 0 2 5 1, 5
i
n 2 5 2 5 5 0 5 0 1 5 0 3 0 0
i
R 6 9 6, 5 9 9 8, 5 3 9 4 0 9 3 3 5 30180
iR
2 7, 9 3 9, 4 7 8, 8 1 8 7, 6 2 0 1, 2
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 431 页
? 表 8-5 五种病人阴道涂片的细胞学分级比较
巴氏分
级
慢性炎
症
轻度增
生
重度增
生 原位癌 浸润癌
合
计 秩次范围
平均秩
次
( 1) ( 2) ( 3) ( 4) ( 5) ( 6) ( 7) ( 8) ( 9)
Ⅰ 21 19 0 0 0 40 1-40 20.5
Ⅱ 4 4 41 3 0 52 41-92 66.5
Ⅲ 0 0 6 11 31 48 93-140 116.5
Ⅳ 0 2 3 15 42 62 141-202 171.5
Ⅴ 0 0 0 21 77 98 203-300 251.5
ni 25 25 50 50 150 300
Ri 696.5 998.5 3940 9335 30180
平均 Ri 27.9 39.4 78.8 187.6 201.2
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 432 页
( 3)求秩和 如( 2)栏的秩和 T1是用( 2)栏各等级的频数与( 9)
栏平均秩次相乘再求和,即 R1=21× 20.5+ 4× 66.5=696.5,余仿此
得各 Ri值。
例 8.5 检验步骤( 2)
?????
?
?
???
? ????
?? )(
..
)(H 13003150
30180
50
9335
50
3940
25
5998
25
5696
1300300
12 22222
9 4 4 60300300 989862624848525240401 3 33333,)()()()()(C ?? ???????????
53195944607184,./.C/HH c ???
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 433 页
5) 确定 P值和作出推断结论 本例对比组数 k=5,
按 υ= k- 1= 5- 1= 4,查界值表,
X2 0.05,4=9.49,现 X2 =195.53> X2 0.05,4 =9.49,故
P<0.05。按 α=0.05 的水准,拒绝 H0,接受 H1,差
异有统计学意义。故可认为五种病人的细胞学分
级有程度上的差别。
例 8.5 检验步骤( 3)
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 434 页
第五节 多个样本间
两两比较的秩和检验
? 一、各组样本含量相等时的两两比较
? 各组样本含量相等时的两两比较秩和检验( Nemenyi-
Wilcoxon-Wilcox秩和检验)
BA RR
BA
s
RR
q
?
?
?
12
1 )na)(na(n
s
BA RR
?
??
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 435 页
? 例 8.6 例 8.4资料表结论为三组人的血浆总皮质醇含
量有差别。试进一步比较每两组间的差别。
? ( 1)建立检验假设
? H0:对比的两组血浆总皮质醇含量的总体分布位置相同
? H1:对比的两总体分布位置不同
? α=0.05
? ( 2)计算 q 值
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 436 页
? ( 1)先按各组秩和的大小从大到小排队,并编上组次,
见表 8-6。
秩和的组次( i ) 1 2 3
秩 和(
i
R ) 2 5 1 1 1 7, 5 9 6, 5
组 别 皮质醇增多症 单纯性肥胖 正常人
表 8-6 三组人的秩和按大小排列
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 437 页
对比组 两秩和之差 组 数 差值的标准误 q 值 q 界值 P 值
A 与 B
BA
RR ? a
BA
RR
s
?
q 0, 0 5 q 0, 0 1
( 1 ) ( 2 ) ( 3 ) ( 4 ) ( 5 ) = ( 2 ) / ( 4 ) ( 6 ) ( 7 ) ( 8 )
1 与 3 1 5 4, 5 3 2 7, 8 4 5, 5 5 3, 3 1 4, 1 2 < 0, 0 1
1 与 2 1 3 3, 5 2 1 8, 7 1 7, 1 4 2, 7 7 3, 6 4 < 0, 0 1
2 与 3 2 1, 0 2 1 8, 7 1 1, 1 2 2, 7 7 3, 6 4 > 0, 0 5
表 8-7 表 8-5资料两两比较的计算表( q检验)
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 438 页
? ( 2)列出两两比较的计算表(表 8-7)。
? 表中第( 1)栏为各比较组;
? 第( 2)栏为各比较组秩和之差;
? 第( 3)栏 a为从第 A组到第 B组范围内所包含的组数,
如比较 1与 3范围内包括 3组,故 a=3,余类推。
8427
12
131031010
31
.
))((
s RR ?
???
??
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 439 页
? ( 3)确定 P值 根据,和各比较组的 a值,查附表 5,q
界值表,得各比较组的 P值,见表 8-6第( 8)栏。
? ( 4)作出推断结论 按 α =0.05 的水准,2组与 3组间
不拒绝 H0,1组与 3组间,1组与 2组间拒绝 H0,接受 H1。
可认为皮质醇增多症病人的血浆总皮质醇水平高于正
常人及单纯肥胖者,而后两者无差别。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 440 页
? 二、各样本含量不等时的两两比较
BA RR
BA
s
RR
t
?
?
?
??
?
?
??
?
?
?
?
???
?
?
BA
RR nn)kN(
)HN)(N(N
s
BA
11
12
11
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 441 页
? 表 8-8 表 8-5资料两两比较的计算表( t 检验)
对比组 样本含量 两平均秩和之差 差值的标准误
A 与 B n
A
n
B
| BA RR ? |
BA RR
s
?
t 值 P 值
( 1 ) ( 2 ) ( 3 ) ( 4 ) ( 5 ) ( 6 ) = ( 4 ) / ( 5 ) ( 7 )
1 与 2 2 5 2 5 1 1, 5 1 4, 5 3 0, 7 9 > 0, 4 0
1 与 3 2 5 5 0 5 0, 9 1 2, 5 8 4, 0 5 < 0, 0 0 1
1 与 4 2 5 5 0 1 5 9, 7 1 2, 5 8 1 2, 69 < 0, 0 0 1
1 与 5 2 5 1 5 0 1 7 3, 3 1 1, 1 0 1 5, 6 1 < 0, 0 0 1
2 与 3 2 5 5 0 3 9, 4 1 2, 5 8 3, 1 3 < 0, 0 0 2
2 与 4 2 5 5 0 1 4 8, 2 1 2, 5 8 1 1, 78 < 0, 0 0 1
2 与 5 2 5 1 5 0 1 6 1, 8 1 1, 1 0 1 4, 5 8 < 0, 0 0 1
3 与 4 5 0 5 0 1 0 8, 8 1 0, 2 7 1 0, 5 9 < 0, 0 0 1
3 与 5 5 0 1 5 0 1 2 2, 4 8, 3 9 1 4, 5 9 < 0, 0 0 1
4 与 5 5 0 1 5 0 1 3, 6 8, 3 9 1, 6 2 > 0, 1 0
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 442 页
? 4)推断结论 按水准,1组与 2组间,4组与 5组间接受 H0;
其余组间均拒绝 H0,接受 H1。可认为慢性炎症伴有化生者
与轻度不典型增生者、原位癌与侵润癌患者之间巴氏细
胞学分级无差别;其余组间均有差别。
790
25
1
25
1
530012
5319513001300300
21
.
)(
).)((
s
RR
??
?
?
?
?
? ?
?
???
?
?
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 443 页
第六节 随机区组设计
资料的秩和检验
? 前面已介绍了用方差分析方法来处理随机区组设计
(配伍组设计)资料,当资料不能满足方差分析的要
求时,则可用秩和检验来处理。
? 例 8.8 某监测站为研究长江某段水中的生化需氧量,
同时在 6个采样点和 4个不同的时间进行采样测定,结
果见表 8-9。问不同月份以及不同采样点间水中生化需
氧量有无差别?
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 444 页
? 表 8-9 长江某段不同月份间生化需氧量 (mg/L)比较的秩和检验
采样点 一月 二月 七月 八月
测定值 秩次 测定值 秩次 测定值 秩次 测定值 秩次
1 1, 3 9 4 0, 7 6 3 0, 4 0 2 0, 3 5 1
2 1, 3 4 4 0, 8 3 3 0, 3 0 1, 5 0, 3 0 1, 5
3 1, 8 4 4 0, 7 7 3 0, 3 6 1 0, 5 0 2
4 1, 1 6 4 0, 3 1 2 0, 7 0 3 0, 1 0 1
5 1, 7 2 4 0, 8 5 3 0, 1 6 1 0, 8 0 2
6 1, 6 5 4 1, 6 0 3 0, 6 0 1 1, 5 5 2
月份秩和
i
R — 2 4 — 1 7 — 9, 5 — 9, 5
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 445 页
? ( 2) 编秩 每一区组 ( 同一采样点 ) 数据由小到大编
秩 。 编秩时, 若有相同数据则取平均秩次, 若第 2行有
2个 0.3,均取原秩次 1和 2的平均秩次 1.5。
? ( 3) 求统计量 M值
? 1) 分别求四个处理组 ( 月份 ) 的秩和 Ri 将各月份秩
次相加即得, 见表 8-9下部 。
? 2) 求平均秩和 本例 =(24+17+9.5+9.5)/4=15;或
根据公式 ( 8.12) 计算 。
iR
)k(bR 1
2
1
??
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 446 页
? 3)计算 M值 按公式( 8.13)计算 M值。
? ?? ?? 2ii RRM
本例 M=(24- 15)2+ (17- 15)2+ (9.5- 15)2
+ (9.5- 15)2 = 145.5
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 447 页
? 如果处理组数 k或区组数 b超过了附表 13的范围,则按
公式( 8.14)或公式( 8.15)求值。
? 2.采样点间比较的秩和检验 ( 略 ) 。
?
)k(bk
M
r
1
122
?
??
)k(bk
M
r
1
122
?
??
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 448 页
第七节 随机区组设计资料的两两比较
? 当随机区组资料多个样本比较的秩和检验认为各总体
的位置不同时, 可进一步作两两比较的秩和检验 。 其
方法和步骤与第五节完全随机设计各样本含量相等时
的两两比较相同, 作 q检验, 只是将公式 ( 8.9) 差值
的标准误换为公式 ( 8.16) 即可 。
12
)1( ?
??
kbk
s
BA RR
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 449 页
? 表 8-12 月份间生化需氧量的两两比较
比较组 两秩和之差 组数
163
2
.
)(
q ? q 界值 P 值
A 与 B
BA
RR ? a q
0, 0 5 q 0, 0 1
( 1 ) ( 2 ) ( 3 ) ( 4 ) ( 5 ) ( 6 ) ( 7 )
1 与 4 1 4, 5 4 4, 5 9 3, 6 3 4, 4 0 < 0, 0 1
1 与 3 1 4, 5 3 4, 5 9 3, 3 1 4, 1 2 < 0, 0 1
1 与 2 7, 0 2 2, 2 2 2, 7 7 3, 6 4 > 0, 0 5
2 与 4 7, 5 3 2, 3 7 3, 3 1 4, 1 2 > 0, 0 5
2 与 3 7, 5 2 2, 3 7 2, 7 7 3, 6 4 > 0, 0 5
3 与 4 0 2 0 2, 7 7 3, 6 4 —
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 450 页
? ( 5) 确定 P值和作出推断结论 根据, 和各
比较组的 a值, 查附表 5,q界值表, 得 P值,
见表 8-10第 ( 5) 栏 。 按水准, 可认为一月
与七, 八月间生化需氧量有差别, 其余月份
间尚无差别 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 451 页
END 返回章目录 C,CHENG 返回总目录
共 666页 第 8章秩和检验 第 452 页
THANK YOU
FOR LISTENING
THE END
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 453 页
医学本科生用
医学统计学
泰山医学院 预防医学教研室
zcheng@tsmc.edu.cn
主讲 程 琮
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 454 页
Teaching Plan
for Medical Students
? Medical Statistics
Professor Cheng Cong
Dept,of Preventive Medicine
Taishan Medical College
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 455 页
第 9章直线相关与回归 目彔
? 第五节 曲线直线化
? 第二节 直线回归
? 第三节 进行直线相关与回归应
注意的问题
? 第四节 等级相关
? 第一节 直线相关
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 456 页
? 第九章 直线相关与回归
? 掌握直线相关与回归的概念、意义及应用条件;
? 掌握直线相关与回归各指标的意义、应用及计算方法;
? 熟悉直线相关与回归的联系及区别;
? 了解曲线回归的概念、意义及类型。
教学目的及要求
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 457 页
第九章 直线相关与回归
第一节 直线相关
1。当两事物或现象在数量上的协同变化呈直线趋势时则称
为直线相关( linear correlation),又称简单相关
( simple correlation),用于分析双变量正态分布资料。
表示两变量相关关系的重要指标就是相关系数。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 458 页
一、相关系数的意义
? 相关系数 (correlation coefficient)又称为积差相关系数,
用符号 r表示。它描述两变量间相关关系的密切程度和相关
方向。其数值 1≥ r≥ - 1,当 r为正值时,表示一变量随另一
变量的增加而增加称为 正相关 ;当 r为负值时,表示一变量
随另一变量的增加而减少,称为 负相关 。当 │ r│ 愈接近 1,
表示两变量的相关愈密切;当 │ r│ 愈接近 0时,表示两变量
相关程度愈低;当 │ r│ = 0时,称为 零相关,表示两变量无
直线相关关系,见示意图 9-1。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 459 页
? 一般认为,当样本含量较大的情况下( n>100),大致可
按下列标准估计两变量相关的程度
│ r│≥0.7 高度相关
0.7>│ r│≥0.4 中度相关
0.4>│ r│≥0.2 低度相关
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 460 页
图 9-1 相关系数示意
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 461 页
? 二、相关系数的计算
? 相关系数 r的计算公式,
第一节 直线相关
YYXX
XY
ll
l
YYXX
YYXXr ?
????
????
22 )()(
))((
? 式中 lXX与 lYY分别为变量 X与 Y的离均差平方和,lXY为两
变量 X, Y的离均差积和。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 462 页
? 计算公式为,
n
X
Xl XX
2
2 )( ????
n
YYl
YY
2
2 )( ????
n
YX
XYl XY
))(( ??
???
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 463 页
? 例 9.1 某研究者测量 10名 20岁男青年身高与前臂长 。 见表
9-1。 问身高与前臂长有无直线相关关系?
? 计算步骤,
? ( 1) 由原始数据绘制散点图 9-2,本资料呈直线相关趋势 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 464 页
表 9-1 身高与前臂长数据与计算表
身高 ( c m )
X
前臂长 ( c m )
Y
X
2
Y
2
XY
( 1 ) ( 2 ) ( 3 ) ( 4 ) ( 5 )
170 45 28900 2025 7650
173 42 29929 1764 7266
160 44 25600 1936 7040
155 41 24025 1681 6355
173 47 29929 2209 8131
188 50 35344 2500 9400
178 47 31684 2209 8366
183 46 33489 2 1 1 6 8418
180 49 3240 0 2401 8820
165 43 27225 1849 7095
1725
∑ X
454
∑ Y
298525
∑ X
2
20690
∑ Y
2
78541
∑ XY
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 465 页
? ( 2) 根据表 9-1原始数据计算出 ∑ X,∑ Y,∑ X2,∑ Y2,
∑ XY 。
? 本例 ∑ X= 1725,∑ Y= 454,
? ∑ X2= 298525,∑ Y2= 20690,∑ XY= 78541。
? ( 3) 计算 X,Y的离均差平方和与离均差积和
5.962101725298525)(
22
2 ???????
n
XXl
XX
4.78
10
4542 0 6 9 0)( 222 ???????
n
YYl
YY
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 466 页
? ( 4) 求相关系数 r
226
10
454172578541))(( ?????????
n
YXXYl
XY
8227.0
4.785.962
226
???
YYXX
XY
ll
l
r
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 467 页
? 三、相关系数的检验假设
? 检验 r是否来自总体相关系数 ρ 为零的总体。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 468 页
? 1。 t 检验法 t检验的计算公式
rr S
r
S
r
t
|||0|
?
?
?
2
1
2
?
?
?
n
r
S
r
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 469 页
? 例 9.2 对例 9.1资料所得 r值, 检验 20岁男青年身高与前
臂长是否有直线相关关系 。
? ( 1) 建立检验假设
Ho,ρ = 0,两变量间无直线相关关系
H1,ρ≠ 0,两变量间有直线相关关系
? α = 0.05
? ( 2) 计算 t值 本例 n=10,r=0.8227, 按公式 ( 9.5)
和公式 ( 9.6) 计算 t值
09.4
210
8 2 2 7.01
8 2 2 7.0
2
1 22
?
?
?
?
?
?
?
n
r
r
t
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 470 页
? ( 3) 确定 P值, 作出推断结论 按 υ = n-2=8查 t界值
表, 得 0.002<P<0.005,按 α = 0.05水准, 拒绝 Ho,接
受 H1,故可认为 20岁男青年身高与前臂长呈正直线相关关
系 。
? 2.查表法 查附表 14,r界值表列出了相关系数 r与 0差别
显著性的判断界值, 按自由度= n-2查 r界值表, 当
r≥r α,n -2时, 则 P≤α ;反之, r< rα,n -2 时, 则 P> α 。
本例 r= 0.8227,大于 r0.05(8)= 0.738, 故 P<0.05。 r值有
意义 。 检验结果与 t检验相同 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 471 页
第二节 直线回归
? 一,直线回归的概念
? 1。回归:反映两变量数量依存的关系,即指由一个变量推
算另一个变量的数量关系。直线回归是回归分析中最基本
最简单的一种,故又称 简单回归( simple regression)。
? 2。反映回归关系的方程称为直线回归方程。
bXaY ???
式中 为应变量 Y的估计值,a 为回归直线 Y轴上的
截距,b 为回归系数即回归方程的斜率。
Y?
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 472 页
? 二,直线回归方程的求法
? 求直线回归方程,关键在于计算 a,b两个系数,根据数学
上的最小二乘法原理即保证各实测点至回归直线的纵向距
离的平方和最小。
XX
XY
l
l
XX
YYXX
b ?
??
???
?
2)(
))((
XbYa ??
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 473 页
? 例 9.3 利用例 9.1资料已知 20岁男青年身高与前臂长之间
存在直线相关关系, 现求身高与前臂长的直线回归方程 。
? 计算步骤,
? ( 1) 列回归系数计算表同表 9-1,求出 ΣX, ΣY,
ΣXY, X2, ΣY 2 。
? 本例 ΣX =1725, ΣY =454, ΣXY =78541, ΣX 2=298525,
ΣY 2=20690 。前面已经计算出 lxx=962.5, lxy=226
5.1 7 2
10
1 7 2 5 ????
n
XX
4.45
10
4 5 4 ????
n
YY
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 474 页
? ( 3) 求回归系数 b和截距 a
2348.0
5.962
226 ???
XX
XY
l
lb
897.45.1722348.04.45 ?????? XbYa
XY 2 3 4 8.08 9 7.4? ??
( 4) 列出回归方程
将求出的 a 和 b
代入公式 ( 9.7) 得
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 475 页
? 三,回归直线的绘制
? 在自变量 X的实测值范围,任意指定相距较远且易读的两
个数值,代入直线回归方程,求出相应的 Y的估计值,确
定两点,用直线连接。如本例取 X1=155,则 ; X2=185,
则。在图上确定( 155,41.291)和( 185,48.335)两个
点,直线连接,即得出直线回归方程的图形,
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 476 页
图 9-2 20岁男青年身高与前臂长散点图
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 477 页
? 四,回归系数的假设检验
? 回归系数 b为样本回归系数,假设在总体回归系数 β =0的
总体中抽样,得出样本的 b不一定为 0,因此需作总体回归
系数 β 是否为 0的假设检验,常用 t检验或方差分析。因方
差分析计算较为繁琐不在此讲述。
bb
b
S
b
S
b
t
|||0|
?
?
?
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 478 页
? Sb为回归系数的标准误,Syx为各观察值 Y 距回归直线的
标准差,即剩余标准差;为剩余平方和,它反映 X对 Y的线
性影响之外的因素对 Y的变异作用。在散点图中,各实测
点离回归直线越近,越小,说明直线回归的估计误差越小。
XX
YX
b l
SS ?
2
)?( 2
?
???
n
YYS
YX XX
XY
YY l
llYY 22)?( ????
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 479 页
例 9.4 根据例 9.3所得 b值,检验身高与前臂长是否有直线
回归关系。
( 1) 建立检验假设
H0,β =0,即身高与前臂长无直线回归关系
H1,β ≠ 0,即身高与前臂长有直线回归关系
α= 0.05
( 2) 计算 t值 前面已经求得 lXX=962.5,lXY=226,lYY=78.4,
代入公式 ( 9.13) 有
33.255.9622264.78)?(
22
2 ???????
XX
XY
YY l
llYY
78.1210 33.252 )
?( 2
??????? n YYS YX
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 480 页
? ( 3) 确定 P值, 作出推断结论 本例 υ =10-2=8,查附表
2,t界值表得 t0.005(8)=3.833,现 t>t0.005(8), 故 P<0.005。
按 α =0.05的水准, 拒绝 Ho,接受 H1,可认为 20岁男青年
身高与前臂长有直线回归关系 。
0574.0
5.962
78.1
???
XX
YX
b
l
S
S
09.4
0 5 7 4.0
2 3 4 8.00
???
?
?
bb
b S
b
S
b
t
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 481 页
? 五、直线回归方程的应用
? (一)描述两变量间的依存关系
? 可用直线回归来描述 。
? (二)利用回归方程进行预测
? 将 X代入直线回归方程, 可得到应变量 Y的估计值 。
? (三)利用回归方程进行统计控制
? 通过 X取值来控制 Y的变化。
XY 2 3 4 8.08 9 7.4? ??
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 482 页
? 1.作相关回归分析要有实际意义 。 不要把毫无联系的两种
现象作相关回归分析 。
? 2.相关关系不一定是因果关系,也可能是伴随关系。
? 3.在进行直线相关与回归分析之前,应先绘制散点图,当
观察到点的分布呈直线趋势时,方可进行分析,如散点图
呈曲线趋势,应进行曲线回归分析。
第三节 进行直线相关与回归分析时
应注意的问题
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 483 页
? 4.直线相关与回归的区别
? ① 在资料需求上, 相关分析要求两变量 X与 Y均为服从正
态分布的随机变量, 即两者都不能预先指定;回归分析要
求 Y是正态随机变量, 而 X可以不是正态随机变量而是一确
定值, 此时回归分析称为 Ⅰ 型回归, X也可以是正态随机
变量, 此时回归分析称为 Ⅱ 型回归 。
? ② 在意义上, 相关反映两变量的相关关系;回归反映两变
量间的依存关系 。
? ③ 在应用上, 说明两变量间的相关程度及相关方向用相关;
说明两变量间的依存变化的数量关系用回归 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 484 页
? 5,相关与回归的联系
? ① 在同一组数据, 相关系数 r与回归系数 b的符号一致 。
? ② 同一组数据, r与 b的假设检验是等价的, 即 tr=tb。 因 r
的假设检验可直接查表, 较为简便, 故可代替 b的假设检
验 。
? 6,回归方程一般只适用于自变量 X的原始数据范围内, 不
能任意外延 。 因为超出这个范围, X与 Y就不一定仍然呈线
性关系 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 485 页
7,同一组资料由 X推 Y和由 Y推 X的直线回归方程是不同的 。
XX
XY
YX l
l
b ?
XbYa YX??
XbaY YX ?? ??
?由 X推 Y,回归系数
回归方程
截 距
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 486 页
由 Y推 X,回归系数
8,建立回归方程的条件(时间、地点、方法、测量仪
器等)一旦改变,原回归方程就不宜继续使用。
YY
XY
XY l
lb ?
YbXa XY??
YbaX XY???
?截 距
?回归方程
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 487 页
第四节 等级相关
?当遇到有些资料并不呈正态分布,对于此类资料就不宜用
上述所讲的直线相关与回归分析,而常用等级相关处理资
料。
?等级相关( rank correlation) 亦称为 秩相关,适用于分
布类型不明的资料、偏态分布资料和等级资料的相关分析。
本节主要介绍 Spearman等级相关法。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 488 页
? 其分析步骤如下,
? 1,先将 X,Y 分别由小到大列出等级, 即编秩次, 数字
相同时需要求平均等级;
? 2,求出每一对 X,Y 的等级之差 d 值;
? 3,按下列公式计算等级相关系数 rs
)1(
6
1
2
2
?
?
??
nn
d
r s
式中 rs 为等级相关系数,
d2 为等级之差,n 为样
本含量。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 489 页
? 4,根据 n查附表 15,rs界值表, 确定 P值 。 如 rs≥ rα,
n,,则 P≤α, 说明 X,Y两变量相关有统计学意义;如
rs< rα, n, 则 P>α, 说明 X,Y两变量相关无统计学意
义 。
? 例 9.5在肝癌病因研究中, 某地调查了 10个乡肝癌死亡率
( 1/10万 ) 与某种食物中黄曲霉毒素相对含量, 见表 9-2。
试分析黄曲霉毒素相对含量与肝癌死亡率有无相关的关系 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 490 页
? 表 9-2 黄曲霉毒素相对含量与肝癌死亡率
黄曲霉毒素相对含量 肝癌死亡率( 1 / 1 0 万) d d
2
乡编
号
( 1 )
X
( 2 )
等级
( 3 )
Y
( 4 )
等级
( 5 )
( 6 )
( 7 )
1 0, 7 1 2 1, 5 3 - 2 4
2 1, 0 2 1 8, 9 2 0 0
3 1, 7 3 1 4, 4 1 2 4
4 3, 7 4 4 6, 5 7 - 3 9
5 4, 0 5 2 7, 3 4 1 1
6 5, 1 6 6 4, 6 9 - 3 9
7 5, 6 7 4 6, 3 6 1 1
8 5, 7 8 3 4, 2 5 3 9
9 5, 9 9 7 7, 6 10 - 1 1
1 0, 0 10 5 5, 1 8 2 4 10
合计 — — — — — 42
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 491 页
? 分析步骤,
? ( 1) 建立检验假设
? Ho,ρ s=0, 即黄曲霉毒素相对含量与肝癌死亡率无相关
关系
? H1,ρ s≠ 0,即黄曲霉毒素相对含量与肝癌死亡率有相关
关系
? α =0.05
? ( 2) 编秩次 先将 X值由小到大依序排列, 再将两变量 X、
Y 的数值分别由小到大编秩次, 如有相同数值求平均秩次,
列于表第 ( 3) 栏和第 ( 5) 栏 。
? ( 3) 求秩次之差 d 和 d2 列于表第 ( 6) 栏和第 ( 7)
栏 。
? ( 4) 计算等级相关系数 rs 将表 9-2中数据代入公式
( 9.14) 有
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 492 页
? ( 5) 确定 P值 查附表 15,rs 界值表, n =10,
r0.05,10=0.648,现 rs0.7455 > r0.05,10 =0.648, 故 P<0.05。
? ( 6)推断结论 在 α =0.05水准上,拒绝 Ho,接受 H1,
可认为黄曲霉毒素相对含量与肝癌死亡率之间存在正相关
关系。
7 4 5 5.0
)110(10
426
1
)1(
6
1
22
2
?
?
?
??
?
?
??
nn
d
r s
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 493 页
第五节 曲线直线化( 1)
? 一,曲线直线化的概述
? 在医学研究中,有时两种变量间不呈直线关系,而是呈曲
线关系。需要把这些关系变动的特征恰当地反映出来,需
要根据实测资料的曲线类型找到能反映变量关系的曲线回
归方程,求曲线回归方程的过程及方法叫曲线拟合。医学
上常见的曲线类型有,指数曲线、对数曲线、双曲线、抛
物线和, S”型曲线等。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 494 页
? ( 一 ) 曲线直线化的用途
? 1.修匀 由于抽样误差的影响, 实测资料存在一定的波动,
难于绘出一条能完全符合每一观察点的光滑曲线, 但得到
的该回归曲线却能比较恰当的显示原资料中两变量间的回
归关系 。 因此经过修匀的曲线比原资料的观察点合理而稳
定 。
? 2.估计 即由较易测得的自变量 X 推算较难测得的应变
量 Y的估计值 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 495 页
? 3.求极大点或极小点 这是拟合抛物线的
特有用途, 如细菌生长的最适温度是多少?
人体发育在哪个年龄最快等, 这些数据很
难从散点图上确定, 只有拟合成曲线后,
才能根据曲线回归方程推算极大点或极小
点的最可能数值 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 496 页
( 二 ) 曲线拟合步骤
? 1.定曲线型 对实测数据选择何种曲线类型, 一般要根据
以下三个方面,
? ① 根据专业知识及过去经验或文献资料;
? ② 根据全部观察点在普通坐标纸上所呈现的总趋势;
? ③ 根据观察点在某种变换值的坐标纸上是不是呈现直线趋
势 。 如半对数纸上点图呈现直线趋势可选用指数曲线或对
数曲线;如在双对数纸上呈直线趋势可选用双曲线;如在
对数概率单位纸上呈直线趋势时, 可选用 S型曲线 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 497 页
? 2.直线化 对呈曲线关系的变量进行适当变换, 使变换后
的两个变量之间呈直线关系, 称为直线化 。 直线化既可以
验证所确定的曲线型是否恰当, 更便于用求直线方程的方
法得到曲线方程 。 除多项式曲线可不必经直线化外, 其它
几类曲线拟合大多经过直线化 。
? 3.求曲线回归方程
? 4.求估计值
? 5.作曲线图
? 6.必要时作拟合优度检验 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 498 页
? 二、指数与对数曲线的拟合
? 这种 X与 Y之间的关系可归纳为下面二点:
① 二者关系始终是正比例或始终是反比例;
② 变化始终是, 加速度, 的或始终是, 减
速度, 的 。 具有这种性质的资料一般均可
拟和指数曲线或对数曲线 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 499 页
? 指数曲线方程的一般形式为 ( 9.15)
bXaY ?? 10
XABY ?
bXaY ??lg
BXAY lglglg ??
若 10a =A,10b =B,则公式可表示为( 9.16)
公式( 9.15)两边取对数,得( 9.17)
公式( 9.16)两边取对数,得( 9.18)
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 500 页
? 令 lgA=a lgB=b 则公式( 9.18)也变成公
式( 9.17)的形式。公式( 9.17)是指数
曲线方程的对数形式。如令 y=lgY 则公式
( 9.17)就变成了直线回归方程形式,可
按最小二乘法求知直线回归方程,得 a和 b
值后,直接可写成( 9.15)的形式或经求
得 A=lg-1a,B=lg-1b后,写成公式( 9.16)
的形式。指数曲线的形式可概括为四种类
型,见图 9-3。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 501 页
? 图 9-3 四型指数曲线的模型
第五节 曲线直线化( 8)
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 502 页
? 例 9.6 某地大气中离污染源不同距离处氰化物浓度测定结
果见表 9-3。试拟合曲线。
与 污 染 源 距 离 ( m ) 氰化物浓度 ( mg / m
3
) y = l g Y
Y
?
X
( 1 )
Y
( 2 )
( 3 )
( 4 )
50 0, 6 8 7 - 0, 1 6 3 0 0, 5 8 4
100 0, 3 9 8 - 0, 4 0 0 1 0, 3 6 4
150 0, 2 0 0 - 0, 6 9 9 0 0, 2 2 7
200 0, 1 2 1 - 0, 9 1 7 2 0, 1 4 2
250 0, 0 9 0 - 1, 0 4 5 8 0, 0 8 3
300 0, 0 5 0 - 1, 3 0 1 0 0, 0 5 5
400 0, 0 2 0 - 1, 6 9 9 0 0, 0 2 1
500 0, 0 1 0 - 2, 0 0 0 0 0, 0 0 8
1950
∑ X
— - 8, 2 2 5 1
∑ y
—
表 9-3 某地氰化物浓度与污染源距离的关系
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 503 页
? 拟合曲线的步骤如下,
? ( 1) 定曲线型 将表 9-3第 ( 1), ( 2) 栏各 ( X,Y) 点
绘于普通坐标纸上, 得到图 9-4,对照图 9-3各型, 接近 Ⅱ
型指数曲线, 即 lgY=a-bX,
? ( 2) 直线化 将表 9-3第 ( 1), ( 2) 栏数据在半对数纸
上作图, 置 Y于对数轴, X置于真数轴, 得观察点连线, 见
图 9-5,其分布近于直线, 说明直线化效果较好 。 故取
y=lgY,见表 9-3( 3) 栏 。
? ( 3)求直线方程
)0 0 4 1.00 2 8 7.0(?lg XY ???
XXXY )9906.0(9361.0101010? 0 0 4 1.00 2 8 7.0)0 0 4 1.00 2 8 7.0( ???? ????
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 504 页
图 9-4 污染源距离与氰化物浓度指数曲线 图 9-5 曲线直线化
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 505 页
? (二 ) 对数曲线的拟合
? 当自变量 X取常用对数, 而应变量 Y取原测定值, 则对数曲
线方程为 (9.19)
XbaY lg??
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 506 页
?对数曲线(亦有书通称指数曲线)的形状亦可概括为四型
见图 9-6。
图 9-6 四型对数曲线模型
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 507 页
?对数曲线四型的形状与相应的指数曲线形状类似, 只是对数
曲线方程是以 X变量为对数, 故渐近线与 Y轴平行 。 在选择曲
线方程时应注意这一点 。 对数曲线的拟合与指数曲线的拟合
方法与步骤基本一样, 只是将 X值置于对数轴上, Y值置于真
数轴上, 进行直线化 。 如果 X与 Y尚未达到直线化, 可取 X± k
作校正, k的数值需经尝试, 以使观察点逐步逼近直线趋势 。
?例 9.7 某研究室以不同浓度的免疫球蛋白 lgA( g%) 作火
箭电泳, 测得火箭的高度 ( mm) 如表 9-4。 试拟合曲线 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 508 页
? 拟合曲线的步骤如下,
? ( 1) 确定曲线类型 将表 9-4第 ( 1), ( 3) 栏各 ( X,Y)
点绘于普通坐标纸上, 得图 9-7上的观察点 。 对照图 9-6各
型, 接近 Ⅳ 型对数曲线, 即 Y=a+blgX
? ( 2) 直线化 将表 9-4第 ( 1) ( 3) 栏数据在半对数纸上
作图, 置 X于对数轴, Y于真数轴, 得观察点见图 9-8。 其
分布近于直线, 说明直线化效果较好 。 故取 x=lgX,见表
9-4第 ( 2) 栏 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 509 页
? 表 9-4 lgA浓度与火箭高度之间的关系
lg A ( ? g% ) x = lg X 火箭高度 ( mm )
Y
?
X
( 1 )
( 2 )
Y
( 3 )
( 4 )
0, 2 0, 6 9 8 9 7 7, 6 7, 2 3
0, 4 - 0, 3 9 7 9 4 1 2, 3 1 2, 6 2
0, 6 - 0, 2 2 1 8 5 1 5, 7 1 5, 7 7
0, 8 - 0, 0 9 6 9 1 1 8, 2 1 8, 0 1
1, 0 0, 0 0 0 0 0 1 8, 7 1 9, 7 5
1, 2 0, 0 7 9 1 8 2 1, 4 2 1, 1 6
1, 4 0, 14613 2 2, 6 2 2, 3 6
0, 2 0 4 1 2 2 3, 8 2 3, 4 0 1, 6
合计
- 0, 9 8 6 2 4 1 4 0, 3 -
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 510 页
图 9-7 IgA浓度与火箭高度的
对数拟合曲线
图 9-8 对数曲线直线化
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 511 页
?则直线方程为
xY 90733.1774512.19? ??
?求对数曲线方程 将 x= lgX代入直线方程得
XY lg9 0 7 3 3.177 4 5 1 2.19? ??
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 512 页
三、曲线方程的假设检验和拟合优度
?当用拟合的曲线回归方程描述两变量间的曲线关系时,
经常需要回答两个问题:一是拟合的曲线方程有无意义,
即此曲线关系能否成立;二是拟合的效果如何 。 回答第
一个问题需要作曲线回归方程的假设检验;回答第二个
问题可用相关系数的大小说明 。
?曲线回归方程是否有统计学意义, 可以用方差分析来检
验 。 其公式为,
剩余剩余
回归剩余总
剩余剩余
回归回归 )(=
?
?
?
?
//
/
l
ll
l
l
F
?
?
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 513 页
? 计算出 F值后, 根据 υ 1= υ 回归,υ 2 = υ 剩余, 查附
表 4,F界值表, 得出 P值, 按所选择的检验水准作出结论 。
? 在曲线回归方程有统计学意义的前提下,曲线拟合得好
坏可以看 l剩余 的大小。如果 l剩余 对 l总 的比例愈小,说明实
际观察值与估计愈接近,曲线拟合得愈好;反之愈差。这
种拟合度,可以用相关指数( R2)来表示。 R2愈接近 1,
表示拟合得愈好。计算公式为,
2
2
2
)(
)?
11
yy
yy
l
l
R
??
??
???
(
=
总
剩余
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 514 页
? 例 9.8 以例 9.6已经拟合成指数曲线为例,对曲线方程进
行假设检验并判断拟合的情况。已经拟合的曲线方程为,
按指数曲线方程计算其估计值,见表 9-5。
? 指数曲线拟合的相关指数为,
966.0
3855.0
013.0
112 ???? =
总
剩余
l
l
R
说明指数曲线拟合较好。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 9章直线相关与回归 第 515 页
THANG YOU FOR LISTENING
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 516 页
医学统计学
主 讲 程琮
泰山医学院预防医学教研室
zcheng@tsmc.edu.cn
本科生用
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 517 页
Teaching Plan
for Medical Students
Medical Statistics
Professor Cheng Cong
Dept,of Preventive Medicine
Taishan Medical College
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 518 页
第 10章实验设计 目彔
? 第五节 常用实验设计方法
? 第二节 实验设计的基本要素
? 第三节 实验设计的基本原则
? 第四节 样本含量的估计
? 第一节 实验研究
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 519 页
第十章 实验设计
? 1。掌握实验设计的基本概念及意义。
? 2。掌握实验设计的三个基本要素及四个基本原则。
? 3。了解样本含量估计的意义及常用方法。
? 4。熟悉常用实验设计方法。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 520 页
第一节 实验研究
? 一、实验设计的概念
? 实验研究 (experimental research )是使设计的实验
因素或处理因素在其它干扰因素被严格控制的条件下,
观察其对实验结果或实验效应的作用及影响。
? 实验设计 (experiment design)是指研究人员对实验因
素作合理的、有效的安排,最大限度地减少实验误差,
使实验研究达到高效、快速和经济的目的。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 521 页
? 医学实验设计 (medical experimental design)是将实
验设计的基本原理和方法应用于医学领域,主要包括
基础医学、临床医学和预防医学。其目的是研究如何
科学地、合理地安排实验因素,研究并排除实验中所
有影响实验结果及效应的各种干扰因素的作用。
? 干扰因素 也称为非处理因素或背景因素,它是指处理
因素以外的可以影响实验效应及实验结果的一切可能
的因素。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 522 页
? 非处理因素 一般多为受试对象本身的特征及外界环
境因素, 其来源复杂, 范围广, 经常不易控制或不易
察觉 。
? 实验设计的基本构成 包括三个基本要素及四个基本
原则 。
? 三个基本要素是,受试对象, 处理因素和试验效应 。
? 四个基本原则是,随机化的原则, 对照的原则, 重复
的原则及均衡的原则 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 523 页
实验设计
的
基本构成
三个基本要素
四个基本原则
受试对象
处理因素
试验效应
随机化的原则
对照的原则
重复的原则
均衡的原则
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 524 页
? 实验研究主要具有 三个基本特点,
? 第一,研究人员能够按照实验设计的目的及要求设置
处理因素。
? 第二,受试对象可以通过随机化原则随机地接受某种
处理因素或某种处理因素的不同水平。
? 第三,由于应用了随机化原则,使各比较组之间达到
了较好的均衡性,因而,最大限度地减少了非处理因
素对实验效应及结果的干扰和影响。
二、实验研究的特点
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 525 页
? 由于实验研究具备这三个特点,就使得实验研究中各
比较组之间具有较好的均衡性及可比性,大大减少了
各种非处理因素或背景干扰因素对实验效应及结果的
影响,可以更为有效地控制实验误差,提高了实验研
究的效率及实验结果的可靠性。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 526 页
? 实验研究有多种分类方法, 一般常根据受试对象的特
征分为三大类,
? 1.动物实验 (animal experiment) 是指用人工饲养繁
殖的动物进行实验研究 。 其特点是, 容易控制处理因
素及背景干扰因素, 实验误差较小, 实验成本较低,
观察的实验效应较为客观 。 如果在实验研究中, 出现
因各种原因而导致动物意外死亡或缺失时, 可据情予
以补充, 收集资料及分析资料均较为方便 。
三、实验研究的分类
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 527 页
? 1。 动物实验 几乎可用于医学研究的各个领域 。 由于动
物与人体之间在种属等等方面存在巨大差异, 因此, 动
物实验的研究结果不能直接推论到人体上, 而是可以作
为人体研究的参考依据或基础数据 。
? 常用于医学研究的实验动物有 大白鼠, 小白鼠, 豚鼠,
兔子, 猫, 狗, 羊和猪等, 还可以是猴及灵长目类动物 。
各种动物都有其自身的特点, 选择动物时, 要根据研究
目的先确定动物的种类, 还应特别注意动物的性别, 年
龄, 品系等特征 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 528 页
? 临床试验 是指按科学的实验方法,研究疾病在临床
阶段规律的试验。临床试验研究的对象主要是 病人或
健康人 。
? 1) 选择病人可以作为实验组也可以作为对照组。一般
是选择患某种确诊疾病的患者为观察病例。选择病人
除考虑病人本身的特征外,还要考虑疾病的特征,如
病情的发展状况,常规治疗方案的疗效情况,病人的
生存状况是否存在危险等等方面。
2.临床试验( clinical trial)
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 529 页
? 2)选择健康人
? 一般是作为试验的对照组,考虑的各方面因素与病
人相同或相近。 由于人的背景因素及个性特征极为复
杂,在进行临床试验研究时,除考虑上述因素外,还
要考虑医德等方面的问题。在选择病人及健康人、选
择处理因素时,要非常慎重。试验前应该经过科研小
组成员及有关专家的认真讨论,并进行周密设计,以
避免出现各种意外情况。因此,针对人体的临床试验
研究与动物试验研究存在很大的区别。这是每位医学
科研工作者应该十分注意的。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 530 页
? 3。 社区干预试验 ( community intervention trial)
是指对社区中的所有人群施加某种处理因素并观察一
段较长的时间 。
? 其目的是通过干扰某些在人群中存在的危险因素或施
加某种保护性措施, 观察处理因素在社区人群中产生
的效应或预防效果 。 典型的社区干预试验的实例之一
是在社区人群的饮水中加入氟化物以观察是否能够降
低人群的龋齿发生率的试验 。 由于社区干预试验中涉
及人群数量多, 人群结构复杂, 不易控制处理因素及
背景干扰因素, 且难以对人群给予处理因素时进行随
机化分配, 其试验效果及效应的确切性往往不易准确
判断或确定 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 531 页
? 典型的社区干预试验 的实例之一是在社区人群的饮水
中 加入氟化物 以观察是否能够降低人群的龋齿发生率
的试验 。 由于社区干预试验中涉及人群数量多, 人群
结构复杂, 不易控制处理因素及背景干扰因素, 且难
以对人群给予处理因素时进行随机化分配, 其试验效
果及效应的确切性往往不易准确判断或确定 。
第一节 实验研究
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 532 页
第二节 实验设计的基本要素
? 实验设计有 三个基本要素,即受试对象、处理因素和
实验效应。三个基本要素是相互联系的。
? 在实验设计阶段,研究人员应根据实验研究的目的,
紧紧抓住这三个基本要素,并应通盘考虑如何去合理
有效地安排这三个基本要素。只有这样,实验设计才
会有明确的方向。 实验设计是实验研究中最为重要和
关键的第一步。必须给予高度重视。
? 有些研究人员未能充分认识到这第一步的重要性。经
常是先进行实验研究工作,其后才考虑实验设计问题。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 533 页
? 一、受试对象
? 受试对象( study subjects) 是指在实验研究中研究
人员所要观察的客体,即处理因素作用的对象。受试
对象主要包括人、动物、微生物以及人或动物的试验
材料。如器官、组织、细胞、血液、尿液、粪便等。
第二节 实验设计的基本要素
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 534 页
? 选择受试对象是根据科研课题的研究目的而确定的 。
? 选择受试对象应考虑下列几点,
? ① 进行基础性的医学研究, 多选择动物及其材料作为
受试对象, 并可由此积累资料和基础数据;
? ② 观察临床疗效, 临床检验水平, 诊断水平及社区干
预试验等, 多选择人体及其材料作为受试对象 。 一般
常以病人为实验组, 健康人为对照组;也可选择几组
不同类型的病人分别作为实验组和对照组 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 535 页
? ( 一 ) 受试对象的基本条件
? 受试对象应具备下列基本条件 。
? ( 1) 敏感性:是指受试对象接受处理因素后, 容易显示实
验效应 。
? ( 2) 特异性:是指受试对象接受处理因素后, 只产生特定
的实验效应 。
? ( 3) 稳定性:是指受试对象产生的实验效应仅在特定范围
内波动, 且波动相对较小 。
? ( 4) 经济性:是指受试对象容易获取且价格便宜 。
? ( 5) 可行性:是指受试对象便于施加处理因素及获取标本 。
? ( 6) 相似性:是指动物产生的实验效应尽可能与人体近似 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 536 页
? ( 一 ) 常用受试对象的基本特征
? 1。 动物 医学研究中的各个领域几乎都要用到实验
动物 。 使用动物作为受试对象非常方便, 安全性高,
价格相对便宜, 而且不涉及人类的医德问题 。 研究中
动物意外缺失可以据情予以补充 。 饲养, 管理及观察
动物十分方便且容易做到 。 选择动物一般要考虑动物
的种类, 种属, 品系, 窝别, 性别, 年龄, 体重, 健
康状况, 是否容易饲养和存活, 对施加的处理因素的
反应特征等方面 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 537 页
? ( 1) 小白鼠及大白鼠 啮齿类动物 。 主要用于进行毒
理学研究 。 可以研究各种有害毒物的急慢性毒性作用
及, 三致, 作用, 即毒物的致突变作用, 致畸变作用
及致癌作用 。 用此类动物进行实验研究, 其 特点 是价
格低, 易饲养, 可以大量使用 。 但由于啮齿类动物缺
乏呕吐反射, 故凡是能引起呕吐反射的化合物的毒性
研究, 一般不能使用此类动物 。
? ( 2) 兔 也属于啮齿类动物 。 用于化合物的毒性试验
研究 。 尤其是 经皮肤接触的毒作用试验 。 也可用于胃
肠道对外来化合物的吸收动力学研究 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 538 页
? ( 3) 猫和狗 为非啮齿类动物的典型代表 。 可用于毒
理学试验研究, 也可用于生理学研究 。 如进行血压,
睡眠等方面的研究 。 但猫与狗的价格较高, 不适于大
数量使用 。
? ( 4)猪 其皮肤结构与人体较近似,可用于各种毒物
对 皮肤 的毒性作用研究。猪的躯体较大,价格较高,
不便于大量使用。
? ( 5) 其它 猴与灵长目类动物与人类较接近, 但其价
格昂贵, 只用于某些特殊研究 。 一般情况下不使用此
类动物 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 539 页
? 2。 人体 以人体作为观察对象, 涉及的问题很多且较
为复杂, 一般应考虑下列几个方面,
? ( 1) 一般条件 性别, 年龄, 民族, 个人嗜好, 生活
习惯, 居住地区等 。
? ( 2) 健康状况 既往病史, 家族成员病史, 目前健康
状况, 身体发育状况等 。
? ( 3)社会因素 职业、文化程度、经济条件、居住条
件、家庭状况、心理状况、个性特征、病人及其家属
的合作态度等。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 540 页
? ( 4) 疾病因素 病种, 病型, 病期, 病程, 病情, 诊
断方法, 诊断标准, 试验研究的时间期限等 。
? ( 5) 机体材料 标本的获取部位, 获取条件, 新鲜程
度, 保存方法, 培养条件, 运输及传送方式等 。
? ( 6) 外界环境因素 医院规模, 医疗水平, 医疗设
备, 医护人员的水平及素质, 病房的大小, 病房中病
人数量, 病人距离医院的远近, 就诊的方便程度等 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 541 页
? 人体作为受试对象,常用于临床治疗方案的疗效观察
研究以及某种疫苗在人群中预防某种疾病的效果观察
等。在临床治疗工作中,每一位病人都可以作为一个
观察对象。但是,按照实验设计的四个基本原则,如
想在特定时期内选择几组除处理因素不同以外,其它
各方面条件都基本一致的病例,则是一件相当困难的
事情。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 542 页
? 处理因素 ( study factor) 是指由研究人员施加于受试
对象并能产生一定试验效应的因素 。 医学科研中常用的处
理因素主要有下列几大类,
? 1.物理因素 电, 磁, 光, 声, 温度, 射线, 微波, 超声
波等 。
? 2.化学因素 药物, 营养素, 激素, 毒物, 各种有机和无
机化合物等 。
? 3.生物因素 寄生虫, 真菌, 细菌, 病毒及其生物制品等 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 543 页
? 处理因素 在实验设计阶段也要认真考虑并仔细分析 。 尤
其是处理因素的剂量及水平数应该通过预试验或据以往经
验有一定的了解和把握 。
? 处理因素剂量过小, 受试对象不产生反应, 达不到观察试
验效应的目的 。
? 如果剂量过大, 则可能导致受试对象的强烈反应乃至死亡 。
对动物进行毒理学研究时, 处理因素的剂量变化范围较大,
可以使动物不出现反应, 刚出现反应, 到动物出现较大反
应或死亡 。 对于临床试验, 由于针对的是人体, 控制处理
因素的剂量范围是非常重要的 。 其注意点是, 应在保证人
体安全的前提下, 将处理因素安全剂量范围内的不同剂量
水平施加于人体, 观察机体的反应及试验效应 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 544 页
? 在实验研究中,由于影响试验结果的因素很多,有时
则十分复杂。因此,在安排施加处理因素时,应考虑
下列几个方面 。
? 1。 抓住实验中的主要因素 任何一项实验研究都有其
主要的方面或主要矛盾。
? 2。 确定处理因素和非处理因素 实验研究中应根据研
究目的确定处理因素和非处理因素。一般情况下,两
者的区别并不困难。
? 3。 处理因素标准化 是指在进行同一个实验研究时,
施加于多个受试对象的处理因素是相同一致的。不能
随意加以改变。尤其是用于病人的药物。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 545 页
? 三、实验效应
? 实验效应( experimental effect) 是指处理因素施加于
受试对象并经过一定时间,受试对象产生的各种反应及表
现。这些反应可以是主观的,也可以是客观的。
? 实验效应可以用各种各样的具体指标来表示。观察实验效
应,应尽可能选择客观指标以及容易检测及分析的指标。
第二节 实验设计的基本要素
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 546 页
? (一)观察指标的分类
观察指标按其性质一般可以分为下列几类,
? 1.定量指标 可以用具体的度量衡单位来表示的指标 。
如人体的身高用厘米表示, 体重用公斤表示, 脉搏用
每分钟的次数来表示 。 计量指标可以根据具体指标的
要求, 精确到小数点后面若干位 。
? 2.分类指标 按受试对象的属性或特征先分类, 再计
数各类的个数 。 用绝对数或相对数来表示 。 如某检测
指标的结果可以用, 是, 或, 否,,, 阴性, 或, 阳
性, 来表示 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 547 页
? 3.等级指标 按试验效应的程度分为若干等级,并计
数各等级的个数。该指标介于定量及分类指标之间。
如用某治疗方案治疗病人,其观察结果可以分为四个
等级,即:无效,显效,好转,痊愈。这四个等级可
以用一个或多个具体量度指标来确定。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 548 页
? (二 ) 选择观察指标的要求
? 1.关联性 是指观察指标与研究目的有着本质而密切
的联系, 能够确切反映处理因素的试验效应 。 这些指
标可以通过查阅文献或根据以往经验而获得 。
? 2.客观性 是指能够借助各种检测手段及方法所观测
记录的指标 。 如血压, 红细胞数, 心电图, 尿铅含量
等指标 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 549 页
? 3.精确性 精确性包括两层含义。 其一是准确度,即
指实际测量值与真值的接近程度。准确度越高,测量
值越接近真值,误差则越小。尽管真值往往未知,但
准确度越高,指标的可靠性越高。 其二是精密度,指
在重复观察及测量时,观察值与其平均值的接近程度。
精密度越高,说明重复的测量值越接近,检测设备或
手段的稳定性越好。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 550 页
? 4.稳定性 是指观察指标变异度的大小 。 稳定性高,
则变异度小, 指标的代表性强, 反之亦然 。 稳定性一
般可以用该指标的变异系数来表示 。 如果变异系数不
超过 15%~ 20%,则该指标的稳定性较好 。
? 5.灵敏性 是指各种检测手段和方法能够检测出试验
效应微小变化的能力 。 灵敏性越高, 则检测出试验效
应微小变化的能力越强 。 随着科学技术的快速发展,
检测手段的灵敏性将会越来越高 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 551 页
? 6.特异性 是指检测指标的排它性,是观察指标对某种
特殊试验效应及结果的反映能力。特异性越强,观察
指标反映某种试验效应的能力越强。特异性对诊断严
重疾病的意义非常重要。如果某检测指标特异性强,
则该指标对确诊和早期发现严重疾病具有直接意义。
如检测指标甲胎蛋白对确诊早期肝癌具有重要意义。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 552 页
? 6.特异性 是指检测指标的排它性,是观察指标对某种
特殊试验效应及结果的反映能力。特异性越强,观察
指标反映某种试验效应的能力越强。特异性对诊断严
重疾病的意义非常重要。如果某检测指标特异性强,
则该指标对确诊和早期发现严重疾病具有直接意义。
如检测指标甲胎蛋白对确诊早期肝癌具有重要意义。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 553 页
? ( 三 ) 消除心理偏性的方法
? 心理偏性 是指研究人员及受试对象由于各自的心理偏
见而在观察或描述试验效应时产生的误差 。 如医护人
员容易认为自己使用的治疗方案要好于其他人的治疗
方案 。 病人则容易受医院规模大小, 医疗设备的先进
程度, 医院医疗水平的高低, 权威医护人员或普通医
护人员治疗等等方面的心理影响 。 这些影响可以导致
病人主观感觉的偏见 。 消除上述心理偏性的方法一般
是使用盲法设计 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 554 页
第三节 实验设计的基本原则
? 实验设计包括四项基本原则, 即随机化的原则, 对照
的原则, 重复的原则和均衡的原则 。
? 一、随机化的原则
? 1.概念及用途 随机化( randomization) 是指总体中
的每一个个体都有均等的机会被抽取或被分配到实验
组及对照组中去。随机化原则的核心是机会均等。使
用随机化方法可以消除在抽样及分组过程中,由于研
究人员对受试对象主观意愿的选择而造成试验效应的
误差。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 555 页
? 2.随机化的方法 随机化的方法有多种 。 常用的有 抽
签法, 抓阄法, 随机数字法 等 。 随机数字法一般有随
机数字表和随机排列表 。 普通函数型电子计算器也可
以显示随机数字 。 随机数字表中出现数字 0- 9的机会
或概率是均等的 。 利用随机数字分组的方法很多也很
灵活 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 556 页
? 对照( control) 是指在实验研究中使受试对象的处理
因素和非处理因素的试验效应的差异有一个科学的对
比。主要目的是为了排除对照组和实验组中非处理因
素对试验效应的影响或干扰作用,并使得实验组和对
照组具有可比性。对照的基本要求是,除处理因素作
有计划的变化外,实验组与对照组的其它条件尽量保
持一致。
二、对照的原则
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 557 页
? 实验研究中设置对照组是非常重要的 。 常用的对照方
法有下列几种 。
? (一)空白对照 空白对照是指对照组不施加任
何处理因素。常用于防疫系统疫苗接种效果的观察与
研究。
? 注意,在动物实验研究中, 可以使用空白对照, 而在
针对人体的临床试验研究中, 一般不能使用空白对照 。
对照组可以使用常规疗法以保证病人的生命安全, 而
对危重病人则更要注意不能使用空白对照 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 558 页
? ( 二 ) 标准对照
? 标准对照是指以公认 或习惯的标准方法、标准值或正
常值作为对照。这些对照值或标准值一般是多个地区
多年累积的经验结果,具有参考价值和意义。
? 实验研究中一般不用标准值作对照,主要是某项实验
研究中的实验条件难以与标准值的实验条件相一致,
不具备良好的可比性。临床试验研究中可以用常规疗
法或经验疗法作为标准对照组。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 559 页
? ( 三 ) 实验对照
? 实验对照是指对照组虽未施加处理因素,但却施加了
某种与处理因素有关的实验因素。这是一种比较特殊
的非处理因素。
? 例如,研究赖氨酸对促进儿童的生长发育作用,实验
组儿童的课间餐为加赖氨酸的面包,对照组为不加赖
氨酸的面包,两组儿童面包的数量是一致的。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 560 页
? (四) 自身对照
? 自身对照是指对照和实验在同一个受试对象身上进行,
只是在进行对照组和实验组的观察时,在时间上有前
后顺序的不同。
? (五) 相互对照
? 相互对照是指不专门设置对照组,而以各实验组之间
互为对照,比较各处理因素试验效应的相对大小及作
用。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 561 页
? (六) 安慰剂对照
? 安慰剂( placebo)是指一种无药理作用的假药,其与
治疗药物在外观、剂型等方面不能被受试对象所识别。
安慰剂对照则是指将安慰剂施加于对照组的受试对象。
安慰剂对照是一种特殊的空白对照,其目的主要是排
除病人或受试对象的心理偏见。
? 人作为受试对象具有复杂的心理过程,极易受到各种
外界因素的影响和干扰。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 562 页
? ( 七 ) 历史对照
? 历史对照是指以过去或以往的研究结果作为对照。主
要用于对难治或无法治愈的疾病的研究,如晚期恶性
肿瘤,狂犬病等疾病。
? 由于这些疾病难以治愈或无法治愈,这种累积下来的
治疗结果就成为历史对照。例如,狂犬病一但发病,
其治愈率几乎为零,这是一个历史的治疗结果。历史
对照一般不宜使用,应用时应特别注意资料的各种背
景条件因素及其可比性。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 563 页
? 三、重复的原则
? 重复( replication) 是指实验组和对照组的受试对象
应具有一定的数量。重复表现为二个含义:其一是样
本含量的大小;其二是同一试验重复次数的多少,两
者的本质是相同的。按照抽样误差变化的规律,在抽
样中,随着样本含量的增大或重复次数的增加,抽样
误差将逐渐减小。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 564 页
? 如果研究总体中的所有个体, 其优点是研究的指标准
确可靠, 没有抽样误差, 具有较高或很高的参考价值;
缺点是耗费大量的人力, 物力, 财力和时间, 一般情
况下是不采用的 。 研究样本的优点 是节省人力, 物力,
财力和时间;缺点是观察指标存在抽样误差, 降低了
指标的准确性和可靠性 。 如果未认真进行实验设计和
考虑抽样方法, 则样本指标常可导致错误的结论 。 这
也是在抽样研究中要十分注意的问题 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 565 页
? 四、均衡的原则
? 均衡的原则也称为齐同原则, 是指对照组除处理因素
与实验组不同外, 其它各种条件及因素应基本一致 。
这些条件及因素即指非处理因素或称为背景因素 。 对
照组与实验组应具有较好的均衡性, 这样才能保证各
组之间具有较好的可比性, 才能充分显示出实验组处
理因素的效应和作用, 排除其它各种因素的干扰和影
响 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 566 页
第四节 样本含量的估计
? 一、确定样本含量的意义
? 正确确定样本含量是实验设计中的一个重要部分,在
估计样本含量时,应当注意克服两种倾向,
?1。 某些研究工作者片面追求增大样本例数,认为样本
例数越大越好,甚至提出, 大量观察, 是确定样本含
量的一个重要原则,其结果导致人力、物力和时间上
的浪费。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 567 页
?2,确定总体标准差 ? 由于总体标准 ? 差往往未
知或不易获得, 一般可用预试验的样本标准差 S来估计
或代替 。
? 3,确定第一类错误的概率 α 也称为检验水准或显
著性水平, α 越小, 所需样本例数越多 。 习惯上, 检
验水准一般取 α = 0.05,并可根据专业要求决定取单
侧 α 或双侧 α 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 568 页
? 4,检验效能( 1-β ) 检验效能也称为把握度,
是指在特定水准下,若总体间确实存在差异,则该次
试验能发现此差异的概率。其中的 β 为第二类错误。
( 1- β )越大,即把握度越高,所需样本例数越多。
通常取 β = 0.1或 β = 0.2,相应的检验效能为 0.9或
0.8。一般检验效能不宜低于 0.75,否则第二类错误增
大,,存伪, 的概率增加。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 569 页
? 样本含量估计的方法较多,有些公式较为复杂,计算
繁琐。最常用的几种方法有,
? 1。 样本均数与总体均数的比较
? 2。 两样本均数的比较
? 3。 两样本率的比较
? 具体计算方法公式:略。
三、常用样本含量估计方法
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 570 页
? 完全随机设计( completely random design) 也
称为单因素设计,该设计只能分析一个处理因素的作用。
处理因素可有 2个或 2个以上水平,每个水平代表一个分组。
可用抽签法、抓阄法或随机数字法等将受试对象随机分配
到各实验组及对照组中。该设计的特点是,简单方便,应
用广泛,容易进行统计分析;但只能分析一个因素的作用,
效率相对较低。如果只有两个分组时,可用 t检验或单因
素方差分析处理资料。如果组数大于等于 3时,可用单因
素方差分析处理资料。
一、完全随机设计
第五节 常用实验设计方法
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 571 页
? 该设计如果用于临床试验,也可称为临床试验设计中
的 随机对照试验 ( randomized control trial);如
果其中采用了盲法设计,则又称为 随机盲法对照试验
( randomized blind control trial)。 注意,在受
试对象分组前,应使其非处理因素尽量达到均衡,然
后再采用随机方法对受试对象进行分组,这样才能使
得各组的可比性高,均衡性强。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 572 页
? 例 10.4 按单因素设计要求, 将 15只动物等量分为 A、
B,C三组 。
? 设计及分组步骤如下 。
? ( 1) 选取 15只品系相同, 性别相同, 年龄相同或相近,
体重相近的动物 15只 。
? ( 2) 将 15只动物任意编号为 1~ 15号 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 573 页
? 表 10-4 单因素设计动物分组方法
动物编号( 1 ) 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15
随机数字( 2 ) 1 0 15 11 12 3 13 14 1 2 6 9 4 7 8 5
动物分组( 3 ) B C C C A C C A A B B A B B A
?( 3)查附表 17,,随机排列表,,预先规定:从该表
第 12行顺序查抄 1~ 15范围内的随机数字 15个,小于 1及
大于 15的数字舍去。数字 1~ 5归入 A组,6~ 10归入 B组,
11~ 15归入 C组。
?( 4) 15只动物分组方法及结果,见表 10-4。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 574 页
? 配对设计( paired design) 是将受试对象按一定条件
配成对子,分别给予每对中的两个受试对象以不同的
处理。配对的条件是影响实验效应的主要非处理因素。
在这些非处理因素中,动物主要有:种属,性别,年
龄,体重,窝别等因素;人群主要有:种族,性别,
年龄,体重,文化教育背景,生活背景,居住条件,
劳动条件等。其中病人还应考虑疾病类型,病情严重
程度,诊断标准等方面。配对设计的目的是降低、减
弱或消除两个比较组的非处理因素的作用。
二、配对设计
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 575 页
? 该设计的特点是,可以节约样本含量, 增强组间均衡
性, 提高试验效率, 减轻人力, 物力和财力负担 。 在
临床试验中, 配对设计应用广泛 。 医学科研中常见的
配对设计有下列几种类型,
? ( 1) 配对设计 将两个条件相近的受试对象按 1:1配
成对子, 然后对每对中的个体随机分组, 再施加处理
因素观察效应 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 576 页
? ( 2) 自身对照设计 临床上常见情况是, 把病人治疗
前与治疗后的检测指标值作为一对数据 。 若干个病人
的检测值作为若干对数据 。 这种设计为配对设计中的
一种 。
? ( 3) 同一标本用两种方法检测 采集的同一份标本或
样品如果用两种方法进行检测, 则得到一对数据 。 检
测一批样品则得到若干对数据 。 此种设计也属于配对
设计 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 577 页
? 交叉设计 ( cross-over design) 是一种特殊的自身对
照设计 。 它克服了由于施加于受试对象的处理因素在
时间上的不同而导致的试验效应的偏差 。
? ( 一 ) 交叉设计的特点
? 1.节约样本含量, 试验效率高 。
? 2.可以均衡因施加处理因素的时间顺序不同对试验效
应的影响 。
? 3.每个受试对象均可接受 A和 B两种处理因素 。
? 4.需用交叉设计的方差分析方法处理数据, 其计算稍
嫌繁琐 。
三、交叉设计
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 578 页
? 例 10.5 试将 10对受试者随机分入甲, 乙两处理组 。
? 先将受试者编号, 如第一对第 1受试者编为 1.1,第 2受
试者编为 1.2,余仿此 。 随机指定附表 17随机排列表第
2行, 舍去 10~ 19之间的数字, 并规定单数取甲乙顺序,
双数取乙甲顺序 。
受试者号
1, 1
1, 2
2, 1
2, 2
3, 1
3, 2
4, 1
4, 2
5, 1
5, 2
6, 1
6, 2
7, 1
7, 2
8, 1
8, 2
9, 1
9, 2
1 0, 1
1 0, 2
随机数字
处 理
8
乙
甲
7
甲
乙
6
乙
甲
2
乙
甲
5
甲
乙
9
甲
乙
0
乙
甲
1
甲
乙
4
乙
甲
3
甲
乙
表 10-5 按配对设计的要求将 10对病人进行分组
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 579 页
? 5.要求两种处理因素不能相互影响 。 观察时间不能过
长, 处理效应不能持续过久 。
? 6.临床试验设计中, 不适合于急性病的疗效观察 。 由
于急性病的病程较短, 在试验的第一阶段该病可能已
经治愈, 则在第二阶段不可能再显示出疗效 。
? 7.该设计应采用双盲法设计较好, 以避免试验执行者
和病人的心理偏见 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 580 页
? ( 二 ) 设计方法
? 1.先将条件相近的受试对象按 1:1配成若干对子;
? 2.用随机方法将每对中的两个个体分为两组;
? 3.决定两个组中的哪个组的受试对象先用 A处理因素,
后用 B处理因素;另一组的受试对象则与此相反 。 例如,
第一组先给 A,第二组先给 B;经一定时间后, 第一组
再给 B,第二组再给 A。
? 4.在试验的不同时期即前后两个阶段, A与 B两种处理
因素既同时使用又交叉使用 。 两组中 A结果与 B结果之
差即为试验效应 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 581 页
? 例 10.6 已配成对子的 10对病人(共计 20例),请将他
们按交叉设计要求进行 A,B两种处理方式的随机分配。
? 分组方法及步骤如下 。
? ( 1) 将 10对病人任意编为 1~ 10号, 再将每对病人依
次编号为 1.1,1.2,2.1,2.2,… 等 。
? ( 2) 查附表 17随机排列表 。 任意指定随机排列表一行,
比如从该表第 9行, 舍去 10~ 20,将随机数字列于表
10-6中 。 若遇随机数字的单数, 则对子中的第 1个病人
先 A后 B,对子中的第 2个病人先 B后 A。 若遇双数, 则
对子中的第 1个病人先 B后 A,第 2个病人先 A后 B。 余
类推 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 582 页
受试者号
1, 1
1, 2
2, 1
2, 2
3, 1
3, 2
4, 1
4, 2
5, 1
5, 2
6, 1
6, 2
7, 1
7, 2
8, 1
8, 2
9, 1
9, 2
1 0, 1
1 0, 2
随机数字 9 3 0 2 1 5 8 6 4 7
用药顺序
AB
BA
AB
BA
BA
AB
BA
AB
AB
BA
AB
BA
BA
AB
BA
AB
BA
AB
AB
BA
表 10-6 按交叉设计要求对 10对病人进行分组
注意,所谓, 先 A后 B”是指试验开始的第一阶段,
先对相应病人使用 A处理因素;在试验的第二阶
段对该病人使用 B处理因素。, 先 B后 A”的意义与
此相反。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 583 页
? 随机区组设计( randomized block design) 也称为配
伍组设计或双因素设计。
? 它是 1:1配对设计的扩大。该设计是将受试对象按配对
条件先划分成若干个区组或配伍组,再将每一区组中
的各受试对象随机分配到各个处理组中去。
四、随机区组设计
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 584 页
? ① 进一步提高了各区组及处理组的均衡性及可比性;
②可控制一般设计中的混杂性偏倚;
? ③节约样本含量,增强试验效率;
? ④可同时分析两个处理因素的作用,且两因素应相互
独立,无交互作用;
? ⑤每一区组中受试对象的个数即为处理组数,每一处
理组中受试对象的个数即为区组数;
? ⑥可用双因素方差分析方法处理数据,计算较为繁琐;
⑦应特别注意该设计中受试对象的区组分组方法和处
理组分组方法,否则将影响到该设计的均衡性及试验
效率。
该设计的特点是,
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 585 页
? 例 10.7 研究人员在进行科研时, 要观察 2个因素的作用 。
欲用 20只动物分为五个区组和四个处理组 。 试进行设计
及分组 。
? 设计及分组方法和步骤如下,
? ( 1)该设计可采用随机区组设计方案。分析的两个因素
的作用可分别列为区组因素和处理组因素。两因素服从
正态分布、方差齐性且相互独立。
? ( 2)取同一品系的动物 20只。其中每一区组取同一窝出
生的动物 4只。五个区组即为五个不同窝别的动物。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 586 页
? ( 3) 将每一区组的 4只动物分别顺序编号为 1~ 4号,
5~ 8号, 9~ 12号, 13~ 16号, 17~ 20号, 接受 A,B、
C,D四种处理方式 。
? ( 4) 查附表 17 随机排列表, 任意指定 5行, 如第 9至
第 13行 。 每行只随机取数 1~ 4,其余数舍去 。 依次将
随机数字记录于各配伍组的编号下, 其随机数字即为
该动物应分入的处理组, 见表 10-7。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 587 页
表 10-7 按随机区组设计要求对 20只动物进行分组
表 10-8 20只动物的分组结果
动物编号 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20
随机数字
分配组别
3
C
2
B
1
A
4
D
4
D
3
C
2
B
1
A
3
C
1
A
2
B
4
D
3
C
1
A
2
B
4
D
3
C
2
B
1
A
4
D
处理组
区组
A B C D
一 3 2 1 4
二 8 7 6 5
三 10 11 9 12
四 14 15 13 1 6
五 19 18 17
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 588 页
? 拉丁方( Latin square ) 是指用 r个拉丁字母排成 r行
r列的方阵,使每行每列中的每个字母都只出现一次,
此方阵叫 r阶拉丁方或 r× r拉丁方。拉丁方设计
( Latin square design)是利用拉丁方来安排并观察
分析三个处理因素试验效应的设计方法。
? 拉丁方设计的 基本要求 是,① 必须是三个因素的试验,
而且三个因素的水平数相等; ② 三个因素相互独立,
无交互作用; ③ 三个因素试验效应的测量指标服从正
态分布且方差齐性 。
?
五 *、拉丁方设计
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 589 页
? 拉丁方设计的 基本特点是, ① 拉丁方设计分别用行间,
列间和字母间表示三个因素及其不同水平; ② 拉丁方
方阵可以进行随机化, 目的是打乱原字母排列的有序
性 。 具体方法是, 将整行的字母上下移动或将整列的
字母左右移动 。 经多次移动即可以打乱字母的顺序性
并达到字母排列的随机化; ③ 无论如何随机化, 方阵
中每行每列每个字母仍只出现一次; ④ 拉丁方设计均
衡性强, 试验效率高, 节省样本含量, 可用拉丁方设
计的方差分析处理数据, 但计算较为繁琐 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 590 页
? 例 10.8 将 4× 4拉丁方的有序字母随机化 。 见表 10-9。
? 表 10-9中, 第 ( 1) 栏的拉丁方字母有顺序, 尚未随机
化 。 第 ( 2) 栏:将第 ( 1) 栏的第 1行与第 3行交换位
置 。 第 ( 3) 栏:将第 ( 2) 栏的第 1列与第 3列交换位
置 。 还可以继续随机化, 直到满意为止 。
表 10-9 拉丁方方阵的随机化
有序拉丁方
( 1 )
将 第( 1 )栏 的 第 1, 3 行
交换
( 2 )
将第( 2 )栏的第 1, 3 列
交换
( 3 )
A B C D A C D A B A A D C B
D A B C D A B C B A D C
C D A B A B C D C B A D
B C D A B C D A D C B A
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 591 页
六 *、析因设计
? (一 )概念及特点
? 析因设计( factorial design) 也称为析因实验
( factorial experiment),是一种多因素的交叉分组设
计。它不仅可检验每个因素各水平间的差异,而且可
检验各因素间的交互作用。
? 交互作用 是指两个或多个因素的作用相互影响,各
因素间互不独立,一个因素的水平有改变时,另一个
或几个因素的效应也相应有所改变。交互作用的结果
是使总的试验效应增强或降低。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 592 页
? 最简单的析因设计为 2× 2( 或 22) 析因设计 。 其意义
为,试验中共有 2个因素, 每个因素各有两个水平 。 再
如, 2× 2× 2( 或 23) 析因设计, 表示试验中有三个因
素, 每个因素各有两个水平 。
? 数字表达式 中的指数表示因素个数, 底数表示每个因
素的水平数 。
? 析因设计的特点是, ① 可分析多个因素多个水平的试
验效应, 可以分析各因素的独立作用及其各级交互作
用; ② 节省样本含量, 试验效率高; ③ 设计时较为复
杂, 计算较为繁琐 。 可用析因设计的方差分析处理数
据 。 当因素个数较多时, 计算量大, 计算工作相当繁
琐, 对计算结果的解释也会变得十分错综复杂 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 593 页
2× 2析因实验作用模式
? 表 10- 10 2× 2析因设计作用模式
因素 B
因素 A
B 1 B 2
A 1 A 1 B 1 A 1 B 2
A
A 2 A 2 B 1 A 2 B 2
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 594 页
(三)交互作用的类型
设实验研究中有 A,B,C,D四种因素, 其交互作用的类型如下 。
? ( 1) 独立作用, A,B,C,D,是四个因素各自的单独作用 。
? ( 2) 一级交互作用, A× B,A× C,A× D,B× C,B× D,
C× D,是任意两个因素的共同作用 。
? ( 3) 二级交互作用, A× B× C,A× B× D,A× C× D,
B× C× D,是任意三个因素的共同作用 。
? ( 4) 三级交互作用, A× B× C× D,是四个因素的共同作用 。
? 上述独立作用与交互作用总共需进行 15次试验, 目的在于得出各
因素的最佳水平及其组合 。 随着试验因素的增加, 交互作用及试
验次数会急剧增加 。 当试验次数很多时, 则宜采用正交试验设计 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 595 页
七 *、正交试验设计
? (一 ) 概念及特点
? 正交试验设计( orthogonal experimental design)是一
种高效的多因素试验的设计方法。它利用一套规格化
的正交表,合理地安排实验,通过对实验结果进行分
析,获得有用的信息。
? 正交设计的特点 是,
? ①可分析三个及三个以上因素的作用及其交互作用。
②用最少的试验次数获得更多的信息。
? ③可用方差分析处理正交设计的测量数据,但计算十
分繁琐。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 596 页
(二)设计方法及步骤
? 正交实验设计的步骤如下 。
? ( 1) 根据研究目的选择因素及其水平数;
? ( 2) 选择正交表 正交表是已经制好的统计用表, 专供
正交实验设计使用 。 表格的类型表示符号为 Ln(tk)。 其中 n
表示一套试验所需受试对象的个数, t表示每个因素的水
平数, k 表示可分析的因素数 。 例如, L8( 27) 的意义为:
一套试验需 8个受试对象, 每个因素有 2个水平, 最多可分
析 7个因素的作用及其交互作用 。 选择哪一种正交表取决
于某项研究的因素数, 各因素水平数及各因素间交互作用
的项数 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 597 页
(三)正交表应用实例分析
? 例 10.9 根据研究目的选择一个 L4( 23)正交表,并对该正交表及
其特点作出分析。
表 10- 11 L4( 23)正交表
列号
试验号
1 2 3
1 1 1 1
2 1 2 2
3 2 1 2
4 2 2 1
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 598 页
1.分析 该正交表 L4( 23) 的意义为:每套试验选择 4个
受试对象, 此处指表中试验号 。 最多可安排 3个试验因
素, 用列号表示 。 每因素有 2个水平, 水平 1和水平 2由
表中数字 1和数字 2表示 。 在 1号试验中, 第 1,2,3列
安排的 3个因素均取水平 1;第 2号试验中, 第 1,2,3
列的因素则分别取 1,2,2水平;余类推 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 599 页
2,该正交表的特点
(1)每列中出现水平 1和水平 2的次数相等 。
(2)对于任意两列的同一横行, 由两个数字构成数据对 。
本例的数据对有,( 1,1), ( 1,2), ( 2,1),
( 2,2) 。 在整个正交表中, 上述四个不同数据对出
现的次数相等 。 例如, 在第 1,2列同一横行中, 数据
对 ( 1,1), ( 1,2) 各出现一次;在第 1,3列的同
一横行中, 这两个数据对又各出现一次;在第 2,3列
中, 这两个数据对又再出现一次 。 这两个不同的数据
对总共各出现 3次 。 出现次数相等 。 其余二个数据对出
现次数也相等 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 600 页
八、盲法设计
? 盲法设计 ( design of blind method) 是指使研
究人员或病人不知道具体的研究设计方案, 从而避免
双方由于心理偏见造成的试验效应的偏差 。
? 盲法设计,一般分为单盲法及双盲法 。 单盲法是
指受试对象不知道自己被施加何种处理因素, 不知道
该处理因素的预期结果或效应, 而研究人员知道具体
的设计方案 。 该法主要用于消除受试对象的心理偏见 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 601 页
? 双盲法
是指实验执行者及受试对象均不知道具体的设计方
案及处理因素的预期结果或效应 。 只有该实验设计的
总负责人知道具体的设计方案 。 双盲法可以避免和消
除医护人员和病人双方的心理偏见 。 盲法设计在临床
试验中应用广泛, 尤其是针对病人的单盲法, 应用更
为广泛 。
END 返回章目录 C,CHENG 返回总目录
共 666页 第 10章实验设计 第 602 页
THANK YOU FOR LISTENING
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 603 页
医学统计学
主讲 程 琮
泰山医学院预防医学教研室
zcheng@tsmc.edu.cn
医学本科生用
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 604 页
Teaching Plan
for Medical Students
? Medical Statistics
PROFESSOR CHENG CONG
Dept,of Preventive Medicine
Taishan Medical College
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 605 页
第 11章调查设计 目彔
? 第五节 样本含量的估计
? 第二节 调查计划
? 第三节 整理与分析计划
? 第四节 四种基本抽样方法
? 第一节 调查研究的特点
? 第六节 调查误差的控制
? 第七节 敏感问题的调查方法
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 606 页
第十一章 调查设计
第一节 调查研究的特点
调查设计,是统计研究设计的一个重要部分,是医学科
学研究的重要手段。
?调查研究 的主要特点是研究过程中没有人为施加的干
预措施,而是客观地观察记录某些现象的现状及其相
关特征。
?在调查中,与研究的现象及其相关特征(包括研究因
素和非研究因素)是客观存在的,不能采用随机分配
的方法来平衡或消除非研究因素对研究结果的影响,
这是调查研究 区别于 实验研究的最重要的特征。
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 607 页
?调查研究分为
( 1)横断面研究
( 2)现状研究
( 3)观察性研究。
通过横断面调查,可以了解某一特定时
间断面上特定人群中疾病或卫生服务的
现状及其与之相联系的各种因素(如某
病的患病率、人体的各种生理生化或病
理指标、卫生资源状况等)的分布情况。
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 608 页
第二节 调查计划
?调查计划,主要应解决下列几方面的问题。
?一、明确调查目的和指标
? 一是了解参数,用以说明总体特征;
? 二是研究变量间的相关联系,探索病因。这些都需
要通过具体指标来说明。因此,一定要把调查目的具
体到指标。
? 指标要精选,要重点突出。尽量选用客观性强、
灵敏度高和特异性强的定量指标,少用定性指标。
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 609 页
二、确定观察对象和观察单位
? 根据调查目的和指标, 确定观察对象和观察单位,
即划清调查总体的同质范围, 特别是作参数估计时更
为重要 。
?如上述食管癌调查, 观察对象是该地某年的常住人口,
观察单位是每个, 人,, 同属该地区和时间范围的全
部常住人口组成研究的总体 。
?注意:观察对象可以是人, 但观察单位则也可以是人
的眼睛或牙齿等 。
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 610 页
三、调查方法
?按调查的范围,可分为 普查 和 非全面调查,后者又以
抽样调查 和 典型调查 最为常用 。
? 1.普查 ( census) 亦称全面调查 ( complete survey)
就是将组成总体的所有观察单位全部加以调查, 如我
国的第五次人口普查 。 理论上只有普查才能取得总体
参数, 没有抽样误差, 但往往非抽样误差较大 。 普查
一般都是用于了解总体某一特定, 时点, 的情况, 如
年中人口数, 时点患病率等 。
? 2.抽样调查( sampling survey) 是指从总体中随机
抽取一定数量的观察单位组成样本,然后用样本信息
来推断总体特征。因而节省人力、财力和时间
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 611 页
3.典型调查( typical survey) 亦称案例调查,即在
对事物作全面分析的基础上,有目的地选定典型的人、
典型的单位进行调查。
由于典型调查没有遵循随机抽样的原则,不能用于
估计总体参数,但在一定条件下,根据专业知识,选
定一般典型,可对总体特征作经验推论,但这不属统
计推断的范畴。
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 612 页
四、搜集原始资料的方式
? 主要有两种:直接观察法和采访法
? 1.直接观察法 是由调查人员到现场对
观察对象进行直接观察、检查、测量或
计数来取得资料。
? 2.采访法 是根据被调查者的回答来搜
集资料。
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 613 页
采访的方式常用的有三种,
①访问,即通过调查人向被调查人作口头询问,将答案填
入调查表,此法可以保证被调查人对问题的理解与设
计要求一致和调查资料的准确性。
②开调查会,即利用召开知情人座谈会的方式来搜集一
些资料,如农村食管癌死亡调查中,可通过召开村乡
干部、乡村医生、妇女代表等知情人员的调查会,全
面回顾调查期内的死者,初步推定死因,填入, 死亡
人口登记表,,再从表中选出可疑的食管癌死者,逐
户进行访问后确诊。因此,开调查会可起到初筛和快
速取得资料的作用。
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 614 页
③ 信访,即将调查表邮寄给被调查人,请
他们填好后寄回,如病例随访调查等常
用。采用信访法可节省人力、财力,但
由于调查人与被调查人不见面,被调查
人对调查问题的理解,常发生与设计要
求不一致的情况,一般失访较多,以致
影响调查资料的质量。
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 615 页
五、确定调查项目和调查表
? 根据调查指标确定每个观察单位的调查项目包括分析
项目和备查项目。
1.分析项目 是直接用于计算调查指标,以及分析明确排
除混杂因素影响所必须的内容。
2.备查项目 是为了保证分析项目填写的完整、准确,便
于核查、补填和更正而设置的,通常不直接用于分析。
如姓名,地址,联系电话等。
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 616 页
表 11-1 调查表举例
居 民 食 管 癌 死 亡 调 查 表
(编码)
住址 ______________县 _____________乡 ____________村 ___________居民组 □□□□□□□□
死者姓名 ____________________
性别 1男 2女 □
死亡日期 ___________年 _______月 ________日 出生日期 ___________年 _______月 ______日
死时实足年龄 ______岁 □□□
诊断依据 检查,
X线 1阳性 2阴性 9可疑 □
细胞病理 1阳性 2阴性 9可疑 □
临床表现,
进行性吞咽困难 1有 2无 9不明 □
食物反流 1有 2无 9不明 □
胸骨后闷, 胀痛 1有 2无 9不明 □
进行性消瘦或恶病质 1有 2无 9不明 □
病程 __________月 □□
诊断结果 1是 2否 3可疑 □
调查人 _____________________ 调查日期 ___________年 ___________月 ___________日
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 617 页
? 项目的答案有两种设计,
? ①封闭式选择答案, 有确定的多个固定答案可选,
一般只选一项,此类宜多用。
? ②开放式回答 。即不预先给定固定答案,让被调查者
自由地说出自己的情况和想法,如症状或病程等。 优
点 是可用于设计者不了解答案有哪些,或答案难于一
一列举; 缺点 是容易离题,调查时间花费较多,不便
综合汇总。
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 618 页
调查表
? 调查表 (questionnaire),或称问卷,把调查项目按
提问的罗辑顺序列成表格, 供调查时使用 。
? 调查表的格式可分为单一表和一览表 。
? 单一表:每表只填一个观察单位, 每一观察单位的
调查项目较多时适用于大量人群的调查;整理资料十
分方便 。
?一览表:每表可填多个观察单位, 每一观察单位的调
查项目较少时 。 适用于较小人群的调查 。 整理资料不
太方便 。
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 619 页
六、制订调查的组织计划
? 主要包括,
? 组织领导, 宣传动员群众, 时间进度, 调查员培训,
任务分工与联系, 经费预算, 调查表格和宣传资料的
准备, 以及调查资料的检查制度等内容 。 在正式调查
之前, 应先作小范围的试查, 以便检验调查表设计,
并作必要的修改 。
? 检查资料有无错误, 一般从两方面考虑,
? ① 逻辑检查, 即根据项目的性质及其相互关系, 检查
填写内容有无矛盾,
? ② 计算机检查, 即验算计算机项目有无错误
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 620 页
第三节 整理与分析计划
一,数据的计算机录入与清理
1.录入前,设置数据范围。
2.录入时,对同一资料,用甲、乙两位录入员,分别重
复录入。
3.录入后
①抽查部分调查表,了解输入质量。
②用统计软件做些简单的统计描述,如编制频数分布表,
发现异常值;作两相关变量的散点图,发现异常点等
③针对调查项目间的逻辑关系,编制检查程序,用于检查
数据间的逻辑矛盾。
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 621 页
二、设计分析表和资料的分组
? 设计分组 (classification)是将性质相同的观察单位合在
一起,将性质不同的观察单位分开,把组内的差异性
或相似性显示出来。
? 分组有两种:①类型分组,按分组因素的类别来分组,
如将观察单位按性别、职业、疾病分类,某项检查结
果的阳性或阴性等分组;②数量分组,即按分组因素
的数量大小来分组,如将观察单位按年龄大小、血压
高低等分组。两种分组往往结合使用 。
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 622 页
三、汇总方法
手工汇总一般采用划记法或分卡法 。
1.划记法 就是汇总时用划, 正, 字或, +++, 来记数 。
此法简便易行, 但易出错, 因此, 划记时要小心细致,
至少要重复划两遍以资核对 。 常用于观察单位数不多,
调查项目较少的汇总 。
2.分卡法 就是直接把原始记录卡分别归入各组,经过
核对,然后清点每组卡片的张数,就是该组的观察单
位数。
3.穿孔法,在调查表的边缘打上一些孔,对于阳性指标
将孔剪开与外界相通,通过穿孔将阳性指标分出来。
此法在手工汇总中是最方便快捷的。
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 623 页
四、组织计划
? 一般包括,
组织分工、时间进度和汇总要求等,
特别是大规模的协作调查,有明确
的组织计划才能使各 协作 单位步骤
一致,按期完成总结。
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 624 页
第四节 四种基本抽样方法
? 不同抽样方法, 样本均数及其抽样误差的算法不同,
而且无限总体和有限总体抽样的算法也不同 。 前面各章
讲的都是无限总体抽样, 而在现场调查中, 常在有限总
体中抽样 。 常用的抽样方法有下列四种 。
一、单纯随机抽样
单纯随机抽样( simple random sampling) 是指先
将调查总体的全部观察单位编号,再用随机数字表或抽
签等方法随机抽取部分观察单位组成样本。
优点 是均数 ( 或率 ) 及标准误的计算简便 。
缺点 是当总体例数较多时, 要对观察单位一一编号, 甚为
麻烦, 实际工作中有时难于办到 。
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 625 页
二、系统抽样
系统抽样( systematic sampling) 又称等距抽样或机械
抽样。即先将总体的观察单位按某一顺序号等分成 n个部
分,再从第一部分随机抽第 k号观察单位,依次用相等间
隔,机械地从每一部分各抽一个观察单位组成样本。
系统抽样的 优点 是:①易于理解,简便易行。 ②容易得到
一个按比例分配的样本。
系统抽样的 缺点 是:①当总体的观察单位按顺序有周期趋
势或单调增减趋势,则系统抽样将产生明显的偏性。
②实际工作中的一般按单纯随机抽样方法估计抽样误差,
但系统抽样抽取各处观察单位并不是彼此独立的,
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 626 页
三、整群抽样
?而 整群抽样( cluster sampling) 是先将总体划
分为 K个, 群, 组,每个群包括若干观察单位;再随机
抽取 k个, 群,,并将被抽取的各个群的全部观察单位
组成样本。
?整群抽样的 最大优点 是便于组织,节省经费,容易控
制调查质量。它的 缺点 是当样本例数一定时,其抽样
误差一般大于单纯随机抽样的误差。
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 627 页
四、分层抽样
?分层抽样( stratified sampling) 又称分类抽样,即先
按影响观察值变异较大的某种特征,将总体分为若干
类型或组别,再从每一层内随机抽取一定数量的观察
单位,合起来组成样本。有两种方法,
?按比例分配( proportional allocation)法
?最优分配( optimum allocation)法
?分层抽样的 优点 是:①减少抽样误差。分层后增加了
层内的同质性,因而可导致观察值的变异度减小,各
层的抽样误差减小,。 ②便于对不同的层采用不同的
抽样方法。 ③还可对不同层独立进行分析。
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 628 页
第五节 样本含量估计
? 在抽样设计中还要考虑样本含量的大小, 即样本观察
单位数的多少问题 。 因为样本例数过少, 所得指标不够
稳定, 用于推断总体的精度差, 检验效能低;样本例数
过多, 不但造成不必要的浪费, 也给调查的质量控制带
来更多的困难 。 估计样本例数的目的是在保证一定精度
和检验效能的前提下, 确定最少的观察单位数 。
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 629 页
? 抽样方法不同, 估计样本例数的方法各异 。 本节重点
讲述单纯随机抽样时, 估计总体均数所需样本例数 n的
方法, 为此要确定,
? ① 容许误差 δ, 即预计样本统计量与相应总体参数的
最大相差值控制范围 。
? ② 所调查总体的标准差 ?, 若不了解, 须通过试查,
过去的经验或有关资料作估计 。 有限总体抽样, 还须
了解总体观察单位数 N。
? ③ 第一类错误的概率 α, 通常取 α =0.05。 若要求 α
越小, 则所需样本例数越多, 要结合需要与可能来决
定 。
? 具体抽样方法:略 。
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 630 页
第六节 调查误差的控制
? 调查结果常常出现误差。
? 除有抽样误差外, 还可能有非抽样误差 。 抽样误差不
仅易于控制, 还可作出估计, 但非抽样误差的控制却
比较复杂 。
?因为,① 抽样误差的控制主要与调查设计人员有关;
而非抽样误差的控制, 不仅与设计人员有关, 还涉及
到为数众多的调查人员和观察对象;
?② 从时间上来说, 抽样误差的控制, 主要在设计阶段;
而非抽样误差的控制, 则要求贯穿到设计, 资料搜集,
整理, 分析的全过程 。 非抽样误差来源纷繁, 形式多
样 。
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 631 页
一、设计阶段
非抽样误差可能来自,
①调查指标选择不当
②调查对象的范围划分不当。
③调查项目的定义不明确。
④周岁年龄计算不准确。
⑤编制周密的逻辑检查与计算检查提纲,以提高资料检
查的效果。
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 632 页
二、调查阶段
? 非抽样误差可能来自,
? ①调查人员的工作态度不好,业务水平不足。
? ②被调查者因故不在、躲避调查、拒绝回答、有意隐
瞒、记忆不清等。
? 为此应广泛开展宣传,争取群众积极配合;家访要摸
清被调查者在家的时间规律,并作必要的补查;对敏
感问题,要进行细致的思想工作,注意保密,或从侧
面了解,或用下节随机应答技术;对记忆不清者可请
知情人、同龄人帮助回忆。
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 633 页
三、整理与分析阶段
? 非抽样误差可能来自编码, 录入, 汇总, 计算等方面
的错误 。 为此, 应严格地进行资料清理和检查, 及时
发现和更正错误 。
? 评价调查质量必须联系非抽样误差的控制,后者一般
采用两种方法来衡量:①抽样复查。即随机抽取部分
已调查对象,再次组织更严格的标准调查,抽查人员
不得在原调查单位参加复查
? ②与不同来源的同类资料作对比。
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 634 页
第七节 * 敏感问题的调查方法
? 敏感问题 (sensitive question) 包括对国家政策、
社会规范、伦理道德的态度、经济收入、生活行为以
及个人隐私等。被调查者往往被拒绝回答或隐瞒,但
却是一个不容忽视的社会问题。
? 对敏感问题的调查应该既能满足其本人不泄密, 又
能如实了解社会群体的问题 。 对敏感问题的调查经常
采 用的 是随 机应 答技 术 ( randomized response
technique,RRT) 。
? 具体方法,略 。
END 返回章目录 返回总目录
共 666页
C,CHENG
第 11章调查设计 第 635 页
Thank You for Listening
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 636 页
医学统计学
主讲 程琮
泰山医学院预防医学教研室
zcheng@tsmc.edu.cn
本科生用
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 637 页
第 12章统计表与统计图 目彔
? 第二节统计图
? 第一节 统计表
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 638 页
学习要求
? 掌握统计表与统计图的概念和意义;
? 掌握统计表与统计图的特点及应用条件;
? 掌握统计表与统计图的绘制原则;
? 掌握统计表与统计图的类型及各类型的应用条件,
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 639 页
?统计表( statistical table) --- 把统计分
析资料及其指标用表格列出,称为统计表。它
可以代替冗长的文字叙述,便于计算、分析和
对比。
?统计图( statistical graph) ---- 是用点、
线、面等表达统计资料中数量及其变化趋势,
使统计资料更形象、更易懂,可直观地反映出
事物间的数量关系。
第一节 统计表
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 640 页
?由于统计图对数量的表达比较粗略,
不便作深入细致的分析, 所以一般
在绘制统计图时, 都应附有统计表 。
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 641 页
? 统计表主要有表序、标题、标目、表体和线条等组成,
其基本格式如下,
纵标目?? 合计
表体(数字)
横标目
┆
┆
合计
顶线
标目线
合计线
底线
表序 标题 ××××××××
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 642 页
一、制表的基本要求
? 1.标题, 简明扼要能概括表中内容,它应包括时
间、地点、内容等。标题应写在表顶线的上端
中间的位置 。
? 2.标目 用以说明表内数字含义的部分叫标目 。
( 1) 横标目 横标目位于表左侧, 是统计表所要
叙述的主语, 它说明同一横行数字的意义 。
( 2) 纵标目 纵标目位于标目线的上端,是被
说明事物的宾语,一般是绝对数或统计指标。
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 643 页
? 3.线条 线条应尽量减少,除顶线、标目线、
合计线和底线外,其余线条均可省略。特别是
表的左上角的斜线和两侧的边线应一律不用 。
? 4.数字 表内的数字一律用阿位伯数字,同一
指标位数要对齐,小数点的位数要一致,一般
保留 1~ 2位小数。无数字的空格用, —,表示,
暂缺或未记录用, …” 表示。
? 5.备注 表内不应有其他文字出现,需要说明
的备注用, *” 号标出,写在表的底线下面。
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 644 页
二、统计表的种类
? 1.简单表 只按一个特征或标志分组的统计表称
为简单表 。 如表 12-1。
? 2.复合表 按两个或两上以上特征或标志结合起
来分组的统计表称复合表或组合表。
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 645 页
? 表 12-1 某地某年流行性脑脊髓炎各病型的病死率
病 型 病人数 死亡人数 病死率( % )
菌血型 59 4 6.78
脑 型 778 48 6.17
784 29 4.97 混合型
合 计 1621 91 5.61
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 646 页
轻 中 重
病死率 病人数 病死率 病人数 病死率
病 型
病人数 死亡
人数 ( % )
死亡
人数 ( % )
死亡
人数 ( % )
菌血型 25 0 0.00 27 0 0.00 7 4 54.14
脑 型 428 2 0.47 224 11 4.91 126 35 27.78
373 1 0.26 241 7 2.90 17 0 31 18.23 混合型
合 计 826 3 0.36 492 18 3.65 303 70 23.10
表 12-2 某地 1995年流行性脑脊髓膜炎不同病型病死率与病情轻重的关系
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 647 页
第二节 统计图
? 统计图 有多种,医学研究工作中常用的统计图
有,
? 直条图、百分直条图、圆形图、线图、半对数
线图、直方图、散点图、箱式图和统计地图等 。
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 648 页
1.根据资料性质和分析的目的,
正确选择合适的图型。
?间断性资料,
( 1)直条图、箱式图 —— 比较各个相互独立的
样本指标 。
( 2)圆形图、百分直条图 —— 表示各组成部分
或各构成部分的情况 。
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 649 页
? 连续性资料
? 线图 —— ① 表示数量随时间的变迁;②表示某
种现象随另一种现象而变迁 。
? 半对数线图 —— 比较两个或几个率的变化速度
? 直方图 —— 表示变量的频数分布。
? 地域性资料,
? 统计地图:表示某种事物的地理分布 。
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 650 页
? 2.每图应有标题,其要求与统计表相同,一般
放在图下方正中。
? 3.纵横两轴应有标目 并注明单位。
?横标目,一般表示主语,如疾病名称、发病时
间、年龄组等,尺度自左向右;
?纵标目,表示宾语,一般表示频数、比或率,
尺度自下而上,一般需从零开始,由小到大。
?纵横两轴 长宽比例 一般为 5:7为宜。
?4.若图中用不同颜色或线条代表不同事物,则
须在图中加以说明。
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 651 页
二、常用统计图及其绘制方法
? 1,直条图( bar graph)
? 它是以等宽直条的长短来表示各指标的数值,
用来表示各相互独立指标之间的对比关系。直
条图有 单式直条图 (见图 12-1),复式直条图
(见图 12-2)两种。
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 652 页
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 653 页
? 2,圆形图( pie graph)
? 圆形图是以圆面积为 100%,圆内各扇形面积为
各部分所占的百分比,用来表示总体各组成部
分的构成比。如图 12-3。
? 圆面积的百分之一相当于 3.6°, 将资料各
部分所占的百分数乘以 3.6° 即得各部分应占
的度数 。
? 圆内各部分按百分比的大小顺序或按事物自
然顺序排列, 一般以时钟 12点或 9点的位置作
始点, 顺时针方向排列 。
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 654 页
图 12-3 1996年我国农村居民主要疾病的死因构成比
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 655 页
? 3,百分直条图( percent bar graph)
亦称构成直条图,其作用和适用范围
与圆形图是相同的。它只是以一直条
的面积为 100%,直条内各段的面积为
相应部分所占的百分比。见图 12-4。
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 656 页
图 12-4 某地 1983年五种主要死因构
成
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 657 页
? 4,线图( line graph)
它是用线段的上升、下降来说明某事物
在时间上的发展变化的趋势,或某现象
随另一现象变迁的情况。如图 12-5,适
用于连续性资料。
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 658 页
图 12-5 某市市区人口各年度出生率( 1‰ )、死亡率
(1‰ )、自然增加率 (1‰ )
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 659 页
? 5.半对数线图 ( semilogarithmic line
graph)
它是纵轴为对数尺度, 横轴为算术尺度的
线图 。 由于同样的增长速度在对数尺度
上的距离是相等的, 因此便于两事物或
两种以上事物在发展速度上的对比 。 如
图 12-6。
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 660 页
图 12-6 某市市区各年度急性传染病、肺结核死亡率
(1/10万 )
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 661 页
? 6,直方图( histogram)
直方图是以各矩形的面积表示各组段的频数,
各矩形面积的总和为总频数,适用于表示连续
性资料的频数分布。
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 662 页
图 12-7 某市某年乙脑患者的年龄分布(正确图)
图 12-8 某市某年乙脑患者的年龄分布(错误图)
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 663 页
? 7,散点图 ( scatter diagram)
? 散点图是用点的密集程度和趋势表示两现象
间的相关关系 。 见第九章 。
?,箱式图 (box plot)
? 常用于反映几组数据的变化情况并进行直观比
较分析, 如图 12-9。 以, 箱子, 上端为 P75,下
端为 P25,中间以横线示 P50,最大值, 最小值
为, 箱子, 上下两个柄, 用于数据直观比较分
析 。
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 664 页
图 12-9 抑肿瘤药不同剂量组与对照组用药后小白鼠肿
瘤重量的比较
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 665 页
? 9,统计地图( statistical map)
? 统计地图是用点、线、颜色、形象
或其他符号绘制于地图上,以表示
某种事物的地理分布情况。
结束 返回章目录 返回总目录
共 666页
C,CHENG
第 12章统计表与统计图 第 666 页
THANK YOU FOR LISTENING