医学统计学
( Medical Statistics)
第一章、绪论
引言:统计学的定义、研究对象
和作用
医学研究
以生物或人体为对象
研究疾病的表现
诊断、临床表现
特征、规律
药物疗效、
方法的比较
病因及预
后因素
统计学工具
研究对象结果的表现:
变异性和不确定性
决策和评价?
统计学的定义
? 统计学是运用概率论和数理统计
的原理和方法,研究数据资料的
收集, 整理, 分析 和 推断,从而
反映事物内在规律的一门学科 。
医学统计学的作用
? 统计学的研究
? 从事物同质性与变异性的数量表现
出发, 通过一定数量的观察, 对比,
分析, 揭示医学问题的规律性, 并用
以指导医学的理论和实践 。
? 统计学的作用
? 为医学研究在分析、定量评估、
预测方面提供有效的、科学的手段。
第一节 统计学的几个基本概念
一、总体与样本
? 总体 ( population):根据研究目的而
确定同质 观察单位某观察值 的全体称
为总体
? 观察单位,研究中的基本单位。
? 如:一个病人(动物、医院等)
? 某观察值,观察单位的某项指标。
? 如:血压值、疗效(有效或无效)等
了解某地 2000年全体正
常 7岁男童身高
研究
目的
总体 该地 2000年全体正常 7岁
男童 的身高值的全体
观察单位 每个 7岁男童
观察值 7岁男童身高值
根据研究目的,总体分为
? 有限总体( finite population) 。
? 有明确限定,空间、时间、人群范围
? 例如“调查某地 2000年 7岁正常男童
的身高”
? 无限总体( infinite population)。
? 无明确的限定,观察单位的总体只是
理论上存在的
? 例:“某药对 高血压患者治疗的疗效”
样本 ( sample)
? 样本:从总体中随机抽得的部分观察
单位,其观察值的集合,称为样本,
该样本中所包含的观察单位数称为该
样本的样本含量,统计常用 n表示。
? 抽样的目的, 用样本信息(特征、规
律)来推断总体特征。
二、变量与资料
? 变量,随机事件结果(结局)的取值是
事前不能确定的,简称变量,用 X表示
? 例:某药治疗某疾病的 疗效( X)指标
? 变量值,变量的测得值称为变量值或观
察值
? 例:疗效的取值:治愈, 显效, 有效,
无效
? 统计资料 (数据):由变量值构成资料。
变量的分类
? 变量在分析中的作用分类
? 1.结果反应变量( response variable ):
表示试验效应指标,如疗效、是否某
病等。
? 2.解释变量或自变量( independent
variable):与试验结果有关的变量,
如不同用药、方法,不同病情、性别、
疾病类型、年龄。
某药对 100例高血压患者治疗后临床记录
? 编号 年龄 性别 治疗组 舒张压 心电图 疗效
? X1 X2 X3 X4 X5 X6
? 1 37 男 A 11.27 正常 显效
? 2 45 女 B 12.53 正常 有效
? 3 43 男 A 10.93 异常 有效
? 4 59 女 B 14.67 异常 无效
? 。
? 100 54 男 B 16.80 正常 无效
医学资料数据的结构和表达
变量 结果测定 的类型
常见的变量(数据)在收集时有以下三
种,统计上定义为:
1.计量数据, 变量值表现为有数字大小
和单位的数据,又称计量资料,
例,身高值 (cm), 1.65,1.70 1.58 …..
住院天数(天),15,18,10…..
脉搏数(次 /分),72,66,80
脑电图波形变化率 %,29%,37%….
2,定性(分类) 数据
? 变量表现为按某属性划分的定性类别,称
为分类数据。清点各分类的个数后得到的
资料称为计数资料。
? 1.互斥的定性分类数据
? 1)两分类:如检验指标:阳性或阴性;
? 疗效:有效或无效
? 2)多分类变量( 单选)
? 血型,O A B AB
? 2.不互斥多分类变量(多选)
? 转移部位:肺,骨,淋巴结,
? 计数资料:
? 血型,O A B AB
? 人数 50 20 20 10
3,等级数据,
? 变量按变化程度大小划分得到的分类,清
点各分类的个数后得到的资料称为半计量
或等级资料。
? 例:病情分级(X 1),Ⅰ, Ⅱ, Ⅲ
? 疗效( X2):痊愈、显效、有效、无效
? 病人满意度( X3),好、中、差
? 人数 50 25 5
变量值的测量与转换
原测量 转换结果
血压( kPa) 正常、异常 正常、可疑、异常
年龄(岁) ?60岁,?60岁
优、良、中、差 9-10分,7-8分,5-6分,4-1分
三、误差与误差来源
误差( error):指测定值与真值之差
变量值有变异是统计数据的特征。
测定变量值变异的主要来源:
1.随机误差 +生物变异
2.系统误差 +(过失误差)
反映数据
的质量
随机误差
非随机误差
(系统误差)
过失误差, 如记录、操作
不规范等人为因素。
系统误差(偏倚),研究设计
的问题,如病例选择、结果测
量、仪器、方法的不一致等
原因
数据的误 差( Error)
众多微小偶然因素所引起数据
的变异,大量重复观察,随机
误差有一定规律
90mmhg
。。 。 。 。 。
85
真值 血压计测定值
系统误差
。 。 。
。 。 。
随机误差和系统误差
随机 误差
数据的随机误差类型
? 数据的随机误差类型有,
? 1.同质 的一组数据个体间的差异
? 2,在同一总体中抽样,如样本均数与总
体均数间的差异( 称为抽样误差)
? 随机误差的分布规律、大小可用统计方法
估计和分析。
?
四、概率与频率
? 概率, 一次试验中某事件( A)出现的
机会大小称为事件 A发生的概率,统计
中用 P( A)表示。
? 随机事件的概率( P)一般在 0~ 1之间
? 频率, 重复 n次试验,结果 A在 n次中出
现的比例(样本)。例:掷币事件。
? 二者的关系,
? 在 n ? ∞,频率(样本) ?概率
(总体) 。
? 用途:
? 1)医学中常用频率作为某事件概率
的估计值。
? 2)随机事件的结论来自统计推断,
统计推断是建立在概率分布的基础上。
例,HBsAg阳性与肝癌发生率的关系
? 组别 人数 肝癌人数 发生率 ‰
? HBsAg组 + 3454 40 11.58
? HBsAg组 - 19252 1 0.052
? 例:
? P(患肝癌 / HBsAg阳性) =11.58 ‰
? P(患肝癌 / HBsAg阴性) =0.052 ‰
第二节、医学统计工作的基本步骤
研究的目的
研究的
设计
收集
资料
整理
资料
分析
资料
一、统计设计简述
? (一)研究的类型
? 试验研究 观察研究
? 区别:对研究对象 对研究对象
? 施加干预因素 未施加干预因素
? 目的:了解干预的效果 了解疾病的分布、现
? 况 水平及影响因素
? 设计;实验或临床试验 调查设计
? 设计
课题研究设计的几个关键问题
? 1.目的、研究对象、方法、效应指标?
? 2.样本对总体的代表性:
? 如何获取研究对象?观察多少例数?
? 通过随机抽样原则和重复原则
? 3.如何克服众多的影响因素,分离出
研究因素对结果的效应:
? 随机分配原则、设置合理对照组、采
用统计设计方法
(二)统计设计应遵守的原则:
1、随机化原则
? 试验或实验研究
? 随机化原则:如
何将实验对象有
同等机会分配到
处理组和对照组。
? 观察性研究
? 随机化原则:
如何从总体随
机抽样得到一
个有代表性样
本 。
2、重复原则,要达到研究目的应抽取
多少个观察单位才能保证统计的检验
效能?
? 试验或实验研究
? 两组或多组比较
的样本例数的估
计公式
? 查表法估计例数
? 观察性研究
? 病例对照比较的样
本例数估计公式
? 队列研究比较的样
本例数估计公式
3、对照原则,通过与对照组的对比,得到试
验(观察)因素的效应。
? 试验或实验研究
? 对照方法有
? 空白对照, 安慰剂
对照, 标准对照,
相互对照, 自身前
后对照等 。
? 观察性研究
? 对照方法有
? 病例对照研究, ( 肺
癌病人与非肺癌对
比 ),
? 队列研究 ( 吸烟组,
不吸烟组, 危险因素
结果对比 )
? 二、资料收集 ( 要求资料的准确、完整)
? 资料来源,1.门诊、住院的记录、病历
? 2.专题调查和试验研究
? 三、资料的整理:
? 1.数据的检查、核对、录入电脑
? 2.按研究目的将数据分组、汇总
? 四、统计分析:
? 用统计指标描述数据,用统计方法分析、
推断、评价结果
本次教学安排
? 统计设计方法 本教学相应的章节
? 资料的录入、计算 统计软件教学
? 资料整理 本教学
? 资料的统计方法 理论课
? 和评价
?
统计学方法的内容
1.统计设计,如何科学、合理地安排实验
和观察性研究,以正确的方式收集数据
资料( 对象的定义、获取、分组、偏差控制) 。
2.统计描述,描述数据的基本特征和规律。
3,假设检验,对不同组间实验和观察结
果的差异作出推断。
4,事物关系测定,研究疾病与影响因素
的关系及数学模型,对疾病的预后做出
预测。
某药对 100例高血压患者治疗后临床记录
? 编号 年龄 性别 治疗组 舒张压 心电图 疗效
? X1 X2 X3 X4 X5 X6
? 1 37 男 A 11.27 正常 显效
? 2 45 女 B 12.53 正常 有效
? 3 43 男 A 10.93 异常 有效
? 4 59 女 B 14.67 异常 无效
? 。
? 100 54 男 B 16.80 正常 无效
医学资料数据的结构和表达
第二章、计量资料的统计描述
? 计量资料 的统计描述,
? 用少量的几个统计指标刻画出原始数据
的特征称为 统计描述 。
? 描述方法:
? 1.例数多时,通过频数表简化原始数据
的表达,同时描述数据的 特征 。
? 2.用统计指标 定量描述数据 特征 。
160 名正常成年女子的血清甘油三酯 / m m o l, l
-1
0.9 1 0.8 8 1.4 1 0.9 6 1.4 8 1.4 6 0.9 1 1.1 0
1.2 6 1.6 9 1.1 4 1.2 4 0.9 8 0.6 8 0.8 3 1.7 7
1.2 3 1.0 4 1.0 8 0.6 2 1.1 0 1.3 3 0.7 3 0.5 2
1.0 1 1.7 1 1.3 7 0.5 1 1.0 1 1.1 1 1.0 9 0.9 6
1.3 7 1.2 0 0.6 1 1.1 7 0.7 1 1.1 6 0.8 0 0.7 3
1.6 6 0.9 6 1.3 4 0.9 5 1.3 0 0.7 6 1.3 9 0.9 4
1.2 5 1.6 0 1.5 4 1.3 4 1.5 6 1.5 4 0.8 5 1.5 4
0.9 6 0.8 2 1.5 0 1.1 4 1.7 0 1.3 0 1.5 9 1.0 7
1.1 7 1.3 2 1.4 4 1.1 2 0.7 0 0.6 8 1.5 2 0.7 6
1.6 0 1.2 7 1.4 3 1.2 7 1.0 9 0.7 5 0.6 4 0.9 7
1.2 0 1.3 4 1.1 9 1.0 8 0.6 6 1.4 2 1.4 6 0.5 9
1.2 2 1.3 2 1.6 7 1.2 0 1.3 3 1.3 1 1.0 2 0.8 3
0.9 0 1.0 9 0.9 6 1.1 0 0.8 5 1.0 6 1.6 7 0.7 8
0.9 1 1.1 8 1.2 0 1.1 1 0.8 9 1.0 8 1.2 7 0.8 5
1.2 4 1.5 8 0.7 1 1.4 6 1.5 2 0.9 1 1.4 7 1.0 1
1.2 0 1.3 0 1.0 5 1.4 4 1.1 5 1.1 2 1.1 5 0.6 5
1.0 4 1.2 4 1.3 0 1.1 1 1.6 5 0.8 7 0.8 2 0.7 6
1.3 0 0.6 3 1.1 4 0.8 3 1.2 4 1.4 8 1.1 5 0.9 9
1.4 9 1.0 2 1.1 7 0.9 9 0.6 1 1.3 3 0.7 9 0.9 5
1.0 5 1.6 5 1.2 0 1.2 4 0.8 4 1.4 0 0.7 2 1.0 6
例,
第一节,频数分布
? 一、频数分布表:
? 将变量值化分为几个组段,清点各组
段变量值的个数,为频数表。
? 目的,了解变量值的分布情况,掌握变量
值发生的规律。
? 计量资料的频数表(表 2-1)
表 2-1 101名正常女子血清胆固醇值
组段 频数( f) f( %)
2.30~ 1 0.99
2.60~ 3 2.97
2.90~ 6 5.94
3.20~ 8 7.92
3.50~ 17 16.8
3.80~ 20 19.8
4.10~ 17 16.8
4.40~ 12 11.9
4.70~ 9 8.91
5.00~ 5 4.95
5.30~ 2 1.98
5.6-5.9 1 0.99
编制频数表的步骤
? ( 例 2-1数据,第 9页)
? 1.确定极差, 极差也称全距( R)
? R=最大值 — 最小值 =5.71-2.35=3.36
? 2.定组段数(取 8-15组)和组距:
? 3.写出组段:第 1组段取小于或等于最小值,
并以整数( 0,5或 2,4,6,8)较好。
? 4.划计并计各组频数(见表 2-1)
组距( i) =全距 /组数 =3.36/10=0.336≈0.30
三、频数表和直方图的用途(第 10页)
? 1 通过 频数表和图了解 数据的分布特
征 。
? 1) X值分布类型:偏态或正态分布
? 2) X取值情况:变量值变异范围、
集中位置。
101 ?? ?y 3£ 3é ?ê ?? 3ó ?a ?? μ¨1ì ′? 2? ?
0
5
10
15
20
25
2, 3 0 ?? 2, 9 0 ?? 3, 5 0 ?? 4, 1 0 ?? 4, 7 0 ?? 5, 3 0 ??

êy
£¨f£
?
变量值分布为正态分布
直方图:描述计量数据频数分布
?y 3£ 3é ?ê ?? 3ó ?a ?? 3a °±?? 2? ?
0
5
10
15
20
25
12 ?? 15 ?? 18 ?? 21 ?? 24 ?? 27 ?? 30 ?? 33 ?? 36 ?? 39 ?? 42 ??
45

êy
£¨f
£?
变量值为正偏态分布
表 2-2 115名正常成年女子血清转氨酶含量资料
?y 3£ è? ?a ?? ?? oì μ°°32? 2?
0
5
10
15
20
25
0 ?? 1 0 ?? 2 0 ?? 3 0 ?? 4 0 ??

êy
£¨f£
?
变量值为负偏态分布
表 2-3 101名正常人血清肌红蛋白含量资料
? 2、便于发现资料中的可疑值。
? 3、了解变量值在组段出现的频
率,作为概率的估计。
? 4、便于进一步做统计分析和处

第二节、集中趋势的描述
? 计量数据的统计描述
? 用统计指标对数据做计算,便于
准确描述和比较
? 统计指标有,1.数据集中趋势指标
? 2.数据变异程度的指标
集中趋势(平均数)指标
? 平均数指标的概念和作用
? 概念,平均数表示一组同质计量数据 集
中位置或平均水平 。
? 作用,作为一组数据代表值 ; 可用于不
同组间的比较。
? 医学中常用的平均数指标有:
? 算数均数、几何均数、中位数
一、算术均数 (Arithmetic mean)
简称均数,用 表示,
n
X
X ?? 公式适用频数为
正态或近似正态
分布的计量资料,
X
基本公式( 2-1,2-2)
加权法公式(例数多)
适用条件
1 1 2 2 3 3
1 2 3
kk
k
fXf X f X f X f X
X
f f f f f
? ? ? ?
??
? ? ? ?
?
?
表 2-1 101名正常女子血清胆固醇值
组段 组中值( X) 频数( f) fX
2.30~ 2.45 1 2.45
2.60~ 2.75 3 8.25
2.90~ 3.05 6 18.30
3.20~ 3.35 8
3.50~ 3.65 17
3.80~ 3.95 20
4.10~ 4.25 17
4.40~ 4.55 12
4.70~ 4.85 9
5.00~ 5.15 5
5.30~ 5.45 2
5.6-5.9 5.75 1
例,2-1,均数的计算
1 2, 4 5 3 2, 7 5 1 5, 7 5 4 0 9, 7 5 4, 0 6 ( m m o l /L )
1 3 1 1 0 1
X ? ? ? ? ? ?? ? ?
? ? ?
结论:某地 101名正常成年女子的血清
总胆固醇的均数为 4.06mmol/L。
2, 3 5 4, 7 8 3, 9 1 4, 0 3 ( m m o l /L )
101
X ? ? ???
直接法
加权法,式中的 X为组中值,权数为频数( f)
CASIO fx-3600计算器统计功能用法
? 步骤 键盘 说明
? 1,MOOD 3 进入 SD统计功能
? 2,SHIFT AC 清除数据
? 3,5 RUN 输入数据
? 8 RUN
? 10 RUN
? 4,SHIFT 1(数字键) 显示计算的
? 5,SHIFT 3 (数字键) 显示计算的 S
? 6,Kout 3 (数字键) 显示计算的 n
? 7,Kout 1 (数字键) 显示计算的
X
X?
2.频数表资料的输入(例表 2-3)
? 步骤 键盘 说明
? 1,MOOD 3 进入 SD统计功能
? 2,SHIFT AC 清除数据
? 3,3.35?2 RUN 输入数据
? 3.65 ?5 RUN
? 3.95 ?10 RUN
? ….
? 6.05 ?2 RUN
? 4,SHIFT 1(数字键) 显示计算的
? 5,SHIFT 3 (数字键) 显示计算的 S
X