医 学 统 计 学基础医学院统计与预防医学教研室陈全良绪论 第 1章第一篇 基本统计方法 第 2~第 10章第二篇 高级统计方法 第 11~第 24章第三篇 医学科学研究设计 第 25~第 28章第四篇 数据处理与统计软件应用 第 29~第 33章第一章 绪论概述
统计学 (statistics):
统计学是一门研究数据 (资料 )的 搜 集、整理、
和分析的普遍原理和方法的学科。
医学统计学 (medical statistics ):
医学统计学是运用概率论和数理统计等数学的原理和方法,研究医学现象中数据 (资料 )的搜 集、整理、和分析的一门应用性学科。
统计学是对令人困惑费解的问题做出数学设想的艺术。
医学统计学是处理医学资料中的同质性和变异性的科学与技术。
戴维 ·弗莱德曼:
统计学的一般作用,
通过适当的 重复观察,对事物所表现的带有偶然性的数量现象进行分析,从而了解和掌握事物内在的、带有必然性的质量规律。
通过事物数量上的 比较,判断事物有无质量上的区别。
数量 → 质量现象 → 本质偶然性 → 必然性
学习医学统计学的目的:
使大家具备新的推理思维,学会从不确定性和概率的角度去考虑问题;
学会结合专业问题合理设计,通过精细的观察获得可靠、准确的资料;
学会正确运用统计方法充分挖掘资料中隐含的信息,并能恰如其分地作出理性概括,写成具有一定学术水平的研究报告或科学论文;
提高自身的科研素养。
如何学好统学?
不缺课,认真听讲,做好笔记,课后复习,
认真完成作业。
学习重点放在统计学的基本概念,统计方法的思想及其应用,对公式的来源及其推导不必追究。
学习统计学应注意:
1.统计学只能认识规律而不能创造规律。
2.学习医学统计学应以医学理论作为指导。
1.总体 (population)是根据研究目的所确定的 同质观察单位全体。
同质,性质相同的事物称为同质性 ( homogeneity)
即具有某些相同特征(影响观察指标的主要因素相同)。
同质具有相对性。
一、总体与样本:
第一节 统计学的几个基本概念统计学分析的最终目的就是区别事物的同质性或异质性 ( heterogeneity) !
观察单位是统计研究中的基本单位,亦称 个体 。
总体又可理解为某种 观察值 (变量值)的集合。
总体又可分为有限总体和无限总体。
2,样本 (sample)是从总体中随机抽取的一部分个体所组成的整体。
研究样本的目的是推断总体。
样本必须具有 代表性 和 可靠性,因此抽样必须遵循 随机化 原则,同时样本 含量必须足够大 。
样本含量是指样本中被研究对象例数的多少,
常以 n 表示。
总体样本 2
样本 3 样本 4
样本 5
……
……
个体推论随机化抽样样本参数 ( parameter):
根据总体分布的特征而计算的 总体指标 称为,一般用小写希腊字母表示,如 表示总体均数,表示总体率,表示总体标准差。
统计量 (statistics variable):
根据 样本 而计算的相应 指标,一般用拉丁字母表示,如 表示样本均数,s表示样本标准差,p代表样本率。假设检验中的 u,t,F,等称为检验统计量。
x
2?

二、变量与资料
1.变量 (variable):
观察单位的特征、指标或某种现象称为变量,能表现观察单位的变异性。
变异 ( variation)是指同质事物间存在的差异。
,没有变异就没有统计学,
变量的取值称为变量值(观察值)。
变量值可是定量的也可以是定性的。
变量可分为数值变量、分类变量和等级变量。
数值变量,
是指可用带有度量衡单位的数值来描述的变量,如:年龄、身高、体重、血压等。
分类变量,
是指用性质、类别或来表示的变量,如:性别、血型、疾病、疗效(有效或无效)等。
等级变量,
是指用等级来表示的变量,如:文化程度、疗效等级等。
2.统计资料(统计数据)的类型
( 1) 计量资料 ( measurement data):
计量资料又称测量资料、数值变量资料或定量变量资料,一般是指用定量的方法,测定观察单位某项指标,用带有度量衡单位的数值表示所形成的资料。又可分为:
连续型,如身高值( cm)、体重值 (kg)等。
离散型,某地某年某病的病例数、
某年某医院某病的病死例数等。
( 2) 计数资料,
计数资料又称定性变量资料、名义变量资料或无序分类变量资料,指将观察单位按某种属性和类别 分组 后,清点出各组观察单位的 例数 所得资料 。
分类变量资料又可分为二项分类变量资料
(如男性和女性的病例数)和多项分类变量资料
(如各种血型的例数)。
( 3) 等级 变量资料:
又称有序变量资料或 半定量 资料。指将观察单位按某种等级 分组 后,清点出各组观察单位的 例数 所得的资料。
如疗效等级的痊愈例数、显效例数、
好转例数、无效例数 。
4,变量资料间的转化:
根据分析需要,各类变量资料之间可以互相转化。
计量资料可以转化为计数资料或等级资料,
如将血红蛋白值按正常和异常分为两类,血压按偏低、正常和偏高分为三个等级,脉搏数可分为缓脉、正常和速脉。
计数资料或等级资料也可以转化为计量资料,
如将男女定为 0和 1,轻、中、重定为 1,2,3。
三,误差( error)
误差泛指测得值与真值之差
1.随机误差:是一类不恒定的、随机变化的误差,
是由多种无法控制的因素引起的。
( 1)随机测量误差:是指对同一对象进行 多次测定 结果间的差异。
( 2) 抽样误差( sampling error) 是指由于变异的存在,在抽样过程中产生的样本指标和总体指标之间的差异,或来自同一总体的样本指标之间的差异。
总体指标 样本指标 2
样本指标 3
样本指标 4
样本指标 5
……….
……….
随机化抽样 样本指标 1
随机误差是 难以避免 的,但具有一定 规律,
可以采用统计 指标 衡量其大小,并可进行相应的 分析 。
例如抽样误差可用标准误衡量其大小,分析时可以进行总体指标的估计和假设检验。
2.系统误差:
实验过程中产生的误差,原因可知,恒定或有一定规律。
通过周密的研究设计和严格的技术措施加以消除或控制。
3.非系统误差(过失误差)
人为原因,误差较大,严格杜绝。
1.频率 (frequency):
指某随机事件出现的次数(频数,用 f 表示)与重复观察次数(用 n表示)之 比值 。即
p = f / n
频率的稳定性,
当观察次数不断增加,频率会在某一常数左右摆动,称为频率的稳定性。
四、频率与概率历史上著名的投掷硬币试验试验者 投币次数 正面朝上频数 频率德莫根 2048 1061 0.5081
浦丰 4040 2048 0.5069
皮尔逊 12000 6019 0.5016
皮尔逊 24000 12012 0.5005
2,概率( probability)
(1)概率的定义:
①概率的统计定义是将 稳定的频率 当作概率,用 P
表示。
②概率的古典定义,
某种随机现象具有:
a.等可能性 ( n种结果出现机会均等);
b.完备性 (至少出现一种结果);
c.互不相容性 (只能出现一种结果),
则在一次试验中某种结果出现的概率为 1/n。
例如:从一副 52张扑克牌中随机抽取 1张,
其为红心的概率是 1/4,为 A的概率为 1/13。
⑵概率的运算:
乘法法则,几个独立事件同时发生的概率,等于各独立事件的发生概率之积。
加法法则,互不相容事件和的概率等于各事件的发生概率之和。
思考:
从一副 52张扑克牌中随机抽取 4张,
其中红心有 0张,1张,2张,3张,4张红心的概率分别是多少?
4
3
22
3
4
4
1
)4(
4
3
4
1
4)3(
4
3
4
1
6)2(
4
3
4
1
4)1(
4
3
)0(



P
P
P
P
P
随机事件的概率取值介于 0~1之间,概率越接近 1,表示某事件发生的可能性越大;越接近 0,表示某事件发生的可能性越小。
概率与频率都是反映某一事件发生 可能性大小的量。
频率是 实际 发生的,具有 偶然性 ;
概率是 理论 上的,具有 必然性 。
五、小概率事件和小概率原理:
小概率事件,
发生概率很小的随机事件,一般是指发生概率 ≤0.05的事件。
小概率原理,
小概率事件在一次实验中是不会发生的。
第二节 医学统计工作的基本步骤
1,统计设计,
统计设计是科研设计的一部分,主要针对统计工作的全过程,事先经过周密的考虑,作出详细的安排。
实验研究设计,动物实验设计,临床试验设计。
调查研究设计,病例对照研究设计,队列研究设计。
设计内容主要包括:搜集何种资料,如何搜集资料,如何整理和分析资料,对照的设立、实验设计类型、抽样或分组方法、研究对象的数量、实验误差的控制等等。
( 1)实验研究设计:
①明确实验目的;
②确定研究因素及对照;
③确定实验方法及方式(实验因素的实施);
④确定实验对象及其数量和随机化分组方法;
⑤设计实验效应指标和观察表;
⑥确定统计设计类型(比较类型);
⑦确定资料的整理和分析处理方法。
统计设计的内容:
( 2)调查研究设计:
①明确调查目的;
②确定研究因素及对照;
③确定调查方法及方式;
④确定调查对象及其数量和随机化抽样方法;
⑤设计调查项目和调查表;
⑥确定资料的整理和分析处理方法。
2,搜集资料,
医学资料的来源有:调查和实验研究资料日常工作记录,统计报表,以及统计年鉴和统计数据专集等。
搜集资料应做到认真负责,实事求是,保证原始资料的质量。
3,整理资料:
对原始资料进行科学的加工,使资料净化、系统化和条理化,便于进一步的分析。
首先对原始资料的完整性和准确性进行检查(如极端值的发现和处理),然后进行分组(数量分组、属性分组和等级分组 )和归组,最后清点出各组例数并编制整理表。
某地 101名正常成年女子血清总胆固醇( mmol/L)结果
2.35 4.21 3.32 5.35 4.17 4.13 2.78 4.26 3.58 4.34 4.84 4.41
4.78 3.95 3.92 3.58 3.66 4.28 3.26 3.50 2.70 4.61 4.75 2.91
3.91 4.59 4.19 3.68 4.52 4.91 3.18 3.68 4.83 3.87 3.95 3.91
4.15 4.55 4.80 3.41 4.12 3.95 5.08 4.53 3.92 3.58 5.35 3.84
3.60 3.51 4.06 3.07 3.55 4.23 3.57 4.83 3.52 3.84 4.50 3.96
4.50 3.27 4.52 3.19 4.59 3.75 3.98 2.13 4.26 3.63 3.87 5.71
3.30 4.73 4.17 5.13 3.78 4.57 3.80 3.93 3.78 3.99 4.48 4.28
4.06 5.26 5.25 3.98 5.03 3.51 3.86 3.02 3.70 4.33 3.92 3.25
4.15 4.36 4.95 3.00 3.26
表 2-1 某单位 101名正常成年女子血清胆固醇( mmol/L)分布组段 频数 频率(%) 累计频数 累计频率(%)
2.30~ 1 0.99 1 0.99
2.60~ 3 2.97 4 3.96
2.92~ 6 5.94 10 9.90
3.20~ 8 7.92 18 17.82
3.50~ 17 16.83 35 34.65
3.80~ 20 19.80 55 54.46
4.10~ 17 16.83 72 71.29
4.40~ 12 11.88 84 83.17
4.70~ 9 8.91 93 92.08
5.00~ 5 4.95 98 97.03
5.30~ 2 1.98 100 99.01
5.60~ 5.90 1 0.99 101 100.00
合 计 101 100.00 —— ——
表 2-2 某医院 1123名产后出血孕妇的人流次数分布人流次数 产后出血人数 累计频数 累计频率(%)
0 402 402 35.80
1 330 732 65.18
2 232 964 85.84
3 118 1082 96.35
4 27 1109 98.75
5 11 1120 99.73
6 3 1123 100.00
合计 1123 —— ——
离散型数值变量频数表
4,分析资料:
分析资料分为统计描述和统计推断。
统计描述包括统计指标的计算和统计图表的绘制。
统计推断包括参数估计和假设检验。
1)统计指标
①平均值:算术均数、几何均数、中位数等。
②变异值:方差、标准差、变异系数、标准误等。
③绝对值:各类研究对象经清点后所得例数。
④相对值:率、构成比、相对比、动态数列等。
⑤相关值:相关系数、回归系数等。
⑥区间值:医学正常值(参考值)范围。
⑦综合值:半数致死量 ( LD50),相对危险度 ( RR)。
2)统计推断
①参数估计,通过样本统计量,考虑抽样误差的大小,并以一定的可信度(正确率)估计总体指标。
②假设检验:
针对分析的目的和资料的情况,先作出某种假设,然后对假设的成立与否进行检验。
针对分析的目的可以分为:差别性检验、一致性检验、均衡性检验、拟合优度检验、正态性检验、方差齐性检验等。
第三节 统计学的发展简史古典统计学,17世纪中叶计数活动 国情的描述近代统计学,18世纪后叶描述性统计 大样本研究现代统计学,20世纪初推断性统计 小样本研究统计软件时代:多因素分析时代结束