00级七年制,医学统计学,制作:宇传华医学统计学
( Medical Statistics)
00级七年制,医学统计学,制作:宇传华第一章 绪论
Charpter1,Introduction
2009年 7月 28日第四军医大学卫生统计学教研室第一节 统计学与医学统计学方法统计学 是 收集,分析,解释 与 呈现 数据资料的一门科学。
Statistics:,a science dealing
with the collection,analysis,
interpretation and presentation of
masses of numerical data”
----Webster 国际大辞典
2009年 7月 28日第四军医大学卫生统计学教研室收集数据,实验设计、调查设计 (8,9)
分析数据,统计学描述 (2)、统计学推断
(3~7;10)
解释数据,根据专业等解释统计结果 (穿插各个章节 )
呈现结果,向杂志社、上级部门发表结果 (12)
2009年 7月 28日第四军医大学卫生统计学教研室统计工作的 基本 步骤
1,统计设计,包括调查、实验设计。
2,收集资料,取得准确可靠的原始资料
3,整理资料,对资料进行清理、改错,数量化
4,分析资料,统计描述、统计推断
2009年 7月 28日第四军医大学卫生统计学教研室医学统计学用统计学原理和方法研究医学问题
2009年 7月 28日第四军医大学卫生统计学教研室第二节 数据类型
1,计量资料
2,计数资料
3,等级资料
4,三类资料间关系
2009年 7月 28日第四军医大学卫生统计学教研室住院号 年龄 身高 体重 住院天数 职业 文化程度 分娩方式 妊娠结局
2025655 27 165 71.5 5 无 中学 顺产 足月
2025653 22 160 74.0 5 无 小学 助产 足月
2025830 25 158 68.0 6 管理员 大学 顺产 足月
2022543 23 161 69.0 5 无 中学 剖宫产 足月
2022466 25 159 62.0 11 商业 中学 剖宫产 足月
2024535 27 157 68.0 2 无 小学 顺产 早产
2025834 20 158 66.0 4 无 中学 助产 早产
2019464 24 158 70.5 3 无 中学 助产 足月
2025783 29 154 57.0 7 干部 中学 剖宫产 足月观察单位
observations
个体 individuals
变量
variables
Quantitative data
计量资料
Qualitative data
计数资料
Units; elements
2009年 7月 28日第四军医大学卫生统计学教研室
1,计量资料用仪器、工具等 测量 (measure) 方法获得的数据,即为 计量资料 measurment data。也叫定量数据 Quantitative data
特点,有计量单位,如患者的身高( cm)、
体重( kg)、血压( mmHg)、脉搏(次 /分
)、红细胞计数( 1012 /L)
2009年 7月 28日第四军医大学卫生统计学教研室
2,计数资料按某种属性分类,然后清点每类的数据,称 计数资料 ( count data)或
enumeration data。 也叫 定性数据
Qualitative data
特点,无固有计量单位,如肤色(黑、
白)、血型( ABO)、职业(工农兵)、性别(男女)
2009年 7月 28日第四军医大学卫生统计学教研室
3,等级资料 Rank data
半定性或半定量的观察结果。有大小顺序,所以也叫 有序分类资料 ( ordinal
category data)。
①癌症分期:早、中、晚。
②药物疗效:治愈、好转、无效、死亡。
③尿蛋白,?,?,?,++,+++及以上
2009年 7月 28日第四军医大学卫生统计学教研室实例数据 1
3¨?ü °1 °? 2μ ±ê
±′ ·? D? ±e?ê á? £¨?ê £? ° 2ˉ ±ì ′è 2ú μ? 3a ò? P C N A?μ êy éú 2? ê± 1? ( )
£¨ 1 £? £¨ 2 £? £¨ 3 £? £¨ 4 £? £¨ 5 £? £¨ 6 £? £¨ 7 £? £¨ 8 £? £¨ 9 £?
1?D 61 é? 3í 2ˉ ¢ò D? 52 14
2 58?D μ? 2ˉ ¢? òó D? 89 20
3 63 é? μ? 2ˉ ¢ò òó D? 93 19
4 71D 2ˉ ¢ò D? 78 5
5?D 59 é? μ? 2ˉ ¢? òó D? 85 35
-?-?-?-?-?-?-?-?-
2009年 7月 28日第四军医大学卫生统计学教研室
ì×?μ êy éí μ? °′ àí ′ˉ ′è oò ±ì ′è Dê êè 2ê èà ê2 êó êD 2? 1ò 3? ê2
£¨ 1 £? £¨ 2 £? £¨ 3 £? £¨ 4 £? £¨ 5 £? £¨ 6 £? £¨ 7 £? £¨ 8 £? £¨ 9 £? £¨ 10 £?
12,24 1,62 1 1 3 70 1 146 90 óD
16,47 1,63 3 1 3 72 0 1 10 70?T
15,19 1,64 1 2 2 72 0 100 70?T
15,59 1,63 1 1 3 84 1 1 14 70?T
12,60 1,64 3 1 3 68 1 1 16 68?T
-?-?-?-?-?-?-?-?-?-
实例数据 2
2009年 7月 28日第四军医大学卫生统计学教研室
4,三类资料间关系例:一组 20?40岁成年人的血压以 12kPa为界分为正常与异常两组,统计每组例数
<8 低血压
8? 正常血压
12? 轻度高血压
15? 中度高血压
17? 重度高血压计量资料等级资料 计数资料
2009年 7月 28日第四军医大学卫生统计学教研室第三节 统计学基本概念
1,随机变量及其分类
2,同质与变异
3,总体与样本
4,参数与统计量
5,误差
6,概率
2009年 7月 28日
1,随机变量 (random variable)
简称 变量 ( variable)
,统计上习惯用大写拉丁字母表示,如 X
,Y,Z,… 。
变量值 习惯 用小写拉丁字母表示,如性别
x1= 1 (男),x2 = 1
(男),x3 = 0 (女)
,… 。
编号
( ID)
性别
( X)
体重
( kg)
( Y)
疗效
( Z)
张 1 1 66 0
李 2 1 78 1
王 3 0 57 2
… … … …
2009年 7月 28日随机变量的分类离散型变量 ( discrete variable),相当于计数资料连续性变量 ( continuous variable),相当于计量资料有序变量 ( ordinal variable),相当于等级资料
2009年 7月 28日
2,同质与变异
homogeneity and variation
同质:指事物的性质、影响条件或背景相同或非常相近。
变异,指同质的个体之间的差异 。
2009年 7月 28日同质与变异的例子
例 1 调查 2003年西安市 7岁男童的身高和体重同质,2003年、西安市,7岁男童变异,身高和体重各不相同
例 2 研究某降压药的疗效同质,高血压患者、用某药治疗变异,疗效各不相同
2009年 7月 28日表 1-1 120名正常成年男子红细胞计数值 (1012/L)
5.12 5.13 4.58 4.31 4.09 4.41 4.33 4.58 4.24 5.45 4.32 4.84
4.91 5.14 5.25 4.89 4.79 4.90 5.09 4.64 5.14 5.46 4.66 4.20
4.21 3.73 5.17 5.79 5.46 4.49 4.85 5.28 4.78 4.32 4.94 5.21
4.68 5.09 4.68 4.91 5.13 5.26 3.84 4.17 4.56 3.52 6.00 4.05
4.92 4.87 4.28 4.46 5.03 5.69 5.25 4.56 5.53 4.58 4.86 4.97
4.70 4.28 4.37 5.33 4.78 4.75 5.39 5.27 4.89 6.18 4.13 5.22
4.44 4.13 4.43 4.02 5.86 5.12 5.36 3.86 4.68 5.48 5.31 4.53
4.83 4.11 3.29 4.18 4.13 4.06 3.42 4.68 4.52 5.19 3.70 5.51
4.64 4.92 4.93 4.90 3.92 5.04 4.70 4.54 3.95 4.40 4.31 3.77
4.16 4.58 5.35 3.71 5.27 4.52 5.21 4.37 4.80 4.75 3.86 5.69
最大值 =6.18,最小值 =3.29,极差 =2.89
算术均数 =4.72,标准差 =0.57
2009年 7月 28日
íí 1 - 1 1 2 0 íí íí íí íí íê íí 3í
íì íí °í íí íí í± 2í íí
0
5
1 0
1 5
2 0
2 5
2,6 3,2 3,8 4,4 5,0 5,6 6,2
·ì?μ °? 1? êy ( 1 0
1 2
/ L )
3
ê
£¨%£
2009年 7月 28日第四军医大学卫生统计学教研室
3,总体与样本
population and sample
总体,根据研究目的确定的 同质 研究对象的 全体 (集合)。分有限总体与无限总体样本,从总体中随机抽取的部分观察单位
2009年 7月 28日第四军医大学卫生统计学教研室随机抽样
random sampling
为了保证样本的 可靠性 和 代表性,需要采用随机的抽样方法(在总体中每个个体具有 相同的机会 被抽到)。
2009年 7月 28日第四军医大学卫生统计学教研室
2009年 7月 28日第四军医大学卫生统计学教研室
4,参数与统计量
parameter and statistic
参数,总体 的统计指标,
如总体均数、标准差,采用希腊字母分别记为 μ,
σ 。 固定的常数总体 样本抽取部分观察单位统计量参 数 推断 inference
统计量,样本 的统计指标,如样本均数、标准差,采用拉丁字母分别记为 。 参数附近波动的随机变量 。SX、
2009年 7月 28日第四军医大学卫生统计学教研室
5,误差 error
误差,实际 观察值 与客观 真实值 之差
( 1)系统误差
( 2)随机误差
2009年 7月 28日第四军医大学卫生统计学教研室
( 1)系统误差
systematic error
在实际观测过程中,由受试对象、研究者、仪器设备、研究方法、非实验因素影响等原因造成的有一定倾向性或规律性的误差。流行病学称之为 偏倚 ( bias)。
特点:观察值有 系统性,方向性,周期性 的偏离真值。
可以通过严格的 实验设计 和 技术措施 消除 。
2009年 7月 28日第四军医大学卫生统计学教研室
( 2) 随机误差 random error
排除上述误差后尚存的误差,受多种无法控制的因素的影响。
特点:大小方向不一的随机变化。
随机测量误差 ( random measurement error)
—— 提高操作者熟练程度可以减少这种误差
随机抽样误差 ( random sampling error):
由抽样造成的样本统计量和总体参数间的差异。
—— 不可避免,但有一定的分布规律,可估计。
2009年 7月 28日第四军医大学卫生统计学教研室
6,概率 probability
确定性现象,在一定条件下,一定 会发生或一定不会发生的现象。其表现结果为两种事件:肯定发生某种结果的叫 必然事件 ;肯定不发生某种结果的叫 不可能事件 。
随机现象,在同样条件下 可能 会出现两种或多种结果,
究竟会发生哪种结果,事先不能确定。其表现结果称为 随机事件 。 随机事件的特征:① 随机性 ;② 规律性,每次发生的可能性的大小是确定的。
概率,随机事件发生的可能性大小,用大写的 P表示;取值 [0,1]。
2009年 7月 28日第四军医大学卫生统计学教研室必然事件 P= 1
不可能事件 P=0
随机事件 0<P<1
P ≤ 0.05 ( 5%)或 P ≤ 0.01 ( 1%)
称为 小概率事件 (习惯 ),统计学上认为不大可能发生。
小概率事件
2009年 7月 28日第四军医大学卫生统计学教研室样本的实际发生率称为 频率 。设在相同条件下,独立重复进行 n次试验,事件 A出现 f 次,则事件 A出现的频率为 f / n。
频率与概率间的关系:
样本频率总是围绕概率上下波动
样本含量 n越大,波动幅度越小,频率越接近概率。
频率 frequency
2009年 7月 28日第四军医大学卫生统计学教研室第四节 统计学发展及有关问题
20世纪 20年代,英国统计学家 R.A,Fisher爵士
( 1890-1962)创立了 实验设计方法和统计分析技术,奠定现代生物统计的基础。
1948年,英国发表了评价链霉素治疗肺结核疗效的 随机对照的临床试验 报告,第一次采用生物统计方法进行临床干预试验。
1948年,郭祖超 教授( 1912~1999)编著的,医学与生物统计方法,,是我国第一部医学统计方法的教科书。
2009年 7月 28日第四军医大学卫生统计学教研室
1,实例
遗传学家 F,Galton 爵士( 1822-1911)
对上千家庭父亲身高和儿子身高的观察发现遗传的“回归”现象
1960年英国医生 Doll,Hill等发现吸烟与肺癌有关
2009年 7月 28日第四军医大学卫生统计学教研室
2,医学论文中的统计学问题
60年代到 80年代,国外医学杂志调查结果:
有统计错误的论文 20%~72%。
1996年对 4586篇论文统计(中华医学会系列杂志占 6.9%),数据分析方法误用达
55.7%。
2009年 7月 28日第四军医大学卫生统计学教研室
3,伪造统计数据违反科学道德
1976年 New Science 杂志关于科研舞弊行为的调查
( 1) 74%的调查表反映有不正当修改数据的情况
( 2) 17%拼凑实验结果
( 3) 7%凭空捏造数据
( 4) 2%故意曲解结果
2009年 7月 28日第四军医大学卫生统计学教研室
Fancy statistical methods cannot rescue
garbage data
Fancy statistical methods can help you gain
insight into your data,over and above what
seems obvious on its face
You should always worry about whether the
sampled results are representative of the
population,and whether your sample allows
you to make inferences about the
population.
A Warning!
2009年 7月 28日第四军医大学卫生统计学教研室
2,某年级甲班、乙班各有男生 50人。从两个班各抽取 10人测量身高,如果甲班的平均身高大于乙班,能否推论甲班所有同学的平均身高也大于乙班?为什么?
3.用 A,B两种药物分别治疗一批患者。
如果 A药的治愈率高于 B药,证明 A药的疗效优于 B药。这种说法对吗?为什么?
4.既然 观察对比 不可避免地存在偏倚,为什么不能用 干预试验 取代观察对比?
思考题
2009年 7月 28日
THE END