1www.xybms.com
医学统计学
第一章 绪论
www.xybms.com 2
第一节
统计学与医学统计方法
3www.xybms.com
一.统计与统计学的定
义
www.xybms.com 4
什么是卫生统计学
? 科技的迅速发展,信息的大量产生。数据
作为信息的主要载体广泛存在。面对纷乱
复杂的数据世界我们该如何去认识,这就
要借助统计学这个工具,在混沌中发现规
律。
? 统计学就是研究数据及其存在规律的科学。
www.xybms.com 5
1.统计
? 是一种对客观现象数量方面进行的调查
研究活动 ;
? 是收集、整理、分析、推断、判断等认
识活动的总称。
? 数据汇总仅仅是统计工作的一小部分内
容。
www.xybms.com 6
2.统计学
? 作为一门学科的定义是:关
于数据收集、表达和分析的
普遍原理和方法。
www.xybms.com 7
3,医学统计学
是用统计学原理和方法研究
生物医学问题的一门学科 。 医学
统计方法在医学研究中的运用主
要有三个方面:
www.xybms.com 8
工作生活中常见的统计学问题
? 如何判断药物的疗效? (假设检验 )
? 明天是否下雨?体育彩票能否中奖?
(概率论 )
? 子女为什么象父母,其强度有多大?
(相关与回归 )
? 美国的民意测验是如何进行的? (设
计,抽样 )
? 中国的市场调查的可信性有多大?
(现场调查 )
统计学是对令人困惑费解的数字问
题做出设想的艺术。
www.xybms.com 9
① 以正确的方式收集数据, 如实验设
计, 调查设计等 。
② 描述数据的统计特征, 如数据化简,
统计指标的选择与计算, 统计结果
的表达等 。
③ 统计分析及得出正确结论, 如根据
概率分布, 对实验和观察结果存在
的 差异和关 联作出 统计推断 。
10www.xybms.com
二.统计学的发展
简史
www.xybms.com 11
? 统计计算历史:笔、纸、算盘、对数表、乘方表、
计算尺、计算器等
? 统计发展历史:德国数学家 GUASS( 1777-1855)
数字计算题,表现出极高的统计计算天赋。
? 最先提出“相关与回归”的英国人类学家 Galton,
在人类学和优生学研究中萌发的统计思想,其中
最重要的一个,whenever you can do,count。
? 小样本均数 Student-t 检验的发现者、英国生物统
计学家 Gosset( 1876-1937)为了解决 t检验的理
论和应用问题,通过使用卡片进行抽样试验和计
算统计量得出 t分布曲线,成为 Monte-Carlo计算
方法的先行者。
www.xybms.com 12
? 现代实验设计方法和统计分析技术的奠基者、英
国生物统计学家 fisher(1890-1962)在 20世纪 20年
代撰写的实验设计和统计方法专著时,因不可能
计算出所有小概率对应的 t分布和 F分布的临界值,
只好给出了 a=0.05,0.01时对应的 t分布和 F分布
的临界值表。令他未曾想到的是这种因统计计算
方法的限制而人为 i设定的两个数字,至今仍然被
许多人当作小概率的唯一数量标准。因此,
Fisher的同事、卡方检验、,Yates 校正”公式的
提出者 Yates(1902-1994) 强烈主张统计学家使用
电子计算机,并说,To be a good theoetical
statistician one must also compute,and must
therefore have the best computing aids.
20世纪 20年代,英国统计学家 R.A,Fisher爵士
( 1890-1962)创立了 实验设计方法和统计分析
技术,奠定现代生物统计的基础。
1948年,英国发表了评价链霉素治疗肺结核疗效
的 随机对照的临床试验 报告,第一次采用生物统
计方法进行临床干预试验。
1948年, 郭祖超 教授( 1912~1999)编著的, 医
学与生物统计方法,,是我国第一部医学统计方
法的教科书。
www.xybms.com 14
? 将计算机用于统计计算,主要是通过统计
软件实现 ; SAS and SPSS
1,实例
?遗传学家 F,Galton 爵士( 1822-1911)
对上千家庭父亲身高和儿子身高的观察发现
遗传的“回归”现象
?1960年英国医生 Doll,Hill等发现吸烟与
肺癌有关
2,医学论文中的统计学问题
?60年代到 80年代,国外医学杂志调查结果:
有统计错误的论文 20%~72%。
?1996年对 4586篇论文统计(中华医学会
系列杂志占 6.9%),数据分析方法误用达
55.7%。
3,伪造统计数据违反科学道德
? 1976年 New Science 杂志关于科研舞弊
行为的调查
( 1) 74%的调查表反映有不正当修改数据
的情况
( 2) 17%拼凑实验结果
( 3) 7%凭空捏造数据
( 4) 2%故意曲解结果
? Fancy statistical methods cannot rescue
garbage data
? Fancy statistical methods can help you gain
insight into your data,over and above what
seems obvious on its face
? You should always worry about whether the
sampled results are representative of the
population,and whether your sample allows
you to make inferences about the
population.
A Warning!
19www.xybms.com
1,早期
公元前 3050年古埃及人为修建
金字塔筹集建筑费, 对全国的人口
和财产进行了普查 。
历史
20www.xybms.com
2,近代
19世纪, 应用数学家为解决
赌徒们在博彩中出现的输赢概率
问题逐渐形成和发展了概率论,
从而为统计学的发展奠定了坚实
的基础 。
www.xybms.com 21
3,现代
计算机和统计软件如 SAS、
SPSS的出现 使统计学得到
了突飞猛进的发展 。
www.xybms.com 22
统计方法是建立在现代
科学方法之上,由统计学理
论指导的数据收集、表达和
分析的方法,现代科学方法
可以概括为以下几点:
www.xybms.com 23
? 问题的识别与表达 ( 发现问题, 提出问题 ) 。
? 搜集有关资料 。
? 通过归纳得出假说:因果联系及重要的模式 。
? 从假说作出演绎:进行实验或收集更多的资料 。
? 推理:结果与演绎相符, 假说得到加强, 但不
是被证明 ( 例某地区食盐与高血压的关系 ) 。
www.xybms.com 24
三.统计学的特点
? 医学+数学, 侧重医学, 淡化数学 。
? 用数量反映质量, 如平均期望寿命,
解放前为 35岁, 现在 70岁, 可反映国
家医疗卫生服务总体水平的提高 。
? 大量观察 +实验数据分析 → 可以揭
示医学规律 。
www.xybms.com 25
第二节
统计工作的基本步骤
www.xybms.com 26
1.专业设计:选题、建立假说、确定
研究对象和技术方法等 → 个性
2.统计设计:围绕专业设计确定统计
设类型、样本大小、分组方法、统计
分析指标及统计分析方法。
一、设计
www.xybms.com 27
二、收集资料
( 一 ) 资料来源
?第一手资料
① 经常性:统计报表 ( 死亡登记, 疫情
报告等 ), 工作记录 ( 病历, 化验 ) ;
② 一时性:专题调查, 实验或临床试验 。
?第二手资料:已公布的资料,如数据银行、
全国、全省卫生统计资料。
www.xybms.com 28
(二)资料要求
1.完整:观察单位及观察项目完整。
观察单位:最基本的获取数据的单元。
可以是一个体,亦可以是一个单位、家庭、
地区,一批样品,一个采样点。
www.xybms.com 29
2.准确:即真实、可靠。真实是
统计学的灵魂。
3.及时:即时限性。如人口普查
规定调查开始日期和截止日期。
www.xybms.com 30
三.整理资料
整理资料即原始数据的条理化,
系统化的过程 。 所采取的手段 → 合理
化分组, 目的 → 实现专业目标 。
? 质分组:按事物的属性或性质分组 →
分类变量;
? 量分组:按数据的大小 → 数值变量 。
www.xybms.com 31
四.分析资料
1.统计描述:用统计指标, 统计图表对
资料的数量特征及分布规律进行测定和
描述 。
2.统计推断:用样本信息推断总体特征:
① 参数估计, ② 假设检验 。
www.xybms.com 32
第三节 统计资料的类型
有三种类型的资料,计量资料,计数资料,等级
资料
基本概念,变量及变量值,研究者对每个观
察单位的某项特征进行观察和测量,这种
特征称为变量,变量的测得值叫变量值
(也叫观察值),称为资料。按变量值的
性质可将资料分为定量资料和定性资料。
www.xybms.com 33
1,计量资料
定义:通过度量衡的方法,测量每一个观察单位
的某项研究指标的量的大小,得到的一系列数据
资料。例如:体重与身高
特点:有度量衡单位
多为连续性资料
(通过测量得到)
www.xybms.com 34
? 定义:将全体观测单位按照某种性质或
特征分组,然后再分别清点各组观察单
位的个数。
? 特点:没有度量衡单位 ?
多为间断性资料
(通过枚举或记数得来)
2,计数资料
www.xybms.com 35
定义,介于计量资料和计数资料之间的一
种资料,通过半定量方法测量得到。
特点:
每一个观察单位没有确切值
各组之间有性质上的差别或程度上的 不同。
3,等级资料
www.xybms.com 36
(三)资料的转化(变量类型的转
化)
数值变量 分类变量
www.xybms.com 37
? 例如:测得 5人的 WBC( 个 /m3) 数如下,
3000 6000 5000 8000 12000 数值变量
过低 正常 正常 正常 异常 分类变量
? 若按正常 3人, 异常 2人分组 → 二分类变量
? 若按过低 1人, 正常 3人, 过高 1人分组 → 等
级资料
www.xybms.com 38
*提示:
① 多途径;
② 尽量用定量指标, 否则损失信息量;
③ 定性指标可转化为定量指标, 但较粗糙 。
www.xybms.com 39
第四节 统计学中的几个基本概念
1、变异
2、总体与样本
3、抽样方法
4、误差
5、频率与概率
www.xybms.com 40
1.变 异
同质事物 个体间的差异。
来源于一些未加控制或无法控制的甚至
不明原因的因素。
是统计学存在的基础,从本质上说,统计学
就是研究变异的科学。
www.xybms.com 41
对变异的认识:
(1)自然变异的范围是有限的,
可以度量;参差不齐的测量值,通
过大量重复观测可以显现出统计分
布规律,如表 1-1数据的变异特征至
少有以下两点:
www.xybms.com 42
① 变异的范围在 3.2~ 6.2;
② 有明显的统计分布规律, 4.7~ 5.0的
人数最多 。 根据表 1-1的数据, 统计
上还可以进一步推论出正常成年男子
红细胞计数的正常值参考范围 。
www.xybms.com 43
表 1-1 120名正常成年男子红细胞计数值
5.12 5.13 4.58 4.31 4.09 4.41 4.33 4.58 4.24 5.45 4.32 4.84
4.91 5.14 5.25 4.89 4.79 4.90 5.09 4.64 5.14 5.46 4.66 4.20
4.21 3.73 5.17 5.79 5.46 4.49 4.85 5.28 4.78 4.32 4.94 5.21
4.68 5.09 4.68 4.91 5.13 5.26 3.84 4.17 4.56 3.52 6.00 4.05
4.92 4.87 4.28 4.46 5.03 5.69 5.25 4.56 5.53 4.58 4.86 4.97
4.70 4.28 4.37 5.33 4.78 4.75 5.39 5.27 4.89 6.18 4.13 5.22
4.44 4.13 4.43 4.02 5.86 5.12 5.36 3.86 4.68 5.48 5.31 4.53
4.83 4.11 3.29 4.18 4.13 4.06 3.42 4.68 4.52 5.19 3.70 5.51
4.64 4.92 4.93 4.90 3.92 5.04 4.70 4.54 3.95 4.40 4.31 3.77
4.16 4.58 5.35 3.71 5.27 4.52 5.21 4.37 4.80 4.75 3.86 5.69
1210 /L
最大值 =6.18,最小值 =3.29,极差 =2.89。算术均数 =4.72,标准差 =0.57
www.xybms.com 44
(2)用统计的方法可以确定出所有
研究对象的变异范围, 如正常成年男
性的细胞数的范围 。 身高范围等等 。
(3)没有变异就没有统计, 变异使
统计有了用武之地 。
www.xybms.com 45
í? 1 - 1 1 2 0 ?? ?y 3£ 3é ?ê ?D 3ó ?? °? ?? êy ?±2? í?
0
5
10
15
20
25
2.6 3.2 3.8 4.4 5.0 5.6 6.2
oì ?? °? ?? êy ( 1 0
£±£2
/L)
?μ
?ê
%
www.xybms.com 46
总体:根据研究目的确定的研究对象的全体。当研究有
具体而明确的指标时,总体是指该项变量植的全体。
样本:总体中有 代表性 的一部分。
? 观察单位(个体):最基本的研究单位
? 分为有限总体和无限总体。由于调查总体的不可能性、
巨大性和没必要。对其中的一部分对象进行调查 ----
? 样本 (总体与样本的关系。举例。)
? 样本选择的原则 --??
? 样本量( sample size)
2.总体与样本 (population and sample)
population and sample
总体,根据研究目的
确定的 同质 研究对象
的 全体 (集合)。分
有限总体与无限总体
样本,从总体中随机
抽取的部分观察单位
随机抽样
random sampling
为了保证样本的 可
靠性 和 代表性,需
要采用随机的抽样
方法(在总体中每
个个体具有 相同的
机会 被抽到)。
www.xybms.com 50
3、抽样方法
选择样本的方法,概率抽样 和 非概率抽样
等概率抽样 非等概率抽样
简
单
随
机
抽
样
系
统
抽
样
分
层
抽
样
整
群
抽
样
www.xybms.com 51
4,误 差
误差,统计上所说的误差泛指测量值与真值之差,样本
指标与总体指标之差。主要有以下二种,系统误差和
随机误差(随机测量误差,抽样误差)。
(1)系统误差,指数据搜集和测量过程中由于仪器不准
确、标准不规范等原因,造成观察结果呈倾向性的偏
大或偏小,这种误差称为系统误差。
特点:具有累加性
(2).随机误差,由于一些非人为的偶然因素使得结果或大
或小,是不确定、不可预知的。
特点:随测量次数参加而减小。
www.xybms.com 52
在消除了系统误差的前提下,由于非人为的偶
然因素,对于同一样本多次测定结果不完全一样,
结果有时偏大有时偏小,没有倾向性,这种误差
叫随机测量误差。
特点:没有倾向性,多次测量计算平均值可以减
小甚至消除随机测量误差。
A,随机测量误差
www.xybms.com 53
这类误差可以通过 实验设计和技
术措施 来消除或使之减少。
观察性研究由于组间不可比性产
生的系统误差称为偏倚( bias),如
吸烟组的平均年龄大于吸烟组,两组
死亡率的差异包含年龄偏倚。
www.xybms.com 54
由于抽样原因造成的样本指标与总体指
标之间的差别。
特点:有抽样 抽样误差就不可避免。统
计上可以计算并在一定范围内控制抽样误
差。
B,抽样误差
www.xybms.com 55
( 1)改进抽样方法,增加样本的代表性。
样本量 n 相等的情况下:
整群抽样 >单纯随机抽样 >系统抽样 >分层抽样
( 2) 增加样本量 n
( 3)选择变异程度较小的研究指标
减少抽样误差的方法,
www.xybms.com 56
5,概率 (probability)与频率
? 抛一枚硬币,是否国徽面一定向上?明天的股市升还
是降?某患者痊愈的可能性?这些问题的答案都不可
能绝对。
? 概念:描述随机事件发生的可能性大小的数值,常用 P
来表示。
? 大小,P的大小在 0和 1之间,越接近于 1,说明发生的
可能性越大,越接近于 0,说明发生的可能性越小。统
计学中的许多结论是带有概率性质的,通常一个事件
的发生小于 5%,就叫小概率事件。
? 频率:在实际工作中,当观察单位的例数足够多时,
可以用频率来代替概率。频率是概率的估计值。
www.xybms.com 57
1,频率 ( frequency), 假设在相
同条件下, 独立地重复做 n次试验,
A在 n次试验中出现了 m次, 则比值
m/n称为随机事件 A在 n次试验中出现
的频率 。 当试验重复很多次时, 有
P( A) ≈ m/n ( 1-1)
www.xybms.com 58
2.概率又称为机率( probability),
是度量某一随机事件 A发生可能性大
小的一个数值,记作 P( A),0< P
( A)< 1 。
P( A)越大,A发生的可能性
越大,反之亦然。当时或时,A是必
然发生或必然不发生的非随机事件。
www.xybms.com 59
频率是就样本而言的, 而概
率从总体的意义上说的, m/n是
概率 P( A) 的估计值 。 试验次数
越多, 估计越可靠 。
www.xybms.com 60
3.小概率事件,通常认为是不
可能发生的事件。
www.xybms.com 61
如何学习统计学
(特点:灵活、抽象)
? 理解基本的统计原理
? 培养统计思维能力,抽象的,逻辑
推理
? 多练习,课堂练习,课下做习题
? 联系实际,阅读文献
工作和生活实际
? 1,某年级甲班、乙班各有男生 50人。从两
个班各抽取 10人测量身高,如果甲班的平
均身高大于乙班,能否推论甲班所有同学
的平均身高也大于乙班?为什么?
? 2.用 A,B两种药物分别治疗一批患者。
如果 A药的治愈率高于 B药,证明 A药的疗
效优于 B药。这种说法对吗?为什么?
? 3.既然 观察对比 不可避免地存在偏倚,为
什么不能用 干预试验 取代观察对比?
思考题
医学统计学
第一章 绪论
www.xybms.com 2
第一节
统计学与医学统计方法
3www.xybms.com
一.统计与统计学的定
义
www.xybms.com 4
什么是卫生统计学
? 科技的迅速发展,信息的大量产生。数据
作为信息的主要载体广泛存在。面对纷乱
复杂的数据世界我们该如何去认识,这就
要借助统计学这个工具,在混沌中发现规
律。
? 统计学就是研究数据及其存在规律的科学。
www.xybms.com 5
1.统计
? 是一种对客观现象数量方面进行的调查
研究活动 ;
? 是收集、整理、分析、推断、判断等认
识活动的总称。
? 数据汇总仅仅是统计工作的一小部分内
容。
www.xybms.com 6
2.统计学
? 作为一门学科的定义是:关
于数据收集、表达和分析的
普遍原理和方法。
www.xybms.com 7
3,医学统计学
是用统计学原理和方法研究
生物医学问题的一门学科 。 医学
统计方法在医学研究中的运用主
要有三个方面:
www.xybms.com 8
工作生活中常见的统计学问题
? 如何判断药物的疗效? (假设检验 )
? 明天是否下雨?体育彩票能否中奖?
(概率论 )
? 子女为什么象父母,其强度有多大?
(相关与回归 )
? 美国的民意测验是如何进行的? (设
计,抽样 )
? 中国的市场调查的可信性有多大?
(现场调查 )
统计学是对令人困惑费解的数字问
题做出设想的艺术。
www.xybms.com 9
① 以正确的方式收集数据, 如实验设
计, 调查设计等 。
② 描述数据的统计特征, 如数据化简,
统计指标的选择与计算, 统计结果
的表达等 。
③ 统计分析及得出正确结论, 如根据
概率分布, 对实验和观察结果存在
的 差异和关 联作出 统计推断 。
10www.xybms.com
二.统计学的发展
简史
www.xybms.com 11
? 统计计算历史:笔、纸、算盘、对数表、乘方表、
计算尺、计算器等
? 统计发展历史:德国数学家 GUASS( 1777-1855)
数字计算题,表现出极高的统计计算天赋。
? 最先提出“相关与回归”的英国人类学家 Galton,
在人类学和优生学研究中萌发的统计思想,其中
最重要的一个,whenever you can do,count。
? 小样本均数 Student-t 检验的发现者、英国生物统
计学家 Gosset( 1876-1937)为了解决 t检验的理
论和应用问题,通过使用卡片进行抽样试验和计
算统计量得出 t分布曲线,成为 Monte-Carlo计算
方法的先行者。
www.xybms.com 12
? 现代实验设计方法和统计分析技术的奠基者、英
国生物统计学家 fisher(1890-1962)在 20世纪 20年
代撰写的实验设计和统计方法专著时,因不可能
计算出所有小概率对应的 t分布和 F分布的临界值,
只好给出了 a=0.05,0.01时对应的 t分布和 F分布
的临界值表。令他未曾想到的是这种因统计计算
方法的限制而人为 i设定的两个数字,至今仍然被
许多人当作小概率的唯一数量标准。因此,
Fisher的同事、卡方检验、,Yates 校正”公式的
提出者 Yates(1902-1994) 强烈主张统计学家使用
电子计算机,并说,To be a good theoetical
statistician one must also compute,and must
therefore have the best computing aids.
20世纪 20年代,英国统计学家 R.A,Fisher爵士
( 1890-1962)创立了 实验设计方法和统计分析
技术,奠定现代生物统计的基础。
1948年,英国发表了评价链霉素治疗肺结核疗效
的 随机对照的临床试验 报告,第一次采用生物统
计方法进行临床干预试验。
1948年, 郭祖超 教授( 1912~1999)编著的, 医
学与生物统计方法,,是我国第一部医学统计方
法的教科书。
www.xybms.com 14
? 将计算机用于统计计算,主要是通过统计
软件实现 ; SAS and SPSS
1,实例
?遗传学家 F,Galton 爵士( 1822-1911)
对上千家庭父亲身高和儿子身高的观察发现
遗传的“回归”现象
?1960年英国医生 Doll,Hill等发现吸烟与
肺癌有关
2,医学论文中的统计学问题
?60年代到 80年代,国外医学杂志调查结果:
有统计错误的论文 20%~72%。
?1996年对 4586篇论文统计(中华医学会
系列杂志占 6.9%),数据分析方法误用达
55.7%。
3,伪造统计数据违反科学道德
? 1976年 New Science 杂志关于科研舞弊
行为的调查
( 1) 74%的调查表反映有不正当修改数据
的情况
( 2) 17%拼凑实验结果
( 3) 7%凭空捏造数据
( 4) 2%故意曲解结果
? Fancy statistical methods cannot rescue
garbage data
? Fancy statistical methods can help you gain
insight into your data,over and above what
seems obvious on its face
? You should always worry about whether the
sampled results are representative of the
population,and whether your sample allows
you to make inferences about the
population.
A Warning!
19www.xybms.com
1,早期
公元前 3050年古埃及人为修建
金字塔筹集建筑费, 对全国的人口
和财产进行了普查 。
历史
20www.xybms.com
2,近代
19世纪, 应用数学家为解决
赌徒们在博彩中出现的输赢概率
问题逐渐形成和发展了概率论,
从而为统计学的发展奠定了坚实
的基础 。
www.xybms.com 21
3,现代
计算机和统计软件如 SAS、
SPSS的出现 使统计学得到
了突飞猛进的发展 。
www.xybms.com 22
统计方法是建立在现代
科学方法之上,由统计学理
论指导的数据收集、表达和
分析的方法,现代科学方法
可以概括为以下几点:
www.xybms.com 23
? 问题的识别与表达 ( 发现问题, 提出问题 ) 。
? 搜集有关资料 。
? 通过归纳得出假说:因果联系及重要的模式 。
? 从假说作出演绎:进行实验或收集更多的资料 。
? 推理:结果与演绎相符, 假说得到加强, 但不
是被证明 ( 例某地区食盐与高血压的关系 ) 。
www.xybms.com 24
三.统计学的特点
? 医学+数学, 侧重医学, 淡化数学 。
? 用数量反映质量, 如平均期望寿命,
解放前为 35岁, 现在 70岁, 可反映国
家医疗卫生服务总体水平的提高 。
? 大量观察 +实验数据分析 → 可以揭
示医学规律 。
www.xybms.com 25
第二节
统计工作的基本步骤
www.xybms.com 26
1.专业设计:选题、建立假说、确定
研究对象和技术方法等 → 个性
2.统计设计:围绕专业设计确定统计
设类型、样本大小、分组方法、统计
分析指标及统计分析方法。
一、设计
www.xybms.com 27
二、收集资料
( 一 ) 资料来源
?第一手资料
① 经常性:统计报表 ( 死亡登记, 疫情
报告等 ), 工作记录 ( 病历, 化验 ) ;
② 一时性:专题调查, 实验或临床试验 。
?第二手资料:已公布的资料,如数据银行、
全国、全省卫生统计资料。
www.xybms.com 28
(二)资料要求
1.完整:观察单位及观察项目完整。
观察单位:最基本的获取数据的单元。
可以是一个体,亦可以是一个单位、家庭、
地区,一批样品,一个采样点。
www.xybms.com 29
2.准确:即真实、可靠。真实是
统计学的灵魂。
3.及时:即时限性。如人口普查
规定调查开始日期和截止日期。
www.xybms.com 30
三.整理资料
整理资料即原始数据的条理化,
系统化的过程 。 所采取的手段 → 合理
化分组, 目的 → 实现专业目标 。
? 质分组:按事物的属性或性质分组 →
分类变量;
? 量分组:按数据的大小 → 数值变量 。
www.xybms.com 31
四.分析资料
1.统计描述:用统计指标, 统计图表对
资料的数量特征及分布规律进行测定和
描述 。
2.统计推断:用样本信息推断总体特征:
① 参数估计, ② 假设检验 。
www.xybms.com 32
第三节 统计资料的类型
有三种类型的资料,计量资料,计数资料,等级
资料
基本概念,变量及变量值,研究者对每个观
察单位的某项特征进行观察和测量,这种
特征称为变量,变量的测得值叫变量值
(也叫观察值),称为资料。按变量值的
性质可将资料分为定量资料和定性资料。
www.xybms.com 33
1,计量资料
定义:通过度量衡的方法,测量每一个观察单位
的某项研究指标的量的大小,得到的一系列数据
资料。例如:体重与身高
特点:有度量衡单位
多为连续性资料
(通过测量得到)
www.xybms.com 34
? 定义:将全体观测单位按照某种性质或
特征分组,然后再分别清点各组观察单
位的个数。
? 特点:没有度量衡单位 ?
多为间断性资料
(通过枚举或记数得来)
2,计数资料
www.xybms.com 35
定义,介于计量资料和计数资料之间的一
种资料,通过半定量方法测量得到。
特点:
每一个观察单位没有确切值
各组之间有性质上的差别或程度上的 不同。
3,等级资料
www.xybms.com 36
(三)资料的转化(变量类型的转
化)
数值变量 分类变量
www.xybms.com 37
? 例如:测得 5人的 WBC( 个 /m3) 数如下,
3000 6000 5000 8000 12000 数值变量
过低 正常 正常 正常 异常 分类变量
? 若按正常 3人, 异常 2人分组 → 二分类变量
? 若按过低 1人, 正常 3人, 过高 1人分组 → 等
级资料
www.xybms.com 38
*提示:
① 多途径;
② 尽量用定量指标, 否则损失信息量;
③ 定性指标可转化为定量指标, 但较粗糙 。
www.xybms.com 39
第四节 统计学中的几个基本概念
1、变异
2、总体与样本
3、抽样方法
4、误差
5、频率与概率
www.xybms.com 40
1.变 异
同质事物 个体间的差异。
来源于一些未加控制或无法控制的甚至
不明原因的因素。
是统计学存在的基础,从本质上说,统计学
就是研究变异的科学。
www.xybms.com 41
对变异的认识:
(1)自然变异的范围是有限的,
可以度量;参差不齐的测量值,通
过大量重复观测可以显现出统计分
布规律,如表 1-1数据的变异特征至
少有以下两点:
www.xybms.com 42
① 变异的范围在 3.2~ 6.2;
② 有明显的统计分布规律, 4.7~ 5.0的
人数最多 。 根据表 1-1的数据, 统计
上还可以进一步推论出正常成年男子
红细胞计数的正常值参考范围 。
www.xybms.com 43
表 1-1 120名正常成年男子红细胞计数值
5.12 5.13 4.58 4.31 4.09 4.41 4.33 4.58 4.24 5.45 4.32 4.84
4.91 5.14 5.25 4.89 4.79 4.90 5.09 4.64 5.14 5.46 4.66 4.20
4.21 3.73 5.17 5.79 5.46 4.49 4.85 5.28 4.78 4.32 4.94 5.21
4.68 5.09 4.68 4.91 5.13 5.26 3.84 4.17 4.56 3.52 6.00 4.05
4.92 4.87 4.28 4.46 5.03 5.69 5.25 4.56 5.53 4.58 4.86 4.97
4.70 4.28 4.37 5.33 4.78 4.75 5.39 5.27 4.89 6.18 4.13 5.22
4.44 4.13 4.43 4.02 5.86 5.12 5.36 3.86 4.68 5.48 5.31 4.53
4.83 4.11 3.29 4.18 4.13 4.06 3.42 4.68 4.52 5.19 3.70 5.51
4.64 4.92 4.93 4.90 3.92 5.04 4.70 4.54 3.95 4.40 4.31 3.77
4.16 4.58 5.35 3.71 5.27 4.52 5.21 4.37 4.80 4.75 3.86 5.69
1210 /L
最大值 =6.18,最小值 =3.29,极差 =2.89。算术均数 =4.72,标准差 =0.57
www.xybms.com 44
(2)用统计的方法可以确定出所有
研究对象的变异范围, 如正常成年男
性的细胞数的范围 。 身高范围等等 。
(3)没有变异就没有统计, 变异使
统计有了用武之地 。
www.xybms.com 45
í? 1 - 1 1 2 0 ?? ?y 3£ 3é ?ê ?D 3ó ?? °? ?? êy ?±2? í?
0
5
10
15
20
25
2.6 3.2 3.8 4.4 5.0 5.6 6.2
oì ?? °? ?? êy ( 1 0
£±£2
/L)
?μ
?ê
%
www.xybms.com 46
总体:根据研究目的确定的研究对象的全体。当研究有
具体而明确的指标时,总体是指该项变量植的全体。
样本:总体中有 代表性 的一部分。
? 观察单位(个体):最基本的研究单位
? 分为有限总体和无限总体。由于调查总体的不可能性、
巨大性和没必要。对其中的一部分对象进行调查 ----
? 样本 (总体与样本的关系。举例。)
? 样本选择的原则 --??
? 样本量( sample size)
2.总体与样本 (population and sample)
population and sample
总体,根据研究目的
确定的 同质 研究对象
的 全体 (集合)。分
有限总体与无限总体
样本,从总体中随机
抽取的部分观察单位
随机抽样
random sampling
为了保证样本的 可
靠性 和 代表性,需
要采用随机的抽样
方法(在总体中每
个个体具有 相同的
机会 被抽到)。
www.xybms.com 50
3、抽样方法
选择样本的方法,概率抽样 和 非概率抽样
等概率抽样 非等概率抽样
简
单
随
机
抽
样
系
统
抽
样
分
层
抽
样
整
群
抽
样
www.xybms.com 51
4,误 差
误差,统计上所说的误差泛指测量值与真值之差,样本
指标与总体指标之差。主要有以下二种,系统误差和
随机误差(随机测量误差,抽样误差)。
(1)系统误差,指数据搜集和测量过程中由于仪器不准
确、标准不规范等原因,造成观察结果呈倾向性的偏
大或偏小,这种误差称为系统误差。
特点:具有累加性
(2).随机误差,由于一些非人为的偶然因素使得结果或大
或小,是不确定、不可预知的。
特点:随测量次数参加而减小。
www.xybms.com 52
在消除了系统误差的前提下,由于非人为的偶
然因素,对于同一样本多次测定结果不完全一样,
结果有时偏大有时偏小,没有倾向性,这种误差
叫随机测量误差。
特点:没有倾向性,多次测量计算平均值可以减
小甚至消除随机测量误差。
A,随机测量误差
www.xybms.com 53
这类误差可以通过 实验设计和技
术措施 来消除或使之减少。
观察性研究由于组间不可比性产
生的系统误差称为偏倚( bias),如
吸烟组的平均年龄大于吸烟组,两组
死亡率的差异包含年龄偏倚。
www.xybms.com 54
由于抽样原因造成的样本指标与总体指
标之间的差别。
特点:有抽样 抽样误差就不可避免。统
计上可以计算并在一定范围内控制抽样误
差。
B,抽样误差
www.xybms.com 55
( 1)改进抽样方法,增加样本的代表性。
样本量 n 相等的情况下:
整群抽样 >单纯随机抽样 >系统抽样 >分层抽样
( 2) 增加样本量 n
( 3)选择变异程度较小的研究指标
减少抽样误差的方法,
www.xybms.com 56
5,概率 (probability)与频率
? 抛一枚硬币,是否国徽面一定向上?明天的股市升还
是降?某患者痊愈的可能性?这些问题的答案都不可
能绝对。
? 概念:描述随机事件发生的可能性大小的数值,常用 P
来表示。
? 大小,P的大小在 0和 1之间,越接近于 1,说明发生的
可能性越大,越接近于 0,说明发生的可能性越小。统
计学中的许多结论是带有概率性质的,通常一个事件
的发生小于 5%,就叫小概率事件。
? 频率:在实际工作中,当观察单位的例数足够多时,
可以用频率来代替概率。频率是概率的估计值。
www.xybms.com 57
1,频率 ( frequency), 假设在相
同条件下, 独立地重复做 n次试验,
A在 n次试验中出现了 m次, 则比值
m/n称为随机事件 A在 n次试验中出现
的频率 。 当试验重复很多次时, 有
P( A) ≈ m/n ( 1-1)
www.xybms.com 58
2.概率又称为机率( probability),
是度量某一随机事件 A发生可能性大
小的一个数值,记作 P( A),0< P
( A)< 1 。
P( A)越大,A发生的可能性
越大,反之亦然。当时或时,A是必
然发生或必然不发生的非随机事件。
www.xybms.com 59
频率是就样本而言的, 而概
率从总体的意义上说的, m/n是
概率 P( A) 的估计值 。 试验次数
越多, 估计越可靠 。
www.xybms.com 60
3.小概率事件,通常认为是不
可能发生的事件。
www.xybms.com 61
如何学习统计学
(特点:灵活、抽象)
? 理解基本的统计原理
? 培养统计思维能力,抽象的,逻辑
推理
? 多练习,课堂练习,课下做习题
? 联系实际,阅读文献
工作和生活实际
? 1,某年级甲班、乙班各有男生 50人。从两
个班各抽取 10人测量身高,如果甲班的平
均身高大于乙班,能否推论甲班所有同学
的平均身高也大于乙班?为什么?
? 2.用 A,B两种药物分别治疗一批患者。
如果 A药的治愈率高于 B药,证明 A药的疗
效优于 B药。这种说法对吗?为什么?
? 3.既然 观察对比 不可避免地存在偏倚,为
什么不能用 干预试验 取代观察对比?
思考题