上一页 下一页湘潭大学数学与计算科学学院 1
第二章 统计量与抽样分布
§ 2.1 基本概念
上一页 下一页湘潭大学数学与计算科学学院 2
数理统计的特点是应用面广,分支
较多, 社会的发展不断向统计提出新的
问题,
计算机的诞生与发展,为数据处理
提供了强有力的技术支持,数理统计与
计算机的结合是必然的发展趋势,
上一页 下一页湘潭大学数学与计算科学学院 3
由于学时有限,课程的的这部分内
容重点在于介绍数理统计的一些重要概
念和典型的统计方法,它们是实际中最
常用的知识,
上一页 下一页湘潭大学数学与计算科学学院 4
学习统计无须把过多时间化在计算
上,可以更有效地把时间用在基本概
念、方法原理的正确理解上, 国内外
著名的统计软件包,SAS,SPSS,
STAT等,都可以让你快速、简便地进
行数据处理和分析,
配合教学编制的教学软件,数理统
计教学系统,,可使你根据自己的进度,
在计算机上进行学习,
上一页 下一页湘潭大学数学与计算科学学院 5
从历史的典籍中,人们不难发现许
多关于钱粮、户口、地震、水灾等等的
记载,说明人们很早就开始了统计的工
作, 但是当时的统计,只是对有关事实
的简单记录和整理,而没有在一定理论
的指导下,作出超越这些数据范围之外
的推断,
上一页 下一页湘潭大学数学与计算科学学院 6
到了十九世纪末二十世纪初,随
着近代数学和概率论的发展,才真正
诞生了数理统计学这门学科,
上一页 下一页湘潭大学数学与计算科学学院 7
数理统计学是一门应用性很强的学
科, 它是研究怎样以 有效的方式 收集、
整理和分析 带有随机性的数据,以便对
所考察的问题作出推断和预测,直至为
采取一定的决策和行动提供依据和建议,
上一页 下一页湘潭大学数学与计算科学学院 8
数理统计不同于一般的资料统计,它
更侧重于应用随机现象本身的规律性进行
资料的收集、整理和分析,
由于大量随机现象必然呈现出它的规
律性,因而从理论上讲,只要对随机现象
进行足够多次观察,被研究的随机现象的
规律性一定能清楚地呈现出来,
只允许我们对随机现象进行次数不多的观
察试验,也就是说,我们获得的只是局部
观察资料,
但客观上
上一页 下一页湘潭大学数学与计算科学学院 9
数理统计的任务就是研究怎样有效
地收集、整理、分析所获得的 有限 的资
料,对所研究的问题,尽可能地作出精
确而可靠的结论,
上一页 下一页湘潭大学数学与计算科学学院 10
由于推断是基于抽样数据,抽样数
据又不能包括研究对象的全部信息, 因
而由此获得的结论必然包含不肯定性,
在数理统计中,不是对所研究的对
象全体 (称为 总体 )进行观察,而是抽取
其中的部分 (称为 样本 )进行观察获得数
据( 抽样 ),并通过这些数据对总体进
行推断,
上一页 下一页湘潭大学数学与计算科学学院 11
下面我们以一例进行说明:
上一页 下一页湘潭大学数学与计算科学学院 12
某种子公司 A,栽种了几种类别的
鲜花,收获了大量的花籽,并把每 25粒
花籽扎成一小包出售, 一个零售商批发
了若干包,并向顾客保证:在每包 25粒
花籽中至少有 22粒将能发芽,否则的话
可免费调换另一包,
每包要是有 3粒不
发芽,马上免费退换!
每包 25粒
上一页 下一页湘潭大学数学与计算科学学院 13
每包 25粒中
至少有 22粒将
发芽
所有的包都
如此吗??
这种类型的不肯定性, 即不知道种
子公司出售的小包中可接受的比例, 它
是由于对总体的真实状态 ( 天然状态 )
无知所引起的不肯定性,
零售商面临如下两种类型的不肯定性:
(1) 他对种子公司出售的小包中可接受 ( 即至
少有 22粒花籽将发芽 ) 的包数所占比例 是
不清楚的,
AP
这是第一类不肯定性,
上一页 下一页湘潭大学数学与计算科学学院 14
(2)由于种子公司出售的花籽的货单上,这类
花籽共有一百万包,而零售商只购买了 200包,
那些包是可
接受的呢??
这就是尽管他知道了一百
万包可接受的比例,
但对他所购买的 200包,
其中可接受的比例仍旧没
有“把握”,
AP
从中购买
200包 共 100万包
因此他又面临着另一类不肯定性;
上一页 下一页湘潭大学数学与计算科学学院 15
零售商购买的 200包仍有可能“碰巧”
是从不可接受的一万包中选取的,
那些包是可
接受的呢??
即使 是 0.99,即种子
公司出售的一百万包中
有 99万包是可接受的,
AP
这样他就要损失一笔资金,
从中购买
200包 共 100万包
上一页 下一页湘潭大学数学与计算科学学院 16
这一类不肯定性是由于, 随机性, 所
引起的,
在已知 的条件下,这种不肯定性
的程度已在概率论部分作过讨论,
AP
下面我们回到第一类不肯定性:
零售商对种子公司出售的小包中可接
受 ( 即至少有 22粒花籽将发芽 ) 的包数所
占比例 是多少没有把握,
AP
上一页 下一页湘潭大学数学与计算科学学院 17
零售商能够根据试验的方法(请公司进
行发芽试验)来改善他的处境,
根据试验他能作出天然
状况 是多少的决策,
AP
这就是抽取部分种籽进行发芽试验,通过这
部分中发芽数所占比例(频率 )来对 的真
值进行推断,
AP
上一页 下一页湘潭大学数学与计算科学学院 18
(1)怎样设计试验,决定观察的数目;
(2)怎样利用试验观察的结果作出一个“好
”的推断等,
这都是数理统计所要研究的问题,
虽然他不能精确地和肯定地确定,
但可以期望获得一个 ( 在某种意义下 ) 比
较好的推断,
AP
这就涉及到
上一页 下一页湘潭大学数学与计算科学学院 19
第一个问题是怎样进行抽样,使抽得的
样本更合理,并有更好的代表性?这是抽样
方法和试验设计问题:最简单易行的是进行
随机抽样,
第二个问题是怎样从取得的样本去推断
总体?这种推断具有多大的可靠性?
这是 统计推断 问题,
本课程着重讨论第二个问题,即最常用统
计推断方法,
上一页 下一页湘潭大学数学与计算科学学院 20
概率论是数理统计的基础,而数理统
计是概率论的重要应用, 但它们是并列的
两个学科,并无从属关系,
可见,在数理统计中必然要用到概率论
的理论和方法, 因为随机抽样的结果带有随
机性,不能不把它当作随机现象来处理,
由此也可以说,
上一页 下一页湘潭大学数学与计算科学学院 21
统计方法具有“部分推断整体”的特征,
在结束本节之前,我们需要强调说明一点:
因为我们是从一小部分样本观察值去
推断该全体对象(总体)情况,即由部分
推断全体, 这里使用的推理方法是,归纳
推理,,
上一页 下一页湘潭大学数学与计算科学学院 22
这种 归纳推理 不同于数学中的“演绎推理”,
它在作出结论时,是根据所观察到的
大量个别情况,,归纳,起来所得,而不
是从一些假设、命题、已知的事实等出发,
按一定的逻辑推理去得出来的,
上一页 下一页湘潭大学数学与计算科学学院 23
例如,在几何学中要证明,等腰三角
形底角相等,只须从,等腰,这个前提出
发,运用几何公理,一步一步推出这个结
论,
而一个习惯于统计思想的人,就可能
想出这样的方法:做很多大小形状不一的
等腰三角形,实地测量其底角,看差距如
何,根据所得资料看看可否作出“底角相
等”的结论, 这样做就是归纳式的方法,
上一页 下一页湘潭大学数学与计算科学学院 24
现在要问:从局部观察要对总体下结论
有没有片面性呢?结论是否可靠?
显然这里不仅依赖于进行局部观察的
“样本”是否具有总体的代表性,也依赖
于对从这些样本得到数据的合理加工、分
析并得出论断,
上一页 下一页湘潭大学数学与计算科学学院 25
我们说, 如果这一切都建立在可靠的
科学基础上, 则对总体下结论是可能的也
是可靠的, 因为这里存在着样品 ( 随机抽
取的一个个体 ) 个性 (特殊性 ) 和总体共性
(普遍性 )之间的一种内在的, 对立统一的
辩证关系,
“每一事物内部不但包括了矛盾的特
殊性,而且包含了矛盾的普遍性,普遍
性即存在于特殊性之中,,
,矛盾论,毛泽东
上一页 下一页湘潭大学数学与计算科学学院 26
我们对每个经过合理手续选取的一个
样品也应看到它所具有的两重性:
一方面它具有特殊性,因为它毕竟是
个别观察值,不能反映总体的全面性质,
有片面性,
因而统计上往往不采用由一次抽取
的样品来下结论,
上一页 下一页湘潭大学数学与计算科学学院 27
在这个基础上再加上科学的推断方法,
对总体下的结论同样也是可靠的,
另一方面也要看到“普遍性即存在于特
殊性之中”,即每个样品的情况又必然反映
总体的一些普遍性,
当样品有一定数量时总体的普遍性是可
以得到比较真实的反映的,
上一页 下一页湘潭大学数学与计算科学学院 28
但此时还应记住毕竟是由,局部,推
断,整体,,因而仍可能犯错误,结论往往
又是在某个,可靠性水平,之下得出的,
这种矛盾的特殊性与普遍性的辩证统一
在统计学中贯穿始终,是我们应该记住的基
本思想,
上一页 下一页湘潭大学数学与计算科学学院 29
一 个统计问题总有它明确的研究对象,
1.总体

研究某批灯泡的质量
研究对象的全体称为 总体 (母体 ),
总体中每个成员称为 个体,
总体
一、总体和样本
上一页 下一页湘潭大学数学与计算科学学院 30
然而在统计研究中,人们关心总体仅仅
是关心其每个个体的一项 (或几项 )数量指标
和该数量指标在总体中的分布情况, 这时,
每个个体具有的数量指标的全体就是总体,
某批
灯泡的寿命
该批灯泡寿命的
全体就是总体
国产轿车每公里
的耗油量
国产轿车每公里耗油
量的全体就是总体
上一页 下一页湘潭大学数学与计算科学学院 31
由于每个个体的出现是随机的,所以相
应的数量指标的出现也带有随机性, 从而可
以把这种数量指标看作一个随机变量,因此
随机变量的分布就是该数量指标在总体中的
分布,
这样,总体就可以用一个随机变量
及其分布来描述,
上一页 下一页湘潭大学数学与计算科学学院 32
而 概率分布 正是刻划这种集体性质
的适当工具, 因此在理论上可以把总体
与概率分布等同起来,
从另一方面看
统计的任务,是根据从总体中抽取的
样本, 去推断总体的性质,
由于我们关心的是总体中的个体的某
项指标 (如人的身高、体重,灯泡的寿命,
汽车的耗油量 … ), 所谓总体的性质,
无非就是这些指标值的集体的性质,
上一页 下一页湘潭大学数学与计算科学学院 33
例如,研究某批灯泡的寿命时,关心的数
量指标就是寿命,那么,此总体就可以用随
机变量 X表示,或用其分布函数 F(x)表示,
某批
灯泡的寿命
总体
寿命 X可用一概
率分布来刻划
鉴于此,常用随机变量的记号
或用其分布函数表示总体, 如
说总体 X或总体 F(x),
F(x)
上一页 下一页湘潭大学数学与计算科学学院 34
类似地,在研究某地区中学生的营养状
况时,若关心的数量指标是身高和体重,我
们用 X和 Y分别表示身高和体重,那么此总体
就可用二维随机变量 (X,Y)或其联合分布函数
F(x,y)来表示,
统计中,总体这个概念
的要旨是,总体就是一个
概率分布,
上一页 下一页湘潭大学数学与计算科学学院 35
为推断总体分布及各种特征,按一定
规则从总体中抽取若干个体进行观察试验,
以获得有关总体的信息,这一抽取过程称
为, 抽样,,所抽取的部分个体称为 样本,
样本中所包含的个体数目称为样本容量,
2,样本
从国产轿车中抽 5辆
进行耗油量试验
样本容量为 5
上一页 下一页湘潭大学数学与计算科学学院 36
但是,一旦取定一组样本,得到的是
n个具体的数 (X1,X2,…,Xn),称为样本的
一次观察值,简称样本值,
样本是随机变量,
抽到哪 5辆是随机的
容量为 n的样本可以看作 n维随机变量,
上一页 下一页湘潭大学数学与计算科学学院 37
2,独立性, X1,X2,…,Xn是相互独立的随机
变量,
由于抽样的目的是为了对总体进行
统计推断,为了使抽取的样本能很好地反
映总体的信息,必须考虑抽样方法,
最常用的一种抽样方法叫作,简单随
机抽样,,它要求抽取的样本满足下面
两点,
1,代表性, X1,X2,…,Xn中每一个与所考察
的总体有相同的分布,
上一页 下一页湘潭大学数学与计算科学学院 38
由简单随机抽样得到的样本称为 简单
随机样本,它可以用与总体独立同分布的
n个相互独立的随机变量 X1,X2,…,Xn表示,
简单随机样本是应用中最常见的情
形,今后,当说到,X1,X2,…,Xn是取自某
总体的样本”时,若不特别说明,就指简
单随机样本,
若总体的分布函数为 F(x),则其简单随机
样本的联合分布函数为
F(x1) F(x2) … F(xn)
上一页 下一页湘潭大学数学与计算科学学院 39
事实上我们抽样后得到的资料都是具
体的、确定的值, 如我们从某班大学生中
抽取 10人测量身高,得到 10个数,它们是
样本取到的值而不是样本, 我们只能观察
到随机变量取的值而见不到随机变量,
3,总体、样本、样本值的关系
上一页 下一页湘潭大学数学与计算科学学院 40
总体(理论分布)

样本 样本值
统计是从手中已有的资料 --样本值,去
推断总体的情况 ---总体分布 F(x)的性质,
总体分布决定了样本取值的概率规律,
也就是样本取到样本值的规律,因而可以由
样本值去推断总体,
样本是联系二者的桥梁
上一页 下一页湘潭大学数学与计算科学学院 41
由样本值去推断总体情况, 需要对样本
值进行, 加工,, 这就要构造一些样本的
函数, 它把样本中所含的 ( 某一方面 ) 的
信息集中起来,
二、统计量和样本矩
1,统计量
这种 不含任何未知参数的样本的函数
称为统计量, 它是完全由样本决定的量,
上一页 下一页湘潭大学数学与计算科学学院 42
几个常见统计量
样本均值
样本方差
?
?
?
n
i
iXnX
1
1
?
?
?
?
?
n
i
i XXnS
1
22 )(
1
1
它反映了总体均值
的信息
它反映了总体方差
的信息
上一页 下一页湘潭大学数学与计算科学学院 43
样本 k阶原点矩
样本 k阶中心矩
?
?
?
n
i
k
ik XnA
1
1
?
?
??
n
i
k
ik XXnB
1
)(1
k=1,2,…
它反映了总体 k 阶矩
的信息
它反映了总体 k 阶
中心矩的信息
上一页 下一页湘潭大学数学与计算科学学院 44
2,经验分布函数
设总体 X 的分布函数 F ( x ) 未知,
12,,,nx x xK
为总体 X 的一个样本观察值,将它们按大小
排列为:
? ? ? ? ? ?12 nx x x? ? ?K
,令
? ?
( 1 )
( ) ( 1 )
()
0,,
,,1,2,...,1,
1,.
n k k
n
xx
k
F x x x x k n
n
xx
?
??
?
?
? ? ? ? ??
?
??
?
如 果
如 果
如 果
称 ? ?nFx 为 12,,,nx x xK的 经验分布函数,
上一页 下一页湘潭大学数学与计算科学学院 45
对任意实数 x,? ?
n
Fx 就是事件 ? ?Xx ?
出现的频率,而该事件出现的概率就是总体
X 的分布函数 F ( x ),由频率和概率的关系
知,? ?
n
Fx 可以作为未知分布函数 F ( x ) 的一
个近似,且当 n 越大时,这种近似的精确程
度越高,