第五章 数理统计的基本概念
在前四章里我们讨论了概率论的基本概念与方法,从中我们学到一条基本的道理,随机变量及其所伴随的概率分布全面描述了随机现象的统计规律性.但是在实际中,一个随机现象所服从的分布是什么概型可能完全不知道,或者由于随机现象的某些事实而知道其概型,但不知其分布函数中所含的参数.这些反而正是研究者所希望了解的,是研究的目的.
抽样:
1.抽样的概念
从全部对象中按一定方式抽取一部分对象的过程叫作抽样.
2.抽样的必要性:
⑴ 违背研究的本来目的.
⑵ 客观上对全部对象进行观测或检验是根本不可能的.
⑶ 对全部对象进行检测的成本很高,或所需时间很长,或者两者兼而有之.
⑷ 虽然根据抽样调查的数据来推断的情况必定带来误差,但在很多情况下,这种误差是可以容忍的.
统计推断:
伴随有一定概率的推断称为统计推断.
§5.1 母体与子样、经验分布函数
1.母体、个体:
我们把研究对象的全体所构成的一个集合称为母体或总体,而把组成母体的每一单元成员称为个体.
2.随机抽样:
按机会均等的原则选取一些个体进行观测或测试的过程称为随机抽样.
3.样本、容量:
假如我们抽取了n个个体,且这n个个体的某一指标为(),我们称这n个个体的指标()为一个子样或样本,n称为这个子样的容量.
4.子样空间:
容量为n的子样的观测值()可以看作一个随机试验的一个结果,它的一切可能结果的全体构成一个样本空间,称为子样空间.
5.简单随机样本:
记总体为X,总体的分布函数设为F().一个容量为n的样本()如果满足以下两个条件,则称之为简单随机样本:
⑴
⑵相互独立.
注:设母体X具有分布函数F(x),为取自这一母体的容量为n的子样, 则的联合分布函数为:
6.简单随机抽样:
可获得简单随机样本的抽样方法称为简单随机抽样.
7.经验分布函数:
⑴定义:
设是取自分布函数为F()的母体中一个简单随机样本的观测值.若把子样观测值由小到大进行排列,得到,这里
显然,是一非减左连续函数,且满足
由此可见,是一个分布函数,称作经验分布函数(或子样分布函数).
⑵性质(格里汶科关系式):
由此可见,当n相当大时,经验分布函数是母体分布函数的一个良好的近似.
§5.2 统计量及其分布
样本是总体的代表和反映,是统计推断的基本依据.但是子样所含的信息不能直接用于解决我们所要研究的问题,而需要把子样的信息进行数学上的加工使其浓缩起来,从而解决我们的问题.这在数理统计中往往通过构造一个合适的依赖于子样的函数—统计量—来达到的.
统计量:
1. 统计量的定义:
定义5.1 一个统计量是子样的一个函数,如果子样容量为n,它也就是n个随机变量的函数,并且要求这个函数是不依赖于任何未知参数的随机变量。统计量的分布称为抽样分布。
即,不含未知参数的样本的函数为统计量。
显然,统计量是随机变量的函数,因此它也是一个随机变量(或向量)。
设是一个容量为2的样本,总体分布为,其中是未知参数.则有,都是统计量,而都不是统计量.
2. 常用的统计量:
⑴样本矩:
定义5.2 设是由母体取出的容量为n的子样,则有:
原点矩:
称为k阶原点矩,k=1时称为样本均值,记为。
中心矩:
称为k阶中心矩,k=1,2,…,特别地,k=2时称为样本方差,记为.
⑵样本均值与样本方差的性质:
定理5.1设母体的分布函数F(x)具有二阶矩,即.如果是取自这一母体的一个样本,则样本均值的数学期望与方差分别为
若假设母体的原点矩和中心矩都存在,则样本方差的数学期望和方差依次为
并且样本均值与样本方差为
定理5.2 设为两个随机向量,且,其中为一个阶方阵,则有
定理5.3 设母体服从正态分布,是取自这个母体的一个子样,则服从正态分布.
定理5.4 设是正态母体的一个子样,其样本均值与样本方差分别为
则有:①相互独立;
②服从自由度为n-1的分布.
系1. 设为取自正态母体的一个子样,样本均值与样本方差分别为,则
是自由度为n-1的t-变量,它服从t(n-1)分布.
系2. 设分别是从正态母体抽取的两个子样,且相互独立.并设这两个子样的样本方差分别为. 这两个子样的样本均值分别为.于是
服从分布.
特别地,当时,则
服从分布.
系3. 设为取自正态母体的子样,为取自正态母体的子样,并且这两个子样相互独立,则随机变量
服从自由度为的分布,其中分别为这两个子样的样本均值,分别为这两个子样的样本方差,且
5.3 次序统计量及其分布
次序统计量在近代统计推断中起着重要的作用,这是由于次序统计量有一些性质不依赖于母体的分布,并且计算量很小,使用起来较方便.因此在质量管理、可靠性等方面得到广泛的应用.现在我们扼要地介绍有关次序统计量的内容.
次序统计量的概念:
定义5.3 设是取自分布函数为F(x)的母体的一个子样.表示这个子样的一组观测值.这些观测值由小到大的排列用表示,即.若其中有两个分量相等,它们先后次序的安排是可以任意的.
第i个次序统计量是上述子样的一个函数,不论子样取得怎样一组观测值,它总是取其中的为观测值.
显然,对于容量为n的子样可以得到n个次序统计量.其中称为最小次序统计量.称为最大次序统计量.
设为取自母体的一个容量为3的子样,的分布列为
现在把子样与它们所构成的次序统计量的一切可能观测值列于下表中:
由于子样取到每一组观测值的概率都等于,容易从表中看出
因此一般来说次序统计量之间是相互不独立的.
第i个次序统计量的分布:
定理5.5 设母体有密度函数f(x)>0,(这里可以设a=-,b=+),并且为取自这个母体的一个子样,则第i个次序统计量的密度函数为
例1.设母体有密度函数
并且为从取的容量为的子样的次序统计量。求的密度函数和分布函数,并且计算概率
解 母体的分布函数为
由公式得出的密度函数
对于的其他值。分布函数为
而概率
系 最大次序统计量 的密度函数为
系 最小次序统计量 的密度函数为
这两个系的证明是明显的,这里不叙述了。
下面我们同样以连续型母体分布为例考虑任何两个次序统计量 的联合分布。
定理 设母体 有密度函数 (同样可以设 )。并且 是取自这一母体的一个子样,则其任意两个次序统计量 的联合分布密度函数为
证 第 个次序统计量 落入无穷小区间 和第 个次序统计量 落入无穷小区间,这里,这一事件等价于“容量为n的子样本 中有i-1个分量落入区间内,个分量落入区间内,个分量落入区间内,而余下个分量落入区间内”.设这一事件的概率等于,据其构成的形式,由图我们见到每一个子样分量落入区间的概率为