第五章 数理统计的基本概念
内容提要
本章主要讲述样本,总体,参数与参数空间;直方图与经验分布函数;统计量,分布,分布和分布;分位数;正态总体的抽样分布等内容.
重点分析
理解总体、个体、样本和统计量的概念。
了解直方图的作法。
掌握样本均值、样本方差的计算。
了解分布、分布、分布的定义,并会查表计算。
了解分位数的概念,并会查表计算。
了解正态总体的某些常用统计量的分布。
难点分析
统计量、分位数的概念
分布、分布、分布的定义与性质。
正态总体的抽样分布。
习题布置
习题5 (1,3,5,9)
备注
教 学 内 容 ( Contents )
Chapter Five 数理统计的基本概念(Basic Concept of Mathematical Statistics)
§5.1 样本和总体(Sample and Collectivity)
一,样本(Sample)
数理统计的研究对象是受随机性影响的数据,这些通过观察或试验得到的数据称为样本或子样(Sample),这些观察或试验过程称为抽样(Sample)。例如用同一架天平称某重物次,得到一组个数据
 (5.1)
就称它们是一个样本,其中称为样本容量。每个容量为的样本都可称为维空间的一个点,样本所有可能的取值构成了维空间的一个子集,称为样本空间(Sample space),记作.注意“数据”一词在这里是广义的。它可以是实数值,例如表示称得某重物的重量;也可以是事物的属性,例如=“正品”,(或“废品”)等等,通常为了方便研究,也常将这些属性数量化,例如用“l”表示“废品”,“0”表示“正品”,当然这不是本质的问题。有时数据也可以是一组向量,例如武器试验中给出一组弹着点的坐标

即为二维向量的一组样本,在多元统计分析中,将专门研究这种情形。对于样本需要强调两点:
a)样本并非一堆杂乱无章无规律可循的数据,它是受随机性影响的一组数据,因此,用概率论的话说,就是每个样本既可以视为一组数据,又可视为一组随机变量,这就是所谓样本的二重性。当通过一次具体的试验,得到一组观测值,这时样本表现为一组数据;但这组数据的出现并非是必然的,它只能以一定的概率(或概率密度)出现,这就是说,当考察一个统计方法是否具有某种普遍意义下的效果时,又需要将其样本视为随机变量,而一次具体试验得到的数据,则可视为随机变量的一个实现值。今后为行文方便,我们常交替使用上述两种观点来看待样本,而不去每次声明此处样本是指随机变量还是其实现值,同时一律采用记号(5.1)来表示它。
b)样本(5.1)也不是任意一组随机变量,我们要求它是一组独立同分布的随机变量。同分布就是要求样本具有代表性,独立是要求样本中各数据的出现互不影响,就是说,抽取样本时应该是在相同条件下独立重复地进行。如
Example 5.1 设一组抽奖券共10000张,其中有5张有奖。问连续抽取3张均有奖的概率为多少?
为了讨论这个问题,不妨设

要求该事件的概率,实际上即是求联合概率分布

在处的值。但题中没有说明“连续抽取”是“有放回的”还是“无放回的”,我们不妨都计算一下:
(ⅰ)无放回时:

(ⅱ)有放回时:

显然(ⅰ)中的抽样方式不是独立的,每次抽样的结果都将影响下一次抽样的分布,这种抽样不是我们通常研究的抽样。而(ⅱ)中的抽样,则是多次独立的抽样,它们是同分布的,即我们通常称为的随机抽样(Random sample)。这样得到的数据,即是我们常研究的简单随机样本(Simple random sample),或就直接称为样本。由此可以看出,对于样本(5.1),如果每个的共同分布为,则样本(5.1)的分布为
 (5.2)
相应地,若有共同概率密度,则(5.1)的概率密度为
 (5.3)
二,总体(Collectivity)
总体(Collectivity)或母体在许多教科书上通常被定义为研究对象全体的集合。其含义是,我们观察到的样本总是由某个具体事物产生,并反映该事物的特征,这时,可以把样本视为一些被抽取的该事物的个体,而将该事物本身视为所有个体的集合即总体。但这样说多少有点模糊。如在例5.1中,我们自然可以将10000张抽奖券视为总体,但如果是用一架天平去重复称同一重物,得到重物的重量,在这种事中,什么是研究对象的全体呢?因此,我们宁愿采用另一种说法,即总体是一个随机变量,它的分布即为(5.1)中每个的共同分布,或者可以看作样本容量时的样本的分布。用这个观点叙述一些问题就显得很方便,例如样本(5.1)就可视为由总体独立“拷贝”出来的同分布的个随机变量。又如
Example 5.2 用两台车床车同一批产品,分别车及件,尺寸为及这时,我们得到的样本是
, (5.4)
它们显然通常不会是同分布的,但这种样本在我们的研究中经常出现。为此我们用总体的观点,可以很方便地视它为出自两个总体,的样本。有了总体这个概念,我们就可以将统计推断的基本任务概括为由样本推断总体。如在例5.2中,我们就可以从样本(5.4)中推断出总体与是否有显著差别。关于这一基本任务,我们今后可以慢慢体会到。由于推断总体实质上是推断总体的分布,即解决一个实际统计问题,往往归结为总体分布的确定,所以我们也常称总体的分布是该问题的统计模型(Statistics model)。
三,参数与参数空间(Parameter and parameter space)
如前所述,数理统计问题的分布一般来说是未知的,需要通过样本来推断。但如果对总体绝对地一无所知,那么,所能做出的推断的可信度一般也极为有限。在很多情况下,往往是知道总体所具有的分布形式,而不知道的仅仅是分布中的参数。这在实际中是大量能见到的,因为,分布的总体形式我们往往可以通过具体的应用背景或以往的经验加以确定。
Example 5.3 考虑如何由样本的实际背景确定统计模型,即总体的分布:
(ⅰ) 样本记录随机抽取的件产品的正品、废品情况。
(ⅱ) 样本表示同一批个电子元件的寿命(小时)。
(ⅲ) 样本表示同一批件产品某一尺寸(mm)。
通过分析或经验,我们容易知道:
(ⅰ) 服从两点分布,其概率分布为=0,1,所需确定的是参数.
(ⅱ) 通常服从指数分布,其密度函数

所需确定的是参数>0.
(ⅲ) 通常服从正态分布,其密度函数

所需确定的是参数,其中,,对于每个总体,我们称其分布中参数的一切可能取值的集合为参数空间(Parameter space),记为,如在例5.3中,(ⅰ),(ⅱ),(ⅲ)。其中
今后对于统计推断,如果总体的分布为形式已知,仅对参数进行推断,我们就称之为参数推断(Parameter deduce)(估计,检验);否则,称为非参数推断(Non-parameter deduce)
§5.2 直方图与经验分布函数
(Vertical Grapy and Empirical Distribution Function)
一,直方图(Vertical Grapy)
设是总体的一个样本,又设总体具有概率密度,如何用样本来推断?注意到现在的样本是一组实数,因此,一个直观的办法是将实轴划分为若干小区间,记下诸观察值落在每个小区间中的个数,根据大数定律中频率近似概率的原理,从这些个数来推断总体在每一小区间上的密度。具体做法如下:
10 找出,。取略小于,略大于;
20 将分成个小区间,,小区间长度可以不等,设分点为

在分小区间时,注意每个小区间中都要有若干观察值,而且观察值不要落在分点上。
30 记=落在小区间中观察值的个数(频数),计算频率,列表分别记下各小区间的频数、频率。
40 在直角坐标系的横轴上,标出各点,分别以为底边,作高为的矩形,即得直方图5-1.

图5-1
实际上,我们就是用直方图对应的分段函数
来近似总体的密度函数.这样做为什么合理?我们引进“唱票随机变量”,对每个小区间,定义
则是独立同分布于两点分布:

其中,由柯尔莫哥洛夫强大数定律,我们有

以概率为1成立,于是当充分大时,就可用来近似代替上式右边以()为曲边的曲边梯形的面积,而且若充分大,较小时,我们就可用小矩形的高度来近似取代.
二,经验分布函数(Empirical distribution function)
对于总体的分布函数(未知),设有它的样本,我们同样可以从样本出发,找到一个已知量来近似它,这就是经验分布函数.它的构造方法是这样的,设诸观察值按从小到大可排成
 (5.5)
定义

只在,处有跃度为的间断点,若有个观察值相同,则在此观察值处的跃度为.对于固定的,即表示事件{}在次试验中出现的频率,即{落在中的个数}。用与直方图分析相同的方法可以论证,,以概率为1成立。经验分布函数的图形如图5-2.

图5-2
实际上,还一致地收敛于,所谓格里文科定理指出了这一更深刻的结论,即

其中.
§5.3 统计量及其分布(Statistic and Distribution)
一,统计量(Statistic)
在利用样本推断总体时,往往不能直接利用样本,而需要对它进行一定的加工,这样才能有效地利用其中的信息,否则,样本只是呈现为一堆“杂乱无章”的数据。
Example 5.4 从某地区随机抽取50户农民,调查其年收入情况,得到下列数据(每户人均元):
924 800 916 704 870 1040 824 690 574 490
972 988 1266 684 764 940 408 804 610 852
602 754 788 962 704 712 854 888 768 848
882 1192 820 878 614 846 746 828 792 872
696 644 926 808 1010 728 742 850 864 738
试对该地区农民收入的水平和贫富悬殊程度做个大致分析。显然,如果不进行加工,面对这大堆大小参差不齐的数据,你很难得出什么印象。但是只要对这些数据稍事加工,便能作出大致分析:如记各农户的年收入数为,则考虑


这样,我们可以从得出该地区农民平均人均收人水平属中等,从可以得出该地区农民贫富悬殊不大的结论。(当然还需要一些参照资料)由此可见对样本的加工是十分重要的。
对样本加工,主要就是构造统计量。用数学的语言说,所谓统计量(Statistic)是一个不含未知参数的样本的已知函数。设样本为,则统计量通常记为

Example 5.5 设为总体的样本,则下列各量均是统计量,它们今后要经常被用到。
(ⅰ),称为样本均值(Sample Average)。
(ii),称为样本方差(Sample Variance)。
(iii),称为样本标准差(Sample standard variance )。
(iv),称为样本阶原点矩(Sample order origin moment)。
(v),称为样本阶中心矩(Sample order central moment)。
Example 5.6 设为二维总体的样本,则下列各量为统计量:
(ⅰ)称为样本协方差(Sample covariance)。
(ⅱ)称为样本相关系数(Sample correlation coefficient),其中,类似。
Example 5.7 设是出自总体的样本,其中为未知参数,则是统计量,但诸如等均不是统计量,因它含有未知参数或.
Example 5.8 将中观察值按式(5.5)排列,则为一组统计量,它们称为一组顺序统计量(Order Statistic),称为第个顺序统计量( No,Order Statistic),其中特别地称
 为最小顺序统计量(Minimum order Statistic);
 为最大顺序统计量(Maximum order Statistic);
为样本中位数(Sample median)。
为了研究统计量的分布,我们先研究三种重要概率分布。
二、分布(distribution)
Definition 5.1 设为相互独立的随机变量,它们都服从标准正态分布,则称随机变量

服从自由度为的分布(distribution),记作~.
下面的定理称为分布的可加性定理
Theorem 5.1 设是个相互独立的随机变量,,,则

Proof,不妨设,其余情况易由归纳法推得。考虑一组独立同分布于的随机变量,则与同分布,与同分布,而与独立,与独立,故它们各自的和相应同分布,即与同分布,而后者服从.证毕。
分布有下列基本性质。
Theorem 5.2 设,则
(i),
(ⅱ)的密度函数为
 (5.6)
其中称为伽马函数,定义为
Proof,(i)设为独立同分布于的随机变量,则与同分布,且

又由独立并注意到的四阶矩为3,可得

(ⅱ)证明略。
图5-3描绘了分布密度函数在时的图形。可以看出,随着的增大,的图形趋于“平缓”,其图形下面积的重心亦逐步往右下移动。
另外,费歇(R.A.Fisher)曾证明,当较大时,近似服从.

图5-3
三,分布和分布( distribution and  distribution)
Definition 5.2 设,,与独立,则称随机变量

服从自由度为的分布( distribution),又称学生氏分布,记成.
利用独立随机变量商的密度公式,不难由已知的,的密度公式得到的密度:

显然它是的偶函数,图5-4描绘了时的概率密度曲线,作为比较,还描绘了的密度曲线。

图5-4
利用伽马函数的斯特林公式可以证明

从图形我们也可看出,随着的增大,的密度曲线与的密度曲线越来越接近,一般若,就可认为它基本与相差无几了。
Definition 5.3 设,,与独立,则称随机变量

服从自由度为(,)的分布(distribution),记成.
类似可得,的密度函数为

图5-5描绘了几种分布的密度曲线。
由分布的定义容易看出,若,则.

图5-5
四,分位数设为一随机变量,为其分布函数,我们知道对于给定的实数,.给出了事件的概率。在统计中,我们常常需要考虑上述问题的逆问题:就是若已给定分布函数的值,亦即已给定事件的概率,要确定取什么值。易知,对通常连续型随机变量,实际上就是求的反函数,准确地说,有如下定义:
Definition 5.4 设的分布函数为,满足

则称为的分位数(点)。
若有密度,则分位数表示以左的一块阴影面积(如图5-6)为.

图5-6
几种常用分布的分位点都在书后附表中可以查到。其中是分布函数表反过来查,而其它几个分布,则是分别对给出的几个的常用值,如=0,0.25,0.05,0.1,0.9,0.95,0.975等等,列出相应分布对应值的分位点。图5-7给出了四种常用分布的分位点表示方法,其中的分位点通常记成.

图5-7
这里要注意到如下几个有用的事实。
a) 若,要求的分位数可化成求的分位数:

此时,故,即.
b) 对于,由密度函数的对称性可知

即 .
c) 对于,.

即 
d) 对于较大的,由,的渐近性质,可得

或  (5.7)
利用这些事实可以扩展分位数表。
Example 5.9 求下列分位数:
(i) ;
(ii) ;
(iii) ;
(iv) .
Solution (ⅰ)从表中,查不到,取表中接近的数应在0.8997与0.9015之间,从表头查出相应的为1.28与1.29,故取.
(ⅱ)分布表没有.但利用对称性,可查出,故.
(ⅲ)从分布表中,查不到,可查出,故
(ⅳ)表上查不到,需利用式(5.7).查出,

五,正态总体的抽样分布(Sample distribution of normal collectivity)
在概率统计问题中,正态分布占据着十分重要的位置,这是基于一则在应用中,许多量的概率分布或者是正态分布,或者接近于正态分布;再则,正态分布有许多优良性质,便于进行较深入的理论研究。因此,我们着重来讨论一下正态总体下的抽样分布,其中最重要的统计量自然是样本均值和样本方差.
Theorem 5.3 设总体,为总体的样本,则样本均值,

。
Proof,(i) 令,则为一组独立同分布的标准正态变量,由多元正态分布的定义知,,因此


(ii)、(iii) 证明略。
利用这一基本的抽样分布定理,可以得出一些常用统计量的分布,下面的结果以后经常要用到。
Example 5.10 设为出自的子样,则

这是因为由定理5.3,~,则~N(0,1),又及与独立知

Example 5.11 设,分别为出自和的样本,且它们相互独立,则
(i) 
(ii) 
其中分别为相应样本的样本均值和样本方差。事实上,对于(i)

又已知出自两个总体的样本是独立的,因而

对于(ⅱ),由于,,又与独立,故

又,,由的可加性(定理5.1)知,再类似地利用定理5.3及两总体样本的独立性知,独立,因而

第五章小结(Summary of Chapter Five)
本章中介绍了数理统计的基本概念。
总体、个体、简单随机样本和统计量是数理统计中最基本的概念,务必正确理解。样本均值、样本方差、样本矩、顺序统计量和经验分布函数是数理统计中常用的统计量,要掌握它们的计算方法,并会求样本均值、样本方差、样本矩的数学期望。了解直方图的作法。
分布、分布、分布是数理统计中常用的几种分布,要知道这几种分布的定义及性质,知道分布的的分位数的概念并会查表计算,知道正态总体样本均值、样本方差和一些常用统计量的分布。