第十六讲 数理统计的基本概念和抽样分布
重点:总体,样本,统计量,三个重要抽样分布难点:抽样分布,
数理统计是运用概率论的知识,研究如何有效地对带有随机性影响的数据进行收集、整理、分析和推断的学科,由于随机性现象广泛存在于工、农业生产、工程技术、自然科学和社会科学等领域中,因此数理统计有着最广泛的应用。
一、总体和样本
数理统计中,我们将研究对象的全体称为总体或母体,而把组成总体的每个元素称为个体。例如研究一批灯泡的平均寿命时,该批灯泡的全体构成了研究的总体,其中每个灯泡就是个体。
在实际问题中,研究对象往往是很具体的事物或现象,而我们所关心的不是每一个个体的种种具体的特征,而是其中某项或某几项数量指标,记为X。在上例中,X即指该批灯泡的寿命。对不同的个体,X的取值一般是不同的。例如在试验中观察若干个个体就会得到X的一种数值但在试验或观察之前,无法确定会得到一组什么样的数值,所以X是一个随机变量或随机向量,而X的分布也就完全描述了我们所关心的指标,即总体的分布。为方便起见,以后我们将X的可能取值的全体组成的集合称为总体,或直接称X为总体,X的分布也就是总体的分布。
总体分布一般是全部或部分未知的,为了研究总体X的分布规律,从总体中随机地抽出若干个个体进行观察或实验,称为随机抽样观察,从总体中抽出的若干个个体称为样本,一般记为(X1,X2,…,Xn)或X1,X2,…,Xn,n称为样本容量。而一次具体的观察结果(x1,x2,…,xn)是完全确定的一组数值,称为样本观测值,它随着每次抽样观察而改变。因此,容量为n的样本(X1,X2,…,Xn)是n维随机向量,而具体的观测值(x1,x2,…,xn)是随机变量(X1,X2,…,Xn)的一个样本观测值。
随机抽样的目的是为了对总体X的分布进行各种分析推断,所以要求抽取的样本能很好地反映总体的特性,为此我们要求随机抽取的样本(X1,X2,…,Xn)满足:
(1)具有代表性。即样本的每个分量Xi与X有相同的分布;
(2)具有独立性。即X1,X2,…,Xn是相互独立的随机变量,也就是说,n次观察值之间是互相独立的;
满足上述两条的样本称为简单随机样本,今后如无特别说明,所说的样本均指简单随机样本。
二、统计量和样本矩
样本是我们进行分析和推断的起点,但实际上我们往往并不直接利用样本进行推断,而需要对样本进行一番“加工”和“提炼”,将分散于样本中的信息集中起来。为此我们引进统计量的概念。
设X1,X2,…,Xnn为来自总体X的一个样本,g(x1,x2,…,xn)为一个n元连续函数,若g(X1,X2,…,Xn)中不含任何未知参数,则称g(X1,X2,…,Xn)为一个统计量。显然统计量也是一个随机变量。以后,针对不同的问题我们总是构造相应的统计量以实现对总体的统计推断。
例如,设总体X服从正态分布N(,)其中,未知。X1,X2,…,Xn是从正态总体X中抽取的一个样本,则
 .
下面介绍一类常用的统计量——样本均值,样本方差,样本k阶原点矩,样本k阶中心矩设(X1,X2,…,Xn)为一个简单随机样本,则称

为r阶样本原点矩,特别地,称A1为样本均值,并记为,即



为r阶样本中心矩。其中的B2称为2阶样本中心矩。但为了今后的需要,我们定义样本方差如下:

三、抽样分布
统计量是我们对总体的分布规律或数字特征进行推断的基础。在使用统计量进行推断时必须要知道它的分布。在数理统计中,统计量的分布称为抽样分布,因而确定统计量的分布是数理统计的基本问题之一。下面我们介绍三类重要的分布。
1.(2分布
定义1 设X1,X2,…,Xn相互独立且均服从标准正态分布,即 则随机变量服从自由度为n的( 2分布,记为( 2 ( ( 2(n)。这里自由度n是指独立变量的个数。利用求随机变量函数的分布的方法即可求得( 2分布的密度函数为
,
下图6-1给出n =1,4,10,20时的( 2分布的密度函数的曲线。
例2 设X1,X2,…,Xn为来自正态总体N(μ,σ2)的一个样本,其中μ为已知常数,则
。
( 2分布的性质
.
2) 若X1,X2,…,Xk相互独立,分别服从 则

下面介绍分布的上侧分位数的概念,在后面将会经常用到。
定义2 设随机变量X的密度函数为,对给定的 称满足条件

的实数为X的上侧分位数.
例如,随机变量,则称的点为分布的上侧分位数,见图6-2。
图6-2 分布的上侧分位数
分布的上侧分位数已制成表格。如,则查表可得,又如,则。
若随机变量XX~N (0,1),则它的上侧分位数常用来表示。由可知,,见图6-3。通过查标准正态分布表即可得到。
这是因为,故。
2,t分布
定义3 设X,且X与Y相互独立,则称随机变量

服从自由度为的分布,记为T~t(n)
通过计算可得分布的密度函数为

图6-4给出了n =1,5,10时t分布的密度函数。以t ((n)记为t分布的上侧( 分位数,见图6-5。由

查t分布表可得t ((n)的值。由于t分布有对称性,因此 
注意到

即n很大时,t分布接近标准正态分布。因此,在应用中,当n>45时有t ((n)(z (。
3.F分布
定义4 设X,Y相互独立,分别服从自由度为n,m的χ2分布,则随机变量

服从自由度为(n,m)的F分布,记为F(n,m) 显然

通过计算,可求得F(n,m)的概率密度函数

比较t分布与F分布的定义,易知t2(n)=F(1,n)。图6-6给出了一些F分布的密度函数的图象
我们称满足

的点F( (n,m)为F(n,m)分布的上( 分位数,见图6-7。F分布的上侧( 分位数有如下性质:

事实上,设F ~F(n,m),


,
。
四.正态总体样本均值与方差的函数的分布定理1 设X1,X2,…,Xn是从正态总体N(μ,σ2)中抽取的一个简单随机样本,与分别为样本均值和样本方差,则


与相互独立。
(4)
定理2设X1,X2,…,Xn与Y1,Y2,…,Ym分别为来自正态总体和的简单随机样本,且两样本之间相互独立,若


(1) 
(2) 若进一步假设,有

其中 
以上结论在后面将经常用到,必须记住。另外,对其它总体,虽然很难求到其精确的抽样分布,但我们可以利用中心极限定理等理论得到当n较大时的近似分布,这就是统计问题中的大样本问题,在此我们不加讨论。