参数估计
内容提要
本章主要讲述点估计(矩法估计,极大似然估计);估计量的评价准则(无偏性,最小方差性和有效性,其它几个准则);区间估计(区间估计的一般步骤,单个正态总体参数的区间估计,双正态总体参数的区间估计,非正态总体参数的区间估计)等内容.
重点分析
理解点估计的概念,掌握矩估计法(一阶、二阶)。了解极大似然估计法。
了解估计量的评选标准(无偏性、有效性、一致性)。
理解区间估计的概念,会求单个正态总体的均值与方差的置信区间,会求两个正态总体的均值差与方差比的置信区间。
难点分析
矩法估计,极大似然估计。
估计量的评价准则。
正态总体参数的区间估计。
习题布置
习题6 (2,4,6(1)(3)(5),9,11,18,22,24,26)
备注
教 学 内 容( Contents )
Chapter Six 参数估计(Parameter Estimation)
§6.1 点估计(Point Estimation)
一,矩估计法(Square Estimation)
如上所述,例5.4中我们所做的对该地区农户的平均收入水平和贫富悬殊程度做出推断这一工作,用数理统计的话说,实质上是对总体的未知参数期望值与方差值进行估计。我们当时是分别用样本均值和样本方差来反映这两个量的,那么这样做是否合理?直观来看这样做是合理的,从概率论的观点看也是合理的。事实上,若总体的期望存在,是出自的样本,则由柯尔莫哥洛夫强大数定律,以概率为1地成立

而上式左边极限号内正是样本均值,因此,我们常用作为的估计值。不仅如此,若的阶矩存在,,则同样由柯尔莫哥洛夫强大数定律得出

以概率为1成立。于是,同样可用样本阶原点矩来近似,这种用样本原点矩去估计总体相应原点矩的方法,即是所谓的矩估计法。一般地,若总体的分布有个参数,则显然,总体的阶矩()如果存在的话,必依赖这些参数,即

按照用样本矩近似真实矩的原则,可得方程
 (6.1)
若上述关于的方程组有唯一的解

则称是的矩估计量(Square Estimator)或矩估计。
Example 6.1 按矩估计的定义,无论总体是什么分布,阶样本原点矩均是它们相应真实原点矩的矩估计量,只要真实矩存在。因当我们将视为未知参数时,显然是方程组(6.1)的唯一解。
Example 6.2 无论总体为什么分布,只要二阶矩存在,则样本方差为方差的矩估计量。
Solution 设为一样本,我们有



记为.第三步等号再一次用到习题5.4.
需要估计的参数也可以不是总体的数字特征。
Example 6.3 设为[]上的均匀分布,为样本,求的矩估计。
Solution




解上述关于的方程得

Example 6.4 贝努利试验中,事件发生的频率是该事件发生概率的矩法估计。
Solution 此处,实际上我们视总体为“唱票随机变量”,即服从两点分布:

求参数的矩法估计。
设为的一个样本,若其中有个等于1,则即为事件发生的频率,另一方面,显然

故有.
应用中许多问题可归结为例6.4,如废品率的估计问题等。特别对固定的,经验分布函数也可在某种意义下看成是的矩估计。因为我们在5.3.2节中讲过,是次试验中事件发生的频率,而已知是的概率。当然这一矩估计所涉及的总体已不是原来的总体,而是相应的“唱票随机变量”。
并非所有建立了方程组(6.1)的矩估计问题都能得到的解析表达式。
Example 6.5 设总体的密度函数为

为此总体的样本。则可以算出


其中为伽(Gamma)函数,按矩估计原理分别用取代,得到形如(6.1)的方程组,但无法得到简单的解析表达式,只能求的数值解。(见习题6.20)
使用矩估计法的一个前提是总体存在适当阶的矩,阶数应不小于待估参数的个数(或者说参数空间的维数),但这不总是可以做到的。
Example 6.6 柯西(Cauchy)分布 设总体具有密度函数

显然,它的各阶矩皆不存在,因此,不能用矩估计法来估计参数.另外,尽管矩估计法简便易行,且只要充分大,估计的精确度也很高,但它只用到总体的数字特征的形式,而未用到总体的具体分布形式,损失了一部分很有用的信息,因此,在很多场合下显得粗糙和过于一般。
二,极大似然估计(Maximum Likelihood Estimation)
参数的点估计方法中另一个常用方法就是极大似然估计,简记为(Maximum Likelihood Estimation)。从字面上来理解,就是通过对样本的考察,认为待估参数最象是取什么值即作为对参数的估计,事实上,极大似然估计原理也大致如此。我们通过一个具体例子来说明这一估计的思想。
Example 6.7 已知甲、乙两射手命中靶心的概率分别为0.9及0.4,今有一张靶纸上面的弹着点表明为10枪6中,已知这张靶纸肯定是甲、乙之一射手所射,问究竟是谁所射?
从直观上看,甲的枪法属上乘,命中靶心率为0.9,看来这次射击成绩不至于这么差;而乙的枪法又似乎尚不足以打出这么好的成绩,但二者取一,还是更象乙所射。我们来计算一下可能性。为此,我们建立一个统计模型:设甲、乙射中与否分别服从参数为的两点分布,今有样本,其中有6个观察值为1,4个为0,由此估计总体的参数是0.9,还是0.4.这里因为参数空间只有两个点:={0.9,0.4},我们不妨分别计算一下参数为什么的可能性大。若是甲所射,即参数=0.9,则此事发生的概率为;若是乙所射,即参数=0.4,则此事发生的概率为,尽管是乙所射的可能也不大,但毕竟比是甲所射的概率大了10倍,因此,在参数空间只有两点的情况下,概率的最大值在=0.4处发生,故我们更情愿认为是乙所射,即用0.4作为的估计:==0.4.
总之,极大似然估计的出发点是基于这样一个统计原理,在一次随机试验中,某一事件已经发生,比如已经得到某个具体的样本,则必然认为发生该事件的概率最大。
从例6.7我们可以看出,极大似然估计的做法,关键有两步:第一步写出某样本出现概率的表达式,对于离散型总体,设它的分布列为则上述样本出现的概率为

对于固定的样本,是参数的函数,我们称之为似然函数(Likelihood Function)。第二步则是求是参空间),使得达到最大,此即为所求的参数的极大似然估计。这里还需要着重强调几点:
a) 当总体是连续型随机变量时,谈所谓样本出现的概率是没有什么意义的,因为任何一个具体样本的出现都是零概率事件。这时我们就考虑样本在它任意小的邻域中出现的概率,这个概率越大,就等价于此样本处的概率密度越大。因此在连续型总体的情况下,我们用样本的密度函数作为似然函数。

b) 为了计算方便,我们常对似然函数取对数,并称为对数似然函数(Logarithm likelihood function)。易知,与在同一处达到极大,因此,这样做不会改变极大点。
c) 在例6.7中参数空间只有两点,我们可以用穷举法求出在哪一点上达到最大,但在大多数情形中,包含m维欧氏空间的一个区域,因此,必须采用求极值的办法,即对对数似然函数关于求导,再令之为0,即得
  (6.2)
我们称(6.2)为似然方程(组)(Likelihood equation (group)) 。解上述方程,即得到的,.
Example 6.8 设是的样本,求与的.
Solution 我们有


解似然方程组,即得

看来,对于正态分布总体来说,,的矩估计与MLE是相同的。矩估计与MLE相同的情形还有很多,如例6.4的问题中,容易验证,事件A发生的频率也是其概率的MLE.我们有更进一步的例子。
Example 6.9 设有个事件两两互斥,其概率之和为1.做次重复独立试验,则各事件发生的频率为各相应概率的MLE.事实上,设样本记录了每次试验中所发生的事件,以表示次试验中事件发生的次数,则此样本出现的概率(似然函数)为

于是 
得似然方程



将上述个等式相加,注意到及

得到

右边即为事件发生的频率,显然事件与其它事件地位是相同的,故类似可得到

需注意到,并非每个问题都可通过解似然方程得到,如
Example 6.10 同例6.3,求均匀分布中参数的.
先写出似然函数
 (6.3)
本例似然函数不连续,不能用似然方程求解的方法,只有回到极大似然估计的原始定义,由式(6.3),注意到最大值只能发生在
 (6.4)
时;而欲最大,只有使最小,即使尽可能小,尽可能大,但在式(6.4)的约束下,只能取=,=.
和矩估计的情形一样,有时虽能给出似然方程,也可以证明它有解,但得不到解的解析表达式。
Example 6.11 同例6.6,求柯西分布中的.我们可得似然方程为

这个方程只能求数值解。
§6.2 估计量的评价准则(Evaluation Rule of Estimator)
对于同一参数,用不同方法来估计,结果是不一样的。如例6.3与例6.10就表明了对于均匀分布U[],参数的矩估计与极大似然估计是不一样的,甚至用同一方法也可能得到不同的统计量。
Example 6.12 设总体服从参数为的泊松分布,即

则易知,,分别用样本均值和样本方差取代和,于是得到的两个矩估计量.
既然估计的结果往往不是唯一的,那么究竟孰优孰劣?这里首先就有一个标准的问题。
一、无偏性(Unbiased)
Definition 6.1 设=是的一个估计量,若对任意的,都有,则称是的无偏估计量(Unbiased estimator),如果

则称是的渐近无偏估计量(Approximation unbiased estimator),其中称为是的偏差(affect)。(Suppose =is  a estimator,if for any  there is ,then  is called a unbiased estimator of ; if

 is called asymptotically unbiased estimator of ,where  is called affect of .)
无偏性反映了估计量的取值在真值周围摆动,显然,我们希望一个量具有无偏性。
Example 6.13 是总体期望值的无偏估计,因为

Example 6.14 不是总体方差的无偏估计,因为注意到.故


但 
因此是渐近无偏估计。在的基础上,我们适当加以修正可以得到一个的无偏估计,这个估计量也和样本方差一样是经常被采用的:

由此例也可以看出,例6.12中关于的两个矩估计量中,是无偏的,;而是有偏的,.
我们在第五章曾经说过,对估计量的优劣的评价,一般是站在概率论的基点上,在实际应用问题中,含有多次反复使用此方法效果如何的意思。对于无偏性,也同样是这样,即是在实际应用问题中若使用这一估计量算出多个估计值,则它们的平均值可以接近于被估参数的真值。这一点有时是有实际意义的,如某一厂商长期向某一销售商提供一种产品,在对产品的检验方法上,双方同意采用抽样以后对次品进行估计的办法。如果这种估计是无偏的,那么双方都理应能够接受。比如这一次估计次品率偏高,厂商吃亏了,但下一次估计可能偏低,厂商的损失可以补回来,由于双方的交往是长期多次的,采用无偏估计,总的来说是互不吃亏。然而不幸的是,无偏性有时并无多大的实际意义。这里有两种情况,一种情况是在一类实际问题中没有多次抽样,比如前面的例子中,厂商和销售商没有长期合作关系,纯属一次性的商业行为,双方谁也吃亏不起,这就没有什么“平均”可言。另一种情况是被估计的量实际上是不能相互补偿的,因此“平均”没有实际意义,例如通过试验对某型号几批导弹的系统误差分别做出估计,既使这一估计是无偏的,但如果这一批导弹的系统误差实际估计偏左,下一批导弹则估计偏右,结果两批导弹在使用时都不能命中预定目标,这里不存在“偏左”与“偏右”相互抵消或“平均命中”的问题。
我们还可以举出数理统计本身的例子来说明无偏性的局限。
Example 6.15 设服从参数为的泊松分布,为的样本,用作为的估计,则此估计是无偏的。因为

但当取奇数时,<0,显然用它作为>0的估计是不能令人接受的。为此我们还需要有别的标准。
二,最小方差性和有效性(Minimum Variance and efficiency)
前面已经说过,无偏估计量只说明估计量的取值在真值周围摆动,但这个“周围”究竟有多大?我们自然希望摆动范围越小越好,即估计量的取值的集中程度要尽可能的高,这在统计上就引出最小方差无偏估计的概念。
Definition 6.2 对于固定的样本容量,设()是参数函数的无偏估计量,若对的任一个无偏估计量()有

则称()为的(一致)最小方差无偏估计量,简记为UMVUE(Uniformly Minimum Variance Unbiased Estimation)或者称为最优无偏估计量。(For stationary sample capacity ,let ()is a unbiased estimator of parameter function,if for any unbiased estimator of (),such that

then call ()is a Uniformly Minimum Variance Unbiased Estimation of ,is abbreviated for UMVUE.)
从定义上看,要直接验证某个估计量是参数函数的最优无偏估计是有困难的。但对于很大一类分布和估计来说,我们从另一个角度来研究这一问题。考虑的一切无偏估计,如果能求出这一类里无偏估计中方差的一个下界(下界显然存在的,至少可以取0,而又能证明某个估计能达到这一下界,则当然就是一UMVUE.我们来求一下这个下界。下面不妨考虑总体为连续型的。(对于离散型的,只须做一点相应的改动即可),简记统计量()为,样本的分布密度为;积分为.又假设在以下计算中,所有需要求导和在积分号下求导的场合都具有相应的可行性。今考虑的一个无偏估计,即有

两边对求导
 (6.5)
又 
上式两边对求导
 (6.6)
式(6.5)加上式(6.6)乘以-

上式改写成

用柯西一许瓦尔兹(Cauchy-Schwarz)不等式,即得
 (6.7)
其中
 (6.8)
 (6.9)
由式(6.7)--式(6.9)即得著名的克拉美--劳(Cramer-Rao)不等式(简称C--R不等式):
 (6.10)
注意到独立同分布,则由

以及当时,利用式(6.6)

可得

其中=称为费歇信息量(information quantity),于是式(6.10)可简写成
 (6.11)
式(6.11)的右边称为参数函数估计量方差的C--R下界(lower limit)。还可以证明的另一表达式,它有时用起来更方便:

Definition 6.3 称为的无偏估计量的效率(efficiency)(显然由不等式,).又当的效率等于1时,称是有效(efficient)的;若,则称是渐近有效(asymptotically efficient)的。(Call is efficiency for unbiased estimator  of(obviously by inequality,).When efficiency of equal1,call is efficient;if ,then call is asymptotically efficient.)
显然,有效估计量必是最小方差无偏估计量,反过来则不一定正确,因为可能在某参数函数的一切无偏估计中,找不到达到下界的估计量。我们常用到的几种分布的参数估计量多是有效或渐近有效的。从下面的例子,我们可以体会出验证有效性的一般步骤。
Example 6.15 设总体~,为的样本,则的无偏估计是有效的,的无偏估计是渐近有效的。
证 (ⅰ) 由例6.13,6.14知,,分别是和的无偏估计。
(ⅱ) 计算,
易知 
又由定理5.3,从而

(iii) 计算







(iv) 计算效率


(ⅴ) 故是的有效估计,是的渐近有效估计。
Example 6.16 仍考虑例6.12中泊松分布参数的矩估计量=的有效性(由于不是无偏估计,不考虑其有效性)。注意,对离散型总体,在考虑费歇信息量时用概率分布来取代概率密度,故有





从而效率

它是有效的,从而也是最小方差无偏估计量。
§6.3 区间估计(Interval Estimation)
一,区间估计的一般步骤(General step of interval estimation)
我们在讨论抽样分布时曾提到过区间估计。与点估计不同的是,它给出的不是参数空间的某一个点,而是一个区间(域)。按照一般的观念,似乎我们总是希望能得到参数的一个具体值,也就是说用点估计就够了,为什么还要引入区间估计呢?这是因为在使用点估计时,我们对估计量是否能“接近”真正的参数的考察是通过建立种种评价标准,然后依照这些标准进行评价,这些标准一般都是由数学特征来描绘大量重复试验时的平均效果,而对于估值的可靠度与精度却没有回答。即是说,对于类似这样的问题:“估计量在参数的邻域的概率是多大?”点估计并没有给出明确结论,但在某些应用问题中,这恰恰是人们所感兴趣的,如
Example 6.13 某工厂欲对出厂的一批电子器件的平均寿命进行估计,随机地抽取件产品进行试验,通过对试验的数据的加工得出该批产品是否合格的结论?并要求此结论的可信程度为95%,应该如何来加工这些数据?
对于“可信程度”如何定义,我们下面再说,但从常识可以知道,通常对于电子元器件的寿命指标往往是一个范围,而不必是一个很准确的数。因此,在对这批电子元器件的平均寿命估计时,寿命的准确值并不是最重要的,重要的是所估计的寿命是否能以很高的可信程度处在合格产品的指标范围内,这里可信程度是很重要的,它涉及到使用这些电子元器件的可靠性。因此,若采用点估计,不一定能达到应用的目的,这就需要引人区间估计。
区间估计粗略地说是用两个统计量,()所决定的区间[,]作为参数取值范围的估计。显然,一般地这样说是没有多大的意义的,首先,这个估计必须有一定的精度,即是说-不能太大,太大不能说明任何问题;第二,这个估计必须有一定的可信程度,因此-又不能太小,太小难以保证这一要求。比如从区间[1,100]去估计某人的岁数,虽然绝对可信,却不能带来任何有用的信息;反之,若用区间[30,31]去估计某人的岁数,虽然提供了关于此人年龄的信息,却很难使人相信这一结果的正确性。我们希望既能得到较高的精度,又能得到较高的可信程度,但在获得的信息一定(如样本容量固定)的情况下,这两者显然是不可能同时达到最理想的状态。通常是采取将可信程度固定在某一需要的水平上,求得精度尽可能高的估计区间。下面给出区间估计的正式的定义。
Definition 6.4 对于参数,如果有两个统计量,,满足对给定的,有

则称区间[,]是的一个区间估计或置信区间(Confidence Interval),,分别称作置信下限(Confidence lower limit)、置信上限(Confidence upper limit),称为置信水平(Confidence level)。(Suppose  is a estimator of ,if for any given ,such that

then call is coincidence estimation of .)
这里的置信水平,就是对可信程度的度量。置信水平为1-,在实际上可以这样来理解:如取,就是说若对某一参数取100个容量为的样本,用相同方法做100个置信区间。[,],=1,2,…,100,那么其中有95个区间包含了真参数.因此,当我们实际上只做一次区间估计时,我们有理由认为它包含了真参数。这样判断当然也可能犯错误,但犯错误的概率只有5%.
下面我们来讨论一下区间估计的一般步骤。
10 设欲估参数为,先取的一个点估计,它满足两点:一是它较前面提出的标准应该是一个“好的”估计量,二是它的分布形式应该已知,只依赖未知参数.
20 所求的区间考虑为的一个邻域,,(或者等等),使得对于
=1- (6.22)
且一般要求尽可能小。为确定,须用解不等式的方法将(6.22)式中的随机事件变成类似于下述等价形式:
 (6.23)
其中,为可逆的的已知函数,的分布与无关且已知,一般其分位点应有表可查,这是关键的一步。于是就可得出,为某个分位点,如,.
30 从,的表达式中解出即可。区间估计涉及到抽样分布,如节5.4.5中所述,对于一般分布的总体,其抽样分布的计算通常有些困难,因此,我们将主要研究正态总体参数的区间估计问题。
二,单个正态总体参数的区间估计设为的样本,对给定的置信水平,,我们来分别研究参数与的区间估计。
Example 6.14 在上述前提下,求的置信水平为的区间估计。
Solution 考虑的点估计为,确定使

且使区间长尽可能小。下面分两种情况
a) 已知,变换事件,使表成式(6.23)的形式:

这里,为使,又要尽量使最小,亦即使最小,如图6-1,从密度函数的特点来看(对称、原点附近密度最大,往两边密度减小),只有取,即,从而所求的区间是
 (6.24)

图6-1
b)未知,将事件变换成式(6.23)的形式:

其中由例6.14知,,为使,且区间尽量短,与情形一样,只有取因此所求区间为
 (6.25)
Example 6.15 在上述前提下求的置信水平为1-的区间估计。
Solution 的点估计量为,注意到,考虑,及的邻域[,],使

变换事件

由定理5.3(ⅱ)知,,故为使,通常取

于是,所求区间为

这里要使区间最短,计算太麻烦,因此,在取分位点时采用类似主对称型分布的取法,使密度函数图形两端的尾部面积均为(如图6-2)。

图6-2
Example 6.16 一批零件尺寸服从,对进行区间估计(未知),要求估计精度不低于2,置信水平保持为,问至少要抽取多少件产品作为样本?
Solution 显然,此处要求

由例6.24,,故
 (6.26)
式(6.26)不是的显式,但对于具体数值,可采取“试算法”来确定.一般是先对作个大致估计(可以由以往的经验确定),然后用试算的方式确定适合方程(6.26)的.例如若估计出200,又已知,来试算:

显然,如果任正整数不可能严格满足方程(6.26)的话,则应取使式(6.26)左边大于右边的最小的,因此应该取=11.
三,双正态总体参数的区间估计实际中常有类似于下列的问题。
Example 6.17 有A、B两种牌号的灯泡各一批,希望通过抽样试验并进行区间估计,考察
(ⅰ)两种灯泡的寿命是否有明显差异;
或者考察
(ⅱ)两种灯泡的质量稳定性是否有明显差异。
我们补充一些合理假设,将上述应用问题变为数理统计问题。设A、B种灯泡的寿命分别服从,,并设两种灯泡的寿命是独立的。这就是两正态总体的参数区间估计问题,对于(ⅰ)是求的置信区间,对于(ⅱ)是求的置信区间。如果在(ⅰ)中,区间估计的置信下限大于0,则认为明显大于;若它的置信上限小于0,则认为明显小于;若0含在置信区间内,则认为两者无明显差别。对于(ⅱ)也可做类似的讨论,只需将0相应地改为1即可。下面来给出这两个区间估计。不妨设这两种灯泡的样本分别为及,置信水平为1-.
对于(ⅰ),显然可用的点估计量来构造置信区间[,],其中满足

下面分两种情况进行讨论。
a) 若已知,则变换事件

注意到,欲使,取

此时估计区间是

b) 若未知,只研究的情形,变换事件:

其中,由例5.15知
,因此,为使,取

故所求区间是
(6.27)
对于(ii)取

.为使,类似于分布,取分位点

故所求区间为
 (6.28)
Example 6.18 在例6.27中,随机选取A种灯泡5只,B种灯泡7只,做灯泡寿命试验,算得两种牌号的平均寿命分别为=1000(小时),=980(小时);样本方差=784(小时2),=1024(小时2).取置信度为0.99,试用关于的区间估计回答例6.27中的问题(i),其中假设.
Solution 此题中,置信度1-=0.99,即=0.01;.关于例6.27中问题(i),查得



代入(6.27)得的0.99的置信区间为

因0含在此置信区间内,故认为与无明显差异。
第六章小结(Summary of Chapter Six)
本章中介绍了参数估计的基本方法。
参数的估计有点估计、贝叶斯估计和区间估计。矩估计法和极大似然估计法是求参数的点估计量的两种最基本的方法,务必牢固掌握。衡量估计量好坏的标准有无偏性,最小方差无偏估计,有效性和相合性(一致性)等,要学会验证一个估计量是符合哪种标准的估计量,这对了解估计量的特性是非常重要的。
要正确理解区间估计的概念,学会求单个正态总体的均值和方差的置信区间以及两个正态总体的均值差和方差比的置信区间。了解贝叶斯估计法。