第6章 抽样调查
6.1 抽样调查概述
【学习目标】
本章主要介绍了抽样调查的基本理论以及利用抽样理论进行假设检验。包括抽样推断的重要意义、基本概念,通过学习,使学习者能够站抽样推断的基本原理和方法,利用它进行假设检验。从而为社会经济管理服务等。
【基本要求】
学习本章内容,要求学习者了解抽样调查的重要意义,明确有关抽样推断的几个基本概念,掌握抽样推断中的抽样平均误差,参数古迹、必要样本数目的确定等基本原理和方法。
【学习内容】
6.1.1 抽样调查
1. 抽样调查的概念
抽样调查的概念可以有广义和狭义两种理解。按照广义的理解,凡是抽取一部分单位进行观察,并根据观察结果来推断全体的都是抽样调查,其中又可分为非随机抽样和随机抽样两种。非随机抽样就是由调查者根据自己的认识和判断,选取若干个有代表性的单位,根据这些单位进行观察的结果来推断全体,如民意测验等。随机抽样则是根据大数定律的要求,在抽取调查单位时,应保证总体中各个单位都有同样的机会被抽中。一般所讲的抽样调查,大多数是指这种随机抽样而言,即狭义的抽样调查。所以,严格意义上的抽样调查就是:按照随机原则从总体中抽取一部分单位进行观察,并运用数理统计的原理,以被抽取的那部分单位的数量特征为代表,对总体做出数量上的推断分析。
2. 抽样调查的特点
(1)与全面调查相比较,抽样调查能节省人力、费用和时间,而且比较灵活
抽样调查的调查单位比全面调查少得多,因而既能节约人力、费用和时间,又能比较快地得到调查的结果,这对许多工作都是很有利的。例如,农产量全面调查的统计数字要等收割完毕以后一段时间才能得到,而抽样调查的统计数字在收获的同时就可以得到,一般能早得到两个月左右,这对于安排农产品的收购、储存、运输等都是很有利的。
由于调查单位少,有时可以增加调查内容。因此,有的国家在人口普查的同时也进行人口抽样调查,一般项目通过普查取得资料,另一些项目则通过抽样调查取得资料。这样既可以节省调查费用和时间,又丰富了调查内容。
(2)有些情况下,抽样调查的结果比全面调查要准确
统计数字与客观实际数量之间是会有差别的,这种差别通常称为误差。统计误差有两种:一是登记误差,也叫调查误差或工作误差,是指在调查登记、汇总计算过程中发生的误差,这种误差应该设法避免的;二是代表性误差,这是指用部分单位的统计数字为代表,去推算总体的全面数字时所产生的误差,这种误差一定会发生,是不可避免的。
全面调查只有登记误差而没有代表性误差,而抽样调查则两种误差全有。因此,人们往往认为抽样调查不如全面调查准确,种看法忽略了两种误差的大小。全面调查的调查单位多,涉及面广,参加调查汇总的人员也多,水平不齐,因而发生登记误差的可能性就大。抽样调查的调查单位少,参加调查汇总的人员也少,可以进行严格的培训,因而发生登记误差的可能性就少。在这种情况下,抽样调查的结果会比全面凋查的结果更为准确。
(3)抽选部分单位时要遵循随机原则
其他非全面调查,如典型调查和重点调查等,一般是要根据统计调查任务的要求,有意识地选取若干个调查单位进行调查,而抽样调查不同,从总体中抽取部分单位时,必须非常客观,毫无偏见,也就是严格按照随机原则抽取调查单位,不受调查人员任何主观意图的影响,否则会带上个人偏见,挑中那部分单位的标志值可能偏高或偏低,失去对总体数量特征的代表性。
(4)抽样调查会产生抽样误差,抽样误差可以计算,并且可以加以控制
在非全面调查方式中,典型调查固然也有可能用它所取得的部分单位的数量特征去推算全体的数量特征,但这种推算误差范围和保证程度,是无法事先计算并加以控制的。而抽样调查则是在于对一部分单位的统计调查,在实际观察标志值的基础上,去推断总体的综合数量特征。例如,某村种有晚稻3000亩,在稻子成熟后随机抽取 50个单位的田块为样本,每个单位为10平方市尺,进行实割实测,求得其平均亩产为410千克,从而推算该村的晚稻总产量为410×3000=1230000千克。当然这种推断也会存在一定的误差,但它与其他统计估算不同,抽样误差的范围可以事先加以计算,并控制这个误差范围,以保证抽样推断的结果达到一定的可靠程度。
抽样调查是必不可少的一种调查方法,但是,抽样调查也有它的弱点。例如,它只能提供说明整个总体情况的统计资料,而不能提供说明各级状况的详细的统计资料,这就难以满足各级领导和管理部门的要求。抽样调查也很难提供各种详细分类的统计资料。因此,抽样调查和全面调查是不能互相代替的。
3. 抽样调查的适用范围
抽样调查适用的范围是广泛的,从原则上讲,为取得大量社会经济现象的数量方面的统计资料,在许多场合都可以运用抽样调查方法取得;在某些特殊场合,甚至还必须应用抽样调查的方法取得。
(1) 有些事物在测量或试验时有破坏性,不可能进行全面调查
例如,灯泡耐用时间试验,电视机抗震能力试验,罐头食品的卫生检查,人体白血球数量的化验等等,都是有破坏性的,不可能进行全面调查,只能使用抽样调查。
(2)有些总体从理论上讲可以进行全面调查,但实际上办不到
例如,了解某森林区有多少棵树,职工家庭生活状况如何等等。从理论上讲这是有限总体,可以进行全面调查,但实际上办不到,也不必要。对这类情况的了解一般采取抽样调查方法。
(3)抽样调查方法可以用于工业生产过程中的质量控制
抽样调查不但广泛用于生产结果的核算和估计,而且也有效地应用于对成批或大量连续生产的工业产品在生产过程中进行质量控制,检查生产过程是否正常,及时提供有关信息,便于采取措施,预防废品的发生。
(4)利用抽样推断的方法,可以对于某种总体的假设进行检验,来判断这种假设的真伪,以决定取舍
例如,新教学法的采用、新工艺新技术的改革、新医疗方法的使用等等是否收到明显效果,须对未知的或不完全知道的总体做出一些假设,然后利用抽样调查的方法,根据实验材料对所作的假设进行检验,做出判断。
随着抽样理论的发展,抽样技术的进步,抽样方法的完善和统计队伍业务水平的提高,抽样调查方法将在社会经济生活中得到愈加广泛的运用。
6.1.2. 关于抽样方法
在实际应用中,抽样方法主要有两种:概率抽样和非概率抽样。
1. 概率抽样
这一方法是根据一个已知的概率选取被调查者,无须调查人员在选样中判断或抽选。从理论上讲,概率抽样是最理想、最科学的抽样方法,它能保证样本数据对总体参数的代表性,而且它能够将调查误差中的抽样误差限制在一定范围之内。但相对于非概率抽样来说,概率抽样也是花费较大的抽样方法。概率抽样有以下几种形式。
(1)简单随机抽样(Simple random sampling)。是最基本的抽样形式,它是完全随机地选择样本。此法要求有一个完美的抽样框,或者总体中有一个个体的详尽名单。
(2)分层抽样(Reduced sampling)。分两个步骤:首先将总体分成不同的“层”,然后在每一层内进行抽样。分层抽样可防止简单随机抽样造成的样本构成与总体构成不成比例的现象。
(3)整群抽样(Cluster sampling)。首先将全部总体分为若干部分,每一部分称为一个群,把每一群做为一个抽样单位,在群地进行抽样;然后,在被抽中的群中做全面调查。例如,在市场调查的入户调查中,可以对被选作抽样单位的某个大院的每家每户进行调查。
(4)等距抽样。又称系统抽样(Systematic sampling),是在样本框中每隔一定距离抽选一个被调查者。这一方法也比较常用,有时还可与整群抽样法和分层抽样法结合使用。例如,可采用系统抽样去抽取选择“群”或个体,也可在某一“层”的范围内进行系统采样。
2. 非概率抽样
不是完全按随机原则选取样本。非概率抽样有三种形式。
(1)主要是由调查人员自由选择被调查者的非随机选样。例如在购物中心采访100位妇女,这100位被调查者可以随机选择。
(2)通过某些条件过滤选择某些被调查者参与调查的判断抽样法。在许多情况下,由于研究对象可能仅限于一部分居民,因而有时采用这种方法能节省大量经费。
(3)大多数种类的研究––––产品测试、街访、座谈会,只要不是属于要进行总体推论的大多数项目都可使用非概率抽样法。
6.2 抽样推断中几个基本概念
6.2.1. 全及总体和抽样总体
在抽样调查中,有两种不同的总体即全及总体和抽样总体。
1. 全及总体
全及总体简称总体,是指所要认识对象的全体,总体是由具有某种共同性质的许多单位组成的,因此,总体也就是具有同一性质的许多单位的集合体。例如,我们要研究某城市职工的生活水平,则该城市全部职工即构成全及总体。我们要研究某乡粮食亩产水平,则该乡的全部粮食播种面积即是全及总体。
全及总体按其各单位标志性质不同,可以分为变量总体和属性总体两类。构成变量总体的各个单位可以用一定的数量标志加以计量,例如,研究居民的收入水平,每户居民的收人就是它的数量标志,反映各户的数量特征。但并非所有标志都是可以计量的,有的标志只能用一定的文字加以描述。例如,要研究织布厂l000台织布机的完好情况,这时只能用“完好”和“不完好”等文字作为品质标志来描述各台设备的属性特征,这种用文字描写属性特征的总体称为属性总体。区分变量总体和属性总体是很重要的,由于总体不同,认识这一总体的方法也就不同。
对于变量总体可分为无限总体和有限总体两类。无限总体所包含的单位为无限多,因而各单位的变量也就有无限多的取值。这种无限变量又有两种情况:一种是可列的无限变量,即变量值的大小可以按照顺序一一列举直至无穷;另一种情况则是不可列的无限变量,它是一种连续变量,在任何一个区间内都有无限多的变量,不可能按顺序加以一一列举。我们所说的无限总体主要是指后一种情况来说的。有限总体所包含的单位数则是有限的,因而它的变量值也是有限的,当然可以按顺序加以一一列举。
通常全及总体的单位数用大写的英文字母N来表示。作为全及总体,单位数N即使有限,但总是很大,大到几千,几万,几十万,几百万。例如,人口总体,棉花纤维总体,粮食产量总体等等。对无限总体的认识只能采用抽样的方法,而对于有限总体的认识,理论上虽可以应用全面调查来搜集资料,但实际上往往由于不可能或不经济而借助抽样的方法以求得对有限总体的认识。
2. 抽样总体
抽样总体简称样本,是从全及总体中随机抽取出来,代表全及总体部分单位的集合体。抽样总体的单位数通常用小写英文字母n表示。对于全及总体单位数N来说,n是个很小的数,它可以是N的几十分之一,几百分之一,几千分之一,几万分之一。一般说来,样本单位数达到或超过30个称为大样本,而在30个以下称为小样本。社会经济现象的抽样调查多取大样本。而自然实验观察则多取小样本。以很小的样本来推断很大的总体,这是抽样调查的一个特点。
如果说全及总体是唯一确定的,那么,抽样样本就完全不是这样,一个全及总体可能抽取很多个抽样总体,全部样本的可能数目和每一样本的容量有关,它也和随机抽样的方法有关。不同的样本容量和取样方法,样本的可能数目也有很大的差别,抽样本身是一种手段,目的在于对总体做出判断,因此,样本容量要多大,要怎样取样,样本的数目可能有多少,它们的分布又怎样,这些都是关系到对总体判断的准确程度,都需要加以认真的研究。
6.2.2. 全及指标和抽样指标
1. 全及指标
根据全及总体各个单位的标志值或标志特征计算的、反映总体某种属性的综合指标,称为全及指标。由于全及总体是唯一确定的,根据全及总体计算的全及指标也是唯一确定的。
不同性质的总体,需要计算不同的全及指标。对于变量总体,由于各单位的标志可以用数量来表示,所以可以计算总体平均数。
对于属性总体,由于各单位的标志不可以用数量来表示,只能用一定的文字加以描述,所以,就应该计算结构相对指标,称为总体成数。用大写英文字母P表示,它说明总体中具有某种标志的单位数在总体中所占的比重。变量总体也可以计算成数,即总体单位数在所规定的某变量值以上或以下的比重,视同具有或不具有某种属性的单位数比重。
设总体N个单位中,有N1个单位具有某种属性,N0个单位不具有某种属性, N1 + N0 =N,P为总体中具有某种属性的单位数所占的比重,Q为不具有某种属性的单位数所占的比重,则总体成数为
P=
Q=
此外,全及指标还有总体方差和总体标准差,它们都是测量总体标志值分散程度的指标。
2. 抽样指标
由抽样总体各个标志值或标志特征计算的综合指标称为抽样指标。和全及指标相对应还有抽样平均数、抽样成数p、样本标准差S和样本方差S2等等。和p用小写英文字母表示,以示区别。
设样本n个单位中有n1个单位具有某种属性,n0个单位不具有某种属性,n1+ n0 =n,p为样本中具有某种属性的单位数所占的比重,q为不具有某种属性的单位数所占的比重,则抽样成数为
样本的方差和样本标准差分别为
由于一个全及总体可以抽取许多个样本,样本不同,抽样指标的数值也就不同,所以抽样指标的数值不是唯一确定的。实际上抽样指标是样本变量的函数,它本身也是随机变量。
6.2.3. 重置抽样与不重置抽样
1. 重置抽样
重置抽样,又称有放回的抽样,是指从全及总体N个单位中随机抽取一个容量为n的样本,每次抽中的单位经登录其有关标志表现后又放回总体中重新参加下一次的抽选。每次从总体中抽取一个单位,可看作是一次试验,连续进行n次试验就构成了一个样本。因此,重置抽样的样本是经n次相互独立的连续试验形成的。每次试验均是在相同的条件下完全按照随机原则进行的。
2. 不重置抽样
不重置抽样,又称无放回的抽样,是指从全及总体N个单位中随机抽取一个容量为n的样本,每次抽中的单位登录其有关标志表现后不再放回总体中参加下一次的抽选。经过连续n次不重置抽选单位构成样本,实质上相当于一次性同时从总体中抽中n个单位构成样本。上一次的抽选结果会直接影响到下一次抽选,因此,不重置抽样的样本是经n次相互联系的连续试验形成的。
6.2.4. 抽样框与样本数
1. 抽样框
抽样框,又称抽样结构,是指对可以选择作为样本的总体单位列出名册或排序编号,以确定总体的抽样范围和结构。设计出了抽样框后,便可采用抽签的方式或按照随机数表来抽选必要的单位数。若没有抽样框,则不能计算样本单位的概率,从而也就无法进行概率选样。
2. 样本数
样本数,又称样本的可能数目,是指从总体N个单位中随机抽选n个单位构成样本,通常有多种抽选方法,每一种抽选方法实际上是n个总体单位的一种排列组合,一种排列组合便构成一个可能的样本,n个总体单位的排列组合总数,称为样本的可能数目。
6.3 抽样推断的理论基础—大数定律与中心极限定理
抽样推断的理论基础主要是概率论的极限定理中的大数定律与中心极限定理。
6.3.1 大数定律
大数定律是指在随机试验中,每次出现的结果不同,但是大量重复试验出现的结果的平均值却几乎总是接近于某个确定的值。其原因是,在大量的观察试验中,个别的、偶然的因素影响而产生的差异将会相互抵消,从而使现象的必然规律性显示出来。例如,观察个别或少数家庭的婴儿出生情况,发现有的生男,有的生女,没有一定的规律性,但是通过大量的观察就会发现,男婴和女婴占婴儿总数的比重均会趋于50%。
大数定律有若干个表现形式。这里仅介绍其中常用的两个重要定律:
1. 切贝雪夫大数定理
设x1,x2 …是一列两两相互独立的随机变量,服从同一分布,且存在有限的数学期望a和方差σ2,则对任意小的正数ε,有:
该定律的含义是:当n很大,服从同一分布的随机变量x1,x2 …,xn 的算术平均数将依概率接近于这些随机变量的数学期望。
将该定律应用于抽样调查,就会有如下结论:随着样本容量n的增加,样本平均数将接近于总体平均数。从而为统计推断中依据样本平均数估计总体平均数提供了理论依据。
2 贝努里大数定律
设是n次独立试验中事件A发生的次数,且事件A在每次试验中发生的概率为P,则对任意正数ε,有:
该定律是切贝雪夫大数定律的特例,其含义是,当n足够大时,事件A出现的频率将几乎接近于其发生的概率,即频率的稳定性。
在抽样调查中,用样本成数去估计总体成数,其理论依据即在于此。
6.3.2. 中心极限定理
大数定律揭示了大量随机变量的平均结果,但没有涉及到随机变量的分布的问题。而中心极限定理说明的是在一定条件下,大量独立随机变量的平均数是以正态分布为极限的。中心极限定理也有若干个表现形式,这里仅介绍其中四个常用定理。
1. 辛钦中心极限定理
设随机变量x1,x2 …,xn 相互独立,服从同一分布且有有限的数学期望a和方差σ2,则随机变量,在n无限增大时,服从参数为a和的正态分布即n→∞时,
将该定理应用到抽样调查,就有这样一个结论:如果抽样总体的数学期望a和方差σ2是有限的,无论总体服从什么分布,从中抽取容量为n的样本时,只要n足够大,其样本平均数的分布就趋于数学期望为a,方差为σ2/n的正态分布。
2. 德莫佛——拉普拉斯中心极限定理
设是n次独立试验中事件A发生的次数,事件A在每次试验中发生的概率为P,则当n无限大时,频率设/ n趋于服从参数为的正态分布。即:
该定理是辛钦中心极限定理的特例。在抽样调查中,不论总体服从什么分布,只要n充分大,那么频率就近似服从正态分布。
3. 李亚普洛夫中心极限定理
设x1,x2,…,xn,…是一个相互独立的随机变量序列,它们具有有限的数学期望和方差:。
记,如果能选择这一个正数δ>0,使当n→∞时,,则对任意的x有:
该定理的含义是:如果一个量是由大量相互独立的随机因素影响所造成的,而每一个别因素在总影响中所起的作用不很大,则这个量服从或近似服从正态分布。
4. 林德贝尔格定理
设x1,x2,…,xn,…是一个相对独立的随机变量序列,它们具有有限的数学期望和方差满足林德贝尔格条件,则当n→∞时,对任意的x,有。
6.4 抽样误差
6.4.1. 抽样误差的概念
当总体指标未知时,往往要安排一次抽样调查,然后用抽样调查所获得的抽样指标的观察值作为总体指标的估计值。这种处理方法是存在一定误差的,我们把抽样指标与所要估计的总体指标之间的差值称为抽样误差。抽样误差的大小能够说明抽样指标估计总体指标是否可行,抽样效果是否理想等调查性问题。常见的抽样误差有:抽样平均数与总体平均数之差),抽样成数与总体成数之差(p- P)。
比如某年级100名同学的平均体重=55kg,现随机地抽取10名同学为样本,其平均体重=52kg。若用52kg估计55kg,则误差为52-55=-3 kg,如果重新抽10名同学,若测得=57kg,则其误差为2kg。这种只抽取部分样本而产生的误差,都被称为抽样误差。
由本例不难看出,抽样误差既是一种随机性误差,也是一种代表性误差。说其是代表性误差,是因为利用总体的部分资料推算总体时,不论样本选取有多么公正,设计多么完善,总还是一部分单位而不是所有单位,产生误差是无法避免的。说其是随机性误差,是指按随机性原则抽样时,由于抽样的不同,会得到不同的抽样指标值,由此产生的误差值各不相同。抽样误差中的代表性误差是抽样调查本身所固有的、无法避免的误差,但随机性误差则可利用大数定律精确地计算并能够通过抽样设计程序扣以控制。
抽样误差不包括下面两类误差:一类是调查误差,即在调查过程中由于观察、测量、登记、计算上的差错而引起的误差;另一类是系统性误差,即由于违反抽样调查的随机原则,有意抽选较好单位或较坏单位进行调查,这样造成样本的代表性不足所引起的误差。这两类误差都属于思想、作风、技术等问题,所以是可以防止和避免的。
6.4.2. 影响抽样误差的因素
1. 抽样单位数的多少。由于总体内各元素之间总存在着差异,在其他条件不变的情况下,大量观察总比小量观察易于发现总体规律或特征,因此样本容量越大越能代表总体特征,抽样误差就越小。反之,样本容量越小,抽样误差就可能越大。
2. 总体各单位标志值的差异程度。总体内各单位标志的差异程度愈小,或总体的标准差愈小,在其他条件给定下,则抽样误差就愈小。反之,抽样误差就愈大。
3. 抽样方法。抽样方法不同,抽样误差也不同。一般说来,重复抽样的误差比不重复抽样的误差要大。
4. 抽样的组织形式。选择不同的抽样组织形式,也会有不同的抽样误差。
6.4.3. 抽样平均误差
一个总体可能抽取很多个样本,因此样本指标(样本平均数、样本成数等)就有不同的数值,它们与总体指标(总体平均数、总体成数等)的离差(即抽样误差)也就不同。抽样平均误差就是反映抽样误差一般水平的指标,通常用样本平均数(或样本成数)的标准差来表示。
1. 样本平均数的平均误差
以μx表示样本平均数的平均误差,表示总体的标准差。根据定义:
(1)当抽样方式为重复抽样时,样本标志值x1,x2,…xn是相互独立的,样本变量x与总体变量X同分布。所以得:
(6–1)
它说明在重复抽样的条件下,抽样平均误差与总体标准差成正比,与样本容量的平方根成反比。
例6–1 有5个工人的日产量分别为(单位:件):6,8,10,12,14,用重复抽样的方法,从中随机抽取2个工人的日产量,用以代表这5个工人的总体水平。则抽样平均误差为多少?
解:根据题意可得:
总体标准差
(2)当抽样方式为不重复抽样时,样本标志值x1,x2,…,xn不是相互独立的,根据数理统计知识可知:
(6–2)
当总体单位数N很大时,这个公式可近似表示为:
(6–3)
与重复抽样相比,不重复抽样平均误差是在重复抽样平均误差的基础上,再乘以,而总是小于1,所以不重复抽样的平均误差也总是小于重复抽样的平均误差。如前例,若改用不重复抽样方法,则抽样平均误差为:
在计算抽样平均误差时,通常得不到总体标准差的数值,一般可以用样本标准差来代替总体标准差。
2. 抽样成数的平均误差
总体成数P可以表现为总体是非标志的平均数。即E(X)=P,它的标准差。
根据样本平均误差和总体标准差的关系,可以得到样本成数的平均误差的计算公式。
(1)在重复抽样下
(6–4)
(2)在不重复抽样下
(6–5)
当总体单位数N很大时,可近似地写成:
(6–6)
当总体成数未知时,可以用样本成数来代替。
例6–2,某企业生产的产品,按正常生产经验,合格率为90%,现从5000件产品中抽取50件进行检验,求合格率的抽样平均误差。
解:根据题意,在重复抽样条件下,合格率的抽样平均误差为:
在不重复抽样条件下,合格率的抽样平均误差为:
6.4.4. 抽样极限误差
抽样极限误差,又称置信区间和抽样允许误差范围,是指在一定的把握程度(P)下保证样本指标与总体指标之间的抽样误差不超过某一给定的最大可能范围,记作Δ。作为样本的随机变量——抽样指标值(),是围绕以未知的唯一确定的全及指标真值()为中心上下波动,它与全及指标值可能会产生正或负离差,这些离差均是抽样指标的随机变量,因而难以避免,只能将其控制在预先要求的误差范围()内。
或
由于和是预先给定的抽样方案中所允许的误差范围,所以利用和可以反过来估计未知的全及指标的取值可能的范围。解上述两个绝对值不等式便可得:
例6–3 例如要估计北京北站整车到达货物的平均运送时间。从交付的全部整车货票共26 193批中,用不重复抽样抽取2 718批货票。若允许的抽样极限误差=0.215(天),经计算知所抽取的每批货物平均运送时间为=5.64(天),那么北京北站整车到达货物的平均运送时间区间估计为(5.64–0.125,5.64+0.125),即在5.515到5.765天之间。
例6–4 资料同上,若要估计北京北站整车到达货物的逾期运到率(报告期内超过规定货物运到期限运到的货物批数/货物的到达总批数),从随机抽取的2718批货票中,计算得抽样逾期到率为6.43%,所确定的抽样极限误差为=0.642%,由此可得北京北站总体的逾期运到率的区间估计是(6.43%-0.642%,6.43%+0.642%)。
6.4.5. 抽样估计的概率度、精度和可靠程度
1. 抽样估计的概率度
抽样极限误差Δ是单个样本值与总体指标值之间的绝对离差,而抽样平均误差μ是所有可能样本值与总体指标值之间的平均离差,用抽样极限误差与抽样平均误差相比,从而使由单一样本值得到的抽样极限误差标准化,这样可称为抽样标准极限误差,但通常称其为概率度(t)或相对误差范围。
由此可知,标准正态分布变量t服从标准正态概率分布。
2. 抽样估计的精度
为了比较不同现象总体的抽样误差程度,必须消除总体规模大小悬殊的影响,通常还需计算抽样误差系数,抽样误差系数记作,反映了抽样误差的相对程度。其计算公式为:
则抽样估计精度(A)公式为:
3. 抽样估计的可靠程度
置信区间的测定总是在一定的概率保证程度下进行的,因为既然抽样误差是一个随机变量,就不能指望抽样指标落在置信区间内成为必然事件,只能视为一个可能事件,这样就必定要用一定的概率来给予保证。抽样误差的可能范围是估计的准确性问题,而保证抽样指标落在抽样误差的可能范围之内则是估计的可靠性问题。所以抽样估计可靠程度又称置信度。具体地说,置信区间是以一定的概率把握程度确定总体指标所在的区间。置信度是总体指标落在某个区间的概率把握程度。
抽样估计的可靠程度即概率用P表示,P是t的函数。而p=F(t)表明概率分布是概率度t的函数。确定抽样估计的可靠程度,就是要确定抽样平均数()或抽样成数(p)落在置信区间()或()中的概率P。F(t)的函数形式为:
由此可知,t增大,Δ也增大,即tμ增大,这表明所要求的误差范围增大,说明从总体中随机抽取一个样本,其样本值落在这个较大的置信区间内可能性或把握性P愈大;反之,t减小,Δ也减小,即tμ减小,这表明所要求的误差范围减小,说明从总体中随机抽取一个样本,其样本值落在这个较小的置信区间内的可能性或把握性愈小。
应用标准正态分布概率表,可以得出抽样指标落在置信区间内的置信度。
下面将常用的概率保证程度即概率面积与对应的概率度列入表6–1中:
表6–1 常用概率面积、概率度对应表
概率面积F(t)
概率度t
概率面积F(t)
概率度t
0.6827
0.7995
0.8664
0.90
0.9500
1.00
1.28
1.50
1.64
1.96
0.9545
0.99
0.9973
0.99994
0.999999
2.00
2.58
3.00
4.00
5.00
6.5 全及指标推断
全及指标的推断是指对总体平均数和总体成数P推断估计的问题。抽样调查的直接目的,就是为了推断、P,然后,再结合总体单位数N去推算总体的有关标志总量。总体指标的推断有点估计和区间估计两种方法。
6.5.1. 点估计
点估计也称定值估计,它是以抽样得到的样本指标作为总体指标的估计量,并以样本指标的实际值直接作为总体未知参数的估计值的一种推断方法。点估计的方法有矩估计法、顺序统计量法、最大似然法、最小二乘法等。这里仅介绍最为简单、直观又常用的矩估计法。
1. 矩估计法
在统计学中,矩是指以期望为基础而定义的数字特征,一般分为原点矩和中心矩。
设X为随机变量,对任意正整数k,称E(Xk)为随机变量X的k阶原点矩,记为:
mk=E(Xk)
当k=1时,
m1=E(X)=μ
可见一阶原点矩为随机变量X的数学期望。
我们把Ck=E[X-E(X)]k称为以E(X)为中心的k阶中心矩。
显然,当k=2时,
C2=E[X-E(X)]2=
可见二阶中心矩为随机变量X的方差。
例6–5 已知某种灯泡的寿命X~N(μ,),其中,μ,都是未知的,今随机取得4只灯泡,测得寿命(单位:小时)为1502,1453,1367,1650,试估计μ和。
解:因为μ是全体灯泡的平均寿命,为样本的平均寿命,很自然地会想到用去估计μ;同理用S去估计。由于
故μ及的估计值分别为1493小时及118.61小时。
矩估计法简便、直观,比较常用,但是矩估计法也有其局限性。首先,它要求总体的k阶原点矩存在,若不存在则无法估计;其次,矩估计法不能充分地利用估计时已掌握的有关总体分布形式的信息。
通常设θ为总体X的待估计参数,一般用样本X1,X2,…,Xn构成一个统计量来估计θ则称为θ的估计量。对于样本的一组数值x1,x2,…,xn,估计量的值(x1,x2,…,xn)称θ的估计值。于是点估计即是寻求一个作为待估计参数θ的估计量(x1,x2,…,xn)的问题。但是必须注意,对于样本的不同数值,估计值是不相同的。
如在例6–5中,我们分别用样本平均数和样本修正方差来估计总体数学期望和总体均方差,即有:
其对应于给定的估计值。
2. 点估计的优良性准则
样本统计量,如样本均值,样本标准差S,样本成数如何用于对相应总体参数μ、和p的点估计值。直观上,这些样本统计量对相应总体参数的点估计值是很有吸引力的。然而,在用一个样本统计量作为点估计量之前,统计学应检验说明这些样本统计量是否具有某些与好的点估计量相联系的性质。本节我们讨论好的点估计量的性质:无偏性、有效性和一致性。
由于有许多不同的样本统计量用作总体不同参数的点估计量,本节我们采用如下的一般记号。
θ––––所感兴趣的总体参数
––––样本统计量或θ的点估计量
θ代表一总体的参数,如总体均值、总体标准差和总体比率等等;代表相应的样本统计量,如样本均值、样本标准差和样本比率。
(1).无偏性
如果样本统计量的数学期望等于所估计的总体参数的值,该样本统计量称作总体参数的无偏估计量。无偏性的定义如下:
如果E()=θ
则称样本统计量是总体参数θ的无偏估计。
式中E()––––样本统计量的数学期望
因此,样本无偏统计量的所有可能值的期望值或均值等于被估计的总体参数。
(2).有效性
假定含n个元素的一个简单随机样本用于给出同一总体参数的两个不同的无偏点估计量。这时,我们偏好于用标准差较小的点估计量,因为它给出的估计值与总体参数更接近。有较小标准差的点估计量称作比其他点估计量有更好的相对效率。
(3).一致性
与一个好的点估计相联系的第三个性质为一致性。粗略地讲,如果当样本容量更大时,点估计量的值更接近于总体参数,该点估计量是一致的。换言之,大样本比小样本趋于接进一个更好的点估计。注意到对样本均值,我们证明标准差=。由于与样本容量相关,较大的样本容量得到的的值更小,我们得出大样本容量趋于给出的点估计更接近于总体均值μ。在这个意义上,我们可以说样本均值是总体均值μ的一个一致估计量。
但由于在实际抽样调查中一次只是随机抽取一个样本,导致估计值会因样本的不同而不同,甚至产生很大的差异。所以说,点估计是一种的估计或推断,其缺点是既没有解决参数估计的精确问题,也没有考虑估计的可靠性程度,只有区间估计才能解决这两个问题。不过,由于点估计直观、简单,对于那些要求不太高的判断和分析,可以使用此种方法。
6.5.2. 区间估计
1. 区间估计的思想
区间估计就是以一定的概率保证估计包含总体参数的一个值域,即根据样本指标和抽样平均误差推断总体指标的可能范围。它包括两部分内容:一是这一可能范围的大小;二是总体指标落在这个可能范围内的概率。区间估计既说清估计结果的准确程度,又同时表明这个估计结果的可靠程度,所以区间估计是比较科学的,它是本节阐述的重点。
用样本指标来估计总体指标,要达到100%的准确而没有任何误差,几乎是不可能的,所以在估计总体指标时就必须同时考虑估计误差的大小。从人们的主观愿望上看,总是希望花较少的钱取得较好的效果,也就是说希望调查费用和调查误差越小越好。但是,在其他条件不变的情况下,缩小抽样误差就意味着增加调查费用,它们是一对矛盾。因此,在进行抽样调查时,应该根据研究目的和任务以及研究对象的标志变异程度,科学确定允许的误差范围。
区间估计必须同时具备三个要素。即具备估计值、抽样极限误差和概率保证程度三个基本要素。抽样误差范围决定抽样估计的准确性,概率保证程度决定抽样估计的可靠性,二者密切联系,但同时又是一对矛盾,所以,对估计的精确度和可靠性的要求应慎重考虑。
在实际抽样调查中,区间估计根据给定的条件不同,有两种估计方法:①给定极限误差,要求对总体指标做出区间估计;②给定概率保证程度,要求对总体指标做出区间估计。
例6–6 某企业对某批电子元件进行检验,随机抽取100只,测得平均耐用时间为1000小时,标准差为50小时,合格率为94%,求:
(1)以耐用时间的允许误差范围Δx=10小时,估计该批产品平均耐用时间的区间及其概率保证程度。
(2)以合格率估计的误差范围不超过2.45%,估计该批产品合格率的区间及其概率保证程度。
(3)试以95%的概率保证程度,对该批产品的平均耐用时间做出区间估计。
(4)试以95%的概率保证程度,对该批产品的合格率做出区间估计。
求(1)的计算步骤:
①求样本指标:
②根据给定的Δx =10小时,计算总体平均数的上、下限:
下限
上限
③根据t=Δx/μx=10/5=2,查概率表得F(t)=95.45%
由以上计算结果,估计该批产品的平均耐用时间在990~1010小时之间,有95.45%的概率保证程度。
求(2)的计算步骤:
①求样本指标:
p=94%
②根据给定的Δp=2.45%,求总体合格率的上、下限:
下限
上限
③根据t=Δp /μp=2.45%/2.38%=1.03,查概率表得F(t)=69.70%
由以上计算结果,估计该批产品的合格率在91.55%~96.45%之间,有69.70%的概率保证程度。
解:求(3)的计算步骤:
①求样本指标:
②根据给定的F(t)=95%,查概率表得t=1.96。
③根据Δx=t×μx=1.96×5=9.8,计算总体平均耐用时间的上、下限:
下限
上限
所以,以95%的概率保证程度估计该批产品的平均耐用时间在990.2~1009.8小时之间。
求(4)的计算步骤:
①求样本指标:
p=94%
②下限p-Δp=94%-4.6%=89.4%
上限p+Δp=94%+4.6%=98.6%。
所以,以95%的概率保证程度估计该批产品的合格率在89.4%~98.6%之间。
2. 当2已知时,求μ的置信区间
例6–7 某种零件的长度服从正态分布,从该批产品中随机抽取9件,测得它们的平均长度为21.4毫米,已知总体标准差为=0.15毫米,试建立该种零件平均长度的置信区间,假定给定置信水平为0.95。
解:已知X~N(μ,0.152),=21.4,n=9,1-α=0.95,因为 (6–13)
所以对于给定的置信水平0.95,有
。
当α=0.05时,Uα/2=1.96,于是有
即总体均值的置信区间为[21.302,21.498]。
我们有95%的概率保证该种零件的平均长度在21.302毫米和21.498毫米之间。
例6–8 某保险公司自投保人中随机抽取36人,计算出此36人的平均年龄=39.5岁,已知投保人年龄分布近似正态分布,标准差为7.2岁,试求所有投保人平均年龄的置信区间(1-α=99%)。
解:已知,X~N(μ,7.22),=39.5岁,n=36,1-α=0.99,则
当α=0.01,有Uα/2=U0.01/2=U0.005=2.575,所以
,即总体的置信区间为[36.41,42.59]。有99%的把握保证投保人的平均年龄在36~42岁之间。
3. 当2未知时,求μ的置信区间
不知道总体方差时,一个很自然的想法是用样本方差来代替,这时,需要考虑的问题是,用样本方差代替总体方差后,统计量服从的是什么分布,以下定理给出了统计量T的分布形式。
定理 设x1,x2,…xn,(n≥2)是来自总体N(μ,2)的一个样本,则
(6–14)
t分布具有如下特性:
(1).t分布与标准正态分布相似,是以x=0为对称轴的钟形对称分布,取值范围是(-∞,+∞),但是t分布的方差大于1,比标准正态分布的方差大,所以从分布曲线看,t分布的曲线较标准正态分布平缓。
(2).t分布的密度函数为
.
t分布的密度函数中只有一个参数,称为自由度。如果随机变量X具有以上形式的分布密度,则称X服从自由度为n的t分布,记为X~t(n)。随着自由度的增大,t分布的变异程度逐渐减小,其方差逐渐接近1,当n→∞时,t分布成为正态分布。
(3).随机变量X落在某一区域内的概率,等于t分布曲线下,相应区域的面积,对于不同的n,同样的区域下的概率不同,见书后附表:t分布表。如n=10,X落入[-1.372,+1.372]区间的概率为0.9,而当n=20时,概率为0.9所对应的区间为[-1.325,+1.325];当n=30时,概率为0.9所对应的区间为[-1.31,+1.31]。
关于t分布的特性就讨论到此,现在回到如何应用t分布求解置信区间的问题,既然定理已经证明了统计量 服从n-1个自由度的t分布,则对于给定的显著性水平α,不难找出tα/2(n-1),使得。于是得到以1-α置信水平保证的置信区间
例6–9 某研究机构进行了一项调查来估计吸烟者一月花在抽烟上的平均支出,假定吸烟者买烟的月支出近似服从正态分布。该机构随机抽取了容量为26的样本进行调查,得到样本平均数为80元,样本标准差为20元,试以95%的把握估计全部吸烟者月均烟钱支出的置信区间。
解:已知=80,S=20,n=26,1-α=0.95
由于不知道总体方差,所以用样本方差代替。因为
根据α=0.05,查阅t分布表得,t0.05/2(25)=2.06。
所以有
={80-2.06(3.92)<μ<80+2.06(3.92)}=0.95,即总体的置信区间为[71.92,88.08]。
有95%的把握认为吸烟者月均烟钱支出在71.92元到88.08元之间。
例6–10 从某大学本科生中随机抽选100人,调查到他们平均每天参加体育锻炼的时间为35分钟,样本标准差为6分钟,根据以往调查记录,学生参加体育锻炼的时间近似服从正态分布,试以99%的概率估计该校本科生平均参加体育锻炼的时间。
解:已知X服从正态分布,且=35,S=6,n=100,1-α=0.99,不知总体方差用样本方差代替,所以统计量服从t(n-1)分布,查表得,t0.01/2(99)≈2.63,则有总体均值的置信区间为
=[35-2.63(6/10),35+2.63(6/10)]
=[33.422,36.578]
有99%的把握认为该校全体本科生平均每天参加体育锻炼的时间在33.422分钟到36.578分钟之间。
(四)单个非正态总体或总体分布未知,求U的置信区间
当总体为非正态分布,或不知总体的分布形式时,只要知道总体方差,则根据Lindeberg-Levy中心极限定理,当n很大时,统计量就近似服从标准正态分布,经验上,n>30就可以认为是大样本了。
例6–11 设某金融机构共有8042张应收账款单,根据过去记录,所有应收账款的标准差为3033.4元。现随机抽查了250张应收款单,得平均应收款为3319元,求98%置信水平的平均应收款。
解:已知=3319元,n=250>30,1-α=0.98,=3033.4
因为近似服从标准正态分布,Uα/2=U0.02/2=2.33,则总体均值的置信区间为
根据调查结果,我们有98%的把握认为全部账单的平均金额至少为2871.99元,至多为3766元。
以上例题虽然不知总体分布形式,但总体的方差是已知的,而在实际中往往并不知道总体的方差,在实际应用中,只要是大样本,则仍然可以用样本方差代替统计量η中的总体方差,并以标准正态分布近似作为统计量η的抽样分布。
例6–12 某地区抽查了400户农民家庭的人均化纤布的消费量,得到平均值为3.3米,标准差为0.9米,试以95%的置信水平估计该地区农民家庭人均化纤布的消费量。
解:因为n=400是大样本,则有
Uα/2=U0.025=1.96,
P{3.3-1.96(0.049)<μ<3.3+1.96(0.049)}
=P{3.204<μ<3.396}=0.95
置们区间为[3.204,3.396]。
所以,有95%的把握认为该地区农民化纤布的消费量在3.204米至3.396米之间。
例6–13 某无线电广播公司要估计某市65岁以上的已退休的人中一天时间里收听广播的时间,随机抽取了一个容量为200的样本,得到样本平均数为110分钟,样本标准差为30分钟,试估计总体均值95%的置信区间。
解:已知=110分钟,n=200>30,S=30,1-α=0.95,
=U0.025=1.96,则有置信区间
所以,有95%的把握认为该市65岁以上已退休的人每天收听无线电广播的时间在105.84分钟和114.16分钟之间。
6.6 样本容量的确定
在参数区间估计的讨论中,估计值和总体的参数之间存在着一定的差异,这种差异是由样本的随机性产生的。在样本容量不变的情况下,若要增加估计的可靠度,置信区间就会扩大,估计的精度就降低了。若要在不降低可靠性的前提下,增加估计的精确度,就只有扩大样本容量。当然,增大样本容量要受到人力、物力和时间等条件的限制,所以需要在满足一定精确度的条件下,尽可能恰当地确定样本容量。
6.6.1. 影响样本容量的因素
1. 总体的变异程度(总体方差)
在其它条件相同的情况下,有较大方差的总体,样本的容量应该大一些,反之则应该小一些。例如:在正态总体均值的估计中,抽样平均误差为它反映了样本均值相对于总体均值的离散程度。所以,当总体方差较大时,样本的容量也相应要大,这样才会使较小,以保证估计的精确度。
2. 允许误差的大小
允许误差指允许的抽样误差,记为,例如,样本均值与总体均值之间的允许误差可以表示为 ,允许误差以绝对值的形式表现了抽样误差的可能范围,所以又称为误差。
允许误差说明了估计的精度,所以,在其他条件不变的情况下,如果要求估计的精度高,允许误差就小,那么样本容量就要大一些;如要求的精确度不高,允许误差可以大些,则样本容量可以小一些。
3. 概率保证度1-α的大小
概率保证度说明了估计的可靠程度。所以,在其他条件不变的情况下,如果要求较高的可靠度,就要增大样本容量;反之,可以相应减少样本容量。
4. 抽样方法不同
在相同的条件下,重复抽样的抽样平均误差比不重复抽样的抽样平均误差大,所需要的样本容量也就不同。重复抽样需要更大的样本容量,而不重复抽样的样本容量则可小一些。
此外,必要的抽样数目还要受抽样组织方式的影响,这也是因为不同的抽样组织方式有不同的抽样平均误差。
6.6.2 样本容量的确定
1. 估计总体均值的样本容量
在总体均值的区间估计里,置信区间是由下式确定的:
例如,对于正态总体以及非正态总体大样本时,都是以它为置信区间。
从图6–1中可以看到,从估计量x的取值到点的距离实际上为置信区间长度的。这段距离表示在一定置信水平1-α下,用样本均值估计总体均值时所允许的最大绝对误差即允许误差Δ。显然,若以x的取值为原点,则允许误差Δ可以表示为:
(6–15)
x=0
图6–1 允许误差示意图
公式(6–15)反映了允许误差Δ、可靠性系数、总体标准差与样本容量之间的相互制约关系。只要这四个因素中的任意三个因素确定后,另一个因素也就确定了。
在重复抽样条件下,把允许误差Δ的计算公式变形整理,则得到样本容量的计算公式:
(6–16)
在不重复抽样的条件下,抽样允许误差为 , 因此变形后得到不重复抽样条件下的样本容量公式为
n= (6–17)
例6–14 某食品厂要检验本月生产的10 000袋某产品的重量,根据以往的资料,这种产品每袋重量的标准差为25克。如果要求在95.45%的置信度下,平均每袋重量的误差不超过5克,应抽查多少袋产品?
解 由题意可知N=20 000,=25克,=5克,根据置信度1–α=95.45%,有=2。在重复抽样的条件下
n=(袋)
在不重复抽样条件下
n==99(袋)
由计算结果可知:在其它条件相同的情况下,重复抽样所需要的样本容量大于不重复抽样所需要的样本容量。
在计算样本容量时,必须知道总体的方差,而在实际抽样调查前,往往总体的方差是未知的。在实际操作时,可以用过去的资料,若过去曾有若干个方差,应该选择最大的,以保证抽样估计的精确度;也可以进行一次小规模的调查,用调查所得的样本方差来替代总体的方差。
2. 估计总体成数时的样本容量
估计总体成数时样本容量的确定方法与估计总体均值是一样的,设为允许误差,在1—a的置信度下,重复抽样条件下有
解上面的方程可得重复抽样条件下样本容量的公式为
同理可得不重复抽样条件下的样本容量公式为
(6–19)
在估计成数时,计算样本容量时需要总体的成数,但是总体的成数通常是未知的,在实际的抽样调查时,可先进行小规模的试调查求得样本的成数来代替。也可用历史的资料,如果有若干个成数可供选择,则应选择最靠近50%的成数,使样本成数的方差最大,以保证估计的精确度。
例6–15 为了检查某企业生产的10 000个显像管的合格率,需要确定样本的容量。根据以往经验合格率为90%、91.7%。如果要求估计的允许误差不超过0.0275,置信水平为95.45%。求应该取多少只显像管?
解 根据资料,我们应该选择P=0.9计算样本容量,根据置信水平0.9545,有=2,
重复抽样条件下,样本容量
不重复抽样条件样本容量
从计算的结果可以看出,重复抽样应该抽477件件检验,而不重复抽样应该抽455件,可见,在相同条件下,重复抽样需要的样本容量更大。
6.7 假设检验
假设检验是抽样推断的一个重要内容。所谓假设检验,就是事先对总体参数或总体分布形式做出一个假设,然后利用样本信息来判断原假设是否合理,即判断样本信息与原假设是否有显著差异,从而决定应接受式拒绝原假设。比如,对于某机器设备,生产工艺改变后,要检验新工艺对产品的某个主要指标是否有影响时,就需要抽样检验总体的某个参数(如均值、方差等)是否等于改变工艺前的参数值,这类问题就属于假设检验问题。
假设检验可分为两类,一是参数假设检验;二是非参数检验或自由分布检验,主要是总体分布形式的假设检验。本书只讨论几种重要的参数检验。
6.7.1. 假设检验一般问题
1. 假设检验的基本思想
先通过一个例子来说明假设检验的基本思想。
例6–16 某企业生产一种零件,过去的大量资料表明,零件的平均长度为4厘米,标准差为0.1厘米。改革工艺后,抽查了100个零件,测得样本平均长度为3.94厘米。现问:工艺改革前后零件的长度是否发生了显著的变化?
这是关于工艺改革前后零件的平均长度(总体平均数)是否等于4的假设检验问题。我们知道,样本平均长度与原平均长度出现差异不外乎两种可能:一是改革后的总体平均长度不变,但由于抽样的随机性使样本平均数与总体平均数之间存在抽样误差;二是由于工艺条件的变化,使总体平均数发生了显著的变化。因此可以这样推断:如果样本平均数与总体平均数之间的差异不大,未超出抽样误差范围,则认为总体平均数不变;反之,如果样本平均数与总体平均数之间的差异超出了抽样误差范围,则认为总体平均数发生了显著的变化。
由上面例子可以看出,假设检验是对调查人员所关心的却又是未知的总体参数先做出假设,然后抽取样本,利用样本提供的信息对假设的正确性进行判断的过程。
2. 假设检验的步骤
(1).提出原假设和备择假设
对每个假设检验问题,一般可同时提出两个相反的假设:原假设和备择假设。原假设又称零假设,是正待检验的假设,记为H0;备择假设是拒绝原假设后可供选择的假设,记为H1。原假设和备择假设是相互对立的,检验结果二者必取其一。接受H0则必须拒绝H1;反之,拒绝H0则必须接受H1。
原假设和备择假设不是随意提出的,应根据所检验问题的具体背景而定。常常是采取“不轻易拒绝原假设”的原则,即把没有充分理由不能轻易否定的命题作为原假设,而相应地把没有足够把握就不能轻易肯定的命题作为备择假设。
一般地,假设有三种形式:
a. H0:μ=μ0;H1:μ≠μ0。这种形式的假设检验称为双侧检验。如例6–14中可提出假设:H0:μ=4厘米;H1:μ≠4厘米。
b. H0:μ=μ0;H1:μ<μ0(或H0:μ≥μ0;H1:μ<μ0)。这种形式的假设检验称为左侧检验。
c. H0:μ=μ0;H1:μ>μ0(或H0:μ≤μ0;H1:μ>μ0)。这种形式的假设检验称为右侧检验。
左侧检验和右侧检验统称为单侧检验。采用哪种假设,要根据所研究的实际问题而定。如果对所研究问题只需判断有无显著差异或要求同时注意总体参数偏大或偏小的情况,则采用双侧检验。如果所关心的是总体参数是否比某个值偏大(或偏小),则宜采用单侧检验。在例6–14中,如果我们在乎的是零件长度是否比原来有所缩短,则可采用单侧检验,即H0:μ=4厘米(或μ≥4厘米);H1:μ<4厘米。
(2).选择适当的统计量,并确定其分布形式
在参数的假设检验中,如同在参数估计中一样,要借助于样本统计量进行统计推断。用于假设检验问题的统计量称为检验统计量。在具体问题里,选择什么统计量作为检验统计量,需要考虑的因素与参数估计相同。例如,用于进行检验的样本是大样本还是小样本,总体方差已知还是未知,等等。在不同的条件下应选择不同的检验统计量。
(3).选择显著性水平α,确定临界值
显著性水平表示H0为真时拒绝H1的概率。假设检验是围绕对水平假设内容的审定而展开的。如果原假设正确我们接受了(同时也就拒绝了替换假设),或原假设错误我们拒绝了(同时也就接受了替换假设),这表明我们做出了正确的决定。但是,由于假设检验是根据样本提供的信息进行推断的,也就有犯错误的可能。有这样一种情况,原假设正确,而我们却把它当成错误的加以拒绝。犯这种错误的概率用α表示,统计上把α称为假设检验中的显著性水平(Significant level),也就是决策中所面临的风险。所以,显著性水平是指当原假设为正确时人们却把它拒绝了的概率或风险。这个概率是由人们确定的,通常取α=0.05或α=0.01,这表明,当做出接受原假设的决定时,其正确的可能性(概率)为95%或99%。即拒绝原假设所冒的风险,用α表示。假设检验应用小概率事件实际极少发生的原理,这里的小概率就是指α。给定了显著性水平α,就可由有关的概率分布表查得临界值,从而确定H0的接受区域和拒绝区域。临界值就是接受区域和拒绝区域的分界点。
对于不同形式的假设,H0的接受区域和拒绝区域也有所不同。双侧检验的拒绝区域位于统计量分布曲线的两侧;左侧检验的拒绝区域位于统计量分布曲线的左侧;右侧检验的拒绝区域位于统计量分布曲线的右侧。如图6–2所示。
图6–2 假设检验的接受区域和拒绝区域
(4).做出结论
根据样本资料计算出检验统计量的具体值,并用以与临界值比较,做出接受或拒绝原假设H0的结论。如果检验统计量的值落在拒绝区域内,说明样本所描述的情况与原假设有显著性差异,应拒绝原假设;反之,则接受原假设。
3. 假设检验的小概率原理
假设检验的基本思想是应用小概率的原理。所谓小概率原理,是指发生概率很小的随机事件在一次实验中是几乎不可能发生的。根据这一原理,可以做出是否接受原假设的决定。例如,有一个厂商声称其产品的合格率很高,可以达到99%,那么从一批产品(如100件)中随机抽取1件,这一件恰好是次品的概率就非常小,只有1%。如果厂商的宣称是真的,随机抽取1件是次品的情况就几乎是不可能发生的。但如果这种情况确实发生了,我们就有理由怀疑原来的假设,即产品中只有1%次品的假设是否成立,这时就可以推翻原来的假设,可以做出厂商的宣称是假的这样一个推断。我们进行推断的依据就是小概率原理。当然,推断也可能会犯错误,即这100件产品中确实只有1件是次品,而恰好在一次抽取中被抽到了。所以这个例子中犯这种错误的概率是1%,也就是说我们在冒1%的风险做出厂商宣称是假的这样一个推断。由此也可以看出,这里的1%正是前面所说的显著性水平。
6.7.2. 总体均值、比例的假设检验
1. 总体方差已知时对正态总体均值的假设检验
设总体X~N(μ,σ2),总体方差σ2 为已知,(x1,x2,…,xn)为总体的一个样本,样本平均数为。现在的问题是对总体均值μ进行假设检验。H0: μ=μ0 (或μ≤μ0 、μ≥μ0 )。
根据抽样分布定理,样本平均数服从N(μ,σ2 / n),所以,如果H0成立时,检验统计量U 及其分布为:
利用服从正态分布的统计量U进行的假设检验称为U检验法。根据已知的总体方差、样本容量n和样本平均数,计算出检验统计量U的值。对于给定的检验水平,查正态分布表可得临界值,将所计算的U值与临界值比较,便可做出检验结论。
例6–17 根据过去大量资料,某厂生产的产品的使用寿命服从正态分布N(1020,1002)。现从最近生产的一批产品中随机抽取16件,测得样本平均寿命为1080小时。试在0.05的显著性水平下判断这批产品的使用寿命是否有显著提高?
解:根据题意,提出假设:H0: μ=1020;H1: μ>1020,
检验统计量
由α=0.05,查表得临界值U0.05=1.645
由于U=2.4>Uα=1.645,所以应拒绝H0而接受H1,即这批产品的使用寿命确有显著提高。
2. 总体方差未知时对正态总体均值的假设检验
设总体X~N(μ,2),但总体方差2 未知,此时对总体均值的检验不能用上述U检验法,因为此时的检验统计量U中包含了未知参数。为了得到一个不含未知参数的检验统计量,很自然会用总体方差的无偏估计量–––样本方差S2 来代替2 ,于是得到T统计量。根据上节内容已知道,检验统计量T及其分布为:
T
利用服从t分布的统计量去检验总体均值的方法称为T检验法。其具体做法是:根据题意提出假设(与U检验法中的假设形式相同);构造检验统计量T并根据样本信息计算其具体值;对于给定的检验水平α,由t分布表查得临界值;将所计算的t值与临界值比较,做出检验结论。
双侧检验时,若> tα/2,则拒绝H0,接受H1。
左侧检验时,若T< – tα,则拒绝H0,接受H1。
右侧检验时,若T> tα,则拒绝H0,接受H1。
例6–18 从长期的资料可知,某厂生产的某种电子原件服从均值为200小时,标准差未知的正态分布。通过改变部分生产工艺后,抽得10件做样本得数据(小时):
202,209,213,198,206,210,195,208,200,207
解:根据题意,检验目的是考察电子原件的平均值数据是否有所提高。因此,可建立如下假设:
根据已知数据求得=204.8, S=5.789
检验统计量 T
由α=0.05,查表得临界值
由于,所以拒绝H0接受H1,即可以接受“在新工艺下,这种电子元件的平均值有所提高的假设”。
T检验法适用于小样本情况下总体方差未知时对正态总体均值的假设检验。随着样本容量n的增大,t分布趋近于标准正态分布。所以大样本情况下(n>30),总体方差未知时对正态总体均值的假设检验通常近似采用U检验法。同理,大样本情况下非正态总体均值的检验也可用U检验法。因为,根据大样本的抽样分布定理,总体分布形式不明或为非正态总体时,样本平均数趋近于正态分布。这时,检验统计量U中的总体标准差用样本标准差S来代替。
3. 总体比例的假设检验
由比例的抽样分布定理可知,样本比例服从二项分布,因此可由二项分布来确定对总体比例进行假设检验的临界值,但其计算往往十分繁琐。大样本情况下,二项分布近似服从正态分布。因此,对总体比例的检验通常是在大样本条件下进行的,根据正态分布来近似确定临界值,即采用U检验法。其检验步骤与均值检验时的步骤相同,只是检验统计量不同。
首先提出待检验的假设:
检验统量为
例6–19 调查人员在调查某企业的主要生产线时,被告知性能良好生产稳定,产品合格率可达99%。随机抽查了200件产品,其中195件产品合格,判断厂方的宣称是否可信?(α=10%)。
解:依题意,可建立如下假设:
样本比例
由于样本容量相当大,所以可近似采用U检验法。
给定α=0.1,查正态分布表得
由于,应接受原假设,即认为厂方的宣称是可信的。
6.8. EXCEL区间估计与假设检验
6.8.1. CONFIDENCE(置信区间)函数
CONFIDENCE(alpha, standard-dev, size)
返回总体平均值的置信区间。
Alpha(即α)是用于计算置信度的显著水平参数。置信度等于(1-α),亦即,如果α为0.05,则置信度为0.95。
Standard-dev 数据区域的总体标准差,假设为已知(实际中,总体标准差未知时通常用样本标准差代替)。
Size 样本容量(即n)。
如果假设α等于0.05,则需要计算标准正态分布曲线(1-α=0.95)之下的临界值,查表知其临界值为±1.96。因此置信区间为:
以某厂对一批产品的质量进行抽样检验为例,抽样数据和要求如下:采用重复抽样抽取样品200只,样本优质品率为85%,试计算当把握程度为90%时优质品率的允许误差。我们可以在EXCEL中分别在:
◆B1单元格中输入样本容量200;
◆B2单元格中输入样本比率85%;
◆在B3单元格中输入计算样本比率的标准差公式“=SQRT(B2*(1-B))”;
◆在B4单元格输入α为10%;
◆在B5单元格中输入表达式:“CONFIDENCE(B4,B3,B1)”,即得到等于4.15%。
CONFIDENCE函数的应用如图6–3和图6–4所示。
图6–3 总体优质品率的区间估计
图6–4 CONFIDENCE函数
6.8.2. 方差未知时一个总体均值的t检验
按照例6–18,将10个样本资料分别输入到B1:B10单元格中。
◆在单元格B11中键入公式“=AVERAGE(B1:B10)”并回车得到均值;
◆在单元格B12中键入公式“=STDEV(B1:B10)”并回车得到标准差;
◆在单元格B13中键入公式“=COUNT(B1:B10)”并回车得到样本数;
◆在单元格B14中键入公式“=(B11-200)/(B12/SQRT(B13))”并回车得到t值,其中“200”是题目中给出的总体均值;
◆在单元格B15中键入公式“=TINV(0.05,B13-1)”得到α=0.05,自由度=9的临界值。
图6–5 t检验
从图6–5的结果来看,在自由度为9时,t(=2.62)>t0.05(=2.26),因此,应该拒绝H0假设,接受“在新工艺下,这种电子元件的平均值有所提高”的假设。
实训练习
【基本训练】
单项选择
1.抽样调查的目的在于( )
①了解总体的基本情况 ②用样本指标推断总体指标
③对样本进行全面调查 ④了解样本的基本情况
2.抽样调查所特有的误差是( )
①由于样本的随机性而产生的误差 ②登记误差
③系统性误差 ④ ①②③都错
3.抽样调查和重点调查的主要区别是( )
①选取调查单位的方式不同 ②调查的目的不同
③调查的单位不同 ④两种调查没有本质区别
4当可靠度大于0.6827时,抽样极限误差( )
①大于抽样平均误差 ②小于平均误差
③等于抽样平均误差 ④与抽样平均误差的大小关系依样本容量而定
5.有一批灯泡共1000箱,每箱200个,现随机抽取20箱并检查这些箱中全部灯泡,此种检验属于( )
①纯随机抽样 ②类型抽样 ③整群抽样 ④等距抽样
6.当总体单位不很多且各单位间差异较小时宜采用( )
①类型抽样 ②纯随机抽样 ③整群抽样 ④两阶段抽样
7.在抽样推断中,抽样误差是( )
①可以避免的 ②可避免且可控制
③不可且无法控制 ④不可避免但可控制
8.在其他条件不变的情况下,抽样单位数越多,则( )
①系统误差越大 ②系统误差越小
③抽样误差越大 ④抽样误差越小
9.假定10亿人口大国和100万人口小国的居民年龄变异程度相同,现在各自用重复抽样方法抽取本国的1‰人口设计者,则抽样误差( )
①两者相等 ②前者大于后者
③前者小于后者 ④不能确定
10.某地有2万亩稻田,根据上年资料得知其中平均亩产的标准差为50公斤,若以95.45%的概率保证平均亩产的误差不超过10公斤,应抽选( )亩地作为样本进行抽样调查。
①100 ②250 ③500 ④1000
多项选择
1.抽样调查的特点有( )
①按随机原则抽取样本单位 ②把握程度大小
③以样本指标推断总体指标 ④抽样误差可以计算和控制
⑤以上都对
2.抽样调查适用于下列哪些场合( )
①不宜进行全面调查而又要了解全面情况 ②工业产品质量检验
③调查项目多、时效性强 ④只需了解一部分单位的情况
⑤适用于任何调查
3.确定样本容量时应考虑的因素有( )
①极限误差大小 ②全面性检验
③取样方式 ④抽样的组织形式
⑤被研究标志变异程度
4.区间估计中总体指标所在范围( )
①是一个可能范围 ②是绝对可靠的范围
③不是绝对可靠的范围 ④是有一定把握程度的范围
⑤是毫无把握的范围
5.概率度是指( )
①置信概率 ②以抽样平均误差为单位
③是样本指标与总体指标的绝对误差范围
④表示极限误差是平均误差的几倍 ⑤是表明抽样估计可靠程度的一个参数
【技能训练】
1.某地区为了解职工家庭的收入情况,从本地区3000户家庭中,按不重复抽样的方法抽取300户职工家庭进行调查,调查结果如表1:
表1 某地区职工家庭收入情况调查资料
每户月收入(元)
收入调查户数(户)
400以下
400~600
600~800
800~1000
1000以上
40
80
120
50
10
合 计
300
(1)若用这300户家庭的月收入资料推算该地区3000户家庭月收入情况,则抽样平均误差为多少?
(2)若又从抽样资料知,月平均收入在800元以上的户数的比重为20%,故月收入在800元以上成数抽样平均误差为多少?
2.已知某种球体直径服从x~N(),未知,某位科学家测量到的一个球体直径的5次记录为:6.33,6.37,6.36,6.32和6.37厘米,试估计。
3.对某一选举区内随机抽取的100位选民的民意调查表明,他们中的55%支持某位候选人,求所求选民中支持这位候选人的比例(a)95%,(b)99%,(c)99.73%的置信区间。
4.某土畜进出口公司出口一种名茶,抽样检验结果如表2所示。
表2
每包重量x(克)
包数f(包)
xf
148–149
149-150
150-151
151-152
10
20
50
20
1485
2990
7525
3030
Σ
100
15030
又知这种茶叶每包规格重量不低于150克,试以99.73%的概率:(1)确定每包重量的极限误差;(2)估计这批茶叶的重量范围,确定是否达到规格重量要求。
5.对一批成品按不重复随机抽样方法抽选200件,其中废品8件,又知道抽样单位数是成品总量的1/20,当概率为0.9545时,可否认为这批产品的废品率不超过5%?
6.某汽车制造厂为了测定某种型号汽车轮胎的使用寿命,随机抽取16只作为样本进行寿命测试,计算出轮胎平均寿命为43000公里,标准差为4120公里,试以95%的置信度推断该厂这批汽车轮胎的平均使用寿命。
7.对生产某种规格的灯泡进行使用寿命检验,根据以往正常生产的经验,灯泡使用寿命标准差σ=0.4小时,而合格品率90%,现用重复抽样方式,在95.45%的概率保证下,抽样平均使用寿命的极限误差不超过0.08小时,抽样合格率的误差不超过5%,必要的抽样平均数应为多大?
8.某工厂生产的铁丝抗拉力服从正态分布,且知其平均抗拉力服从正态分布,为570公斤,标准差为8公斤。现在由于原材料更换,虽然认为标准差不会有变化,但不知平均抗拉力是否与原来一样,现从生产的铁丝中抽取10个样品,得平均抗拉力=575公斤,能否认为平均抗拉力无显著变化?(α=0.05)
9.某地区居民月收入服从正态分布,现随机抽取10户家庭,测得他们的月收入分别为:3640元、2800元、500元、382元、366元、350元、360元、320元、290元、250元,能否认为该地区居民的月收入为920元(α=0.05)。
10.对某电池生产厂家所生产的某种型号电池进行电流强度检验,随机从中抽取400只电池,得平均电流强度为5.46安培,标准差0.40安培。问能否认为这一批的平均电流强度不超过5.5安培(α=0.05)。
【实训提示】
单项选择题
1、② 2、① 3、① 4、① 5、③ 6、② 7、④ 8、④ 9、③ 10、①
多项选择题
1、①②③④⑤ 2、①②③ 3、①②③④⑤ 4、①③④ 5、②④⑤
技能训练
1.(元)
2.答案: (厘米)
(厘米)
3.答案: a:总体比例P的95%的置信限为:
同理: b:
c:
4.答由表2资料计算得:
n=100>50 F(t)=0.9973 t=3
所以,3×0.087=0.26(克)
这批茶叶的平均重量为150.3±0.26克,因此,可以认为这批茶叶达到了规格重量要求。
5.根据样本资料得:
所以,这批产品的废品率为(4%±2.7%),即(1.3%,6.7%)。因此,不能认为这批产品的废品率不超过5%。
6.由于n=16<30,这属于小样本,需要利用t分布进行估计,查t分布表知:t=2.131
,即在95%的置信度下,可推断这批汽车轮胎平均寿命为公里之间,即40733.04-45266.96公里。
7.解:
根据题意,为使灯光使用寿命不超过0.08小时,则要抽取:
若要使其抽样合格率的极限误差不超过5%,则必要的抽样单位数为:
n与呈反比,为了使不超过规定的范围,应选144只灯泡加以检验,以满足共同的要求。
8.解:据题意进行平均抗拉力的双侧检验:
H0:μ0=570,H1:μ≠570
而
由于
即计算出的U值在5%的概率下居然落入拒绝域,因此拒绝H0,不能认为更换材料后的铁丝抗拉力仍为570公斤。
9.解:根据题意知:x~N(μ,σ2)
H0:μ=920, H1:μ≠920
因为故不能否定H0,可认为该地区居民的月平均收入为920元。
10.解:根据题意,这是一个总体分布情况未知,大样本的均值检验,因此可构造如下假设:
H0:μ≤5.5 H1:μ>5.5
因为 ,故不能拒绝H0,这一批电池的平均电流强度不超过5.5安培。