第一章 抽样调查概述第一节 抽样调查的意义和特点现代社会是高度信息化的社会,大到一个国家或地区范围的经济社会发展战略、发展规划及各项政策法规的制定,小到一个企业生产经营过程的各种管理决策,都离不开对各种信息资源的依赖。而信息资源的表现形式又是多种多样的,概括起来大致可分成两大类型,一是定性化的信息,如各种文字性质的消息、新闻、报告等情报材料;二是定量化的信息,如各种数字性质的图、表等指标资料。前者可借助于各种传播媒体而获取,后者则主要通过统计调查整理而形成。抽样调查是现代统计调查中最常用的基本方法之一。
一、抽样调查的概念关于抽样调查的定义大体上可以区分成广义和狭义两种,广义的抽样调查包括非概率抽样与概率抽样,狭义概念仅指概率抽样。本书取狭义的理解,将抽样调查定义为是按照一定的程序和方法,从所要研究现象的总体中根据随机原则抽取一部分单位组成样本,通过对样本的调查,获得样本资料,计算出有关的样本指标(统计量),依一整套专门的方法据以对相应的总体指标(参数)作出估计和推算,并有效控制抽样误差的一种统计方法。抽样调查所依据的概率原理属于数理统计学的一个重要分支,也是现代统计学的基础。抽样的方法不仅对统计推断、统计检验以及统计决策等理论的发展产生了直接的影响,而且还构成了其他应用性学科如计量经济学、管理会计学等的方法论基础。
所谓随机原则就是在抽选调查单位的过程中,完全排除人为的主观因素的干扰,以保证使现象总体中的每一个个体都有一定的可能性被选中。换句话讲,哪些单元能够被选作调查单位纯属偶然因素的影响所致。这里需说明几点:①随机并非“随意”。随机是有严格的科学含义的,可用概率来描述,而“随便”仍带有人为的或主观的因素,它不是一个科学的概念;②随机原则不等于等概率原则;③随机原则一般要求总体中每个单元均有一个非零的概率被抽中;④抽样概率对总体参数的估计有影响。同时,按随机原则抽样可以保证被抽中的单元在总体中均匀分布,不致出现系统性、倾向性偏差;在随机原则下,当抽样数目达到足够多时,样本就会遵从大数定律而呈正态分布,样本单位的标志值才具有代表性,其平均值才会接近总体平均值;按随机原则抽样,才可能实现计算和控制抽样误差的目的。因此,随机原则是抽样调查所必须遵循的基本原则。
在这里,“可能性”就是常说的机会,对“可能性”大小所作的数值度量在数理统计学中被称作概率,它常常是用统计的频率来近似度量的。
二、抽样调查的阶段划分与职业规范由上述抽样调查的概念出发,我们可以将抽样调查工作的全过程划分成三个不同的阶段。
第一阶段为抽样设计阶段,即从现象总体中抽选样本的阶段。在这一过程中,要在对现象总体进行初步分析的基础之上编制出尽可能完善的抽样框,选择最适合的抽样方式方法,确定出最佳的样本容量,以充分保证所选样本对整个总体的代表性,从而增强抽样推断的效果。同时,还要作好问卷设计和试调查等。
第二阶段为调查阶段,即对所选中的样本进行调查,搜集样本资料的阶段。在这一过程中,要解决好调查具体方法的选择,即确定是用走访调查、电话调查、邮寄调查,还是其他有关方法以搜集所需资料,还要设计出对拒访和无回答(包括样品无回答和项目无回答)的预防和处理措施,以及对数据质量的检查、控制措施与评价方法等内容。其基本目标是获取准确的资料,为抽样推断的可靠性打下基础。
第三阶段为数据处理和估计推断阶段,即依样本资料对所需要的总体资料进行科学地估计推算的阶段,是抽样调查工作的最后一个、同时也是最重要的一个阶段。在这一阶段,涉及到对推断总体资料的各种方法(估计量)进行比较、选择,估计误差的计算与控制,缺失数据的处理,以及进行数据分析,得出分析结果。其核心是不断提高推断结果的可靠性,圆满完成抽样调查的各项任务。
这表明,抽样调查工作的出发点是现象的总体,其目的也是要了解总体的有关方面特征,但在具体认识过程中是以样本作为核心的,绝大部分的工作也是围绕样本展开的。然其工作的结果绝不仅仅停留在对样本的认识之上,而是最终上升到对整个总体的更高层次的认识和把握,也就是以总体作为全部工作的归宿点。
另外任何工作都有一定的职业规范,抽样调查也不例外。在抽样调查中,首先,要注意尊重并保护被调查者的隐私权,调查结果只能用于综合分析,而不应给被调查者造成不必要的麻烦和伤害。其次,要诚实地分析调查资料,不能为得出某个事先期望的结论而随意地改动资料。第三,要做一个具有职业水平的工作者,做出来的东西既要有能让普通人看懂的主要信息,也要有能让专家看出其内涵的内容。第四,当从有些调查结果得不出好的结论时,应诚实地加以说明,而不应含糊其词。最后,抽样调查必须在国家法律法规所允许的范围内进行,不做违反社会公众利益的调查。
三、抽样调查的特点抽样调查作为一种非全面调查方法,同全面调查相比,具有一系列特点,即使同其他的各种非全面调查比较,它仍呈现出明显的特色。
首先,按随机原则抽选调查单位是抽样调查的一大特色。同属非全面调查的典型调查和重点调查,在调查单位的具体选定过程中,都程度不同地受到了调查组织者的主观意识的影响,因而带有一定的随意性,由此使得典型调查和重点调查的科学性受到影响。而抽样调查按随机原则抽选调查单位,则完全排除了主观意识的干扰,使调查单位的选择建立在较为客观的基础之上,从而确立了它的科学性。因此,按随机原则抽样既是抽样调查的特色所在,同时又是其取得成功的基本保证。
其次,可以用样本资料推断总体资料是抽样调查的又一基本特征。由前面的分析可知,用样本推断总体是抽样调查的一个重要阶段,实质上这也是进行抽样调查的最终目的之所在。能够用样本资料推断总体资料的重要意义在于,我们可以通过对部分单位的调查,以少量的投入,即可取得以前只能用普查才能取得的同样的效果,得到所希望了解的现象总体的全面资料,从而节约大量的调查费用,这也是抽样调查得以广泛应用的重要原因之一。
其三,抽样调查的速度快、周期短、精度高。由于只调查一部分单位的情况,因此其调查登记及汇总处理的工作量较之全面调查要小得多,所需时间也大大缩短,这为调查速度的加快创造了十分有利的条件,由此调查的时效性得以加强。同时,在调查单位减少后,由于工作量相应地减少,则可以较严格地挑选和培训调查员,调查和数据处理的质量比较容易控制,因此可能取得更准确的结果。所以,更能满足统计调查的及时性和准确性要求。
其四,在抽样推断之前可以计算和控制抽样误差。随着抽样推断理论的不断发展,误差分布理论日趋成熟,与此同时,抽样误差计算和控制的方法也逐步得以完善,而且关于抽样调查的误差问题的讨论也扩展到了对具有更为广泛意义的非抽样误差的深入研究。这是抽样调查的又一重要特色。
其五,抽样技术灵活多样。在过去短短的几十年时间里,抽样调查在其理论飞速发展的同时,抽样技术也得到了长足的发展,至今已形成了较为完整的抽样技术体系。各种不同的抽样技术可以分别适用于不同现象的抽样过程,也可在同一现象的抽样中结合运用,从而保证获得最好的抽样效果。
其六,抽样调查的应用十分广泛。无论是对社会现象的调查、还是经济问题的研究,或者是自然现象的了解,都可以使用抽样调查方法。可以毫不夸张地讲,凡是可以运用全面调查的场合,都可以使用抽样调查,凡不能使用全面调查的场合,一般也能利用抽样调查方法进行调查研究。关于抽样的具体应用情况在后面有关章节的论述中还要进一步涉及,在此从略。
最后,同其他调查方式相比,抽样调查的技术性更强,因此,一般需要有统计学的专家作指导,并且要求统计专家不仅要有适当的抽样理论方面的知识,还应有抽样的实践经验。
四、抽样调查的作用抽样调查除具有十分明显的特色之外,还在实际应用过程中发挥着突出的作用。
其一,抽样调查能够解决全面调查所无法解决的现象的调查问题。在实际工作中,对某些现象常常可能一方面需要了解其全面情况,另一方面又由于现象自身的特性决定了无法通过全面调查获取资料。此时,只有使用抽样调查。该类现象主要有:(1)产品质量的破坏性检验。如轮胎的里程寿命试验,青砖的抗折耐压试验,炮弹的杀伤力试验,弹簧的抗拉强度试验等等。(2)无限总体的调查:无限总体因其所包含的总体单位数目是无限多个,故无法一一计量。如宇宙空间的星球数目、人体的细胞数目等等。(3)包括未来时序的总体,如生产过程稳定性的检查等。
其二,抽样调查适用于对理论上可以作全面调查,而实际上又难以组织全面调查的现象进行调查。有些现象虽属于有限总体,但由于其总体范围过大,单位数目过多且过于分散,事实上不可能作全面调查,如森林的木材蓄积量调查,大量连续作业的某些产品质量的非破坏性检验,水稻的个粒重检验等等。还有些现象由于受时间或其他条件的制约,不能组织全面调查,如战备物资调查,自然灾害造成损失情况的调查等等。
其三,抽样调查对于时效性要求较高、同时又可以不作全面调查的现象的调查有着特殊的作用。如前所述,抽样调查具有费用低、速度快、精度高的特点,这使得它比其它非全面调查能更有效地满足各有关方面的需要。
其四,抽样调查的结果可被用来检验和修正全面调查结果。任何调查都可能存在误差,全面调查也不例外。而且由于全面调查涉及面广、工作量大、参加人员多、汇总传递环节多、调查结果容易出现差错。但是,其差错到底有多大,全面调查自身无法回答这一问题。因此,可在全面调查之后再进行一次抽样调查,根据抽样调查结果对全面调查结果进行检查和修正,从而提高全面调查的质量。
其五,抽样调查可对工业生产过程的稳定性进行监测,从而实现质量控制。在工业产品成批或大量连续生产过程中,利用抽样调查方法对产品的质量进行动态检测,及时提供有关信息,变事后监督为事中控制,并通过编制质量控制图开展监控,是世界上许多国家广泛采用的工业产品质量控制系统。这一应用不仅对于生产过程的控制意义重大,而且也为进一步推广抽样调查,乃至于整个统计方法的应用,提供了成功的范例,积累了可贵的经验,并产生了深远的影响。本书第十三章讨论了有关这方面的内容。
其六,利用抽样调查方法还可以对总体的某些假设进行检验,以判断这些假设的真伪,为管理决策提供依据。例如:一种新药在对某患者使用后效果不错,这是否意味着这种新药的疗效就一定显著呢?单凭此还不能做出结论。因为疗效对于每个人常会受到一些随机因素的影响而呈现出一定的不确定性。因此,最好利用抽样调查结果,对这种药物的疗效是否存在显著性的统计差异进行检验,以确定其疗效状况,并据此作出是否推广使用该药的决策。利用抽样调查方法研究人们未来的行动决策,这是抽样方法应用上的又一重要突破。
第二节 抽样调查的历史发展及应用抽样调查成为一种科学方法,是本世纪的事,然而这种统计方法的实质,人类早在实践中已经体会到。只是由于历史条件的限制,在十九世纪末叶以前,抽样调查在统计实践中很少运用。后来由于人们认识到了它的适宜于实践运用与理论分析、兼顾统计效果与经济效果等优点以及推断统计理论的成熟,抽样调查才逐渐得到广泛的使用。
一、抽样调查的历史发展关于抽样调查的历史发展,可分三个不同的时间段进行考察。
1、1895年以前。抽样调查处在实践探索过程和萌芽阶段。
原始的抽样法,在人类活动中早就使用过,如古代中国人、古希腊人就知道从整体中取出一小部分予以审味和检验,以确定物体的性质。这种平凡的举动,可以说在有文字记载的历史以前就已存在。而有文字保留下来可以作为佐证的最早记载,则是俄国一个名叫莫罗佐夫的贵族在1648年的庄园“记事”中,曾经讲到如何简单地运用样本田的产量来估算庄园的总收获量。
其后,政治算术学派的学者们在研究中广泛采用样本资料进行总体推算。如英国的威廉·配第(Willian Petty)用死亡人数和瘟疫流行年份死于鼠疫的人数等,对伦敦居民人数进行推算,或从伦敦的房屋栋数、每栋房屋平均家庭数以及每个家庭的平均人数,推算伦敦的居民人数。格朗特(John Graunt)以伦敦市的人口为基础,研究人口现象运动的规律。荷兰的威特(Joham de Witt)曾根据对数千人的死亡年龄进行计算,得出了人口的死亡率。凯尔斯勃(W.Kersseboom)曾估算荷兰的人口总数和各年龄的死亡人数,从而编制出荷兰寿命表。法国的沃邦(Vauban)推算过全国土地面积和人口总数。拉瓦锡(Antoine Laurent Lavoisier)从生产、消费与收入方面推算法国国民收入。瑞典的埃尔威斯(Pehr Elvius)在人口保持平衡的假设下,估算出全国人口数,并编成瑞典出生死亡表。瓦尔格廷(Per Wargentin)通过对历史人口和当时人口的出生死亡记录的观察,编制成全国死亡率表。俄国的盖尔曼推算过全国农业、工业产量和消费总额。
1766年,法国经济学家麦桑斯(Messance)在其所著《法国人口论》一书中,以部分地区的人口清查数字为依据,推算全国人口数。1778年,法国另一位经济学家摩休(M.Moheau)在其《法国人口研究论述》一书中,也发表了依样本出生率和死亡率推算出来的法国人口估计数。1800年,经商出身的英国经济学家伊顿(Frederic Morton Eden)在《英国居民人数的估计》中,利用平均每户居民数,出生人数以及住宅数的样本资料,估算出大不列颠的人口总数,他的估计被第二年英国的第一次人口普查结果所证实。
法国的数学家、统计学家拉普拉斯(Pierre Simon Laplace)于1786年在一篇关于巴黎人口的出生、婚姻、死亡的文章中,提出根据法国特定地方的出生率来推算全国人口数。他的建议得到法国新政府的支持。于是他在全国抽选了30个郡,共2037615人,于1802年9月22日进行深入调查,调查发现平均每28.352845个居民每年出生一个婴儿,并由此推算出全国总人口数为42529267人。这是由特定区域的人口数与出生率为依据,推算出全国人口数的方法。尽管这种推算是有问题的,但这件事,在当时条件下,无论对人口统计还是对统计方法论来说,都是一个巨大的创造。在统计发展史上,他首创用样本来推断总体的思想(即大样本统计推断),为后人开创了一条局部调查的新路子,对以后抽样调查的形成和发展也产生了巨大的影响。因此,丹麦统计学家韦斯特加德(H.L.Westergaard)认为:“现代代表统计学就是以选择出的部分资料(样本)为基础,而推导出全部资料的计算结果(抽样法),实际上是以拉普拉斯为嚆失的。”
1835年,著名统计学家、比利时的凯特勒(Lambert Adolphe Jacques Quetelet)根据所搜集关于165个剧本的47位法国作家的资料,研究了写作与年龄的关系。最后得出的结论是:剧本的创作才能出现在21岁以后,30~35岁是精力旺盛时期,50~55岁是成熟时期,此后便日渐衰退——特别是在剧本的价值方面。在这里,他所使用的研究方法实际上就是抽样方法。
1846年,俄国数学家奥斯特罗格拉茨基院士发表论文,主张在产品质量检验中用抽样法,这样可节省95%的繁重工作。
1846年至1847年,英国农场主莱威斯(John Lawes)与青年农业技师吉尔贝特(Heny Gilbert)在卢桑姆斯坦特德农业实验站设置样本区,来试验过磷酸盐与氮肥等各种化学肥料对收获量的影响。直到1879年,他们根据五块地段(33英亩)的小麦产量来估计全部英格兰与威尔士从1852年至1879年每亩产量的变化。1866年,俄国的拉扎列夫斯基通过样本调查,对典型农户的家庭收入作了详细观察。
在抽样调查的实践方面,美国的赖特(Ccrrdl Davidson Wright)的贡献是值得一提的。他主要领导举办了这样几次调查:①1873年,根据贫民生活改善协会400个志愿调查员的报告,估计了纽约市的失业人数;②1873~1879年经济危机时期,他借助于马萨诸塞州19个城市的警察署和与375个城镇的财产评估人员的通信,查询失业人数,他估计失业者为28,508人,纠正了当时对失业人数过高的估计。③20世纪初,马萨诸塞州一年一次的工商业抽样调查,以及此后举办的两年一次的全国工商业抽样调查也是在赖特领导下举办的。赖特从事抽样调查的实际经验,后来给凯尔倡导的代表性调查给予了有力的支持。
在抽样调查发展史上,挪威的凯尔(Anders Niscolai Kiaer)是一个划时代的人物。他对抽样调查的贡献,无论是在实践还是在理论方面,就当时的条件而言,都是十分卓越的。因此,马来西亚统计学家尤葆生(You Poh Seng)在《抽样理论与实践发展的历史的考察》一文中评价到:“凯尔的工作,可以视为统计学史上的一个转折点。他是离开人口普查而用抽样方法搜集社会资料的第一人,并为抽样理论奠定了基础。”凯乐所组织的抽样调查实践中,比较有影响的有:①1891年的挪威国民收入与财富的代表性调查。在这次调查中,可能代表全国国民收入和财富情况的许多城市、乡区和村落被选出来。在这些区域内按某个年龄、各种社会阶层、各种婚姻情况以及某种字母起首姓名等标识,把居民的有关情况详细记录下来,从这些记录来推断出挪威全国国民收入和财富。②1894年,他主持在挪威全国范围进行关于劳工退休年金和疾病保险制度的抽样调查,是抽样调查史上一次成功的先例。这次调查根据1891年的人口普查资料确定比例,在城乡分别采用不同的抽取方法抽查了2万人和6万人进行调查,并且特别强调了所抽选人口的分布状况以增强其代表性。③1895年,为弄清挪威成年男子的收入按不同的职业、年龄和社会地位的分布情况,凯尔和汉森(E.Hanssen)等组织了抽样调查。
以上列举的事实表明,在1895年以前,抽样调查的实践应用已经在许多领域展开,这些都为抽样调查的进一步发展创造了条件,积累了宝贵经验。但这时的抽样调查仍处于探索过程之中,没有形成系统的理论,也没有得到普遍的认可。因此,德国统计学家詹森(A.Jenson)认为:“到十九世纪最后十年的中期为止,也就是到1895年为止,抽样调查在实际中几乎并未实行过。”理由是象尤葆生所指出的:“那时负责使用这种方法的统计学家们,既不说明他们如何抽取样本,也不提所遭遇的困难,以及克服这些困难应采取的途径,由于这些事实,我们就无法决定是否可以把它们恰当地称为抽样调查。”
2、1895~1925年。抽样调查逐步得以确认的过程。
凯尔在坚持抽样调查实践的同时,还十分注意对抽样调查的方法和理论进行研究。总结实践经验,他认为,一次成功的抽样调查应具备两个条件,即正确的代表性和单位的合理选择。因为“调查结果的准确性,不取决于观察数量的多寡,而取决于取得正确代表性的方法。”
1895年,国际统计学会(ISI)在瑞士首都伯尔尼召开第五次大会。会上,凯尔提出关于代表性调查的报告——《对代表性调查的研究和经验》,试图阐明代表性调查的意义,在于搜集非普查所能提供的详细资料。但同时他也十分小心地强调指出,他并无把这种调查作为普查或任何通常的调查之意,更无认为这种调查可以取代普查之意,他只是想用“代表性调查”来表示某种特殊类型的调查而已。他将代表性调查定义为“根据抽样设计,从总体的正常‘代表’中合理地收集数据”,他强调所调查的样本应是总体的一个“代表”。在这次大会上,围绕着凯尔的报告,出现了激烈的辩论。德国社会统计学派权威梅尔(Georg Von Mayr),国际统计学会秘书长、意大利最高统计会议主席博迪欧(Luigi Bodio)和瑞典的米利叶(Guillaume Edmund Milliet)等人,反对凯尔的观点。他们认为,普查方法是不容动摇的。法国的切森(Emile Cheysson)、德国的施莫勒(G.Schmoller)等为代表性调查辩护,但他们或称其为是一种专题论述法,或将其当作全面调查不便时的补充,没有给抽样调查以足够的理解和重视。
1897年,在俄国圣·彼得堡召开的第六届国际统计学会大会上,凯尔又作了长篇发言,全面阐述了代表性调查的思想,为代表性调查进行辩解。他明确指出:代表性调查是一种局部调查,是对遍布全国或一个地区的大量单位进行观察,因而它的总和成为整个国家或地区的一个缩影。这些单位不是任意选出的,而是在过去统计调查的基础上合理地进行抽选的,在安排观察单位的分布时,要考虑务使其调查结果能够经得起多方面的考验。至于类型调查,他认为,即使人们知道各个类型所代表的个体在全部总体中所占的比例,也还不足以得出可以信赖的结果。因为总体中不仅包含各种平均的类型,也包含各种极端的情况。而代表性调查由于既不忽略“类型”,也不忽略与“类型”有差别的现象,故至少也能获得近似全面的调查结果。同时,他还进一步强调了代表性调查的价值。认为只要这些调查具有代表性,就好比以被观察的全部单位构成一幅“照片”,“这照片把总体的各部分按其真实的比例复制出来。”尽管如此,国际统计学会仍未能采纳凯尔的主张。但同意组成一个小组委员会专门讨论这一问题。
在1899年的国际统计学大会上,凯尔发表了《论代表性和类型方法》的报告,同时又在《统计文汇》发表《论代表性调查》的论文,叙述了挪威统计局进行代表性调查的情况,并重申了他在国际统计学会的主张。
1901年,国际统计学会第八届大会在匈牙利布达佩斯召开,在会上凯尔发表《再论代表性和类型方法》的论文,继续以挪威的经验宣讲代表性调查的意义。同时,由于德国的博尔基威茨(Ladislaus von Bortkiewiez)“论检查的方法”的发表,指出对代表性可以进行检验,从而为抽样误差的计算奠定了基础,也为凯尔的论据增加了说服力。所以不少学者和统计学家们的态度开始有所转变了。
1903年,在柏林召开的第九届国际统计学会上,凯尔的愿望终于实现了。研究代表性方法的小组委员会“建议采用代表性方法。但在公布结果时,将选择观察单位的条件加以详细说明”。国际统计学会并且建议,可在社会经济问题的研究中利用抽样法。
1910年,英国的鲍利(A,L.Bowley)在其所著《统计学基础教程》一书中,首次增加“抽样法”一章,介绍了抽样方法在商业、矿业和工业中的应用。
1923年,英国的R·A·费暄(Ronald Aylmer Fisher)首次提出“方差分析”,并认为用这种方法可以估计抽样误差。为保证误差估计值的有效性,还引入了“随机化”原则。从此,使抽样调查理论向前跨进了重要的一步。
1924年,国际统计学会常设理事会指定由英国的鲍利等六人组成研究委员会,进一步研究代表性方法在统计中的应用问题。1925年在罗马的第十六届大会上,该委员会提出报告,肯定了随机抽样的科学性,同时还发表了两篇研究论文:一篇是詹森所写《代表性方法的实践》,介绍了抽样法的应用;另一篇是鲍利的《抽样精确度的测定》,阐述了抽样法的原理。但在这次大会上,仍把“目的抽样(Purposive Sampling)”作为与随机抽样(Random Sampling)相并列的一种抽样方法。
从1895年到1925年,经过30年的反复讨论,代表性方法,即抽样方法,才得到人们的最终承认。在这一过程中,凯尔以其坚持不懈的努力,被称为抽样调查的先驱者是当之无愧的。而鲍利则从抽样理论上有力地支持了代表性调查的主张,从而对抽样调查的初步发展作出了贡献。同时,在此期间,英国统计学家戈塞特(W.S.Gosset)在从事实验研究的过程中,借助于从弄乱的卡片中抽样、计算、积累经验的频数分布,并运用正态误差理论,建立起“小样本理论”,亦即所谓的学生“t分布”。其标志是他于1908~1909年发表的《平均数的概差》、《相关系数的概差》和《论非随机样本平均数的分布》等三篇论文。
在抽样调查的理论得以逐步公认的同时,抽样的实践活动继续得以深入发展。
1896年,俄国的毕舍霍诺夫首次采用机械抽样从事家计调查。1911年,美国的麦瑟(Meicer)和霍尔(Hall)在田间试验中,通过抽取大量小地块的办法来减少实验误差,他们的报告引起各国的注意,从而导致多种机械抽样方法的诞生。1919年,美国伊里诺州卫生保险委员会将抽样法用于调查研究芝加哥工人家庭的生计状况。1920年,丹麦统计部门利用典型抽样,调查全国人口及财富分配情况,其结果很圆满。1924年,美国的休哈特(Walter A.Shewhat)用统计抽样法创立了一种事先可以预防的工业产品质量控制图,从而为工业品质量管理学科奠定了基础。早在1917年,美国接受休哈特的建议,用抽样法解决了大量军需品的规格要求的确定问题。等等。
3、1925年以后。抽样调查进入全面发展阶段、逐步走向成熟。
实践方面,1929年,前苏联在对集体农庄庄员的负债和贷款情况调查时,采用了整群抽样方法。1929~1936年间,中国调查土地利用情况,由美国的巴克主持,采用了多阶抽样方法。1935~1936年,美国举办了当时世界上规模最大的抽样调查,即“消费品购买量调查”,这次调查采用了多种抽样方法,如机械抽样、再次抽样、分层抽样、定额抽样等。1937年,印度统计学院在抽样调查中采用所谓“探测式”抽样法,即从小到大逐渐扩大调查规模,直到最后包括整个区域。1937年美国的失业情况调查,采用了比估计和区间估计法,1938年的失业调查采用了多阶段抽样,1942年各阶段进一步采用非等概率抽样,并提出控制非抽样误差。1940年,美国在人口调查中,首次采用比较复杂的抽样方案。
理论方面,1925年费暄的《研究人员用统计方法》一书的发表,标志着由戈塞特(W.S.Gosset)开始的“小样本理论”(又叫“学生分布”)最后得以完成。从而使统计学由“描述”向“推断”发展。小样本的思想是:应该从小处着手,只要精心设计小样本,用实验与推断的方法便可得到精确的结论。费暄从理论上证明了小样本的分布。他还提出了t检验,编制了“‘学生’t分布概率表”,拓宽了t分布的应用,同时,由于费暄的努力,使1900年英国的皮尔逊(Karl Pearson)提出的“卡方检验法”也能适用于小样本。1938年,费暄又同耶茨(F.Yates)合编“F分布显著性水平表”,为t分布和F分布的研究和应用提供了便利。
1927年,蒂皮特(L.H.C.Tippet)按费暄的随机化原则制作发表了《随机数字表》,使随机抽样便于进行。
1927~1929年英国生物统计学家克拉汉(E.F.Claphan)与威沙特(John Wishart)合作,连续发表《利用抽样方法估计各类产量》和《抽样技术的研究》等论文,介绍儒萨姆斯特农业试验场的经验,主要是运用方差分析方法计算各种类型的抽样单位所具有的抽样误差。
接着,卡弗(Carver)于1930年把组合分析理论应用到抽样误差的估计上来,促进了抽样理论的发展。他认为,借助于这一新理论可将任何抽样方式或设计的误差估计值计算出来。
1934年,内曼(J.Neyman)发表“论代表性方法的两个不同方面”的论文,从理论上分析批判了目的抽样法。他指出,我们不应该相信目的抽样,因为目的抽样或代表性抽样实质上是一种分层抽样,但常会导致入选单位在各层间极不均匀的分布,从而引起较大的偏差,他认为,应用概率抽样方法,利用已知的总体信息,采用科学的分层等技巧,可以大大提高抽样精度。内曼的经典论文,使目的抽样的缺点暴露无遗,促使统计学家们从目的抽样的迷雾中转向概率抽样。同时,他还对分层随机抽样进行了改进,提出样本最优分配原理,从而为分层抽样和整群抽样奠定了基础。
1935年,费暄的《实验设计》一书出版,提出了著名的实验设计原理,以及他的方差分析技术与卡弗提出的组合分析技术的结合,使抽样理论的总的轮廓基本确定。
1940~1950年间,内曼又提出“区间估计理论”亦称“置信区间估计理论”,为抽样推断的发展做出了重要贡献。
在抽样调查的实践和理论两方面都有建树的人物之中,印度统计学家马哈拉诺比斯(P.C.Mahalanobis)的贡献是值得重视的。早在20世纪30年代他就认识到:在统计调查中同时考虑到抽样误差和非抽样误差是必要的。从1935年起,他就应用了许多现在已普遍使用的方法,如单纯随机抽样、系统抽样、分层抽样、集体抽样、两阶抽样、多阶抽样等。1944年,他提出一项缜密的关于区域或网格抽样方法的理论,并进一步介绍“费用函数”、“方差函数”的概念,用以根据不同情况进行抽样观察时作最合理、最经济的设计。此外,还提出探测式的抽样方法。利用“交叉子样本的抽样方法”可使在抽样调查中计算抽样方差比较容易,这也是他的主要贡献之一。
总之,随着田间实验和大规模的社会经济调查的蓬勃发展,20世纪40年代以后关于抽样调查方法的论著很多,主要有:科克伦(W.G.Cochran)的《抽样技术》(1953年),汉森(M.G.Hanson)、赫维茨(W.N.Hurwitz)、马多(W.G.Madow)合著的《抽样调查的原理和方法》(1960年),戴明(W.E.Deming)著《抽样原理》(1955年),基什(L.Kish)著《抽样调查》(1965年)等。
需指出的是,联合国统计局在设计抽样方法和推广抽样调查方面作出了巨大的努力和贡献。1947年,联合国专门设立“统计委员会统计抽样分会”,由马哈拉诺比斯任主席,推动各国开展抽样调查。1950年3月,联合国统计局发行了《当前各国抽样调查要况》,介绍了印度抽样调查的六个实例,以及1952~1953年印度所进行的45次抽样调查的经验。1960年出版《统计抽样方法简要手册》第一卷《抽样调查理论基础》,向世界各国政府推荐了行之有效的22种社会经济的抽样方法。1972年,在总结各国经验的基础上,修订了《抽样调查理论基础》一书,推荐的抽样方法由22种增加到32种,并出版《统计抽样方法简要手册》第二卷《抽样设计的计算机程序》。进入20世纪80年代,联合国统计局又开始在世界各地成立统计研修所,培养大批统计人才,促进联合国抽样方法的实施,协助发展中国家采用多主题抽样方法等,都取得了显著的成就。
二、我国的抽样调查史从历史发展过程看,抽样调查在国外被广泛应用于社会问题、经济问题、民意测验以及自然科学等各种领域,已成为搜集统计资料的最主要的方法之一。
1949年以前,抽样调查在我国的应用次数很少,有关抽样理论与方法的研究也不多见,介绍抽样知识的著作则更少。抗战期间,清华大学陈达教授主持的国情普查研究所曾在云南环湖户籍示范区进行人口普查,具体工作由戴世光负责,普查后又用抽样方法抽查部分人口以核对其准确性,这是中国首次在自己的学者主持下按现代抽样方式进行的调查,是一次有益的尝试。
1949年以后,为适应大规模经济建设和计划管理的需要,新中国于1952年8月成立了国家统计局,直属于国务院,组织管理有关的统计事务。从此,我国的统计事业开始进入一个新的历史发展时期,也为大规模应用抽样调查提供了可能。
考察我国抽样调查的应用可从思想认识和实践两个方面进行。
(一)思想认识方面。
早在1955年2月召开的第四届全国统计工作会议上,薛暮桥同志谈到调查统计方法的改进问题时指出:要善于利用重点调查和抽样方法,对于分散的个体农业、个体手工业和小商小贩等这些对象,除某些指标可以普查外,一般都可以采用抽样调查的方法,或把普查和抽样调查结合进行。后又在1956年2月的第五届全国统计工作会议上,他进一步强调指出,科学的估算是统计工作的重要组成部分,统计并不拒绝估算。相反只有善于运用科学的估算方法,才能及时掌握大量的、复杂的、正在变化着的现象。从统计方法讲,全面调查、机械汇总是最简单的方法,抽样调查是从部分推算全体,是比较复杂的方法,我们已经开始学,但还没有学会。这次会议同时决定,系统地总结和推广统计工作的先进经验,包括抽样调查的经验等。
1957年6月,《统计工作》杂志发表社论《积极地在全国范围内开展抽样调查,广泛收集统计资料》。社论指出:为反映我国这种复杂的经济发展过程及其变化情况,我们就不能完全依靠全面的定期统计报表,如果这样做,势必劳民伤财,不能以少量的人力和财力而收到更大的效果,只有组织科学的抽样调查,才能事半功倍。同期,印度的马哈拉诺比斯教授作为印度政府统计顾问、联合国统计委员会统计抽样分会主席被邀请访问中国,举行了多场关于抽样调查的学术报告,并介绍了印度的抽样调查经验。后来,国家统计局编印出版了《印度马哈拉诺比斯教授访华报告集》,以推广抽样调查的应用。
1957年9月,薛暮桥在第六届全国统计工作会议上又强调,要通过各种科学的调查统计方法来收集和提供各方面的统计资料。谈到调查方法时,他认为:抽样调查也是统计观察中的一项重要武器。抽样调查是非全面调查中最完善、最有科学根据的方法,其目的在于根据调查总体的某一部分来推断整个总体。抽样调查的关键在于如何选择样本,如何保证样本的代表性。抽样调查不仅适用于农产品收获量调查和家庭收支情况调查,也可以用于其它各种调查。我们要学习数理统计有关抽样调查的基本知识,学习其它国家抽样调查的理论和经验。
1960年前后,许宝騄在北京大学主持了一个有关抽样调查的研讨班。根据其讲义整理出版的《抽样论》至今仍在我国统计界有很大影响。
1963年3月国家《统计工作试行条例》颁布,关于统计方法,《条例》规定:“统计部门要根据不同情况和需要,灵活地运用各种统计调查方法,包括全面调查、重点调查、抽样调查、典型调查等等。国民经济的基本情况应当通过统计报表进行全面调查,不必要或不能进行全面调查的项目可充分运用典型调查、抽样调查等方法。农业统计要将依靠农村人民公社全面地逐级报和调查队在农村中进行的抽样调查、典型调查结合起来。”
后来,抽样调查因被视为“以偏概全”而一度遭否定,受到批判,直到“文革”结束。
1980年12月,薛暮桥在全国统计局长会议上讲到:“我们必须以全面统计报表为主,把抽样调查作为我们统计报表的补充,只有典型调查、抽样调查是不行的,只有全面统计没有抽样调查也不行。”
1981年9月,国务院在批转国家统计局《关于加强和改革统计工作的报告》的通知中,要求统计部门“认真改进工作,完善统计标准,在搞好全面报表的同时,大力开展抽样调查和典型调查,努力提高数字的准确性,搞好综合平衡统计,加强经济分析和统计监督,使统计工作更好地为社会主义现代化建设服务。”随后,在统计工作中开始采取抽样调查和典型调查的方法,对全面统计数字进行验证,如主要农产品产量统计,实行全面报表与抽样调查相结合的方法,有的以抽样调查数字为基础核定数字,有的以抽样调查的数字为依据,去修订全面统计的数字。
1983年11月,在第三次全国统计科学讨论会上,与会者就抽样调查进行了广泛的讨论。关于标志排队等距抽样的方法,一般认为是一种便于组织推广、经济有效、适用我国国情的方法,但也有人认为这种方法不够科学,难以保证抽样的随机性。有些同志对农村抽样调查提出改进意见,如应有目的地搜集和利用已知信息,有意识地放弃简单随机抽样,运用与所研究现象高度相关的标志进行分析,以缩小抽样误差,节约调查费用;应改变目前抽样调查资料大多是单项指标,且不分地区、县、市的情况,使其能同时完成多项指标,同时满足各地区、县、市的需要等等。
1986年,由王一夫同志主编的《新中国统计史稿》出版,书中在总结建国以来统计工作的经验时,对于抽样调查作了较为全面的分析评价。认为:统计抽样调查方法是现代应用数学的一项科学成果在统计上的应用。这种方法具有许多特点,因此有着广阔的应用天地。一是产品质量破坏性检验;二是不宜或不应作全面调查现象的调查;三是全面调查后的抽样汇总;四是对全面调查原始数据的准确性进行验证。正因为如此,在新中国统计史上,抽样调查虽曾多次被否定,但最终还是不得不加以肯定,抽样调查的应用范围还应该进一步扩大。但是,他也认为抽样调查在原则上不能代替全民和集体单位现行的全面统计报表制度。
此后,随着经济体制改革的不断深化,尤其是社会主义市场经济体制的逐步确立,统计调查方法体系也在不断进行改革。1994年2月,全国统计工作会议深入研究了统计调查体制的改革问题。国家统计局张塞局长在讲话中指出:“从今年开始,政府统计系统将改变过去的全面调查为主的方法,而采用抽样调查和全面调查相结合的方法”。随后,又经国务院批准,确定了我国统计调查方法体系改革的目标模式,即:建立以必要的周期性普查为基础,以经常性的抽样调查为主体,同时辅之以重点调查、科学推算等多种方法综合运用的统计调查方法体系。在1996年5月15日公布的修订后的《中华人民共和国统计法》中又以法律的形式对此作了规定。至此,抽样调查在我国的应用才得以最终确立。
(二)实践运用方面。
1955年,国家为了研究农民走集体化道路的优越性,开展了农业生产合作社收益分配情况的典型调查和抽样调查。
1956年1月,国家统计局颁发了“全国职工家计调查方案”,开始建立了全国统一的、经常性的职工家计调查工作。1956年的调查方案规定,调查在27个大中城市进行,调查对象是10个工业部门的国营、公私合营企业的工人、工程技术人员、职员家庭,全国共抽选6000户。调查采用机械抽样法,先由国家统计局抽选调查企业,并将中选企业名单和调查户数通知各城市统计部门,然后由各城市统计部门在中选调查企业抽选调查职工,被选中的职工其家庭即为经常调查户,逐日记载家庭现金收支帐。1957年起,国家统计局改变了只考虑全国代表性的做法,要求全国的代表性建立在各地代表性的基础上。为此,调查城市扩大到32个,调查部门拓展到工业、商业、文教、机关四个部门,调查户数增至7000户。
1955年1月,国家统计局颁发了1954年农民家计调查方案和进行农民家计调查工作的决定,要求各地进行一次性的1954年度农民家计调查工作。并确定采取抽样方法在全国选择1.5万至2万户做为调查对象。调查户的抽选首先采用机械抽样法在省内选调查乡,然后在调查乡内再划分合作社社员户和非合作社社员户,按类型比例与机械抽样相结合的方法抽选调查户。1956年部分地区在一次性农户家计调查的基础上,开始建立经常性登记调查,1957年起在全国范围内建立了经常性的农民家计调查。
1962年初,周恩来总理指示:农产量调查也要搞抽查。并要求国家统计局试办全国性从上到下的农产量抽查工作。按照这一指示,经国务院批准,1962年末到1963年初,全国农产量调查总队和各省、区分队纷纷成立,并于1963年开展了农作物产量抽样调查试点工作。试点是在全国150个县、1500个生产大队、4万个地块进行的,共调查了50万个样本点,在此基础上,1964年按全国统一的《农产量抽样调查方案》又对全国各省、区的主要农作物的播种面积、主要农作物的产量进行了选点抽样调查,并以抽样调查获取的资料推算出了全国主要农作物的产量数字,由于数字比较准确、及时,受到中央领导的重视。后来,因种种原因,全国农产量调查队又于1967年被撤销。
“文革”期间,抽样调查被否定,抽样调查工作被迫中断,直到1979年以后才得到恢复,抽样调查开始了新的发展时期。
1979年,国家统计局制定并颁发试行了农村经济调查方案。要求各地采用分层排队、等距抽样的方法抽选固定的、有代表性的调查点。规定各省、市、区按20%到25%的比例抽选调查县,每个调查县抽选三个到四个公社,每个调查公社选一个接近该公社平均收入水平的基本核算单位作为调查队,每个调查队抽选10户社员家庭作为调查户。到1983年,已形成了农经调查网,共抽选了600多个县、31000多农户进行实际调查。
1980年4月,经国务院批准恢复职工家庭生活抽样调查。1985年起进一步扩大为城市住户调查。
1981年9月,经国务院批准组建了农村抽样调查队和城市抽样调查队。
1982年4月起建立了城市物价抽样调查,用直接抽样调查的资料来编制物价指数。
1982年5月,经国务院批准,恢复农产量抽样调查。
1983年起,形成了每年一次的全国人口变动抽样调查制度。1987年以后又进一步过渡为每年一次的全国1%人口抽样调查。
1994年,经国务院批准又组建了企业调查队,对全国二、三次产业中各种经济类型、各种经济规模的企业进行抽样调查。
经过多年的艰苦努力,我国政府统计系统抽样调查工作的开展终于有了统一的组织、统一的编制、统一的专项经费、统一的抽样方案和统一的调查网点,走上了专业化、正规化的轨道。此外,抽样调查方法在工业、商业、交通运输等生产管理中也得到了广泛应用。另据1998年的一项调查,目前国内专业从事市场调查业务的机构有一百多家,其所用方法主要是抽样法。
但总体来看,目前抽样调查在我国的应用仍呈“四多四少”,即:宏观领域多,微观领域少;政府统计中多,企业统计中少;经济现象研究中多,社会现象研究中少;管理过程中多,科研过程中少等等。因此,抽样调查在我国的普及应用还有大量工作要做。
第三节 抽样调查的分类与设计抽样调查中,如何根据所研究现象总体的不同特征,合理地设计抽样方案,有效地抽取样本?为此,需要进一步研究抽样调查的分类与设计。
一、抽样调查的分类抽样调查可以按不同的标准进行分类。常见的分类有以下几种:
按抽样调查的目的不同,可将其分成叙述型抽样调查和分析型抽样调查。
叙述型抽样调查的目的是获得有关总体大组信息的简单数字资料等;而分析型抽样调查则要对总体的不同分组间作出比较,以便发现各组间是否存在差异,或者进一步证实之所以发生差异的原因等。
按抽选样本的具体原则不同,可以分为概率抽样和非概率抽样。
概率抽样也称随机抽样,即在抽选样本的过程中,完全按随机原则进行,使抽样过程不受主观干扰,每个总体单位被选中与否与其概率大小有关。因此,概率抽样是一种科学的抽样方法。使用概率抽样所得到的样本叫做随机样本。
在概率抽样中,如果总体中每个单元被抽中的概率都相等,则为等概率抽样;如果每个单元被抽中的概率不完全相等,则为不等概率抽样。例如:在一个盒中放入红、黄、蓝色球各一个,随机从中取一个,则各色球被取到的概率均为三分之一,这就是等概率抽样;而如果在盒中放入红、黄色求各一个、蓝色球两个,从中随机抽一个,则抽到红、黄色球的概率各为四分之一,而抽到蓝色球的概率为四分之二,这就是不等概率。
概率抽样按其组织方式不同,可分成:简单随机抽样;分层抽样;整群抽样;等距抽样;多阶抽样;二重抽样等不同类型。本书从第三章开始将对各种常见的抽样组织方式分别加以详细的介绍。
有些时候,概率抽样在实际中难以实现,如从海水中抽样,通常只限于一部分;从运煤货车中抽样,一般是从顶部进行等。此时,只能采用非概率抽样。 非概率抽样也就是非随机抽样,在抽样过程中不完全按随机原则进行,带有一定的主观随意性,所以无法估计抽样误差,也不能控制抽样误差。用非概率抽样取得的样本叫做非随机样本。
非概率抽样主要包括:①随意抽样:按抽样者的方便,随意地抽取样本。②定额抽样:依一定的标志将总体分成若干层,并按各层在总体中所占的比例分配样本总量在各层的数额,以抽到各层所需定额为止。定额抽样是美国的盖洛普(G.H.Gallup)创立的,它是非概率抽样中比较科学的一种抽样方式。③判断抽样:抽样者依照自己的经验抽取具有平均水平的典型单位作为样本,因此也叫做典型抽样。④滚雪球抽样:先从总体中找出少数个体,通过这些个体了解其它个体,再由已了解到的个体去发现更多的个体,以此类推,了解到的个体越来越多,最后接近于总体。
二、抽样调查方案的设计抽样调查是一项理论性和方法性都很强的统计工作,因此必须精心设计,认真组织,以确保调查工作的质量和时效性。
抽样调查方案的设计就是在实际进行抽样调查之前,对整个抽样调查工作过程所作出的通盘考虑和合理安排。在抽样调查方案的设计中,一般应遵循以下两条基本原则:
其一,保证抽样的随机性原则。随机原则是抽样调查所必须坚持的根本原则,是抽样推断的基本前提,按随机原则取样也是抽样调查有别于其它非全面调查的最根本标志,是抽样调查科学性的基本保证。但在实践中,如何保证实现抽样的随机性,并非容易之事,为此要注意解决好几个问题:首先,要排除人为的主观因素的干扰,使得总体中的每个单元都有一定的入选机会。当然,这需要做出很多的努力,并有较为严格的控制措施,因为,抽样中人为因素的干扰有时是很隐蔽的。其次,要确定合适的抽样框。抽样框是赖以进行抽样的基础。一个好的抽样框应该能够覆盖总体中的所有单元,并且没有重复。抽样框不完备常常会导致产生系统性偏差。最后,要选择合适的抽样实施方法及抽样的组织形式,并为其执行提供一切必要的条件。
其二,保证实现最大的抽样效果原则。即在一定的调查费用条件下使抽样误差最小(等价于使估计精度最高),或在给定的精度要求下使调查费用最省。通常,提高精度的要求和节省费用的要求往往是矛盾的,因为提高精度意味着降低抽样误差,而抽样误差愈小,则样本量就要扩大,费用相应增加。因此,在实际的抽样调查中,抽样误差最小的方案,常常可能并不是最好的方案,许多情况是允许一定的误差范围,就能够满足分析的需要,误差过小会使费用超过限制;另一方面,费用最小的方案也不一定就是最优方案,因为过少的调查费用会限制调查的单元数目,进而使抽样误差超过允许的最大范围,并最终使抽样调查本身失去意义。所以,设计抽样调查方案时,要综合考虑精度和费用两方面的限制条件,在多种抽样组织形式间精心选择,或将多种抽样组织形式结合起来加以应用。
此外,一个好的抽样调查方案还必须服从目的性和实践性的要求。前者强调无论是抽样还是估计推断的设计,都要紧紧围绕研究的目的;后者是指所设计的方案要能够在实践中得到切实的执行。
由于所研究现象总体的具体特点和调查的问题不同,抽样调查方案所应包括的内容也不尽相同。但在一般情况下,应具有以下几个部分:
第一,有关抽样调查要求方面的内容设计。一是要明确调查目的,即通过抽样调查要解决什么问题,并且要将调查目的进一步具体化为所要进行推断的各种变量。这样,才能恰当地确定调查方案的其他内容。二是要明确调查对象和调查单位,即确定什么是总体,什么是总体单位,也就是在什么范围内进行抽样调查,以什么为基本单位进行调查以取得数据资料。这是搞好抽样调查的基础。三是要明确规定对于主要目标量的抽样推断精度要求或者误差控制要求。它既是对抽样调查工作的基本要求,同时也是衡量抽样调查工作质量好坏的标准。
第二,有关抽样推断工作方面的内容设计。具体包括:①确定抽样框。在抽样调查中,抽样框是否合适,对于所抽样本的代表性影响很大。因此,抽样前要尽可能多地收集和利用与调查变量相关的各种资料,编制出符合实际情况的抽样框。②确定抽样的组织方式及方法。不同的抽样方法、不同的抽样方式有着各自不同的特点和适应性,因此,要根据所要研究现象的基本特点合理地加以选择,以求获得最好的抽样效果。③确定样本容量的大小,这是抽样设计的主要内容之一。样本容量的确定要综合考虑两方面的因素:一是调查费用的多少,它通常限制了所能调查的最多单元数目;二是精度要求的高低,它通常是规定了所必须调查的最少单元数目。④确定数据处理方式。包括数据整理方法、整理技术、资料审核检验方法等。⑤确定推断方式。在取得了样本资料后,运用什么样的方式来推断总体资料,如何计算并控制误差等就成了关键问题,应依照调查研究的具体目的及所选用抽样方式的特点,结合现象总体的情况加以选择。
第三,有关调查内容方面的设计。调查内容就是所要调查的项目或问题,它是抽样调查方案的核心所在。确定选择哪些项目进行调查,对于能否圆满地实现调查目的是至关重要的,具体内容在后面有关章节做系统介绍。
第四,有关组织工作方面的内容设计。包括:①调查人员、组织领导机构的确定以及调查费用的筹措等。②调查人员的培训。要使调查人员在明确调查目的、熟悉调查项目的基础上,根据分工去掌握有关的抽样技术、现场调查方法、编码、审核、数据录入汇总等基本技能。③确定搜集资料的具体方法和调查问卷的回收方法等。④制定控制回答质量,减少回答误差的方案。
三、抽样调查方案的检查抽样方案设计好之后,便可以组织实施,指导抽样调查的实践。但在实际中,由于情况发生变化,据以设计抽样方案的历史资料或许已经过时,或者因当初考虑不周,在设计时发生失误又未被发现等原因,都可能造成抽样方案的缺陷,从而影响调查的结果。因此,在设计好的方案正式实施之前都必须进行检查,用试点的调查数据对方案进行验证,然后才能正式实施调查。抽样调查方案的检查主要包括两个方面:
一是准确性检查。即以方案所要求的允许误差范围为标准,用已掌握的资料(试点资料)来检查其在一定概率保证下,实际的极限误差是否超过方案所允许的误差范围。如果实际的误差范围没有超过规定,则认为方案的设计符合准确性的要求,可以实施;否则,就说明设计方案的准确性不符合要求,这时就应对所设计的抽样调查方案进行认真的分析和检查,如果方案中不存在技术性的错误,就要考虑增加样本量,对方案做必要的修订。
二是代表性检查。即以方案中的样本指标与过去已掌握的总体同一指标进行对比,视其比率是否超过规定的要求来判断方案是否满足代表性要求。例如,在我国的农产量抽样调查和居民家计调查中分别规定,农产量的比率不超过±2%,居民收入的比率不超过±3%,即:
98%≤样本平均单产÷总体平均单产≤102%
97%≤样本平均收入÷总体平均收入≤103%
如果比率超过规定范围,则要对方案进行多方面的检查、修正,如果修正后的代表性仍不符合要求,就要通过增加样本量来获得满意的代表性。
四、抽样调查的基本步骤按照抽样调查的工作实际,结合抽样调查方案的内容,抽样调查一般可概括为以下八个基本步骤,依次为(1)明确调查目的要求,安排调查计划,进行经费预算;(2) 编制抽样框;(3) 设计调查问卷; (4)设计抽样方案,确定抽样的方式方法和样本容量,随机抽取样本;(5)培训调查员,组织开展调查,搜集所需资料;(6)检查调查结果,进行数据处理;(7)分析调查结果,撰写调查报告;(8)积累调查信息,总结调查经验,研究探讨新的调查方式方法或开拓现有调查方式方法应用的新领域。
第四节 抽样调查的基础理论一、大数定律大数定律又称平均数定律或大数法则,它所描述的是当样本充分大时,样本统计量的极限行为。即是说在充分大规模的抽样下抽样平均数和总体平均数间的离差可以为任意小这一可能性的概率可以尽量接近于1,即接近完全的精确性。大数定律可以用契比雪夫定理加以证明。若从逻辑意义、哲学意义来阐明的话,它是大量现象和过程的规律性,而且一般只有在充分大量观察时,才会显露出现象和过程在某种具体历史环境中具有代表性的主要特征。
大数定律的具体表现:
(1)只有掌握足够多的单位数目或足够多的情况时,大量现象的规律性及大量过程的倾向性才能很好地显示出来。也就是说,只有在掌握足够多单位数目或足够多的情况时,对这些大量现象和过程,才能很好地进行研究。
(2)只有在平均数形式上,这些规律性与倾向性才能被表现出来。正因为如此,大数定律又称为平均数定律。
(3)研究大量现象和过程时,如果抽取更多的单位,那么从这些单位的标志值所计算出来的平均数越能够正确地表现出这种现象或过程的规律性。
(4)如果我们研究足够多的单位数目或足够多的情况,以平均数为中心,各个单位或情况向正反两方向的离差往往互相均衡化起来,或者互相抵消。对大量现象或过程来说,这些离差当然不是由于本质的差异所引起,而是由于偶然的状态所发生的。
大数定律的理论和方法,对科学地安排统计试验和制定抽样调查方案是十分重要的。它使抽样法的应用获得充分的数学依据,同时为抽样结果的精确推断,提供了充分的可能性。所以说,大数定律是统计抽样调查的数理基础,也给统计中的大量观察法提供了理论和数学方面的根据。
因此它要求在运用抽样调查时,必须注意:(1)遵循随机原则,只有在随机原则下进行抽样,样本中各单位才能均匀分布在总体中,使样本具有代表性。这样,样本指标才可以用来对总体指标作出估计和推断。(2)抽样必须注意观察现象的大量性。在同一总体中进行随机抽样,每个被抽中的样本单位的标志值或偏大或偏小,纯属偶然,并不代表总体的数量特征。而通过大量观察,根据大数定律的原理,消除偶然因素的影响,用抽出的单位组成样本综合的结果,才能把总体的数量特征接近准确地反映出来。
二、中心极限定理中心极限定理的基本内涵是:一组独立同分布的变量的和或平均值当n充分大时近似地具有正态分布。它分别由德莫佛尔-拉普拉斯和林德伯格-勒维所证明。以下仅对德莫佛尔-拉普拉斯中心极限定理做一简单介绍。
设随机变量Y1,Y2,…,Yn相互独立,服从同一分布,且有有限的数学期望值μ和方差σ2,又使i=(Y1+Y2+…+Yn)/n,则随机变量的分布函数Fn(y)对于任意y,就有,
通过这个定理,可以知道不论总体服从什么分布,当n很大时,样本的平均数近似于具有参数μ和的正态分布(即极限正态分布)。这个定理是大样本统计推断的理论基础。中心极限定理,并非证明正态分布的存在,而是用来说明近似地遵从正态分布的概率变量的现象,说明样本平均值的分布接近于正态分布。中心极限定理表明:样本平均值分布的平均值等于总体平均值,即E()=μ;样本分布的标准差为。中心极限定理说明,用样本平均值产生的概率来代替从总体中直接抽出来样本计算的抽取样本的概率,为抽样推断奠定了科学的理论基础。
三、误差分布理论抽样调查的目的是把对总体中有限的部分单位的调查结果作为普遍适用于总体的估计和推断。但是,样本是随机抽出的,不同的随机样本就会得出不同的估计量。在同一总体中往往可以抽出多个样本,可以得到同样多的估计量,基于总体指标都存在或大或小或正或负的偏误,因此,用样本指标来推断总体指标,就存在抽样误差。承认这一点,不是证明抽样调查不准确,不能用来推断总体,而相反,正是利用可能发生的抽样误差,加上样本指标,来推断在多大的概率度下总体指标在一个怎样的范围之内。
18世纪末,法国数学家拉普拉斯与德国数学家高斯,研究误差分布,建立了误差分布理论。
在一个既定的总体中,抽选一定含量的样本,可能抽选到的样本有多个,因此可以取得多个可能的样本指标(主要指平均数和成数)。如果将所有可能的样本指标组成频率分布,可发现样本指标愈接近总体指标的可能样本数愈多,即频率愈大;偏离愈远的可能样本个数愈少,即频率愈小,形成两端小中间大的可能值的分布,同时也就是抽样误差的分布。按正态分布的基本条件,可能样本指标的分布从理论上说是遵循正态分布的。样本指标的分布,通常又叫抽样分布,数理统计已证明,可能样本指标是否严格遵循正态分布,由两个主要条件所决定;一是抽样总体的分布形态,二是抽样数目的大小。如果样本是抽自正态总体,无论抽样数目是大是小,可能样本指标都是遵循正态分布的;如果样本抽自非正态总体,只要抽样数目较大(n>30),可能样本指标也是接近或遵循正态分布的。
我们认识抽样误差及其分布的目的,就是希望所设计的抽样方案所取得的绝大部分的估计量能较好地集中在总体指标的附近,通过计算抽样误差的界限,使抽样误差处于被控制的状态。
四、概率理论的广泛应用从上面介绍中可以看到,由于发展和论证了大数定律,中心极限定理和误差分布理论等,使抽样方法有了科学的依据。同时,我们也看到抽样调查中也广泛应用了概率理论。
概率也称或然率,就是指某一事件可能发生的机会,也就是某个事件可能发生的次数与所有可能发生事件总次数之比。等概率就是机会均等,不等概率就是机会不均等。概率通常有古典的和统计的两个意义:
古典意义:就是事物有有限个均等的可能结果。如掷一粒骰子,有六个有限的均等可能的结果,如预定可能结果为任意一个点数,则实现任一点数的机会均为1/6。古典概率由于受“结果有限”和“均等可能”的限制,在实践中有很大的局限性。
统计意义:就是用统计的频率作概率的近似度量,如在某产品总体中,合格品m占被抽检品n的频率为m/n,于是就可用频率m/n作为任意抽检一件产品结果为合格品的概率的近似值,是为统计意义的概率。
由此可见:数学主要从纯理论的观点进行研究,统计学是从应用的观点进行研究,概率论作为数学的一个分支而引进统计学中,是统计学发展史上的重要事件。
第二章 抽样调查基本原理第一节 有关基本概念一、总体总体也叫母体,它是所要认识对象的全体,是具有同一性质的许多单位的集合。组成总体的每个个体叫做单位。
总体可以是有限的,也可以是无限的。如果总体中所包含个体的数目为有限多个,则该总体就是有限总体,反之是无限总体。总体也可区分成计量总体(由测量值组成的)和计数总体(由品质特征组成的)。
在抽样以前,必须根据实际情况把总体划分成若干个互不重叠并且能组合成总体的部分,每个部分称为一个抽样单元,不论总体是否有限,总体中的抽样单元数一定是有限的,而且是已知的,因此说抽样调查的总体总是有限的。抽样单元又有大小之分,一个大的抽样单元可以分成若干个小的抽样单元,最小的抽样单元就是每一个个体。如一项全国性的调查,如果把省作为一级单元,则可以把县作为二级单元,乡作为三级单元,村作为四级单元等等。又如在流动人口抽样中,可以以居委会作为抽样单元,而在家计调查中,则以户为抽样单元。
总体应具备同质性、大量性和差异性的特征。在抽样调查中,通常将反映总体数量特征的综合指标称为总体参数。常见的总体参数主要有:
1.总体总和Y:例如全国人口数。
Y=∑yi=y1+y2+…+yN
2.总体均值:例如职工平均工资。
=Y/N=∑yi /N
3.总体比率R:是总体中两个不同指标的总和或均值的比值。如总收入与总支出之比。
R=Y/X=/
4.总体比例P:是总体中具有某种特性的单元数目所占比重。如产品的合格率。
二、样本样本是由从总体中所抽选出来的若干个抽样单元组成的集合体。抽样前,样本是一个n维随机变量,属样本空间;抽样后,样本是一个n元数组,是样本空间的一个点。
样本是总体的缩影,是总体的代表。抽样的效果好不好,依赖于样本对总体是否有充分的代表性。样本的代表性愈强,用样本指标对总体全面特征的推断就愈精确,即推断的误差就愈小;反之,如果样本的代表性愈弱,推断的误差就愈大,推断结果就愈不可靠。
如何增强样本的代表性,使其能达到估计或推断的预期效果,就必须分析影响样本代表性的因素,以便加强控制。一般情况下,影响样本代表性的因素有以下几个方面:
(1)总体标志值分布的离散程度。若总体标志值的分布很集中,即平均离散程度(标准差)很小,从中任抽部分单元做样本,样本特征很近似于总体特征,样本的代表性就强;反之,如果标志值的分布很分散,即平均离散程度很大,从中抽取样本单元的随机波动也很大,必将影响样本的代表性。
(2)抽样单元数的多少(或称样本容量的大小)。抽样单元数的多少,影响样本对总体的代表性。一般说来,样本容量以大为好,但要根据实际情况,以掌握适度为宜,要在保证一定可靠程度的情况下,尽可能满足及时性和经济性的要求,取得好的效益。
(3)抽样方法。抽样方法一般分为放回抽样和不放回抽样。放回抽样也叫重置抽样,或重复抽样。它是在总体N个单元中随机抽取n个单元时,每次抽取一个单元进行记录后又放回原来的总体,参加下一个单元的抽取,即下一个单元仍然在原来的全部抽样单元中抽取,依此类推,直到抽足所需单元数为止,因而同一个抽样单元有被重复抽中的可能。不放回抽样也叫不重置抽样,或不重复抽样。它是在每次抽取一个新的单元之前,将已抽中的单元不再放回原来的总体,下一个单元的抽取在剩余的抽样单元中进行,依次类推,直到抽足所需单元数为止,因而每个抽样单元最多只能被抽中一次,不可能重复被抽中。
放回抽样与不放回抽样相比,不放回抽样的样本代表性优于放回抽样。因为放回抽样中,有些单位有被重复抽取的可能,从而使样本单元数在总体中的散布面缩小,样本的代表性减弱,故在实际工作中常采用不放回抽样。有鉴于此,在本书以后内容中,如没有特别的声明,则一般只涉及不放回抽样。理解了不放回抽样的方法及有关内容,也就容易理解和掌握放回抽样的方法。
以上三种影响因素中,第一个因素即离散程度的大小,是由事物内部和外部联系决定的,是客观性的因素,人们只能认识了解,不能调节控制。第二、三两因素是人们可以选择和控制的,为主观因素,只要掌握和控制了这两个因素,在一定程度上,人们也就能控制样本的代表性,以期达到抽样数目尽可能小,使估计和推断结论达到预定的精确程度和可靠程度的要求。另外,等概率抽样与不等概率抽样相比,以不等概率抽样的样本代表性较等概率抽样为好。
一般将反映样本数量特征的综合指标称之为统计量。统计量是n元样本的一个实值函数,是一个随机变量,统计量的一个具体取值即为统计值。主要的样本统计量有:
1.样本总和y:
y=∑yi=y1+y2+…+yn
2.样本均值:
=y/n=∑yi /n
3.样本比率r:
r=y/x=/
4.样本比例p:是样本中具有某种特性的单元数目所占比重。
三、必要样本容量和样本可能数目样本中包含的抽样单元个数称为样本容量,又称样本含量或样本大小(后面还要进一步讨论关于必要样本容量的问题)。总体中所含抽样单元个数称为总体容量,样本容量与总体容量之比为抽样比,用f表示,即f=n/N。
样本可能数目则是在容量为N的总体中抽取容量为n的样本时,所有可能被抽中的不同样本的个数。用A表示。
当N和n一定时,A的多少与抽样方法有关,其计算方法列表如下:
抽样方法
放回抽样
不放回抽样
考虑顺序
不考虑顺序
正确理解样本可能数目的概念,对于准确理解和把握抽样误差的计算、样本统计量的抽样分布、抽样估计的优良标准等一系列理论和方法问题都有十分重要的帮助。
四、抽样框抽样框是在抽样前,为便于抽样工作的组织,在可能条件下编制的用来进行抽样的、记录或表明总体所有抽样单元的框架,在抽样框中,每个抽样单元都被编上号码。
抽样框可以是一份清单(名单抽样框)、一张地图(区域抽样框)。在与时间有关的调查中,也可以按时间先后顺序排列总体中的单元,这样得到的抽样框称为时序抽样框。抽样框是设计实施一个抽样方案所必备的基础资料,一旦某个单元被抽中,也需依抽样框在实际中找到这个单元,从而实施调查。
编制抽样框是一个实际的、重要的问题,因此必须要认真对待。一般而言,如果总体中的每个元素在清单上分别只出现一次,且清单上又没有总体以外的其他元素出现,则该清单就是一个完备的抽样框。在完备的抽样框中,每个元素必须且只能同一个号码对应。但是,在实际中,完备的抽样框是很少见的,我们常常可能必须使用一些有严重缺陷的抽样框,而又必须发现这些缺陷并加以补救,在这一过程中,可以充分体现出抽样的艺术性。
常见的抽样框问题可以概括为四种基本类型:(1)缺失一些元素,即抽样框涵盖不完全;(2)多个元素对应一个号码;(3)空白(一些号码没有与之对应的元素)或存在异类元素;(4)重复号码,即一个元素对应多个号码。
抽样框存在缺陷时,我们首先想到的是如何去避免上述问题:①如果已知由这此问题引起的误差比其他原因产生的误差小,并且纠正起来又花费太大的话,可以忽略不管,但在描述样本时,应对此加以说明;②重新定义总体以适应抽样框;③改正整个总体清单,也即找出全部缺失元素、分开每一个群、清除所有的空白和异类元素、删掉重复号码。当上述方法不能有效利用时,就应该采取其它一些补救措施来抵消抽样框中存在的缺陷。对此问题的进一步讨论将在第十一章进行。
第二节 样本统计量的抽样分布标准的统计问题为:总体未知,故需从总体中抽取一个较小的、花费不多的随机样本,然后构造样本统计量,并以其估计总体。问题是用样本指标估计总体指标的可靠程度如何?为此要研究样本统计量的抽样分布。在此之前,有必要先回顾一下有关正态分布的知识。
一、正态分布如果总体各个体的标志值以总体平均数为中心,形成钟型对称分布,其分布曲线向两侧扩展,逐渐向横轴逼近,无限延伸出去,但不接触横轴,则这种分布就叫做正态分布,或高斯分布、常态分布。服从正态分布的总体称为正态总体。
正态分布是由德国数学家高斯(Carl Friedrich Gauss 1777~1855)首先发现的,故此得名。
一个正态分布完全由总体的理论平均数和理论方差这两个参数所决定。其数学特征为:
如果一个随机变量X服从正态分布,则其分布的密度函数(分布曲线方程)为:
,( -<x<)
式中:μ和σ2分别为随机变量X的数学期望和方差,π≈3.1416,e为自然对数的底,e≈2.7183。
当μ=0,σ2=1时,称该分布为标准正态分布。标准正态分布的密度函数为
,( -<x<)
我们知道,全部可能事件发生的概率之和等于1。代表各个体事物分布的正态曲线内面积表明着全部可能的事件,因此,分布曲线下x轴以上的面积总保持为1,也即
因此,当σ不相同时,f(x)的形状也不相同,σ愈小,分布就愈集中在附近,σ愈大,分布就愈平坦。
利用正态曲线的数学性质,依平均数与标准差,可以计算出平均数与某一数值之间的面积,如图2.1中由a到b的面积为:
任何正态分布,它的样本落在任意区间(a,b)内的概率等于直线x=a,x=b,横坐标和曲线f(x)所夹的面积(可由正态分布概率积分表查得)。经计算,正态总体的样本落在:
(-σ,+σ)概率是68.27%;
(-2σ,+2σ)概率是95.45%;
(-3σ,+3σ)概率是99.73%;
(-1.96σ,+1.96σ)概率是95%;
正态分布的应用范围很广,是最常见、最重要的分布,居于基础的地位。在生产实践和科学研究中,凡是处于控制状态的数据和测定随机误差的分布,大多是近似地服从正态分布的。所以正态分布的理论对开展社会经济调查和科学研究具有十分重大的意义。
二、抽样分布如前所述,在容量为N的总体中,抽取容量为n的样本时,可能抽到的样本不止一个。对每一个可能的样本,都可获得统计量、p和s等的一个具体数值。可见,样本统计量是个随机变量。
我们把根据所有可能样本计算出来的某一统计量的数值分布,称为抽样分布。抽样分布理论是理解抽样调查基本原理的基础。常见的抽样分布有极限分布和精确分布两类。极限分布也叫做大样本分布,它只有正态分布一种形式;精确分布又叫做小样本分布,其前提是总体服从正态分布,它是正态分布的导出分布,包括有t分布、F分布和χ2分布等形式。
(一)样本统计量的极限分布样本统计量有很多,这里只考察关于样本均值和样本比例的抽样分布。
例2.1:现从正态分布总体Y~N(100,625)中抽取容量为n=5的所有可能样本,经计算得知样本平均数的分布为~N(100,125)。当n=20时,样本平均数的分布为~N(100,31.25)。
一般地,可以证明如果总体服从正态分布,且总体均值和方差均为已知,即Y~N(μ,σ2),则不论样本量大小如何,样本均值均围绕总体均值而服从正态分布,并且其抽样分布的方差等于总体方差的n分之一,即~N(μ,σ2/n)。
而对于非正态总体,若均值μ和σ2有限,则根据中心极限定理,当样本量n充分大时,样本均值仍然围绕着总体均值而近似地服从正态分布,即~N(μ,σ2/n)。
例2.2:总体N=5,Y={40,50,60,70,80},则其次数分布为:
Y
40 50 60 70 80
f
1 1 1 1 1
用图形表示则为:
(EY=μ=60,DY=σ2=200)
若取n=2,用放回抽样则可抽Nn=52=25个简单随机样本,其样本均值如下:
y2
y1
40 50 60 70 80
40
50
60
70
80
40 45 50 55 60
50 55 60 65
50 55 60 65 70
55 60 65 70 75
60 65 70 75 80
进一步整理后,即可得出关于样本均值的次数分布情况为:
40 45 50 55 60 65 70 75 80
f
1 2 3 4 5 4 3 2 1
用图形表示,则为:
(E=60,D=100,可见~N(60,100))
如果总体容量较大,则当样本容量逐步扩大时,样本平均数的分布趋于正态分布的趋势更加明显。
上面的结论在样本比例的抽样分布中同样成立。即对任意一个成数为p的二项分布总体,当n足够大(np>5,n(1-p)>5)时,则样本成数P趋于服从正态分布,其平均数为p,方差为。因此,标准随机变量趋于服从标准正态分布。
(二)样本统计量的精确分布
1、χ2分布设随机变量Yi~N(0,1)(i=1,2,…,n),且相互独立,则Y=∑Y2i服从自由度为n的χ2分布,记作Y~χ2(n)。
χ2分布的概率密度函数为
式中n是正整数,Γ(n/2)是Γ(伽马)函数
当y=n/2时的函数值。
χ2分布的主要性质有:①f(y)恒为正;②χ2分布呈右偏形态;③χ2分布随n的不断增大而逐渐趋于正态分布。
可以证明,χ2分布χ2(n)的数学期望和方差分别为
EY=n,DY=2n.
2、t分布若X~N(0,1),Y~χ2(n),且X与Y相互独立,则称随机变量
服从自由度为n的t分布,记作:T~t(n)。
由此也可以推论出关于t分布的如下定义方式:若X~N(μ,σ2),σ2未知,则
服从自由度为n-1的t分布,记作:T~t(n-1),其中:。
t分布t(n)的概率密度函数为
t分布具有如下性质:①t分布对称于纵轴,与N(0,1)相似;②在n<30(小样本)时,t分布的方差大于N(0,1)的方差;③在n≥30(大样本)时,t分布随n的增大而趋于N(0,1)。
可以证明,t分布t(n)的数学期望与方差分别为
ET=0,DT=n/(n-2).(n>2)
3、F分布若X~χ2(n1),Y~χ2(n2),且X与Y相互独立,则称随机变量
服从第一自由度为n1,第二自由度为n2的F分布,记作:F~F(n1,n2)。
如果X~F(n1,n2),则其概率密度函数为
F分布的主要性质有:①F分布呈右偏态;②f(x)恒为正;③在处取最大值(n1>2,f0<1);④随n1,n2的不断增大,F分布的右偏程度逐渐减弱,但不会趋向正态;⑤具有倒数性质,即若X~F(n1,n2),则1/X~F(n1,n2);⑥若t~t(n),则t2(n)~F(1,n)。
若X~F(n1,n2),则其数学期望和方差分别为
第三节 抽样误差一、抽样调查中的误差来源误差就是调查结果与现象的实际结果之间的偏差,它几乎在所有的统计调查中都或大或小的存在着。在抽样调查中,按照形成原因的不同,一般可将误差分成抽样误差和非抽样误差两大类。
抽样误差是用样本统计量推断总体参数时的误差,它属于一种代表性误差。抽样调查是用样本来估计总体,对任何一种抽样方案,可能的样本会有许多,而实际抽到的只是其中的一个样本,在概率抽样中,哪个样本会被抽到完全是随机的,抽到的样本不同,则对总体的估计就可能不同,这就是抽样误差产生的根本原因。因此,在抽样调查中抽样误差是不可避免的。但同非抽样误差不同的是,抽样误差可以计算,并且可以被控制在任意小的范围内。
抽样误差通常会随样本量的大小而增减。在某些情形下,抽样误差与样本量大小的平方根成反比关系,即在开始阶段抽样误差随样本量的增加而迅速减少,但在一定阶段后,这种趋势便趋于稳定。这表明,在经过一定阶段后,再努力减少抽样误差通常是不合算的。所以过了这个阶段只要稍微降低一点精度,就可以省下可观的费用。普查的目的不过是想使抽样误差降低为零,要是允许存在误差,当然就值得用抽样调查。
另外,影响抽样误差的因素还有:所研究现象总体变异程度的大小,一般而言,总体变异程度越大,则抽样误差可能越大;抽样的方式方法,如放回抽样的误差大于不放回抽样,各种不同的抽样组织方式也常会有不同的抽样误差。在实际工作中,样本量和抽样方式方法的影响是可以控制的,总体变异程度虽不可以控制,但却可通过设计一些复杂的抽样技术而将其影响加以控制。
非抽样误差不是由于抽样引起的。它又包括调查误差、无回答误差、抽样框误差以及登记性误差。它在各种统计调查中都可能会存在。调查误差是调查所得的观测值与被调查单元真值不一致所造成的误差。造成这类误差的原因可能是测量手段(或仪器)不完善,也可能是被调查者记忆不准确,或对所调查内容缺乏全面了解或不愿意如实回答等。无回答误差是因样本中的一部分单元或一部分项目的资料没有调查到,致使实际样本较设计样本缩小而引起的误差。其产生原因有被调查者拒绝回答问题,或者正好缺乏所需要的信息,或者找不到被抽中的单元等。抽样框误差是由于抽样框不完善所造所的误差。抽样框不完善具体表现为存在着抽样单元的重复或遗漏,这会破坏抽样的随机性。登记性误差是在观测数据的填写、计算机数据录入、传输、计算等环节的差错引起的误差。非抽样误差的控制,须经过改进抽查表的设计或测试方式,严密组织调查,提高调查员的素质,以及加强调查整理等各环节的质量检查监督,或设计特殊调查方式进行处理,才能见效。具体的论述见后面有关章节。
同抽样误差相反,非抽样误差是随着样本量的增加而增大的。由于抽样调查的访问和资料整理都比普查更便于进行,因此非抽样误差也远远小于普查。有时,普查中的非抽样误差甚至大于抽样调查中抽样误差与非抽样误差的总和。
二、抽样误差的计算由于从一个总体中抽取容量为n的样本时,有多种可能的结果,所以样本指标是随机变量,而总体指标是唯一确定的常量,故抽样误差也是一个随机变量。
设θ为总体的某个待估参数,是通过样本资料计算而得到的关于θ的估计量,则估计的实际误差为-θ,由于θ是未知,故-θ是未知的。这表明根据某一个确定的样本,无法确定抽样误差的大小,因此,关于抽样误差的计算,是建立在误差分布理论基础上,从统计平均意义角度来考虑的。因为,对一个确定的总体按同一种抽样方法可能得到一系列不同的样本,对每一个样本都会有一个估计的实际误差i-θ,因此,抽样误差可以用所有这些可能的实际误差的均方误差表示。也即将抽样误差表示为
MSE()=E(-θ)2
其中MSE()为估计量的均方误差。由于θ未知,所以在通常情况下,MSE()仍然是未知的。但MSE()可以分解成:
MSE()=E(-θ)2=E[-E()+E()-θ]2
=E[-E()]2+E[E()-θ]2+2[E()-θ]E[-E()]
=E[-E()]2+[E()-θ]2
式中第一项是估计量的方差,记作V()。V()的平方根称为估计量的标准误差或标准差,记作S()。S()与E()之比称为估计量的变异系数,记为C()。式中第二项是估计量的偏倚B()的平方(即B()=E()-θ)。
一般情况下,均方误差说明了估计量的准确性,而估计量的方差则表明了其估计结果的精确性。通常将精确度定义为估计量方差的倒数,而将准确度定义为估计量均方误差的倒数。
当偏倚B()为零时,称为θ的无偏估计量。此时,的方差就等于它的均方误差,即
V()=MSE()
如果随样本容量n的增大趋近于θ,则称为θ的一致估计。
需要说明的是:①上面所给出的V()的计算公式仍然属于一个理论公式或叫作定义公式,在实际中是无法直接应用的。因此,实际中计算V()是依据调查变量的总体方差σ2进行的,当σ2未知时,一般用样本方差s2代替,以对V()做出估计。②有偏的估计并非都是不可用的,有时有偏估计量在某些方面反而比无偏估计量更好。有研究认为,在实践中当偏倚小于标准误的十分之一时,偏倚对估计量准确度的影响可以忽略不计。
第四节 抽样估计要达到对总体的正确认识,样本的充分代表性和样本资料的准确性都是必要的前提,然而从样本到总体的估计方法在这里却居于突出的重要地位。抽样估计就是以样本的实际资料为依据,计算一定的样本统计量,并按照一定的方法对总体参数作出估计和推断。这也是抽样调查的目的之所在。
一、抽样估计的特点第一,抽样估计在逻辑上运用的是归纳推理而不是演绎推理。
演绎推理是在封闭的系统中从一般性命题导出特殊结论的逻辑方法,其结论的正确性已全部包含在前提的正确性之中。如在本章第二节中,我们从一个已知总体开始,讨论样本具有怎么样的性质,样本统计量是如何接近总体参数的,这就是运用了演绎推理的方法。
归纳推理与之正好相反,它是在开放的系统中,从研究个别命题达到一般性的结论。其前提正确不一定就能得出正确的结论,结论的正确性还决定于前提以外的许多事实,所以结论必须经过事实验证。统计的认识过程正是从对大量个别事件的认识上升到现象总体的认识。本节将要讨论的抽样估计即是从抽取的一个已知样本出发,对被抽样未知总体推断出一般结论,所采用的是归纳推理法。
第二,抽样估计在方法上运用不确定的概率估计法而不是运用确定的数学分析法。
虽然抽样估计也是利用一定的样本数据来推论总体的数量特征,但由于样本数据和总体数量特征之间并不存在严格对应的自变量和因变量的关系,因此,不可能运用数学函数关系建立一定的数学模型,用输入样本的具体观察值来推算总体特征值。抽样估计原则上把由样本观察值所决定的统计量看作是随机事件。在实践中,抽取一个样本,并计算出相应的样本指标,接着需研究的问题便是用这一样本指标来代表相应的总体指标的可靠程度究竟有多大,这就是概率估计所要解决的。如果说归纳推理不保证从正确的前提一定得到正确的结论,只肯定从正确的前提得到的结论有一定程度的可靠性,那么概率估计就是要具体确定这个一定程度的可靠性是多大。
第三,抽样估计的结论存在着一定程度的抽样误差。
如前所述,抽样误差指是由随机抽样中偶然性因素的影响,使得样本指标和总体指标间存在的某种程度的离差。这种误差是抽样估计所固有的,不可避免。抽样估计结论的可靠程度总是和一定的抽样误差联系在一起的。通常情况下,总是指出样本指标和总体指标的误差在一定范围内的概率保证程度。
二、抽样估计的方法抽样估计的方法多种多样。如果以估计中所依据的资料不同来区分,一般可以有简单估计、比估计和回归估计等三种方法。简单估计是单纯依靠样本调查变量的资料估计总体参数,其估计结果称为简单估计量;比估计和回归估计是同时依据样本调查变量以及已知的有关辅助变量的资料来对总体参数做出估计,其结果分别称为比估计量和回归估计量。简单估计是最简单、最基本的一种估计方法,在实际中应用也最为广泛。后面各章节所讨论的估计量若没有特别的说明一般都是指简单估计量。同简单估计相比,比估计和回归估计比较复杂,但在某些情况下,其估计的效果却比较好。关于比估计和回归估计将在第五章作进一步讨论。
如果以估计结果的表示方式来区分,则抽样估计可以有两种形式,即定值估计和区间估计。定值估计是指给所要估计的总体参数只给出一个明确的点估计值,同时确定出估计结果的误差(一般用方差V()来表示)。区间估计则是在一定的概率保证程度(置信度)之下,根据允许的最大绝对误差范围(一般称之为抽样极限误差,记作Δ,它常以抽样标准误差为标准单位来计量,即Δθ=KS(),其中K称之为概率度,其值同置信度的大小有关,可通过查相关的概率积分表求得。),确定出一个以点估计值为中心的区间作为总体待估参数θ的估计区间(也称为置信区间)。可见在区间估计中,不但要考虑抽样误差的可能范围有多大,而且还必须考虑落到这一范围的概率是多少。前者是估计的准确性问题,后者是估计的可靠性问题,两者既相互矛盾又密不可分。计算可靠性的依据是样本统计量的抽样分布理论。在实际问题的研究中常常需要在估计的准确性和可靠性之间进行协调,一般是先确定其中的一个,然后再推算出另外一个。
三、置信区间在抽样估计中,是用样本统计量来推断对应的总体参数,根据前面第二节的分析,样本统计量的极限分布呈正态,而在社会经济现象的抽样研究中,通常所使用的又是大样本,因此,可以按照正态分布的理论,来构造总体参数估计量的置信区间。
一般地说,若估计量是无偏的,且呈正态分布,则参数θ的置信度为1-α的置信区间可以写成
(-KS(),+KS())
当调查变量的总体方差σ2已知时,上述置信区间可表示为
(-Zα/2S(),+ Zα/2S())
即取K= Zα/2,Zα/2的值可以通过查正态分布双侧临界值表加以确定。常用的几组置信度同Zα/2的对应值如下表
1-α
0.80
0.90
0.95
0.9545
0.9973
Zα/2
1.28
1.64
1.96
2
3
当调查变量的总体方差σ2未知时,则用相应的样本方差s2代替。然而,这时有可能会使误差产生一个增量,特别是当样本较小时,更容易影响估计的精度。因此,为了保持1-α的置信度,就应该适当加宽置信区间,即用较大的tα/2值来代替Zα/2。此时,置信区间就可以表示成
(-tα/2 (),+tα/2 ())
其中tα/2的值可通过查t分布临界值表来确定,在这里自由度为df=n-1;()表示以s2代替σ2后对抽样标准误S()的估计量。
我们注意到,当样本量充分大时,Z值和t值十分接近,因此,即使σ2未知,也仍然可以取K=Z;但在小样本条件下,Z值和t值差别较大,所以在实践中,只有当σ2未知且样本量较小(n<30)时才用t值,即取K=t。
四、估计量的优良标准由于抽样指标是一个随机变量,随着抽取的样本不同,便有不同的估计值,因此,要判断一种估计量的好环,仅从某一次试验的结果来衡量是不够的,而应从多次重复试验中,看这种估计量是否在某种意义上最接近于被估计参数的真值。一般地说,用抽样指标估计总体指标应该有三项基本要求或标准,满足这三项要求的估计就可以被认为是合理的估计或优良的估计,这三项要求即是抽样估计的三条优良标准。
1、无偏性用样本指标估计总体指标要求所有可能的样本指标的平均值等于对应的总体指标值。
就是说,虽然每一次的抽样指标和未知的总体指标可能有偏误,但在多次反复的估计中各个抽样指标的平均值应该等于总体指标,即用抽样指标来作估计平均说来是没有偏误的。所以,样本指标是对应的总体指标的无偏估计量。
关于这一点,可以用概率的方法加以证明,
证明:设总体容量有N个:Y1,Y2,…,Yn,则:
=(Y1+Y2+…+Yn)/N
又设样本容量有n个,y1,y2,…,yn,则:
=[y1+y2+…+yn]/n
所以
由于y1,y2,…,yn都是取自总体Y1,Y2,…,Yn中,当n充分大时,它与总体同分布,所以,E(y1)=E(y2)=…=E(yn)=E(Y)= ,因此
证毕。
2、一致性用样本指标估计总体指标要求当样本容量充分大时,抽样指标也充分地靠近总体指标。换言之,随着样本单元数n的无限增大(无限接近于总体单元数N),抽样指标和总体指标间的绝对离差可以无限缩小。
以平均数为例,证明如下:
设α为任意小的正数,依大数定律有
由平均数无偏性知道,抽样平均数的期望值等于总体平均数,即E()=,则有:
这表明,当样本单位数无限增大时,抽样平均数和总体平均数的绝对离差小于任意常数α(α>0)的概率趋近于1。这就是抽样估计的一致性。
3、有效性用抽样指标估计总体指标要求作为优良估计量的方差应该比其他估计量的方差小。即:用抽样平均数和总体某一变量来估计总体平均数,虽然两者都是无偏估计量,而且在每一次的估计中两种估计量和总体平均数都可能有离差,但样本平均数更靠近在总体平均数的周围,平均说来它的离差比较小,所以对比而言,抽样平均数是更为优良的估计量。
由于样本变量和总体变量是同分布的,依方差性质可知:
故V()<σ2所以,用抽样平均数估计总体平均数比用总体的变量X估计总体平均数更为有效。
第三章 简单随机抽样第一节 简单随机抽样概述一、简单随机抽样的概念简单随机抽样也叫作纯随机抽样。其概念可有两种等价的定义方法:
定义之一:简单随机抽样就是从总体N个抽样单元中,一次抽取n个单元时,使全部可能的种不同的样本被抽到的概率均相等,即都等于1/A。
按简单随机抽样,抽到的样本称为简单随机样本。
按上述定义,在抽取简单随机样本之前,应将所有可能的互不相同的样本一一列举出来。但当N与n都比较大时,要列出全部可能的样本是不现实的。因此,按上述定义进行抽样是不太方便的。
定义之二:简单随机抽样是从总体的N个抽样单元中,每次抽取一个单元时,使每一个单元都有相等的概率被抽中,连续抽n次,以抽中的n个单元组成简单随机样本。
由于定义二无需列举全部可能的样本,故比较便于组织实施。但按这个定义进行抽样时,仍然需要掌握一个可以赖以实施抽样的抽样框。
二、简单随机抽样的具体实施方法常用的有抽签法和随机数法两种。
(一)抽签法抽签法是先对总体N个抽样单元分别编上1到N的号码,再制作与之相对应的N个号签并充分摇匀后,从中随机地抽取n个号签(可以是一次抽取n个号签,也可以一次抽一个号签,连续抽n次),与抽中号签号码相同的n个单元即为抽中的单元,由其组成简单随机样本。
抽签法在技术上十分简单,但在实际应用中,对总体各单元编号并制作号签的工作量可能会很繁重,尤其是当总体容量比较大时,抽签法并不是很方便,而且也往往难以保证做到等概率。因此,实际工作中常常使用随机数法。
(二)随机数法随机数法就是利用随机数表、随机数骰子或计算机产生的随机数进行抽样。由于计算机产生的随机数实际上是伪随机数,不是真正的随机数,特别是直接采用一般现成程序时,产生的随机数往往不能保证其随机性。因此,一般使用随机数表,或用随机数骰子产生的随机数,特别在n比较大时。
1、随机数表及其使用方法随机数表是由0到9的10个阿拉伯数字进行随机排列组成的表。
所谓随机排列,即每个数字都是按等概和重复独立抽取的方式排定的。在编制时,使用一种特制的电器或用计算机,将0至9的10个数字随机地自动摇出,每个摇出的数字就是一个随机数字。为使用方便,可依其出现的次序,按行或按列分成几位一组进行排列。根据不同的需要,它们所含数字的多少以及分位和排列的方式尽可以不同。
目前,世界上已编有许多种随机数表。其中较大的有兰德公司编制,1955年出版的100万数字随机数表,它按五位一组排列,共有20万组;肯德尔和史密斯编制,1938年出版的10万数字随机数表,它也按五位一组排列,共有25000组。我国常用的是中国科学院数学研究所概率统计室编印的《常用数理统计表》中的随机数表。
随机数表的用途很多,不仅可以组织等概样本,也可组织不等概样本。
简单随机抽样属等概率抽样,在使用随机数表时,要注意以下几点:
①每次使用时,确定使用哪页及哪行哪列的数字为起点,必须是随机的。
②设总体容量为N,若N的位数为r,则一定要从r位数中抽取。遇到1至N的数可直接使用;遇到其它的数不能直接使用。
③当r≥2时,可从含有起点数字左边的r位数开始,也可从右边的r位数开始。可从起点开始向下抽取,也可向右抽取。但一经确定使用哪一种方式,就必须用一种方式抽取全部单元号,中途不能变更。
④在重复抽样时,遇到重复的数字应重复使用;在不重复抽样时,遇到重复的数字应舍去不用。
随机数表法一般分下述几步:
第一步:确定起点页码,如用笔尖在随机数表上随机指定一点,若落点数字(或距落点最近的数字)为奇数,则确定起点在第1页;否则,起点在第二页。
第二步:确定起点的行数与列数,先在表上随机指定一点,由落点处的两位数确定起点的行数。由于每页只有50行,所以当落点处的两位数大于50时,则取其减去50的差数为行数。为保证等概性,当落点处的数为“00”时,则行数应取作50。然后依同样的方法再确定起点的列数。
第三步:确定所抽样本单元的号码。从上述确定的起点开始向下(或向右),每次取一个r位数。通常,若所需抽的数是一位数或两位数(即r=1或2),则由起点开始,依次向右抽取较方便,达到该行右端时,从下一行左端开始继续向右抽取;若所需抽的数是三位及以上(即r≥3)则由起点开始依次向下抽取较方便,达到最后一行时,向右移10位(或r位),再从第一行开始向下继续抽取,直到取足所需的n个r位数为止,以这n个r位数所对应的总体单元组成样本。
然而,按上述步骤抽样,由于每个总体单元只对应一个数字,因此,所读取随机数的放弃比例可能很高,这在大样本时将使抽样过程变得很费事。为避免这种现象,可以在不违反等概率原则的条件下令每个总体单元同时对应多个数字,以加快抽样的速度。
一般说来,当N为一个r位数字时,要取一个从一到N间的随机数字,可以随机取1至的一个数字,其中为N的最大r倍的整倍数。如果为kN,总体内每一单元便配上1到的k个数,符合随机数字的单元算是中选,此时放弃的随机数字比例便是(10r-)/10r。这时的也不一定要取r位,如果能取位(>r),而使N的位整位数与相差极小即可。
快速抽取的常用方法有:
余数法。如果N是个r位数,由1到随机取一个数R,而是N的最大r位整倍数,则编号等于R除N所得余数的单元便被选中。
商数法。如果N是个r位数,由0到-1随机取出一个数R而使是N的最大整倍数,只要R除k的商是(i-1),则第i个单元便被选中。其中k=/N。由于k远比N小,所以此法的计算过程较余数法简便。
修正余数法。如果总体内单元个数N是个r位数,且是个不小于N而适于用作除数的较大r位数,而为的最大r位整倍数,则如果R是用r位随机数字取得的数字,待选单元的号码便会是R除的余数,其中只要R不大于而余数不是0也不大于N就可以。在其他情形时,被抽中数字必须放弃而重复进行。如果=N,本法便简化成余数法;如果这时的余数是0,等选单元的号码便选N。这时的放弃比例是[(-N)/10r](/)。
此外也可以用修正商数法或独立选择数位法等以加速抽样。
2、随机数骰子及其使用方法随机数骰子是由均匀材料制成的正二十面体(通常的骰子是正六面体,即正方体),面上刻有0-9的数字各2个。每盒骰子由盒体、盒盖、泡沫塑料垫及若干个(通常是3-6个)不同颜色的骰子组成。使用随机数骰子时可以像普通骰子那样用投掷的方法。但正规的方法是将一个或n个骰子放在盒中,拿去泡沫塑料垫,水平地摇动盒子,使骰子充分旋转,最后打开盒子,读出骰子表示的数字。一个骰子一次产生一个0-9的随机数。要产生一个m位数字的随机数,就需要同时使用m个骰子(事先规定好每种颜色所代表的位数,例如红色表示百位数,蓝色表示十位数,黄色表示个位数等),或将一个骰子使用m次(规定第一次产生的数字为最高位数,最后一次产生的数字为最末位即个位数字等)。特别规定m个骰子的数字(或一个骰子m次产生的数字)都为0时,表示10m。
当使用随机数骰子进行抽样时,特别是如何根据摇随机数骰子方法获得的随机数R0来读取所要求的随机数R有多种方法。下面是我国国家标准GB10111《利用随机数骰子进行随机抽样的方法》中规定的适用于简单随机抽样的读取随机数的方法。
方法之一:若骰子表示的R0≤N,则取R=R0;若R0>N,则舍弃不用,另行重摇。重复上述过程,直到取得n个不同的随机数为止。
方法之二:如果骰子表示的R0≤N,则取R=R0;如果R0>N,设R0=K1N+R1(0≤R1<N),当(K1+1)N>10m时,舍弃,重摇。而当(K1+1)N≤10m时,取R=R1,或R=N(若R1=0)。重复上述过程,直到获得n个不同的随机数为止。
方法之三:若骰子表示的随机数R0≤N,则取R R0;若R0>N则取一个大于N的适当整数M(一般为方便起见取M=2×10m-1,2.5×10m-1,3×10m-1或5×10m-1等),设R0=K2M+R2(K2为整数,0≤R2<N),则当(K2+1)M>10m时,舍弃,重摇;当(K2+1)M≤10m时,取R=R2或R=N(若R2=0)。重复上述过程,直到获得n个不同的随机数为止。
例:N=4562,m=4,取M=5000
若R0=3150,取R=R0
若R0=6897=1×5000+1897,K2=1,( K2+1)M=104
则:R2=1897,故取R=R2=1897
方法三和方法二都是为提高效率,减少舍弃重摇次数所采取的措施,尤其是方法三在适当选用M时,既方便又快速。
也许有人会认为,在抽样时不用随机数表,而采取随意抽选的办法也可以达到预期的抽样效果。表面上看,这种想法似乎有一定道理,但实际试验的结果证明随意抽样不等于随机抽样。以下是两个有名的试验:
试验一:随意数试验。让六个人写下100个自己随意想到的三位数,将这些数内的0、1、2、…、9数字列成次数分布表如下(表3.1),
表3.1 六个人的0、1、2、…9的次数分布数字
人的编号
期望次数
1 2 3 4 5 6
0
1
2
3
4
5
6
7
8
9
50 1 38 29 34 59
29 48 30 57 33 27
20 19 28 31 20 22
50 39 34 34 24 24
55 40 28 29 15 27
20 18 31 15 30 25
30 26 26 27 31 15
12 39 32 35 42 35
25 42 30 23 44 37
9 28 23 20 27 29
30
30
30
30
30
30
30
30
30
30
合计
300 300 300 300 300 300
300
可以看出,六个人都对数字存在偏好,如第一个人更加偏好数字4、3、0;第二个人则偏好数字1、8、4;等等。这种由于数字偏好所引起的偏估类型可称之为数字偏误。
试验二:着色试验。让四个人将10×10方格的纸板着色,可供选择的颜色有蓝、绿、红、白和黄色五种,对每一个四分象限来说,规定每种颜色只能在每行和每列出现一次。每个方格以其所在的列号与行号表示,如(4,6)代表第四列第六行的方格。请四个人对这100个方格随意选择行列号,而对其着色。将这些由这四个人着色所得到的资料形成次数分布表如下(表3.2):
表3.2 四个人对方格着色的次数分布颜色
人的编号
期望数字
1 2 3 4
蓝绿红白黄
26 20 12
21 15 21
12 20 22
23 20 19
18 18 25 26
20
20
20
20
20
合计
100 100 100 100
100
可见四个人都对颜色存在偏好,如第一个人偏爱绿色,第二个人偏爱蓝色等。这种由于对颜色偏好所引起的偏估类型,可称之为颜色偏误。
从上述两个试验可以发现,利用人为的随意抽样方法都会产生偏差。每个试验者均有较为喜欢的数字和颜色,因此,使得样本变成非随机的,进而给抽样估计带来困难。
三、简单随机抽样的方法评估简单随机抽样对总体不加任何限制,等概率地从总体中直接抽取样本,是最简单、最单纯的抽样技术,它具有计算简便的优点,是研究其它复杂抽样技术的基础,也是比较各种抽样技术之间估计效率的标准,同时,从理论上讲简单随机抽样在各种抽样技术中是贯彻随机原则最好的一种,并且数学性质很简单,是等概率抽样的特殊类型。
另一方面,因为是等概率抽取样本,所以要求总体在所研究的主要标志上同质性或齐性(共性)较好,也即总体要比较均匀;要求样本容量要比较大,以保证样本对总体具有充分的代表性。但是,在社会经济现象中,这种均匀总体是很少见的。因此,实际工作中很少单纯使用简单随机抽样方法。
再者,因为直接从总体中抽取样本,未能充分利用关于总体的各种其它已知信息,以有效地提高样本的代表性,并进而提高抽样的估计效率。
此外,简单随机抽样要求在抽样前编制出抽样框,并对每一个总体抽样单元进行编号,而且当总体抽样单元的分布比较分散时,样本也可能会比较分散,这些都会给简单随机抽样方法的运用造成许多的不便,甚至在某些情况下干脆无法使用。因此,在此基础上研究其它抽样技术显得更加重要。
第二节 总体参数的估计虽然抽样的目的各种各样,但通常人们的兴趣都集中于总体的四项指标:①均值;②总和Y;③成数(比例)P;④两总值或均值的比率R。这里只考察前三项指标,比率R放在第五章讨论。
一、基本原理在抽取一个简单随机样本,并进行调查以后,如何估计总体的均值、总和及比例呢?估计结果的误差又如何确定呢?为了说明简单随机抽样的基本原理,下面我们先结合例子从最简单的情形,即一单元抽样(只抽取一个单元的样本)开始讨论,然后导出适于n单元抽样时的一般结论。
设总体包含有U1、U2、U3、U4四个单元,其观测值分别为Y1、Y2、Y3、Y4,则总体均值为=(Y1+Y2+Y3+Y4)/4。现用简单随机抽样法抽一个单元并以其观测值来估计总体均值,则这四个单元每个都是可能的样本,而每个可能样本被抽中的概率均为四分之一。每个样本观测值本身就可以当作总体均值的一个估计值。显然,根据不同样本估计的结果与总体均值之间通常并不一致,而是存在一个的误差。下表列出了抽到不同样本时的结果(表3.3),
表3.3 包含四个单元的总体内抽一个单元的可能结果样本编号
样 本
样本观测值
的估计值
-
1
U1
Y1
Y1
Y1-
2
U2
Y2
Y2
Y2-
3
U3
Y3
Y3
Y3-
4
U4
Y4
Y4
Y4-
用样本均值估计总体均值,这很容易理解。在抽样前,样本均值的取值是不知道的,抽样后,通过样本可算出的值。因此,是一个随机变量,它的取值视抽到的样本而定。一般的抽样调查,只抽一个样本,因此,其样本的均值不一定恰好等于总体均值。但是从所有可能的样本来看,两者之间有什么关系呢?
由上述分析可知
所以,是的无偏估计量。的均方误差(MSE)为
即总体方差。又因为是的无偏估计量,因此,估计量的方差等于均方误差,即
若用不放回简单随机抽样法从上例的总体中抽取2个单元组成样本,则可以得到U1U2、U1U3、U1U4、U2U3、U2U4、U3U4等六个可能样本,每个样本被抽中的概率均为六分之一,当抽到不同的样本时,会有不同的估计结果,如表3.4所示:
表3.4 由四个单元中不放回抽取2个单元的可能结果样本
U1U2
U1U3
U1U4
U2U3
U2U4
U3U4
样本观测值
Y1,Y2
Y1,Y3
Y1,Y4
Y2,Y3
Y2,Y4
Y3,Y4
样本均值
可见,样本均值是的一个无偏估计量,因为
而每个单元均可能在三个样本内出现,故
因此,的样本方差为
又已知 (i=1,2,3,4)在三个样本内出现,而
则
将上述结论加以推广,则可得出一般性的结论,即从总体的N个单元中不放回抽取n个单元时的估计量及其方差的构造形式。
鉴于一些数理推理过程过于繁琐,且在实际应用中的意义不大,故本课程对一些证明过程不准备作详细介绍。而是将侧重点放在弄清楚公式的经济意义之上。
二、估计量
1、总体均值和总和的简单估计量在简单随机抽样条件下,总体均值的简单估计量分别为,
可以证明,样本均值是总体均值的无偏估计,即
因此总体总和的简单估计量为
其中N/n也称作膨胀因子。
2、总体比例的简单估计量
抽样调查中,经常需估计总体中具有某种特性的单元总数及其在总体中所占的比例(即成数)。
设总体中的N个抽样单元按其是否具有某种特性可分成D和两类,D类具有某种特性,类不具有某种特性。D类有N1个单元,类有N0个单元,则:
属于D的单元数
属于D的成数
总体
样本
总体
样本
N1
n1
又令
则
=P,=p,Y=N1,y=n1.
由此则将估计N1和P的问题转化为估计Y和,所以依上面的结论可知总体比例的简单估计量为:
且
总体中具有D类属性的单位总数的估计量为:
三、估计量的方差在抽样推断中,有时往往只计算出估计量的值,而不大注意估计量的误差(方差或标准差)。但是,总体均值的估计量通常与总体均值的真值间不完全一致,即存在误差,而且所有可能的样本均值相对于总体均值的误差大小也是不一致的。联合国统计局编的《抽样调查理论基础》一书指出:“从研究大多数国家的抽样实践中,可以看出:虽然计算估计量的标准差,至少对关键性的几个估计量计算其标准差来说,仅需增加很少的额外开支或负担,但是他们并不意识到确定估计量的标准差的重要意义。这是否因为统计人员无意识地忽视了估计量的不精确性所产生的严峻的现实呢?计算标准差,并且把他们与估计量一起列出来,应该成为实际工作的一个常规。”
估计量的标准差就是所有可能的样本平均数(或成数)对应于总体平均数(或成数)的平均误差,即抽样平均误差。其平方即为估计量的方差,常用V表示。
为表达均值估计量的方差,我们先定义总体方差,按一般定义,有限总体的方差为
但为了在大多数情况下使公式的表达更为简炼,常将总体方差用
表示,这种表示方式在用方差分析法处理时尤为方便。
由于是的无偏估计量,因此总体均值估计量的方差为
其中,f为抽样比,1-f为有限总体不重复抽样校正系数,记为fpc。
由此进一步可推出
又因为在研究总体成数时
所以可得出总体比例估计量的方差为
总体中具有某种属性单元总数估计量的方差为
四、方差估计量可以证明样本方差为总体方差的无偏估计量,即,所以,当总体方差未知时,可用样本方差来代替,由此可得出估计量的方差的估计量分别为
而且与分别是与的无偏估计。
同理,可得的无偏估计量为
的无偏估计量为
第三节 样本容量的确定一、必要样本容量的确定如前所述,抽样误差是抽样调查所固有的,虽然不能消除,但却可以控制。影响抽样误差的因素有许多,样本容量的多少是其中最重要的影响因素之一。样本容量越大,样本对总体的代表性就可能愈强,抽样误差就越小,抽样估计的精度也就越高。
而在实际的抽样调查工作中,显然不可能无限制地增大样本容量,以追求对总体参数的估计达到尽可能高的精度,因为样本容量愈大,抽样调查所需花费的费用就愈多,调查的时间也愈长,接近于全面调查,则就失去了抽样调查的意义和作用。反过来,如果抽样数目过少,费用和时间的花费固然也少,较易得到满足,但在估计精度上,常不能达到规定的最低限度之要求,因此满足不了分析研究的需要。
所以,在确定样本容量时,必须在估计的精度要求和可供调查使用的费用之间进行权衡,使在费用一定的条件下精度达到最高,或在精度要求得到保证的前提下使费用最省。通常将在这一原则指导下所确定的样本容量称之为必要样本容量,它是在最大限度地满足规定精度要求以及尽可能节约调查费用的前提下,所应该抽取到的最少的样本容量。以后各种抽样组织方式所讨论的样本容量均是指必要样本容量。
(一)依规定精度来定
1、关于精度的不同提法估计精度是抽样误差(估计量的方差)的倒数,所以,在一定的可靠程度的要求下,给出估计精度,也就等于给出了估计中允许误差的大小。
通常,对于估计量的精度可以有不同的提法或表示方法。
提法之一:以置信度1-α,允许总体参数θ的估计量的最大绝对误差为Δ,即
提法之二:以置信度1-α,允许总体参数θ的估计量的最大相对误差为r,即
因为最大绝对误差可以通过估计量的方差表示,即
最大相对误差可以通过估计量的变异系数表示,即
所以,
提法之三:以置信度1-α,允许总体参数θ的估计量的最大方差不超过V,即
提法之四:以置信度1-α,允许总体参数θ的估计量的最大变异系数不超过C,即
2、样本容量n的确定当n足够大时,可以认为服从正态分布N(θ,V())(理由如前述样本统计量的抽样分布)。因此,由上述四种对估计量精确度的不同提法,可以分别得到下列方程式
因为V()是n的函数,求解以上四个方程,即可确定n。
(二)依调查费用来定
设C表示抽样调查工作的总费用,可大致分为两个构成部分:一部分为固定费用,用C0表示,不管调查单位数的多少,这部分费用都要花费,主要包括组织领导、宣传、设计等费用。一部分为可变费用,用C1表示,它是每调查一个单位平均要花的费用,其费用的大小随调查单元数的多少变动,如调查表的印刷、调查的差旅费等。这样
C= C0+ C1n
在上述公式中,当某项抽样调查工作所能得到的总费用一定,且C0和C1依其他有关资料也大致可以确定时,就可推算出必要的抽样单元数目
(三)在精度和费用间谋求平衡依费用确定抽样数目后,可进行实地抽样调查,计算其样本指标和抽样方差,进一步估算其估计精度,考察其满足允许误差范围和可信程度的要求程度,以及根据精度和费用分别确定的抽样数目的符合程度,谋求精度和费用间的平衡。一般情况下,若依精度要求确定的n,同依费用限制确定的n相比较,若前者小于后者,则以前者为准,而节省费用。若前者大于后者,则在费用不能再增加,以及精度要求不能再放宽时,只能暂时放弃该调查;在费用不能再增加,而精度要求能做适当让步时,则调整精度要求。
(四)多指标时(多目标时)样本容量的确定大多数的抽样调查,往往要收集多个项目的信息,因而会遇到多指标或多目标的问题。这时,如何确定样本容量呢?首先要在众多的指标中挑选出最重要的K个指标,然后对这些指标分别提出估计精度的要求,求出每个指标所需的样本容量ni(i=1,2,…,k)。如果诸ni很接近,其中最大的是可行的,则选最大者为n。如果诸ni相差太大,若选其中最大者为n,则费用不允许或使总的精度大大高于原来的标准,没有必要,这时,可降低某些项目的精度要求,甚至取消一些项目。
二、总体方差的确定运用精度要求来确定样本容量时,必须事先知道总体的方差。确定总体方差的方法一般有以下几种:
其一,两步抽样法即在正式开展抽样调查工作之前,先从总体中抽取一个容量为n1的简单随机样本,求得的估计值或P的估计值,把n1和 (或n1和)代入相应的公式计算所需的n,然后,再补抽其余的n-n1个单元进行正式调查。
考克斯(Cox)1952年在斯坦(Stein)工作的基础上提出了在给定的精度下求n的公式。
第二步抽样后,从总的容量为n的样本给出的估计是有偏的,应加以修正。
其二,对于一次性的调查,采取在正式调查前进行试点调查,根据试点调查的结果估计或P。试点调查的目的是多方面的,不只是估计或P,若试点调查是通过简单随机样本进行的,就可用上面的方法。但试点调查的对象往往有选择性,用其结果来估计时,可能偏低。
其三,对于经常性调查项目,可以利用以前调查的结果,也可对以前调查的结果作适当调整。一般情况下,如果以前的调查结果有若干个时,常选择其中最大的方差来确定样本容量,从而保证充分满足估计精度的要求。
其四,根据总体的结构,应用数学方法预测总体方差或P。如对正态分布总体,可用标准差与全距间的关系来定出总体方差;对均匀分布、泊松分布总体也可以用有关数理统计的知识来确定出总体方差。
其五,估计比例时,如果能借助某些基本信息或方法,或经验等,估计总体比例大约在0.3-0.7之间,则也可以直接取成数方差的最大值0.25来确定样本量,这通常是一种比较“安全”的选择。但当总体比例估计小于0.1时,对于依不同的总体比例确定的样本量常常可能相差很大,有时甚至相差10倍以上,因此,在这种情况下,一般采用逆抽样的方法。
第四章 分层抽样第一节 分层抽样概述分层抽样也叫做类型抽样,它是实际工作中最常用的抽样技术之一。分层抽样是在抽样之前,先将总体按一定标志划分为若干个层(组),后在各层内分别独立地进行抽样。由此所抽得的样本称之为分层样本。各层所抽的样本也是互相独立的。
如果每层中的抽样都是简单随机的,则这种抽样就叫做分层随机抽样。由此所得到的样本称做分层随机样本。
从以上概念可以看出,分层抽样的实质是在各层间作全面调查,而在各层内作抽样调查。因此,分层抽样的误差只与各层内的差异有关,而同各层间的差异无关。所以,为了能有效地降低抽样误差,提高抽样效果,在分层时应遵循“尽可能使层内差异小,而使层间差异大”的原则,同时要使分层的结果既无重复又无遗漏。
进行分层抽样时应注意:①层内抽样设计的选择;②分层变量的选择;③各层样本量的分配;④层数;⑤层的分界。以前只重视③,近年来,④和⑤引起了越来越多的关注。
同简单随机抽样相比,分层抽样具有以下特点:
①分层抽样能够充分地利用关于总体的各种已知信息进行分层,因此抽样的效果一般比简单随机抽样要好。但当对总体缺乏较多的了解时,则无法分层或不能保证分层的效果。
②在分层抽样中,总体的方差一般可以分解为层间方差和层内方差两部分。由于分层抽样的误差只与层内差异有关,而与层间差异无关,因此,分层抽样可以提高估计量的精度。
③由于分层抽样是在每层内独立地进行抽样,因此,使得分层样本能够比简单随机样本更加均匀地分布于总体之内,所以其代表性也更好些。
④分层抽样的随机性具体体现在层内各单元的抽取过程之中,也即在各层内部的每一个单元都有相同的机会被抽中,而在层与层之间则是相互独立的。
⑤分层抽样适合于调查标志在各单元的数量分布差异较大的总体。因为对这样的总体进行合理的分层后可将其差异较多地转化为层间差异,从而使层内差异大大减弱。
⑥分层抽样中除了可以推断总体参数外,还可以推断各不同层的数量特征,并进一步作对比分析,从而满足不同方面的需要,也能帮助人们对总体作更全面、更深入的了解。但对各层的估计缺乏精度保证。
⑦分层抽样调查实施中的组织管理及数据收集和汇总处理可以分别在各层内独立地进行,因此较之简单随机抽样更方便。
⑧分层抽样中,由于各层的抽样相互独立,互不影响,且各层间可能有显著的不同,因此,对不同层可以按照具体情况和条件分别采用不同的抽样和估计方法进行处理,从而提高估计的精确度。
⑨当总体有周期现象时,用分层比例抽样法可以减少抽样方差。
⑩分层抽样中在进行分层时,需收集可用于分层的必要的各种资料,因此可能会增加一定的额外费用。同时,分层抽样中,总体参数的估计以及各层间样本量的分配、总样本量的确定等都更为复杂化。
通常,在满足下述条件时,分层在精度上会有很大的得益:
①总体是由一些大小差异很大的单元组成的,即总体差异大;
②分层后,每层所包含的总体单元数应是可知的,也即分层后各层的权重是确知的或可以精确估计的;
③要调查的主要变量(标志)与单元的大小是密切相关的;
④对单元的大小有很好的测量资料可用于分层,也即分层变量容易确定。
第二节 总体参数的估计一、有关符号的涵义在分层抽样中,我们用各种符号来区别各种不同情况,熟悉了这些符号所代表的确切内涵,对于我们系统地掌握抽样推断的一系列方法是十分重要的。因此,这里先集中对各有关符号的涵义作一解释;
L表示分层的层数;
h表示层的编号(h=1,2,3,…,L);
N表示总体容量;
N表示第h层的总体容量;
W=N/N表示第h层的层权,是已知的或要事先确定;
n表示样本容量;
n表示第h层的样本容量;
f=n/N表示第h层的抽样比;
表示第h层每i个单元的观测值;
=为总体总量;
=为样本总量;
=为总体均值;
=为第h层的总体总量;
为第h层的总体均值;
=为第h层的样本均值;
为样本均值;
为第h层的总体方差;
为第h层的样本方差;
P为总体成数;P为第h层的总体成数;
为第h层的样本成数;
P(1-P)为第h层的总体方差;
(1-)为第h层的样本方差。
二、估计量在简单随机抽样中,样本均值是总体均值的无偏估计。在分层抽样中,仍用样本均值
来估计总体均值,在一般情况下是否合理,先看下面的例子。
例:总体由1000人组成,按以往收入情况分成两层,第一层(高收入层)20人;第二层(低收入层)980人。从第一层随机抽2人,调查上月收入得1200和1600元;从第二层抽8人,上月收入分别为220、230、180、320、400、340、280及360元。估计这1000人的月收入。
如果用样本均值
=513(元)
来估计总体平均值显然偏高。若先分别算出这两层的样本均值=1400元
=291.25元,用=313.43(元)来估计就合理多了。
由此,分层抽样的估计量可按如下方式来构造:
1、总体均值的估计量在分层抽样中,总体均值的估计量一般用表示,它是各层总体均值的估计量按层权的加权平均,即
一般情况下:
≠=
在分层随机抽样中,是的无偏估计量,即=,因此,
也是的无偏估计量。
2、总体总和Y的估计量有了总体均值的估计量,就可推出总体总和的估计量
3、总体比例P的估计量若令
则,,.
按照总体均值估计量的公式,可推出总体比例(成数)P的估计量为:
可以证明,在分层随机抽样中,是的无偏估计量,是Y的无偏估计量,是P的无偏估计量。
三、估计量的方差
1、总体均值估计量的方差对于一般的分层抽样,由于各层的抽样是相互独立的,诸也相互独立,因此总体均值估计量的方差是总体各层均值估计量方差的加权平均,即
式中是第h层总体均值估计量的方差。
对于分层随机抽样,则有:
=
=
=
可见,在分层抽样中,总体均值估计量的方差只与各层内的方差有关,而同层间方差无关。而总体方差又是由层内方差与层间方差两部分构成的。所以,估计量的方差小于总体方差。
2、总体总和估计量的方差有了总体均值估计量的方差,就可推导出总体总和估计量的方差:
对于分层随机抽样,则有:
3、总体比例估计量的方差估计总体比例,当充分大时,有:
对于分层随机抽样,则有:
()
=
四、方差的估计量按上述方法确定估计量的方差时,要求各层的总体方差应事先已知,但实际工作中,各层的总体方差又常常是未知的,此时,一般可用对应的各层样本方差替代,以对估计量的方差作出估计。此时:
=,
与分别是与无偏估计。
当用样本资料估计方差时,可将 用替代,则得:
=
是的无偏估计。
第三节 总样本量的分配总样本量在各层间的分配在分层抽样中,一个重要的问题是总的样本量如何在各层之间进行分配。通常考虑:⑴精度和费用问题。即如何分配才能在费用一定时使总的精度和各层估计精度最高?⑵数据处理问题。即如何分配才能使调查数据的处理工作更加简洁,也使估计量及其方差的确定形式更为简单明了?⑶各层的容量大小问题。
结合上述考虑,总样本量在各层间分配时可采用如下方法:
(一)比例分配在分层抽样中,若各层的抽样比都相同,即fh=f,则称总样本量为按比例分配。此时
所以,因此,。(应取整)
比例分配最早是由鲍利于1926年提出的,比例分配主要考虑了各层单元数多少的差异。
比例分配时,总体中任一单元的入样概率都相等,都为f=n/N。由此所得到的样本称为是自加权的或等加权的。在这种情况下
,
,(为常数)
即或为所有样本最基本单元观测值总和的一个常数倍。这样的估计量也称为自加权的。
容易证明,对于比例分配的分层随机抽样,其均值估计量的方差可以有以下比较简单的形式:
若令为各层内方差的平均,则:
当估计比例P时,同样有:
,
其中
为各层内成数方差的平均。
(二)最优分配
1、一般情形在分层随机抽样中,在给定的费用条件下,使估计量的方差达到最小,或在精度要求(常用方差表示)一定条件下,使总费用最小的各层样本量的分配称为最优分配。
在分层随机抽样中,费用函数可能是简单线性的,也可能是其它复杂形式,这里主要考虑简单线性的费用函数:
其中C0是固定费用,如组织宣传费、分层及编制抽样框的费用等,Ch是在第h层抽取一个单元的平均费用,包括调查员报酬、旅差费、调查测试费等。
根据前面的论述,在估计总体均值时,对给定的各层样本量nh,估计量的方差为:
可见,第二项与样本量无关。考虑到
=
则在给定总费用下使估计量的方差最小,与在给定下使最小均等价于使
=
根据柯西—许瓦兹(Cauchy-Schwarz)不等式,有
其中等号只有在以下情形时才成立(达到极小值):
(为常数)
这意味着:
则
因此
所以使达到极小的最优分配即为
=
即
= (应取整)
可见,最优分配的结果既考虑了总体各层的差异,也同时考虑了总体各层内变异程度上的差异和各层内平均调查费用的差异。当层的容量愈大、层内变异程度愈大,层内每调查一个单元的费用愈小,则在该层中抽取的单元应愈多。
2、特殊情形——内曼分配如果各层内每个单元的平均抽样费用相等,也即时,最优分配简化为:
即
= (应取整)
这个结果称为内曼分配。因为最先人们认为它是由内曼于1934年给出的,实际上后来才发现早在1923年它已被俄国学者楚波罗(Tschuprow)给出。
在内曼分配时,估计量所能达到的最小方差为:
= -
(说明:也有用来表示这里的的)
3、某些层需要超过100%抽样时的修正
若抽样比f=n/N较大,而个别层的也很大,则按最优分配,一些层的有可能超过(即>1)。这时,可以对这些极端层进行100%抽样。然后将剩下的其余的层可用的样本量再按最优分配法在其它各层间重新进行分配。以内曼分配为例,其具体步骤如下,
假定:>,则令。对部分作内曼分配:
此时,若所有的≤(h≥2)则分配合理。否则,若有:,则,,
对部分再作内曼分配:
.
若所有≤ (h≥3),则分配合理。否则再重复上述过程,直到所有的≤为止。
此时,最优分配所达到的估计量的最小方差公式也应修正为:
其中′为仅对<的层求和,n′为修正后这些层的抽样单元数。
4、估计p时的最优分配
1)一般情形
2)特殊情形——内曼分配
.
在实际工作中,由于(或)未知,需根据有关信息进行估计,以致使实际的同最优分配时的相比会产生一些偏误,进而使估计量的精度会受到影响,但从分析比较的结果看,这种影响不会太大。
5、最优分配与比例分配的精度比较分层随机抽样中,依照定义,最优分配时估计量的精度比比例分配时高,但比例分配是自加权的,计算比较方便。那么实际工作中是否一定要用最优分配?什么时候用最优分配为好?为此,有必要将这两种情况下估计量的方差作一比较。
下面以总体均值估计量为例,并以内曼分配作为最优分配的代表进行讨论。
比例分配时估计量的方差为:
,
而内曼分配时估计量的最小方差为:
=,
因此:
-=
=
若诸很接近,则比例分配与内曼分配的精度相差无己。只有当各层的相差较大时,最优分配比比例分配在精度上才有较大的得益。因此,在设计抽样方案时,可依已有的信息对各层的的离散程度加以分析,以决定是采用比例分配还最优分配。
特别地,如果各层的容量、层内差异大小及层内平均每单元的抽样费用十分接近时,也可直接按等额方法分配总样本量。此时
(三)多指标时的分配一次抽样调查中调查项目(指标)可能不止一个。因此,往往总样本量对某个指标的最优分配不一定也是对其它指标的最优分配。这时,最简单的方法是利用比例分配,因为不仅它简单方便,而且对各指标大多能获得较为满意的结果。
如果此时仍希望采用最优分配,则可按下述有关方法进行处理。实质上下列方法都是对不同指标最优分配的某种程度的折衷。
1、平均法其基本思路是先在众多的指标中,选择最重要的K个,分别按最优分配原则计算出各层应分配的样本量,然后求其平均值:
.
由于各指标之间一般具有较高的相关性,因此,各指标的最优分配结果悬殊不会太大。考虑到在计算最优分配时还受到估计误差的影响,因此,在实际中这样处理就可以了。
2、查特吉(Chatterjee)折衷方法(1967)
假设经过挑选后,有K个主要指标,为j个指标在第h层按最优分配的样本量,n为第h层应分配的样本量,查特吉提出折衷的办法是:
.
查特吉法与平均法的结果很接近,它们都是在诸中进行折衷。若间相差很大,不能明显地折衷,此时,需建立一些准则来确定各层样本量的分配。
3、耶茨(Yates)方法这种方法应用于有一个特定目的的调查,这种调查中由于估计量给定的误差所引起的损失是可以用钱或效用来衡量的。把总的预期损失L看作估计量的方差的线性函数:L=,则可进一步经过变换,推导出结论:
,
,
其中:是第j个指标在第h层的方差;为系数;是第j个指标的总体均值估计量。
讨论:由于比例分配的样本是自加权的,因此,其估计量及其方差的确定形式都较最优分配时更为简便。但如果各层的因子之间差异很大时,最优分配将会比比例分配更为有效。然而,由于方差对于分配中发生的小的甚至是中等的变动并不敏感,因此,基什(L·Kish)认为在实际中①除非各层的因子之间有实质性的差异,一般不要采用最优分配。否则最优分配多出的效益可能会被加权和特别细致工作的额外花费所抵销。一般来说,要好几倍的差异才值得作最优分配。若的几个值大致相等,就要用比例分配。②最优分配往往不是估计比例值的经济方法,因为比例的标准差等于,它们对于0.1到0.9之间变动的值是不敏感的。③应用最优分配时,在实践上要避免使抽样比成为复杂的分数。④很多潜在的效益常常只需使用一些不同的抽样比就可以得到。有时,只用两个抽样比就可以取得大部分效益:对绝大多数元素采用一个低抽样比,而对一个只包含大元素的特殊层则采用一个高抽样比。有时,甚至可使这些特殊层能被当然地选入样本(即使其抽样比为1),以完全排除它对抽样误差的影响。
二、总样本量的确定
1、估计总体均值的情形设允许估计量的最大方差为V,对某种已确定的样本量分配原则,有:
,
代入总体均值估计量的方差的计算公式,则有:
,
于是对给定的V:
.
当比例分配)时:
=
当 (内曼分配)时:
当各层抽样费用不同,而总费用给定时:
.
2、估计总体总和的情形同样的道理,可得出对给定的分配形式()有:
.
当比例分配时
,
当内曼分配时
,
3、估计总体比例的情形若较大,则≈,此时可进一步求出估计P时对给定的分配形式()有:
.
比例分配时:
.
内曼分配时:
.
第四节 分层与提高精度分层抽样的目的主要是为了提高抽样估计的精度,而且分层抽样的效果如前所述一般也优于简单随机抽样,因此,在实际中得到广泛应用。但是否在任何一次抽样中都应该采用分层抽样呢?答案是不一定。通常要考虑以下四个问题:一是如果分层抽样的效果优于简单随机抽样,那么从所增加的人力、财力与所提高的抽样精度的对比上看是否值得?二是分层抽样的效果是否就一定优于简单随机抽样?三是当各层的层权不准(有偏)时,层权偏差所增加的误差与分层所减少的误差哪个更大?四是如果不采用分层抽样,简单随机抽样或其它抽样方式的估计精度能否达到事先设计的要求?下面从几个方面加以分析:
一、分层随机抽样与简单随机抽样的精度比较若用得好,分层样本与一个可比的简单随机样本相比,给出的均值估计或总值估计,几乎总是有较小的方差,然而,说任何一个分层样本都比一个简单随机样本给出较小的方差,这是不对的,当nh的值远离最优值时,分层抽样可能有较大的方差。事实上,当总的样本量为固定时,分层抽样也可能给出较大的方差。下面对分层随机抽样与简单随机抽样的精度作一比较。设为简单随机抽样的方差;为按比例分配的分层随机抽样的方差;为最优分配的分层随机抽样的方差。
因为
,
又
+
两边同除N-1,由于均较大,可忽略,则
所以
+
所以
又因为
其中:是的加权平均值,所以
,
因此当的项被忽略不计时,由
++
可以看出,从简单随机抽样变成最优分配的分层抽样时,方差中有两个部分消失了。第一部分为是消除了层间均值的差异的影响的结果;第二部分为是消除了层间标准差的差异的影响的结果,反映了最优分配在方差上的差异。
若含的项不忽略时,则
+
式中当
时,也即层间方差小于层内方差时
按比例分层还会比简单随机抽样有更大方差二、设计效应抽样方案不同,估计量的精度也会不同。基什于1965年提出了一个衡量抽样方案效果的量,称为设计效应,记作Deff。
Deff=
设计效应的主要作用有两个:评估比较复杂的抽样方案的效率和确定样本量。
从Deff的定义可以看出:简单随机抽样是衡量其它复杂抽样技术效果的标准。若Deff<1,表明这种复杂抽样的精度比简单随机抽样的高,即抽样误差比简单随机抽样的小。
设计效应Deff中涉及的是简单随机抽样和复杂抽样的估计量的方差。事实上,抽样调查后获得的只是一个样本,因此,如何利用样本估计Deff就成为一个值得讨论的问题。对于一个复杂的抽样设计,问题的关键在于如何确定与复杂抽样样本量相同的简单随机抽样估计量的方差。
在分层随机抽样中,由于所得的样本是分层随机样本,用样本方差估计总体方差
未必无偏,所以不能用公式作为的无偏估计。此时的无偏估计量为:
如果样本量按比例分配,则
三、层权误差的影响用分层样本估计时,估计量是以层权为权的加权平均。因此必须正确地掌握层权。若未知而又不能精确地估计,将对估计量的精度带来严重的影响。
设真正的层权为,实际使用的为,则估计量
于是
所以,是有偏的,且偏倚不会随样本量n的增大而减小。此时估计量的方差:
由于简单随机抽样中估计量的方差V(Y〖TX-〗〖DD(〗∧〖DD)〗)是随n的增大而减小的,故当层权不准时,因分层在精度上的利益将随着n的增加而迅速丧失。当n大到一定程度时,分层随机抽样估计量的精度就会比简单随机抽样的差。
当未知时,为保证分层抽样的精度,可采用二重抽样。先从总体中作一次样本量较大的简单随机抽样,对这个样本不必具体测量样本单位的标志值,只需区分每个样本单位属于哪一层,以估计层权。然后,按分层抽样在第一次的样本中进行再抽样,对第二个样本,需测量单位的标志值,并由此作出关于总体特征的估计。
四、分层标志的选择既然分层是按一定标志进行的,于是,就提出了怎么选择分层标志的问题。为使各层间的差异尽量大,从理论上讲,选择调查标志本身作分层标志时,分层的效果最好,但这在现实中是不可能的。因此,我们想到用与调查标志关系密切的其它标志来分层。而要从众多的标志中去选取那个与调查标志关系最密切的标志,在实践中也非易事,尤其是当有关资料缺乏或对现象总体了解不够时。为此,可以考虑以下几点思路:
(1)如果具备调查标志的全面的过去资料(如上一次的普查资料),而且自那时以来的变化不太大时,可用调查标志本身的过去资料来分层;
(2)尽量利用自然标志分层。如居民按居住地域分为城、乡两层,可供调查居民收入水平支出结构、人均耐用消费品拥有量等问题。自然标志通常是现成的,在现实社会经济现象中很多,也容易为人们所接受,方便实用,且常能满足多项标志分层的需要,同时,我们也注意到,有些自然标志用于分层时也确实能体现调查标志间的差异。
(3)充分利用那些能决定调查标志数量差异的品质标志。例如职业往往能决定收入的高低因此可用职业作为居民收入抽样调查的分层标志。优先选择品质标志的另一个理由是其标志表现较数量标志少很多,层界也容易确定。再者,对那些事先缺乏足够了解的新事物的调查,从品质标志着手分层相对要容易些。
(4)在多个可供选择的数量标志中,应选取那个与调查标志相关系数绝对值最大者。相关系数的测定可以过去资料为依据,也可以试抽样的样本资料或二重抽样中的一重样本资料为依据。当然,被选中的分层标志应具备全面资料。
(5)同时使用几个标志进行重叠分层。实践证明,使用几个标志进行较粗的分层所产生的效益一般大于使用一个标志作较精细的分层所产生的效益。
(6)当同时掌握一个品质标志和一个数量标志的资料时,应优先选择按数量标志分层。因为,品质标志只能用于分层选样,而数量标志即可用于分层选样,又可用于构造总体参数的比估计或回归估计。
以上只是就单项目分层抽样而言,而在实际应用中多项目分层抽样是比较常见的,利用一套样本对多项指标进行推断,已是今后抽样的一个趋势,但它也比单项目的分层抽样要复杂得多。
多项目分层抽样的主要问题之一是如何兼顾各个项目抽样推断的需要,合理进行分层。第一种思路,是从多项需要推断的指标中,选取被认为是最重要的一项,然后根据该项指标调查推断的需要,选择合适的标志对总体进行分层。
第二种思路,是当各项之间存在显著相关关系时,可选择其中任何项目的过去资料进行分层。如果有各项目的过去资料可供选择,通常应按其中离散程度最大、两两相关程度最大、能决定其它指标数值之变化为要求,选取一个项目的资料进行分层。如果把各项目过去资料改为相关标志,可作同样处理。
第三种思路,是利用现成的品质标志和自然标志分层。
第四种思路,是当各项目之间相关关系不明显时,最好采用多标志层叠分层(也叫做复分层)的方法,即先按某一主要项目的过去资料或相关标志分层,然后各层再按另一次要项目的过去资料或相关标志分小层……,直到按所有的(或若干重要的)项目分层。这种方法适合于大总体大样本的分层抽样。当然,也可以使用以上思路以外的其它比较合适的方法进行分层,如根据各项目的过去资料聚类分层等等。
五、层数的确定分层标志确定后,接下来的问题是层数的确定。
由于分层抽样的抽样误差仅和各层内的差异有关,分层的目的也正是为了降低层内各单元间的差异。在正常情况下,总体方差是一定的,分层数越多,层间方差就会越大,层内方差也就会越小,分层抽样的效果就会越好,因此,在样本单元数既定和不增加调查费用的条件下,尽量多地分层是可取的。但这并不意味着分层数可以无限增多,因为当层数达到一定数量时,估计量方差下降的速度就变得很慢,这时再增加层数的意义就不大。另一个原因是分层越细,工作量就越大,费用也不能不增加。因此当层数达到一定量时,再分层的费用会大幅度上升,这与所提高的精度相比可能会得不偿失,这时也不应再增加层数。同时,层数还受制于样本容量的大小。由于每层中至少要选出两个抽样单元,以计算方差的无偏估计值,因此,层的数目不应大于总样本容量的一半。
由此可见,层数应该有所限制,并非越多越好。一般可以把层数由L个往上增加所产生的效应用模型来表示。其中,是方差中受分层影响的部分,它与分层标志和调查标志之间的关系相对应,随层数的平方而降低,但方差的部分则与分层标志无关,不受层数增加的影响。因此,在中等数目的分层产生以后,方差就逼近这个水平。如令R=0.8,则当L=6时,方差降低到0.018+0.36=0.378,当L=12时,方差只降低到0.004+0.36=0.364。
对于按自然标志分层的总体,自然层数通常就是理想的和有效的层数。因为这种分层轮廓清晰,层次分明,既与实际情况相符又能体现性质差异,并且基本上是现成的,可直接应用。有时,自然分层也层内有层,可供再分层之用。
若是按数量标志分层,而层界较难确定时,则可采用现代多元统计分析方法中的聚类判别法来确定层界和层数。但要注意以下几个问题:一是聚类判别法要与定性分析相结合,避免以数量上的小距离把不同性质的单元归为一类;二要与传统统计分组法相结合,灵活分层,不拘泥于其数量框框;三要具备一定的现代化数据处理设备。有学者认为,按单一数量标志分层时,有3至10个层就足够了,更有理论研究表明,对于一个分层变量取到L=6就可以了。
总之,分层数多少的确定应遵循三条原则:首先,层数的多少要符合社会经济现象的实际情况,避免背离实际去人为地确定;其次,层数的多少应体现总体内性质差异的要求一致,不能因层数的不合理而掩盖性质上的差异;再次,层数的多少要能最大限度地满足提高抽样精度的要求。
六、层界的确定分层抽样的L层由(L-1)个分界点所决定,所以最佳分层便是找到(L-1)个分界点,以使分层抽样的抽样方差在抽样方式、层数和样本量分配方式都为已定时达到最小。
在比例分配中(设可忽略),能使方差
为极小值的一组点也是使
为极小值的最佳分界点。可以证明,满足该条件的第h和h+1层的最佳分界点为
同理可得在最优分配的条件下,求第h和h+1层的最佳分界点的方程为
.
然而,上述方程在实际中是无法求解的,因为和都同有关。因此,一些学者曾讨论提出过相关的近似求法,如戴伦纽斯和霍奇斯(DaleniusandHodges,1959年)的快速近似法,塞蒂(Sethi,1963年)的结合总体分布特征求解的方法等。上述研究都是假定可以用调查变量y本身的值来分层,而这是不现实的。实际中,常是用某些其它变量如x来分层的。研究表明:如果y和x有直线关系,则用比例分配按x求得的最佳分界点对y也为最佳;更进一步,如果y与x的回归是线性的,所有各层中的y与x高度相关,则用x分层同用y一样有效。
设
,
其中E()=0对一切x和成立,且与x不相关。是在第h层内e的方差,则使达到最小值的x界限满足下列方程:
=
其中,是h层内y与x的相关系数。
七、抽样后分层分层抽样须先分层再抽样。如果在抽样前分层有困难,也可以在抽样后分层。但前提条件是每层的大小必须已知,而且是准确的。事后分层是先在总体中抽一个容量为n的简单随机样本,再依样本中单元的某些特征进行分层,用
估计,其中,,是样本中落入第h层的单元数,若落入某些层的样本单元数为0,可将层加以合并,使>0。是落入第h层的样本的均值。
形式上与相同,但是随机变量,也具有随机性。可以证明:
式中第一项是按比例分配的分层随机抽样的方差,第二项表示因未按比例分配而引起的方差的增量。当落在每层的样本单位数较大(如大于20),也即n充分大时第二项就很小,因此,用这个方法几乎与按比例分配的分层随机抽样具有同样的精度。
在许多实际问题的研究中,常常需要按不同标准分类的统计数字。若采用事先的多重分层方法,困难很大,而且实际上也不一定需要所有每个子层的估计,于是可用事后分层的方式,以获得按各种分类的事后分层估计量。另一方面,从原则上讲,事后分层也可用于某种事先分层、但严格比例分层的样本,因为这种样本与简单随机样本一样是自加权的。由此可见,事后分层技术具有重要的实际意义。
第五章 比估计与回归估计前面所介绍的估计方法是简单估计,它主要是依据样本调查变量的资料来估计总体参数。在实际工作中,常常可能还已知或掌握了除调查变量以外的其它变量(称之为辅助变量)的有关资料,此时,若对各种辅助变量的资料加以充分利用,常能够使估计推断的精确度得以提高。本章介绍两种同时利用辅助变量和调查变量资料估计总体参数的方法,即比估计和回归估计法。
第一节 比估计的一般形式一、比估计综述比估计是依据调查变量与辅助变量间的比率来对总体有关参数进行估计和推断。通常简称比估计。
同简单估计相比,比估计具有以下特点:
(1)在比估计中,除调查变量外,还需要了解与调查变量有关的辅助变量,并且要求辅助变量的总体均值或总体总和必须事先已知。充分利用辅助变量带来的信息估计总体参数,比单纯用调查变量资料会有更好的效果。
如农产量调查,以本年单位播种面积产量为调查变量,往年单位面积产量或本年播种面积数则为与调查变量有关的辅助变量。
(2)比估计方法,对抽样调查单元是有条件的,通常是用组成总体的最基层单位为调查单元。如农产量调查和居民人均收入调查等,适合以户为调查单元,只有这样的单元一般才具有辅助资料。
(3)比估计只适用于有限总体,因为只有有限总体才可能计算出为比估计所需要的辅助变量的总体总和与总体均值。
(4)当每个单元的调查变量与辅助变量的比例(一般要求为正比例)十分稳定,且变异很小时,比估计就具有十分精确的估计效果,只要抽取少量的样本单元,就可得到满意的结论。
(5)在比估计时,出于估计精度方面的要求,选择辅助变量时,须与调查变量的关系愈密切愈好,至少要求相关系数在1/2以上。在实际工作中,如果两变量间没有什么相依关系,以至各自的变异毫不相干,其相关系数小于1/2,甚至趋近于0,就不能采用比估计。这是仅就正相关系数而言的;如果相关系数值为负,则无论二者关系多么密切,比估计的效果仍然是很差的,且愈密切愈差。
比估计中,辅助变量可以是上次普查或调查时与调查变量相应的数据(即调查变量的前期或历史资料);也可以是对调查变量的粗略估计;或者是表示单元规模的某个量。
若辅助变量是调查变量前一时期的值,则比估计法就是利用样本去估计自那时以来所发生的相对变化Y/X。以估计的相对变化y/x乘以已知的前一时期的总体总和来估计现在总体的总和。
在实际工作中,特别是在对社会经济现象的抽样调查中,由于种种原因,每个单元的调查变量与辅助变量的比例不可能是确定的,总是存在或大或小的差异。为了充分发挥比估计的优越性,在应用比估计时应考虑两条:
一是选与调查变量有较密切的正相关关系的变量作为辅助变量。因为如果辅助变量与调查变量的关系不密切,各自独立变化,则对比估计起不了应有的辅助作用。
二是样本容量要比较大。因为比估计是有偏倚的,只有当样本容量n比较大时,其偏倚才能比较小,比估计才更加有效。
二、总体比率的估计设总体有N个单元,对每个单元考虑两个指标y和x。抽取容量为n的简单随机样本,则总体比率R的估计量为:
其中:,分别为指标与的样本和。
公式中的分子与分母都是随机变量,因而它的分布比更复杂。当n是中等大小时,的分布呈现正偏的趋势。当n>30,且能使y和x的变异系数都小于10%时,可以认为的分布趋于正态。
比率估计是有偏的,但当样本量n增大时,偏倚逐渐趋于零。
所以,当n增大时,,为R的近似无偏估计量,其方差为
其中:
,
,
分别为指标y、x的方差及协方差,而
是y与x的相关系数。
当总体方差未知时,可用样本方差替代,以估计方差。
此时
,
或
(未知时)
,
其中
,
,
分别为y、x的样本方差和样本协方差。
这两个估计量都不是无偏的,但它们与的偏倚都随着n的增大而减小。
三、总体均值和总和的比估计前面两章所讨论的估计量只是利用了调查变量的信息,这样的估计量称为简单估计量。当调查变量和辅助变量具有正相关关系时,为了利用辅助变量的信息,可以构造总体均值或总和的比估计量。在简单随机抽样中,总体均值和总体总和的比估计量分别为:
其中或必须已知。
当n充分大时
,
即与分别是与的近似无偏估计。
其方差为
,
这表明,比估计量是近似无偏估计量,随着样本量的增大,估计量的偏倚越来越小,精度也越来越高。
其方差估计量为:
四、比估计量与简单估计量的比较对简单随机抽样,若n足够大,则当
时,有
<
其中
,
分别为总体中x与y的变异系数。
证明:∵n足够大时,对比估计量有:
又对简单估计量,有:
∴当<0,即
时,
<
特别当≈(例如当x是y的前期数据时有这种可能)时,只要ρ>1/2,比估计量就比简单估计量更为精确。对一般问题,可先作一试点调查,估计出ρ的值,再判断作出选择比估计量或是简单估计量。
所以,我们的一个基本结论为:利用比估计提高抽样效果的条件是ρ>1/2。
五、样本容量的确定估计总体比率时如果允许的最大方差为V,当n大时,由
()
得
可以用以往资料估计,也可依试点调查确定。未知时,可以用代替。
估计总体均值时,如果允许的最大方差为V,由于,所以
估计总体总和时,如果允许的最大方差为,将代入上式,则得:
第二节 分层比估计由上一章的分析可知,分层随机抽样中总体均值的估计量为
也就是各层样本均值按层权加权平均。对分层随机抽样如何构造比估计量?先加权平均,还是先用比估计呢?应该说这两种考虑都可行。因此,分层随机抽样中的比估计量有两种形式:先构造各层比估计,再加权平均——各层分别比估计;先加权平均,再构造比估计——联合比估计。
一、各层分别比估计各层分别比估计是先对各层分别进行比估计,然后按层权加权平均,以得出总体参数的估计,即:
,(已知)
.(已知)
为便于表达,下面仅对Y的估计量加以阐述。由此,容易得到关于的估计量的结论。
在分层随机抽样中,若每层的样本量都较大,则为Y的近似无偏估计。其方差为:
式中:为第h层的比率;
和分别为第h层y和x的方差;
为第h层y与x的相关系数。
当各层的总体方差未知时,可用相应的样本方差代替。由此得到方差的估计量:
其中:为第h层比率的估计量,
和分别为第h层y、x的样本方差,
为y与x的样本相关系数。
Y的估计量的方差(或方差估计量)乘以即可得出的估计量的方差(或方差估计量)。
二、联合比估计联合比估计是先按分层随机抽样公式估计Y和X:
然后用这两个量的比及已知的X对Y作估计:
,
其中:
.
联合比估计只需要已知X,而无需已知每层的。此时:
分层随机抽样中,若总样本量n是较大的,则与分别为Y与的近似无偏估计,其方差为:
这里R为总体中y与x的比率。
其方差估计量为:
三、各层分别比估计量与联合比估计量的比较从偏倚的角度看,各层分别比估计量的偏倚较大,从方差的角度看,除了各层比率均相等时,外,一般只要各层的样本量均较大时,各层比估计更加有效,即有:
,
因此,当均大时,用分别比估计量否则,用联合比估计量较好。
第三节 回归估计的一般形式简单随机抽样中的比估计量(X已知),其实质是用来估计。若关于的回归直线通过原点,相关系数ρ又比较大,可以认为(a为常数),这时,用比估计精度就高。如果关于的回归直线不通过原点,如何利用辅助变量的信息来估计调查变量的总体参数呢?这时,用回归估计更为有效。
一、回归估计概述回归估计就是根据样本各单元调查变量与辅助变量间的关系构造回归方程,并据回归系数对总体有关参数进行估计。
如果在回归估计中只有一个辅助变量,则所进行的估计称为一元回归估计,若同时采用多个辅助变量综合进行估计,则称为多元回归估计。多元回归估计比一元回归估计效果更好,但更复杂。这里只介绍一元回归中的线性回归估计。
回归估计的主要特点有:
同比估计一样,回归估计充分利用了有关的辅助变量资料以有效地提高估计的精度;回归估计中要求辅助变量的总体均值或总和事先已知;回归估计一般只适用于有限总体,因为只有有限总体才可能计算出辅助变量的总体均值和总和;回归估计量一般优于比估计量和简单估计量。特别地当回归系数等于总体比率(即总体回归直线通过原点)时,回归估计量与比估计量的效果相同,当调查变量与辅助变量间的相关系数ρ=0时,回归估计与简单估计的效果相同。
但是,回归估计量的优越性只有在大样本的情形下才能得到较好的发挥,而在小样本时,它的性质就不大好,因而使用回归估计量,样本量一定要大,一般情况n≥30时,回归估计量较比估计量和简单估计量有较优的估计效果,但它的意义不如后两法简单明了,计算方法也较为复杂,特别是多元线性回归估计或非线性回归估计时更是如此。不过随着电子计算机的广泛应用,再复杂的计算也可通过计算机进行。
回归估计中辅助变量可以是一个,也可以是两个或多个;辅助变量应与调查变量存在一定的联系(不一定是密切关系)。
二、回归估计量的一般形式对于简单随机抽样,总体均值与总和Y的线性回归估计量定义为:
估计量右下角的“lr”取自linearregression(线性回归)。
其中,已知,、是样本均值,β可以是事先设定的常数,也可以是从样本中计算得到的某一特定的统计量,例如样本回归系数。β一旦确定,回归估计量的形式也就确定了。特别,当β=0时,;时,。所以简单估计量和比估计量都可以看成是回归估计量的特例。当β=1时,实质是用估计。
1、β为设定的常数(如β=B)时的情形
β为事先设定时的回归估计量,理论简单又富有启发性。在实际问题中,也常常可以将β事先确定,例如为同样目的进行的调查若重复多次,则有理由将从以往的资料中得出的对的回归系数B作为β的设定值。此时,回归估计量则为:
在简单随机抽样中,是的无偏估计量。其方差为:
当、、分别为简单随机样本的方差与协方差时,则方差
为的无偏估计量。
以上对y与x的关系未作任何假定,不论y与x有何种关系,不论B取什么值,总是无偏的,但方差的大小受到影响。那么,B的最佳值为多少呢?B的最佳值实际上就是使估计量的方差达到极小时的取值。可以证明当
时,的方差达到极小,且
其中ρ为y与x的相关系数。
证明:要使为极小值,则必使对B的偏导数等于零,即
则:
代入可得
证毕。
2、β需从样本计算时的情形当β需从样本计算时,受前面确定B的最佳值的思路的启发,β的一个有效估计应是总体回归系数B的最小二乘估计,也即取β为样本回归系数b
此时,总体均值的回归估计量为:
这时的回归估计量与β=B时不同,不再是无偏估计量,而是近似无偏的,因为样本回归系数本身是一个随机变量,它是总体回归系数的估计量。
在简单随机抽样中,当n充分大时,有
方差的估计量为:
三、回归估计量与简单估计量及比估计量的比较当n很大时,由以前的讨论,有
,
,
由于|ρ|≤1,故(ρ=0时,取等号)。
而
因此.(B=R时,取等号)
可见,在大样本时,回归估计量的精度要好于简单估计量和比估计量。
第四节 分层回归估计设x为与y对应的辅助变量,,为已知。与比估计量情形一样,在分层随机抽样中,也可考虑两种形式的回归估计。
一、各层分别回归估计先对每层分别进行回归估计
(已知)
然后按层权加权平均,得总体平均数的估计量为:
.
当各层的理论回归系数之间有较大差异时,考虑用此法。
当为设定的常数(如=)时,是 的无偏估计量,且
.
在
(h=1、2、…、L)
时达到极小值:
=
=
当回归系数需从样本估计时,令
为的最小二乘估计。当每层的都较大时,
,
其估计量为
=
二、联合回归估计先按分层随机抽样公式估计和,即得到估计量和,然后用这两个估计量构造的回归估计量
,(已知)
当事先设定(如=)时,也是的无偏估计,且
.
当时方差达到极小值
,
式中
,
,
,
即是各层回归系数的加权平均值。由
,
所以对于最优的的选择,除非各层的,否则,分别估计优于联合估计。
当回归系数需从样本估计时,令
作为的样本估计。
若是按比例分配的,用代替-1,则上式简化为
此时
其估计量为
=.
总结:若确信每层中的回归线性很好,又不大,的变化也不大,则应采用;而当回归是线性的,但的变化很大,都比较大时,应采用;若回归的线性不好,除非都相当大,否则还是用比较保险。
第六章 整群抽样第一节 整群抽样概述一、整群抽样的概念整群抽样是先将总体各单元划分成若干群(组),然后以群为单位,从中随机抽取一部分群,对中选群内的所有单元进行全面调查。确切地说,这种抽样组织形式应称为单级整群抽样。
如果总体中的单元可以分成多级,则可以对前几级单元采用多阶抽样(详见下章),而在最后一阶中对该阶抽样单元所包含的全部个体(最基本单元)进行调查,这种抽样称作多级整群抽样。本章只讨论单级整群抽样。
设总体被划分为N群,第i群含有Mi个次级单元,全部总体次级抽样单元数记为M0,即M0=∑Mi。当诸Mi都相等时,称为等群;否则,称为不等群。
二、分群的原则同分层抽样一样,整群抽样的前提是先要对总体进行分群。那么群如何划分呢?有两个问题应予考虑:一是如何定义群,即当群并非是一个自然形成的单位时,确定每个群的组成;二是如何确定群的规模即群的大小。
分层抽样是在各层都进行随机抽样,“层是缩小了的总体”,抽样单元仍然是总体基本单元。这决定了分层的原则是:尽量缩小层内差异,而扩大层间差异。而整群抽样只是在各群之间抽取一部分群进行调查,并在抽中的群内作全面调查。因此,群间差异的大小直接影响到抽样误差的大小,而群内差异的大小则不影响抽样误差。在这里抽样单元是各个不同的群体,所以“群实际上是扩大了的总体单元”。这就决定了分群的原则应该是:尽量扩大群内差异,而缩小群间差异。按此原则分群,则能保证每个群对总体都具有足够好的代表性。作为极端情况,假定各群之间总体单元的分布完全相同,即群间不存在任何差异,那么只需抽取一个群进行调查就能充分满足抽样估计精确度的要求,整群抽样的效率就很高。这就是说,整群抽样特别适合于群内差异大、而群间差异小的情况。
至于群的规模的选择,一是取决于精度与费用之间的平衡,二是从抽样实施的组织管理等因素来考虑。
三、整群抽样的特点同其他抽样组织形式相比较,整群抽样具有如下特点:
1.在大规模抽样调查中,常常没有或很难编制出包括总体所有次级单元在内的抽样框,而整群抽样则不需要编制庞大的抽样框。
2.在样本单元数相同的条件下,整群抽样与简单随机抽样相比,样本单元的分布相对较集中,虽然样本的代表性较差,但调查组织实施过程更加便利,同时还可以大大地节省调查费用。因此,实际工作中,在权衡费用和精度之后,有时宁可适当增加一些样本单元数,也采用整群抽样方法。
3.整群抽样的随机性体现在群与群间不重叠,也无遗漏,群的抽选按概率确定。
4.如果把每一个群看作一个单位,则整群抽样可以被理解为是一种特殊的简单随机抽样。
5.整群抽样也是多阶段抽样的前提和基础。
6.整群抽样有特殊的用途。有些现象的研究,如果直接调查作为基本单元的个体,很难说明问题,必须以一定范围所包括的基本单元为群体,进行整群抽样,才能满足调查的目的。如人口普查后的复查、要想估计出普查的差错率,只有通过对一定地理区域内的人口群体作全面调查才行。类似地诸如人口出生率、流动率等调查都需要采用整群抽样。
7.整群抽样要求分群后各群所含次级单元数目应该确知,否则会给抽样推断带来不便。
四、关于群大小的计量整群抽样中,如何有效地对群的大小进行计量,直接关系到抽样估计效率的高低。研究表明,对群的大小的最优计量尺度是各群在所研究标志上的标志总量大小。但在实际工作中,它是未知的。因此通常选择与所研究标志高度线性相关的另一辅助标志作为计量尺度。为此,要求掌握关于辅助标志的更进一步细致的资料,而这又会带来一系列新的问题,如增加工作量及费用等。所以,在整群抽样的实际应用中,经常选择以各群所含次级单元数的多少作为群大小的计量尺度。当各群所含次级单元数相等时,就称群的大小相等;当各群所含次级单元数不相等时,就称群的大小不相等。
五、整群抽样与分层抽样的比较
综合前面的分析,比较整群抽样和分层抽样可以发现二者在分组(层或群)的条件、调查的方式、分组(层或群)的目的、分组(层或群)的原则、总体方差的分解等方面都存在着较为明显的差别。
第二节 等概率整群抽样的情形整群抽样中对群的抽取有多种方式,本节只讨论按简单随机抽样抽群,即等概率抽样,也称PPF抽样的情形,下节讨论不等概率的情形。
一、预备知识
(一)有关符号的涵义
为总体群数;为各群所含次级单元数;为第群中第个次级单元的观则值;
为总体所含次级单元总数;
为样本所含次级单元总数;
为第群各次级单元观测值总和;
为第群的均值;
为总体各次级单元观测值总和;
为样本各次级单元观测值总和;
为总体各群的均值;
为样本各群的均值;
为总体均值;
为样本均值;
为总体方差;
为样本方差;
为总体群间方差;
为样本群间方差;
为总体平均群内方差;
为样本平均群内方差;
为抽样比。
(二)群内、群间差异的定量刻划正如前面所分析的,整群抽样的精度在很大程度上取决于群内各次级单元间差异程度的大小。那么如何有效地对分群后各群内次级单元间的差异和各群之间的差异加以测定?也就是对群内差异和群间差异怎样做定量刻划?通常有两种不同的思路:
1、离差平方和的分解——群内方差与群间方差的测定先分析总体的情况:
对于总体,对离差的总平方和可作如下分解:
式中第一项为群内离差平方和,用其除以即为平均群内方差,也可直接称之为群内方差,用表示,则:
< 为自由度>
式中的第二项为群间离差平方和,用其除以即为群间方差,用表示,则:
由此,依总体方差的定义及总体离差平方和分解可以得出:
同理,可得样本的方差及其分解如下:
需要注意的是,由于群的抽取是简单随机的,因此,可以证明与分别是与的无偏估计。但从次级单元角度而言,样本并不是简单随机的,因此,不是的无偏估计。的一个无偏估计可构造如下
当N充分大时,
另一方面,当也足够大时,可看作是的近似无偏估计。
2、群内相关系数群内相关系数是反映总体中群内各次级单元间相关程度的一个统计分析指标。是同一群内不同次级单元的观测值对总体均值离差乘积的平均与总体所有次级单元观测值对总体均值离差平方的平均之比,记作
的取值在范围内。当时,表明群完全是随机组成的。值愈大,表明群内的单元愈相似;值愈小,则群内单元的差异愈大。当时,表明这个差异比随机分组时群内的差异更大。
也可用群间方差与群内方差表示,此时
或
在实际应用中,当群的大小不等时,可用平均群的大小代替,用上式估计.
二、群的大小相等时
(一)估计量整群抽样是以群为单位进行抽样,如果群的抽取是简单随机的,则当群的大小都相等时,可以将简单随机抽样理解为是一种特殊的整群抽样,特别当总体分群后的每个群都只包括一个次级单元时,整群抽样和简单随机抽样一致。因此,整群抽样的估计量可以比照简单随机抽样方式来构造。
1、总体均值的估计由于总体均值
是各群均值的平均,而
是样本各群均值的平均,所以根据简单随机抽样的基本思路可得此时总体均值的无偏估计量应为样本均值,即:
2、总体总和的估计同理可得总体总和的无偏估计量为
3、总体比例P的估计令为第群中具有所研究特性的次级单元数,则表示第群中具有所研究特性的次级单元所占的比例,总体中具有所研究特性的次级单元所占的比例为
如果是按简单随机抽样方式抽群,则有的无偏估计量为
(二)估计量的方差及其估计由于群是按简单随机方法抽取的,因此,估计量与的方差及方差的无偏估计量可直接按第三章的方法构造,无需专门推导。结果如下:
≈
≈
三、群的大小不等时在许多情况下,总体各群的大小是不完全相等,或完全不相等的。若各群的大小相差不大时,总体参数的估计量可按简单估计或比估计来确定:
(一)简单估计如果群的抽取是简单随机的,则可将每个群的总和看作是第群的指标,于是总体总和的简单估计可依照简单随机抽样的情形(参第三章)来做,即:
可以证明,是的无偏估计,其方差为:
方差估计量为:
为无偏估计。
有了总体总和的估计量,则可得出总体均值的无偏估计量为
其中为总体各群次级单元之和,应事先已知,为第群所含次级单元数;为总体平均每群所含次级单元数,估计量的方差为:
方差的估计量为:
(二)比估计当群的大小不等时,在对群进行简单随机抽样的情况下,,我们注意到它同第五章所讨论的比率形式上完全相同,只不过在这里是将各群的大小作为辅助变量。因此,可采用比估计的方法得出有关参数的比估计量。按前面的论述,比估计量是有偏的,但当充分大时,其偏差可以很小,近似无偏。
所以,的近似无偏估计量为
的近似无偏估计量为
当群的大小不等时,总体中具有某种特性的单元所占比例(为第群具有某种特性的单元数),这与比率的形式仍然相同。因此也可用比估计的方法来构造出的近似无偏估计量:
根据比估计的原理,可相应推导出上述估计量的近似方差为:
≈
≈
≈
其方差估计量为:
(当)
从上面的分析来看,当群的大小不等时,简单估计量没有利用关于群大小的信息,如果群的大小与群的研究指标之间具有较高的相关性,则简单估计的效率就不如比估计。只有当群大小与群的研究指标间无关时,简单估计才比比估计效果好,但这种情况在实际问题中是很少见到的。
第三节 不等概率整群抽样的情形前面介绍的是按简单随机抽样方式抽取各群的整群抽样,即各个群不论大小如何,被抽到的概率都是相等的。如果群的大小悬殊很大,这样做就不大合适了。此时,可按群的大小比例采用不等概率抽样,即各个群被抽中的机会不尽相同,群大的,被抽到的机会大一些。不等概率抽样有放回的,也有不放回的。下面分两种情况分别加以讨论。(需要说明的是,不等概率抽样不仅可用于整群抽样,也可用于多阶抽样等其它抽样技术之中,本节只讨论整群抽样的情形。)
放回的不等概率抽样不等概率抽样通常是按与群的大小成比例进行抽样。当采用放回(重复)抽样时,叫做抽样(sampling with probability proportional to size)。
(一)抽样的入样概率和实施方法
1、入样概率设总体由个群组成,第个群包含个次级单元,按抽样,抽到第群的概率与该群的大小成正比,即其概率为。
有时,群的大小只是约略知道或这个“大小”并不是用群所含的次级单元数来表示的,而是用其它有关尺度来计量。此时,设第群的大小的计量尺度为,则有:
这时的抽样也称作抽样。
2、实施方法
1)代码法(累计和法,由汉森—赫维茨提出)
设不太大,且(或)都为整数,则赋于第群个代码,分别与各次级单元对应,由此可得到与总体所有次级单元一一对应的个代码。每次抽样产生一个之间的随机数字,则代码所在的群入样,重复抽样次,就可抽到所需的个群。抽样时,群的代码如下表:
群
群的大小
累计
代 码
2)拉希里法代码法在不太大时是适用的,但当很大时,就很不方便。此时可用Lahiri(拉希里)1951年提出的方法。
令每次抽取一个范围内的随机数及范围内的随机数,若,则第群入样;否则,重抽。重复这一过程,直到抽够所需的个群。
另外实际工作中也常采用各群单元累计等距抽样法,下一章中对此要专门进行介绍(见累计和等距抽样)。
(二)抽样的估计量对于抽样,其估计量可按汉森—赫维茨1943年提出的方法构造。即
故
其中与分别为与的无偏估计。
估计量的方差为:
方差的无偏估计量为:
,
至此,已经讨论了当群的大小不等时,估计总体总和的三种方法,即:按等概率抽样时的简单估计量、比估计量,以及抽样时的估计量。科克伦曾对这三种方法的精度作过比较研究,结论是:如果当增大时,没有显示趋势或只有不大的趋势,则要比精确一些;如果与无关,则较好;而通常是比较精确的;当较大时,项就给估计量和帮了忙。
二、不放回的不等概率抽样进行放回的不等概率抽样时,有的群可能被重复抽中,一旦被重复抽中将导致个单元重复,因此对样本的代表性影响较大,实际中通常都采用无放回的不等概率抽样。
按不放回的不等概率抽样时,可以有几十种不同的情况(有人曾总结出了50种)。当固定时,对不放回抽样,如果总体每个群的入样概率与其群的大小严格成比例,则称之为严格的抽样。抽样有多种类型。
若群的抽取是用严格的抽样方法进行的,则的估计应该用霍维茨-汤普森(Horvitz-Thompson)方法。即:
(固定时)
(固定时)
是的无偏估计;是的无偏估计,其中,为第群和第群同时入样的概率;为第群入样的概率,在固定时,
严格的抽样,不仅实施复杂,而且由于此时不易求得,故方差估计也很复杂.特别当比较大时,有时简直是不可能实行的。只有当时,严格的抽样才有一些比较简单且实用的方法。若用布鲁尔或德宾方法抽取个群,群和分别为,,群的相对大小分别为,,则的估计为
其中
第四节 设计效应和样本容量的确定在这里,我们只考虑群大小相等的情形。若群的大小不等,但相近,则用代替;若群的大小不等且差异较大,则可通过适当的拆拼,组成新的大小相近的群。
一、设计效应仍用总体均值估计量的方差进行讨论,并且考虑等概率抽样的情形。由前面的分析可知,的估计量的方差为
如果按简单随机抽样从总体中抽取个次级单元,则:
所以,整群抽样的设计效应为:
≈
≈
当时,,则整群抽样的精度较简单随机抽样在相同样本量时要差一些。当时,,则整群抽样的精度较相同样本量的简单随机抽样要高。
可见,整群抽样的设计效应大小(即精度的好坏)主要取决于总体中群内各次级单元间相关程度(在此主要是离散的程度)的大小。这也进一步证明了分群时遵循前述分群原则是十分必要的。
二、最佳群大小的确定如果样本大小固定,虽然调查费用随着群大小的增加和群数的减少而变小,但从前面的结果看出,抽样误差将随着群大小的增加和群数的减少而变大。因此,就要考虑求得最佳的群数或群的大小以便在给定费用条件下使抽样误差最小,或在给定抽样误差条件下使费用最省。为此,需要先分析整群抽样的方差函数和费用函数。根据前面的讨论,整群抽样的方差是总体群数、总体方差、群内相关系数、群的大小以及样本群数的一个函数,其费用函数可以简单地表示为
其中分别为总费用、固定费用、平均每个群的调查费用和平均每个单元的调查费用。在一般情况下,会比小得多。
如果总费用固定为,则由费用函数可得
代入方差函数得
=
当比大得多或以放回方式抽样时,上式可进一步整理成
由此可知,使方差得极小值的最佳值可用方括号内的项对的图形来决定。各种不同值下的值,可由对研究变量与其它的辅助变量作部分事先普查或试查得到,和的值也通过试调查得到。
同理,当误差控制要求确定时,也可以导出使费用极小化的最佳值。
三、样本容量的确定确定整群抽样的样本量一般有两种思路。
1、根据设计效应来定设总体由个群组成,每个群含个次级单元。若从中随机抽个群,则:
如果按简单随机抽样抽取个次级单元,即相当于抽取个群,此时
若抽样比很小,则可以忽略。要使整群抽样的精度与简单随机抽样一致,即
则
≈
故
≈
2、依精度要求来定依精度要求确定样本量,通常是以允许最大绝对方差形式来确定,此时根据、、的计算公式可以直接推导出在不同估计目标下样本量的计算公式,这一过程比较简单,所以在此不再一一列举了。
需要说明的是,在此所讨论的样本容量指的是样本所含群的数目,而非次级单元的数目。在确定了样本群数后,即可根据各群的大小推算出样本次级单元数目。
第七章 等距抽样第一节 等距抽样概述一、等距抽样的概念
等距抽样也称系统抽样或机械抽样。它是将总体各抽样单元按一定的标志和顺序排列以后,每隔一定的距离(间隔)抽取一个单元组成样本进行调查。其具体方法如下:
设总体由N个单元组成,并按某种顺序编上1到N的号码,要在其中抽取容量为n的样本,先在前K个单元中随机抽选出一个单元,以后每隔K个单元抽取一个单元,由所有抽中的单元共同所组成的样本称为等距样本。可见,抽出了第一个单元就等于决定了整个样本。这种抽样方法就是等距抽样。这里K称为抽样间隔。
如果总体容量N是所需样本容量n的整数倍,则抽样间隔K=N/n也是一个整数,这时,等距抽样的实施是很方便的。但当总体容量N不是n的整数倍时,K不为整数,这会给等距抽样的实施带来一定的困难。为克服其影响,可以考虑采用以下一些变通方法:其一,取K为最接近于N/n的整数;其二,在允许样本量为n或n+1时,可以挑选K以使得N大于nK,但小于(n+1)K。若要求样本量保持为常数n,也可在有n+1个单元被选出时,随机省略其中的一个单元。不过在后面这种情况下,总体各单元被抽中的概率不完全相等。其三,在用间隔K选样之前,用等概率的方法删去一些单元,以使N=nK;或者以等概率的方法选出一些号码,并将其加到总体清单的最后,以使N=nK。其四,采用小数表示的分数间隔。例如,假设要从N=920的总体中选出n=100的样本,则抽样间隔为K=N/n=920/100=9.2,从1到92中随机选一个起点,并依次加上间隔92,然后舍去最后一位数字就可得出恰好n=10个数字。
等距抽样的随机性是有一定限制的。在排序后的第一间隔所含K个单元中,任意抽取一个单元时,每个单元具有同等被抽中的可能性,符合随机原则的要求;而在以后各间隔中,按与第一间隔的相同位次抽取样本单元,各间隔内所有单元不再具有同等被抽中的机会,看起来是丧失了某些随机性,因此有时也将等距抽样称为“伪随机”抽样。但这时的随机性可以这样理解:将所有各抽样间隔内处在同一位次的单元分别组合在一起,构成不同的等距样本,共可组成K个等距样本,每个等距样本作为一个集体(或群),都有同等于1/K的机会被抽中,故称为可能等距样本。这样看来,等距抽样并未真正丧失掉随机原则。
二、排序标志
等距抽样需要有作为排序依据的辅助标志。排序标志各式各样,可自由选择,但归纳起来,可分为两类,即无关标志和有关标志,它们对等距抽样的作用和相应的估计精度各有不同的影响。
1、按无关标志排序所谓无关标志排序,即用来对总体单元进行排序的标志,与所要调查研究的标志是不同性质的,二者没有任何必然的关系。如研究人口的收入状况时,按身份证号码、按门牌号码排序非常方便,一般说来,这些号码与调查项目没有关系,因此可以认为总体单元的次序排列是随机的,所以也有人直接称无关标志排序的等距抽样为无序等距抽样。
在无关标志排序的条件下,各单元的位次排定,并不等于各单元的调查标志值也按同一次序排定,虽然是等距抽样,它与随机数字表上抽样,在性质上并无不同,故无关标志排序的等距抽样,实质上相同于简单随机抽样,二者只是抽样形式不同而已,完全无损于随机原则,它们在估计精度上也是一致的。
需要注意的是:对各单元的某一种排列方式,等距抽样估计量的方差(记作Vsy)与简单随机抽样估计量的方差(记作Vsrs)不一定相等,但是,平均说来,这两个方差是相等的。这里“平均”有两层意义:
(1)对给定的总体,即给定的N个单元Y1,Y2,…,YN,由这N个单元的每一种排列次序,可以计算Vsy和Vsrs,对全部可能的N!种不同的排列次序所对应的N!个Vsy平均,则有E(Vsy)=Vsrs(在N!个不同的排列次序中,Vsrs是不变的。)
(2)将总体看作是从一个无限的超总体中随机抽取的容量为N的样本。“平均”是指对从该超总体中所有可能的容量为N的样本求期望值,则E(Vsy)=E(Vsrs)。
2、按有关标志排序所谓有关标志排序,即用来对总体单元规定排列次序的辅助标志,与调查标志具有共同性质或密切关系。这种排序标志,在我国抽样调查实践中有广泛应用,如农产量调查,以本年平均亩产为调查变量,以往年已知平均亩产作为排序标志。利用这些辅助标志排序,有利于提高等距抽样的抽样效果。
利用有关标志排序,特别是利用与调查变量具有相同性质的辅助变量排序,进行等距抽样,无论在理论上和实用上都有重要意义。两种在性质上相同的变量,在前后时期的平均数指标上可能有所不同或有较大的差异,但在样本方差上,只要样本容量不是太小,是不会有多大出入的;至于总体方差,就更接近了。因此在表明估计精度的抽样方差分析上无论用哪种变量,所得结论都是一致的。如果总体只有一个线性趋势,则等距抽样的方差(Vsrs)同每层抽一个单元的分层随机抽样的方差(Vsy)都比简单随机抽样的方差(Vsrs)小,并且Vsy 将比Vsy大,因为当等距抽样中一个单元在所在层中太低或太高,就会在所有的层中太低或太高,而分层随机样本中这种偏差可相互抵消一些。
此外,在对某些总体进行排序时,也可以使用时间标志,即按时间先后顺序进行等距抽样。如对连续性生产(或作业)的产品每隔一定时间抽取一件或若干件样品作质量检验;每隔若干天进行市场物价抽查;按时间先后顺序排列的发票每隔多少张抽取一张进行审核等。时间标志等距抽样有时与调查标志无关,有时则可能有关,这要视具体情况而定。
三、等距抽样的特点同其他抽样方式相比,等距抽样具有如下特点:
(1)将总体各单元按一定的顺序排列后再抽样,使得样本单元的分布更加均匀,因而样本也就更具代表性,比简单随机抽样更精确,在某些场合下甚至可以不用抽样框。并且如果能够利用好样本的相应顺序在总体中均匀分布这一特点,则容易形成一个按比例样本。
(2)等距抽样简单明了,快速经济,操作灵活方便,使用面广,是单阶段抽样中变化最多的一种抽样技术。等距抽样最初用于森林和土地使用情况的调查,后来经过汉森、麦多、科克伦等学者的努力,使其成为当今家计调查、记录抽样、空间抽样、工业抽样和为普查取得附加信息及估计非抽样误差的一种常用方法。在我国,等距抽样已成了最主要、最基本的抽样方式,一些大规模的抽样调查,如农产量抽样调查、城乡住户调查、人口抽样调查、产品质量抽样检查中都普遍采用了等距抽样。
(3)当N=nK时,等距抽样就等同于每层只抽一个单元的分层抽样或群的大小相等时只抽一个群的整群抽样。
因为,这时,总体各单元可排列成如下方式:
y11 y21 … yi1 yk1
y12 y22 … yi2 yk2
┋ ┋ ┋ ┋ ┋
y1n y2n … yin ykn
若在第一个间隔抽中的单元是yi,则第i列就是我们最终所抽到的等距样本。若把每一列视为一群,则等距抽样可视为群的大小相等时的整群抽样,而抽中的是一个群。若把每一行看作一层,总体就被分成了n层,等距抽样就相当于分层抽样,但在每一层中只抽了一个单元,而且这个单元在每层中的位置是固定的。可见,等距样本在总体中分布得更均匀,这就使等距抽样的精度有时比分层随机抽样还要高。
(4)等距抽样的样本常被视为一个集体单元,一般不计算样本调查变量的方差,所以它只能抽象地进行理论分析,而不能对抽样方差进行估计。
(5)若总体中的单元呈周期性的变化,等距抽样的精度可能很高也可能很差。这时要慎重地选择K。
此外,从等距抽样的概念可以看出,它是一种不放回抽样。
已指出,当N=nK时,等距抽样可视为每层抽选一个单元的分层抽样。同时等距抽样与分层抽样还有某些相近之处:都属限制性抽样,在排序或分层时都需知道和利用总体的已知信息或辅助资料,并且,通过排序或分层都可增强样本的代表性。但是这两种抽样技术也有着本质的区别:
首先,划分抽样间隔与分层的意义不同。分层抽样中,常按总体单元的属性特征或标志值的大小分层,各层间一般都有一定程度的质的差别或数量界限,所以,分层是本质的、有形的。而在等距抽样尤其是按有关标志排序等距抽样中,抽样间隔划分的依据是抽样数目n,每个抽样间隔之间,并无明确的质的差别或数量界限,抽样间隔也只在抽样和计算误差时用到。
其次,抽取样本的方式和作用不同。分层抽样中,每层为一个子总体,在各层抽样是相互独立地进行的,要求样本对各层具有一定的代表性,所以在每层必须抽取一定数量的样本单元。而等距抽样中,在每一抽样间隔只抽取一个样本单元,这一单元又是由起点单元的位置所决定的,因此,各样本单元间不是相互独立的。且它不要求每一样本单元对该抽样间隔一定具有代表性,而是将全部样本单元作为一个整体来代表总体的。
再次,推算方式不同。分层抽样是在分层抽取、分层推算的基础上,通过对估计量加权平均或求和的方法来推断总体参数的。而等距抽样中,则是以整个样本直接推断总体参数的。
等距抽样的实施方法在等距抽样中,最简单最基本的方法是随机起点等距抽样。但在实际实施等距抽样时,考虑到排序标志的不同,以及总体单元数是否能被某一数值整除等因素,具体的抽样实施方法又可以有一系列不同的变化。下面介绍几种常见的等距抽样实施方法。
一、随机起点等距抽样
随机起点等距抽样就是前面概念所描述的方法。具体地说,它是在总体单元排序后的第1至K单元之间(第一个抽样间隔之内)随机抽取一个整数i,以它作为起始单元的编号,以后按固定的顺序和间隔依次在每个间隔之内各抽取一个单元组成等距样本,则整个样本是由以下编号的单元所组成的:
i+(j-1)K (j=1,2,…,n)
由于N不一定恰好是K的整数倍,所以按上述方法得到的等距样本的样本量可能为为避免这种样本量不能确定的情况,确保样本量为n,1952年拉希里提出了循环等距抽样的方法。
二、循环等距抽样
在N≠nK时,把总体中的N个单元按一定顺序排列成一个首尾相接的环(圆形图),取最接近于N/n的整数为抽样间隔K,然后在1到N的单元中,随机抽取一个单元(设为第i单元)作为起点,再沿着圆圈按一定方向每间隔K抽取一个单元,直到抽够n个单元为止。按此方法,可以保证样本量n不变。不过此时首尾两个样本单元的间隔不一定恰好为K,它可能小于K,也可能大于K。
循环等距抽样从本质上看仍然是随机起点等距抽样。
我们注意到,当N=nK时,在上述两种抽样实施方法中,无论按哪一种方法,总体中每个单元的入样概率都相等,从而是一种严格的等概率抽样。但当N≠nK时,按第一种方法每一个单元的入样概率依赖于初始值i,对不同的i,稍有不同。以下为了处理方便,我们假定N总是n的整数倍。在实际工作中,若n充分大,则由于N/n非整数而带来的影响就充分小,可以忽略不计。
如果总体是按有关标志排序的,则应用上述两种方法抽样有一定的局限性。因为,在有关标志排列的总体中,由于总体单元标志值的排列呈现出由小到大或由大到小的变化趋势,此时按上述方法进行等距抽样,如果随机起点偏小或偏大,则容易产生系统性偏差,大大降低等距抽样的估计效率。
因此,需要研究和改进有序等距抽样的方法。下列方法的提出正是基于这种考虑而对随机起点等距抽样实施方法所作的改进,它们更加适合于有序等距抽样的情形。
三、中点等距抽样
1953年麦多为克服随机起点等距抽样容易产生系统性偏差的缺点,提出中点等距抽样(即抽取中心位置的样本)法:计算出抽样间隔K后,以第一组的组中点为起点,等距抽取单元组成样本。如果K为奇数,以(K+1)/2为起点,K为偶数,以K/2或(K+2)/2为起点。 显而易见,这一方法是比较合乎逻辑的。因为,我们若把总体单元标志值yi看作是连续变量i的一个连续函数,那么,可以预期每一抽样间隔中心位置的单元比任何随机位置的单元更有代表性。这时样本均值的取值与总体均值相同或差距最小。特别是,在有序排列的总体中,标志值呈现出某种线性趋势时更是如此。但是,这种方法只能取一套样本,从而随机性受到限制,而且这套样本还依赖于单元排列的好坏。因此,人们对等距抽样的方法作了更进一步讨论。
四、对称等距抽样法
对称等距抽样也是针对有序等距抽样所提出的,其基本思想是使低标志值的单元与高标志值的单元在样本中对等出现。从而使样本的偏差缩小,代表性增强。由于具体的方法不同,对称等距抽样又有几种类型。
1、塞蒂的方法——两两对称等距抽样
1965年塞蒂提出了一种新的等距抽样方法——对称等距抽样法,以克服总体的线性趋势对估计效率的影响。
设N=nK,n为偶数。抽样时,先把总体单元分成n/2个抽样间隔,使每一抽样间隔含有2K个单元。然后,在每一抽样间隔内,抽取分别与两端距离相等的两个单元,这样共抽取n个单元组成等距样本。
即:如果随机起点为i,则在第一个抽样间隔所抽两个样本单元的号码分别为i及2K-i+1;在第二个抽样间隔所抽两个样本单元号码为i+2K及2(2K)-i+1;如此,最后在第n/2个抽样间隔所抽两个样本单元号码分别为i+(n-2)K及nK-i+1。
一般,若随机起为i,则抽中的n/2对样本单元的号码可以表示为
[i+2jK,2(j+1)K-i+1] [j=0,1,…,(n/2)-1]]
当n为奇数时,式中的j由0变到(n-1)/2-1为止,并且,要加上接近末端的第i+(n-1)K个单元。
实际中,为便于对称等距抽样的实施,当N=nK时,可以将原来由小到大(或由大到小)顺序排列的单元按照顺逆交替的次序排列在一个表中,这样,按随机起点等距抽样所抽取的样本即为对称等距样本。所谓顺逆交替是指在单元的排序中,若第一间隔由小到大排序,则第二间隔按由大到小排序,以此类推。
2、辛的修正方法——中心对称等距抽样
1968年,辛等人提出另一种对称等距抽样法——中心对称等距抽样法。即在有序排列的总体单元中,从两端划分抽样间隔。并从两端的抽样间隔开始,成对地抽取到两端距离相等的单元组成等距样本。
这里,仍假定N=nK。当n为偶数时,若随机起点为i,则与之对称的样本单元号为倒数第一个抽样间隔中的N-i+1;与第二个抽样间隔中i+K对称的是倒数第二个抽样间隔的(N-K)-i+1;如此,一直抽到中间两个抽样间隔为止。一般,以i(i=1,2,…,K)为随机起点的n/2对对称等距样本单元的号码可以表示为:
[i+jK,(N-jK)-i+1],[j=0,1,…,(n/2)-1]
当n为奇数时,式中的j由0变到[(n-1)/2]-1为止。然后,再加上中间一个抽样间隔中的第i+(n-1)K/2个单元。(我国抽样调查工作者提出在中间一个抽样间隔抽取中点处的一个单元。)
对称等距抽样既不违反随机原则,又能避免样本产生系统性偏差,改进样本的代表性,因而其估计效率比一般等距抽样要高,所以是实际中应用最多的方法。
五、两端修正法
抽样方法同随机起点等距抽样时的情形。但在计算总体均值的估计量时,对第一个和最后一个样本单元加权,其余单元的权数仍为1(在除以n以前),以矫正由于起点不在中心位置而引起的系统偏差。
1、耶茨的方法设N=nK,i为1~K中的随机数,则两端的样本单元的权数分别为:
其中“+”号用于第一个样本单元,“-”号用于第n个样本单元(下同)。当总体单元具有严格的线性趋势时,加权的样本均值就是总体均值。
2、具尔豪斯与拉奥的方法适用于N≠nK的情况,并采用循环等距抽样法,设i为1~N中的随机数。
(1)若i+(n-1)K≤N,这时n个样本单元不经过yN,则第1个样本单元和第n个样本单元的权数分别为
(2)若i+(n-1)K>N,设yN以后的样本单元有n2个,则第1个样本单元和第n个样本单元的权数分别为
六、总体有周期性变化时的等距抽样
有一些总体,其单元的标志值在随时间的自然排列顺序中,会呈现某种明显或不明显的周期变化趋势。如季节性消费商品的销售量,随一年四季的变化而呈现出周期变化。还有些总体,反映出不明显的周期影响。对有周期变化趋势的总体进行等距抽样时,抽样间隔K的选择,对估计效率的影响是极为重要的。
为了说明问题,我们不妨假定总体单元标志值的变化为一正弦曲线。如果选择的抽样间隔K恰好等于周期或周期的整倍数,则那样的样本只反映了变化周期同一相位的信息,每个样本单元的值都一样,必然产生显著的系统性误差,所以是最不好的选择。如果选择抽样间隔K等于半周期或半周期的奇数倍,则会反映变化周期中相反的两个相位的信息,当n为偶数时,各样本单元的离差相互抵消,样本平均数恰好等总体平均数,所以是较好的选择。
在上述两种情况之间,样本的代表性则取决于所选择的K与周期之间的关系。如果K的选择能使样本单元均匀地分布于周期的各个不同相位,则可以增强样本的代表性。如在商店日销售额调查中,应使样本单元均匀分布在每周各天,而不能只调查各周的同一天,除非调查的目的恰好是为掌握这种周期性。
七、累计和等距抽样以上所讨论的等距抽样都是以各单元大小相同为前提的,是等概率抽样。如果抽样单元的大小不同,且单元的大小又与调查变量相关时,用上述方法就不大合适了,此时,应采用不等概率抽样。其基本思路是:在总体各单元按某一标志排序后,累计各单元的大小Mi(当各抽样单元的大小用所含下一阶单元的数目表示时,也可直接累计其下一阶单元数)并进行编码,以总的累计数除以n作为抽样间隔,用K表示,然后在最初的1到K个数中随机确定一个数j(1≤j≤K),j所对应的单元即为第一个被抽中单元,以后每间隔K抽取一个随机数,并按同样的方法确定出对应的单元作为样本单元,组成等距样本。累计和等距抽样的原理同上一章所讨论的群大小不等时群的代码法,此法在实际工作中经常用到。
第三节 总体参数的估计一、等概率抽样的情形为讨论方便,仍假设N=nK,则在如下的排列形式中,有:
(i=1,2,…,K)
y11 y21 … yi1 yk1
y12 y22 … yi2 yk2
┋ ┋ ┋ ┋ ┋
y1n y2n … yin ykn
(一)估计量设等距样本为表中第i列单元,且i是随机决定的,总体均值的估计量用表示,则
是的无偏估计。
若N≠nK,则上述估计量是有偏的,但当n充分大时,其偏倚可以充分小。
(二)估计量的方差如前所述,如果总体单元是按无关标志排列的,则其方差可按简单随机抽样去做。若总体单元是按有关标志排列的,则此时的等距抽样可以看作是整群抽样或分层抽样的特例,因此,等距抽样估计量的方差可以比照整群抽样或分层抽样的方法构造,有几种表示方法
1、用等距样本内(群内)方差表示设等距样本为表中第i列单元,且i是随机决定的,则
,
其中
为等距样本(群)内方差;S2为总体方差。
这表明,当等距样本内部的方差大于整个总体方差时,等距抽样比简单随机抽样有更高的精度。因此,为了提高等距抽样的精度,只要有可能就在对总体单元排序时尽可能扩大各等距样本内的差异。当且仅当>S2时,等距抽样比简单随机抽样精度高。
2、用等距样本内(群内)相关系数表示
其中
为同一等距样本内(群内)成对的单元之间的相关系数。当的值大于0时,方差的值就会变大。
3、用同一等距样本内单元对关于层平均值的相关系数表示
其中
为层内方差;
恰为比例分配分层随机抽样的方差;
是第h层即第h间隔的平均值;
是等距样本内单位对关于层平均值的相关系数。可见,当时,等距样本与每层取一个单元的分层随机样本精度相同;>0时,等距抽样的精度低于分层随机抽样;当<0时,等距抽样的精度高于分层随机抽样。
这里,层是由第一组K个单元,第二组K个单元等组成。
(三)方差估计量前已指出,等距抽样相当于群的大小相等时的整群抽样,但抽中的是一个群,这就使这个受人欢迎的抽样方法有了一些遗憾:等距抽样没有无偏的方差估计量。这里只介绍两种方差估计方法。而在冯士雍、施锡铨著的《抽样调查—理论、方法与实践》一书中,列举了八种不同的方差估计量,并进行了比较分析。
1、总体单元无序排列(即按无关标志排列)时可把等距样本看成是简单随机样本,因此,其方差估计量可表示为
,
其中
2、总体单元有序排列(按相关标志排列)时前已指出,等距抽样可看成是从每层抽取1个单元的分层抽样。但凭一个单元的标志值无法估计层内方差,于是把相邻两行(层)的2K个单元组成一层,从中抽取2个单元作为样本,这样总体就被合成了n/2层(假设n为偶数)。
第h层的层内方差
,h=1,2,…,1/2
将诸代入比例分配的分层随机抽样的有关公式,则
,(这里 )
将上式中的下标h改为j就得到
(1)
式中:是相邻两个标志值的一阶差分,它们间互不重叠,中利用了n/2个这样的一阶差分,这就要求n必须是偶数。为摆脱这个限制,增加平方和的自由度,以每相邻两个标志值的一阶差分(它们是重叠的,共n-1个)代替n/2个不相重叠的一阶差分,得:
(2)
研究表明:(1)式和(2)式对大多数模型的总体都具有一定的优良性,即使对总体的性质知道得很少,它们也是一个好的方差估计量。但(1)式受到n必为偶数的限制,因而(2)式更值得推荐。
此外,也有人建议采用交叉子样本法来估计等距抽样的方差,但这种方法在实际操作中有诸多的不便,且当各子样本不大时,效果也一般。对此感兴趣的读者可参阅有关文献。
二、不等概率抽样的情形
等距抽样中每个单元的入样概率也可以是不相等的。一般的不等概率等距抽样定义如下:令{πi}是一组入样概率,i=1,2,…,N,且,r是[0,1]区间内的一个随机数,则当
k=0,1,…,n-1
时,总体中的第i1,i2,…,in个单元即为抽中的样本单元。当每个πi≤1时,抽样是严格不放回的。最常用的也是最简单的不等概率等距抽样是πPS等距抽样,即令πi与单元大小Mi成比例
其中M0等于是总体所有单元大小的总和。
不等概率等距抽样的实施方法一般是累计和等距抽样法,这在第二节中已作了介绍。
与其他不放回的不等概率抽样一样,不等概率等距抽样对总体总和Y的估计也是采用霍维茨—汤普森估计
对于πPS等距抽样,又有
是无偏的,其方差可表示为(此时,n是固定的)
由于对一般的n,πij的形式极为复杂,且有可能为零,因此,关于的估计可按如下思路进行:
一种考虑是将不放回的πPS等距样本作为放回的PPS样本处理可得到如下的方差估计形式
因为实际抽样是不放回的,为此,应考虑乘上有限总体修正系数(fpc)1-f,由于这里的单元实际上是不平等的,因此,f不是简单的等于n/N。我们使用f的以下估计
则可以得到方差估计量的另一种形式
对于随机排列的总体,的效果很好。
若考虑用相邻样本观测值(但这里需用nyi/πi代替等概率情形的yi)差值的平方和来表示方差,则得到
或
对于具有线性趋势的总体,这两个方差估计量特别适用。
第四节 其它形式的等距抽样一、分层等距抽样
分层等距抽样,是对总体分层后在各层独立地选取起点进行等距抽样。由此看来,若按某种标准分层,把等距抽样的若干抽样间隔分为一层,则一般的等距抽样实际上就是一种特殊的比例分配分层抽样。所谓特殊,是指在各层中起点的选取不是相互独立的,而是由第一层起点所决定的。
分层等距抽样可以集中发挥分层抽样和等距抽样的优点。实际中,如果需要知道各层的估计资料,或者需要在各层安排不同的抽样比,或者在各层内等距抽样比简单随机抽样更精确更方便,显然应该采用分层等距抽样方法。
分层等距抽样时,总体平均数的估计量应该是:将各层等距抽样的估计量加权平均。即若 为第h层等距样本的平均数,则总体平均数的估计量为
其中,Wh为第h层的权数,nh为第h层抽中的样本单元数,Nh为第h层的总体单元数。
估计量的方差为
其中为第h层估计量的方差,在相应的条件下,可由前面所介绍的方差估计量进行估计。
二、二维等距抽样
二维等距抽样,是对分布在平面上的总体单元直接进行的等距抽样。如农产量调查和森林木材积蓄量调查中,从抽中地块抽取样本点,即属这种情况。
实际上,我们所研究的总体单元绝大多数分布在平面上,以前是通过对总体单元的编号,排队等方法,将它化为“一维等距抽样”。但在一些情况下,还需直接在平面上抽取样本。
二维等距抽样的方法很多,下面仅介绍几种最简单、实用的方法。
1、方格法是将总体所在的平面区域G,按照需要抽取的样本单元数划分为若干大小相同的方格,然后以等距方式在每个方格抽取一个样本单元组成样本。即抽样间隔之长等于方格的边长,可按下述公式计算:
其中,K=抽样间隔;G=总体区域的面积; n=样本单元数这里,为方便讨论,假定地块的图形是长为a,宽为b的长方形,置于平面直角坐标系的第一象限。且a=Kp,b=Kq,p、q为整数,pq=n。当然,实际中的地块常常是不规则的,并不满足上述条件,但可通过割补法化成比较规则的几何图形,近似按上述方法处理。
从方格中抽取样本点有多种方法。①若取随机起点,并且它的坐标为(i,j),则所有样本点的坐标可表示为:
s=0,1,2,…,p-1;
(i+Ks,j+Kt),
t=0,1,2,…,q-1
②另一种方法是,把样本点放在每一方格的中心处,称为中心方格法。其样本的坐标为:
(K/2)+Ks,(K/2)+Kt).(s=0,1,2,…,p-1; t=1,2,…,q-1)
这种方法在农产量调查中多用于平播、撒播、窄垄和株行距较小的作物,如麦、水稻等。实际中,每个样本点是用测规或测框划出的园形或方形小地块,称为面积样本。每个样本点的面积常为10平方市尺,这样,便于计算。这种方法也称为框测法。
2、垄测法对于宽垄和株行距较大的作物,如玉米、薯类等,常采用垄测法。垄测法需先计算地块所有垄的总垄长,依地块情况,可按下述方法计算:
总垄长=平均垄长×垄数=地块总面积/平均垄宽,
其中:平均垄宽=地块两端宽度之和/地块两端垄数之和。
抽样间隔K=总垄长/样本单元数抽取时,从地块的一角开始,即从第一垄开始,按等距抽样方法依次向各垄抽取,每个样本点是长度为10市尺的垄段,这种样本也称为长度样本。
实用中,还有许多方法,如将地块划分为正三角形小块,形成三角形网,使样本点散布于正三角形的顶点上。也还可以利用试验设计的方法安排样本。
关于二维等距抽样的应用可参看后面的农产量调查一节。
此外,在实际工作中当总体各单元标志值的变化比较均匀,且层界不明显时,也常采用等距分层抽样的方法。其基本思想是,先对总体按有关标志排序,然后等分成L个间隔。将每个间隔视为一层,在各层内分别独立进行简单随机抽样。它与一般分层抽样的区别在于,将不同大小的层(用各层所含单元数表示)调整为同大小的层;它与一般等距抽样的区别在于,改每层按固定位置抽取一个单元为每层独立抽取若干个单元。在等距分层抽样中,其估计量及方差仍按一般分层随机抽样方式去构造。
第八章 多阶抽样第一节 多阶抽样概述一、多阶抽样的基本概念前面介绍的几种抽样方式,均是从总体中通过一次抽样,就可产生一个完整的样本,这类抽样可称为单阶抽样。但抽样调查的实践中,常常面对的总体不但单元数很庞大,而且分布在广大区域内,很难通过一次抽样产生完整的样本。因此应是根据实际情况将整个抽样程序分成若干个阶段,一个阶段一个阶段地进行抽样,以完成整个抽样过程,这种抽样就叫多阶抽样。
具体描述如下:
如果在每个一阶单元中,都随机抽取部分二阶单元,由这些二阶单元中的总体基本单元组成样本,这在抽取样本的方式上,就相当于分层抽样;如果在全部一阶单元中,只抽了部分一阶单元,并对抽中的一阶单元中的所有基本单元都作全面调查,这就是整群抽样。实际中,如果一阶单元内总体基本单元数相当大,作全面调查比较困难,或者一阶单元内各二阶单元可以给出相近的结果,作全面调查又无必要。
这时,从费用和抽样估计效率考虑,便可以从总体中随机抽取一部分一阶单元,然后再从被抽中的一阶单元内,随机抽取部分二阶单元并对它们进行全面调查,我们把这种抽样技术称为两阶抽样。它是由印度统计学家马哈拉诺比斯首先提出来的。
如果在被抽中的二阶单元中,再抽取部分三阶单元组成样本,并对抽中的三阶单元进行全面调查,这就是三阶抽样。类似地,有四阶抽样或更高阶的抽样。通常,将两阶以上的抽样称为多阶抽样。
顺便指出,前面介绍的整群抽样实际是第二阶抽样比为100%时的一种特殊的两阶抽样,故也称作单级整群抽样。分层抽样实际是第一阶抽样比为100%时的一种特殊的两阶抽样。
多阶抽样中,各阶段可采用不同的抽样方法,也可采用同一种抽样方式,要视具体情况和要求而定。
两阶抽样与整群抽样的主要区别在于:整群抽样是对总体中抽取的每个样本群体所包含的基本单元进行全面调查;而两阶抽样则把总体中所有的群体视为一级单元,对每个被抽一级单元所包含的二级单元(亦即基本单位),不是进行全面调查,而是再进行一次抽样调查—也称抽子样本。即两阶抽样,产生两级样本,最后综合估算出总的一级样本指标。至于在综合估算的方式方法上,两种抽样也是极其相似的,只不过前者为就被抽一级单元的样本指标进行综合估算,后者为就被抽样群体单元的全体指标进行综合估算,仅此不同而已。
两阶抽样中,总体各个一阶单元所包括二级单元数,有相等和不相等的两种情况。前种情况无论样本的抽取和指标的估算都较简单,然而在抽样实践中很少有这种情况存在,但作为基本方法仍有其实际意义;后种情况在抽样和指标的估算方法上都较复杂,然在实践中普遍存在这种情况。
二、多阶抽样的特点
(一)便于组织抽样当总体基本单元数目很大,分布很广时,若采用简单随机抽样,那么,编制全部总体单元的抽样框和现场实施随机抽样,都是相当困难的;若采用等距抽样,则为提高抽样估计效率,需将全部总体单元有序排列并等距抽取,也是很困难的;若采用分层抽样,则为提高抽样估计效率,需掌握全部总体单元的有关资料,按照分层的原则进行分层,然后到各层都去抽样,这一分层和在大范围抽样的工作,是很繁重的;若采用单级整群抽样,也需掌握总体单元的有关资料,按分群的原则分群,并在抽中的群内作全面调查,这一分群和在群内全面调查的工作也是很庞大的。如,我国有一亿八千多万农户,为作农村住户调查,若编制这样庞大的抽样框直接抽取农户;或按其特点分层,使层内方差较小;或进行分群,使群内方差较大;等等。其工作量之大都是难以想象的。
若采用多阶抽样,就可避免上述抽样技术中的麻烦。它可按现有的行政区划或地理区域划分各阶抽样单元,从而简化抽样框的编制,便于样本单元的抽取,使整个抽样调查的组织工作容易进行。如在农产量调查中,一般采用的是五阶抽样,即省抽县,县抽乡,乡抽村,村抽地块,地块抽样本点进行实割实测。因此,可以说多阶抽样既保持了单级整群抽样的优点,又克服了它的缺点。
(二)抽样方式灵活,有利于提高抽样的估计效率多阶抽样中,各阶段可以采用同一种抽样方法,也可以根据各阶单元的分布情况,采用不同的抽样方法。同时,还可以根据各阶单元分布情况的不同,安排不同的抽样比。如方差大的阶段,抽样比大一些;否则,可以小一些,以利提高抽样估计效率。再有,多阶抽样不仅具有单级整群抽样的优点,而且与之比较,多阶抽样的样本单位分布较广,样本代表性较强。
另一方面又避免了对较小单元进行过多调查的浪费,因而大大提高了效率。
(三)多阶段抽样对基本调查单元的抽选不是一步到位的至少要经过两步抽样,这也是多阶抽样区别于单阶抽样之处。因此,多阶段抽样的随机性体现在每一阶单元的抽选上。而在各阶段可以充分利用辅助信息来增加效率。但由于在现实中,各阶单元大小相等的情形又几乎是不存在,所以对于各阶单元大小不等的多阶段抽样,如何保证每个基本单元都有相等的可能性被抽中,是一个比较复杂的问题,有待进一步作深入探讨。
(四)多阶段抽样实质上是分层抽样与整群抽样的有机结合以两阶段抽样为例,从总体所有一阶单元中抽取部分一阶单元,相当于从总体所有群中抽取部分群的整群抽样;而在所抽中的每个一阶单元中分别抽取部分二阶单元,就相当于分层抽样。因此,二阶抽样从技术上看是整群抽样与分层抽样的综合。
(五)多阶抽样在抽样时并不需要二阶或更低阶单元的抽样框,这是其一大优点当然,对于第一阶抽样,初级单元的抽样框是必需的。在以后各阶抽样中,仅仅需对那些已抽中的单元准备下一级单元的抽样框。这在实际问题中是非常方便的。因而多阶抽样在实际中应用非常广泛。特别当抽样单元直接采用各级行政单位或有隶属关系的单位时,更是如此。例如对一项全国性抽样调查,若调查不需要在每个省进行时,就可将省作为一级抽样单元,第一阶抽样先抽省,然后在每个抽中的省进行第二阶抽样——抽市或县,对每个抽中的市、县又可进行第三阶抽样——抽街道、乡、镇等等。在这个过程中,我们并不需要准备全国各省中的市、县及街道、乡、镇等的抽样框。在第一阶抽样中,仅需要关于省的抽样框,对每个被抽中的省才需要进一步准备市、县的抽样框,同理对每个被抽中的市、县才准备有关街道及乡、镇的抽样框,…。当然在多阶抽样中,各级单元的划分并不一定与行政系统完全一致,是比较灵活的。因此多阶抽样组织管理也是比较方便的。
(六)多阶抽样还可用于“散料”的抽样,即散料抽样所谓“散料”,是指连续松散的、不易区分个体或抽样单元的材料。例如一堆煤,一仓库粮食,一列车水泥,一船化肥等。对于散料,抽样单元需人为划分,当然也可以取其自然的单位,特别是当货物已经包装后。通常对于散料抽样,一级单元是自然或人为划分的分装(例如一袋化肥或一车皮矿石),二级单元则是从分装中(有时需从其中各个部位)抽取一定数量(例如一公斤)的份样作调查。
此外,多阶抽样还具有应用广泛的特点。它的应用甚至超出了抽样调查的直接范围,不仅在社会经济统计或技术统计方面已有广泛应用,而且在自然现象或科学试验中也有广泛应用。如在工业、农业、物理、化学或生物试验中,做试验的物质往往是从本身也是一个样本的物质中抽取的,这实际上也是两阶或多阶抽样。
第二节 一阶单元等大小的多阶抽样一、二阶抽样
(一)有关符号的涵义记为第i个一阶单元中第j个二阶单元的标志值(或指标值)(i=1,2,…N;j=1,2,…,M)。
N为总体所含一阶单元数;
n为样本所含一阶单元数;
M为每个总体一阶单元所含二阶单元数;
m为每个样本一阶单元所含二阶单元数;
=n/N为第一阶抽样比;
=m/M为第二阶抽样比;
=NM为总体所含二阶单元数;
=nm为样本所含二阶单元数;
为总体中第i个一阶单元的标志总量;
为样本中第i个一阶单元的标志总量;
为总体各一阶单元的标志总量;
为样本各一阶单元的标志总量;
为总体第i个一阶单元内的均值;
为样本第i个一阶单元内的均值;
为总体各一阶单元间的均值;
为样本各一阶单元间的均值;
为总体各一阶单元内均值的平均,即总体中各二阶单元的均值为样本各一阶单元内均值的平均,即样本中各二阶单元的均 为总体第i个一阶单元内的方差;
为样本第i个一阶单元内的方差;
为总体各一阶单元间的方差;
为样本各一阶单元间的方差;
为总体各一阶单元内方差的平均,即总体各二阶单元间的方差;
为样本各一阶单元内方差的平均,即样本各二阶单元间的方差。
(二)估计量及其方差由于二阶抽样中,抽样过程分成两步,因此,对于总体参数的估计量求均值和方差时,必须把这两阶抽样过程所能产生的所有样本加以平均,即
其中,E表示所有样本的期望值或均值,、分别表示对第一阶抽样求的均值与方差,、分别表示对固定的第一阶抽样中抽得的一组一阶单元对第二阶抽样求的均值与方差。
对于三阶抽样可以有类似的公式
,
.
1、总体均值的估计对于二阶抽样,若两个阶段的抽样都是简单随机的,则其总体均值的无偏估计量为
.
由于在每个一阶单元中的第二阶抽样是相互独立进行的,所以,在二阶段都用不放回方法抽样时,其总体均值估计量的方差可构造为
=
可以证明其方差的无偏估计量为
其中,为的无偏估计,不属于的无偏估计,的无偏估计为
式中右边第一部分相当于第一阶段抽样的误差,它只与各一阶单元间差异大小有关;第二部分相当于第二阶段抽样的误差,它只与各一阶单元内(即各二阶单元间)差异有关。又因为远大于,因此在二阶抽样中,估计量的方差主要同第一项的大小有关,也即主要同第一阶段抽样比的大小和总体各一阶单元间的差异大小有关。据此,要控制二阶抽样的误差。首先要考虑在一阶单元划分时尽可能缩小其相互间的差异并相应扩大第一阶抽样比。当然这样又可能会使第二阶抽样的误差有所增大。如何协调这样一对矛盾呢?为此,有必要进一步讨论第一阶抽样和第二阶抽样的最佳抽样比问题,以使估计量的方差达到最小。
2、最佳抽样比的确定在总费用一定时,考虑下述简单的线性费用函数
若一阶级单元间的旅费不占重要位置,则上述费用函数被证明是适用的。这里是与样本量无关的固定费用,分别为平均每调查一个一阶单元和二阶单元的费用。
又方差函数
式中右边的最后一项与及的选择无关,建立函数
则当费用固定条件下,使方差极小,或在方差固定条件下使费用极小,等价于使函数极小化。故使关于的偏导数等于零,则可求得的最优值为
(其中)
当不为整数时,应取整。令
若,则取;
若,则取
若或,则取
当的值未知时,可以用试点调查的结果加以估计,即取,则可以按上述同样的思路求得的估计量
=
其中,为试点调查中从每个一阶单元中抽中二阶单元的数目。
需要说明的是,估计量存在抽样误差,它的大小取决于比率的抽样误差。
求出后,将其代入估计量方差的计算公式或上述线性费用函数式中,即可求出的值。这样就可确定出最佳的抽样比和。
特别地,当时,即时,二阶抽样就化为对一阶单元进行的单级整群抽样,故其估计量的方差及其估计量就转变为整群抽样估计量的方差及其估计。当,即时,二阶抽样就化为按比例分配的分层随机抽样,且其层权相等,此时二阶抽样估计量的方差及其估计也就转变为分层随机抽样估计量的方差及其估计。所以,一般地二阶抽样也可看作是把一阶单元作为层的不完全的分层抽样。
然而,在大多数实际情况下,最优性相对来说是不显著的。因此,选择时一般并不要求比率和的估计量有高度的准确性。对此,布鲁克斯(Brooks)于1955年进行了较为深入的研究,并编制了一些有用的表格。W·G·科克伦曾在他的著作中介绍了有关这方面的内容。
3、总体比例的估计若需估计总体中具有某种特性的二阶单元所占的比例,则令
设为第i个一阶单元中具有该特性的二阶单元所占的比例,为抽到的第i个一阶单元中具有该特性的二阶单元所占的比例。
若两阶段的抽样都是不放回简单随机的,则总体比例P的无偏估计量为
其方差为
方差估计量为
式中
,
,
,
二、分层二阶抽样设总体分成L层,第h层有Nh个一阶单元,每个一阶单元均含Mh个二阶单元。在第h层随机抽了nh个一阶单元,又从每个被抽中的一阶单元中随机抽了mh个二阶单元。则的估计量为
其中
是按二阶单元的层权;
为第h层的样本均值。
其方差为
方差估计量为
其中
上式乘以则得 的方差及其方差估计量。
在分层二阶抽样中,若
即总体中每个二阶单元入样的概率都相等,则样本是自加权时
三、三阶抽样
设总体中含有N个一阶单元,每个一阶单元又含M个二阶单元,而每个二阶单元中又含有K个三阶单元,各阶样本大小分别为n,m和k。
令yiju(u=1,2,…K)为第i个一阶单元的第j个二阶单元中,第u个三阶单元的观测值,则
若三阶抽样中,每阶抽样都是简单随机的,则总体均值的无偏估计量为
其方差为
方差的无偏估计量为
其中
第三节 一阶单元不等大小的两阶抽样在两阶抽样中,各一阶单元所包含的二阶单元数不等是最普遍的现象,因此对其样本指标和抽样方差的估算,具有普遍意义,但较一阶单元等大小的估算复杂很多。根据各个一阶单元的不相等及其差异程度是否悬殊,在抽样时(即抽取一阶单元时)就要考虑采用等概抽样或不等概抽样。
一、等概率抽样在进行两阶段抽样时,不考虑各一阶单元权重(主要用所含二阶单元数的多少表示)的不同,一律予以同等被抽中的机会,在的变异不大时,既简单易行,且效果也好;当的变异悬殊时,则会对抽样产生不合理的影响。
假定总体由N个一阶单元组成,第i个一阶单元包含个二阶单元。从N个一阶单元中按简单随机抽样抽取n个一阶单元,然后在每个被抽中的一阶单元中按简单随机抽样抽取个二阶单元。
1、简单估计量由于两阶段的抽样都是简单随机的,因此总体总和的无偏估计量为
当两阶段均为不放回抽样时,其方差为
方差的无偏估计量为
其中=n/N为第一阶段抽样比,为第i个一阶单元内的抽样比;
,
若,即第二阶段的抽样比为常数,则
可见,此时是自加权的,是总体中每个二阶单元入样的概率。
若估计总体均值,则有
,
其方差为
方差估计量为
其中
2、比估计量简单估计量虽然是无偏的,但效果一般不好,方差较大。因此也可利用以为辅助变量来构造比估计量。
比估计量是有偏的,其估计量的近似方差为
方差估计量为
由此易得关于估计量的相应结果
,
其中用估计。
3、比例的估计在估计的公式中,令
就可得到估计比例P的公式。由于二阶单元总数通常是未知的,这里给出比估计的公式。
设表示第i个一阶单元的二阶样本单元中具有某特性的单位占的比例,则总体中具有该特性的单位占的比例的估计量
其方差估计量
其中
二、不等概率抽样关于不等概率抽取一阶单元的问题,统计学家们进行了广泛的讨论,提出了一系列方法,考虑到有些方法过于复杂,同时也限于篇幅,这里只讨论当n>1时的一般情形。读者若有兴趣了解更多的内容,则可以阅读后面提出的有关参考文献。
(一)放回的不等概率抽样
1、估计量及其方差设总体由N个一阶单元组成,第i个一阶单元包含个二阶单元。按PPz抽样(与第一阶单元的大小成比例的放回地逐个独立地抽样)抽取了n个一阶单元,第i个一阶单元入样的概率为,,(为衡量第i个一阶单元大小尺度;若为确知,则)。然后在被抽中的一阶单元中,按简单随机抽样,抽取个二阶单元,。
(1)如果一阶单元被重复抽中,则原来在第二阶段抽样中被抽中的个二阶单元也放回,按简单随机抽样再抽个二阶单元。在这种情况下,总体总和的无偏估计量是
可看作是从总体中独立抽取的一个大小为n的样本(对一阶单元而言)的样本均值。可以证明:
所以,是Y的无偏估计,其方差为
方差估计量
是无偏的。
(2)当一阶单元被重复抽中时,抽取二阶单元的其它方法:
①若第i个一阶单元被抽中次,就从中一次随机抽取个二阶单元(假定),此时
减少
②不论第i个一阶单元被抽中多少次,都只从中随机抽个二阶单元,这时
增加
在①、②两种情况下,估计量均为
其中为第i个一阶单元被抽中的次数。
2、估计量为自加权的条件前面已提到,如果一个估计量能表示成所有样本单元(在二阶抽样中是指所有二阶单元)的观测值之和乘以某个常数,则该估计量称为是自加权的。
在ppz抽样时,由
得自加权的条件是
此时
其中K为常数,是任意一个二阶单元被抽中的概率,因而,上式表示任意一个二阶单元被抽中的概率都相等。在实际应用中,若事先确定,也可按已被抽中的二阶单元确定。
对自加权的样本,其方差估计量可简化为
其中是第i一阶单元中的个二阶单元之和。
在PPS抽样(即)时,估计量简化为
当时,为自加权,也是的无偏估计。它的一个无偏的方差估计量为:
其中
(二)不放回的不等概抽样设总体由N个一阶单元组成,第i个一阶单元包含个二阶单元。第一阶段抽样是不放回的不等概率抽样,为第i个一阶单元入样的概率,,为第i和第j个一阶单元同时入样的概率。第二阶段是简单随机抽样。
此时,总体总和可采用以下形式估计
可以证明是Y的无偏估计量,其方差为
方差的一个无偏估计量为
第九章 二重抽样第一节 二重抽样综述一、二重抽样的概念在设计和实施某些抽样调查时,需要事先掌握有关总体的一些信息。但在许多场合下,总体的这些有关信息是事先未知的,或者不完全知道。为此,人们提出了二重或多重抽样的方法,以掌握有关总体信息,然后实施抽样调查。
二重抽样也称二相抽样。其基本做法是:对于一个大总体,先从总体中随机抽取一个较大的样本(第一重样本),由此估计有关总体的结构或辅助指标以及其他有关信息,为第二重抽样估计提供条件;然后再从第一重样本中随机抽取一个较小的样本(第二重样本),利用这第二重样本,对总体所研究变量进行抽样推断。
在某些情况下,也可在第二重样本中再抽第三重、第四重样本,由此形成多重抽样。其中二重抽样是最为常用的。
二、二重抽样的作用在社会经济抽样调查中,二重抽样的主要作用有下列几方面:
第一,用于从总体所有基本单元中筛选确定出主调查对象。有些调查中的主调查对象可能只是总体中的一部分,且与其它单元不易区分。如对老年痴呆症患者的调查,一开始我们并不知道究竟哪些老年人患有老年痴呆症,因此就需要采用二重抽样,从总体中抽取一个大样本,进行相对比较简单的调查测试,筛选出满足条件的对象,然后再从中抽选一个小的样本进行主调查。
第二,用于经常性调查。对于诸如居民的某些收入、居民基本生活支出、某些商品价格等指标,统计部门需经常了解。但因人财物力限制,又不可能做全面调查,且这些现象之总体又是相对稳定的,故也没必要大规模抽样。此时,采用二重抽样是合适的。如在家计调查的大样本中,抽一个小样本调查居民某些支出,从百分之一人口抽样中,再抽其中的千分之一进行妇女生育调查,等等。
第三,用于了解陌生总体内在结构或分布的大致情况,为抽样方法和抽样组织形式的选择提供依据。对于一些事先没有掌握任何信息的总体,如果以后要对其进行经常性的抽样调查,那么为了选择最佳的抽样方法和抽样组织形式,必须事先对总体的内在构成或分布情况有所了解。因此,就应该先从总体中随机抽取一个大的样本来得出关于总体内在结构或分布的结论,以后再从该大样本中按合适的抽样方法和抽样组织形式抽取一个较小的样本,对总体的各种指标作出推断。
第四,为分层抽样推断提供层权资料。分层抽样推断的前提是总体各单元能按分层标志进行归类并事先已知各层的层权。然而有些总体的层权是事先未知的,这时,我们可以先从总体中随机抽取一个大的样本,并对抽中的各单元进行分层,确定层权(作为总体层权的估计量),然后按分层抽样形式从该大样本中抽取一个较小的样本,对总体数量特征作出分层估计。
第五,为比率估计和回归估计提供辅助资料。前面已指出,比率估计和回归估计必须事先已知辅助标志的总体均值或总和,否则只能采用一般估计法。然而,具备辅助标志总体均值或总和资料的情况并不是常有的,在这种情况下,为了提高抽样估计精度而采用比率估计法或回归估计法,就可以先从总体中随机抽取一个大的样本得出辅助标志的均值或总和,作为总体均值或总和的估计量,然后再从大样本中抽取一个小样本进行比率估计或回归估计。
第六,在经常性的多项目抽样调查中,用于解决不同调查项目需要不同样本容量的问题。不同的调查项目由于总体内部变异程度的不同、对抽样推断精度要求的差别等原因,需要抽取不同的样本单元数,这时就可以先从总体中抽取一个大的样本满足样本容量要求大的项目的抽样推断的要求,再从大样本中抽取一个小样本用于其它调查项目的抽样推断。
第七,用于研究样本轮换中的某些问题。在一些连续性抽样调查中,同一单元不同时间的指标值往往存在相关,因此,可以利用这种相关采用回归估计以提高精度。但考虑到长期使用同一套样本单元会因厌倦情绪等原因影响调查质量,或者由于样本老化而使其代表性降低,因此,样本不能一直不变,而是需要定期进行轮换。利用二重抽样可以研究解决样本轮换中的某些问题。
当然,二重抽样的应用,也有个投入产出的问题。当在第二重抽样中因采用分层技术、比率估计法或回归估计法而在抽样估计精度上的得益,大于因第二重抽样所增加的费用时,二重抽样是值得采用的。第二个衡量的标准是,第二重样本因采用了分层技术、比率估计或回归估计法而得到的抽样估计精度,应优于直接按第一重样本进行简单估计的精度。
第二节 二重分层抽样一、二重分层抽样概述在分层抽样中,我们要求总体各层的层权应事先已知,如果层权未知或不能事先确定,则分层抽样在精度上的得益可能会在很大程度上被抵消掉,此时,选择二重分层抽样可以较好地解决层权问题。
二重分层抽样是先在总体中随机抽取第一重样本n′,对这个样本各单元进行分层后求各层的层权,然后从第一重样本中用分层随机抽样法抽取第二重样本n,用于估计总体指标。由于第一重简单随机抽样,第二重分层抽样,故其误差同二重的抽样都有关。
在二重分层抽样中,
为第h层估计层权
第一重样本量
第一重样本中第h层单元数
第二重样本量
N总体单元数
第二重样本中第h层单元数(第h层第二重样本量)
为第二重抽样第h层的抽样比
第二重样本中第h层第j单元观测值
L总体层数二、估计量及其方差在讨论二重分层抽样估计量的性质之前,我们先给出二重抽样中对估计量求均值与方差的一般公式如下
其中,、为第一重抽样结果条件下对第二重抽样的均值及方差,、则是对第一重抽样的均值与方差。
据此,可以构造出二重分层抽样的总体均值估计量为
其中
为第一重样本第h层均值的无偏估计。
可以证明是总体均值的无偏估计量。
如果第一重样本是随机样本,第二重样本为第一重样本的随机子样本,则估计量的方差为
其中为第一重抽样之方差,为第二重抽样之方差。
以各层的样本方差代替各层的总体方差,以样本各层间方差代替总体方差,则可得方差的近似无偏估计量为
由二重分层抽样方差计算式看出:首先,第一重样本n′越大,则抽样方差越小,估计效果越好;第二,如果n′=N,即第一重样本容量增大到总体,那么,这时的二重分层抽样实质上就是一般的分层抽样;第三,二重分层抽样遵循一般分层抽样的原则,则其抽样估计效果就好;最后,如果n′=n,即第一、二重样本量相同,则二重分层抽样就相当于简单随机抽样,但就其误差而言大于简单随机抽样的误差,因为,这时二重分层抽样误差中增加了层权的误差项。如不存在层权误差问题,那么这二者的估计效果相同。因而,在一般情况下,为减小抽样误差,必须使第一重样本n′大于第二重样本n。
三、样本容量的最优分配在二重分层抽样中,样本量最优分配的目的是按在费用一定时使方差达到极小,或在方差一定时使费用最省的原则确定第一重样本量n′和第二重每层样本量。
为此,可以考虑费用函数
其中,C′为第一重抽样平均每一单元的调查费用;是第二重样本中h层平均每个单元的调查费用。
由于是随机的,因此,我们考虑选择的n′与的期望费用
另一方面,由于方差函数
因此,当时,
所以,样本量的最优分配(即n′与的选择)应使函数
达到极小。根据柯西—施瓦茨不等式,可以得出符合上述要求的条件是
也即
将其代入费用函数(当给定时)或方差函数(当V给定时),即可求出n′的最优值。
在最优分配条件下,若给定,则可得出方差的极小值为
第三节 二重比估计一、估计方法在使用比估计量时,要求作为辅助变量的总体均值或总和应事先已知,但在实际中可能并不掌握关于辅助变量的资料,此时,就要考虑采用二重比估计的方法。
二重比估计的基本思路是先在总体中抽第一重样本用以估计总体辅助变量指标,再在一重样本中抽第二重样本按比估计法推断总体调查变量的数值。
二重比估计中常见符号的涵义为:
:一重样本量
:二重样本量
:总体辅助变量平均数估计值
:调查变量观测值
:二重样本平均数
:辅助变量二重样本平均数用二重比估计法估计的一般形式为
其中,是总体比率R的有偏估计量,,因为是有偏的,故也为有偏的,但当n充分大时,为近似无偏的。当n′和n均为简单随机样本时,其方差为
在N充分大时,项可以忽略。
当n为n′的子样本时,方差估计量为
科克伦曾经证明,在n′与n相互独立,且均为简单随机样本时,方差估计量为
显然:
①当n′远大于n时,两种估计之间的差异很小,并且当n是n′的子样本时的方差比n与n′相互独立时的方差要小。
②二重比估计的结果和都是有偏估计量,但随样本量的增大,这些偏差会减小,故它们是近似无偏的,且当n′较大时,二重比估计的精度比较高。
③当n′=N时,二重比估计的估计精度与一般的估计相同。但由于n′<N,故二重比估计的精度会低于一般比估计。当n=n′时,二重比估计的估计精度会低于简单随机抽样。原因是二重比估计增加了第一重样本关于辅助变量的误差。一般情况下,二重抽样中,n<n′。
④若第一重和第二重样本是各自独立抽取的,也即先从总体中抽取第一重样本n′,用以估计辅助信息,然后再从总体中,而不是从一重样本中,抽取第二重样本n,用以调查和推断总体研究变量,则其精度会更高,但抽样工作量却会大大增加。
二、样本容量的最优分配考虑费用函数
(其中,为第一重抽样平均每一单元的调查费用;是第二重抽样平均每个单元的调查费用,ν=n/n′为抽样比。)和方差函数
样本量的最优分配应是使函数
极小化,依柯西—施瓦茨不等式,有
因此
于是,当费用一定时,有
第四节 二重回归估计一、估计方法在使用回归估计量时,需要掌握有关辅助变量的资料,当其未知时,一个可行的办法是采用二重抽样加以估计。
二重回归估计的基本思路是先在总体中抽第一重样本作简单测试以估计辅助变量的总体资;再在第一重样本中抽取第二重样本用以对调查变量的总体指标进行估计。
有关符号为
:总体单元数
:一重样本量
:二重样本量
:为第二重抽样比
:辅助变量一重样本估计值
:调查变量观测值
:辅助变量观测值
:依第二重样本计算的(线性)回归系数
:样本相关系数二重回归估计可以采用多种形式,这里只涉及一元线性回归估计,此时,对总体均值的二重回归估计可采用以下形式
当n充分大时
其中
若n′和n均为简单随机样本,则估计量的方差为
当时,估计量的方差可按以下形式进行估计
其中
卡恩与特里帕绥(Khan and Tripathi)曾将二重一元回归估计推广到多元线性回归。
由此可见:
①若n′=N,则二重回归估计与一般回归估计的效果相同。若n′=n,则二重回归估计的估计效果同简单随机抽样的相同。因为,在一般情况下,回归估计优于简单随机抽样,所以,n′越大,则估计效果越好。
②相关系数ρ对抽样方差影响较大,ρ越大,抽样方差越小,所以有效地利用辅助变量,对提高抽样估计效果是很有帮助的。
③通常二重回归估计的估计精度是低于一般回归估计,原因是二重抽样中,以第一重抽样所估计的代替了总体,因而使抽样方差增加,故二重回归估计精度总比一般回归估计差。但当n′增大时,特别当,或者当=时,二重回归估计与一般回归估计精度一致。
二、样本容量的最优分配
在二重回归估计中,费用函数和方差函数分别为
因此,样本量的最优分配应是使函数
达到极小。则依柯西—施瓦茨不等式,有
也即
所以
当给定总费用时,则有
三、二重分层估计、比估计和回归估计的比较
1、在回归估计中,一般要求调查变量与辅助变量之间要有很高的相关关系,并且用于辅助资料的费用很低,实际中,这些条件常常难以满足。另外,回归估计的计算过程远比比估计和分层估计要复杂。
2、比估计不是无偏的,一般比回归估计有较大的方差。
3、如果调查变量与分层变量是线性相关的,则按比例分层的得益与回归估计基本一致。此时,使用分层方法还是回归估计法取决于回归方法的计算量带来的费用和分层方法的分层费用的多少。
4、分层抽样常比回归和比率均值有特殊的优越性,特别是在调查变量与辅助变量为非线性关系时,按比例分层能得到更大的得益;若分层变量不是数值型时,分层方法仍然可以使用,而回归和比估计方法则不能用。
5、如果辅助变量的总体均值是已知的,则回归和比估计可以在独立于辅助变量的n次抽选的样本上进行,而在分层抽样中,样本n必须是第一重样本n′的子样本。
第十章 非抽样误差及其控制数据的准确性与可靠性是抽样调查的生命力之所在。如前所述,在抽样调查中,除存在抽样误差外,还经常出现一些非抽样误差,主要的非抽样误差产生原因有抽样框不完善、无回答的出现、调查过程的差错以及数据整理登记过程中的差错等。因此,抽样调查中,不仅要控制抽样误差,而且还要控制非抽样误差。如何有效地控制非抽样误差,取得准确可靠的数据资料,以及如何对已经取得的数据进行质量评价,一直是抽样调查理论和实践中所经常关注和着力研究解决的重要问题。
第一节 抽样框误差及其控制一、抽样框误差的产生抽样框是有关总体全部单元的名录或地图等的框架,是抽取样本单元的依据。理想的抽样框(也称抽样总体)应该同所研究现象的总体(也即目标总体)一致,但在实践中,抽样总体与目标总体常常不一致,由此产生的误差就是抽样框误差。
考察抽样框误差的成因,大致有以下几个方面:
(1)丢失目标总体单元。在此情形下,抽样框没有能够覆盖全部目标总体单元,也就是使部分目标总体单元没有包括在抽样框中,因而也就没有机会被选入样本。由于存在丢失单元,使得总体总和的估计偏低,总体均值的估计也可能会出现偏差。丢失单元是一种威胁性较大的抽样框误差,具有较强的隐蔽性,不易被发现。
(2)包含非目标总体单元。有时,抽样框中也可能包含了一些不属于研究对象总体即非目标总体的单元,由此容易导致总体总和的估计偏高。但这种类型的抽样框误差一般要比丢失单元的威胁性小。因为在调查中,非目标总体单元往往更容易被发现,并予以剔除。
(3)复合联接。实践中常可能会遇到这种情况:抽样框中的单元与目标总体单元不完全为一一对应,而是一对多或多对一,即存在复合联接。在这种情形下,目标总体中各个单元的入样概率可能会受到相应的影响,从而导致非抽样误差的扩大。但是,有时候采用经过精心设计的有复合联接的抽样框可以提高稀有元素被抽中的概率。
(4)不正确的辅助信息。一般将不包含辅助信息的抽样框称之为简单抽样框,而将包含辅助信息的抽样框称为复杂抽样框。复杂抽样框中的辅助信息可以用于分层抽样、不等概率抽样,以及使用比估计和回归估计等。如果辅助资料不完全或不正确,则不但不能提高抽样估计的效率,反而会降低估计的准确性。
(5)抽样框陈旧。有时由于构成抽样框的抽样单元资料“老化”,抽样框所提供的信息与现实情况差距较大,也会导致抽样框误差。并且这类误差也可能进一步引起前面四类抽样框误差中的一种或几种同时发生。
二、抽样框误差的确定
(一)丢失目标总体单元时的影响前已指出,丢失目标总体单元是抽样框误差中威胁最为严重的一种。现设目标总体是由NA个抽样总体单元及另外N0个没有包含在抽样框中的单元(即丢失单元)组成,即N=NA+N0,则总体总和应为
其中为抽样总体总和,为丢失单元总和,为第i单元的观测值。现从抽样框的NA个单元中随机抽取nA个单元组成样本,则的无偏估计。当用NAYA来估计Y时,结果就会出现大小为的偏差,即
这表明Y被低估了。如果以r表示丢失单元与抽样框中单元的均值之比,即又以W0表示丢失单元占全部目标总体单元的比重,即,则总和估计量的相对偏差可表示为
当估计总体均值时,用估计的偏差为
;
此时的相对偏差为
表10.1与表10.2分别给出了不同的丢失单元比重W0对总体总和与均值估计的相对偏差。其中关于Y0与N0的值可依有关资料进行估计,对此,后面将专门讨论。
表10.1 丢失单元比重对总体总和估计的相对偏差丢失单元比重
W0
0.5
0.9
1.0
1.1
2.0
0.01
0.05
0.10
0.25
0.50
-0.0050
-0.0256
-0.0526
-0.1429
-0.3333
-0.0090
-0.0452
-0.0909
-0.2308
-0.4737
-0.010
-0.050
-0.100
-0.250
-0.500
-0.0109
-0.0547
-0.1089
-0.2683
-0.5238
-0.0198
-0.0952
-0.1818
-0.4000
-0.6667
表10.2 丢失单元比重对总体均值估计的相对偏差丢失单元比重
W0
0.5
0.9
1.0
1.1
2.0
0.01
0.05
0.10
0.25
0.50
-0.0050
-0.0256
-0.0526
-0.1429
-0.3333
-0.0010
-0.0050
-0.0101
-0.0256
-0.0526
0
0
0
0
0
-0.0009
-0.0049
-0.0099
-0.0244
-0.0476
-0.0099
-0.0476
-0.0909
-0.2000
-0.3333
(二)包含非目标总单元时的影响如果以M0表示抽样框中所含非目标总体单元数,MT表示抽样框中所含目标总体单元数,则抽样框所含全部单元数,在抽样框中不存在丢失单元,也没有复合联接时,则抽样总体总和可表示为
其中,是非目标总体单元观测值之和,是目标总体总量,为第i单元的观测值。现从抽样框的M个单元中随机抽取m个单元组成样本,则
为的无偏估计。当用来估计时,就会产生
的偏差,这表明被高估了。如果以u表示非目标总体单元与目标总体单元均值之比,表示非目标总体单元占抽样总体单元的比重,即
,
则总和估计量的相对偏差可表示为
当估计总体均值时,以估计的偏差为
此时的相对偏差为
表10.3和表10.4分别给出了不同的与u时总体总和与均值估计的相对偏差。
表10.3 总和估计中的相对偏差
非目标单元比重
0.5
0.9
1.0
1.1
2.0
0.01
0.05
0.10
0.25
0.50
-0.0050
-0.0263
-0.0556
-0.1667
-0.5000
-0.0091
-0.0474
-0.1000
-0.3000
-0.9000
-0.0101
-0.0526
-0.1111
-0.3333
1.1000
-0.0111
-0.0579
-0.1222
-0.3667
1.1000
-0.0202
-0.1053
-0.2222
-0.6667
2.0000
表10.4 均值估计中的相对偏差非目标单元比重
0.5
0.9
1.0
1.1
2.0
0.01
0.05
0.10
0.25
0.50
-0.005
-0.025
-0.050
-0.125
-0.250
-0.001
-0.005
-0.010
-0.025
-0.050
0
0
0
0
0
0.001
0.005
0.010
0.025
0.050
0.010
0.050
0.100
0.250
0.500
在实际调查中,如果将那些被选入样本的非目标总体单元剔除,而以样本中剩余的属目标总体单元的资料进行估计,由于减少了样本容量则会使估计的误差增大。令:
若i是目标总体单元
=
0 否则
则总体总和估计为
此时有
其中
同完善的抽样框(即)相比,包含非目标总体单元抽样框使得估计误差增大
(三)复合联接的影响对于复合联接的影响问题,Kiranandana曾于1976年进行过研究。
如果抽样框中没有丢失单元也不包括非目标总体单元,同时也没有将抽样框作分层处理,即假定:
,
,
,目标总体单元与抽样总体单元正确联接,
没有目标总体单元与抽样总体单元的错误联接,
以及
≥1,有一个以上的抽样总体单元同一个目标总体单元联接(复合联接),
不存在错误的复合联接,
则抽样框中的单元数目大于目标总体中的单元数目。
假定的最大值是Γ,则的范围是从1到Γ。令表示当=r(r=1,2,…Γ)时目标总体单元的数量,则目标总体单元的总数为
,
抽样总体单元总数为
于是有
,
令,则
又设Yr为具有复合联接r次的那些单元观测值之和,即
,
则存在复合联接的抽样总体观测值总和为
.
而目标总体的观测值总和为
.
现从M个抽样总体单元随机抽取m个单元组成样本,如果对复合联接不作调整,则总和估计的偏差为
,
相对偏差为
,
在均值均相等时,相对偏差则简化为:.
在估计总体均值时,由于
,
估计量的偏差为
当所有的都相等时,偏差则为0。估计量的相对偏差是相对偏差.
(四)不正确的辅助信息的影响抽样框中不正确的辅助信息会降低调查估计的精确度。Szameitat和Schaffer曾于1963年对分层抽样中使用不正确的辅助信息所造成的影响进行过专门的研究。
设依据辅助变量的信息,将总体分成L层,用简单随机不放回方式抽选出一个样本,对目标总体第q个部分的总和进行估计。令
为q部分中目标单元的数量,
为q中被正确归入h的单元数,
为q中被不正确归入h的单元数,
为h层中单元总数,
则
.
又设目标单元与抽样单元是一对一联接,且令
若抽样单元是q中的目标单元,
0,否则.
则
于是q部分的总和的估计量为
,
其方差为
.
三、抽样框误差的补救根据前面的分析可以看出,当抽样框不完善时常会给抽样估计产生程度不同的影响,但在实际中取得一个好的抽样框又可能十分困难,我们常常不得不面对各种有缺陷的抽样框。但这并不等于说我们就只能使用这种不完善的抽样框,事实上可以有多种办法用来对抽样框误差进行调整和补救。
(一)丢失单元抽样框的补救基本思路有两条:一是想办法将丢失的目标总体单元纳入到不完善的抽样框中,二是对产生于不完善抽样框的数据进行调整。具体方法有:
(1)对丢失单元实行联接。当在调查过程中能够查明丢失单元时,在调查前可以确定某种规则,将丢失单元同抽样总体中的单元联接起来,以便将查明的丢失单元纳入到不完善的抽样框中,并赋于其与抽样总体相同的抽选概率。
(2)采用辅助抽样框。即将查明的丢失单元单独编制成一个辅助抽样框,并同原抽样框一起使用。
(3)利用有关资料进行推算。通过分析丢失单元的特征,尤其将丢失单元同抽样总体单元进行比较,结合其它一些资料,则可以大致对丢失单元的统计特征性作出一个估计或判断,并以其对实际调查的结果进行调整的基础上作出估计,这样也可以减弱丢失单元造成影响。
(4)用复查结果调整。也就是采用核查和质量检查的方式,查明丢失单元的影响程度,并做为对原调查结果调整的依据。这种方法在我国的农产量调查中得到应用,在那里,抽样是依据上报面积进行,而在推算过程中是以核实面积调整上报面积(具体是用核实系数),又以丈量面积调整核实面积。
(二)其它类型不完善抽样框的补救对于包含非目标总体单元的抽样框的补救,可以利用有关信息来进行调整,也可以通过对抽样框进行质量检查的方法以查明和剔除非目标总体单元。不准确的辅助信息常常是同抽样框资料的老化有关的。因此,在构造完善的抽样框时,必须注意选择最新的资料,同时要加强对抽样框的维护,以保证抽样框的质量。对于抽样框中的复合联接问题,需要具体进行区分:对属于一对多联接(即一个抽样总体单元对应多个目标总体单元的联接)的情形,当这种现象比较多时,可以将其作为一种整群抽样,按整群抽样的方法处理;而对属于多对一联接(即多个抽样总体单元对应一个目标总标单元的联接)的情形,一是可以针对产生这种复合联接的原因重新定义联接规则,以使每个目标单元与抽样总体单元唯一联接。如以职工名单为抽样框抽选职工家庭时,规定必须是家庭中年龄最大的职工方可入选样本,这样即使一个家庭有几个职工,但与只有一个职工的家庭被抽中的概率是相同的。二是利用有复合联接的调查数据,对目标总体进行估计,(具体方法可查阅有关文献,如J.T.莱斯勒等人的著作)。
第二节 调查误差及其控制一、调查误差及其影响在调查工作过程中,由于测量工具的不准确,调查员的某些工作失误(如计量错误、计算错误、记录错误等),以及由于被调查者没有提供真实情况等因素影响,常使调查结果的准确性受到损害,产生一定的误差,这类误差就是调查误差,也称之为登记性误差。
样本所有单元的调查误差可能是某一常数,也可能互不相同(后一种情况是最常见的);样本中各单元的调查误差可能是互不相关的,也可能是相关的。在不同情况下,其影响也是各不相同的。当在一个样本之内一个单元的计量误差与另一个单元的计量误差彼此独立,整个总体的计量误差平均为零时,通常计算估计量的标准误的公式是把这种计量误差考虑在内的。这种误差降低了估计量的精确度,降低是否严重是值得查明的。如果样本中各不同单元的计量误差是相关的,则通常计算标准误的公式是有偏的。由于在实际中这些相关大部分是正相关,致使标准误可能偏小,这种干扰很容易被忽略。
如所有单元都有相同的常数偏差是最难于察觉的,对样本数据不论进行什么处理也不能使这种偏差显露出来。
关于调查误差,也可以利用一定的数学模型来进行分析,有兴趣的读者可以查阅相关文献。
二、调查误差的控制由于调查误差的产生会引起估计量的偏差以及影响对估计量作出真实准确的判断,对调查误差的研究引起了人们的注意。其中可能出现的问题是各种不同的调查所产生的调查误差是不一样的,它还涉及到费用、时间等问题,而且在计量过程中,很少有哪些器具使之不产生任何误差。
在无法保证能取得正确数据的情况下,可改用更正确可靠的方法重新计量,或者利用横向或纵向的比较(即比较两个总体的同一指标,或者比较同一总体不同时期的同一指标等等),从而对调查计量偏差至少有个粗略的估计。本书现介绍几种对调查误差作出数量上的估计与控制的方法。
(一)、随机子抽样方法假如有个调查员对某总体进行一次抽样调查,规定每人完成个单元的计量。为了评估这次调查的质量,通常所采用的方法是从这个调查员中随机抽取个,再组织个具有同样训练素质的调查员对他们各自完成的调查单元重新调查。
现在考虑某一对调查员所调查的数据,设由他们调查第个单元后所得的数据分别记为、 (i=1,2,…,m),按数学模型:
,(t=1,2)
是第个单元对调查作的若干次回答所产生的误差,称之为回答离差;是对第个单元若干次重复计量结果的平均。
由于与之间的差的平方提供了该单元调查误差方差的信息,将这对调查员所调查的单元得到的数据差的平方加以平均,则有
.
现在提出如下假设:
(1)关于同一单元的回答误差与不相关;
(2)第1次调查人员的简单回答方差与再调查人员的简单回答方差相等。
上述假设(1)、(2)在通常情况下具有一定的合理性。因为我们总是假定前后两次调查人员的调查是独立进行的,这一点保证了(1)的成立。而两位调查人员具有同样的训练素质则保证了假设(2)的成立。
在假设(1)、(2)成立情况下,上式提供了的一个良好估计,由/是仅对一对调查员而言,只要将对调查员相应的个上述结果相加再平均就成为的估计量。
当然也存在着假设不成立的情况,例如被调查者在第二次调查中仅仅依靠回忆第一次回答的内容,而不是“重新独立”地考虑回答的内容,此时显然获取了正的协方差,这样利用个/的平均去估计会发生“低估”现象。
为了利用随机子抽样方法对调查质量作出恰当的评估,尽量使假设(1)、(2)成立是值得的,就组织者而言,不让第二个调查员了解第一次调查的结果也许是有益的。
(二)交叉子样本方法除了简单回答方差之外,我们还需要对总回答方差中的相关分量有所了解。由数理统计学中方差分析的知识,为了分解出方差的各种成分,最好是将方差估计公式中的平方和进行类似于组内离差与组间离差等部分的分解。在抽样调查中,相应的较好方法无非是将样本随机分为若干组,然后由不同的调查员独立地对每组进行调查,这就是所谓的“交叉随机子抽样方法”。具体实施如下:
个待查的样本单元随机地分为个子样本,每个含=/ (假如可以被整除的话)个单元,假定这个子样本的单元之间不存在调查误差的相关性(这一点在许多场合是容易做到的。不然的话,在划分组时应将这个因素考虑进去)。指派个调查员分别对这个子样本进行调查,调查一般是独立执行的。因此,不同调查员之间不存在调查误差相关这一假设是合乎情理的。现在建立数学模型如下:
其中i表示第i个子样本(或第i个调查员),j表示该子样本中第j个单元,在第i组内
这里的是指同一调查员所得之间的相关系数。
由各不同子样本中调查误差的独立性,易得
对的估计常采用乘上某一常数因子的形式,在交叉随机子抽样模型中,变成,则有
显然,的自由度为,的自由度为k-1。
,
,
因此,在本模型中可以利用交叉随机子样本平方和作为的无偏估计,且
.
这蕴含了总回答方差的相关分量可以利用交叉随机子抽样估计量
[]/,
当然也可以估计出相关分量在总回答方差中所占的份量。
(三)数值异常情况在抽样调查中,常存在着数值异常现象。所谓“数值异常”是指调查所获得的数据超出正常范围之外。这种现象是由一些重大事件或某些异常因素引起的。数值异常现象大致分为两种:一种是数据虽属异常,但却是真实的。例如在调查部分地区经济现状或该年度生产总值时,恰逢某入选样本在调查期发生了严重自然灾害,此时我们手中获得的资料显然呈“异常”,但它在事实上反映了问题的本来面目。这一类异常的数据往往在第一次调查时就会被发觉,或者通过再调查核实时被发觉,并找到成因。第二种异常数据是人为地制造的,例如偏离实际的虚报,应付任务式的编造等等。这种数据属于“伪劣”数据,会对抽样推断的结果产生很大的偏差及影响。
如何发现与判断数据是否异常,通常只有比较样本数据的整体变化才有可能确定,有时也利用历史样本以及经验进行判断。在实际的抽样调查中,由于我们调查的数据有些涉及到该单位的机密事宜,有可能发生人为的虚报假报。故我们在一次调查中常常不是只调查若干个指标。注意到在社会经济中许多指标之间存在着一定的相关。如果巧妙地设计调查表,尤其是巧妙地插入一些相关的指标,有时能及时发觉某些人为的虚假编造。
对于异常数据要么直接删除(对第二种异常),要么在可能的情况下重新组织调查。当然无论是删除还是再调查都应结合研究目的和要求慎重地加以选择。
第三节 无回答及其控制一、无回答及其影响
“无回答”是指被抽中的一些样本单元未能计量,也即发生计算遗漏。具体可归纳为几种类型:一是遗漏。某些样本单元找不到,或由于一些客观原因而无法找到,或由于调查员自身的某些原因而没有找到等。二是不在家。如果调查项目涉及到人,在调查中可能碰巧遇到被调查者不在家或某个事先确定地点的情形,由此会引起无回答现象。三是不能回答。被调查者对所调查的问题由于缺少资料或了解不多而无法回答或无法完整回答。四是拒绝回答。被调查者出于种种原因(如保守商业秘密、个人隐私,或调查内容过于敏感,或调查员的工作态度和访谈技术等)而拒绝回答,不愿提供资料。
对无回答进行研究时,可以把总体分为两层:第一层由入样能得到其计量值的所有单元组成,简称回答层;第二层由无法测得计量值的单元组成,简称无回答层。一般,邮寄调查比上门调查,无回答者要多。
如果无回答层和回答层在所研究标志方面没有显著差异,则无回答的影响不大。但如果无回答层与回答层存在显著差异(大多数情况下是这样),则由于无回答层没有提供样本数据,而在估计总体参数时会产生较大的影响。其最重要的后果是:(1)估计量可能成为有偏的,因为样本中没有调查到的部分可能与被调查到的部分显著不同;(2)由于实际调查到的样本比目标样本小,所以估计误差就可能会增大。所以在选定目标样本的含量时,至少可以把这一因素约略地考虑在内。
下面分析一下无回答对总体参数估计量的影响。
1.当估计总体平均数时,设,分别为两个层中的单元数,又设,,这样,就是总体中不回答层所占的比例,和分别为这两层的均值。在总体中抽出一个简单随机样本调查后,仅取得回答层的样本均值,无回答层没有取得数据。如果以此来估计总体均值,则偏差总量为
偏差总量是无回答部分所占的比例与两个层的均值之差的乘积。由于样本未提供的资料,所以偏差的大小是不知道的,除非从抽样调查以外的其他资料中确定的值,否则无法对总体均值作出估计,也即不可能从样本结果对确定有用的置信限。
2.当估计总体中具有某种特性的单元所占的比例时,由于无回答层中比例的取值介于0于1之间,因此可以分析确定P的近似置信区间。
(1) 已知的情形假设抽出一个由个单元组成的简单随机样本,对于样本单元中的个单元取得了计量值。假定很大,则根据以下公式,求出的95.45%的置信限
,
其中是样本比例,忽略未计。
在求P的置信下限时,假定=0,求P的置信上限时,假定=1,于是得到95.45%的近似置信限
,
.
容易证明,这些界限是保守的,即
的概率保证程度为95.45%.
可以证明,当总体中无回答率W2增大时,置信区间的宽度也迅速增大,要保持一定的置信区间的宽度,对付无回答的影响,就要增加样本容量,增加费用。
(2) 未知时(这种情形是常见的)
可以象计算简单随机抽样的置信限一样,从样本数据中计算出保守的置信限。在计算置信下限时,假定样本中所有无回答者都给予否定的回答,计算置信上限时,假定样本中所有无回答者都给予肯定的回答。则:
,
,
p为样本中给予肯定回答的比例,q为样本中给予否定回答的比例,p+q=1,n为样本单元数。
二、无回答的控制为了减少无回答的数量,缩小无回答的影响,我们需要进一步讨论控制无回答的措施。
控制无回答可以采取一些预防性的措施,比如:在问卷设计中注意问题用词的选择,问题的排列顺序,说明词的制作等,精心选择调查实施的时间,精心选择培训调查员,确定准确的调查方位,给被调查者适当的物质奖励,向被调查者预先通知,事后提醒、催促等,这些都可能会产生程度不同的影响。
对于调查过程中产生的无回答,可以考虑采取多次访问、抽子样本,或者替换法。
1、多次访问对无回答层反复进行多次访问,是提高回答比率的一个行之有效地办法,尤其是对于遗漏、不在家、不能回答等类型的无回答,效果常常比较明显。但多次访问也会带来一定的问题,首先是调查费用会增大,一般当调查总费用限定时,重复访问的次数就不能无限制地增加;其次是调查的时间可能会延长,以至影响整个调查研究的进度;还有多次访问的另一个关键问题是并不一定能保证获取真实可靠的资料。因此,需要确定出在将任何一个样本单元作为“无法接触”而舍弃之前必须且可能进行访问的最低次数。戴明(Deming)1953年提出了一个多次访问效果的模型,讨论了访问次数的影响问题。
2、汉森与赫维茨方法—在无回答层中,随机抽取一个子样本作“重点”访问设第一次抽了容量为的简单随机样本,其中个作了回答,个未作回答。则再在个单元中随机抽取个单元进行第二次调查,为第二次重点访问所占已知无回答者的比例数,是待定的。设第二次调查全部给予了回答,
则费用函数为
其中,是进行第一次调查时每个样本单元的平均费用;
是对第一次调查作出回答的每份问卷的平均处理费用;
是第二次调查每个单元的平均调查及问卷处理费用。
仍设总体回答层和无回答层的层权分别为和,则平均调查费用为
.
此时,总体均值的无偏估计为
(注:字母找不到,用手写上,下面也一样)
为第一次调查后得到的样本平均值(用计算);
为第二次调查得到的样本(子样本)均值。
其估计量的方差为
,
其中为总体方差,为无回答部分的方差。
经推算,K的最优取值为
,
且当估计量的方差一定,并使费用达到最小时,n的最优取值为
.
3、替换法在出现无回答时,为使样本量不低于设计要求,可以用总体中最初未被选入样本的单元去替换那些经过努力后仍未能获得回答的单元。
使用替换法应遵循以下原则:①替换者与被替换者应属于同一类型的群体,它们应具有某些相同或相似的特征。②替换的程序应事先确定,调查员须按程序选择替换单元,避免凭主观意愿任意选取。③替换法只能在对无回答者经过多次追踪努力失败后使用,并对替换情况进行详细记载,以便分清调查结果哪些来自原样本,哪些来自替代样本。
选择替换单元的基本方法一般有两种,即随机替换和非随机替换。①随机替换.在调查样本之外,按照随机原则,抽取“替换样本单元”,以用于对无回答单元的替代。替换样本单元要从抽样框中与无回答单元相同或相近的范围内抽选,以减少由于替换所可能产生的偏误。
如果掌握了对调查对象进行分层的有关信息,则采用随机替换效果比较好。替换样本一般应在调查开始前就准备好,并在替换样本和原样本间建立一种联系规则,当原样本中出现难以解决的无回答时,依据联系规则,对替换样本中的对应单元实施调查。②非随机替换.当不掌握被调查对象的有关辅助信息,故无法对总体实施分层抽样时,一般用非随机替换法,即在无回答出现后,不是采用概率抽样,而是依照某种事先确定的联系规则从总体中确定出替代单元。如在住户调查中,某住户拒答时,可依次以该住户的左邻、右舍、楼上、楼下住户替换,直到获得调查资料。
三、敏感性问题的调查在社会经济现象的调查中,如果涉及到有关商业秘密、个人稳私或政治态度等具有敏感性的问题时,被调查者可能会基于种种原因而不愿意给予回答,这时,调查者可以设计一些专门的方案,以使被调查者既真实地做出回答,又不担心泄露私人秘密。
(一)沃纳随机化回答模型沃纳随机化回答模型是由Warner于1965年针对仅有“是”或“否”两种回答的调查而设计的。它的基本思路是:由调查者事先制作n个外形完全相同的卡片(或纸条等),并将事先设计好的两个截然相反的问题A与B分别写在不同的卡片上(每张卡片只写一个问题),使得写有A问题的卡片所占的比例为P,则写有B问题的卡片所占的比例为1—P。调查时,将所有卡片充分摇匀,让被调查者从中随机抽取一张卡片,对卡片上所提的问题作“是”或“否”
的回答。调查者根据全部被调查者回答的结果进行技术处理,并进而对回答问题为“是”的比例作出估计。
显然,这种方法取得成功的关键在于:让被调查者确信调查者并不知道他们回答的是哪一个问题,由此他们在这个敏感性问题中的态度不会被泄露。为此,在调查开始前,调查者必须向被调查者充分讲清沃纳方法的具体作法以及本调查是严格遵循沃纳方法的。
假定总体中回答是“是”的比例为(显然它可以用样本中回答“是”的比例估计),对问题A回答“是”的比例为,则由全概公式可得
.
又设样本中回答“是”的次数(单位数)为m,则,由于是事先设定的已知数,所以的无偏估计为
,
此估计的方差为
.
尽管这个估计的精确度比较差(因为上式中第二项远大于第一项),但沃纳在理论上证明了:在涉及敏感性问题的调查中,他的方法比直接提问调查的均方误差(MSE)要小。因此,这种方法在实际中仍被大量运用。
(二)西蒙斯改进随机化回答模型沃纳的方法虽比直接提敏感性问题好,但所提的两个问题(如:您赞成改革吗?您不赞成改革吗?)都具敏感性,被调查者仍可能存有戒心,不予配合。而且,这个方法中回答问题A的人占的比例不能等于1/2。
为此西蒙斯(Simmons)1967年提出,如果将第二个问题改为与第一个问题毫无关系。如问题A仍为原来的敏感性问题,而把问题B换成与问题A无关的、毫无敏感性的问题,如您是五月份生的吗?您的身高是170cm?等等。调查过程仍采用沃纳方法。这样,被调查者的合作态度可能会有所改进,因此,调查的效果会更好。
设总体中对问题B回答“是”的人占的比例为,符号及的含义仍同上。
1、已知的情况由全概率公式,,设容量为的简单随机样本中,有m人回答“是”,则,此时
为的极大似然估计。
其方差为
.
已经证明,当P>1/3,且P≠1/2时,不论与如何,西蒙斯方法比沃纳方法更精确些。 2、未知时这时最好抽取两个随机样本进行调查。设这两个样本的容量分别为和,敏感性问题所占比例分别为和,设总体中回答敏感性问题的比例为时,对问题A或B作出“是”的答复者占的比例为,回答敏感性问题的比例为时,对两个问题作“是”的答复者占的比例为,则由全概公式有
,
,
又:
,,
,分别为两样本中答“是”的人数;
解得的估计量为
.
同理也可得出的估计量。
其方差为:
上面所讨论的有关敏感性问题调查建立在回答只有“是”与“否”两种选择的基础上。在实际抽样调查中,有些敏感性问题的回答可以有若干种选择。此时的敏感性问题调查方案如何设计、如何作技术处理?还有待进一步研究。
(三)使用随机化回答技术应注意的问题提出随机化回答方法,目的是减少或消除被调查者在回答敏感性问题时可能存在的疑虑,与调查员充分合作,完成对敏感性问题的调查。在具体使用这种方法时应注意以下几个问题:
首先,要求调查员能充分理解这种方法,这样才能很好地向被调查者解释清楚,使他们相信,调查人员无法根据他们的回答,判断他们是否具有某种特征,唯有如此,才能达到消除被调查者的顾虑,取得好的调查效果的目的。
其次,在正式开始调查前,应允许被调查者检查卡片,了解调查员的记录方式,使其相信这种方法不带欺诈的成份。
最后,在使用西蒙斯模型时,要注意选择与敏感性问题无关的非敏感性问题作为问题B,同时非敏感性问题应尽量简单,以方便被调查者的回答。
此外,要指出的是,随机化回答技术只适用于解决二项问题(即是非问题)的回答,而对数值型敏感问题不起作用。
四、缺失数据的处理前面所讨论的控制无回答的措施多是从单元无回答的角度考虑,但实际中,可能还会遇到项目无回答(即缺失数据)的问题,从而影响调查结果的系统性和完整性,给进一步的统计分析带来一系列麻烦,因此,有必要对缺失数据的处理问题作一些讨论。
缺失数据的弥补主要是采用插值法,一般分成“冷卡”(Cold—deck)法和“热卡”(Hot—deck)法。
“冷卡”方法是用来自其他调查或过去调查的资料作为当前调查中缺失数据的替代。这种方法在周期性调查中是很有用的,因为在这种情况下,可以用前一期的调查数据替代目前调查的缺失值。
“热卡”方法是对调查中发现的项目缺失值,用按一定准则选出的、同一调查中与无回答单元具有相似性的回答单元的数值进行替代。当然,这可能会引出两个问题:一是一些回答单元的数据没有机会成为替代值;二是一些回答单元的数据会被多次使用。因此,作为改进,一方面可以将回答单元融合在一起构成一个完整的回答单元集,并以其作为替代单元集,当出现无回答时,在替代单元集中随机抽选回答单元数据进行替代(或称插补),另一方面,可以允许多重替代,但要对每个回答单元数据用于替代的次数加以控制。使用“热卡”方法的一种更为简便的情形是,以回答单元数据的平均值代替缺失值。“热卡”方法实质上只是使资料看起来是完整的,这样便于运用统计方法进行运算处理和分析研究,但这种替代的数据对统计分析的结果并不产生影响。
第四节 样本轮换的理论与方法一、样本轮换的意义在抽样调查的实际应用中,大多数情形属一次性调查,但也有很多重要的调查需要经常性定时进行,如我国的城乡住户调查、农产量调查、人口变动调查等。在经常性抽样调查中不可避免地会遇到这样的问题:每次调查的样本应如何形成?是用固定样本还是全新样本好呢?全新样本能增强对现期总体的代表性,但抽取和调查新的样本单元会比调查老单元费时、费力,且费用高,而采用固定样本虽可以相对节省人、财、物,所得资料的可比性也比较强,但由于实际总体常常是随着时间的推移而变化的,因此,样本长期固定不变就不再对变化了的总体具有代表性,或其代表性会降低,也不能被看作是从现期总体中抽出的随机样本。另一方面,在经常性抽样调查中,不论调查对象是人或者物,如果样本使用时间过长,必然会使调查资料的提供者产生厌烦心理。因此,除非他们具有较高的思想境界和受到强有力的物质刺激,否则,一般情况下他们可能表现为:或者不愿意继续配合调查,或者有意无意地提供一些不完全正确的资料,或者形成一种回答问题的思维定势,等等。从而造成调查质量下降,使非抽样误差进一步加大。因此,作为对全新样本和固定样本的折衷,就引出样本轮换的问题。那么,样本怎样轮换?样本轮换比率如何确定?样本轮换后如何估计总体参数?研究解决这一系列问题的方法不仅具有一定的理论意义,而且具有十分重要的现实意义。
二、样本轮换方法和模式样本换换的方法主要有三种:随机轮换、等距轮换和子样本轮换。
随机轮换是在进行轮换时按确定的轮换比例,从原有样本中随机抽出若干单元不再调查,而从其余未包括在样本中的总体单元中抽取相同数目的单元来代替。
等距轮换是在总体抽样框中确定出各个等距抽样的样本,在各次调查中,按相应位置的等距样本单元进行轮换。我国农村住户调查就是采用这种轮换方式。
子样本轮换是从总体中抽出若干套子样本,每次调查一定数量的子样本,逐次轮换其中的部分子样本。
子样本轮换实际上就是每次采用交叉子样本,它不仅能有效地减少和控制估计偏差,而且由于每个交叉子样本都能代表总体,即使有的子样本资料搜集不到,也可用其他的子样本甚至一个子样本来推断总体。同时,用交叉子样本还可以考察非抽样误差发生的程度。因此
,在三种样本轮换方法中,子样本轮换是比较好的一种方法。
样本轮换的模式一般也有三种:单水平样本轮换,不完全的单水平样本轮换和多水平样本轮换。
单水平样本轮换是指上次调查的n个样本单元在这次的调查只保留m个单元,其余u个单元为等量的新单元替代,这m个老单元和n个新单元都只提供现期的资料。如我国的农村住户调查就是采用这种样本轮换模式。
不完全的单水平样本轮换是指样本中的一些单元在一定时期内保留在样本中,然后在退出样本一段时间后又重新返回样本一段时期,样本中的单元都只提供现期资料。如美国现期人口调查采用的是4-8-4轮换模式。即每个月的样本都由8个轮换组组成,每个轮换组在样本中保留4个月,在以后连续的8个月中离开样本,然后又重新归入样本4个月。
多水平样本轮换是指轮换后样本中的所有单元既要提供现期的资料也要提供以前的资料。其中用得最多的是两水平样本轮换,它是每次都抽新的样本单元并记录其有关的现期资料和前期资料。如美国的每月零售贸易额调查就是采用了混合的两水平样本轮换模式,调查样本的一部分轮流地由三个固定样本之一来替代。
美国现期人口调查的样本轮换流程
样本的轮换期年度和
月份
1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8
第一年1月* * * * * * * *
2 * * * * * * * *
3 * * * * * * * *
4 * * * * * * * *
5 * * * * * * * *
6 * * * * * * * *
7 * * * * * * * *
8 * * * * * * * *
9 * * * * * * * *
10 * * * * * * * *
11 * * * * * * * *
12 * * * * * * * *
第二年1月 * * * * * * * *
2 * * * * * * * *
三、样本轮换时总体参数的组合估计为讨论方便,假定采用简单随机抽样,并记
n为样本单元数目;
u为替换的新单元数目;
m为保留的原有单元数目;
一般称保留的样本单元为拼配单元,.
为u个新单元现期观测值的平均数;
与分别为m个拼配单元现期与前期观测值的平均数;
是n个单元(包括m个拼配单元及u个已被替换的单元)前期观测值的平均数。
估计总体均值时,如果只借助u个新的样本单元,则的估计只能是
.
当不考虑有限总体修正系数时,其方差为
,
其中为现期总体方差。
如果只利用m个拼配样本单元估计,由于可以将m个拼配样本单元看成是从原有的n
个样本单元中抽出来的第二重样本,则可采用二重回归估计的方法以容量为m的拼配样本对作出估计
,
其中b为m个拼配样本单元现期与前期观测值的回归系数。
当不考虑时,其方差为
.
由于现期调查的样本是由m个拼配单元和u个替代单元组成的,因此,对于的一个良好估计应是与的加权综合,即
,
其中
,
为相应的权数。的方差应为
,
其中ρ为m个拼配样本单元现期与前期观测值的相关系数。
需要说明的是,上面给出的估计形式是一种最简单的情形,它适用于单水平样本轮换。较复杂的情形有耶茨,拉奥和格雷尼姆,埃克勒,沃尔泰,以及阿瓦德哈尼和苏卡特梅等人提出的方法。
四、最佳样本轮换的确定在调查目的既定的条件下,样本轮换率主要取决于三个因素:调查总体发生变化的速度;被调查者对重复调查在时间和次数上的心理接受程度;以及调查费用、抽样精度、工作难易等的允许程度。由于不同的经常性抽样调查有不同的调查总体、不同的被调查者和不同的精度要求,这就使得要从理论上给出一个考虑所有影响因素的样本轮换率是比较困难的。因此,
确定样本轮换率的一般指导原则是:如果调查总体变化的速度较快,被调查者对重复调查在时间和次数上的心理接受程度较低,并且调查费用比较宽松,则样本轮换率应该高一些。反之,则样本轮换率可以低一些。
在不考虑费用的条件下确定最佳样本轮换率的基本思路是使估计量的方差达到最小。也即使函数
极小化,为此,要求使V对u的偏导数为零,即得
,
则
,
所以,最佳样本轮换率为
,
最佳样本留存率为
.
可见,最佳样本轮换率约在50%~100%之间。ρ愈大,轮换率也就越大,因为此时只要保留少数单元就可充分利用前期的信息。
在选择最佳样本轮换率时,估计量的方差可望达到最小值,此时的最小方差为
.
如果考虑费用,则实际采用的样本轮换率要比这里给出的小。对此科克伦曾作过较为系统地研究,得出了一些有用的结论。如:除非ρ≥0.95,否则,在第二次调查后采用一个固定的权数和固定的换率与采用最优的权数和最优的轮换率相比,现期估计量的精度没有什么损失等。这些可以作为抽样实践中采用低于50%的固定样本轮换率的理论依据。
最后,还要就多阶段抽样下的样本轮换问题作一些简单的讨论。目前,各国在涉及全国性的大规模经常性抽样调查中一般都采用多阶段抽样,但一些国家在抽样的较高阶段不实行样本轮换,而只在抽样的较低阶段实行样本轮换,如我国的城乡住户调查,只对调查村、调查户进行轮换,而对调查的县(区)、乡(街道)等不轮换这是不合适的。因为从道理上讲随着时间的推移,多阶段抽样中每个阶的样本都可能会产生老化的现象,只不过各不同阶段样本老化的速度有快有慢。所以,在经常性调查中,应考虑对不同阶段的样本按其老化的速度,分别采用不同的样本轮换率和样本轮换时间进行样本轮换。
一、抽样调查的概念关于抽样调查的定义大体上可以区分成广义和狭义两种,广义的抽样调查包括非概率抽样与概率抽样,狭义概念仅指概率抽样。本书取狭义的理解,将抽样调查定义为是按照一定的程序和方法,从所要研究现象的总体中根据随机原则抽取一部分单位组成样本,通过对样本的调查,获得样本资料,计算出有关的样本指标(统计量),依一整套专门的方法据以对相应的总体指标(参数)作出估计和推算,并有效控制抽样误差的一种统计方法。抽样调查所依据的概率原理属于数理统计学的一个重要分支,也是现代统计学的基础。抽样的方法不仅对统计推断、统计检验以及统计决策等理论的发展产生了直接的影响,而且还构成了其他应用性学科如计量经济学、管理会计学等的方法论基础。
所谓随机原则就是在抽选调查单位的过程中,完全排除人为的主观因素的干扰,以保证使现象总体中的每一个个体都有一定的可能性被选中。换句话讲,哪些单元能够被选作调查单位纯属偶然因素的影响所致。这里需说明几点:①随机并非“随意”。随机是有严格的科学含义的,可用概率来描述,而“随便”仍带有人为的或主观的因素,它不是一个科学的概念;②随机原则不等于等概率原则;③随机原则一般要求总体中每个单元均有一个非零的概率被抽中;④抽样概率对总体参数的估计有影响。同时,按随机原则抽样可以保证被抽中的单元在总体中均匀分布,不致出现系统性、倾向性偏差;在随机原则下,当抽样数目达到足够多时,样本就会遵从大数定律而呈正态分布,样本单位的标志值才具有代表性,其平均值才会接近总体平均值;按随机原则抽样,才可能实现计算和控制抽样误差的目的。因此,随机原则是抽样调查所必须遵循的基本原则。
在这里,“可能性”就是常说的机会,对“可能性”大小所作的数值度量在数理统计学中被称作概率,它常常是用统计的频率来近似度量的。
二、抽样调查的阶段划分与职业规范由上述抽样调查的概念出发,我们可以将抽样调查工作的全过程划分成三个不同的阶段。
第一阶段为抽样设计阶段,即从现象总体中抽选样本的阶段。在这一过程中,要在对现象总体进行初步分析的基础之上编制出尽可能完善的抽样框,选择最适合的抽样方式方法,确定出最佳的样本容量,以充分保证所选样本对整个总体的代表性,从而增强抽样推断的效果。同时,还要作好问卷设计和试调查等。
第二阶段为调查阶段,即对所选中的样本进行调查,搜集样本资料的阶段。在这一过程中,要解决好调查具体方法的选择,即确定是用走访调查、电话调查、邮寄调查,还是其他有关方法以搜集所需资料,还要设计出对拒访和无回答(包括样品无回答和项目无回答)的预防和处理措施,以及对数据质量的检查、控制措施与评价方法等内容。其基本目标是获取准确的资料,为抽样推断的可靠性打下基础。
第三阶段为数据处理和估计推断阶段,即依样本资料对所需要的总体资料进行科学地估计推算的阶段,是抽样调查工作的最后一个、同时也是最重要的一个阶段。在这一阶段,涉及到对推断总体资料的各种方法(估计量)进行比较、选择,估计误差的计算与控制,缺失数据的处理,以及进行数据分析,得出分析结果。其核心是不断提高推断结果的可靠性,圆满完成抽样调查的各项任务。
这表明,抽样调查工作的出发点是现象的总体,其目的也是要了解总体的有关方面特征,但在具体认识过程中是以样本作为核心的,绝大部分的工作也是围绕样本展开的。然其工作的结果绝不仅仅停留在对样本的认识之上,而是最终上升到对整个总体的更高层次的认识和把握,也就是以总体作为全部工作的归宿点。
另外任何工作都有一定的职业规范,抽样调查也不例外。在抽样调查中,首先,要注意尊重并保护被调查者的隐私权,调查结果只能用于综合分析,而不应给被调查者造成不必要的麻烦和伤害。其次,要诚实地分析调查资料,不能为得出某个事先期望的结论而随意地改动资料。第三,要做一个具有职业水平的工作者,做出来的东西既要有能让普通人看懂的主要信息,也要有能让专家看出其内涵的内容。第四,当从有些调查结果得不出好的结论时,应诚实地加以说明,而不应含糊其词。最后,抽样调查必须在国家法律法规所允许的范围内进行,不做违反社会公众利益的调查。
三、抽样调查的特点抽样调查作为一种非全面调查方法,同全面调查相比,具有一系列特点,即使同其他的各种非全面调查比较,它仍呈现出明显的特色。
首先,按随机原则抽选调查单位是抽样调查的一大特色。同属非全面调查的典型调查和重点调查,在调查单位的具体选定过程中,都程度不同地受到了调查组织者的主观意识的影响,因而带有一定的随意性,由此使得典型调查和重点调查的科学性受到影响。而抽样调查按随机原则抽选调查单位,则完全排除了主观意识的干扰,使调查单位的选择建立在较为客观的基础之上,从而确立了它的科学性。因此,按随机原则抽样既是抽样调查的特色所在,同时又是其取得成功的基本保证。
其次,可以用样本资料推断总体资料是抽样调查的又一基本特征。由前面的分析可知,用样本推断总体是抽样调查的一个重要阶段,实质上这也是进行抽样调查的最终目的之所在。能够用样本资料推断总体资料的重要意义在于,我们可以通过对部分单位的调查,以少量的投入,即可取得以前只能用普查才能取得的同样的效果,得到所希望了解的现象总体的全面资料,从而节约大量的调查费用,这也是抽样调查得以广泛应用的重要原因之一。
其三,抽样调查的速度快、周期短、精度高。由于只调查一部分单位的情况,因此其调查登记及汇总处理的工作量较之全面调查要小得多,所需时间也大大缩短,这为调查速度的加快创造了十分有利的条件,由此调查的时效性得以加强。同时,在调查单位减少后,由于工作量相应地减少,则可以较严格地挑选和培训调查员,调查和数据处理的质量比较容易控制,因此可能取得更准确的结果。所以,更能满足统计调查的及时性和准确性要求。
其四,在抽样推断之前可以计算和控制抽样误差。随着抽样推断理论的不断发展,误差分布理论日趋成熟,与此同时,抽样误差计算和控制的方法也逐步得以完善,而且关于抽样调查的误差问题的讨论也扩展到了对具有更为广泛意义的非抽样误差的深入研究。这是抽样调查的又一重要特色。
其五,抽样技术灵活多样。在过去短短的几十年时间里,抽样调查在其理论飞速发展的同时,抽样技术也得到了长足的发展,至今已形成了较为完整的抽样技术体系。各种不同的抽样技术可以分别适用于不同现象的抽样过程,也可在同一现象的抽样中结合运用,从而保证获得最好的抽样效果。
其六,抽样调查的应用十分广泛。无论是对社会现象的调查、还是经济问题的研究,或者是自然现象的了解,都可以使用抽样调查方法。可以毫不夸张地讲,凡是可以运用全面调查的场合,都可以使用抽样调查,凡不能使用全面调查的场合,一般也能利用抽样调查方法进行调查研究。关于抽样的具体应用情况在后面有关章节的论述中还要进一步涉及,在此从略。
最后,同其他调查方式相比,抽样调查的技术性更强,因此,一般需要有统计学的专家作指导,并且要求统计专家不仅要有适当的抽样理论方面的知识,还应有抽样的实践经验。
四、抽样调查的作用抽样调查除具有十分明显的特色之外,还在实际应用过程中发挥着突出的作用。
其一,抽样调查能够解决全面调查所无法解决的现象的调查问题。在实际工作中,对某些现象常常可能一方面需要了解其全面情况,另一方面又由于现象自身的特性决定了无法通过全面调查获取资料。此时,只有使用抽样调查。该类现象主要有:(1)产品质量的破坏性检验。如轮胎的里程寿命试验,青砖的抗折耐压试验,炮弹的杀伤力试验,弹簧的抗拉强度试验等等。(2)无限总体的调查:无限总体因其所包含的总体单位数目是无限多个,故无法一一计量。如宇宙空间的星球数目、人体的细胞数目等等。(3)包括未来时序的总体,如生产过程稳定性的检查等。
其二,抽样调查适用于对理论上可以作全面调查,而实际上又难以组织全面调查的现象进行调查。有些现象虽属于有限总体,但由于其总体范围过大,单位数目过多且过于分散,事实上不可能作全面调查,如森林的木材蓄积量调查,大量连续作业的某些产品质量的非破坏性检验,水稻的个粒重检验等等。还有些现象由于受时间或其他条件的制约,不能组织全面调查,如战备物资调查,自然灾害造成损失情况的调查等等。
其三,抽样调查对于时效性要求较高、同时又可以不作全面调查的现象的调查有着特殊的作用。如前所述,抽样调查具有费用低、速度快、精度高的特点,这使得它比其它非全面调查能更有效地满足各有关方面的需要。
其四,抽样调查的结果可被用来检验和修正全面调查结果。任何调查都可能存在误差,全面调查也不例外。而且由于全面调查涉及面广、工作量大、参加人员多、汇总传递环节多、调查结果容易出现差错。但是,其差错到底有多大,全面调查自身无法回答这一问题。因此,可在全面调查之后再进行一次抽样调查,根据抽样调查结果对全面调查结果进行检查和修正,从而提高全面调查的质量。
其五,抽样调查可对工业生产过程的稳定性进行监测,从而实现质量控制。在工业产品成批或大量连续生产过程中,利用抽样调查方法对产品的质量进行动态检测,及时提供有关信息,变事后监督为事中控制,并通过编制质量控制图开展监控,是世界上许多国家广泛采用的工业产品质量控制系统。这一应用不仅对于生产过程的控制意义重大,而且也为进一步推广抽样调查,乃至于整个统计方法的应用,提供了成功的范例,积累了可贵的经验,并产生了深远的影响。本书第十三章讨论了有关这方面的内容。
其六,利用抽样调查方法还可以对总体的某些假设进行检验,以判断这些假设的真伪,为管理决策提供依据。例如:一种新药在对某患者使用后效果不错,这是否意味着这种新药的疗效就一定显著呢?单凭此还不能做出结论。因为疗效对于每个人常会受到一些随机因素的影响而呈现出一定的不确定性。因此,最好利用抽样调查结果,对这种药物的疗效是否存在显著性的统计差异进行检验,以确定其疗效状况,并据此作出是否推广使用该药的决策。利用抽样调查方法研究人们未来的行动决策,这是抽样方法应用上的又一重要突破。
第二节 抽样调查的历史发展及应用抽样调查成为一种科学方法,是本世纪的事,然而这种统计方法的实质,人类早在实践中已经体会到。只是由于历史条件的限制,在十九世纪末叶以前,抽样调查在统计实践中很少运用。后来由于人们认识到了它的适宜于实践运用与理论分析、兼顾统计效果与经济效果等优点以及推断统计理论的成熟,抽样调查才逐渐得到广泛的使用。
一、抽样调查的历史发展关于抽样调查的历史发展,可分三个不同的时间段进行考察。
1、1895年以前。抽样调查处在实践探索过程和萌芽阶段。
原始的抽样法,在人类活动中早就使用过,如古代中国人、古希腊人就知道从整体中取出一小部分予以审味和检验,以确定物体的性质。这种平凡的举动,可以说在有文字记载的历史以前就已存在。而有文字保留下来可以作为佐证的最早记载,则是俄国一个名叫莫罗佐夫的贵族在1648年的庄园“记事”中,曾经讲到如何简单地运用样本田的产量来估算庄园的总收获量。
其后,政治算术学派的学者们在研究中广泛采用样本资料进行总体推算。如英国的威廉·配第(Willian Petty)用死亡人数和瘟疫流行年份死于鼠疫的人数等,对伦敦居民人数进行推算,或从伦敦的房屋栋数、每栋房屋平均家庭数以及每个家庭的平均人数,推算伦敦的居民人数。格朗特(John Graunt)以伦敦市的人口为基础,研究人口现象运动的规律。荷兰的威特(Joham de Witt)曾根据对数千人的死亡年龄进行计算,得出了人口的死亡率。凯尔斯勃(W.Kersseboom)曾估算荷兰的人口总数和各年龄的死亡人数,从而编制出荷兰寿命表。法国的沃邦(Vauban)推算过全国土地面积和人口总数。拉瓦锡(Antoine Laurent Lavoisier)从生产、消费与收入方面推算法国国民收入。瑞典的埃尔威斯(Pehr Elvius)在人口保持平衡的假设下,估算出全国人口数,并编成瑞典出生死亡表。瓦尔格廷(Per Wargentin)通过对历史人口和当时人口的出生死亡记录的观察,编制成全国死亡率表。俄国的盖尔曼推算过全国农业、工业产量和消费总额。
1766年,法国经济学家麦桑斯(Messance)在其所著《法国人口论》一书中,以部分地区的人口清查数字为依据,推算全国人口数。1778年,法国另一位经济学家摩休(M.Moheau)在其《法国人口研究论述》一书中,也发表了依样本出生率和死亡率推算出来的法国人口估计数。1800年,经商出身的英国经济学家伊顿(Frederic Morton Eden)在《英国居民人数的估计》中,利用平均每户居民数,出生人数以及住宅数的样本资料,估算出大不列颠的人口总数,他的估计被第二年英国的第一次人口普查结果所证实。
法国的数学家、统计学家拉普拉斯(Pierre Simon Laplace)于1786年在一篇关于巴黎人口的出生、婚姻、死亡的文章中,提出根据法国特定地方的出生率来推算全国人口数。他的建议得到法国新政府的支持。于是他在全国抽选了30个郡,共2037615人,于1802年9月22日进行深入调查,调查发现平均每28.352845个居民每年出生一个婴儿,并由此推算出全国总人口数为42529267人。这是由特定区域的人口数与出生率为依据,推算出全国人口数的方法。尽管这种推算是有问题的,但这件事,在当时条件下,无论对人口统计还是对统计方法论来说,都是一个巨大的创造。在统计发展史上,他首创用样本来推断总体的思想(即大样本统计推断),为后人开创了一条局部调查的新路子,对以后抽样调查的形成和发展也产生了巨大的影响。因此,丹麦统计学家韦斯特加德(H.L.Westergaard)认为:“现代代表统计学就是以选择出的部分资料(样本)为基础,而推导出全部资料的计算结果(抽样法),实际上是以拉普拉斯为嚆失的。”
1835年,著名统计学家、比利时的凯特勒(Lambert Adolphe Jacques Quetelet)根据所搜集关于165个剧本的47位法国作家的资料,研究了写作与年龄的关系。最后得出的结论是:剧本的创作才能出现在21岁以后,30~35岁是精力旺盛时期,50~55岁是成熟时期,此后便日渐衰退——特别是在剧本的价值方面。在这里,他所使用的研究方法实际上就是抽样方法。
1846年,俄国数学家奥斯特罗格拉茨基院士发表论文,主张在产品质量检验中用抽样法,这样可节省95%的繁重工作。
1846年至1847年,英国农场主莱威斯(John Lawes)与青年农业技师吉尔贝特(Heny Gilbert)在卢桑姆斯坦特德农业实验站设置样本区,来试验过磷酸盐与氮肥等各种化学肥料对收获量的影响。直到1879年,他们根据五块地段(33英亩)的小麦产量来估计全部英格兰与威尔士从1852年至1879年每亩产量的变化。1866年,俄国的拉扎列夫斯基通过样本调查,对典型农户的家庭收入作了详细观察。
在抽样调查的实践方面,美国的赖特(Ccrrdl Davidson Wright)的贡献是值得一提的。他主要领导举办了这样几次调查:①1873年,根据贫民生活改善协会400个志愿调查员的报告,估计了纽约市的失业人数;②1873~1879年经济危机时期,他借助于马萨诸塞州19个城市的警察署和与375个城镇的财产评估人员的通信,查询失业人数,他估计失业者为28,508人,纠正了当时对失业人数过高的估计。③20世纪初,马萨诸塞州一年一次的工商业抽样调查,以及此后举办的两年一次的全国工商业抽样调查也是在赖特领导下举办的。赖特从事抽样调查的实际经验,后来给凯尔倡导的代表性调查给予了有力的支持。
在抽样调查发展史上,挪威的凯尔(Anders Niscolai Kiaer)是一个划时代的人物。他对抽样调查的贡献,无论是在实践还是在理论方面,就当时的条件而言,都是十分卓越的。因此,马来西亚统计学家尤葆生(You Poh Seng)在《抽样理论与实践发展的历史的考察》一文中评价到:“凯尔的工作,可以视为统计学史上的一个转折点。他是离开人口普查而用抽样方法搜集社会资料的第一人,并为抽样理论奠定了基础。”凯乐所组织的抽样调查实践中,比较有影响的有:①1891年的挪威国民收入与财富的代表性调查。在这次调查中,可能代表全国国民收入和财富情况的许多城市、乡区和村落被选出来。在这些区域内按某个年龄、各种社会阶层、各种婚姻情况以及某种字母起首姓名等标识,把居民的有关情况详细记录下来,从这些记录来推断出挪威全国国民收入和财富。②1894年,他主持在挪威全国范围进行关于劳工退休年金和疾病保险制度的抽样调查,是抽样调查史上一次成功的先例。这次调查根据1891年的人口普查资料确定比例,在城乡分别采用不同的抽取方法抽查了2万人和6万人进行调查,并且特别强调了所抽选人口的分布状况以增强其代表性。③1895年,为弄清挪威成年男子的收入按不同的职业、年龄和社会地位的分布情况,凯尔和汉森(E.Hanssen)等组织了抽样调查。
以上列举的事实表明,在1895年以前,抽样调查的实践应用已经在许多领域展开,这些都为抽样调查的进一步发展创造了条件,积累了宝贵经验。但这时的抽样调查仍处于探索过程之中,没有形成系统的理论,也没有得到普遍的认可。因此,德国统计学家詹森(A.Jenson)认为:“到十九世纪最后十年的中期为止,也就是到1895年为止,抽样调查在实际中几乎并未实行过。”理由是象尤葆生所指出的:“那时负责使用这种方法的统计学家们,既不说明他们如何抽取样本,也不提所遭遇的困难,以及克服这些困难应采取的途径,由于这些事实,我们就无法决定是否可以把它们恰当地称为抽样调查。”
2、1895~1925年。抽样调查逐步得以确认的过程。
凯尔在坚持抽样调查实践的同时,还十分注意对抽样调查的方法和理论进行研究。总结实践经验,他认为,一次成功的抽样调查应具备两个条件,即正确的代表性和单位的合理选择。因为“调查结果的准确性,不取决于观察数量的多寡,而取决于取得正确代表性的方法。”
1895年,国际统计学会(ISI)在瑞士首都伯尔尼召开第五次大会。会上,凯尔提出关于代表性调查的报告——《对代表性调查的研究和经验》,试图阐明代表性调查的意义,在于搜集非普查所能提供的详细资料。但同时他也十分小心地强调指出,他并无把这种调查作为普查或任何通常的调查之意,更无认为这种调查可以取代普查之意,他只是想用“代表性调查”来表示某种特殊类型的调查而已。他将代表性调查定义为“根据抽样设计,从总体的正常‘代表’中合理地收集数据”,他强调所调查的样本应是总体的一个“代表”。在这次大会上,围绕着凯尔的报告,出现了激烈的辩论。德国社会统计学派权威梅尔(Georg Von Mayr),国际统计学会秘书长、意大利最高统计会议主席博迪欧(Luigi Bodio)和瑞典的米利叶(Guillaume Edmund Milliet)等人,反对凯尔的观点。他们认为,普查方法是不容动摇的。法国的切森(Emile Cheysson)、德国的施莫勒(G.Schmoller)等为代表性调查辩护,但他们或称其为是一种专题论述法,或将其当作全面调查不便时的补充,没有给抽样调查以足够的理解和重视。
1897年,在俄国圣·彼得堡召开的第六届国际统计学会大会上,凯尔又作了长篇发言,全面阐述了代表性调查的思想,为代表性调查进行辩解。他明确指出:代表性调查是一种局部调查,是对遍布全国或一个地区的大量单位进行观察,因而它的总和成为整个国家或地区的一个缩影。这些单位不是任意选出的,而是在过去统计调查的基础上合理地进行抽选的,在安排观察单位的分布时,要考虑务使其调查结果能够经得起多方面的考验。至于类型调查,他认为,即使人们知道各个类型所代表的个体在全部总体中所占的比例,也还不足以得出可以信赖的结果。因为总体中不仅包含各种平均的类型,也包含各种极端的情况。而代表性调查由于既不忽略“类型”,也不忽略与“类型”有差别的现象,故至少也能获得近似全面的调查结果。同时,他还进一步强调了代表性调查的价值。认为只要这些调查具有代表性,就好比以被观察的全部单位构成一幅“照片”,“这照片把总体的各部分按其真实的比例复制出来。”尽管如此,国际统计学会仍未能采纳凯尔的主张。但同意组成一个小组委员会专门讨论这一问题。
在1899年的国际统计学大会上,凯尔发表了《论代表性和类型方法》的报告,同时又在《统计文汇》发表《论代表性调查》的论文,叙述了挪威统计局进行代表性调查的情况,并重申了他在国际统计学会的主张。
1901年,国际统计学会第八届大会在匈牙利布达佩斯召开,在会上凯尔发表《再论代表性和类型方法》的论文,继续以挪威的经验宣讲代表性调查的意义。同时,由于德国的博尔基威茨(Ladislaus von Bortkiewiez)“论检查的方法”的发表,指出对代表性可以进行检验,从而为抽样误差的计算奠定了基础,也为凯尔的论据增加了说服力。所以不少学者和统计学家们的态度开始有所转变了。
1903年,在柏林召开的第九届国际统计学会上,凯尔的愿望终于实现了。研究代表性方法的小组委员会“建议采用代表性方法。但在公布结果时,将选择观察单位的条件加以详细说明”。国际统计学会并且建议,可在社会经济问题的研究中利用抽样法。
1910年,英国的鲍利(A,L.Bowley)在其所著《统计学基础教程》一书中,首次增加“抽样法”一章,介绍了抽样方法在商业、矿业和工业中的应用。
1923年,英国的R·A·费暄(Ronald Aylmer Fisher)首次提出“方差分析”,并认为用这种方法可以估计抽样误差。为保证误差估计值的有效性,还引入了“随机化”原则。从此,使抽样调查理论向前跨进了重要的一步。
1924年,国际统计学会常设理事会指定由英国的鲍利等六人组成研究委员会,进一步研究代表性方法在统计中的应用问题。1925年在罗马的第十六届大会上,该委员会提出报告,肯定了随机抽样的科学性,同时还发表了两篇研究论文:一篇是詹森所写《代表性方法的实践》,介绍了抽样法的应用;另一篇是鲍利的《抽样精确度的测定》,阐述了抽样法的原理。但在这次大会上,仍把“目的抽样(Purposive Sampling)”作为与随机抽样(Random Sampling)相并列的一种抽样方法。
从1895年到1925年,经过30年的反复讨论,代表性方法,即抽样方法,才得到人们的最终承认。在这一过程中,凯尔以其坚持不懈的努力,被称为抽样调查的先驱者是当之无愧的。而鲍利则从抽样理论上有力地支持了代表性调查的主张,从而对抽样调查的初步发展作出了贡献。同时,在此期间,英国统计学家戈塞特(W.S.Gosset)在从事实验研究的过程中,借助于从弄乱的卡片中抽样、计算、积累经验的频数分布,并运用正态误差理论,建立起“小样本理论”,亦即所谓的学生“t分布”。其标志是他于1908~1909年发表的《平均数的概差》、《相关系数的概差》和《论非随机样本平均数的分布》等三篇论文。
在抽样调查的理论得以逐步公认的同时,抽样的实践活动继续得以深入发展。
1896年,俄国的毕舍霍诺夫首次采用机械抽样从事家计调查。1911年,美国的麦瑟(Meicer)和霍尔(Hall)在田间试验中,通过抽取大量小地块的办法来减少实验误差,他们的报告引起各国的注意,从而导致多种机械抽样方法的诞生。1919年,美国伊里诺州卫生保险委员会将抽样法用于调查研究芝加哥工人家庭的生计状况。1920年,丹麦统计部门利用典型抽样,调查全国人口及财富分配情况,其结果很圆满。1924年,美国的休哈特(Walter A.Shewhat)用统计抽样法创立了一种事先可以预防的工业产品质量控制图,从而为工业品质量管理学科奠定了基础。早在1917年,美国接受休哈特的建议,用抽样法解决了大量军需品的规格要求的确定问题。等等。
3、1925年以后。抽样调查进入全面发展阶段、逐步走向成熟。
实践方面,1929年,前苏联在对集体农庄庄员的负债和贷款情况调查时,采用了整群抽样方法。1929~1936年间,中国调查土地利用情况,由美国的巴克主持,采用了多阶抽样方法。1935~1936年,美国举办了当时世界上规模最大的抽样调查,即“消费品购买量调查”,这次调查采用了多种抽样方法,如机械抽样、再次抽样、分层抽样、定额抽样等。1937年,印度统计学院在抽样调查中采用所谓“探测式”抽样法,即从小到大逐渐扩大调查规模,直到最后包括整个区域。1937年美国的失业情况调查,采用了比估计和区间估计法,1938年的失业调查采用了多阶段抽样,1942年各阶段进一步采用非等概率抽样,并提出控制非抽样误差。1940年,美国在人口调查中,首次采用比较复杂的抽样方案。
理论方面,1925年费暄的《研究人员用统计方法》一书的发表,标志着由戈塞特(W.S.Gosset)开始的“小样本理论”(又叫“学生分布”)最后得以完成。从而使统计学由“描述”向“推断”发展。小样本的思想是:应该从小处着手,只要精心设计小样本,用实验与推断的方法便可得到精确的结论。费暄从理论上证明了小样本的分布。他还提出了t检验,编制了“‘学生’t分布概率表”,拓宽了t分布的应用,同时,由于费暄的努力,使1900年英国的皮尔逊(Karl Pearson)提出的“卡方检验法”也能适用于小样本。1938年,费暄又同耶茨(F.Yates)合编“F分布显著性水平表”,为t分布和F分布的研究和应用提供了便利。
1927年,蒂皮特(L.H.C.Tippet)按费暄的随机化原则制作发表了《随机数字表》,使随机抽样便于进行。
1927~1929年英国生物统计学家克拉汉(E.F.Claphan)与威沙特(John Wishart)合作,连续发表《利用抽样方法估计各类产量》和《抽样技术的研究》等论文,介绍儒萨姆斯特农业试验场的经验,主要是运用方差分析方法计算各种类型的抽样单位所具有的抽样误差。
接着,卡弗(Carver)于1930年把组合分析理论应用到抽样误差的估计上来,促进了抽样理论的发展。他认为,借助于这一新理论可将任何抽样方式或设计的误差估计值计算出来。
1934年,内曼(J.Neyman)发表“论代表性方法的两个不同方面”的论文,从理论上分析批判了目的抽样法。他指出,我们不应该相信目的抽样,因为目的抽样或代表性抽样实质上是一种分层抽样,但常会导致入选单位在各层间极不均匀的分布,从而引起较大的偏差,他认为,应用概率抽样方法,利用已知的总体信息,采用科学的分层等技巧,可以大大提高抽样精度。内曼的经典论文,使目的抽样的缺点暴露无遗,促使统计学家们从目的抽样的迷雾中转向概率抽样。同时,他还对分层随机抽样进行了改进,提出样本最优分配原理,从而为分层抽样和整群抽样奠定了基础。
1935年,费暄的《实验设计》一书出版,提出了著名的实验设计原理,以及他的方差分析技术与卡弗提出的组合分析技术的结合,使抽样理论的总的轮廓基本确定。
1940~1950年间,内曼又提出“区间估计理论”亦称“置信区间估计理论”,为抽样推断的发展做出了重要贡献。
在抽样调查的实践和理论两方面都有建树的人物之中,印度统计学家马哈拉诺比斯(P.C.Mahalanobis)的贡献是值得重视的。早在20世纪30年代他就认识到:在统计调查中同时考虑到抽样误差和非抽样误差是必要的。从1935年起,他就应用了许多现在已普遍使用的方法,如单纯随机抽样、系统抽样、分层抽样、集体抽样、两阶抽样、多阶抽样等。1944年,他提出一项缜密的关于区域或网格抽样方法的理论,并进一步介绍“费用函数”、“方差函数”的概念,用以根据不同情况进行抽样观察时作最合理、最经济的设计。此外,还提出探测式的抽样方法。利用“交叉子样本的抽样方法”可使在抽样调查中计算抽样方差比较容易,这也是他的主要贡献之一。
总之,随着田间实验和大规模的社会经济调查的蓬勃发展,20世纪40年代以后关于抽样调查方法的论著很多,主要有:科克伦(W.G.Cochran)的《抽样技术》(1953年),汉森(M.G.Hanson)、赫维茨(W.N.Hurwitz)、马多(W.G.Madow)合著的《抽样调查的原理和方法》(1960年),戴明(W.E.Deming)著《抽样原理》(1955年),基什(L.Kish)著《抽样调查》(1965年)等。
需指出的是,联合国统计局在设计抽样方法和推广抽样调查方面作出了巨大的努力和贡献。1947年,联合国专门设立“统计委员会统计抽样分会”,由马哈拉诺比斯任主席,推动各国开展抽样调查。1950年3月,联合国统计局发行了《当前各国抽样调查要况》,介绍了印度抽样调查的六个实例,以及1952~1953年印度所进行的45次抽样调查的经验。1960年出版《统计抽样方法简要手册》第一卷《抽样调查理论基础》,向世界各国政府推荐了行之有效的22种社会经济的抽样方法。1972年,在总结各国经验的基础上,修订了《抽样调查理论基础》一书,推荐的抽样方法由22种增加到32种,并出版《统计抽样方法简要手册》第二卷《抽样设计的计算机程序》。进入20世纪80年代,联合国统计局又开始在世界各地成立统计研修所,培养大批统计人才,促进联合国抽样方法的实施,协助发展中国家采用多主题抽样方法等,都取得了显著的成就。
二、我国的抽样调查史从历史发展过程看,抽样调查在国外被广泛应用于社会问题、经济问题、民意测验以及自然科学等各种领域,已成为搜集统计资料的最主要的方法之一。
1949年以前,抽样调查在我国的应用次数很少,有关抽样理论与方法的研究也不多见,介绍抽样知识的著作则更少。抗战期间,清华大学陈达教授主持的国情普查研究所曾在云南环湖户籍示范区进行人口普查,具体工作由戴世光负责,普查后又用抽样方法抽查部分人口以核对其准确性,这是中国首次在自己的学者主持下按现代抽样方式进行的调查,是一次有益的尝试。
1949年以后,为适应大规模经济建设和计划管理的需要,新中国于1952年8月成立了国家统计局,直属于国务院,组织管理有关的统计事务。从此,我国的统计事业开始进入一个新的历史发展时期,也为大规模应用抽样调查提供了可能。
考察我国抽样调查的应用可从思想认识和实践两个方面进行。
(一)思想认识方面。
早在1955年2月召开的第四届全国统计工作会议上,薛暮桥同志谈到调查统计方法的改进问题时指出:要善于利用重点调查和抽样方法,对于分散的个体农业、个体手工业和小商小贩等这些对象,除某些指标可以普查外,一般都可以采用抽样调查的方法,或把普查和抽样调查结合进行。后又在1956年2月的第五届全国统计工作会议上,他进一步强调指出,科学的估算是统计工作的重要组成部分,统计并不拒绝估算。相反只有善于运用科学的估算方法,才能及时掌握大量的、复杂的、正在变化着的现象。从统计方法讲,全面调查、机械汇总是最简单的方法,抽样调查是从部分推算全体,是比较复杂的方法,我们已经开始学,但还没有学会。这次会议同时决定,系统地总结和推广统计工作的先进经验,包括抽样调查的经验等。
1957年6月,《统计工作》杂志发表社论《积极地在全国范围内开展抽样调查,广泛收集统计资料》。社论指出:为反映我国这种复杂的经济发展过程及其变化情况,我们就不能完全依靠全面的定期统计报表,如果这样做,势必劳民伤财,不能以少量的人力和财力而收到更大的效果,只有组织科学的抽样调查,才能事半功倍。同期,印度的马哈拉诺比斯教授作为印度政府统计顾问、联合国统计委员会统计抽样分会主席被邀请访问中国,举行了多场关于抽样调查的学术报告,并介绍了印度的抽样调查经验。后来,国家统计局编印出版了《印度马哈拉诺比斯教授访华报告集》,以推广抽样调查的应用。
1957年9月,薛暮桥在第六届全国统计工作会议上又强调,要通过各种科学的调查统计方法来收集和提供各方面的统计资料。谈到调查方法时,他认为:抽样调查也是统计观察中的一项重要武器。抽样调查是非全面调查中最完善、最有科学根据的方法,其目的在于根据调查总体的某一部分来推断整个总体。抽样调查的关键在于如何选择样本,如何保证样本的代表性。抽样调查不仅适用于农产品收获量调查和家庭收支情况调查,也可以用于其它各种调查。我们要学习数理统计有关抽样调查的基本知识,学习其它国家抽样调查的理论和经验。
1960年前后,许宝騄在北京大学主持了一个有关抽样调查的研讨班。根据其讲义整理出版的《抽样论》至今仍在我国统计界有很大影响。
1963年3月国家《统计工作试行条例》颁布,关于统计方法,《条例》规定:“统计部门要根据不同情况和需要,灵活地运用各种统计调查方法,包括全面调查、重点调查、抽样调查、典型调查等等。国民经济的基本情况应当通过统计报表进行全面调查,不必要或不能进行全面调查的项目可充分运用典型调查、抽样调查等方法。农业统计要将依靠农村人民公社全面地逐级报和调查队在农村中进行的抽样调查、典型调查结合起来。”
后来,抽样调查因被视为“以偏概全”而一度遭否定,受到批判,直到“文革”结束。
1980年12月,薛暮桥在全国统计局长会议上讲到:“我们必须以全面统计报表为主,把抽样调查作为我们统计报表的补充,只有典型调查、抽样调查是不行的,只有全面统计没有抽样调查也不行。”
1981年9月,国务院在批转国家统计局《关于加强和改革统计工作的报告》的通知中,要求统计部门“认真改进工作,完善统计标准,在搞好全面报表的同时,大力开展抽样调查和典型调查,努力提高数字的准确性,搞好综合平衡统计,加强经济分析和统计监督,使统计工作更好地为社会主义现代化建设服务。”随后,在统计工作中开始采取抽样调查和典型调查的方法,对全面统计数字进行验证,如主要农产品产量统计,实行全面报表与抽样调查相结合的方法,有的以抽样调查数字为基础核定数字,有的以抽样调查的数字为依据,去修订全面统计的数字。
1983年11月,在第三次全国统计科学讨论会上,与会者就抽样调查进行了广泛的讨论。关于标志排队等距抽样的方法,一般认为是一种便于组织推广、经济有效、适用我国国情的方法,但也有人认为这种方法不够科学,难以保证抽样的随机性。有些同志对农村抽样调查提出改进意见,如应有目的地搜集和利用已知信息,有意识地放弃简单随机抽样,运用与所研究现象高度相关的标志进行分析,以缩小抽样误差,节约调查费用;应改变目前抽样调查资料大多是单项指标,且不分地区、县、市的情况,使其能同时完成多项指标,同时满足各地区、县、市的需要等等。
1986年,由王一夫同志主编的《新中国统计史稿》出版,书中在总结建国以来统计工作的经验时,对于抽样调查作了较为全面的分析评价。认为:统计抽样调查方法是现代应用数学的一项科学成果在统计上的应用。这种方法具有许多特点,因此有着广阔的应用天地。一是产品质量破坏性检验;二是不宜或不应作全面调查现象的调查;三是全面调查后的抽样汇总;四是对全面调查原始数据的准确性进行验证。正因为如此,在新中国统计史上,抽样调查虽曾多次被否定,但最终还是不得不加以肯定,抽样调查的应用范围还应该进一步扩大。但是,他也认为抽样调查在原则上不能代替全民和集体单位现行的全面统计报表制度。
此后,随着经济体制改革的不断深化,尤其是社会主义市场经济体制的逐步确立,统计调查方法体系也在不断进行改革。1994年2月,全国统计工作会议深入研究了统计调查体制的改革问题。国家统计局张塞局长在讲话中指出:“从今年开始,政府统计系统将改变过去的全面调查为主的方法,而采用抽样调查和全面调查相结合的方法”。随后,又经国务院批准,确定了我国统计调查方法体系改革的目标模式,即:建立以必要的周期性普查为基础,以经常性的抽样调查为主体,同时辅之以重点调查、科学推算等多种方法综合运用的统计调查方法体系。在1996年5月15日公布的修订后的《中华人民共和国统计法》中又以法律的形式对此作了规定。至此,抽样调查在我国的应用才得以最终确立。
(二)实践运用方面。
1955年,国家为了研究农民走集体化道路的优越性,开展了农业生产合作社收益分配情况的典型调查和抽样调查。
1956年1月,国家统计局颁发了“全国职工家计调查方案”,开始建立了全国统一的、经常性的职工家计调查工作。1956年的调查方案规定,调查在27个大中城市进行,调查对象是10个工业部门的国营、公私合营企业的工人、工程技术人员、职员家庭,全国共抽选6000户。调查采用机械抽样法,先由国家统计局抽选调查企业,并将中选企业名单和调查户数通知各城市统计部门,然后由各城市统计部门在中选调查企业抽选调查职工,被选中的职工其家庭即为经常调查户,逐日记载家庭现金收支帐。1957年起,国家统计局改变了只考虑全国代表性的做法,要求全国的代表性建立在各地代表性的基础上。为此,调查城市扩大到32个,调查部门拓展到工业、商业、文教、机关四个部门,调查户数增至7000户。
1955年1月,国家统计局颁发了1954年农民家计调查方案和进行农民家计调查工作的决定,要求各地进行一次性的1954年度农民家计调查工作。并确定采取抽样方法在全国选择1.5万至2万户做为调查对象。调查户的抽选首先采用机械抽样法在省内选调查乡,然后在调查乡内再划分合作社社员户和非合作社社员户,按类型比例与机械抽样相结合的方法抽选调查户。1956年部分地区在一次性农户家计调查的基础上,开始建立经常性登记调查,1957年起在全国范围内建立了经常性的农民家计调查。
1962年初,周恩来总理指示:农产量调查也要搞抽查。并要求国家统计局试办全国性从上到下的农产量抽查工作。按照这一指示,经国务院批准,1962年末到1963年初,全国农产量调查总队和各省、区分队纷纷成立,并于1963年开展了农作物产量抽样调查试点工作。试点是在全国150个县、1500个生产大队、4万个地块进行的,共调查了50万个样本点,在此基础上,1964年按全国统一的《农产量抽样调查方案》又对全国各省、区的主要农作物的播种面积、主要农作物的产量进行了选点抽样调查,并以抽样调查获取的资料推算出了全国主要农作物的产量数字,由于数字比较准确、及时,受到中央领导的重视。后来,因种种原因,全国农产量调查队又于1967年被撤销。
“文革”期间,抽样调查被否定,抽样调查工作被迫中断,直到1979年以后才得到恢复,抽样调查开始了新的发展时期。
1979年,国家统计局制定并颁发试行了农村经济调查方案。要求各地采用分层排队、等距抽样的方法抽选固定的、有代表性的调查点。规定各省、市、区按20%到25%的比例抽选调查县,每个调查县抽选三个到四个公社,每个调查公社选一个接近该公社平均收入水平的基本核算单位作为调查队,每个调查队抽选10户社员家庭作为调查户。到1983年,已形成了农经调查网,共抽选了600多个县、31000多农户进行实际调查。
1980年4月,经国务院批准恢复职工家庭生活抽样调查。1985年起进一步扩大为城市住户调查。
1981年9月,经国务院批准组建了农村抽样调查队和城市抽样调查队。
1982年4月起建立了城市物价抽样调查,用直接抽样调查的资料来编制物价指数。
1982年5月,经国务院批准,恢复农产量抽样调查。
1983年起,形成了每年一次的全国人口变动抽样调查制度。1987年以后又进一步过渡为每年一次的全国1%人口抽样调查。
1994年,经国务院批准又组建了企业调查队,对全国二、三次产业中各种经济类型、各种经济规模的企业进行抽样调查。
经过多年的艰苦努力,我国政府统计系统抽样调查工作的开展终于有了统一的组织、统一的编制、统一的专项经费、统一的抽样方案和统一的调查网点,走上了专业化、正规化的轨道。此外,抽样调查方法在工业、商业、交通运输等生产管理中也得到了广泛应用。另据1998年的一项调查,目前国内专业从事市场调查业务的机构有一百多家,其所用方法主要是抽样法。
但总体来看,目前抽样调查在我国的应用仍呈“四多四少”,即:宏观领域多,微观领域少;政府统计中多,企业统计中少;经济现象研究中多,社会现象研究中少;管理过程中多,科研过程中少等等。因此,抽样调查在我国的普及应用还有大量工作要做。
第三节 抽样调查的分类与设计抽样调查中,如何根据所研究现象总体的不同特征,合理地设计抽样方案,有效地抽取样本?为此,需要进一步研究抽样调查的分类与设计。
一、抽样调查的分类抽样调查可以按不同的标准进行分类。常见的分类有以下几种:
按抽样调查的目的不同,可将其分成叙述型抽样调查和分析型抽样调查。
叙述型抽样调查的目的是获得有关总体大组信息的简单数字资料等;而分析型抽样调查则要对总体的不同分组间作出比较,以便发现各组间是否存在差异,或者进一步证实之所以发生差异的原因等。
按抽选样本的具体原则不同,可以分为概率抽样和非概率抽样。
概率抽样也称随机抽样,即在抽选样本的过程中,完全按随机原则进行,使抽样过程不受主观干扰,每个总体单位被选中与否与其概率大小有关。因此,概率抽样是一种科学的抽样方法。使用概率抽样所得到的样本叫做随机样本。
在概率抽样中,如果总体中每个单元被抽中的概率都相等,则为等概率抽样;如果每个单元被抽中的概率不完全相等,则为不等概率抽样。例如:在一个盒中放入红、黄、蓝色球各一个,随机从中取一个,则各色球被取到的概率均为三分之一,这就是等概率抽样;而如果在盒中放入红、黄色求各一个、蓝色球两个,从中随机抽一个,则抽到红、黄色球的概率各为四分之一,而抽到蓝色球的概率为四分之二,这就是不等概率。
概率抽样按其组织方式不同,可分成:简单随机抽样;分层抽样;整群抽样;等距抽样;多阶抽样;二重抽样等不同类型。本书从第三章开始将对各种常见的抽样组织方式分别加以详细的介绍。
有些时候,概率抽样在实际中难以实现,如从海水中抽样,通常只限于一部分;从运煤货车中抽样,一般是从顶部进行等。此时,只能采用非概率抽样。 非概率抽样也就是非随机抽样,在抽样过程中不完全按随机原则进行,带有一定的主观随意性,所以无法估计抽样误差,也不能控制抽样误差。用非概率抽样取得的样本叫做非随机样本。
非概率抽样主要包括:①随意抽样:按抽样者的方便,随意地抽取样本。②定额抽样:依一定的标志将总体分成若干层,并按各层在总体中所占的比例分配样本总量在各层的数额,以抽到各层所需定额为止。定额抽样是美国的盖洛普(G.H.Gallup)创立的,它是非概率抽样中比较科学的一种抽样方式。③判断抽样:抽样者依照自己的经验抽取具有平均水平的典型单位作为样本,因此也叫做典型抽样。④滚雪球抽样:先从总体中找出少数个体,通过这些个体了解其它个体,再由已了解到的个体去发现更多的个体,以此类推,了解到的个体越来越多,最后接近于总体。
二、抽样调查方案的设计抽样调查是一项理论性和方法性都很强的统计工作,因此必须精心设计,认真组织,以确保调查工作的质量和时效性。
抽样调查方案的设计就是在实际进行抽样调查之前,对整个抽样调查工作过程所作出的通盘考虑和合理安排。在抽样调查方案的设计中,一般应遵循以下两条基本原则:
其一,保证抽样的随机性原则。随机原则是抽样调查所必须坚持的根本原则,是抽样推断的基本前提,按随机原则取样也是抽样调查有别于其它非全面调查的最根本标志,是抽样调查科学性的基本保证。但在实践中,如何保证实现抽样的随机性,并非容易之事,为此要注意解决好几个问题:首先,要排除人为的主观因素的干扰,使得总体中的每个单元都有一定的入选机会。当然,这需要做出很多的努力,并有较为严格的控制措施,因为,抽样中人为因素的干扰有时是很隐蔽的。其次,要确定合适的抽样框。抽样框是赖以进行抽样的基础。一个好的抽样框应该能够覆盖总体中的所有单元,并且没有重复。抽样框不完备常常会导致产生系统性偏差。最后,要选择合适的抽样实施方法及抽样的组织形式,并为其执行提供一切必要的条件。
其二,保证实现最大的抽样效果原则。即在一定的调查费用条件下使抽样误差最小(等价于使估计精度最高),或在给定的精度要求下使调查费用最省。通常,提高精度的要求和节省费用的要求往往是矛盾的,因为提高精度意味着降低抽样误差,而抽样误差愈小,则样本量就要扩大,费用相应增加。因此,在实际的抽样调查中,抽样误差最小的方案,常常可能并不是最好的方案,许多情况是允许一定的误差范围,就能够满足分析的需要,误差过小会使费用超过限制;另一方面,费用最小的方案也不一定就是最优方案,因为过少的调查费用会限制调查的单元数目,进而使抽样误差超过允许的最大范围,并最终使抽样调查本身失去意义。所以,设计抽样调查方案时,要综合考虑精度和费用两方面的限制条件,在多种抽样组织形式间精心选择,或将多种抽样组织形式结合起来加以应用。
此外,一个好的抽样调查方案还必须服从目的性和实践性的要求。前者强调无论是抽样还是估计推断的设计,都要紧紧围绕研究的目的;后者是指所设计的方案要能够在实践中得到切实的执行。
由于所研究现象总体的具体特点和调查的问题不同,抽样调查方案所应包括的内容也不尽相同。但在一般情况下,应具有以下几个部分:
第一,有关抽样调查要求方面的内容设计。一是要明确调查目的,即通过抽样调查要解决什么问题,并且要将调查目的进一步具体化为所要进行推断的各种变量。这样,才能恰当地确定调查方案的其他内容。二是要明确调查对象和调查单位,即确定什么是总体,什么是总体单位,也就是在什么范围内进行抽样调查,以什么为基本单位进行调查以取得数据资料。这是搞好抽样调查的基础。三是要明确规定对于主要目标量的抽样推断精度要求或者误差控制要求。它既是对抽样调查工作的基本要求,同时也是衡量抽样调查工作质量好坏的标准。
第二,有关抽样推断工作方面的内容设计。具体包括:①确定抽样框。在抽样调查中,抽样框是否合适,对于所抽样本的代表性影响很大。因此,抽样前要尽可能多地收集和利用与调查变量相关的各种资料,编制出符合实际情况的抽样框。②确定抽样的组织方式及方法。不同的抽样方法、不同的抽样方式有着各自不同的特点和适应性,因此,要根据所要研究现象的基本特点合理地加以选择,以求获得最好的抽样效果。③确定样本容量的大小,这是抽样设计的主要内容之一。样本容量的确定要综合考虑两方面的因素:一是调查费用的多少,它通常限制了所能调查的最多单元数目;二是精度要求的高低,它通常是规定了所必须调查的最少单元数目。④确定数据处理方式。包括数据整理方法、整理技术、资料审核检验方法等。⑤确定推断方式。在取得了样本资料后,运用什么样的方式来推断总体资料,如何计算并控制误差等就成了关键问题,应依照调查研究的具体目的及所选用抽样方式的特点,结合现象总体的情况加以选择。
第三,有关调查内容方面的设计。调查内容就是所要调查的项目或问题,它是抽样调查方案的核心所在。确定选择哪些项目进行调查,对于能否圆满地实现调查目的是至关重要的,具体内容在后面有关章节做系统介绍。
第四,有关组织工作方面的内容设计。包括:①调查人员、组织领导机构的确定以及调查费用的筹措等。②调查人员的培训。要使调查人员在明确调查目的、熟悉调查项目的基础上,根据分工去掌握有关的抽样技术、现场调查方法、编码、审核、数据录入汇总等基本技能。③确定搜集资料的具体方法和调查问卷的回收方法等。④制定控制回答质量,减少回答误差的方案。
三、抽样调查方案的检查抽样方案设计好之后,便可以组织实施,指导抽样调查的实践。但在实际中,由于情况发生变化,据以设计抽样方案的历史资料或许已经过时,或者因当初考虑不周,在设计时发生失误又未被发现等原因,都可能造成抽样方案的缺陷,从而影响调查的结果。因此,在设计好的方案正式实施之前都必须进行检查,用试点的调查数据对方案进行验证,然后才能正式实施调查。抽样调查方案的检查主要包括两个方面:
一是准确性检查。即以方案所要求的允许误差范围为标准,用已掌握的资料(试点资料)来检查其在一定概率保证下,实际的极限误差是否超过方案所允许的误差范围。如果实际的误差范围没有超过规定,则认为方案的设计符合准确性的要求,可以实施;否则,就说明设计方案的准确性不符合要求,这时就应对所设计的抽样调查方案进行认真的分析和检查,如果方案中不存在技术性的错误,就要考虑增加样本量,对方案做必要的修订。
二是代表性检查。即以方案中的样本指标与过去已掌握的总体同一指标进行对比,视其比率是否超过规定的要求来判断方案是否满足代表性要求。例如,在我国的农产量抽样调查和居民家计调查中分别规定,农产量的比率不超过±2%,居民收入的比率不超过±3%,即:
98%≤样本平均单产÷总体平均单产≤102%
97%≤样本平均收入÷总体平均收入≤103%
如果比率超过规定范围,则要对方案进行多方面的检查、修正,如果修正后的代表性仍不符合要求,就要通过增加样本量来获得满意的代表性。
四、抽样调查的基本步骤按照抽样调查的工作实际,结合抽样调查方案的内容,抽样调查一般可概括为以下八个基本步骤,依次为(1)明确调查目的要求,安排调查计划,进行经费预算;(2) 编制抽样框;(3) 设计调查问卷; (4)设计抽样方案,确定抽样的方式方法和样本容量,随机抽取样本;(5)培训调查员,组织开展调查,搜集所需资料;(6)检查调查结果,进行数据处理;(7)分析调查结果,撰写调查报告;(8)积累调查信息,总结调查经验,研究探讨新的调查方式方法或开拓现有调查方式方法应用的新领域。
第四节 抽样调查的基础理论一、大数定律大数定律又称平均数定律或大数法则,它所描述的是当样本充分大时,样本统计量的极限行为。即是说在充分大规模的抽样下抽样平均数和总体平均数间的离差可以为任意小这一可能性的概率可以尽量接近于1,即接近完全的精确性。大数定律可以用契比雪夫定理加以证明。若从逻辑意义、哲学意义来阐明的话,它是大量现象和过程的规律性,而且一般只有在充分大量观察时,才会显露出现象和过程在某种具体历史环境中具有代表性的主要特征。
大数定律的具体表现:
(1)只有掌握足够多的单位数目或足够多的情况时,大量现象的规律性及大量过程的倾向性才能很好地显示出来。也就是说,只有在掌握足够多单位数目或足够多的情况时,对这些大量现象和过程,才能很好地进行研究。
(2)只有在平均数形式上,这些规律性与倾向性才能被表现出来。正因为如此,大数定律又称为平均数定律。
(3)研究大量现象和过程时,如果抽取更多的单位,那么从这些单位的标志值所计算出来的平均数越能够正确地表现出这种现象或过程的规律性。
(4)如果我们研究足够多的单位数目或足够多的情况,以平均数为中心,各个单位或情况向正反两方向的离差往往互相均衡化起来,或者互相抵消。对大量现象或过程来说,这些离差当然不是由于本质的差异所引起,而是由于偶然的状态所发生的。
大数定律的理论和方法,对科学地安排统计试验和制定抽样调查方案是十分重要的。它使抽样法的应用获得充分的数学依据,同时为抽样结果的精确推断,提供了充分的可能性。所以说,大数定律是统计抽样调查的数理基础,也给统计中的大量观察法提供了理论和数学方面的根据。
因此它要求在运用抽样调查时,必须注意:(1)遵循随机原则,只有在随机原则下进行抽样,样本中各单位才能均匀分布在总体中,使样本具有代表性。这样,样本指标才可以用来对总体指标作出估计和推断。(2)抽样必须注意观察现象的大量性。在同一总体中进行随机抽样,每个被抽中的样本单位的标志值或偏大或偏小,纯属偶然,并不代表总体的数量特征。而通过大量观察,根据大数定律的原理,消除偶然因素的影响,用抽出的单位组成样本综合的结果,才能把总体的数量特征接近准确地反映出来。
二、中心极限定理中心极限定理的基本内涵是:一组独立同分布的变量的和或平均值当n充分大时近似地具有正态分布。它分别由德莫佛尔-拉普拉斯和林德伯格-勒维所证明。以下仅对德莫佛尔-拉普拉斯中心极限定理做一简单介绍。
设随机变量Y1,Y2,…,Yn相互独立,服从同一分布,且有有限的数学期望值μ和方差σ2,又使i=(Y1+Y2+…+Yn)/n,则随机变量的分布函数Fn(y)对于任意y,就有,
通过这个定理,可以知道不论总体服从什么分布,当n很大时,样本的平均数近似于具有参数μ和的正态分布(即极限正态分布)。这个定理是大样本统计推断的理论基础。中心极限定理,并非证明正态分布的存在,而是用来说明近似地遵从正态分布的概率变量的现象,说明样本平均值的分布接近于正态分布。中心极限定理表明:样本平均值分布的平均值等于总体平均值,即E()=μ;样本分布的标准差为。中心极限定理说明,用样本平均值产生的概率来代替从总体中直接抽出来样本计算的抽取样本的概率,为抽样推断奠定了科学的理论基础。
三、误差分布理论抽样调查的目的是把对总体中有限的部分单位的调查结果作为普遍适用于总体的估计和推断。但是,样本是随机抽出的,不同的随机样本就会得出不同的估计量。在同一总体中往往可以抽出多个样本,可以得到同样多的估计量,基于总体指标都存在或大或小或正或负的偏误,因此,用样本指标来推断总体指标,就存在抽样误差。承认这一点,不是证明抽样调查不准确,不能用来推断总体,而相反,正是利用可能发生的抽样误差,加上样本指标,来推断在多大的概率度下总体指标在一个怎样的范围之内。
18世纪末,法国数学家拉普拉斯与德国数学家高斯,研究误差分布,建立了误差分布理论。
在一个既定的总体中,抽选一定含量的样本,可能抽选到的样本有多个,因此可以取得多个可能的样本指标(主要指平均数和成数)。如果将所有可能的样本指标组成频率分布,可发现样本指标愈接近总体指标的可能样本数愈多,即频率愈大;偏离愈远的可能样本个数愈少,即频率愈小,形成两端小中间大的可能值的分布,同时也就是抽样误差的分布。按正态分布的基本条件,可能样本指标的分布从理论上说是遵循正态分布的。样本指标的分布,通常又叫抽样分布,数理统计已证明,可能样本指标是否严格遵循正态分布,由两个主要条件所决定;一是抽样总体的分布形态,二是抽样数目的大小。如果样本是抽自正态总体,无论抽样数目是大是小,可能样本指标都是遵循正态分布的;如果样本抽自非正态总体,只要抽样数目较大(n>30),可能样本指标也是接近或遵循正态分布的。
我们认识抽样误差及其分布的目的,就是希望所设计的抽样方案所取得的绝大部分的估计量能较好地集中在总体指标的附近,通过计算抽样误差的界限,使抽样误差处于被控制的状态。
四、概率理论的广泛应用从上面介绍中可以看到,由于发展和论证了大数定律,中心极限定理和误差分布理论等,使抽样方法有了科学的依据。同时,我们也看到抽样调查中也广泛应用了概率理论。
概率也称或然率,就是指某一事件可能发生的机会,也就是某个事件可能发生的次数与所有可能发生事件总次数之比。等概率就是机会均等,不等概率就是机会不均等。概率通常有古典的和统计的两个意义:
古典意义:就是事物有有限个均等的可能结果。如掷一粒骰子,有六个有限的均等可能的结果,如预定可能结果为任意一个点数,则实现任一点数的机会均为1/6。古典概率由于受“结果有限”和“均等可能”的限制,在实践中有很大的局限性。
统计意义:就是用统计的频率作概率的近似度量,如在某产品总体中,合格品m占被抽检品n的频率为m/n,于是就可用频率m/n作为任意抽检一件产品结果为合格品的概率的近似值,是为统计意义的概率。
由此可见:数学主要从纯理论的观点进行研究,统计学是从应用的观点进行研究,概率论作为数学的一个分支而引进统计学中,是统计学发展史上的重要事件。
第二章 抽样调查基本原理第一节 有关基本概念一、总体总体也叫母体,它是所要认识对象的全体,是具有同一性质的许多单位的集合。组成总体的每个个体叫做单位。
总体可以是有限的,也可以是无限的。如果总体中所包含个体的数目为有限多个,则该总体就是有限总体,反之是无限总体。总体也可区分成计量总体(由测量值组成的)和计数总体(由品质特征组成的)。
在抽样以前,必须根据实际情况把总体划分成若干个互不重叠并且能组合成总体的部分,每个部分称为一个抽样单元,不论总体是否有限,总体中的抽样单元数一定是有限的,而且是已知的,因此说抽样调查的总体总是有限的。抽样单元又有大小之分,一个大的抽样单元可以分成若干个小的抽样单元,最小的抽样单元就是每一个个体。如一项全国性的调查,如果把省作为一级单元,则可以把县作为二级单元,乡作为三级单元,村作为四级单元等等。又如在流动人口抽样中,可以以居委会作为抽样单元,而在家计调查中,则以户为抽样单元。
总体应具备同质性、大量性和差异性的特征。在抽样调查中,通常将反映总体数量特征的综合指标称为总体参数。常见的总体参数主要有:
1.总体总和Y:例如全国人口数。
Y=∑yi=y1+y2+…+yN
2.总体均值:例如职工平均工资。
=Y/N=∑yi /N
3.总体比率R:是总体中两个不同指标的总和或均值的比值。如总收入与总支出之比。
R=Y/X=/
4.总体比例P:是总体中具有某种特性的单元数目所占比重。如产品的合格率。
二、样本样本是由从总体中所抽选出来的若干个抽样单元组成的集合体。抽样前,样本是一个n维随机变量,属样本空间;抽样后,样本是一个n元数组,是样本空间的一个点。
样本是总体的缩影,是总体的代表。抽样的效果好不好,依赖于样本对总体是否有充分的代表性。样本的代表性愈强,用样本指标对总体全面特征的推断就愈精确,即推断的误差就愈小;反之,如果样本的代表性愈弱,推断的误差就愈大,推断结果就愈不可靠。
如何增强样本的代表性,使其能达到估计或推断的预期效果,就必须分析影响样本代表性的因素,以便加强控制。一般情况下,影响样本代表性的因素有以下几个方面:
(1)总体标志值分布的离散程度。若总体标志值的分布很集中,即平均离散程度(标准差)很小,从中任抽部分单元做样本,样本特征很近似于总体特征,样本的代表性就强;反之,如果标志值的分布很分散,即平均离散程度很大,从中抽取样本单元的随机波动也很大,必将影响样本的代表性。
(2)抽样单元数的多少(或称样本容量的大小)。抽样单元数的多少,影响样本对总体的代表性。一般说来,样本容量以大为好,但要根据实际情况,以掌握适度为宜,要在保证一定可靠程度的情况下,尽可能满足及时性和经济性的要求,取得好的效益。
(3)抽样方法。抽样方法一般分为放回抽样和不放回抽样。放回抽样也叫重置抽样,或重复抽样。它是在总体N个单元中随机抽取n个单元时,每次抽取一个单元进行记录后又放回原来的总体,参加下一个单元的抽取,即下一个单元仍然在原来的全部抽样单元中抽取,依此类推,直到抽足所需单元数为止,因而同一个抽样单元有被重复抽中的可能。不放回抽样也叫不重置抽样,或不重复抽样。它是在每次抽取一个新的单元之前,将已抽中的单元不再放回原来的总体,下一个单元的抽取在剩余的抽样单元中进行,依次类推,直到抽足所需单元数为止,因而每个抽样单元最多只能被抽中一次,不可能重复被抽中。
放回抽样与不放回抽样相比,不放回抽样的样本代表性优于放回抽样。因为放回抽样中,有些单位有被重复抽取的可能,从而使样本单元数在总体中的散布面缩小,样本的代表性减弱,故在实际工作中常采用不放回抽样。有鉴于此,在本书以后内容中,如没有特别的声明,则一般只涉及不放回抽样。理解了不放回抽样的方法及有关内容,也就容易理解和掌握放回抽样的方法。
以上三种影响因素中,第一个因素即离散程度的大小,是由事物内部和外部联系决定的,是客观性的因素,人们只能认识了解,不能调节控制。第二、三两因素是人们可以选择和控制的,为主观因素,只要掌握和控制了这两个因素,在一定程度上,人们也就能控制样本的代表性,以期达到抽样数目尽可能小,使估计和推断结论达到预定的精确程度和可靠程度的要求。另外,等概率抽样与不等概率抽样相比,以不等概率抽样的样本代表性较等概率抽样为好。
一般将反映样本数量特征的综合指标称之为统计量。统计量是n元样本的一个实值函数,是一个随机变量,统计量的一个具体取值即为统计值。主要的样本统计量有:
1.样本总和y:
y=∑yi=y1+y2+…+yn
2.样本均值:
=y/n=∑yi /n
3.样本比率r:
r=y/x=/
4.样本比例p:是样本中具有某种特性的单元数目所占比重。
三、必要样本容量和样本可能数目样本中包含的抽样单元个数称为样本容量,又称样本含量或样本大小(后面还要进一步讨论关于必要样本容量的问题)。总体中所含抽样单元个数称为总体容量,样本容量与总体容量之比为抽样比,用f表示,即f=n/N。
样本可能数目则是在容量为N的总体中抽取容量为n的样本时,所有可能被抽中的不同样本的个数。用A表示。
当N和n一定时,A的多少与抽样方法有关,其计算方法列表如下:
抽样方法
放回抽样
不放回抽样
考虑顺序
不考虑顺序
正确理解样本可能数目的概念,对于准确理解和把握抽样误差的计算、样本统计量的抽样分布、抽样估计的优良标准等一系列理论和方法问题都有十分重要的帮助。
四、抽样框抽样框是在抽样前,为便于抽样工作的组织,在可能条件下编制的用来进行抽样的、记录或表明总体所有抽样单元的框架,在抽样框中,每个抽样单元都被编上号码。
抽样框可以是一份清单(名单抽样框)、一张地图(区域抽样框)。在与时间有关的调查中,也可以按时间先后顺序排列总体中的单元,这样得到的抽样框称为时序抽样框。抽样框是设计实施一个抽样方案所必备的基础资料,一旦某个单元被抽中,也需依抽样框在实际中找到这个单元,从而实施调查。
编制抽样框是一个实际的、重要的问题,因此必须要认真对待。一般而言,如果总体中的每个元素在清单上分别只出现一次,且清单上又没有总体以外的其他元素出现,则该清单就是一个完备的抽样框。在完备的抽样框中,每个元素必须且只能同一个号码对应。但是,在实际中,完备的抽样框是很少见的,我们常常可能必须使用一些有严重缺陷的抽样框,而又必须发现这些缺陷并加以补救,在这一过程中,可以充分体现出抽样的艺术性。
常见的抽样框问题可以概括为四种基本类型:(1)缺失一些元素,即抽样框涵盖不完全;(2)多个元素对应一个号码;(3)空白(一些号码没有与之对应的元素)或存在异类元素;(4)重复号码,即一个元素对应多个号码。
抽样框存在缺陷时,我们首先想到的是如何去避免上述问题:①如果已知由这此问题引起的误差比其他原因产生的误差小,并且纠正起来又花费太大的话,可以忽略不管,但在描述样本时,应对此加以说明;②重新定义总体以适应抽样框;③改正整个总体清单,也即找出全部缺失元素、分开每一个群、清除所有的空白和异类元素、删掉重复号码。当上述方法不能有效利用时,就应该采取其它一些补救措施来抵消抽样框中存在的缺陷。对此问题的进一步讨论将在第十一章进行。
第二节 样本统计量的抽样分布标准的统计问题为:总体未知,故需从总体中抽取一个较小的、花费不多的随机样本,然后构造样本统计量,并以其估计总体。问题是用样本指标估计总体指标的可靠程度如何?为此要研究样本统计量的抽样分布。在此之前,有必要先回顾一下有关正态分布的知识。
一、正态分布如果总体各个体的标志值以总体平均数为中心,形成钟型对称分布,其分布曲线向两侧扩展,逐渐向横轴逼近,无限延伸出去,但不接触横轴,则这种分布就叫做正态分布,或高斯分布、常态分布。服从正态分布的总体称为正态总体。
正态分布是由德国数学家高斯(Carl Friedrich Gauss 1777~1855)首先发现的,故此得名。
一个正态分布完全由总体的理论平均数和理论方差这两个参数所决定。其数学特征为:
如果一个随机变量X服从正态分布,则其分布的密度函数(分布曲线方程)为:
,( -<x<)
式中:μ和σ2分别为随机变量X的数学期望和方差,π≈3.1416,e为自然对数的底,e≈2.7183。
当μ=0,σ2=1时,称该分布为标准正态分布。标准正态分布的密度函数为
,( -<x<)
我们知道,全部可能事件发生的概率之和等于1。代表各个体事物分布的正态曲线内面积表明着全部可能的事件,因此,分布曲线下x轴以上的面积总保持为1,也即
因此,当σ不相同时,f(x)的形状也不相同,σ愈小,分布就愈集中在附近,σ愈大,分布就愈平坦。
利用正态曲线的数学性质,依平均数与标准差,可以计算出平均数与某一数值之间的面积,如图2.1中由a到b的面积为:
任何正态分布,它的样本落在任意区间(a,b)内的概率等于直线x=a,x=b,横坐标和曲线f(x)所夹的面积(可由正态分布概率积分表查得)。经计算,正态总体的样本落在:
(-σ,+σ)概率是68.27%;
(-2σ,+2σ)概率是95.45%;
(-3σ,+3σ)概率是99.73%;
(-1.96σ,+1.96σ)概率是95%;
正态分布的应用范围很广,是最常见、最重要的分布,居于基础的地位。在生产实践和科学研究中,凡是处于控制状态的数据和测定随机误差的分布,大多是近似地服从正态分布的。所以正态分布的理论对开展社会经济调查和科学研究具有十分重大的意义。
二、抽样分布如前所述,在容量为N的总体中,抽取容量为n的样本时,可能抽到的样本不止一个。对每一个可能的样本,都可获得统计量、p和s等的一个具体数值。可见,样本统计量是个随机变量。
我们把根据所有可能样本计算出来的某一统计量的数值分布,称为抽样分布。抽样分布理论是理解抽样调查基本原理的基础。常见的抽样分布有极限分布和精确分布两类。极限分布也叫做大样本分布,它只有正态分布一种形式;精确分布又叫做小样本分布,其前提是总体服从正态分布,它是正态分布的导出分布,包括有t分布、F分布和χ2分布等形式。
(一)样本统计量的极限分布样本统计量有很多,这里只考察关于样本均值和样本比例的抽样分布。
例2.1:现从正态分布总体Y~N(100,625)中抽取容量为n=5的所有可能样本,经计算得知样本平均数的分布为~N(100,125)。当n=20时,样本平均数的分布为~N(100,31.25)。
一般地,可以证明如果总体服从正态分布,且总体均值和方差均为已知,即Y~N(μ,σ2),则不论样本量大小如何,样本均值均围绕总体均值而服从正态分布,并且其抽样分布的方差等于总体方差的n分之一,即~N(μ,σ2/n)。
而对于非正态总体,若均值μ和σ2有限,则根据中心极限定理,当样本量n充分大时,样本均值仍然围绕着总体均值而近似地服从正态分布,即~N(μ,σ2/n)。
例2.2:总体N=5,Y={40,50,60,70,80},则其次数分布为:
Y
40 50 60 70 80
f
1 1 1 1 1
用图形表示则为:
(EY=μ=60,DY=σ2=200)
若取n=2,用放回抽样则可抽Nn=52=25个简单随机样本,其样本均值如下:
y2
y1
40 50 60 70 80
40
50
60
70
80
40 45 50 55 60
50 55 60 65
50 55 60 65 70
55 60 65 70 75
60 65 70 75 80
进一步整理后,即可得出关于样本均值的次数分布情况为:
40 45 50 55 60 65 70 75 80
f
1 2 3 4 5 4 3 2 1
用图形表示,则为:
(E=60,D=100,可见~N(60,100))
如果总体容量较大,则当样本容量逐步扩大时,样本平均数的分布趋于正态分布的趋势更加明显。
上面的结论在样本比例的抽样分布中同样成立。即对任意一个成数为p的二项分布总体,当n足够大(np>5,n(1-p)>5)时,则样本成数P趋于服从正态分布,其平均数为p,方差为。因此,标准随机变量趋于服从标准正态分布。
(二)样本统计量的精确分布
1、χ2分布设随机变量Yi~N(0,1)(i=1,2,…,n),且相互独立,则Y=∑Y2i服从自由度为n的χ2分布,记作Y~χ2(n)。
χ2分布的概率密度函数为
式中n是正整数,Γ(n/2)是Γ(伽马)函数
当y=n/2时的函数值。
χ2分布的主要性质有:①f(y)恒为正;②χ2分布呈右偏形态;③χ2分布随n的不断增大而逐渐趋于正态分布。
可以证明,χ2分布χ2(n)的数学期望和方差分别为
EY=n,DY=2n.
2、t分布若X~N(0,1),Y~χ2(n),且X与Y相互独立,则称随机变量
服从自由度为n的t分布,记作:T~t(n)。
由此也可以推论出关于t分布的如下定义方式:若X~N(μ,σ2),σ2未知,则
服从自由度为n-1的t分布,记作:T~t(n-1),其中:。
t分布t(n)的概率密度函数为
t分布具有如下性质:①t分布对称于纵轴,与N(0,1)相似;②在n<30(小样本)时,t分布的方差大于N(0,1)的方差;③在n≥30(大样本)时,t分布随n的增大而趋于N(0,1)。
可以证明,t分布t(n)的数学期望与方差分别为
ET=0,DT=n/(n-2).(n>2)
3、F分布若X~χ2(n1),Y~χ2(n2),且X与Y相互独立,则称随机变量
服从第一自由度为n1,第二自由度为n2的F分布,记作:F~F(n1,n2)。
如果X~F(n1,n2),则其概率密度函数为
F分布的主要性质有:①F分布呈右偏态;②f(x)恒为正;③在处取最大值(n1>2,f0<1);④随n1,n2的不断增大,F分布的右偏程度逐渐减弱,但不会趋向正态;⑤具有倒数性质,即若X~F(n1,n2),则1/X~F(n1,n2);⑥若t~t(n),则t2(n)~F(1,n)。
若X~F(n1,n2),则其数学期望和方差分别为
第三节 抽样误差一、抽样调查中的误差来源误差就是调查结果与现象的实际结果之间的偏差,它几乎在所有的统计调查中都或大或小的存在着。在抽样调查中,按照形成原因的不同,一般可将误差分成抽样误差和非抽样误差两大类。
抽样误差是用样本统计量推断总体参数时的误差,它属于一种代表性误差。抽样调查是用样本来估计总体,对任何一种抽样方案,可能的样本会有许多,而实际抽到的只是其中的一个样本,在概率抽样中,哪个样本会被抽到完全是随机的,抽到的样本不同,则对总体的估计就可能不同,这就是抽样误差产生的根本原因。因此,在抽样调查中抽样误差是不可避免的。但同非抽样误差不同的是,抽样误差可以计算,并且可以被控制在任意小的范围内。
抽样误差通常会随样本量的大小而增减。在某些情形下,抽样误差与样本量大小的平方根成反比关系,即在开始阶段抽样误差随样本量的增加而迅速减少,但在一定阶段后,这种趋势便趋于稳定。这表明,在经过一定阶段后,再努力减少抽样误差通常是不合算的。所以过了这个阶段只要稍微降低一点精度,就可以省下可观的费用。普查的目的不过是想使抽样误差降低为零,要是允许存在误差,当然就值得用抽样调查。
另外,影响抽样误差的因素还有:所研究现象总体变异程度的大小,一般而言,总体变异程度越大,则抽样误差可能越大;抽样的方式方法,如放回抽样的误差大于不放回抽样,各种不同的抽样组织方式也常会有不同的抽样误差。在实际工作中,样本量和抽样方式方法的影响是可以控制的,总体变异程度虽不可以控制,但却可通过设计一些复杂的抽样技术而将其影响加以控制。
非抽样误差不是由于抽样引起的。它又包括调查误差、无回答误差、抽样框误差以及登记性误差。它在各种统计调查中都可能会存在。调查误差是调查所得的观测值与被调查单元真值不一致所造成的误差。造成这类误差的原因可能是测量手段(或仪器)不完善,也可能是被调查者记忆不准确,或对所调查内容缺乏全面了解或不愿意如实回答等。无回答误差是因样本中的一部分单元或一部分项目的资料没有调查到,致使实际样本较设计样本缩小而引起的误差。其产生原因有被调查者拒绝回答问题,或者正好缺乏所需要的信息,或者找不到被抽中的单元等。抽样框误差是由于抽样框不完善所造所的误差。抽样框不完善具体表现为存在着抽样单元的重复或遗漏,这会破坏抽样的随机性。登记性误差是在观测数据的填写、计算机数据录入、传输、计算等环节的差错引起的误差。非抽样误差的控制,须经过改进抽查表的设计或测试方式,严密组织调查,提高调查员的素质,以及加强调查整理等各环节的质量检查监督,或设计特殊调查方式进行处理,才能见效。具体的论述见后面有关章节。
同抽样误差相反,非抽样误差是随着样本量的增加而增大的。由于抽样调查的访问和资料整理都比普查更便于进行,因此非抽样误差也远远小于普查。有时,普查中的非抽样误差甚至大于抽样调查中抽样误差与非抽样误差的总和。
二、抽样误差的计算由于从一个总体中抽取容量为n的样本时,有多种可能的结果,所以样本指标是随机变量,而总体指标是唯一确定的常量,故抽样误差也是一个随机变量。
设θ为总体的某个待估参数,是通过样本资料计算而得到的关于θ的估计量,则估计的实际误差为-θ,由于θ是未知,故-θ是未知的。这表明根据某一个确定的样本,无法确定抽样误差的大小,因此,关于抽样误差的计算,是建立在误差分布理论基础上,从统计平均意义角度来考虑的。因为,对一个确定的总体按同一种抽样方法可能得到一系列不同的样本,对每一个样本都会有一个估计的实际误差i-θ,因此,抽样误差可以用所有这些可能的实际误差的均方误差表示。也即将抽样误差表示为
MSE()=E(-θ)2
其中MSE()为估计量的均方误差。由于θ未知,所以在通常情况下,MSE()仍然是未知的。但MSE()可以分解成:
MSE()=E(-θ)2=E[-E()+E()-θ]2
=E[-E()]2+E[E()-θ]2+2[E()-θ]E[-E()]
=E[-E()]2+[E()-θ]2
式中第一项是估计量的方差,记作V()。V()的平方根称为估计量的标准误差或标准差,记作S()。S()与E()之比称为估计量的变异系数,记为C()。式中第二项是估计量的偏倚B()的平方(即B()=E()-θ)。
一般情况下,均方误差说明了估计量的准确性,而估计量的方差则表明了其估计结果的精确性。通常将精确度定义为估计量方差的倒数,而将准确度定义为估计量均方误差的倒数。
当偏倚B()为零时,称为θ的无偏估计量。此时,的方差就等于它的均方误差,即
V()=MSE()
如果随样本容量n的增大趋近于θ,则称为θ的一致估计。
需要说明的是:①上面所给出的V()的计算公式仍然属于一个理论公式或叫作定义公式,在实际中是无法直接应用的。因此,实际中计算V()是依据调查变量的总体方差σ2进行的,当σ2未知时,一般用样本方差s2代替,以对V()做出估计。②有偏的估计并非都是不可用的,有时有偏估计量在某些方面反而比无偏估计量更好。有研究认为,在实践中当偏倚小于标准误的十分之一时,偏倚对估计量准确度的影响可以忽略不计。
第四节 抽样估计要达到对总体的正确认识,样本的充分代表性和样本资料的准确性都是必要的前提,然而从样本到总体的估计方法在这里却居于突出的重要地位。抽样估计就是以样本的实际资料为依据,计算一定的样本统计量,并按照一定的方法对总体参数作出估计和推断。这也是抽样调查的目的之所在。
一、抽样估计的特点第一,抽样估计在逻辑上运用的是归纳推理而不是演绎推理。
演绎推理是在封闭的系统中从一般性命题导出特殊结论的逻辑方法,其结论的正确性已全部包含在前提的正确性之中。如在本章第二节中,我们从一个已知总体开始,讨论样本具有怎么样的性质,样本统计量是如何接近总体参数的,这就是运用了演绎推理的方法。
归纳推理与之正好相反,它是在开放的系统中,从研究个别命题达到一般性的结论。其前提正确不一定就能得出正确的结论,结论的正确性还决定于前提以外的许多事实,所以结论必须经过事实验证。统计的认识过程正是从对大量个别事件的认识上升到现象总体的认识。本节将要讨论的抽样估计即是从抽取的一个已知样本出发,对被抽样未知总体推断出一般结论,所采用的是归纳推理法。
第二,抽样估计在方法上运用不确定的概率估计法而不是运用确定的数学分析法。
虽然抽样估计也是利用一定的样本数据来推论总体的数量特征,但由于样本数据和总体数量特征之间并不存在严格对应的自变量和因变量的关系,因此,不可能运用数学函数关系建立一定的数学模型,用输入样本的具体观察值来推算总体特征值。抽样估计原则上把由样本观察值所决定的统计量看作是随机事件。在实践中,抽取一个样本,并计算出相应的样本指标,接着需研究的问题便是用这一样本指标来代表相应的总体指标的可靠程度究竟有多大,这就是概率估计所要解决的。如果说归纳推理不保证从正确的前提一定得到正确的结论,只肯定从正确的前提得到的结论有一定程度的可靠性,那么概率估计就是要具体确定这个一定程度的可靠性是多大。
第三,抽样估计的结论存在着一定程度的抽样误差。
如前所述,抽样误差指是由随机抽样中偶然性因素的影响,使得样本指标和总体指标间存在的某种程度的离差。这种误差是抽样估计所固有的,不可避免。抽样估计结论的可靠程度总是和一定的抽样误差联系在一起的。通常情况下,总是指出样本指标和总体指标的误差在一定范围内的概率保证程度。
二、抽样估计的方法抽样估计的方法多种多样。如果以估计中所依据的资料不同来区分,一般可以有简单估计、比估计和回归估计等三种方法。简单估计是单纯依靠样本调查变量的资料估计总体参数,其估计结果称为简单估计量;比估计和回归估计是同时依据样本调查变量以及已知的有关辅助变量的资料来对总体参数做出估计,其结果分别称为比估计量和回归估计量。简单估计是最简单、最基本的一种估计方法,在实际中应用也最为广泛。后面各章节所讨论的估计量若没有特别的说明一般都是指简单估计量。同简单估计相比,比估计和回归估计比较复杂,但在某些情况下,其估计的效果却比较好。关于比估计和回归估计将在第五章作进一步讨论。
如果以估计结果的表示方式来区分,则抽样估计可以有两种形式,即定值估计和区间估计。定值估计是指给所要估计的总体参数只给出一个明确的点估计值,同时确定出估计结果的误差(一般用方差V()来表示)。区间估计则是在一定的概率保证程度(置信度)之下,根据允许的最大绝对误差范围(一般称之为抽样极限误差,记作Δ,它常以抽样标准误差为标准单位来计量,即Δθ=KS(),其中K称之为概率度,其值同置信度的大小有关,可通过查相关的概率积分表求得。),确定出一个以点估计值为中心的区间作为总体待估参数θ的估计区间(也称为置信区间)。可见在区间估计中,不但要考虑抽样误差的可能范围有多大,而且还必须考虑落到这一范围的概率是多少。前者是估计的准确性问题,后者是估计的可靠性问题,两者既相互矛盾又密不可分。计算可靠性的依据是样本统计量的抽样分布理论。在实际问题的研究中常常需要在估计的准确性和可靠性之间进行协调,一般是先确定其中的一个,然后再推算出另外一个。
三、置信区间在抽样估计中,是用样本统计量来推断对应的总体参数,根据前面第二节的分析,样本统计量的极限分布呈正态,而在社会经济现象的抽样研究中,通常所使用的又是大样本,因此,可以按照正态分布的理论,来构造总体参数估计量的置信区间。
一般地说,若估计量是无偏的,且呈正态分布,则参数θ的置信度为1-α的置信区间可以写成
(-KS(),+KS())
当调查变量的总体方差σ2已知时,上述置信区间可表示为
(-Zα/2S(),+ Zα/2S())
即取K= Zα/2,Zα/2的值可以通过查正态分布双侧临界值表加以确定。常用的几组置信度同Zα/2的对应值如下表
1-α
0.80
0.90
0.95
0.9545
0.9973
Zα/2
1.28
1.64
1.96
2
3
当调查变量的总体方差σ2未知时,则用相应的样本方差s2代替。然而,这时有可能会使误差产生一个增量,特别是当样本较小时,更容易影响估计的精度。因此,为了保持1-α的置信度,就应该适当加宽置信区间,即用较大的tα/2值来代替Zα/2。此时,置信区间就可以表示成
(-tα/2 (),+tα/2 ())
其中tα/2的值可通过查t分布临界值表来确定,在这里自由度为df=n-1;()表示以s2代替σ2后对抽样标准误S()的估计量。
我们注意到,当样本量充分大时,Z值和t值十分接近,因此,即使σ2未知,也仍然可以取K=Z;但在小样本条件下,Z值和t值差别较大,所以在实践中,只有当σ2未知且样本量较小(n<30)时才用t值,即取K=t。
四、估计量的优良标准由于抽样指标是一个随机变量,随着抽取的样本不同,便有不同的估计值,因此,要判断一种估计量的好环,仅从某一次试验的结果来衡量是不够的,而应从多次重复试验中,看这种估计量是否在某种意义上最接近于被估计参数的真值。一般地说,用抽样指标估计总体指标应该有三项基本要求或标准,满足这三项要求的估计就可以被认为是合理的估计或优良的估计,这三项要求即是抽样估计的三条优良标准。
1、无偏性用样本指标估计总体指标要求所有可能的样本指标的平均值等于对应的总体指标值。
就是说,虽然每一次的抽样指标和未知的总体指标可能有偏误,但在多次反复的估计中各个抽样指标的平均值应该等于总体指标,即用抽样指标来作估计平均说来是没有偏误的。所以,样本指标是对应的总体指标的无偏估计量。
关于这一点,可以用概率的方法加以证明,
证明:设总体容量有N个:Y1,Y2,…,Yn,则:
=(Y1+Y2+…+Yn)/N
又设样本容量有n个,y1,y2,…,yn,则:
=[y1+y2+…+yn]/n
所以
由于y1,y2,…,yn都是取自总体Y1,Y2,…,Yn中,当n充分大时,它与总体同分布,所以,E(y1)=E(y2)=…=E(yn)=E(Y)= ,因此
证毕。
2、一致性用样本指标估计总体指标要求当样本容量充分大时,抽样指标也充分地靠近总体指标。换言之,随着样本单元数n的无限增大(无限接近于总体单元数N),抽样指标和总体指标间的绝对离差可以无限缩小。
以平均数为例,证明如下:
设α为任意小的正数,依大数定律有
由平均数无偏性知道,抽样平均数的期望值等于总体平均数,即E()=,则有:
这表明,当样本单位数无限增大时,抽样平均数和总体平均数的绝对离差小于任意常数α(α>0)的概率趋近于1。这就是抽样估计的一致性。
3、有效性用抽样指标估计总体指标要求作为优良估计量的方差应该比其他估计量的方差小。即:用抽样平均数和总体某一变量来估计总体平均数,虽然两者都是无偏估计量,而且在每一次的估计中两种估计量和总体平均数都可能有离差,但样本平均数更靠近在总体平均数的周围,平均说来它的离差比较小,所以对比而言,抽样平均数是更为优良的估计量。
由于样本变量和总体变量是同分布的,依方差性质可知:
故V()<σ2所以,用抽样平均数估计总体平均数比用总体的变量X估计总体平均数更为有效。
第三章 简单随机抽样第一节 简单随机抽样概述一、简单随机抽样的概念简单随机抽样也叫作纯随机抽样。其概念可有两种等价的定义方法:
定义之一:简单随机抽样就是从总体N个抽样单元中,一次抽取n个单元时,使全部可能的种不同的样本被抽到的概率均相等,即都等于1/A。
按简单随机抽样,抽到的样本称为简单随机样本。
按上述定义,在抽取简单随机样本之前,应将所有可能的互不相同的样本一一列举出来。但当N与n都比较大时,要列出全部可能的样本是不现实的。因此,按上述定义进行抽样是不太方便的。
定义之二:简单随机抽样是从总体的N个抽样单元中,每次抽取一个单元时,使每一个单元都有相等的概率被抽中,连续抽n次,以抽中的n个单元组成简单随机样本。
由于定义二无需列举全部可能的样本,故比较便于组织实施。但按这个定义进行抽样时,仍然需要掌握一个可以赖以实施抽样的抽样框。
二、简单随机抽样的具体实施方法常用的有抽签法和随机数法两种。
(一)抽签法抽签法是先对总体N个抽样单元分别编上1到N的号码,再制作与之相对应的N个号签并充分摇匀后,从中随机地抽取n个号签(可以是一次抽取n个号签,也可以一次抽一个号签,连续抽n次),与抽中号签号码相同的n个单元即为抽中的单元,由其组成简单随机样本。
抽签法在技术上十分简单,但在实际应用中,对总体各单元编号并制作号签的工作量可能会很繁重,尤其是当总体容量比较大时,抽签法并不是很方便,而且也往往难以保证做到等概率。因此,实际工作中常常使用随机数法。
(二)随机数法随机数法就是利用随机数表、随机数骰子或计算机产生的随机数进行抽样。由于计算机产生的随机数实际上是伪随机数,不是真正的随机数,特别是直接采用一般现成程序时,产生的随机数往往不能保证其随机性。因此,一般使用随机数表,或用随机数骰子产生的随机数,特别在n比较大时。
1、随机数表及其使用方法随机数表是由0到9的10个阿拉伯数字进行随机排列组成的表。
所谓随机排列,即每个数字都是按等概和重复独立抽取的方式排定的。在编制时,使用一种特制的电器或用计算机,将0至9的10个数字随机地自动摇出,每个摇出的数字就是一个随机数字。为使用方便,可依其出现的次序,按行或按列分成几位一组进行排列。根据不同的需要,它们所含数字的多少以及分位和排列的方式尽可以不同。
目前,世界上已编有许多种随机数表。其中较大的有兰德公司编制,1955年出版的100万数字随机数表,它按五位一组排列,共有20万组;肯德尔和史密斯编制,1938年出版的10万数字随机数表,它也按五位一组排列,共有25000组。我国常用的是中国科学院数学研究所概率统计室编印的《常用数理统计表》中的随机数表。
随机数表的用途很多,不仅可以组织等概样本,也可组织不等概样本。
简单随机抽样属等概率抽样,在使用随机数表时,要注意以下几点:
①每次使用时,确定使用哪页及哪行哪列的数字为起点,必须是随机的。
②设总体容量为N,若N的位数为r,则一定要从r位数中抽取。遇到1至N的数可直接使用;遇到其它的数不能直接使用。
③当r≥2时,可从含有起点数字左边的r位数开始,也可从右边的r位数开始。可从起点开始向下抽取,也可向右抽取。但一经确定使用哪一种方式,就必须用一种方式抽取全部单元号,中途不能变更。
④在重复抽样时,遇到重复的数字应重复使用;在不重复抽样时,遇到重复的数字应舍去不用。
随机数表法一般分下述几步:
第一步:确定起点页码,如用笔尖在随机数表上随机指定一点,若落点数字(或距落点最近的数字)为奇数,则确定起点在第1页;否则,起点在第二页。
第二步:确定起点的行数与列数,先在表上随机指定一点,由落点处的两位数确定起点的行数。由于每页只有50行,所以当落点处的两位数大于50时,则取其减去50的差数为行数。为保证等概性,当落点处的数为“00”时,则行数应取作50。然后依同样的方法再确定起点的列数。
第三步:确定所抽样本单元的号码。从上述确定的起点开始向下(或向右),每次取一个r位数。通常,若所需抽的数是一位数或两位数(即r=1或2),则由起点开始,依次向右抽取较方便,达到该行右端时,从下一行左端开始继续向右抽取;若所需抽的数是三位及以上(即r≥3)则由起点开始依次向下抽取较方便,达到最后一行时,向右移10位(或r位),再从第一行开始向下继续抽取,直到取足所需的n个r位数为止,以这n个r位数所对应的总体单元组成样本。
然而,按上述步骤抽样,由于每个总体单元只对应一个数字,因此,所读取随机数的放弃比例可能很高,这在大样本时将使抽样过程变得很费事。为避免这种现象,可以在不违反等概率原则的条件下令每个总体单元同时对应多个数字,以加快抽样的速度。
一般说来,当N为一个r位数字时,要取一个从一到N间的随机数字,可以随机取1至的一个数字,其中为N的最大r倍的整倍数。如果为kN,总体内每一单元便配上1到的k个数,符合随机数字的单元算是中选,此时放弃的随机数字比例便是(10r-)/10r。这时的也不一定要取r位,如果能取位(>r),而使N的位整位数与相差极小即可。
快速抽取的常用方法有:
余数法。如果N是个r位数,由1到随机取一个数R,而是N的最大r位整倍数,则编号等于R除N所得余数的单元便被选中。
商数法。如果N是个r位数,由0到-1随机取出一个数R而使是N的最大整倍数,只要R除k的商是(i-1),则第i个单元便被选中。其中k=/N。由于k远比N小,所以此法的计算过程较余数法简便。
修正余数法。如果总体内单元个数N是个r位数,且是个不小于N而适于用作除数的较大r位数,而为的最大r位整倍数,则如果R是用r位随机数字取得的数字,待选单元的号码便会是R除的余数,其中只要R不大于而余数不是0也不大于N就可以。在其他情形时,被抽中数字必须放弃而重复进行。如果=N,本法便简化成余数法;如果这时的余数是0,等选单元的号码便选N。这时的放弃比例是[(-N)/10r](/)。
此外也可以用修正商数法或独立选择数位法等以加速抽样。
2、随机数骰子及其使用方法随机数骰子是由均匀材料制成的正二十面体(通常的骰子是正六面体,即正方体),面上刻有0-9的数字各2个。每盒骰子由盒体、盒盖、泡沫塑料垫及若干个(通常是3-6个)不同颜色的骰子组成。使用随机数骰子时可以像普通骰子那样用投掷的方法。但正规的方法是将一个或n个骰子放在盒中,拿去泡沫塑料垫,水平地摇动盒子,使骰子充分旋转,最后打开盒子,读出骰子表示的数字。一个骰子一次产生一个0-9的随机数。要产生一个m位数字的随机数,就需要同时使用m个骰子(事先规定好每种颜色所代表的位数,例如红色表示百位数,蓝色表示十位数,黄色表示个位数等),或将一个骰子使用m次(规定第一次产生的数字为最高位数,最后一次产生的数字为最末位即个位数字等)。特别规定m个骰子的数字(或一个骰子m次产生的数字)都为0时,表示10m。
当使用随机数骰子进行抽样时,特别是如何根据摇随机数骰子方法获得的随机数R0来读取所要求的随机数R有多种方法。下面是我国国家标准GB10111《利用随机数骰子进行随机抽样的方法》中规定的适用于简单随机抽样的读取随机数的方法。
方法之一:若骰子表示的R0≤N,则取R=R0;若R0>N,则舍弃不用,另行重摇。重复上述过程,直到取得n个不同的随机数为止。
方法之二:如果骰子表示的R0≤N,则取R=R0;如果R0>N,设R0=K1N+R1(0≤R1<N),当(K1+1)N>10m时,舍弃,重摇。而当(K1+1)N≤10m时,取R=R1,或R=N(若R1=0)。重复上述过程,直到获得n个不同的随机数为止。
方法之三:若骰子表示的随机数R0≤N,则取R R0;若R0>N则取一个大于N的适当整数M(一般为方便起见取M=2×10m-1,2.5×10m-1,3×10m-1或5×10m-1等),设R0=K2M+R2(K2为整数,0≤R2<N),则当(K2+1)M>10m时,舍弃,重摇;当(K2+1)M≤10m时,取R=R2或R=N(若R2=0)。重复上述过程,直到获得n个不同的随机数为止。
例:N=4562,m=4,取M=5000
若R0=3150,取R=R0
若R0=6897=1×5000+1897,K2=1,( K2+1)M=104
则:R2=1897,故取R=R2=1897
方法三和方法二都是为提高效率,减少舍弃重摇次数所采取的措施,尤其是方法三在适当选用M时,既方便又快速。
也许有人会认为,在抽样时不用随机数表,而采取随意抽选的办法也可以达到预期的抽样效果。表面上看,这种想法似乎有一定道理,但实际试验的结果证明随意抽样不等于随机抽样。以下是两个有名的试验:
试验一:随意数试验。让六个人写下100个自己随意想到的三位数,将这些数内的0、1、2、…、9数字列成次数分布表如下(表3.1),
表3.1 六个人的0、1、2、…9的次数分布数字
人的编号
期望次数
1 2 3 4 5 6
0
1
2
3
4
5
6
7
8
9
50 1 38 29 34 59
29 48 30 57 33 27
20 19 28 31 20 22
50 39 34 34 24 24
55 40 28 29 15 27
20 18 31 15 30 25
30 26 26 27 31 15
12 39 32 35 42 35
25 42 30 23 44 37
9 28 23 20 27 29
30
30
30
30
30
30
30
30
30
30
合计
300 300 300 300 300 300
300
可以看出,六个人都对数字存在偏好,如第一个人更加偏好数字4、3、0;第二个人则偏好数字1、8、4;等等。这种由于数字偏好所引起的偏估类型可称之为数字偏误。
试验二:着色试验。让四个人将10×10方格的纸板着色,可供选择的颜色有蓝、绿、红、白和黄色五种,对每一个四分象限来说,规定每种颜色只能在每行和每列出现一次。每个方格以其所在的列号与行号表示,如(4,6)代表第四列第六行的方格。请四个人对这100个方格随意选择行列号,而对其着色。将这些由这四个人着色所得到的资料形成次数分布表如下(表3.2):
表3.2 四个人对方格着色的次数分布颜色
人的编号
期望数字
1 2 3 4
蓝绿红白黄
26 20 12
21 15 21
12 20 22
23 20 19
18 18 25 26
20
20
20
20
20
合计
100 100 100 100
100
可见四个人都对颜色存在偏好,如第一个人偏爱绿色,第二个人偏爱蓝色等。这种由于对颜色偏好所引起的偏估类型,可称之为颜色偏误。
从上述两个试验可以发现,利用人为的随意抽样方法都会产生偏差。每个试验者均有较为喜欢的数字和颜色,因此,使得样本变成非随机的,进而给抽样估计带来困难。
三、简单随机抽样的方法评估简单随机抽样对总体不加任何限制,等概率地从总体中直接抽取样本,是最简单、最单纯的抽样技术,它具有计算简便的优点,是研究其它复杂抽样技术的基础,也是比较各种抽样技术之间估计效率的标准,同时,从理论上讲简单随机抽样在各种抽样技术中是贯彻随机原则最好的一种,并且数学性质很简单,是等概率抽样的特殊类型。
另一方面,因为是等概率抽取样本,所以要求总体在所研究的主要标志上同质性或齐性(共性)较好,也即总体要比较均匀;要求样本容量要比较大,以保证样本对总体具有充分的代表性。但是,在社会经济现象中,这种均匀总体是很少见的。因此,实际工作中很少单纯使用简单随机抽样方法。
再者,因为直接从总体中抽取样本,未能充分利用关于总体的各种其它已知信息,以有效地提高样本的代表性,并进而提高抽样的估计效率。
此外,简单随机抽样要求在抽样前编制出抽样框,并对每一个总体抽样单元进行编号,而且当总体抽样单元的分布比较分散时,样本也可能会比较分散,这些都会给简单随机抽样方法的运用造成许多的不便,甚至在某些情况下干脆无法使用。因此,在此基础上研究其它抽样技术显得更加重要。
第二节 总体参数的估计虽然抽样的目的各种各样,但通常人们的兴趣都集中于总体的四项指标:①均值;②总和Y;③成数(比例)P;④两总值或均值的比率R。这里只考察前三项指标,比率R放在第五章讨论。
一、基本原理在抽取一个简单随机样本,并进行调查以后,如何估计总体的均值、总和及比例呢?估计结果的误差又如何确定呢?为了说明简单随机抽样的基本原理,下面我们先结合例子从最简单的情形,即一单元抽样(只抽取一个单元的样本)开始讨论,然后导出适于n单元抽样时的一般结论。
设总体包含有U1、U2、U3、U4四个单元,其观测值分别为Y1、Y2、Y3、Y4,则总体均值为=(Y1+Y2+Y3+Y4)/4。现用简单随机抽样法抽一个单元并以其观测值来估计总体均值,则这四个单元每个都是可能的样本,而每个可能样本被抽中的概率均为四分之一。每个样本观测值本身就可以当作总体均值的一个估计值。显然,根据不同样本估计的结果与总体均值之间通常并不一致,而是存在一个的误差。下表列出了抽到不同样本时的结果(表3.3),
表3.3 包含四个单元的总体内抽一个单元的可能结果样本编号
样 本
样本观测值
的估计值
-
1
U1
Y1
Y1
Y1-
2
U2
Y2
Y2
Y2-
3
U3
Y3
Y3
Y3-
4
U4
Y4
Y4
Y4-
用样本均值估计总体均值,这很容易理解。在抽样前,样本均值的取值是不知道的,抽样后,通过样本可算出的值。因此,是一个随机变量,它的取值视抽到的样本而定。一般的抽样调查,只抽一个样本,因此,其样本的均值不一定恰好等于总体均值。但是从所有可能的样本来看,两者之间有什么关系呢?
由上述分析可知
所以,是的无偏估计量。的均方误差(MSE)为
即总体方差。又因为是的无偏估计量,因此,估计量的方差等于均方误差,即
若用不放回简单随机抽样法从上例的总体中抽取2个单元组成样本,则可以得到U1U2、U1U3、U1U4、U2U3、U2U4、U3U4等六个可能样本,每个样本被抽中的概率均为六分之一,当抽到不同的样本时,会有不同的估计结果,如表3.4所示:
表3.4 由四个单元中不放回抽取2个单元的可能结果样本
U1U2
U1U3
U1U4
U2U3
U2U4
U3U4
样本观测值
Y1,Y2
Y1,Y3
Y1,Y4
Y2,Y3
Y2,Y4
Y3,Y4
样本均值
可见,样本均值是的一个无偏估计量,因为
而每个单元均可能在三个样本内出现,故
因此,的样本方差为
又已知 (i=1,2,3,4)在三个样本内出现,而
则
将上述结论加以推广,则可得出一般性的结论,即从总体的N个单元中不放回抽取n个单元时的估计量及其方差的构造形式。
鉴于一些数理推理过程过于繁琐,且在实际应用中的意义不大,故本课程对一些证明过程不准备作详细介绍。而是将侧重点放在弄清楚公式的经济意义之上。
二、估计量
1、总体均值和总和的简单估计量在简单随机抽样条件下,总体均值的简单估计量分别为,
可以证明,样本均值是总体均值的无偏估计,即
因此总体总和的简单估计量为
其中N/n也称作膨胀因子。
2、总体比例的简单估计量
抽样调查中,经常需估计总体中具有某种特性的单元总数及其在总体中所占的比例(即成数)。
设总体中的N个抽样单元按其是否具有某种特性可分成D和两类,D类具有某种特性,类不具有某种特性。D类有N1个单元,类有N0个单元,则:
属于D的单元数
属于D的成数
总体
样本
总体
样本
N1
n1
又令
则
=P,=p,Y=N1,y=n1.
由此则将估计N1和P的问题转化为估计Y和,所以依上面的结论可知总体比例的简单估计量为:
且
总体中具有D类属性的单位总数的估计量为:
三、估计量的方差在抽样推断中,有时往往只计算出估计量的值,而不大注意估计量的误差(方差或标准差)。但是,总体均值的估计量通常与总体均值的真值间不完全一致,即存在误差,而且所有可能的样本均值相对于总体均值的误差大小也是不一致的。联合国统计局编的《抽样调查理论基础》一书指出:“从研究大多数国家的抽样实践中,可以看出:虽然计算估计量的标准差,至少对关键性的几个估计量计算其标准差来说,仅需增加很少的额外开支或负担,但是他们并不意识到确定估计量的标准差的重要意义。这是否因为统计人员无意识地忽视了估计量的不精确性所产生的严峻的现实呢?计算标准差,并且把他们与估计量一起列出来,应该成为实际工作的一个常规。”
估计量的标准差就是所有可能的样本平均数(或成数)对应于总体平均数(或成数)的平均误差,即抽样平均误差。其平方即为估计量的方差,常用V表示。
为表达均值估计量的方差,我们先定义总体方差,按一般定义,有限总体的方差为
但为了在大多数情况下使公式的表达更为简炼,常将总体方差用
表示,这种表示方式在用方差分析法处理时尤为方便。
由于是的无偏估计量,因此总体均值估计量的方差为
其中,f为抽样比,1-f为有限总体不重复抽样校正系数,记为fpc。
由此进一步可推出
又因为在研究总体成数时
所以可得出总体比例估计量的方差为
总体中具有某种属性单元总数估计量的方差为
四、方差估计量可以证明样本方差为总体方差的无偏估计量,即,所以,当总体方差未知时,可用样本方差来代替,由此可得出估计量的方差的估计量分别为
而且与分别是与的无偏估计。
同理,可得的无偏估计量为
的无偏估计量为
第三节 样本容量的确定一、必要样本容量的确定如前所述,抽样误差是抽样调查所固有的,虽然不能消除,但却可以控制。影响抽样误差的因素有许多,样本容量的多少是其中最重要的影响因素之一。样本容量越大,样本对总体的代表性就可能愈强,抽样误差就越小,抽样估计的精度也就越高。
而在实际的抽样调查工作中,显然不可能无限制地增大样本容量,以追求对总体参数的估计达到尽可能高的精度,因为样本容量愈大,抽样调查所需花费的费用就愈多,调查的时间也愈长,接近于全面调查,则就失去了抽样调查的意义和作用。反过来,如果抽样数目过少,费用和时间的花费固然也少,较易得到满足,但在估计精度上,常不能达到规定的最低限度之要求,因此满足不了分析研究的需要。
所以,在确定样本容量时,必须在估计的精度要求和可供调查使用的费用之间进行权衡,使在费用一定的条件下精度达到最高,或在精度要求得到保证的前提下使费用最省。通常将在这一原则指导下所确定的样本容量称之为必要样本容量,它是在最大限度地满足规定精度要求以及尽可能节约调查费用的前提下,所应该抽取到的最少的样本容量。以后各种抽样组织方式所讨论的样本容量均是指必要样本容量。
(一)依规定精度来定
1、关于精度的不同提法估计精度是抽样误差(估计量的方差)的倒数,所以,在一定的可靠程度的要求下,给出估计精度,也就等于给出了估计中允许误差的大小。
通常,对于估计量的精度可以有不同的提法或表示方法。
提法之一:以置信度1-α,允许总体参数θ的估计量的最大绝对误差为Δ,即
提法之二:以置信度1-α,允许总体参数θ的估计量的最大相对误差为r,即
因为最大绝对误差可以通过估计量的方差表示,即
最大相对误差可以通过估计量的变异系数表示,即
所以,
提法之三:以置信度1-α,允许总体参数θ的估计量的最大方差不超过V,即
提法之四:以置信度1-α,允许总体参数θ的估计量的最大变异系数不超过C,即
2、样本容量n的确定当n足够大时,可以认为服从正态分布N(θ,V())(理由如前述样本统计量的抽样分布)。因此,由上述四种对估计量精确度的不同提法,可以分别得到下列方程式
因为V()是n的函数,求解以上四个方程,即可确定n。
(二)依调查费用来定
设C表示抽样调查工作的总费用,可大致分为两个构成部分:一部分为固定费用,用C0表示,不管调查单位数的多少,这部分费用都要花费,主要包括组织领导、宣传、设计等费用。一部分为可变费用,用C1表示,它是每调查一个单位平均要花的费用,其费用的大小随调查单元数的多少变动,如调查表的印刷、调查的差旅费等。这样
C= C0+ C1n
在上述公式中,当某项抽样调查工作所能得到的总费用一定,且C0和C1依其他有关资料也大致可以确定时,就可推算出必要的抽样单元数目
(三)在精度和费用间谋求平衡依费用确定抽样数目后,可进行实地抽样调查,计算其样本指标和抽样方差,进一步估算其估计精度,考察其满足允许误差范围和可信程度的要求程度,以及根据精度和费用分别确定的抽样数目的符合程度,谋求精度和费用间的平衡。一般情况下,若依精度要求确定的n,同依费用限制确定的n相比较,若前者小于后者,则以前者为准,而节省费用。若前者大于后者,则在费用不能再增加,以及精度要求不能再放宽时,只能暂时放弃该调查;在费用不能再增加,而精度要求能做适当让步时,则调整精度要求。
(四)多指标时(多目标时)样本容量的确定大多数的抽样调查,往往要收集多个项目的信息,因而会遇到多指标或多目标的问题。这时,如何确定样本容量呢?首先要在众多的指标中挑选出最重要的K个指标,然后对这些指标分别提出估计精度的要求,求出每个指标所需的样本容量ni(i=1,2,…,k)。如果诸ni很接近,其中最大的是可行的,则选最大者为n。如果诸ni相差太大,若选其中最大者为n,则费用不允许或使总的精度大大高于原来的标准,没有必要,这时,可降低某些项目的精度要求,甚至取消一些项目。
二、总体方差的确定运用精度要求来确定样本容量时,必须事先知道总体的方差。确定总体方差的方法一般有以下几种:
其一,两步抽样法即在正式开展抽样调查工作之前,先从总体中抽取一个容量为n1的简单随机样本,求得的估计值或P的估计值,把n1和 (或n1和)代入相应的公式计算所需的n,然后,再补抽其余的n-n1个单元进行正式调查。
考克斯(Cox)1952年在斯坦(Stein)工作的基础上提出了在给定的精度下求n的公式。
第二步抽样后,从总的容量为n的样本给出的估计是有偏的,应加以修正。
其二,对于一次性的调查,采取在正式调查前进行试点调查,根据试点调查的结果估计或P。试点调查的目的是多方面的,不只是估计或P,若试点调查是通过简单随机样本进行的,就可用上面的方法。但试点调查的对象往往有选择性,用其结果来估计时,可能偏低。
其三,对于经常性调查项目,可以利用以前调查的结果,也可对以前调查的结果作适当调整。一般情况下,如果以前的调查结果有若干个时,常选择其中最大的方差来确定样本容量,从而保证充分满足估计精度的要求。
其四,根据总体的结构,应用数学方法预测总体方差或P。如对正态分布总体,可用标准差与全距间的关系来定出总体方差;对均匀分布、泊松分布总体也可以用有关数理统计的知识来确定出总体方差。
其五,估计比例时,如果能借助某些基本信息或方法,或经验等,估计总体比例大约在0.3-0.7之间,则也可以直接取成数方差的最大值0.25来确定样本量,这通常是一种比较“安全”的选择。但当总体比例估计小于0.1时,对于依不同的总体比例确定的样本量常常可能相差很大,有时甚至相差10倍以上,因此,在这种情况下,一般采用逆抽样的方法。
第四章 分层抽样第一节 分层抽样概述分层抽样也叫做类型抽样,它是实际工作中最常用的抽样技术之一。分层抽样是在抽样之前,先将总体按一定标志划分为若干个层(组),后在各层内分别独立地进行抽样。由此所抽得的样本称之为分层样本。各层所抽的样本也是互相独立的。
如果每层中的抽样都是简单随机的,则这种抽样就叫做分层随机抽样。由此所得到的样本称做分层随机样本。
从以上概念可以看出,分层抽样的实质是在各层间作全面调查,而在各层内作抽样调查。因此,分层抽样的误差只与各层内的差异有关,而同各层间的差异无关。所以,为了能有效地降低抽样误差,提高抽样效果,在分层时应遵循“尽可能使层内差异小,而使层间差异大”的原则,同时要使分层的结果既无重复又无遗漏。
进行分层抽样时应注意:①层内抽样设计的选择;②分层变量的选择;③各层样本量的分配;④层数;⑤层的分界。以前只重视③,近年来,④和⑤引起了越来越多的关注。
同简单随机抽样相比,分层抽样具有以下特点:
①分层抽样能够充分地利用关于总体的各种已知信息进行分层,因此抽样的效果一般比简单随机抽样要好。但当对总体缺乏较多的了解时,则无法分层或不能保证分层的效果。
②在分层抽样中,总体的方差一般可以分解为层间方差和层内方差两部分。由于分层抽样的误差只与层内差异有关,而与层间差异无关,因此,分层抽样可以提高估计量的精度。
③由于分层抽样是在每层内独立地进行抽样,因此,使得分层样本能够比简单随机样本更加均匀地分布于总体之内,所以其代表性也更好些。
④分层抽样的随机性具体体现在层内各单元的抽取过程之中,也即在各层内部的每一个单元都有相同的机会被抽中,而在层与层之间则是相互独立的。
⑤分层抽样适合于调查标志在各单元的数量分布差异较大的总体。因为对这样的总体进行合理的分层后可将其差异较多地转化为层间差异,从而使层内差异大大减弱。
⑥分层抽样中除了可以推断总体参数外,还可以推断各不同层的数量特征,并进一步作对比分析,从而满足不同方面的需要,也能帮助人们对总体作更全面、更深入的了解。但对各层的估计缺乏精度保证。
⑦分层抽样调查实施中的组织管理及数据收集和汇总处理可以分别在各层内独立地进行,因此较之简单随机抽样更方便。
⑧分层抽样中,由于各层的抽样相互独立,互不影响,且各层间可能有显著的不同,因此,对不同层可以按照具体情况和条件分别采用不同的抽样和估计方法进行处理,从而提高估计的精确度。
⑨当总体有周期现象时,用分层比例抽样法可以减少抽样方差。
⑩分层抽样中在进行分层时,需收集可用于分层的必要的各种资料,因此可能会增加一定的额外费用。同时,分层抽样中,总体参数的估计以及各层间样本量的分配、总样本量的确定等都更为复杂化。
通常,在满足下述条件时,分层在精度上会有很大的得益:
①总体是由一些大小差异很大的单元组成的,即总体差异大;
②分层后,每层所包含的总体单元数应是可知的,也即分层后各层的权重是确知的或可以精确估计的;
③要调查的主要变量(标志)与单元的大小是密切相关的;
④对单元的大小有很好的测量资料可用于分层,也即分层变量容易确定。
第二节 总体参数的估计一、有关符号的涵义在分层抽样中,我们用各种符号来区别各种不同情况,熟悉了这些符号所代表的确切内涵,对于我们系统地掌握抽样推断的一系列方法是十分重要的。因此,这里先集中对各有关符号的涵义作一解释;
L表示分层的层数;
h表示层的编号(h=1,2,3,…,L);
N表示总体容量;
N表示第h层的总体容量;
W=N/N表示第h层的层权,是已知的或要事先确定;
n表示样本容量;
n表示第h层的样本容量;
f=n/N表示第h层的抽样比;
表示第h层每i个单元的观测值;
=为总体总量;
=为样本总量;
=为总体均值;
=为第h层的总体总量;
为第h层的总体均值;
=为第h层的样本均值;
为样本均值;
为第h层的总体方差;
为第h层的样本方差;
P为总体成数;P为第h层的总体成数;
为第h层的样本成数;
P(1-P)为第h层的总体方差;
(1-)为第h层的样本方差。
二、估计量在简单随机抽样中,样本均值是总体均值的无偏估计。在分层抽样中,仍用样本均值
来估计总体均值,在一般情况下是否合理,先看下面的例子。
例:总体由1000人组成,按以往收入情况分成两层,第一层(高收入层)20人;第二层(低收入层)980人。从第一层随机抽2人,调查上月收入得1200和1600元;从第二层抽8人,上月收入分别为220、230、180、320、400、340、280及360元。估计这1000人的月收入。
如果用样本均值
=513(元)
来估计总体平均值显然偏高。若先分别算出这两层的样本均值=1400元
=291.25元,用=313.43(元)来估计就合理多了。
由此,分层抽样的估计量可按如下方式来构造:
1、总体均值的估计量在分层抽样中,总体均值的估计量一般用表示,它是各层总体均值的估计量按层权的加权平均,即
一般情况下:
≠=
在分层随机抽样中,是的无偏估计量,即=,因此,
也是的无偏估计量。
2、总体总和Y的估计量有了总体均值的估计量,就可推出总体总和的估计量
3、总体比例P的估计量若令
则,,.
按照总体均值估计量的公式,可推出总体比例(成数)P的估计量为:
可以证明,在分层随机抽样中,是的无偏估计量,是Y的无偏估计量,是P的无偏估计量。
三、估计量的方差
1、总体均值估计量的方差对于一般的分层抽样,由于各层的抽样是相互独立的,诸也相互独立,因此总体均值估计量的方差是总体各层均值估计量方差的加权平均,即
式中是第h层总体均值估计量的方差。
对于分层随机抽样,则有:
=
=
=
可见,在分层抽样中,总体均值估计量的方差只与各层内的方差有关,而同层间方差无关。而总体方差又是由层内方差与层间方差两部分构成的。所以,估计量的方差小于总体方差。
2、总体总和估计量的方差有了总体均值估计量的方差,就可推导出总体总和估计量的方差:
对于分层随机抽样,则有:
3、总体比例估计量的方差估计总体比例,当充分大时,有:
对于分层随机抽样,则有:
()
=
四、方差的估计量按上述方法确定估计量的方差时,要求各层的总体方差应事先已知,但实际工作中,各层的总体方差又常常是未知的,此时,一般可用对应的各层样本方差替代,以对估计量的方差作出估计。此时:
=,
与分别是与无偏估计。
当用样本资料估计方差时,可将 用替代,则得:
=
是的无偏估计。
第三节 总样本量的分配总样本量在各层间的分配在分层抽样中,一个重要的问题是总的样本量如何在各层之间进行分配。通常考虑:⑴精度和费用问题。即如何分配才能在费用一定时使总的精度和各层估计精度最高?⑵数据处理问题。即如何分配才能使调查数据的处理工作更加简洁,也使估计量及其方差的确定形式更为简单明了?⑶各层的容量大小问题。
结合上述考虑,总样本量在各层间分配时可采用如下方法:
(一)比例分配在分层抽样中,若各层的抽样比都相同,即fh=f,则称总样本量为按比例分配。此时
所以,因此,。(应取整)
比例分配最早是由鲍利于1926年提出的,比例分配主要考虑了各层单元数多少的差异。
比例分配时,总体中任一单元的入样概率都相等,都为f=n/N。由此所得到的样本称为是自加权的或等加权的。在这种情况下
,
,(为常数)
即或为所有样本最基本单元观测值总和的一个常数倍。这样的估计量也称为自加权的。
容易证明,对于比例分配的分层随机抽样,其均值估计量的方差可以有以下比较简单的形式:
若令为各层内方差的平均,则:
当估计比例P时,同样有:
,
其中
为各层内成数方差的平均。
(二)最优分配
1、一般情形在分层随机抽样中,在给定的费用条件下,使估计量的方差达到最小,或在精度要求(常用方差表示)一定条件下,使总费用最小的各层样本量的分配称为最优分配。
在分层随机抽样中,费用函数可能是简单线性的,也可能是其它复杂形式,这里主要考虑简单线性的费用函数:
其中C0是固定费用,如组织宣传费、分层及编制抽样框的费用等,Ch是在第h层抽取一个单元的平均费用,包括调查员报酬、旅差费、调查测试费等。
根据前面的论述,在估计总体均值时,对给定的各层样本量nh,估计量的方差为:
可见,第二项与样本量无关。考虑到
=
则在给定总费用下使估计量的方差最小,与在给定下使最小均等价于使
=
根据柯西—许瓦兹(Cauchy-Schwarz)不等式,有
其中等号只有在以下情形时才成立(达到极小值):
(为常数)
这意味着:
则
因此
所以使达到极小的最优分配即为
=
即
= (应取整)
可见,最优分配的结果既考虑了总体各层的差异,也同时考虑了总体各层内变异程度上的差异和各层内平均调查费用的差异。当层的容量愈大、层内变异程度愈大,层内每调查一个单元的费用愈小,则在该层中抽取的单元应愈多。
2、特殊情形——内曼分配如果各层内每个单元的平均抽样费用相等,也即时,最优分配简化为:
即
= (应取整)
这个结果称为内曼分配。因为最先人们认为它是由内曼于1934年给出的,实际上后来才发现早在1923年它已被俄国学者楚波罗(Tschuprow)给出。
在内曼分配时,估计量所能达到的最小方差为:
= -
(说明:也有用来表示这里的的)
3、某些层需要超过100%抽样时的修正
若抽样比f=n/N较大,而个别层的也很大,则按最优分配,一些层的有可能超过(即>1)。这时,可以对这些极端层进行100%抽样。然后将剩下的其余的层可用的样本量再按最优分配法在其它各层间重新进行分配。以内曼分配为例,其具体步骤如下,
假定:>,则令。对部分作内曼分配:
此时,若所有的≤(h≥2)则分配合理。否则,若有:,则,,
对部分再作内曼分配:
.
若所有≤ (h≥3),则分配合理。否则再重复上述过程,直到所有的≤为止。
此时,最优分配所达到的估计量的最小方差公式也应修正为:
其中′为仅对<的层求和,n′为修正后这些层的抽样单元数。
4、估计p时的最优分配
1)一般情形
2)特殊情形——内曼分配
.
在实际工作中,由于(或)未知,需根据有关信息进行估计,以致使实际的同最优分配时的相比会产生一些偏误,进而使估计量的精度会受到影响,但从分析比较的结果看,这种影响不会太大。
5、最优分配与比例分配的精度比较分层随机抽样中,依照定义,最优分配时估计量的精度比比例分配时高,但比例分配是自加权的,计算比较方便。那么实际工作中是否一定要用最优分配?什么时候用最优分配为好?为此,有必要将这两种情况下估计量的方差作一比较。
下面以总体均值估计量为例,并以内曼分配作为最优分配的代表进行讨论。
比例分配时估计量的方差为:
,
而内曼分配时估计量的最小方差为:
=,
因此:
-=
=
若诸很接近,则比例分配与内曼分配的精度相差无己。只有当各层的相差较大时,最优分配比比例分配在精度上才有较大的得益。因此,在设计抽样方案时,可依已有的信息对各层的的离散程度加以分析,以决定是采用比例分配还最优分配。
特别地,如果各层的容量、层内差异大小及层内平均每单元的抽样费用十分接近时,也可直接按等额方法分配总样本量。此时
(三)多指标时的分配一次抽样调查中调查项目(指标)可能不止一个。因此,往往总样本量对某个指标的最优分配不一定也是对其它指标的最优分配。这时,最简单的方法是利用比例分配,因为不仅它简单方便,而且对各指标大多能获得较为满意的结果。
如果此时仍希望采用最优分配,则可按下述有关方法进行处理。实质上下列方法都是对不同指标最优分配的某种程度的折衷。
1、平均法其基本思路是先在众多的指标中,选择最重要的K个,分别按最优分配原则计算出各层应分配的样本量,然后求其平均值:
.
由于各指标之间一般具有较高的相关性,因此,各指标的最优分配结果悬殊不会太大。考虑到在计算最优分配时还受到估计误差的影响,因此,在实际中这样处理就可以了。
2、查特吉(Chatterjee)折衷方法(1967)
假设经过挑选后,有K个主要指标,为j个指标在第h层按最优分配的样本量,n为第h层应分配的样本量,查特吉提出折衷的办法是:
.
查特吉法与平均法的结果很接近,它们都是在诸中进行折衷。若间相差很大,不能明显地折衷,此时,需建立一些准则来确定各层样本量的分配。
3、耶茨(Yates)方法这种方法应用于有一个特定目的的调查,这种调查中由于估计量给定的误差所引起的损失是可以用钱或效用来衡量的。把总的预期损失L看作估计量的方差的线性函数:L=,则可进一步经过变换,推导出结论:
,
,
其中:是第j个指标在第h层的方差;为系数;是第j个指标的总体均值估计量。
讨论:由于比例分配的样本是自加权的,因此,其估计量及其方差的确定形式都较最优分配时更为简便。但如果各层的因子之间差异很大时,最优分配将会比比例分配更为有效。然而,由于方差对于分配中发生的小的甚至是中等的变动并不敏感,因此,基什(L·Kish)认为在实际中①除非各层的因子之间有实质性的差异,一般不要采用最优分配。否则最优分配多出的效益可能会被加权和特别细致工作的额外花费所抵销。一般来说,要好几倍的差异才值得作最优分配。若的几个值大致相等,就要用比例分配。②最优分配往往不是估计比例值的经济方法,因为比例的标准差等于,它们对于0.1到0.9之间变动的值是不敏感的。③应用最优分配时,在实践上要避免使抽样比成为复杂的分数。④很多潜在的效益常常只需使用一些不同的抽样比就可以得到。有时,只用两个抽样比就可以取得大部分效益:对绝大多数元素采用一个低抽样比,而对一个只包含大元素的特殊层则采用一个高抽样比。有时,甚至可使这些特殊层能被当然地选入样本(即使其抽样比为1),以完全排除它对抽样误差的影响。
二、总样本量的确定
1、估计总体均值的情形设允许估计量的最大方差为V,对某种已确定的样本量分配原则,有:
,
代入总体均值估计量的方差的计算公式,则有:
,
于是对给定的V:
.
当比例分配)时:
=
当 (内曼分配)时:
当各层抽样费用不同,而总费用给定时:
.
2、估计总体总和的情形同样的道理,可得出对给定的分配形式()有:
.
当比例分配时
,
当内曼分配时
,
3、估计总体比例的情形若较大,则≈,此时可进一步求出估计P时对给定的分配形式()有:
.
比例分配时:
.
内曼分配时:
.
第四节 分层与提高精度分层抽样的目的主要是为了提高抽样估计的精度,而且分层抽样的效果如前所述一般也优于简单随机抽样,因此,在实际中得到广泛应用。但是否在任何一次抽样中都应该采用分层抽样呢?答案是不一定。通常要考虑以下四个问题:一是如果分层抽样的效果优于简单随机抽样,那么从所增加的人力、财力与所提高的抽样精度的对比上看是否值得?二是分层抽样的效果是否就一定优于简单随机抽样?三是当各层的层权不准(有偏)时,层权偏差所增加的误差与分层所减少的误差哪个更大?四是如果不采用分层抽样,简单随机抽样或其它抽样方式的估计精度能否达到事先设计的要求?下面从几个方面加以分析:
一、分层随机抽样与简单随机抽样的精度比较若用得好,分层样本与一个可比的简单随机样本相比,给出的均值估计或总值估计,几乎总是有较小的方差,然而,说任何一个分层样本都比一个简单随机样本给出较小的方差,这是不对的,当nh的值远离最优值时,分层抽样可能有较大的方差。事实上,当总的样本量为固定时,分层抽样也可能给出较大的方差。下面对分层随机抽样与简单随机抽样的精度作一比较。设为简单随机抽样的方差;为按比例分配的分层随机抽样的方差;为最优分配的分层随机抽样的方差。
因为
,
又
+
两边同除N-1,由于均较大,可忽略,则
所以
+
所以
又因为
其中:是的加权平均值,所以
,
因此当的项被忽略不计时,由
++
可以看出,从简单随机抽样变成最优分配的分层抽样时,方差中有两个部分消失了。第一部分为是消除了层间均值的差异的影响的结果;第二部分为是消除了层间标准差的差异的影响的结果,反映了最优分配在方差上的差异。
若含的项不忽略时,则
+
式中当
时,也即层间方差小于层内方差时
按比例分层还会比简单随机抽样有更大方差二、设计效应抽样方案不同,估计量的精度也会不同。基什于1965年提出了一个衡量抽样方案效果的量,称为设计效应,记作Deff。
Deff=
设计效应的主要作用有两个:评估比较复杂的抽样方案的效率和确定样本量。
从Deff的定义可以看出:简单随机抽样是衡量其它复杂抽样技术效果的标准。若Deff<1,表明这种复杂抽样的精度比简单随机抽样的高,即抽样误差比简单随机抽样的小。
设计效应Deff中涉及的是简单随机抽样和复杂抽样的估计量的方差。事实上,抽样调查后获得的只是一个样本,因此,如何利用样本估计Deff就成为一个值得讨论的问题。对于一个复杂的抽样设计,问题的关键在于如何确定与复杂抽样样本量相同的简单随机抽样估计量的方差。
在分层随机抽样中,由于所得的样本是分层随机样本,用样本方差估计总体方差
未必无偏,所以不能用公式作为的无偏估计。此时的无偏估计量为:
如果样本量按比例分配,则
三、层权误差的影响用分层样本估计时,估计量是以层权为权的加权平均。因此必须正确地掌握层权。若未知而又不能精确地估计,将对估计量的精度带来严重的影响。
设真正的层权为,实际使用的为,则估计量
于是
所以,是有偏的,且偏倚不会随样本量n的增大而减小。此时估计量的方差:
由于简单随机抽样中估计量的方差V(Y〖TX-〗〖DD(〗∧〖DD)〗)是随n的增大而减小的,故当层权不准时,因分层在精度上的利益将随着n的增加而迅速丧失。当n大到一定程度时,分层随机抽样估计量的精度就会比简单随机抽样的差。
当未知时,为保证分层抽样的精度,可采用二重抽样。先从总体中作一次样本量较大的简单随机抽样,对这个样本不必具体测量样本单位的标志值,只需区分每个样本单位属于哪一层,以估计层权。然后,按分层抽样在第一次的样本中进行再抽样,对第二个样本,需测量单位的标志值,并由此作出关于总体特征的估计。
四、分层标志的选择既然分层是按一定标志进行的,于是,就提出了怎么选择分层标志的问题。为使各层间的差异尽量大,从理论上讲,选择调查标志本身作分层标志时,分层的效果最好,但这在现实中是不可能的。因此,我们想到用与调查标志关系密切的其它标志来分层。而要从众多的标志中去选取那个与调查标志关系最密切的标志,在实践中也非易事,尤其是当有关资料缺乏或对现象总体了解不够时。为此,可以考虑以下几点思路:
(1)如果具备调查标志的全面的过去资料(如上一次的普查资料),而且自那时以来的变化不太大时,可用调查标志本身的过去资料来分层;
(2)尽量利用自然标志分层。如居民按居住地域分为城、乡两层,可供调查居民收入水平支出结构、人均耐用消费品拥有量等问题。自然标志通常是现成的,在现实社会经济现象中很多,也容易为人们所接受,方便实用,且常能满足多项标志分层的需要,同时,我们也注意到,有些自然标志用于分层时也确实能体现调查标志间的差异。
(3)充分利用那些能决定调查标志数量差异的品质标志。例如职业往往能决定收入的高低因此可用职业作为居民收入抽样调查的分层标志。优先选择品质标志的另一个理由是其标志表现较数量标志少很多,层界也容易确定。再者,对那些事先缺乏足够了解的新事物的调查,从品质标志着手分层相对要容易些。
(4)在多个可供选择的数量标志中,应选取那个与调查标志相关系数绝对值最大者。相关系数的测定可以过去资料为依据,也可以试抽样的样本资料或二重抽样中的一重样本资料为依据。当然,被选中的分层标志应具备全面资料。
(5)同时使用几个标志进行重叠分层。实践证明,使用几个标志进行较粗的分层所产生的效益一般大于使用一个标志作较精细的分层所产生的效益。
(6)当同时掌握一个品质标志和一个数量标志的资料时,应优先选择按数量标志分层。因为,品质标志只能用于分层选样,而数量标志即可用于分层选样,又可用于构造总体参数的比估计或回归估计。
以上只是就单项目分层抽样而言,而在实际应用中多项目分层抽样是比较常见的,利用一套样本对多项指标进行推断,已是今后抽样的一个趋势,但它也比单项目的分层抽样要复杂得多。
多项目分层抽样的主要问题之一是如何兼顾各个项目抽样推断的需要,合理进行分层。第一种思路,是从多项需要推断的指标中,选取被认为是最重要的一项,然后根据该项指标调查推断的需要,选择合适的标志对总体进行分层。
第二种思路,是当各项之间存在显著相关关系时,可选择其中任何项目的过去资料进行分层。如果有各项目的过去资料可供选择,通常应按其中离散程度最大、两两相关程度最大、能决定其它指标数值之变化为要求,选取一个项目的资料进行分层。如果把各项目过去资料改为相关标志,可作同样处理。
第三种思路,是利用现成的品质标志和自然标志分层。
第四种思路,是当各项目之间相关关系不明显时,最好采用多标志层叠分层(也叫做复分层)的方法,即先按某一主要项目的过去资料或相关标志分层,然后各层再按另一次要项目的过去资料或相关标志分小层……,直到按所有的(或若干重要的)项目分层。这种方法适合于大总体大样本的分层抽样。当然,也可以使用以上思路以外的其它比较合适的方法进行分层,如根据各项目的过去资料聚类分层等等。
五、层数的确定分层标志确定后,接下来的问题是层数的确定。
由于分层抽样的抽样误差仅和各层内的差异有关,分层的目的也正是为了降低层内各单元间的差异。在正常情况下,总体方差是一定的,分层数越多,层间方差就会越大,层内方差也就会越小,分层抽样的效果就会越好,因此,在样本单元数既定和不增加调查费用的条件下,尽量多地分层是可取的。但这并不意味着分层数可以无限增多,因为当层数达到一定数量时,估计量方差下降的速度就变得很慢,这时再增加层数的意义就不大。另一个原因是分层越细,工作量就越大,费用也不能不增加。因此当层数达到一定量时,再分层的费用会大幅度上升,这与所提高的精度相比可能会得不偿失,这时也不应再增加层数。同时,层数还受制于样本容量的大小。由于每层中至少要选出两个抽样单元,以计算方差的无偏估计值,因此,层的数目不应大于总样本容量的一半。
由此可见,层数应该有所限制,并非越多越好。一般可以把层数由L个往上增加所产生的效应用模型来表示。其中,是方差中受分层影响的部分,它与分层标志和调查标志之间的关系相对应,随层数的平方而降低,但方差的部分则与分层标志无关,不受层数增加的影响。因此,在中等数目的分层产生以后,方差就逼近这个水平。如令R=0.8,则当L=6时,方差降低到0.018+0.36=0.378,当L=12时,方差只降低到0.004+0.36=0.364。
对于按自然标志分层的总体,自然层数通常就是理想的和有效的层数。因为这种分层轮廓清晰,层次分明,既与实际情况相符又能体现性质差异,并且基本上是现成的,可直接应用。有时,自然分层也层内有层,可供再分层之用。
若是按数量标志分层,而层界较难确定时,则可采用现代多元统计分析方法中的聚类判别法来确定层界和层数。但要注意以下几个问题:一是聚类判别法要与定性分析相结合,避免以数量上的小距离把不同性质的单元归为一类;二要与传统统计分组法相结合,灵活分层,不拘泥于其数量框框;三要具备一定的现代化数据处理设备。有学者认为,按单一数量标志分层时,有3至10个层就足够了,更有理论研究表明,对于一个分层变量取到L=6就可以了。
总之,分层数多少的确定应遵循三条原则:首先,层数的多少要符合社会经济现象的实际情况,避免背离实际去人为地确定;其次,层数的多少应体现总体内性质差异的要求一致,不能因层数的不合理而掩盖性质上的差异;再次,层数的多少要能最大限度地满足提高抽样精度的要求。
六、层界的确定分层抽样的L层由(L-1)个分界点所决定,所以最佳分层便是找到(L-1)个分界点,以使分层抽样的抽样方差在抽样方式、层数和样本量分配方式都为已定时达到最小。
在比例分配中(设可忽略),能使方差
为极小值的一组点也是使
为极小值的最佳分界点。可以证明,满足该条件的第h和h+1层的最佳分界点为
同理可得在最优分配的条件下,求第h和h+1层的最佳分界点的方程为
.
然而,上述方程在实际中是无法求解的,因为和都同有关。因此,一些学者曾讨论提出过相关的近似求法,如戴伦纽斯和霍奇斯(DaleniusandHodges,1959年)的快速近似法,塞蒂(Sethi,1963年)的结合总体分布特征求解的方法等。上述研究都是假定可以用调查变量y本身的值来分层,而这是不现实的。实际中,常是用某些其它变量如x来分层的。研究表明:如果y和x有直线关系,则用比例分配按x求得的最佳分界点对y也为最佳;更进一步,如果y与x的回归是线性的,所有各层中的y与x高度相关,则用x分层同用y一样有效。
设
,
其中E()=0对一切x和成立,且与x不相关。是在第h层内e的方差,则使达到最小值的x界限满足下列方程:
=
其中,是h层内y与x的相关系数。
七、抽样后分层分层抽样须先分层再抽样。如果在抽样前分层有困难,也可以在抽样后分层。但前提条件是每层的大小必须已知,而且是准确的。事后分层是先在总体中抽一个容量为n的简单随机样本,再依样本中单元的某些特征进行分层,用
估计,其中,,是样本中落入第h层的单元数,若落入某些层的样本单元数为0,可将层加以合并,使>0。是落入第h层的样本的均值。
形式上与相同,但是随机变量,也具有随机性。可以证明:
式中第一项是按比例分配的分层随机抽样的方差,第二项表示因未按比例分配而引起的方差的增量。当落在每层的样本单位数较大(如大于20),也即n充分大时第二项就很小,因此,用这个方法几乎与按比例分配的分层随机抽样具有同样的精度。
在许多实际问题的研究中,常常需要按不同标准分类的统计数字。若采用事先的多重分层方法,困难很大,而且实际上也不一定需要所有每个子层的估计,于是可用事后分层的方式,以获得按各种分类的事后分层估计量。另一方面,从原则上讲,事后分层也可用于某种事先分层、但严格比例分层的样本,因为这种样本与简单随机样本一样是自加权的。由此可见,事后分层技术具有重要的实际意义。
第五章 比估计与回归估计前面所介绍的估计方法是简单估计,它主要是依据样本调查变量的资料来估计总体参数。在实际工作中,常常可能还已知或掌握了除调查变量以外的其它变量(称之为辅助变量)的有关资料,此时,若对各种辅助变量的资料加以充分利用,常能够使估计推断的精确度得以提高。本章介绍两种同时利用辅助变量和调查变量资料估计总体参数的方法,即比估计和回归估计法。
第一节 比估计的一般形式一、比估计综述比估计是依据调查变量与辅助变量间的比率来对总体有关参数进行估计和推断。通常简称比估计。
同简单估计相比,比估计具有以下特点:
(1)在比估计中,除调查变量外,还需要了解与调查变量有关的辅助变量,并且要求辅助变量的总体均值或总体总和必须事先已知。充分利用辅助变量带来的信息估计总体参数,比单纯用调查变量资料会有更好的效果。
如农产量调查,以本年单位播种面积产量为调查变量,往年单位面积产量或本年播种面积数则为与调查变量有关的辅助变量。
(2)比估计方法,对抽样调查单元是有条件的,通常是用组成总体的最基层单位为调查单元。如农产量调查和居民人均收入调查等,适合以户为调查单元,只有这样的单元一般才具有辅助资料。
(3)比估计只适用于有限总体,因为只有有限总体才可能计算出为比估计所需要的辅助变量的总体总和与总体均值。
(4)当每个单元的调查变量与辅助变量的比例(一般要求为正比例)十分稳定,且变异很小时,比估计就具有十分精确的估计效果,只要抽取少量的样本单元,就可得到满意的结论。
(5)在比估计时,出于估计精度方面的要求,选择辅助变量时,须与调查变量的关系愈密切愈好,至少要求相关系数在1/2以上。在实际工作中,如果两变量间没有什么相依关系,以至各自的变异毫不相干,其相关系数小于1/2,甚至趋近于0,就不能采用比估计。这是仅就正相关系数而言的;如果相关系数值为负,则无论二者关系多么密切,比估计的效果仍然是很差的,且愈密切愈差。
比估计中,辅助变量可以是上次普查或调查时与调查变量相应的数据(即调查变量的前期或历史资料);也可以是对调查变量的粗略估计;或者是表示单元规模的某个量。
若辅助变量是调查变量前一时期的值,则比估计法就是利用样本去估计自那时以来所发生的相对变化Y/X。以估计的相对变化y/x乘以已知的前一时期的总体总和来估计现在总体的总和。
在实际工作中,特别是在对社会经济现象的抽样调查中,由于种种原因,每个单元的调查变量与辅助变量的比例不可能是确定的,总是存在或大或小的差异。为了充分发挥比估计的优越性,在应用比估计时应考虑两条:
一是选与调查变量有较密切的正相关关系的变量作为辅助变量。因为如果辅助变量与调查变量的关系不密切,各自独立变化,则对比估计起不了应有的辅助作用。
二是样本容量要比较大。因为比估计是有偏倚的,只有当样本容量n比较大时,其偏倚才能比较小,比估计才更加有效。
二、总体比率的估计设总体有N个单元,对每个单元考虑两个指标y和x。抽取容量为n的简单随机样本,则总体比率R的估计量为:
其中:,分别为指标与的样本和。
公式中的分子与分母都是随机变量,因而它的分布比更复杂。当n是中等大小时,的分布呈现正偏的趋势。当n>30,且能使y和x的变异系数都小于10%时,可以认为的分布趋于正态。
比率估计是有偏的,但当样本量n增大时,偏倚逐渐趋于零。
所以,当n增大时,,为R的近似无偏估计量,其方差为
其中:
,
,
分别为指标y、x的方差及协方差,而
是y与x的相关系数。
当总体方差未知时,可用样本方差替代,以估计方差。
此时
,
或
(未知时)
,
其中
,
,
分别为y、x的样本方差和样本协方差。
这两个估计量都不是无偏的,但它们与的偏倚都随着n的增大而减小。
三、总体均值和总和的比估计前面两章所讨论的估计量只是利用了调查变量的信息,这样的估计量称为简单估计量。当调查变量和辅助变量具有正相关关系时,为了利用辅助变量的信息,可以构造总体均值或总和的比估计量。在简单随机抽样中,总体均值和总体总和的比估计量分别为:
其中或必须已知。
当n充分大时
,
即与分别是与的近似无偏估计。
其方差为
,
这表明,比估计量是近似无偏估计量,随着样本量的增大,估计量的偏倚越来越小,精度也越来越高。
其方差估计量为:
四、比估计量与简单估计量的比较对简单随机抽样,若n足够大,则当
时,有
<
其中
,
分别为总体中x与y的变异系数。
证明:∵n足够大时,对比估计量有:
又对简单估计量,有:
∴当<0,即
时,
<
特别当≈(例如当x是y的前期数据时有这种可能)时,只要ρ>1/2,比估计量就比简单估计量更为精确。对一般问题,可先作一试点调查,估计出ρ的值,再判断作出选择比估计量或是简单估计量。
所以,我们的一个基本结论为:利用比估计提高抽样效果的条件是ρ>1/2。
五、样本容量的确定估计总体比率时如果允许的最大方差为V,当n大时,由
()
得
可以用以往资料估计,也可依试点调查确定。未知时,可以用代替。
估计总体均值时,如果允许的最大方差为V,由于,所以
估计总体总和时,如果允许的最大方差为,将代入上式,则得:
第二节 分层比估计由上一章的分析可知,分层随机抽样中总体均值的估计量为
也就是各层样本均值按层权加权平均。对分层随机抽样如何构造比估计量?先加权平均,还是先用比估计呢?应该说这两种考虑都可行。因此,分层随机抽样中的比估计量有两种形式:先构造各层比估计,再加权平均——各层分别比估计;先加权平均,再构造比估计——联合比估计。
一、各层分别比估计各层分别比估计是先对各层分别进行比估计,然后按层权加权平均,以得出总体参数的估计,即:
,(已知)
.(已知)
为便于表达,下面仅对Y的估计量加以阐述。由此,容易得到关于的估计量的结论。
在分层随机抽样中,若每层的样本量都较大,则为Y的近似无偏估计。其方差为:
式中:为第h层的比率;
和分别为第h层y和x的方差;
为第h层y与x的相关系数。
当各层的总体方差未知时,可用相应的样本方差代替。由此得到方差的估计量:
其中:为第h层比率的估计量,
和分别为第h层y、x的样本方差,
为y与x的样本相关系数。
Y的估计量的方差(或方差估计量)乘以即可得出的估计量的方差(或方差估计量)。
二、联合比估计联合比估计是先按分层随机抽样公式估计Y和X:
然后用这两个量的比及已知的X对Y作估计:
,
其中:
.
联合比估计只需要已知X,而无需已知每层的。此时:
分层随机抽样中,若总样本量n是较大的,则与分别为Y与的近似无偏估计,其方差为:
这里R为总体中y与x的比率。
其方差估计量为:
三、各层分别比估计量与联合比估计量的比较从偏倚的角度看,各层分别比估计量的偏倚较大,从方差的角度看,除了各层比率均相等时,外,一般只要各层的样本量均较大时,各层比估计更加有效,即有:
,
因此,当均大时,用分别比估计量否则,用联合比估计量较好。
第三节 回归估计的一般形式简单随机抽样中的比估计量(X已知),其实质是用来估计。若关于的回归直线通过原点,相关系数ρ又比较大,可以认为(a为常数),这时,用比估计精度就高。如果关于的回归直线不通过原点,如何利用辅助变量的信息来估计调查变量的总体参数呢?这时,用回归估计更为有效。
一、回归估计概述回归估计就是根据样本各单元调查变量与辅助变量间的关系构造回归方程,并据回归系数对总体有关参数进行估计。
如果在回归估计中只有一个辅助变量,则所进行的估计称为一元回归估计,若同时采用多个辅助变量综合进行估计,则称为多元回归估计。多元回归估计比一元回归估计效果更好,但更复杂。这里只介绍一元回归中的线性回归估计。
回归估计的主要特点有:
同比估计一样,回归估计充分利用了有关的辅助变量资料以有效地提高估计的精度;回归估计中要求辅助变量的总体均值或总和事先已知;回归估计一般只适用于有限总体,因为只有有限总体才可能计算出辅助变量的总体均值和总和;回归估计量一般优于比估计量和简单估计量。特别地当回归系数等于总体比率(即总体回归直线通过原点)时,回归估计量与比估计量的效果相同,当调查变量与辅助变量间的相关系数ρ=0时,回归估计与简单估计的效果相同。
但是,回归估计量的优越性只有在大样本的情形下才能得到较好的发挥,而在小样本时,它的性质就不大好,因而使用回归估计量,样本量一定要大,一般情况n≥30时,回归估计量较比估计量和简单估计量有较优的估计效果,但它的意义不如后两法简单明了,计算方法也较为复杂,特别是多元线性回归估计或非线性回归估计时更是如此。不过随着电子计算机的广泛应用,再复杂的计算也可通过计算机进行。
回归估计中辅助变量可以是一个,也可以是两个或多个;辅助变量应与调查变量存在一定的联系(不一定是密切关系)。
二、回归估计量的一般形式对于简单随机抽样,总体均值与总和Y的线性回归估计量定义为:
估计量右下角的“lr”取自linearregression(线性回归)。
其中,已知,、是样本均值,β可以是事先设定的常数,也可以是从样本中计算得到的某一特定的统计量,例如样本回归系数。β一旦确定,回归估计量的形式也就确定了。特别,当β=0时,;时,。所以简单估计量和比估计量都可以看成是回归估计量的特例。当β=1时,实质是用估计。
1、β为设定的常数(如β=B)时的情形
β为事先设定时的回归估计量,理论简单又富有启发性。在实际问题中,也常常可以将β事先确定,例如为同样目的进行的调查若重复多次,则有理由将从以往的资料中得出的对的回归系数B作为β的设定值。此时,回归估计量则为:
在简单随机抽样中,是的无偏估计量。其方差为:
当、、分别为简单随机样本的方差与协方差时,则方差
为的无偏估计量。
以上对y与x的关系未作任何假定,不论y与x有何种关系,不论B取什么值,总是无偏的,但方差的大小受到影响。那么,B的最佳值为多少呢?B的最佳值实际上就是使估计量的方差达到极小时的取值。可以证明当
时,的方差达到极小,且
其中ρ为y与x的相关系数。
证明:要使为极小值,则必使对B的偏导数等于零,即
则:
代入可得
证毕。
2、β需从样本计算时的情形当β需从样本计算时,受前面确定B的最佳值的思路的启发,β的一个有效估计应是总体回归系数B的最小二乘估计,也即取β为样本回归系数b
此时,总体均值的回归估计量为:
这时的回归估计量与β=B时不同,不再是无偏估计量,而是近似无偏的,因为样本回归系数本身是一个随机变量,它是总体回归系数的估计量。
在简单随机抽样中,当n充分大时,有
方差的估计量为:
三、回归估计量与简单估计量及比估计量的比较当n很大时,由以前的讨论,有
,
,
由于|ρ|≤1,故(ρ=0时,取等号)。
而
因此.(B=R时,取等号)
可见,在大样本时,回归估计量的精度要好于简单估计量和比估计量。
第四节 分层回归估计设x为与y对应的辅助变量,,为已知。与比估计量情形一样,在分层随机抽样中,也可考虑两种形式的回归估计。
一、各层分别回归估计先对每层分别进行回归估计
(已知)
然后按层权加权平均,得总体平均数的估计量为:
.
当各层的理论回归系数之间有较大差异时,考虑用此法。
当为设定的常数(如=)时,是 的无偏估计量,且
.
在
(h=1、2、…、L)
时达到极小值:
=
=
当回归系数需从样本估计时,令
为的最小二乘估计。当每层的都较大时,
,
其估计量为
=
二、联合回归估计先按分层随机抽样公式估计和,即得到估计量和,然后用这两个估计量构造的回归估计量
,(已知)
当事先设定(如=)时,也是的无偏估计,且
.
当时方差达到极小值
,
式中
,
,
,
即是各层回归系数的加权平均值。由
,
所以对于最优的的选择,除非各层的,否则,分别估计优于联合估计。
当回归系数需从样本估计时,令
作为的样本估计。
若是按比例分配的,用代替-1,则上式简化为
此时
其估计量为
=.
总结:若确信每层中的回归线性很好,又不大,的变化也不大,则应采用;而当回归是线性的,但的变化很大,都比较大时,应采用;若回归的线性不好,除非都相当大,否则还是用比较保险。
第六章 整群抽样第一节 整群抽样概述一、整群抽样的概念整群抽样是先将总体各单元划分成若干群(组),然后以群为单位,从中随机抽取一部分群,对中选群内的所有单元进行全面调查。确切地说,这种抽样组织形式应称为单级整群抽样。
如果总体中的单元可以分成多级,则可以对前几级单元采用多阶抽样(详见下章),而在最后一阶中对该阶抽样单元所包含的全部个体(最基本单元)进行调查,这种抽样称作多级整群抽样。本章只讨论单级整群抽样。
设总体被划分为N群,第i群含有Mi个次级单元,全部总体次级抽样单元数记为M0,即M0=∑Mi。当诸Mi都相等时,称为等群;否则,称为不等群。
二、分群的原则同分层抽样一样,整群抽样的前提是先要对总体进行分群。那么群如何划分呢?有两个问题应予考虑:一是如何定义群,即当群并非是一个自然形成的单位时,确定每个群的组成;二是如何确定群的规模即群的大小。
分层抽样是在各层都进行随机抽样,“层是缩小了的总体”,抽样单元仍然是总体基本单元。这决定了分层的原则是:尽量缩小层内差异,而扩大层间差异。而整群抽样只是在各群之间抽取一部分群进行调查,并在抽中的群内作全面调查。因此,群间差异的大小直接影响到抽样误差的大小,而群内差异的大小则不影响抽样误差。在这里抽样单元是各个不同的群体,所以“群实际上是扩大了的总体单元”。这就决定了分群的原则应该是:尽量扩大群内差异,而缩小群间差异。按此原则分群,则能保证每个群对总体都具有足够好的代表性。作为极端情况,假定各群之间总体单元的分布完全相同,即群间不存在任何差异,那么只需抽取一个群进行调查就能充分满足抽样估计精确度的要求,整群抽样的效率就很高。这就是说,整群抽样特别适合于群内差异大、而群间差异小的情况。
至于群的规模的选择,一是取决于精度与费用之间的平衡,二是从抽样实施的组织管理等因素来考虑。
三、整群抽样的特点同其他抽样组织形式相比较,整群抽样具有如下特点:
1.在大规模抽样调查中,常常没有或很难编制出包括总体所有次级单元在内的抽样框,而整群抽样则不需要编制庞大的抽样框。
2.在样本单元数相同的条件下,整群抽样与简单随机抽样相比,样本单元的分布相对较集中,虽然样本的代表性较差,但调查组织实施过程更加便利,同时还可以大大地节省调查费用。因此,实际工作中,在权衡费用和精度之后,有时宁可适当增加一些样本单元数,也采用整群抽样方法。
3.整群抽样的随机性体现在群与群间不重叠,也无遗漏,群的抽选按概率确定。
4.如果把每一个群看作一个单位,则整群抽样可以被理解为是一种特殊的简单随机抽样。
5.整群抽样也是多阶段抽样的前提和基础。
6.整群抽样有特殊的用途。有些现象的研究,如果直接调查作为基本单元的个体,很难说明问题,必须以一定范围所包括的基本单元为群体,进行整群抽样,才能满足调查的目的。如人口普查后的复查、要想估计出普查的差错率,只有通过对一定地理区域内的人口群体作全面调查才行。类似地诸如人口出生率、流动率等调查都需要采用整群抽样。
7.整群抽样要求分群后各群所含次级单元数目应该确知,否则会给抽样推断带来不便。
四、关于群大小的计量整群抽样中,如何有效地对群的大小进行计量,直接关系到抽样估计效率的高低。研究表明,对群的大小的最优计量尺度是各群在所研究标志上的标志总量大小。但在实际工作中,它是未知的。因此通常选择与所研究标志高度线性相关的另一辅助标志作为计量尺度。为此,要求掌握关于辅助标志的更进一步细致的资料,而这又会带来一系列新的问题,如增加工作量及费用等。所以,在整群抽样的实际应用中,经常选择以各群所含次级单元数的多少作为群大小的计量尺度。当各群所含次级单元数相等时,就称群的大小相等;当各群所含次级单元数不相等时,就称群的大小不相等。
五、整群抽样与分层抽样的比较
综合前面的分析,比较整群抽样和分层抽样可以发现二者在分组(层或群)的条件、调查的方式、分组(层或群)的目的、分组(层或群)的原则、总体方差的分解等方面都存在着较为明显的差别。
第二节 等概率整群抽样的情形整群抽样中对群的抽取有多种方式,本节只讨论按简单随机抽样抽群,即等概率抽样,也称PPF抽样的情形,下节讨论不等概率的情形。
一、预备知识
(一)有关符号的涵义
为总体群数;为各群所含次级单元数;为第群中第个次级单元的观则值;
为总体所含次级单元总数;
为样本所含次级单元总数;
为第群各次级单元观测值总和;
为第群的均值;
为总体各次级单元观测值总和;
为样本各次级单元观测值总和;
为总体各群的均值;
为样本各群的均值;
为总体均值;
为样本均值;
为总体方差;
为样本方差;
为总体群间方差;
为样本群间方差;
为总体平均群内方差;
为样本平均群内方差;
为抽样比。
(二)群内、群间差异的定量刻划正如前面所分析的,整群抽样的精度在很大程度上取决于群内各次级单元间差异程度的大小。那么如何有效地对分群后各群内次级单元间的差异和各群之间的差异加以测定?也就是对群内差异和群间差异怎样做定量刻划?通常有两种不同的思路:
1、离差平方和的分解——群内方差与群间方差的测定先分析总体的情况:
对于总体,对离差的总平方和可作如下分解:
式中第一项为群内离差平方和,用其除以即为平均群内方差,也可直接称之为群内方差,用表示,则:
< 为自由度>
式中的第二项为群间离差平方和,用其除以即为群间方差,用表示,则:
由此,依总体方差的定义及总体离差平方和分解可以得出:
同理,可得样本的方差及其分解如下:
需要注意的是,由于群的抽取是简单随机的,因此,可以证明与分别是与的无偏估计。但从次级单元角度而言,样本并不是简单随机的,因此,不是的无偏估计。的一个无偏估计可构造如下
当N充分大时,
另一方面,当也足够大时,可看作是的近似无偏估计。
2、群内相关系数群内相关系数是反映总体中群内各次级单元间相关程度的一个统计分析指标。是同一群内不同次级单元的观测值对总体均值离差乘积的平均与总体所有次级单元观测值对总体均值离差平方的平均之比,记作
的取值在范围内。当时,表明群完全是随机组成的。值愈大,表明群内的单元愈相似;值愈小,则群内单元的差异愈大。当时,表明这个差异比随机分组时群内的差异更大。
也可用群间方差与群内方差表示,此时
或
在实际应用中,当群的大小不等时,可用平均群的大小代替,用上式估计.
二、群的大小相等时
(一)估计量整群抽样是以群为单位进行抽样,如果群的抽取是简单随机的,则当群的大小都相等时,可以将简单随机抽样理解为是一种特殊的整群抽样,特别当总体分群后的每个群都只包括一个次级单元时,整群抽样和简单随机抽样一致。因此,整群抽样的估计量可以比照简单随机抽样方式来构造。
1、总体均值的估计由于总体均值
是各群均值的平均,而
是样本各群均值的平均,所以根据简单随机抽样的基本思路可得此时总体均值的无偏估计量应为样本均值,即:
2、总体总和的估计同理可得总体总和的无偏估计量为
3、总体比例P的估计令为第群中具有所研究特性的次级单元数,则表示第群中具有所研究特性的次级单元所占的比例,总体中具有所研究特性的次级单元所占的比例为
如果是按简单随机抽样方式抽群,则有的无偏估计量为
(二)估计量的方差及其估计由于群是按简单随机方法抽取的,因此,估计量与的方差及方差的无偏估计量可直接按第三章的方法构造,无需专门推导。结果如下:
≈
≈
三、群的大小不等时在许多情况下,总体各群的大小是不完全相等,或完全不相等的。若各群的大小相差不大时,总体参数的估计量可按简单估计或比估计来确定:
(一)简单估计如果群的抽取是简单随机的,则可将每个群的总和看作是第群的指标,于是总体总和的简单估计可依照简单随机抽样的情形(参第三章)来做,即:
可以证明,是的无偏估计,其方差为:
方差估计量为:
为无偏估计。
有了总体总和的估计量,则可得出总体均值的无偏估计量为
其中为总体各群次级单元之和,应事先已知,为第群所含次级单元数;为总体平均每群所含次级单元数,估计量的方差为:
方差的估计量为:
(二)比估计当群的大小不等时,在对群进行简单随机抽样的情况下,,我们注意到它同第五章所讨论的比率形式上完全相同,只不过在这里是将各群的大小作为辅助变量。因此,可采用比估计的方法得出有关参数的比估计量。按前面的论述,比估计量是有偏的,但当充分大时,其偏差可以很小,近似无偏。
所以,的近似无偏估计量为
的近似无偏估计量为
当群的大小不等时,总体中具有某种特性的单元所占比例(为第群具有某种特性的单元数),这与比率的形式仍然相同。因此也可用比估计的方法来构造出的近似无偏估计量:
根据比估计的原理,可相应推导出上述估计量的近似方差为:
≈
≈
≈
其方差估计量为:
(当)
从上面的分析来看,当群的大小不等时,简单估计量没有利用关于群大小的信息,如果群的大小与群的研究指标之间具有较高的相关性,则简单估计的效率就不如比估计。只有当群大小与群的研究指标间无关时,简单估计才比比估计效果好,但这种情况在实际问题中是很少见到的。
第三节 不等概率整群抽样的情形前面介绍的是按简单随机抽样方式抽取各群的整群抽样,即各个群不论大小如何,被抽到的概率都是相等的。如果群的大小悬殊很大,这样做就不大合适了。此时,可按群的大小比例采用不等概率抽样,即各个群被抽中的机会不尽相同,群大的,被抽到的机会大一些。不等概率抽样有放回的,也有不放回的。下面分两种情况分别加以讨论。(需要说明的是,不等概率抽样不仅可用于整群抽样,也可用于多阶抽样等其它抽样技术之中,本节只讨论整群抽样的情形。)
放回的不等概率抽样不等概率抽样通常是按与群的大小成比例进行抽样。当采用放回(重复)抽样时,叫做抽样(sampling with probability proportional to size)。
(一)抽样的入样概率和实施方法
1、入样概率设总体由个群组成,第个群包含个次级单元,按抽样,抽到第群的概率与该群的大小成正比,即其概率为。
有时,群的大小只是约略知道或这个“大小”并不是用群所含的次级单元数来表示的,而是用其它有关尺度来计量。此时,设第群的大小的计量尺度为,则有:
这时的抽样也称作抽样。
2、实施方法
1)代码法(累计和法,由汉森—赫维茨提出)
设不太大,且(或)都为整数,则赋于第群个代码,分别与各次级单元对应,由此可得到与总体所有次级单元一一对应的个代码。每次抽样产生一个之间的随机数字,则代码所在的群入样,重复抽样次,就可抽到所需的个群。抽样时,群的代码如下表:
群
群的大小
累计
代 码
2)拉希里法代码法在不太大时是适用的,但当很大时,就很不方便。此时可用Lahiri(拉希里)1951年提出的方法。
令每次抽取一个范围内的随机数及范围内的随机数,若,则第群入样;否则,重抽。重复这一过程,直到抽够所需的个群。
另外实际工作中也常采用各群单元累计等距抽样法,下一章中对此要专门进行介绍(见累计和等距抽样)。
(二)抽样的估计量对于抽样,其估计量可按汉森—赫维茨1943年提出的方法构造。即
故
其中与分别为与的无偏估计。
估计量的方差为:
方差的无偏估计量为:
,
至此,已经讨论了当群的大小不等时,估计总体总和的三种方法,即:按等概率抽样时的简单估计量、比估计量,以及抽样时的估计量。科克伦曾对这三种方法的精度作过比较研究,结论是:如果当增大时,没有显示趋势或只有不大的趋势,则要比精确一些;如果与无关,则较好;而通常是比较精确的;当较大时,项就给估计量和帮了忙。
二、不放回的不等概率抽样进行放回的不等概率抽样时,有的群可能被重复抽中,一旦被重复抽中将导致个单元重复,因此对样本的代表性影响较大,实际中通常都采用无放回的不等概率抽样。
按不放回的不等概率抽样时,可以有几十种不同的情况(有人曾总结出了50种)。当固定时,对不放回抽样,如果总体每个群的入样概率与其群的大小严格成比例,则称之为严格的抽样。抽样有多种类型。
若群的抽取是用严格的抽样方法进行的,则的估计应该用霍维茨-汤普森(Horvitz-Thompson)方法。即:
(固定时)
(固定时)
是的无偏估计;是的无偏估计,其中,为第群和第群同时入样的概率;为第群入样的概率,在固定时,
严格的抽样,不仅实施复杂,而且由于此时不易求得,故方差估计也很复杂.特别当比较大时,有时简直是不可能实行的。只有当时,严格的抽样才有一些比较简单且实用的方法。若用布鲁尔或德宾方法抽取个群,群和分别为,,群的相对大小分别为,,则的估计为
其中
第四节 设计效应和样本容量的确定在这里,我们只考虑群大小相等的情形。若群的大小不等,但相近,则用代替;若群的大小不等且差异较大,则可通过适当的拆拼,组成新的大小相近的群。
一、设计效应仍用总体均值估计量的方差进行讨论,并且考虑等概率抽样的情形。由前面的分析可知,的估计量的方差为
如果按简单随机抽样从总体中抽取个次级单元,则:
所以,整群抽样的设计效应为:
≈
≈
当时,,则整群抽样的精度较简单随机抽样在相同样本量时要差一些。当时,,则整群抽样的精度较相同样本量的简单随机抽样要高。
可见,整群抽样的设计效应大小(即精度的好坏)主要取决于总体中群内各次级单元间相关程度(在此主要是离散的程度)的大小。这也进一步证明了分群时遵循前述分群原则是十分必要的。
二、最佳群大小的确定如果样本大小固定,虽然调查费用随着群大小的增加和群数的减少而变小,但从前面的结果看出,抽样误差将随着群大小的增加和群数的减少而变大。因此,就要考虑求得最佳的群数或群的大小以便在给定费用条件下使抽样误差最小,或在给定抽样误差条件下使费用最省。为此,需要先分析整群抽样的方差函数和费用函数。根据前面的讨论,整群抽样的方差是总体群数、总体方差、群内相关系数、群的大小以及样本群数的一个函数,其费用函数可以简单地表示为
其中分别为总费用、固定费用、平均每个群的调查费用和平均每个单元的调查费用。在一般情况下,会比小得多。
如果总费用固定为,则由费用函数可得
代入方差函数得
=
当比大得多或以放回方式抽样时,上式可进一步整理成
由此可知,使方差得极小值的最佳值可用方括号内的项对的图形来决定。各种不同值下的值,可由对研究变量与其它的辅助变量作部分事先普查或试查得到,和的值也通过试调查得到。
同理,当误差控制要求确定时,也可以导出使费用极小化的最佳值。
三、样本容量的确定确定整群抽样的样本量一般有两种思路。
1、根据设计效应来定设总体由个群组成,每个群含个次级单元。若从中随机抽个群,则:
如果按简单随机抽样抽取个次级单元,即相当于抽取个群,此时
若抽样比很小,则可以忽略。要使整群抽样的精度与简单随机抽样一致,即
则
≈
故
≈
2、依精度要求来定依精度要求确定样本量,通常是以允许最大绝对方差形式来确定,此时根据、、的计算公式可以直接推导出在不同估计目标下样本量的计算公式,这一过程比较简单,所以在此不再一一列举了。
需要说明的是,在此所讨论的样本容量指的是样本所含群的数目,而非次级单元的数目。在确定了样本群数后,即可根据各群的大小推算出样本次级单元数目。
第七章 等距抽样第一节 等距抽样概述一、等距抽样的概念
等距抽样也称系统抽样或机械抽样。它是将总体各抽样单元按一定的标志和顺序排列以后,每隔一定的距离(间隔)抽取一个单元组成样本进行调查。其具体方法如下:
设总体由N个单元组成,并按某种顺序编上1到N的号码,要在其中抽取容量为n的样本,先在前K个单元中随机抽选出一个单元,以后每隔K个单元抽取一个单元,由所有抽中的单元共同所组成的样本称为等距样本。可见,抽出了第一个单元就等于决定了整个样本。这种抽样方法就是等距抽样。这里K称为抽样间隔。
如果总体容量N是所需样本容量n的整数倍,则抽样间隔K=N/n也是一个整数,这时,等距抽样的实施是很方便的。但当总体容量N不是n的整数倍时,K不为整数,这会给等距抽样的实施带来一定的困难。为克服其影响,可以考虑采用以下一些变通方法:其一,取K为最接近于N/n的整数;其二,在允许样本量为n或n+1时,可以挑选K以使得N大于nK,但小于(n+1)K。若要求样本量保持为常数n,也可在有n+1个单元被选出时,随机省略其中的一个单元。不过在后面这种情况下,总体各单元被抽中的概率不完全相等。其三,在用间隔K选样之前,用等概率的方法删去一些单元,以使N=nK;或者以等概率的方法选出一些号码,并将其加到总体清单的最后,以使N=nK。其四,采用小数表示的分数间隔。例如,假设要从N=920的总体中选出n=100的样本,则抽样间隔为K=N/n=920/100=9.2,从1到92中随机选一个起点,并依次加上间隔92,然后舍去最后一位数字就可得出恰好n=10个数字。
等距抽样的随机性是有一定限制的。在排序后的第一间隔所含K个单元中,任意抽取一个单元时,每个单元具有同等被抽中的可能性,符合随机原则的要求;而在以后各间隔中,按与第一间隔的相同位次抽取样本单元,各间隔内所有单元不再具有同等被抽中的机会,看起来是丧失了某些随机性,因此有时也将等距抽样称为“伪随机”抽样。但这时的随机性可以这样理解:将所有各抽样间隔内处在同一位次的单元分别组合在一起,构成不同的等距样本,共可组成K个等距样本,每个等距样本作为一个集体(或群),都有同等于1/K的机会被抽中,故称为可能等距样本。这样看来,等距抽样并未真正丧失掉随机原则。
二、排序标志
等距抽样需要有作为排序依据的辅助标志。排序标志各式各样,可自由选择,但归纳起来,可分为两类,即无关标志和有关标志,它们对等距抽样的作用和相应的估计精度各有不同的影响。
1、按无关标志排序所谓无关标志排序,即用来对总体单元进行排序的标志,与所要调查研究的标志是不同性质的,二者没有任何必然的关系。如研究人口的收入状况时,按身份证号码、按门牌号码排序非常方便,一般说来,这些号码与调查项目没有关系,因此可以认为总体单元的次序排列是随机的,所以也有人直接称无关标志排序的等距抽样为无序等距抽样。
在无关标志排序的条件下,各单元的位次排定,并不等于各单元的调查标志值也按同一次序排定,虽然是等距抽样,它与随机数字表上抽样,在性质上并无不同,故无关标志排序的等距抽样,实质上相同于简单随机抽样,二者只是抽样形式不同而已,完全无损于随机原则,它们在估计精度上也是一致的。
需要注意的是:对各单元的某一种排列方式,等距抽样估计量的方差(记作Vsy)与简单随机抽样估计量的方差(记作Vsrs)不一定相等,但是,平均说来,这两个方差是相等的。这里“平均”有两层意义:
(1)对给定的总体,即给定的N个单元Y1,Y2,…,YN,由这N个单元的每一种排列次序,可以计算Vsy和Vsrs,对全部可能的N!种不同的排列次序所对应的N!个Vsy平均,则有E(Vsy)=Vsrs(在N!个不同的排列次序中,Vsrs是不变的。)
(2)将总体看作是从一个无限的超总体中随机抽取的容量为N的样本。“平均”是指对从该超总体中所有可能的容量为N的样本求期望值,则E(Vsy)=E(Vsrs)。
2、按有关标志排序所谓有关标志排序,即用来对总体单元规定排列次序的辅助标志,与调查标志具有共同性质或密切关系。这种排序标志,在我国抽样调查实践中有广泛应用,如农产量调查,以本年平均亩产为调查变量,以往年已知平均亩产作为排序标志。利用这些辅助标志排序,有利于提高等距抽样的抽样效果。
利用有关标志排序,特别是利用与调查变量具有相同性质的辅助变量排序,进行等距抽样,无论在理论上和实用上都有重要意义。两种在性质上相同的变量,在前后时期的平均数指标上可能有所不同或有较大的差异,但在样本方差上,只要样本容量不是太小,是不会有多大出入的;至于总体方差,就更接近了。因此在表明估计精度的抽样方差分析上无论用哪种变量,所得结论都是一致的。如果总体只有一个线性趋势,则等距抽样的方差(Vsrs)同每层抽一个单元的分层随机抽样的方差(Vsy)都比简单随机抽样的方差(Vsrs)小,并且Vsy 将比Vsy大,因为当等距抽样中一个单元在所在层中太低或太高,就会在所有的层中太低或太高,而分层随机样本中这种偏差可相互抵消一些。
此外,在对某些总体进行排序时,也可以使用时间标志,即按时间先后顺序进行等距抽样。如对连续性生产(或作业)的产品每隔一定时间抽取一件或若干件样品作质量检验;每隔若干天进行市场物价抽查;按时间先后顺序排列的发票每隔多少张抽取一张进行审核等。时间标志等距抽样有时与调查标志无关,有时则可能有关,这要视具体情况而定。
三、等距抽样的特点同其他抽样方式相比,等距抽样具有如下特点:
(1)将总体各单元按一定的顺序排列后再抽样,使得样本单元的分布更加均匀,因而样本也就更具代表性,比简单随机抽样更精确,在某些场合下甚至可以不用抽样框。并且如果能够利用好样本的相应顺序在总体中均匀分布这一特点,则容易形成一个按比例样本。
(2)等距抽样简单明了,快速经济,操作灵活方便,使用面广,是单阶段抽样中变化最多的一种抽样技术。等距抽样最初用于森林和土地使用情况的调查,后来经过汉森、麦多、科克伦等学者的努力,使其成为当今家计调查、记录抽样、空间抽样、工业抽样和为普查取得附加信息及估计非抽样误差的一种常用方法。在我国,等距抽样已成了最主要、最基本的抽样方式,一些大规模的抽样调查,如农产量抽样调查、城乡住户调查、人口抽样调查、产品质量抽样检查中都普遍采用了等距抽样。
(3)当N=nK时,等距抽样就等同于每层只抽一个单元的分层抽样或群的大小相等时只抽一个群的整群抽样。
因为,这时,总体各单元可排列成如下方式:
y11 y21 … yi1 yk1
y12 y22 … yi2 yk2
┋ ┋ ┋ ┋ ┋
y1n y2n … yin ykn
若在第一个间隔抽中的单元是yi,则第i列就是我们最终所抽到的等距样本。若把每一列视为一群,则等距抽样可视为群的大小相等时的整群抽样,而抽中的是一个群。若把每一行看作一层,总体就被分成了n层,等距抽样就相当于分层抽样,但在每一层中只抽了一个单元,而且这个单元在每层中的位置是固定的。可见,等距样本在总体中分布得更均匀,这就使等距抽样的精度有时比分层随机抽样还要高。
(4)等距抽样的样本常被视为一个集体单元,一般不计算样本调查变量的方差,所以它只能抽象地进行理论分析,而不能对抽样方差进行估计。
(5)若总体中的单元呈周期性的变化,等距抽样的精度可能很高也可能很差。这时要慎重地选择K。
此外,从等距抽样的概念可以看出,它是一种不放回抽样。
已指出,当N=nK时,等距抽样可视为每层抽选一个单元的分层抽样。同时等距抽样与分层抽样还有某些相近之处:都属限制性抽样,在排序或分层时都需知道和利用总体的已知信息或辅助资料,并且,通过排序或分层都可增强样本的代表性。但是这两种抽样技术也有着本质的区别:
首先,划分抽样间隔与分层的意义不同。分层抽样中,常按总体单元的属性特征或标志值的大小分层,各层间一般都有一定程度的质的差别或数量界限,所以,分层是本质的、有形的。而在等距抽样尤其是按有关标志排序等距抽样中,抽样间隔划分的依据是抽样数目n,每个抽样间隔之间,并无明确的质的差别或数量界限,抽样间隔也只在抽样和计算误差时用到。
其次,抽取样本的方式和作用不同。分层抽样中,每层为一个子总体,在各层抽样是相互独立地进行的,要求样本对各层具有一定的代表性,所以在每层必须抽取一定数量的样本单元。而等距抽样中,在每一抽样间隔只抽取一个样本单元,这一单元又是由起点单元的位置所决定的,因此,各样本单元间不是相互独立的。且它不要求每一样本单元对该抽样间隔一定具有代表性,而是将全部样本单元作为一个整体来代表总体的。
再次,推算方式不同。分层抽样是在分层抽取、分层推算的基础上,通过对估计量加权平均或求和的方法来推断总体参数的。而等距抽样中,则是以整个样本直接推断总体参数的。
等距抽样的实施方法在等距抽样中,最简单最基本的方法是随机起点等距抽样。但在实际实施等距抽样时,考虑到排序标志的不同,以及总体单元数是否能被某一数值整除等因素,具体的抽样实施方法又可以有一系列不同的变化。下面介绍几种常见的等距抽样实施方法。
一、随机起点等距抽样
随机起点等距抽样就是前面概念所描述的方法。具体地说,它是在总体单元排序后的第1至K单元之间(第一个抽样间隔之内)随机抽取一个整数i,以它作为起始单元的编号,以后按固定的顺序和间隔依次在每个间隔之内各抽取一个单元组成等距样本,则整个样本是由以下编号的单元所组成的:
i+(j-1)K (j=1,2,…,n)
由于N不一定恰好是K的整数倍,所以按上述方法得到的等距样本的样本量可能为为避免这种样本量不能确定的情况,确保样本量为n,1952年拉希里提出了循环等距抽样的方法。
二、循环等距抽样
在N≠nK时,把总体中的N个单元按一定顺序排列成一个首尾相接的环(圆形图),取最接近于N/n的整数为抽样间隔K,然后在1到N的单元中,随机抽取一个单元(设为第i单元)作为起点,再沿着圆圈按一定方向每间隔K抽取一个单元,直到抽够n个单元为止。按此方法,可以保证样本量n不变。不过此时首尾两个样本单元的间隔不一定恰好为K,它可能小于K,也可能大于K。
循环等距抽样从本质上看仍然是随机起点等距抽样。
我们注意到,当N=nK时,在上述两种抽样实施方法中,无论按哪一种方法,总体中每个单元的入样概率都相等,从而是一种严格的等概率抽样。但当N≠nK时,按第一种方法每一个单元的入样概率依赖于初始值i,对不同的i,稍有不同。以下为了处理方便,我们假定N总是n的整数倍。在实际工作中,若n充分大,则由于N/n非整数而带来的影响就充分小,可以忽略不计。
如果总体是按有关标志排序的,则应用上述两种方法抽样有一定的局限性。因为,在有关标志排列的总体中,由于总体单元标志值的排列呈现出由小到大或由大到小的变化趋势,此时按上述方法进行等距抽样,如果随机起点偏小或偏大,则容易产生系统性偏差,大大降低等距抽样的估计效率。
因此,需要研究和改进有序等距抽样的方法。下列方法的提出正是基于这种考虑而对随机起点等距抽样实施方法所作的改进,它们更加适合于有序等距抽样的情形。
三、中点等距抽样
1953年麦多为克服随机起点等距抽样容易产生系统性偏差的缺点,提出中点等距抽样(即抽取中心位置的样本)法:计算出抽样间隔K后,以第一组的组中点为起点,等距抽取单元组成样本。如果K为奇数,以(K+1)/2为起点,K为偶数,以K/2或(K+2)/2为起点。 显而易见,这一方法是比较合乎逻辑的。因为,我们若把总体单元标志值yi看作是连续变量i的一个连续函数,那么,可以预期每一抽样间隔中心位置的单元比任何随机位置的单元更有代表性。这时样本均值的取值与总体均值相同或差距最小。特别是,在有序排列的总体中,标志值呈现出某种线性趋势时更是如此。但是,这种方法只能取一套样本,从而随机性受到限制,而且这套样本还依赖于单元排列的好坏。因此,人们对等距抽样的方法作了更进一步讨论。
四、对称等距抽样法
对称等距抽样也是针对有序等距抽样所提出的,其基本思想是使低标志值的单元与高标志值的单元在样本中对等出现。从而使样本的偏差缩小,代表性增强。由于具体的方法不同,对称等距抽样又有几种类型。
1、塞蒂的方法——两两对称等距抽样
1965年塞蒂提出了一种新的等距抽样方法——对称等距抽样法,以克服总体的线性趋势对估计效率的影响。
设N=nK,n为偶数。抽样时,先把总体单元分成n/2个抽样间隔,使每一抽样间隔含有2K个单元。然后,在每一抽样间隔内,抽取分别与两端距离相等的两个单元,这样共抽取n个单元组成等距样本。
即:如果随机起点为i,则在第一个抽样间隔所抽两个样本单元的号码分别为i及2K-i+1;在第二个抽样间隔所抽两个样本单元号码为i+2K及2(2K)-i+1;如此,最后在第n/2个抽样间隔所抽两个样本单元号码分别为i+(n-2)K及nK-i+1。
一般,若随机起为i,则抽中的n/2对样本单元的号码可以表示为
[i+2jK,2(j+1)K-i+1] [j=0,1,…,(n/2)-1]]
当n为奇数时,式中的j由0变到(n-1)/2-1为止,并且,要加上接近末端的第i+(n-1)K个单元。
实际中,为便于对称等距抽样的实施,当N=nK时,可以将原来由小到大(或由大到小)顺序排列的单元按照顺逆交替的次序排列在一个表中,这样,按随机起点等距抽样所抽取的样本即为对称等距样本。所谓顺逆交替是指在单元的排序中,若第一间隔由小到大排序,则第二间隔按由大到小排序,以此类推。
2、辛的修正方法——中心对称等距抽样
1968年,辛等人提出另一种对称等距抽样法——中心对称等距抽样法。即在有序排列的总体单元中,从两端划分抽样间隔。并从两端的抽样间隔开始,成对地抽取到两端距离相等的单元组成等距样本。
这里,仍假定N=nK。当n为偶数时,若随机起点为i,则与之对称的样本单元号为倒数第一个抽样间隔中的N-i+1;与第二个抽样间隔中i+K对称的是倒数第二个抽样间隔的(N-K)-i+1;如此,一直抽到中间两个抽样间隔为止。一般,以i(i=1,2,…,K)为随机起点的n/2对对称等距样本单元的号码可以表示为:
[i+jK,(N-jK)-i+1],[j=0,1,…,(n/2)-1]
当n为奇数时,式中的j由0变到[(n-1)/2]-1为止。然后,再加上中间一个抽样间隔中的第i+(n-1)K/2个单元。(我国抽样调查工作者提出在中间一个抽样间隔抽取中点处的一个单元。)
对称等距抽样既不违反随机原则,又能避免样本产生系统性偏差,改进样本的代表性,因而其估计效率比一般等距抽样要高,所以是实际中应用最多的方法。
五、两端修正法
抽样方法同随机起点等距抽样时的情形。但在计算总体均值的估计量时,对第一个和最后一个样本单元加权,其余单元的权数仍为1(在除以n以前),以矫正由于起点不在中心位置而引起的系统偏差。
1、耶茨的方法设N=nK,i为1~K中的随机数,则两端的样本单元的权数分别为:
其中“+”号用于第一个样本单元,“-”号用于第n个样本单元(下同)。当总体单元具有严格的线性趋势时,加权的样本均值就是总体均值。
2、具尔豪斯与拉奥的方法适用于N≠nK的情况,并采用循环等距抽样法,设i为1~N中的随机数。
(1)若i+(n-1)K≤N,这时n个样本单元不经过yN,则第1个样本单元和第n个样本单元的权数分别为
(2)若i+(n-1)K>N,设yN以后的样本单元有n2个,则第1个样本单元和第n个样本单元的权数分别为
六、总体有周期性变化时的等距抽样
有一些总体,其单元的标志值在随时间的自然排列顺序中,会呈现某种明显或不明显的周期变化趋势。如季节性消费商品的销售量,随一年四季的变化而呈现出周期变化。还有些总体,反映出不明显的周期影响。对有周期变化趋势的总体进行等距抽样时,抽样间隔K的选择,对估计效率的影响是极为重要的。
为了说明问题,我们不妨假定总体单元标志值的变化为一正弦曲线。如果选择的抽样间隔K恰好等于周期或周期的整倍数,则那样的样本只反映了变化周期同一相位的信息,每个样本单元的值都一样,必然产生显著的系统性误差,所以是最不好的选择。如果选择抽样间隔K等于半周期或半周期的奇数倍,则会反映变化周期中相反的两个相位的信息,当n为偶数时,各样本单元的离差相互抵消,样本平均数恰好等总体平均数,所以是较好的选择。
在上述两种情况之间,样本的代表性则取决于所选择的K与周期之间的关系。如果K的选择能使样本单元均匀地分布于周期的各个不同相位,则可以增强样本的代表性。如在商店日销售额调查中,应使样本单元均匀分布在每周各天,而不能只调查各周的同一天,除非调查的目的恰好是为掌握这种周期性。
七、累计和等距抽样以上所讨论的等距抽样都是以各单元大小相同为前提的,是等概率抽样。如果抽样单元的大小不同,且单元的大小又与调查变量相关时,用上述方法就不大合适了,此时,应采用不等概率抽样。其基本思路是:在总体各单元按某一标志排序后,累计各单元的大小Mi(当各抽样单元的大小用所含下一阶单元的数目表示时,也可直接累计其下一阶单元数)并进行编码,以总的累计数除以n作为抽样间隔,用K表示,然后在最初的1到K个数中随机确定一个数j(1≤j≤K),j所对应的单元即为第一个被抽中单元,以后每间隔K抽取一个随机数,并按同样的方法确定出对应的单元作为样本单元,组成等距样本。累计和等距抽样的原理同上一章所讨论的群大小不等时群的代码法,此法在实际工作中经常用到。
第三节 总体参数的估计一、等概率抽样的情形为讨论方便,仍假设N=nK,则在如下的排列形式中,有:
(i=1,2,…,K)
y11 y21 … yi1 yk1
y12 y22 … yi2 yk2
┋ ┋ ┋ ┋ ┋
y1n y2n … yin ykn
(一)估计量设等距样本为表中第i列单元,且i是随机决定的,总体均值的估计量用表示,则
是的无偏估计。
若N≠nK,则上述估计量是有偏的,但当n充分大时,其偏倚可以充分小。
(二)估计量的方差如前所述,如果总体单元是按无关标志排列的,则其方差可按简单随机抽样去做。若总体单元是按有关标志排列的,则此时的等距抽样可以看作是整群抽样或分层抽样的特例,因此,等距抽样估计量的方差可以比照整群抽样或分层抽样的方法构造,有几种表示方法
1、用等距样本内(群内)方差表示设等距样本为表中第i列单元,且i是随机决定的,则
,
其中
为等距样本(群)内方差;S2为总体方差。
这表明,当等距样本内部的方差大于整个总体方差时,等距抽样比简单随机抽样有更高的精度。因此,为了提高等距抽样的精度,只要有可能就在对总体单元排序时尽可能扩大各等距样本内的差异。当且仅当>S2时,等距抽样比简单随机抽样精度高。
2、用等距样本内(群内)相关系数表示
其中
为同一等距样本内(群内)成对的单元之间的相关系数。当的值大于0时,方差的值就会变大。
3、用同一等距样本内单元对关于层平均值的相关系数表示
其中
为层内方差;
恰为比例分配分层随机抽样的方差;
是第h层即第h间隔的平均值;
是等距样本内单位对关于层平均值的相关系数。可见,当时,等距样本与每层取一个单元的分层随机样本精度相同;>0时,等距抽样的精度低于分层随机抽样;当<0时,等距抽样的精度高于分层随机抽样。
这里,层是由第一组K个单元,第二组K个单元等组成。
(三)方差估计量前已指出,等距抽样相当于群的大小相等时的整群抽样,但抽中的是一个群,这就使这个受人欢迎的抽样方法有了一些遗憾:等距抽样没有无偏的方差估计量。这里只介绍两种方差估计方法。而在冯士雍、施锡铨著的《抽样调查—理论、方法与实践》一书中,列举了八种不同的方差估计量,并进行了比较分析。
1、总体单元无序排列(即按无关标志排列)时可把等距样本看成是简单随机样本,因此,其方差估计量可表示为
,
其中
2、总体单元有序排列(按相关标志排列)时前已指出,等距抽样可看成是从每层抽取1个单元的分层抽样。但凭一个单元的标志值无法估计层内方差,于是把相邻两行(层)的2K个单元组成一层,从中抽取2个单元作为样本,这样总体就被合成了n/2层(假设n为偶数)。
第h层的层内方差
,h=1,2,…,1/2
将诸代入比例分配的分层随机抽样的有关公式,则
,(这里 )
将上式中的下标h改为j就得到
(1)
式中:是相邻两个标志值的一阶差分,它们间互不重叠,中利用了n/2个这样的一阶差分,这就要求n必须是偶数。为摆脱这个限制,增加平方和的自由度,以每相邻两个标志值的一阶差分(它们是重叠的,共n-1个)代替n/2个不相重叠的一阶差分,得:
(2)
研究表明:(1)式和(2)式对大多数模型的总体都具有一定的优良性,即使对总体的性质知道得很少,它们也是一个好的方差估计量。但(1)式受到n必为偶数的限制,因而(2)式更值得推荐。
此外,也有人建议采用交叉子样本法来估计等距抽样的方差,但这种方法在实际操作中有诸多的不便,且当各子样本不大时,效果也一般。对此感兴趣的读者可参阅有关文献。
二、不等概率抽样的情形
等距抽样中每个单元的入样概率也可以是不相等的。一般的不等概率等距抽样定义如下:令{πi}是一组入样概率,i=1,2,…,N,且,r是[0,1]区间内的一个随机数,则当
k=0,1,…,n-1
时,总体中的第i1,i2,…,in个单元即为抽中的样本单元。当每个πi≤1时,抽样是严格不放回的。最常用的也是最简单的不等概率等距抽样是πPS等距抽样,即令πi与单元大小Mi成比例
其中M0等于是总体所有单元大小的总和。
不等概率等距抽样的实施方法一般是累计和等距抽样法,这在第二节中已作了介绍。
与其他不放回的不等概率抽样一样,不等概率等距抽样对总体总和Y的估计也是采用霍维茨—汤普森估计
对于πPS等距抽样,又有
是无偏的,其方差可表示为(此时,n是固定的)
由于对一般的n,πij的形式极为复杂,且有可能为零,因此,关于的估计可按如下思路进行:
一种考虑是将不放回的πPS等距样本作为放回的PPS样本处理可得到如下的方差估计形式
因为实际抽样是不放回的,为此,应考虑乘上有限总体修正系数(fpc)1-f,由于这里的单元实际上是不平等的,因此,f不是简单的等于n/N。我们使用f的以下估计
则可以得到方差估计量的另一种形式
对于随机排列的总体,的效果很好。
若考虑用相邻样本观测值(但这里需用nyi/πi代替等概率情形的yi)差值的平方和来表示方差,则得到
或
对于具有线性趋势的总体,这两个方差估计量特别适用。
第四节 其它形式的等距抽样一、分层等距抽样
分层等距抽样,是对总体分层后在各层独立地选取起点进行等距抽样。由此看来,若按某种标准分层,把等距抽样的若干抽样间隔分为一层,则一般的等距抽样实际上就是一种特殊的比例分配分层抽样。所谓特殊,是指在各层中起点的选取不是相互独立的,而是由第一层起点所决定的。
分层等距抽样可以集中发挥分层抽样和等距抽样的优点。实际中,如果需要知道各层的估计资料,或者需要在各层安排不同的抽样比,或者在各层内等距抽样比简单随机抽样更精确更方便,显然应该采用分层等距抽样方法。
分层等距抽样时,总体平均数的估计量应该是:将各层等距抽样的估计量加权平均。即若 为第h层等距样本的平均数,则总体平均数的估计量为
其中,Wh为第h层的权数,nh为第h层抽中的样本单元数,Nh为第h层的总体单元数。
估计量的方差为
其中为第h层估计量的方差,在相应的条件下,可由前面所介绍的方差估计量进行估计。
二、二维等距抽样
二维等距抽样,是对分布在平面上的总体单元直接进行的等距抽样。如农产量调查和森林木材积蓄量调查中,从抽中地块抽取样本点,即属这种情况。
实际上,我们所研究的总体单元绝大多数分布在平面上,以前是通过对总体单元的编号,排队等方法,将它化为“一维等距抽样”。但在一些情况下,还需直接在平面上抽取样本。
二维等距抽样的方法很多,下面仅介绍几种最简单、实用的方法。
1、方格法是将总体所在的平面区域G,按照需要抽取的样本单元数划分为若干大小相同的方格,然后以等距方式在每个方格抽取一个样本单元组成样本。即抽样间隔之长等于方格的边长,可按下述公式计算:
其中,K=抽样间隔;G=总体区域的面积; n=样本单元数这里,为方便讨论,假定地块的图形是长为a,宽为b的长方形,置于平面直角坐标系的第一象限。且a=Kp,b=Kq,p、q为整数,pq=n。当然,实际中的地块常常是不规则的,并不满足上述条件,但可通过割补法化成比较规则的几何图形,近似按上述方法处理。
从方格中抽取样本点有多种方法。①若取随机起点,并且它的坐标为(i,j),则所有样本点的坐标可表示为:
s=0,1,2,…,p-1;
(i+Ks,j+Kt),
t=0,1,2,…,q-1
②另一种方法是,把样本点放在每一方格的中心处,称为中心方格法。其样本的坐标为:
(K/2)+Ks,(K/2)+Kt).(s=0,1,2,…,p-1; t=1,2,…,q-1)
这种方法在农产量调查中多用于平播、撒播、窄垄和株行距较小的作物,如麦、水稻等。实际中,每个样本点是用测规或测框划出的园形或方形小地块,称为面积样本。每个样本点的面积常为10平方市尺,这样,便于计算。这种方法也称为框测法。
2、垄测法对于宽垄和株行距较大的作物,如玉米、薯类等,常采用垄测法。垄测法需先计算地块所有垄的总垄长,依地块情况,可按下述方法计算:
总垄长=平均垄长×垄数=地块总面积/平均垄宽,
其中:平均垄宽=地块两端宽度之和/地块两端垄数之和。
抽样间隔K=总垄长/样本单元数抽取时,从地块的一角开始,即从第一垄开始,按等距抽样方法依次向各垄抽取,每个样本点是长度为10市尺的垄段,这种样本也称为长度样本。
实用中,还有许多方法,如将地块划分为正三角形小块,形成三角形网,使样本点散布于正三角形的顶点上。也还可以利用试验设计的方法安排样本。
关于二维等距抽样的应用可参看后面的农产量调查一节。
此外,在实际工作中当总体各单元标志值的变化比较均匀,且层界不明显时,也常采用等距分层抽样的方法。其基本思想是,先对总体按有关标志排序,然后等分成L个间隔。将每个间隔视为一层,在各层内分别独立进行简单随机抽样。它与一般分层抽样的区别在于,将不同大小的层(用各层所含单元数表示)调整为同大小的层;它与一般等距抽样的区别在于,改每层按固定位置抽取一个单元为每层独立抽取若干个单元。在等距分层抽样中,其估计量及方差仍按一般分层随机抽样方式去构造。
第八章 多阶抽样第一节 多阶抽样概述一、多阶抽样的基本概念前面介绍的几种抽样方式,均是从总体中通过一次抽样,就可产生一个完整的样本,这类抽样可称为单阶抽样。但抽样调查的实践中,常常面对的总体不但单元数很庞大,而且分布在广大区域内,很难通过一次抽样产生完整的样本。因此应是根据实际情况将整个抽样程序分成若干个阶段,一个阶段一个阶段地进行抽样,以完成整个抽样过程,这种抽样就叫多阶抽样。
具体描述如下:
如果在每个一阶单元中,都随机抽取部分二阶单元,由这些二阶单元中的总体基本单元组成样本,这在抽取样本的方式上,就相当于分层抽样;如果在全部一阶单元中,只抽了部分一阶单元,并对抽中的一阶单元中的所有基本单元都作全面调查,这就是整群抽样。实际中,如果一阶单元内总体基本单元数相当大,作全面调查比较困难,或者一阶单元内各二阶单元可以给出相近的结果,作全面调查又无必要。
这时,从费用和抽样估计效率考虑,便可以从总体中随机抽取一部分一阶单元,然后再从被抽中的一阶单元内,随机抽取部分二阶单元并对它们进行全面调查,我们把这种抽样技术称为两阶抽样。它是由印度统计学家马哈拉诺比斯首先提出来的。
如果在被抽中的二阶单元中,再抽取部分三阶单元组成样本,并对抽中的三阶单元进行全面调查,这就是三阶抽样。类似地,有四阶抽样或更高阶的抽样。通常,将两阶以上的抽样称为多阶抽样。
顺便指出,前面介绍的整群抽样实际是第二阶抽样比为100%时的一种特殊的两阶抽样,故也称作单级整群抽样。分层抽样实际是第一阶抽样比为100%时的一种特殊的两阶抽样。
多阶抽样中,各阶段可采用不同的抽样方法,也可采用同一种抽样方式,要视具体情况和要求而定。
两阶抽样与整群抽样的主要区别在于:整群抽样是对总体中抽取的每个样本群体所包含的基本单元进行全面调查;而两阶抽样则把总体中所有的群体视为一级单元,对每个被抽一级单元所包含的二级单元(亦即基本单位),不是进行全面调查,而是再进行一次抽样调查—也称抽子样本。即两阶抽样,产生两级样本,最后综合估算出总的一级样本指标。至于在综合估算的方式方法上,两种抽样也是极其相似的,只不过前者为就被抽一级单元的样本指标进行综合估算,后者为就被抽样群体单元的全体指标进行综合估算,仅此不同而已。
两阶抽样中,总体各个一阶单元所包括二级单元数,有相等和不相等的两种情况。前种情况无论样本的抽取和指标的估算都较简单,然而在抽样实践中很少有这种情况存在,但作为基本方法仍有其实际意义;后种情况在抽样和指标的估算方法上都较复杂,然在实践中普遍存在这种情况。
二、多阶抽样的特点
(一)便于组织抽样当总体基本单元数目很大,分布很广时,若采用简单随机抽样,那么,编制全部总体单元的抽样框和现场实施随机抽样,都是相当困难的;若采用等距抽样,则为提高抽样估计效率,需将全部总体单元有序排列并等距抽取,也是很困难的;若采用分层抽样,则为提高抽样估计效率,需掌握全部总体单元的有关资料,按照分层的原则进行分层,然后到各层都去抽样,这一分层和在大范围抽样的工作,是很繁重的;若采用单级整群抽样,也需掌握总体单元的有关资料,按分群的原则分群,并在抽中的群内作全面调查,这一分群和在群内全面调查的工作也是很庞大的。如,我国有一亿八千多万农户,为作农村住户调查,若编制这样庞大的抽样框直接抽取农户;或按其特点分层,使层内方差较小;或进行分群,使群内方差较大;等等。其工作量之大都是难以想象的。
若采用多阶抽样,就可避免上述抽样技术中的麻烦。它可按现有的行政区划或地理区域划分各阶抽样单元,从而简化抽样框的编制,便于样本单元的抽取,使整个抽样调查的组织工作容易进行。如在农产量调查中,一般采用的是五阶抽样,即省抽县,县抽乡,乡抽村,村抽地块,地块抽样本点进行实割实测。因此,可以说多阶抽样既保持了单级整群抽样的优点,又克服了它的缺点。
(二)抽样方式灵活,有利于提高抽样的估计效率多阶抽样中,各阶段可以采用同一种抽样方法,也可以根据各阶单元的分布情况,采用不同的抽样方法。同时,还可以根据各阶单元分布情况的不同,安排不同的抽样比。如方差大的阶段,抽样比大一些;否则,可以小一些,以利提高抽样估计效率。再有,多阶抽样不仅具有单级整群抽样的优点,而且与之比较,多阶抽样的样本单位分布较广,样本代表性较强。
另一方面又避免了对较小单元进行过多调查的浪费,因而大大提高了效率。
(三)多阶段抽样对基本调查单元的抽选不是一步到位的至少要经过两步抽样,这也是多阶抽样区别于单阶抽样之处。因此,多阶段抽样的随机性体现在每一阶单元的抽选上。而在各阶段可以充分利用辅助信息来增加效率。但由于在现实中,各阶单元大小相等的情形又几乎是不存在,所以对于各阶单元大小不等的多阶段抽样,如何保证每个基本单元都有相等的可能性被抽中,是一个比较复杂的问题,有待进一步作深入探讨。
(四)多阶段抽样实质上是分层抽样与整群抽样的有机结合以两阶段抽样为例,从总体所有一阶单元中抽取部分一阶单元,相当于从总体所有群中抽取部分群的整群抽样;而在所抽中的每个一阶单元中分别抽取部分二阶单元,就相当于分层抽样。因此,二阶抽样从技术上看是整群抽样与分层抽样的综合。
(五)多阶抽样在抽样时并不需要二阶或更低阶单元的抽样框,这是其一大优点当然,对于第一阶抽样,初级单元的抽样框是必需的。在以后各阶抽样中,仅仅需对那些已抽中的单元准备下一级单元的抽样框。这在实际问题中是非常方便的。因而多阶抽样在实际中应用非常广泛。特别当抽样单元直接采用各级行政单位或有隶属关系的单位时,更是如此。例如对一项全国性抽样调查,若调查不需要在每个省进行时,就可将省作为一级抽样单元,第一阶抽样先抽省,然后在每个抽中的省进行第二阶抽样——抽市或县,对每个抽中的市、县又可进行第三阶抽样——抽街道、乡、镇等等。在这个过程中,我们并不需要准备全国各省中的市、县及街道、乡、镇等的抽样框。在第一阶抽样中,仅需要关于省的抽样框,对每个被抽中的省才需要进一步准备市、县的抽样框,同理对每个被抽中的市、县才准备有关街道及乡、镇的抽样框,…。当然在多阶抽样中,各级单元的划分并不一定与行政系统完全一致,是比较灵活的。因此多阶抽样组织管理也是比较方便的。
(六)多阶抽样还可用于“散料”的抽样,即散料抽样所谓“散料”,是指连续松散的、不易区分个体或抽样单元的材料。例如一堆煤,一仓库粮食,一列车水泥,一船化肥等。对于散料,抽样单元需人为划分,当然也可以取其自然的单位,特别是当货物已经包装后。通常对于散料抽样,一级单元是自然或人为划分的分装(例如一袋化肥或一车皮矿石),二级单元则是从分装中(有时需从其中各个部位)抽取一定数量(例如一公斤)的份样作调查。
此外,多阶抽样还具有应用广泛的特点。它的应用甚至超出了抽样调查的直接范围,不仅在社会经济统计或技术统计方面已有广泛应用,而且在自然现象或科学试验中也有广泛应用。如在工业、农业、物理、化学或生物试验中,做试验的物质往往是从本身也是一个样本的物质中抽取的,这实际上也是两阶或多阶抽样。
第二节 一阶单元等大小的多阶抽样一、二阶抽样
(一)有关符号的涵义记为第i个一阶单元中第j个二阶单元的标志值(或指标值)(i=1,2,…N;j=1,2,…,M)。
N为总体所含一阶单元数;
n为样本所含一阶单元数;
M为每个总体一阶单元所含二阶单元数;
m为每个样本一阶单元所含二阶单元数;
=n/N为第一阶抽样比;
=m/M为第二阶抽样比;
=NM为总体所含二阶单元数;
=nm为样本所含二阶单元数;
为总体中第i个一阶单元的标志总量;
为样本中第i个一阶单元的标志总量;
为总体各一阶单元的标志总量;
为样本各一阶单元的标志总量;
为总体第i个一阶单元内的均值;
为样本第i个一阶单元内的均值;
为总体各一阶单元间的均值;
为样本各一阶单元间的均值;
为总体各一阶单元内均值的平均,即总体中各二阶单元的均值为样本各一阶单元内均值的平均,即样本中各二阶单元的均 为总体第i个一阶单元内的方差;
为样本第i个一阶单元内的方差;
为总体各一阶单元间的方差;
为样本各一阶单元间的方差;
为总体各一阶单元内方差的平均,即总体各二阶单元间的方差;
为样本各一阶单元内方差的平均,即样本各二阶单元间的方差。
(二)估计量及其方差由于二阶抽样中,抽样过程分成两步,因此,对于总体参数的估计量求均值和方差时,必须把这两阶抽样过程所能产生的所有样本加以平均,即
其中,E表示所有样本的期望值或均值,、分别表示对第一阶抽样求的均值与方差,、分别表示对固定的第一阶抽样中抽得的一组一阶单元对第二阶抽样求的均值与方差。
对于三阶抽样可以有类似的公式
,
.
1、总体均值的估计对于二阶抽样,若两个阶段的抽样都是简单随机的,则其总体均值的无偏估计量为
.
由于在每个一阶单元中的第二阶抽样是相互独立进行的,所以,在二阶段都用不放回方法抽样时,其总体均值估计量的方差可构造为
=
可以证明其方差的无偏估计量为
其中,为的无偏估计,不属于的无偏估计,的无偏估计为
式中右边第一部分相当于第一阶段抽样的误差,它只与各一阶单元间差异大小有关;第二部分相当于第二阶段抽样的误差,它只与各一阶单元内(即各二阶单元间)差异有关。又因为远大于,因此在二阶抽样中,估计量的方差主要同第一项的大小有关,也即主要同第一阶段抽样比的大小和总体各一阶单元间的差异大小有关。据此,要控制二阶抽样的误差。首先要考虑在一阶单元划分时尽可能缩小其相互间的差异并相应扩大第一阶抽样比。当然这样又可能会使第二阶抽样的误差有所增大。如何协调这样一对矛盾呢?为此,有必要进一步讨论第一阶抽样和第二阶抽样的最佳抽样比问题,以使估计量的方差达到最小。
2、最佳抽样比的确定在总费用一定时,考虑下述简单的线性费用函数
若一阶级单元间的旅费不占重要位置,则上述费用函数被证明是适用的。这里是与样本量无关的固定费用,分别为平均每调查一个一阶单元和二阶单元的费用。
又方差函数
式中右边的最后一项与及的选择无关,建立函数
则当费用固定条件下,使方差极小,或在方差固定条件下使费用极小,等价于使函数极小化。故使关于的偏导数等于零,则可求得的最优值为
(其中)
当不为整数时,应取整。令
若,则取;
若,则取
若或,则取
当的值未知时,可以用试点调查的结果加以估计,即取,则可以按上述同样的思路求得的估计量
=
其中,为试点调查中从每个一阶单元中抽中二阶单元的数目。
需要说明的是,估计量存在抽样误差,它的大小取决于比率的抽样误差。
求出后,将其代入估计量方差的计算公式或上述线性费用函数式中,即可求出的值。这样就可确定出最佳的抽样比和。
特别地,当时,即时,二阶抽样就化为对一阶单元进行的单级整群抽样,故其估计量的方差及其估计量就转变为整群抽样估计量的方差及其估计。当,即时,二阶抽样就化为按比例分配的分层随机抽样,且其层权相等,此时二阶抽样估计量的方差及其估计也就转变为分层随机抽样估计量的方差及其估计。所以,一般地二阶抽样也可看作是把一阶单元作为层的不完全的分层抽样。
然而,在大多数实际情况下,最优性相对来说是不显著的。因此,选择时一般并不要求比率和的估计量有高度的准确性。对此,布鲁克斯(Brooks)于1955年进行了较为深入的研究,并编制了一些有用的表格。W·G·科克伦曾在他的著作中介绍了有关这方面的内容。
3、总体比例的估计若需估计总体中具有某种特性的二阶单元所占的比例,则令
设为第i个一阶单元中具有该特性的二阶单元所占的比例,为抽到的第i个一阶单元中具有该特性的二阶单元所占的比例。
若两阶段的抽样都是不放回简单随机的,则总体比例P的无偏估计量为
其方差为
方差估计量为
式中
,
,
,
二、分层二阶抽样设总体分成L层,第h层有Nh个一阶单元,每个一阶单元均含Mh个二阶单元。在第h层随机抽了nh个一阶单元,又从每个被抽中的一阶单元中随机抽了mh个二阶单元。则的估计量为
其中
是按二阶单元的层权;
为第h层的样本均值。
其方差为
方差估计量为
其中
上式乘以则得 的方差及其方差估计量。
在分层二阶抽样中,若
即总体中每个二阶单元入样的概率都相等,则样本是自加权时
三、三阶抽样
设总体中含有N个一阶单元,每个一阶单元又含M个二阶单元,而每个二阶单元中又含有K个三阶单元,各阶样本大小分别为n,m和k。
令yiju(u=1,2,…K)为第i个一阶单元的第j个二阶单元中,第u个三阶单元的观测值,则
若三阶抽样中,每阶抽样都是简单随机的,则总体均值的无偏估计量为
其方差为
方差的无偏估计量为
其中
第三节 一阶单元不等大小的两阶抽样在两阶抽样中,各一阶单元所包含的二阶单元数不等是最普遍的现象,因此对其样本指标和抽样方差的估算,具有普遍意义,但较一阶单元等大小的估算复杂很多。根据各个一阶单元的不相等及其差异程度是否悬殊,在抽样时(即抽取一阶单元时)就要考虑采用等概抽样或不等概抽样。
一、等概率抽样在进行两阶段抽样时,不考虑各一阶单元权重(主要用所含二阶单元数的多少表示)的不同,一律予以同等被抽中的机会,在的变异不大时,既简单易行,且效果也好;当的变异悬殊时,则会对抽样产生不合理的影响。
假定总体由N个一阶单元组成,第i个一阶单元包含个二阶单元。从N个一阶单元中按简单随机抽样抽取n个一阶单元,然后在每个被抽中的一阶单元中按简单随机抽样抽取个二阶单元。
1、简单估计量由于两阶段的抽样都是简单随机的,因此总体总和的无偏估计量为
当两阶段均为不放回抽样时,其方差为
方差的无偏估计量为
其中=n/N为第一阶段抽样比,为第i个一阶单元内的抽样比;
,
若,即第二阶段的抽样比为常数,则
可见,此时是自加权的,是总体中每个二阶单元入样的概率。
若估计总体均值,则有
,
其方差为
方差估计量为
其中
2、比估计量简单估计量虽然是无偏的,但效果一般不好,方差较大。因此也可利用以为辅助变量来构造比估计量。
比估计量是有偏的,其估计量的近似方差为
方差估计量为
由此易得关于估计量的相应结果
,
其中用估计。
3、比例的估计在估计的公式中,令
就可得到估计比例P的公式。由于二阶单元总数通常是未知的,这里给出比估计的公式。
设表示第i个一阶单元的二阶样本单元中具有某特性的单位占的比例,则总体中具有该特性的单位占的比例的估计量
其方差估计量
其中
二、不等概率抽样关于不等概率抽取一阶单元的问题,统计学家们进行了广泛的讨论,提出了一系列方法,考虑到有些方法过于复杂,同时也限于篇幅,这里只讨论当n>1时的一般情形。读者若有兴趣了解更多的内容,则可以阅读后面提出的有关参考文献。
(一)放回的不等概率抽样
1、估计量及其方差设总体由N个一阶单元组成,第i个一阶单元包含个二阶单元。按PPz抽样(与第一阶单元的大小成比例的放回地逐个独立地抽样)抽取了n个一阶单元,第i个一阶单元入样的概率为,,(为衡量第i个一阶单元大小尺度;若为确知,则)。然后在被抽中的一阶单元中,按简单随机抽样,抽取个二阶单元,。
(1)如果一阶单元被重复抽中,则原来在第二阶段抽样中被抽中的个二阶单元也放回,按简单随机抽样再抽个二阶单元。在这种情况下,总体总和的无偏估计量是
可看作是从总体中独立抽取的一个大小为n的样本(对一阶单元而言)的样本均值。可以证明:
所以,是Y的无偏估计,其方差为
方差估计量
是无偏的。
(2)当一阶单元被重复抽中时,抽取二阶单元的其它方法:
①若第i个一阶单元被抽中次,就从中一次随机抽取个二阶单元(假定),此时
减少
②不论第i个一阶单元被抽中多少次,都只从中随机抽个二阶单元,这时
增加
在①、②两种情况下,估计量均为
其中为第i个一阶单元被抽中的次数。
2、估计量为自加权的条件前面已提到,如果一个估计量能表示成所有样本单元(在二阶抽样中是指所有二阶单元)的观测值之和乘以某个常数,则该估计量称为是自加权的。
在ppz抽样时,由
得自加权的条件是
此时
其中K为常数,是任意一个二阶单元被抽中的概率,因而,上式表示任意一个二阶单元被抽中的概率都相等。在实际应用中,若事先确定,也可按已被抽中的二阶单元确定。
对自加权的样本,其方差估计量可简化为
其中是第i一阶单元中的个二阶单元之和。
在PPS抽样(即)时,估计量简化为
当时,为自加权,也是的无偏估计。它的一个无偏的方差估计量为:
其中
(二)不放回的不等概抽样设总体由N个一阶单元组成,第i个一阶单元包含个二阶单元。第一阶段抽样是不放回的不等概率抽样,为第i个一阶单元入样的概率,,为第i和第j个一阶单元同时入样的概率。第二阶段是简单随机抽样。
此时,总体总和可采用以下形式估计
可以证明是Y的无偏估计量,其方差为
方差的一个无偏估计量为
第九章 二重抽样第一节 二重抽样综述一、二重抽样的概念在设计和实施某些抽样调查时,需要事先掌握有关总体的一些信息。但在许多场合下,总体的这些有关信息是事先未知的,或者不完全知道。为此,人们提出了二重或多重抽样的方法,以掌握有关总体信息,然后实施抽样调查。
二重抽样也称二相抽样。其基本做法是:对于一个大总体,先从总体中随机抽取一个较大的样本(第一重样本),由此估计有关总体的结构或辅助指标以及其他有关信息,为第二重抽样估计提供条件;然后再从第一重样本中随机抽取一个较小的样本(第二重样本),利用这第二重样本,对总体所研究变量进行抽样推断。
在某些情况下,也可在第二重样本中再抽第三重、第四重样本,由此形成多重抽样。其中二重抽样是最为常用的。
二、二重抽样的作用在社会经济抽样调查中,二重抽样的主要作用有下列几方面:
第一,用于从总体所有基本单元中筛选确定出主调查对象。有些调查中的主调查对象可能只是总体中的一部分,且与其它单元不易区分。如对老年痴呆症患者的调查,一开始我们并不知道究竟哪些老年人患有老年痴呆症,因此就需要采用二重抽样,从总体中抽取一个大样本,进行相对比较简单的调查测试,筛选出满足条件的对象,然后再从中抽选一个小的样本进行主调查。
第二,用于经常性调查。对于诸如居民的某些收入、居民基本生活支出、某些商品价格等指标,统计部门需经常了解。但因人财物力限制,又不可能做全面调查,且这些现象之总体又是相对稳定的,故也没必要大规模抽样。此时,采用二重抽样是合适的。如在家计调查的大样本中,抽一个小样本调查居民某些支出,从百分之一人口抽样中,再抽其中的千分之一进行妇女生育调查,等等。
第三,用于了解陌生总体内在结构或分布的大致情况,为抽样方法和抽样组织形式的选择提供依据。对于一些事先没有掌握任何信息的总体,如果以后要对其进行经常性的抽样调查,那么为了选择最佳的抽样方法和抽样组织形式,必须事先对总体的内在构成或分布情况有所了解。因此,就应该先从总体中随机抽取一个大的样本来得出关于总体内在结构或分布的结论,以后再从该大样本中按合适的抽样方法和抽样组织形式抽取一个较小的样本,对总体的各种指标作出推断。
第四,为分层抽样推断提供层权资料。分层抽样推断的前提是总体各单元能按分层标志进行归类并事先已知各层的层权。然而有些总体的层权是事先未知的,这时,我们可以先从总体中随机抽取一个大的样本,并对抽中的各单元进行分层,确定层权(作为总体层权的估计量),然后按分层抽样形式从该大样本中抽取一个较小的样本,对总体数量特征作出分层估计。
第五,为比率估计和回归估计提供辅助资料。前面已指出,比率估计和回归估计必须事先已知辅助标志的总体均值或总和,否则只能采用一般估计法。然而,具备辅助标志总体均值或总和资料的情况并不是常有的,在这种情况下,为了提高抽样估计精度而采用比率估计法或回归估计法,就可以先从总体中随机抽取一个大的样本得出辅助标志的均值或总和,作为总体均值或总和的估计量,然后再从大样本中抽取一个小样本进行比率估计或回归估计。
第六,在经常性的多项目抽样调查中,用于解决不同调查项目需要不同样本容量的问题。不同的调查项目由于总体内部变异程度的不同、对抽样推断精度要求的差别等原因,需要抽取不同的样本单元数,这时就可以先从总体中抽取一个大的样本满足样本容量要求大的项目的抽样推断的要求,再从大样本中抽取一个小样本用于其它调查项目的抽样推断。
第七,用于研究样本轮换中的某些问题。在一些连续性抽样调查中,同一单元不同时间的指标值往往存在相关,因此,可以利用这种相关采用回归估计以提高精度。但考虑到长期使用同一套样本单元会因厌倦情绪等原因影响调查质量,或者由于样本老化而使其代表性降低,因此,样本不能一直不变,而是需要定期进行轮换。利用二重抽样可以研究解决样本轮换中的某些问题。
当然,二重抽样的应用,也有个投入产出的问题。当在第二重抽样中因采用分层技术、比率估计法或回归估计法而在抽样估计精度上的得益,大于因第二重抽样所增加的费用时,二重抽样是值得采用的。第二个衡量的标准是,第二重样本因采用了分层技术、比率估计或回归估计法而得到的抽样估计精度,应优于直接按第一重样本进行简单估计的精度。
第二节 二重分层抽样一、二重分层抽样概述在分层抽样中,我们要求总体各层的层权应事先已知,如果层权未知或不能事先确定,则分层抽样在精度上的得益可能会在很大程度上被抵消掉,此时,选择二重分层抽样可以较好地解决层权问题。
二重分层抽样是先在总体中随机抽取第一重样本n′,对这个样本各单元进行分层后求各层的层权,然后从第一重样本中用分层随机抽样法抽取第二重样本n,用于估计总体指标。由于第一重简单随机抽样,第二重分层抽样,故其误差同二重的抽样都有关。
在二重分层抽样中,
为第h层估计层权
第一重样本量
第一重样本中第h层单元数
第二重样本量
N总体单元数
第二重样本中第h层单元数(第h层第二重样本量)
为第二重抽样第h层的抽样比
第二重样本中第h层第j单元观测值
L总体层数二、估计量及其方差在讨论二重分层抽样估计量的性质之前,我们先给出二重抽样中对估计量求均值与方差的一般公式如下
其中,、为第一重抽样结果条件下对第二重抽样的均值及方差,、则是对第一重抽样的均值与方差。
据此,可以构造出二重分层抽样的总体均值估计量为
其中
为第一重样本第h层均值的无偏估计。
可以证明是总体均值的无偏估计量。
如果第一重样本是随机样本,第二重样本为第一重样本的随机子样本,则估计量的方差为
其中为第一重抽样之方差,为第二重抽样之方差。
以各层的样本方差代替各层的总体方差,以样本各层间方差代替总体方差,则可得方差的近似无偏估计量为
由二重分层抽样方差计算式看出:首先,第一重样本n′越大,则抽样方差越小,估计效果越好;第二,如果n′=N,即第一重样本容量增大到总体,那么,这时的二重分层抽样实质上就是一般的分层抽样;第三,二重分层抽样遵循一般分层抽样的原则,则其抽样估计效果就好;最后,如果n′=n,即第一、二重样本量相同,则二重分层抽样就相当于简单随机抽样,但就其误差而言大于简单随机抽样的误差,因为,这时二重分层抽样误差中增加了层权的误差项。如不存在层权误差问题,那么这二者的估计效果相同。因而,在一般情况下,为减小抽样误差,必须使第一重样本n′大于第二重样本n。
三、样本容量的最优分配在二重分层抽样中,样本量最优分配的目的是按在费用一定时使方差达到极小,或在方差一定时使费用最省的原则确定第一重样本量n′和第二重每层样本量。
为此,可以考虑费用函数
其中,C′为第一重抽样平均每一单元的调查费用;是第二重样本中h层平均每个单元的调查费用。
由于是随机的,因此,我们考虑选择的n′与的期望费用
另一方面,由于方差函数
因此,当时,
所以,样本量的最优分配(即n′与的选择)应使函数
达到极小。根据柯西—施瓦茨不等式,可以得出符合上述要求的条件是
也即
将其代入费用函数(当给定时)或方差函数(当V给定时),即可求出n′的最优值。
在最优分配条件下,若给定,则可得出方差的极小值为
第三节 二重比估计一、估计方法在使用比估计量时,要求作为辅助变量的总体均值或总和应事先已知,但在实际中可能并不掌握关于辅助变量的资料,此时,就要考虑采用二重比估计的方法。
二重比估计的基本思路是先在总体中抽第一重样本用以估计总体辅助变量指标,再在一重样本中抽第二重样本按比估计法推断总体调查变量的数值。
二重比估计中常见符号的涵义为:
:一重样本量
:二重样本量
:总体辅助变量平均数估计值
:调查变量观测值
:二重样本平均数
:辅助变量二重样本平均数用二重比估计法估计的一般形式为
其中,是总体比率R的有偏估计量,,因为是有偏的,故也为有偏的,但当n充分大时,为近似无偏的。当n′和n均为简单随机样本时,其方差为
在N充分大时,项可以忽略。
当n为n′的子样本时,方差估计量为
科克伦曾经证明,在n′与n相互独立,且均为简单随机样本时,方差估计量为
显然:
①当n′远大于n时,两种估计之间的差异很小,并且当n是n′的子样本时的方差比n与n′相互独立时的方差要小。
②二重比估计的结果和都是有偏估计量,但随样本量的增大,这些偏差会减小,故它们是近似无偏的,且当n′较大时,二重比估计的精度比较高。
③当n′=N时,二重比估计的估计精度与一般的估计相同。但由于n′<N,故二重比估计的精度会低于一般比估计。当n=n′时,二重比估计的估计精度会低于简单随机抽样。原因是二重比估计增加了第一重样本关于辅助变量的误差。一般情况下,二重抽样中,n<n′。
④若第一重和第二重样本是各自独立抽取的,也即先从总体中抽取第一重样本n′,用以估计辅助信息,然后再从总体中,而不是从一重样本中,抽取第二重样本n,用以调查和推断总体研究变量,则其精度会更高,但抽样工作量却会大大增加。
二、样本容量的最优分配考虑费用函数
(其中,为第一重抽样平均每一单元的调查费用;是第二重抽样平均每个单元的调查费用,ν=n/n′为抽样比。)和方差函数
样本量的最优分配应是使函数
极小化,依柯西—施瓦茨不等式,有
因此
于是,当费用一定时,有
第四节 二重回归估计一、估计方法在使用回归估计量时,需要掌握有关辅助变量的资料,当其未知时,一个可行的办法是采用二重抽样加以估计。
二重回归估计的基本思路是先在总体中抽第一重样本作简单测试以估计辅助变量的总体资;再在第一重样本中抽取第二重样本用以对调查变量的总体指标进行估计。
有关符号为
:总体单元数
:一重样本量
:二重样本量
:为第二重抽样比
:辅助变量一重样本估计值
:调查变量观测值
:辅助变量观测值
:依第二重样本计算的(线性)回归系数
:样本相关系数二重回归估计可以采用多种形式,这里只涉及一元线性回归估计,此时,对总体均值的二重回归估计可采用以下形式
当n充分大时
其中
若n′和n均为简单随机样本,则估计量的方差为
当时,估计量的方差可按以下形式进行估计
其中
卡恩与特里帕绥(Khan and Tripathi)曾将二重一元回归估计推广到多元线性回归。
由此可见:
①若n′=N,则二重回归估计与一般回归估计的效果相同。若n′=n,则二重回归估计的估计效果同简单随机抽样的相同。因为,在一般情况下,回归估计优于简单随机抽样,所以,n′越大,则估计效果越好。
②相关系数ρ对抽样方差影响较大,ρ越大,抽样方差越小,所以有效地利用辅助变量,对提高抽样估计效果是很有帮助的。
③通常二重回归估计的估计精度是低于一般回归估计,原因是二重抽样中,以第一重抽样所估计的代替了总体,因而使抽样方差增加,故二重回归估计精度总比一般回归估计差。但当n′增大时,特别当,或者当=时,二重回归估计与一般回归估计精度一致。
二、样本容量的最优分配
在二重回归估计中,费用函数和方差函数分别为
因此,样本量的最优分配应是使函数
达到极小。则依柯西—施瓦茨不等式,有
也即
所以
当给定总费用时,则有
三、二重分层估计、比估计和回归估计的比较
1、在回归估计中,一般要求调查变量与辅助变量之间要有很高的相关关系,并且用于辅助资料的费用很低,实际中,这些条件常常难以满足。另外,回归估计的计算过程远比比估计和分层估计要复杂。
2、比估计不是无偏的,一般比回归估计有较大的方差。
3、如果调查变量与分层变量是线性相关的,则按比例分层的得益与回归估计基本一致。此时,使用分层方法还是回归估计法取决于回归方法的计算量带来的费用和分层方法的分层费用的多少。
4、分层抽样常比回归和比率均值有特殊的优越性,特别是在调查变量与辅助变量为非线性关系时,按比例分层能得到更大的得益;若分层变量不是数值型时,分层方法仍然可以使用,而回归和比估计方法则不能用。
5、如果辅助变量的总体均值是已知的,则回归和比估计可以在独立于辅助变量的n次抽选的样本上进行,而在分层抽样中,样本n必须是第一重样本n′的子样本。
第十章 非抽样误差及其控制数据的准确性与可靠性是抽样调查的生命力之所在。如前所述,在抽样调查中,除存在抽样误差外,还经常出现一些非抽样误差,主要的非抽样误差产生原因有抽样框不完善、无回答的出现、调查过程的差错以及数据整理登记过程中的差错等。因此,抽样调查中,不仅要控制抽样误差,而且还要控制非抽样误差。如何有效地控制非抽样误差,取得准确可靠的数据资料,以及如何对已经取得的数据进行质量评价,一直是抽样调查理论和实践中所经常关注和着力研究解决的重要问题。
第一节 抽样框误差及其控制一、抽样框误差的产生抽样框是有关总体全部单元的名录或地图等的框架,是抽取样本单元的依据。理想的抽样框(也称抽样总体)应该同所研究现象的总体(也即目标总体)一致,但在实践中,抽样总体与目标总体常常不一致,由此产生的误差就是抽样框误差。
考察抽样框误差的成因,大致有以下几个方面:
(1)丢失目标总体单元。在此情形下,抽样框没有能够覆盖全部目标总体单元,也就是使部分目标总体单元没有包括在抽样框中,因而也就没有机会被选入样本。由于存在丢失单元,使得总体总和的估计偏低,总体均值的估计也可能会出现偏差。丢失单元是一种威胁性较大的抽样框误差,具有较强的隐蔽性,不易被发现。
(2)包含非目标总体单元。有时,抽样框中也可能包含了一些不属于研究对象总体即非目标总体的单元,由此容易导致总体总和的估计偏高。但这种类型的抽样框误差一般要比丢失单元的威胁性小。因为在调查中,非目标总体单元往往更容易被发现,并予以剔除。
(3)复合联接。实践中常可能会遇到这种情况:抽样框中的单元与目标总体单元不完全为一一对应,而是一对多或多对一,即存在复合联接。在这种情形下,目标总体中各个单元的入样概率可能会受到相应的影响,从而导致非抽样误差的扩大。但是,有时候采用经过精心设计的有复合联接的抽样框可以提高稀有元素被抽中的概率。
(4)不正确的辅助信息。一般将不包含辅助信息的抽样框称之为简单抽样框,而将包含辅助信息的抽样框称为复杂抽样框。复杂抽样框中的辅助信息可以用于分层抽样、不等概率抽样,以及使用比估计和回归估计等。如果辅助资料不完全或不正确,则不但不能提高抽样估计的效率,反而会降低估计的准确性。
(5)抽样框陈旧。有时由于构成抽样框的抽样单元资料“老化”,抽样框所提供的信息与现实情况差距较大,也会导致抽样框误差。并且这类误差也可能进一步引起前面四类抽样框误差中的一种或几种同时发生。
二、抽样框误差的确定
(一)丢失目标总体单元时的影响前已指出,丢失目标总体单元是抽样框误差中威胁最为严重的一种。现设目标总体是由NA个抽样总体单元及另外N0个没有包含在抽样框中的单元(即丢失单元)组成,即N=NA+N0,则总体总和应为
其中为抽样总体总和,为丢失单元总和,为第i单元的观测值。现从抽样框的NA个单元中随机抽取nA个单元组成样本,则的无偏估计。当用NAYA来估计Y时,结果就会出现大小为的偏差,即
这表明Y被低估了。如果以r表示丢失单元与抽样框中单元的均值之比,即又以W0表示丢失单元占全部目标总体单元的比重,即,则总和估计量的相对偏差可表示为
当估计总体均值时,用估计的偏差为
;
此时的相对偏差为
表10.1与表10.2分别给出了不同的丢失单元比重W0对总体总和与均值估计的相对偏差。其中关于Y0与N0的值可依有关资料进行估计,对此,后面将专门讨论。
表10.1 丢失单元比重对总体总和估计的相对偏差丢失单元比重
W0
0.5
0.9
1.0
1.1
2.0
0.01
0.05
0.10
0.25
0.50
-0.0050
-0.0256
-0.0526
-0.1429
-0.3333
-0.0090
-0.0452
-0.0909
-0.2308
-0.4737
-0.010
-0.050
-0.100
-0.250
-0.500
-0.0109
-0.0547
-0.1089
-0.2683
-0.5238
-0.0198
-0.0952
-0.1818
-0.4000
-0.6667
表10.2 丢失单元比重对总体均值估计的相对偏差丢失单元比重
W0
0.5
0.9
1.0
1.1
2.0
0.01
0.05
0.10
0.25
0.50
-0.0050
-0.0256
-0.0526
-0.1429
-0.3333
-0.0010
-0.0050
-0.0101
-0.0256
-0.0526
0
0
0
0
0
-0.0009
-0.0049
-0.0099
-0.0244
-0.0476
-0.0099
-0.0476
-0.0909
-0.2000
-0.3333
(二)包含非目标总单元时的影响如果以M0表示抽样框中所含非目标总体单元数,MT表示抽样框中所含目标总体单元数,则抽样框所含全部单元数,在抽样框中不存在丢失单元,也没有复合联接时,则抽样总体总和可表示为
其中,是非目标总体单元观测值之和,是目标总体总量,为第i单元的观测值。现从抽样框的M个单元中随机抽取m个单元组成样本,则
为的无偏估计。当用来估计时,就会产生
的偏差,这表明被高估了。如果以u表示非目标总体单元与目标总体单元均值之比,表示非目标总体单元占抽样总体单元的比重,即
,
则总和估计量的相对偏差可表示为
当估计总体均值时,以估计的偏差为
此时的相对偏差为
表10.3和表10.4分别给出了不同的与u时总体总和与均值估计的相对偏差。
表10.3 总和估计中的相对偏差
非目标单元比重
0.5
0.9
1.0
1.1
2.0
0.01
0.05
0.10
0.25
0.50
-0.0050
-0.0263
-0.0556
-0.1667
-0.5000
-0.0091
-0.0474
-0.1000
-0.3000
-0.9000
-0.0101
-0.0526
-0.1111
-0.3333
1.1000
-0.0111
-0.0579
-0.1222
-0.3667
1.1000
-0.0202
-0.1053
-0.2222
-0.6667
2.0000
表10.4 均值估计中的相对偏差非目标单元比重
0.5
0.9
1.0
1.1
2.0
0.01
0.05
0.10
0.25
0.50
-0.005
-0.025
-0.050
-0.125
-0.250
-0.001
-0.005
-0.010
-0.025
-0.050
0
0
0
0
0
0.001
0.005
0.010
0.025
0.050
0.010
0.050
0.100
0.250
0.500
在实际调查中,如果将那些被选入样本的非目标总体单元剔除,而以样本中剩余的属目标总体单元的资料进行估计,由于减少了样本容量则会使估计的误差增大。令:
若i是目标总体单元
=
0 否则
则总体总和估计为
此时有
其中
同完善的抽样框(即)相比,包含非目标总体单元抽样框使得估计误差增大
(三)复合联接的影响对于复合联接的影响问题,Kiranandana曾于1976年进行过研究。
如果抽样框中没有丢失单元也不包括非目标总体单元,同时也没有将抽样框作分层处理,即假定:
,
,
,目标总体单元与抽样总体单元正确联接,
没有目标总体单元与抽样总体单元的错误联接,
以及
≥1,有一个以上的抽样总体单元同一个目标总体单元联接(复合联接),
不存在错误的复合联接,
则抽样框中的单元数目大于目标总体中的单元数目。
假定的最大值是Γ,则的范围是从1到Γ。令表示当=r(r=1,2,…Γ)时目标总体单元的数量,则目标总体单元的总数为
,
抽样总体单元总数为
于是有
,
令,则
又设Yr为具有复合联接r次的那些单元观测值之和,即
,
则存在复合联接的抽样总体观测值总和为
.
而目标总体的观测值总和为
.
现从M个抽样总体单元随机抽取m个单元组成样本,如果对复合联接不作调整,则总和估计的偏差为
,
相对偏差为
,
在均值均相等时,相对偏差则简化为:.
在估计总体均值时,由于
,
估计量的偏差为
当所有的都相等时,偏差则为0。估计量的相对偏差是相对偏差.
(四)不正确的辅助信息的影响抽样框中不正确的辅助信息会降低调查估计的精确度。Szameitat和Schaffer曾于1963年对分层抽样中使用不正确的辅助信息所造成的影响进行过专门的研究。
设依据辅助变量的信息,将总体分成L层,用简单随机不放回方式抽选出一个样本,对目标总体第q个部分的总和进行估计。令
为q部分中目标单元的数量,
为q中被正确归入h的单元数,
为q中被不正确归入h的单元数,
为h层中单元总数,
则
.
又设目标单元与抽样单元是一对一联接,且令
若抽样单元是q中的目标单元,
0,否则.
则
于是q部分的总和的估计量为
,
其方差为
.
三、抽样框误差的补救根据前面的分析可以看出,当抽样框不完善时常会给抽样估计产生程度不同的影响,但在实际中取得一个好的抽样框又可能十分困难,我们常常不得不面对各种有缺陷的抽样框。但这并不等于说我们就只能使用这种不完善的抽样框,事实上可以有多种办法用来对抽样框误差进行调整和补救。
(一)丢失单元抽样框的补救基本思路有两条:一是想办法将丢失的目标总体单元纳入到不完善的抽样框中,二是对产生于不完善抽样框的数据进行调整。具体方法有:
(1)对丢失单元实行联接。当在调查过程中能够查明丢失单元时,在调查前可以确定某种规则,将丢失单元同抽样总体中的单元联接起来,以便将查明的丢失单元纳入到不完善的抽样框中,并赋于其与抽样总体相同的抽选概率。
(2)采用辅助抽样框。即将查明的丢失单元单独编制成一个辅助抽样框,并同原抽样框一起使用。
(3)利用有关资料进行推算。通过分析丢失单元的特征,尤其将丢失单元同抽样总体单元进行比较,结合其它一些资料,则可以大致对丢失单元的统计特征性作出一个估计或判断,并以其对实际调查的结果进行调整的基础上作出估计,这样也可以减弱丢失单元造成影响。
(4)用复查结果调整。也就是采用核查和质量检查的方式,查明丢失单元的影响程度,并做为对原调查结果调整的依据。这种方法在我国的农产量调查中得到应用,在那里,抽样是依据上报面积进行,而在推算过程中是以核实面积调整上报面积(具体是用核实系数),又以丈量面积调整核实面积。
(二)其它类型不完善抽样框的补救对于包含非目标总体单元的抽样框的补救,可以利用有关信息来进行调整,也可以通过对抽样框进行质量检查的方法以查明和剔除非目标总体单元。不准确的辅助信息常常是同抽样框资料的老化有关的。因此,在构造完善的抽样框时,必须注意选择最新的资料,同时要加强对抽样框的维护,以保证抽样框的质量。对于抽样框中的复合联接问题,需要具体进行区分:对属于一对多联接(即一个抽样总体单元对应多个目标总体单元的联接)的情形,当这种现象比较多时,可以将其作为一种整群抽样,按整群抽样的方法处理;而对属于多对一联接(即多个抽样总体单元对应一个目标总标单元的联接)的情形,一是可以针对产生这种复合联接的原因重新定义联接规则,以使每个目标单元与抽样总体单元唯一联接。如以职工名单为抽样框抽选职工家庭时,规定必须是家庭中年龄最大的职工方可入选样本,这样即使一个家庭有几个职工,但与只有一个职工的家庭被抽中的概率是相同的。二是利用有复合联接的调查数据,对目标总体进行估计,(具体方法可查阅有关文献,如J.T.莱斯勒等人的著作)。
第二节 调查误差及其控制一、调查误差及其影响在调查工作过程中,由于测量工具的不准确,调查员的某些工作失误(如计量错误、计算错误、记录错误等),以及由于被调查者没有提供真实情况等因素影响,常使调查结果的准确性受到损害,产生一定的误差,这类误差就是调查误差,也称之为登记性误差。
样本所有单元的调查误差可能是某一常数,也可能互不相同(后一种情况是最常见的);样本中各单元的调查误差可能是互不相关的,也可能是相关的。在不同情况下,其影响也是各不相同的。当在一个样本之内一个单元的计量误差与另一个单元的计量误差彼此独立,整个总体的计量误差平均为零时,通常计算估计量的标准误的公式是把这种计量误差考虑在内的。这种误差降低了估计量的精确度,降低是否严重是值得查明的。如果样本中各不同单元的计量误差是相关的,则通常计算标准误的公式是有偏的。由于在实际中这些相关大部分是正相关,致使标准误可能偏小,这种干扰很容易被忽略。
如所有单元都有相同的常数偏差是最难于察觉的,对样本数据不论进行什么处理也不能使这种偏差显露出来。
关于调查误差,也可以利用一定的数学模型来进行分析,有兴趣的读者可以查阅相关文献。
二、调查误差的控制由于调查误差的产生会引起估计量的偏差以及影响对估计量作出真实准确的判断,对调查误差的研究引起了人们的注意。其中可能出现的问题是各种不同的调查所产生的调查误差是不一样的,它还涉及到费用、时间等问题,而且在计量过程中,很少有哪些器具使之不产生任何误差。
在无法保证能取得正确数据的情况下,可改用更正确可靠的方法重新计量,或者利用横向或纵向的比较(即比较两个总体的同一指标,或者比较同一总体不同时期的同一指标等等),从而对调查计量偏差至少有个粗略的估计。本书现介绍几种对调查误差作出数量上的估计与控制的方法。
(一)、随机子抽样方法假如有个调查员对某总体进行一次抽样调查,规定每人完成个单元的计量。为了评估这次调查的质量,通常所采用的方法是从这个调查员中随机抽取个,再组织个具有同样训练素质的调查员对他们各自完成的调查单元重新调查。
现在考虑某一对调查员所调查的数据,设由他们调查第个单元后所得的数据分别记为、 (i=1,2,…,m),按数学模型:
,(t=1,2)
是第个单元对调查作的若干次回答所产生的误差,称之为回答离差;是对第个单元若干次重复计量结果的平均。
由于与之间的差的平方提供了该单元调查误差方差的信息,将这对调查员所调查的单元得到的数据差的平方加以平均,则有
.
现在提出如下假设:
(1)关于同一单元的回答误差与不相关;
(2)第1次调查人员的简单回答方差与再调查人员的简单回答方差相等。
上述假设(1)、(2)在通常情况下具有一定的合理性。因为我们总是假定前后两次调查人员的调查是独立进行的,这一点保证了(1)的成立。而两位调查人员具有同样的训练素质则保证了假设(2)的成立。
在假设(1)、(2)成立情况下,上式提供了的一个良好估计,由/是仅对一对调查员而言,只要将对调查员相应的个上述结果相加再平均就成为的估计量。
当然也存在着假设不成立的情况,例如被调查者在第二次调查中仅仅依靠回忆第一次回答的内容,而不是“重新独立”地考虑回答的内容,此时显然获取了正的协方差,这样利用个/的平均去估计会发生“低估”现象。
为了利用随机子抽样方法对调查质量作出恰当的评估,尽量使假设(1)、(2)成立是值得的,就组织者而言,不让第二个调查员了解第一次调查的结果也许是有益的。
(二)交叉子样本方法除了简单回答方差之外,我们还需要对总回答方差中的相关分量有所了解。由数理统计学中方差分析的知识,为了分解出方差的各种成分,最好是将方差估计公式中的平方和进行类似于组内离差与组间离差等部分的分解。在抽样调查中,相应的较好方法无非是将样本随机分为若干组,然后由不同的调查员独立地对每组进行调查,这就是所谓的“交叉随机子抽样方法”。具体实施如下:
个待查的样本单元随机地分为个子样本,每个含=/ (假如可以被整除的话)个单元,假定这个子样本的单元之间不存在调查误差的相关性(这一点在许多场合是容易做到的。不然的话,在划分组时应将这个因素考虑进去)。指派个调查员分别对这个子样本进行调查,调查一般是独立执行的。因此,不同调查员之间不存在调查误差相关这一假设是合乎情理的。现在建立数学模型如下:
其中i表示第i个子样本(或第i个调查员),j表示该子样本中第j个单元,在第i组内
这里的是指同一调查员所得之间的相关系数。
由各不同子样本中调查误差的独立性,易得
对的估计常采用乘上某一常数因子的形式,在交叉随机子抽样模型中,变成,则有
显然,的自由度为,的自由度为k-1。
,
,
因此,在本模型中可以利用交叉随机子样本平方和作为的无偏估计,且
.
这蕴含了总回答方差的相关分量可以利用交叉随机子抽样估计量
[]/,
当然也可以估计出相关分量在总回答方差中所占的份量。
(三)数值异常情况在抽样调查中,常存在着数值异常现象。所谓“数值异常”是指调查所获得的数据超出正常范围之外。这种现象是由一些重大事件或某些异常因素引起的。数值异常现象大致分为两种:一种是数据虽属异常,但却是真实的。例如在调查部分地区经济现状或该年度生产总值时,恰逢某入选样本在调查期发生了严重自然灾害,此时我们手中获得的资料显然呈“异常”,但它在事实上反映了问题的本来面目。这一类异常的数据往往在第一次调查时就会被发觉,或者通过再调查核实时被发觉,并找到成因。第二种异常数据是人为地制造的,例如偏离实际的虚报,应付任务式的编造等等。这种数据属于“伪劣”数据,会对抽样推断的结果产生很大的偏差及影响。
如何发现与判断数据是否异常,通常只有比较样本数据的整体变化才有可能确定,有时也利用历史样本以及经验进行判断。在实际的抽样调查中,由于我们调查的数据有些涉及到该单位的机密事宜,有可能发生人为的虚报假报。故我们在一次调查中常常不是只调查若干个指标。注意到在社会经济中许多指标之间存在着一定的相关。如果巧妙地设计调查表,尤其是巧妙地插入一些相关的指标,有时能及时发觉某些人为的虚假编造。
对于异常数据要么直接删除(对第二种异常),要么在可能的情况下重新组织调查。当然无论是删除还是再调查都应结合研究目的和要求慎重地加以选择。
第三节 无回答及其控制一、无回答及其影响
“无回答”是指被抽中的一些样本单元未能计量,也即发生计算遗漏。具体可归纳为几种类型:一是遗漏。某些样本单元找不到,或由于一些客观原因而无法找到,或由于调查员自身的某些原因而没有找到等。二是不在家。如果调查项目涉及到人,在调查中可能碰巧遇到被调查者不在家或某个事先确定地点的情形,由此会引起无回答现象。三是不能回答。被调查者对所调查的问题由于缺少资料或了解不多而无法回答或无法完整回答。四是拒绝回答。被调查者出于种种原因(如保守商业秘密、个人隐私,或调查内容过于敏感,或调查员的工作态度和访谈技术等)而拒绝回答,不愿提供资料。
对无回答进行研究时,可以把总体分为两层:第一层由入样能得到其计量值的所有单元组成,简称回答层;第二层由无法测得计量值的单元组成,简称无回答层。一般,邮寄调查比上门调查,无回答者要多。
如果无回答层和回答层在所研究标志方面没有显著差异,则无回答的影响不大。但如果无回答层与回答层存在显著差异(大多数情况下是这样),则由于无回答层没有提供样本数据,而在估计总体参数时会产生较大的影响。其最重要的后果是:(1)估计量可能成为有偏的,因为样本中没有调查到的部分可能与被调查到的部分显著不同;(2)由于实际调查到的样本比目标样本小,所以估计误差就可能会增大。所以在选定目标样本的含量时,至少可以把这一因素约略地考虑在内。
下面分析一下无回答对总体参数估计量的影响。
1.当估计总体平均数时,设,分别为两个层中的单元数,又设,,这样,就是总体中不回答层所占的比例,和分别为这两层的均值。在总体中抽出一个简单随机样本调查后,仅取得回答层的样本均值,无回答层没有取得数据。如果以此来估计总体均值,则偏差总量为
偏差总量是无回答部分所占的比例与两个层的均值之差的乘积。由于样本未提供的资料,所以偏差的大小是不知道的,除非从抽样调查以外的其他资料中确定的值,否则无法对总体均值作出估计,也即不可能从样本结果对确定有用的置信限。
2.当估计总体中具有某种特性的单元所占的比例时,由于无回答层中比例的取值介于0于1之间,因此可以分析确定P的近似置信区间。
(1) 已知的情形假设抽出一个由个单元组成的简单随机样本,对于样本单元中的个单元取得了计量值。假定很大,则根据以下公式,求出的95.45%的置信限
,
其中是样本比例,忽略未计。
在求P的置信下限时,假定=0,求P的置信上限时,假定=1,于是得到95.45%的近似置信限
,
.
容易证明,这些界限是保守的,即
的概率保证程度为95.45%.
可以证明,当总体中无回答率W2增大时,置信区间的宽度也迅速增大,要保持一定的置信区间的宽度,对付无回答的影响,就要增加样本容量,增加费用。
(2) 未知时(这种情形是常见的)
可以象计算简单随机抽样的置信限一样,从样本数据中计算出保守的置信限。在计算置信下限时,假定样本中所有无回答者都给予否定的回答,计算置信上限时,假定样本中所有无回答者都给予肯定的回答。则:
,
,
p为样本中给予肯定回答的比例,q为样本中给予否定回答的比例,p+q=1,n为样本单元数。
二、无回答的控制为了减少无回答的数量,缩小无回答的影响,我们需要进一步讨论控制无回答的措施。
控制无回答可以采取一些预防性的措施,比如:在问卷设计中注意问题用词的选择,问题的排列顺序,说明词的制作等,精心选择调查实施的时间,精心选择培训调查员,确定准确的调查方位,给被调查者适当的物质奖励,向被调查者预先通知,事后提醒、催促等,这些都可能会产生程度不同的影响。
对于调查过程中产生的无回答,可以考虑采取多次访问、抽子样本,或者替换法。
1、多次访问对无回答层反复进行多次访问,是提高回答比率的一个行之有效地办法,尤其是对于遗漏、不在家、不能回答等类型的无回答,效果常常比较明显。但多次访问也会带来一定的问题,首先是调查费用会增大,一般当调查总费用限定时,重复访问的次数就不能无限制地增加;其次是调查的时间可能会延长,以至影响整个调查研究的进度;还有多次访问的另一个关键问题是并不一定能保证获取真实可靠的资料。因此,需要确定出在将任何一个样本单元作为“无法接触”而舍弃之前必须且可能进行访问的最低次数。戴明(Deming)1953年提出了一个多次访问效果的模型,讨论了访问次数的影响问题。
2、汉森与赫维茨方法—在无回答层中,随机抽取一个子样本作“重点”访问设第一次抽了容量为的简单随机样本,其中个作了回答,个未作回答。则再在个单元中随机抽取个单元进行第二次调查,为第二次重点访问所占已知无回答者的比例数,是待定的。设第二次调查全部给予了回答,
则费用函数为
其中,是进行第一次调查时每个样本单元的平均费用;
是对第一次调查作出回答的每份问卷的平均处理费用;
是第二次调查每个单元的平均调查及问卷处理费用。
仍设总体回答层和无回答层的层权分别为和,则平均调查费用为
.
此时,总体均值的无偏估计为
(注:字母找不到,用手写上,下面也一样)
为第一次调查后得到的样本平均值(用计算);
为第二次调查得到的样本(子样本)均值。
其估计量的方差为
,
其中为总体方差,为无回答部分的方差。
经推算,K的最优取值为
,
且当估计量的方差一定,并使费用达到最小时,n的最优取值为
.
3、替换法在出现无回答时,为使样本量不低于设计要求,可以用总体中最初未被选入样本的单元去替换那些经过努力后仍未能获得回答的单元。
使用替换法应遵循以下原则:①替换者与被替换者应属于同一类型的群体,它们应具有某些相同或相似的特征。②替换的程序应事先确定,调查员须按程序选择替换单元,避免凭主观意愿任意选取。③替换法只能在对无回答者经过多次追踪努力失败后使用,并对替换情况进行详细记载,以便分清调查结果哪些来自原样本,哪些来自替代样本。
选择替换单元的基本方法一般有两种,即随机替换和非随机替换。①随机替换.在调查样本之外,按照随机原则,抽取“替换样本单元”,以用于对无回答单元的替代。替换样本单元要从抽样框中与无回答单元相同或相近的范围内抽选,以减少由于替换所可能产生的偏误。
如果掌握了对调查对象进行分层的有关信息,则采用随机替换效果比较好。替换样本一般应在调查开始前就准备好,并在替换样本和原样本间建立一种联系规则,当原样本中出现难以解决的无回答时,依据联系规则,对替换样本中的对应单元实施调查。②非随机替换.当不掌握被调查对象的有关辅助信息,故无法对总体实施分层抽样时,一般用非随机替换法,即在无回答出现后,不是采用概率抽样,而是依照某种事先确定的联系规则从总体中确定出替代单元。如在住户调查中,某住户拒答时,可依次以该住户的左邻、右舍、楼上、楼下住户替换,直到获得调查资料。
三、敏感性问题的调查在社会经济现象的调查中,如果涉及到有关商业秘密、个人稳私或政治态度等具有敏感性的问题时,被调查者可能会基于种种原因而不愿意给予回答,这时,调查者可以设计一些专门的方案,以使被调查者既真实地做出回答,又不担心泄露私人秘密。
(一)沃纳随机化回答模型沃纳随机化回答模型是由Warner于1965年针对仅有“是”或“否”两种回答的调查而设计的。它的基本思路是:由调查者事先制作n个外形完全相同的卡片(或纸条等),并将事先设计好的两个截然相反的问题A与B分别写在不同的卡片上(每张卡片只写一个问题),使得写有A问题的卡片所占的比例为P,则写有B问题的卡片所占的比例为1—P。调查时,将所有卡片充分摇匀,让被调查者从中随机抽取一张卡片,对卡片上所提的问题作“是”或“否”
的回答。调查者根据全部被调查者回答的结果进行技术处理,并进而对回答问题为“是”的比例作出估计。
显然,这种方法取得成功的关键在于:让被调查者确信调查者并不知道他们回答的是哪一个问题,由此他们在这个敏感性问题中的态度不会被泄露。为此,在调查开始前,调查者必须向被调查者充分讲清沃纳方法的具体作法以及本调查是严格遵循沃纳方法的。
假定总体中回答是“是”的比例为(显然它可以用样本中回答“是”的比例估计),对问题A回答“是”的比例为,则由全概公式可得
.
又设样本中回答“是”的次数(单位数)为m,则,由于是事先设定的已知数,所以的无偏估计为
,
此估计的方差为
.
尽管这个估计的精确度比较差(因为上式中第二项远大于第一项),但沃纳在理论上证明了:在涉及敏感性问题的调查中,他的方法比直接提问调查的均方误差(MSE)要小。因此,这种方法在实际中仍被大量运用。
(二)西蒙斯改进随机化回答模型沃纳的方法虽比直接提敏感性问题好,但所提的两个问题(如:您赞成改革吗?您不赞成改革吗?)都具敏感性,被调查者仍可能存有戒心,不予配合。而且,这个方法中回答问题A的人占的比例不能等于1/2。
为此西蒙斯(Simmons)1967年提出,如果将第二个问题改为与第一个问题毫无关系。如问题A仍为原来的敏感性问题,而把问题B换成与问题A无关的、毫无敏感性的问题,如您是五月份生的吗?您的身高是170cm?等等。调查过程仍采用沃纳方法。这样,被调查者的合作态度可能会有所改进,因此,调查的效果会更好。
设总体中对问题B回答“是”的人占的比例为,符号及的含义仍同上。
1、已知的情况由全概率公式,,设容量为的简单随机样本中,有m人回答“是”,则,此时
为的极大似然估计。
其方差为
.
已经证明,当P>1/3,且P≠1/2时,不论与如何,西蒙斯方法比沃纳方法更精确些。 2、未知时这时最好抽取两个随机样本进行调查。设这两个样本的容量分别为和,敏感性问题所占比例分别为和,设总体中回答敏感性问题的比例为时,对问题A或B作出“是”的答复者占的比例为,回答敏感性问题的比例为时,对两个问题作“是”的答复者占的比例为,则由全概公式有
,
,
又:
,,
,分别为两样本中答“是”的人数;
解得的估计量为
.
同理也可得出的估计量。
其方差为:
上面所讨论的有关敏感性问题调查建立在回答只有“是”与“否”两种选择的基础上。在实际抽样调查中,有些敏感性问题的回答可以有若干种选择。此时的敏感性问题调查方案如何设计、如何作技术处理?还有待进一步研究。
(三)使用随机化回答技术应注意的问题提出随机化回答方法,目的是减少或消除被调查者在回答敏感性问题时可能存在的疑虑,与调查员充分合作,完成对敏感性问题的调查。在具体使用这种方法时应注意以下几个问题:
首先,要求调查员能充分理解这种方法,这样才能很好地向被调查者解释清楚,使他们相信,调查人员无法根据他们的回答,判断他们是否具有某种特征,唯有如此,才能达到消除被调查者的顾虑,取得好的调查效果的目的。
其次,在正式开始调查前,应允许被调查者检查卡片,了解调查员的记录方式,使其相信这种方法不带欺诈的成份。
最后,在使用西蒙斯模型时,要注意选择与敏感性问题无关的非敏感性问题作为问题B,同时非敏感性问题应尽量简单,以方便被调查者的回答。
此外,要指出的是,随机化回答技术只适用于解决二项问题(即是非问题)的回答,而对数值型敏感问题不起作用。
四、缺失数据的处理前面所讨论的控制无回答的措施多是从单元无回答的角度考虑,但实际中,可能还会遇到项目无回答(即缺失数据)的问题,从而影响调查结果的系统性和完整性,给进一步的统计分析带来一系列麻烦,因此,有必要对缺失数据的处理问题作一些讨论。
缺失数据的弥补主要是采用插值法,一般分成“冷卡”(Cold—deck)法和“热卡”(Hot—deck)法。
“冷卡”方法是用来自其他调查或过去调查的资料作为当前调查中缺失数据的替代。这种方法在周期性调查中是很有用的,因为在这种情况下,可以用前一期的调查数据替代目前调查的缺失值。
“热卡”方法是对调查中发现的项目缺失值,用按一定准则选出的、同一调查中与无回答单元具有相似性的回答单元的数值进行替代。当然,这可能会引出两个问题:一是一些回答单元的数据没有机会成为替代值;二是一些回答单元的数据会被多次使用。因此,作为改进,一方面可以将回答单元融合在一起构成一个完整的回答单元集,并以其作为替代单元集,当出现无回答时,在替代单元集中随机抽选回答单元数据进行替代(或称插补),另一方面,可以允许多重替代,但要对每个回答单元数据用于替代的次数加以控制。使用“热卡”方法的一种更为简便的情形是,以回答单元数据的平均值代替缺失值。“热卡”方法实质上只是使资料看起来是完整的,这样便于运用统计方法进行运算处理和分析研究,但这种替代的数据对统计分析的结果并不产生影响。
第四节 样本轮换的理论与方法一、样本轮换的意义在抽样调查的实际应用中,大多数情形属一次性调查,但也有很多重要的调查需要经常性定时进行,如我国的城乡住户调查、农产量调查、人口变动调查等。在经常性抽样调查中不可避免地会遇到这样的问题:每次调查的样本应如何形成?是用固定样本还是全新样本好呢?全新样本能增强对现期总体的代表性,但抽取和调查新的样本单元会比调查老单元费时、费力,且费用高,而采用固定样本虽可以相对节省人、财、物,所得资料的可比性也比较强,但由于实际总体常常是随着时间的推移而变化的,因此,样本长期固定不变就不再对变化了的总体具有代表性,或其代表性会降低,也不能被看作是从现期总体中抽出的随机样本。另一方面,在经常性抽样调查中,不论调查对象是人或者物,如果样本使用时间过长,必然会使调查资料的提供者产生厌烦心理。因此,除非他们具有较高的思想境界和受到强有力的物质刺激,否则,一般情况下他们可能表现为:或者不愿意继续配合调查,或者有意无意地提供一些不完全正确的资料,或者形成一种回答问题的思维定势,等等。从而造成调查质量下降,使非抽样误差进一步加大。因此,作为对全新样本和固定样本的折衷,就引出样本轮换的问题。那么,样本怎样轮换?样本轮换比率如何确定?样本轮换后如何估计总体参数?研究解决这一系列问题的方法不仅具有一定的理论意义,而且具有十分重要的现实意义。
二、样本轮换方法和模式样本换换的方法主要有三种:随机轮换、等距轮换和子样本轮换。
随机轮换是在进行轮换时按确定的轮换比例,从原有样本中随机抽出若干单元不再调查,而从其余未包括在样本中的总体单元中抽取相同数目的单元来代替。
等距轮换是在总体抽样框中确定出各个等距抽样的样本,在各次调查中,按相应位置的等距样本单元进行轮换。我国农村住户调查就是采用这种轮换方式。
子样本轮换是从总体中抽出若干套子样本,每次调查一定数量的子样本,逐次轮换其中的部分子样本。
子样本轮换实际上就是每次采用交叉子样本,它不仅能有效地减少和控制估计偏差,而且由于每个交叉子样本都能代表总体,即使有的子样本资料搜集不到,也可用其他的子样本甚至一个子样本来推断总体。同时,用交叉子样本还可以考察非抽样误差发生的程度。因此
,在三种样本轮换方法中,子样本轮换是比较好的一种方法。
样本轮换的模式一般也有三种:单水平样本轮换,不完全的单水平样本轮换和多水平样本轮换。
单水平样本轮换是指上次调查的n个样本单元在这次的调查只保留m个单元,其余u个单元为等量的新单元替代,这m个老单元和n个新单元都只提供现期的资料。如我国的农村住户调查就是采用这种样本轮换模式。
不完全的单水平样本轮换是指样本中的一些单元在一定时期内保留在样本中,然后在退出样本一段时间后又重新返回样本一段时期,样本中的单元都只提供现期资料。如美国现期人口调查采用的是4-8-4轮换模式。即每个月的样本都由8个轮换组组成,每个轮换组在样本中保留4个月,在以后连续的8个月中离开样本,然后又重新归入样本4个月。
多水平样本轮换是指轮换后样本中的所有单元既要提供现期的资料也要提供以前的资料。其中用得最多的是两水平样本轮换,它是每次都抽新的样本单元并记录其有关的现期资料和前期资料。如美国的每月零售贸易额调查就是采用了混合的两水平样本轮换模式,调查样本的一部分轮流地由三个固定样本之一来替代。
美国现期人口调查的样本轮换流程
样本的轮换期年度和
月份
1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8 1 2 3 4 5 6 7 8
第一年1月* * * * * * * *
2 * * * * * * * *
3 * * * * * * * *
4 * * * * * * * *
5 * * * * * * * *
6 * * * * * * * *
7 * * * * * * * *
8 * * * * * * * *
9 * * * * * * * *
10 * * * * * * * *
11 * * * * * * * *
12 * * * * * * * *
第二年1月 * * * * * * * *
2 * * * * * * * *
三、样本轮换时总体参数的组合估计为讨论方便,假定采用简单随机抽样,并记
n为样本单元数目;
u为替换的新单元数目;
m为保留的原有单元数目;
一般称保留的样本单元为拼配单元,.
为u个新单元现期观测值的平均数;
与分别为m个拼配单元现期与前期观测值的平均数;
是n个单元(包括m个拼配单元及u个已被替换的单元)前期观测值的平均数。
估计总体均值时,如果只借助u个新的样本单元,则的估计只能是
.
当不考虑有限总体修正系数时,其方差为
,
其中为现期总体方差。
如果只利用m个拼配样本单元估计,由于可以将m个拼配样本单元看成是从原有的n
个样本单元中抽出来的第二重样本,则可采用二重回归估计的方法以容量为m的拼配样本对作出估计
,
其中b为m个拼配样本单元现期与前期观测值的回归系数。
当不考虑时,其方差为
.
由于现期调查的样本是由m个拼配单元和u个替代单元组成的,因此,对于的一个良好估计应是与的加权综合,即
,
其中
,
为相应的权数。的方差应为
,
其中ρ为m个拼配样本单元现期与前期观测值的相关系数。
需要说明的是,上面给出的估计形式是一种最简单的情形,它适用于单水平样本轮换。较复杂的情形有耶茨,拉奥和格雷尼姆,埃克勒,沃尔泰,以及阿瓦德哈尼和苏卡特梅等人提出的方法。
四、最佳样本轮换的确定在调查目的既定的条件下,样本轮换率主要取决于三个因素:调查总体发生变化的速度;被调查者对重复调查在时间和次数上的心理接受程度;以及调查费用、抽样精度、工作难易等的允许程度。由于不同的经常性抽样调查有不同的调查总体、不同的被调查者和不同的精度要求,这就使得要从理论上给出一个考虑所有影响因素的样本轮换率是比较困难的。因此,
确定样本轮换率的一般指导原则是:如果调查总体变化的速度较快,被调查者对重复调查在时间和次数上的心理接受程度较低,并且调查费用比较宽松,则样本轮换率应该高一些。反之,则样本轮换率可以低一些。
在不考虑费用的条件下确定最佳样本轮换率的基本思路是使估计量的方差达到最小。也即使函数
极小化,为此,要求使V对u的偏导数为零,即得
,
则
,
所以,最佳样本轮换率为
,
最佳样本留存率为
.
可见,最佳样本轮换率约在50%~100%之间。ρ愈大,轮换率也就越大,因为此时只要保留少数单元就可充分利用前期的信息。
在选择最佳样本轮换率时,估计量的方差可望达到最小值,此时的最小方差为
.
如果考虑费用,则实际采用的样本轮换率要比这里给出的小。对此科克伦曾作过较为系统地研究,得出了一些有用的结论。如:除非ρ≥0.95,否则,在第二次调查后采用一个固定的权数和固定的换率与采用最优的权数和最优的轮换率相比,现期估计量的精度没有什么损失等。这些可以作为抽样实践中采用低于50%的固定样本轮换率的理论依据。
最后,还要就多阶段抽样下的样本轮换问题作一些简单的讨论。目前,各国在涉及全国性的大规模经常性抽样调查中一般都采用多阶段抽样,但一些国家在抽样的较高阶段不实行样本轮换,而只在抽样的较低阶段实行样本轮换,如我国的城乡住户调查,只对调查村、调查户进行轮换,而对调查的县(区)、乡(街道)等不轮换这是不合适的。因为从道理上讲随着时间的推移,多阶段抽样中每个阶的样本都可能会产生老化的现象,只不过各不同阶段样本老化的速度有快有慢。所以,在经常性调查中,应考虑对不同阶段的样本按其老化的速度,分别采用不同的样本轮换率和样本轮换时间进行样本轮换。