《抽样调查》习题
概述
1.1 结合以下所列情况讨论哪些适合用全面调查,哪些适合用抽样调查,并说明理由;
1.研究居住在某城市所有居民的食品消费结构;
2.调查一个县各村的粮食播种面积和全县生猪的存栏头数;
3.为进行治疗,调查一地区小学生中患沙眼的人数;
4.调查一地区结核病的发生率;
5.估计一个水库中草鱼的数量;
6.某企业想了解其产品在市场的占有率;
7.调查一个县中小学教师月平均工资。
1.2 结合习题1.1的讨论,你能否概括在什么场合作全面调查,什么场合适合做抽样调查。
1.3 讨论以下所列情况是否属于概率抽样,并说明理由:
1.从一个包含有100只兔子的实验室大笼子里抓10只兔子做实验。研究人员不经任何挑选抓到哪只就算那一只,抓满10只为止。
2.将笼中的100只兔子编上1~100号,任意列出10个不重复的数字(为1~100之间的整数),以相应的兔子作为抽中作试验的样本;
3.从钱包中随便抽出一纸币,凡兔子号码尾数与该纸币编号尾数相同者及作为抽中的样本。
1.4 某刊物对其读者进行调查,调查表随刊物送到读者手中,对寄回的调查表进行分析。试问这是不是一项抽样调查?样本抽取是不是属于概率抽样?为什么?
1.5 结合习题1.3与1.4的讨论,根据你的理解什么是概率抽样?什么是非概率抽样?它们各有什么优点?
1.6 请列举一些你所了解的以及被接受的抽样调查。
1.7 抽样的随机原则及其意义;
1.8 怎样理解抽样调查的科学性?
1.9 抽样调查基础理论及其意义;
1.10 抽样调查的特点。
抽样调查基本原理
2.1 试说明以下术语或概念之间的关系与区别;
1.总体、样本与个体;
2.总体与抽样框;
3.个体、抽样单元与抽样框。
2.2 试说明以下术语或概念之间的关系与区别;
1.均方误差、方差与偏倚;
2.方差、标准差与标准误;
3.无偏估计、祥和估计量与可用估计量;
4.绝对误差限、置信限(置信区间)与置信度。
2.3 从某个总体抽取一个n=50的独立同分布样本,样本数据如下:
567 601 665 732 366 937 462 619 279 287
690 520 502 312 452 562 557 574 350 875
834 203 593 980 172 287 753 259 276 876
692 371 887 641 399 442 927 442 918 11
178 416 405 210 58 797 746 153 644 476
1.计算样本均值y与样本方差s2;
2.若用y估计总体均值,按数理统计结果,y是否无偏,并写出它的方差表达式;
3.根据上述样本数据,如何估计v(y)?
4.假定y的分布是近似正态的,试分别给出总体均值μ的置信度为80%,90%,95%,99%的(近似)置信区间。
2.4 样本可能数目及其意义;
2.5 影响抽样误差的因素;
2.6 抽样分布及其意义;
2.7 抽样估计的基本原理;
2.8 置信区间的确定。
简单随机抽样
3.1 讨论下列从总体中筹得的样本是否尾灯概率抽选(回答“是”或“否”);
1.总体(1-112)。抽法:从数1-56中随机抽取一个数r,再从数1-2中抽取一个数,以决定该数为r或56+r;
2.总体(1-112)。抽法:首先从1-2中抽选一个数以决定两个群1-100或101-112,再从抽中的群中随机抽选一个数r;
3.总体(1-1109)。抽法:从1-10000中抽选一个随机数r,若第一位是偶数,则用后面的三位数来表示1-1000(以000代表1000);若第一位数是奇数,当后面的三位数在101-109之间就代表1001和1109,若在110和1000之间被抛弃,重新抽选r;
4.总体(67084-68192)。抽法:从1-1109中抽选一个随机数r,然后用r+67083作为被抽选的数;
5,总体(67084-68192)。抽法:从1-2000中抽选一个随机数r,若在0084-1192之间就加67000取相应数,否则就抛弃,重选r;
6.总体有1109个数分布在61000-68000之间。抽法:随机抽选四位数r加60000,如果该数有相应的数就算抽中,无相应数抛弃重选;
7.总体(1-17)。抽法:在1-100中抽选r,再除以20,若余数在1-17之间,就抽中相应的数,否则抛弃重选;
8.总体(1-17)。抽法:在1-100中随机抽选一个数除以17,以余数作为抽中的数。
3.2 设总体N=5,其指标值为{3,5,6,7,9}
1.计算总体方差和S2;
2.从中抽取n=2的随机样本,分别计算放回抽样和不放回抽样的方差;
3.按放回抽样和不放回抽样的分别列出所有可能的样本并计算,验证=;
4,按放回抽样和不放回抽样的所有可能的样本,计算其方差,并与公式计算的结果进行比较;
5.对所有的可能样本计算样本方差s2,并验证在放回抽样的情况下E(s2)=;在不放回的情况下:E(s2)= S2。
3.3 在一森林抽样调查中,某林场共有1000公顷林地,随机布设了50块面积为0.06公顷的方形样地,测得这50块样地的平均储蓄量为9m3,标准差为1.63 m3,试以95%的置信度估计该林场的木材储蓄量。
3.4 某居民区共有10000户,现用抽样调查的方法估计该区居民的用水量。采用简单随机抽样抽选了100户,得y=12.5,s2=1252。估计该居民区的总用水量95%的置信区间。若要求估计的相对误差不超过20%,试问应抽多少户做样本?
3.5 某工厂欲制定工作定额,估计所需平均操作时间,从全厂98名从事该项作业的工人中随机抽选8人,其操作时间分别为4.2,5.1,7.9,3.8,5.3,4.6,5.1,4.1(单位:分),试以95%的置信度估计该项作业平均所需时间的置信区间(有限总体修正系数可忽略)。
3.6 从某百货商店的3000张发货票中随机抽取300张来估计家用电器销售额,发现其中有200张是销售家用电器的,这200张发货票的总金额是48956元,其离差平方和为12698499。若置信度是95%,试估计这3000张发货票中家用电器销售额的置信区间。
3.7 某总体有10个单元,分为A,B,C三类,其中A类有2个单元,B类和C类各有四个单元。若采用不放回抽样抽取一样本量为4的简单随机样本来估计B类单元在B,C两类单元中的比例,试计算估计量的标准误。
3.8 某县采用简单随机抽样估计粮食、棉花、大豆的播种面积,抽样单元为农户。根据以往资料其变量的变异系数为
名称 粮食 棉花 大豆
变异系数 0.38 0.39 0.44
若要求以上各个项目的置信度为95%,相对误差不超过4%,需要抽取多少户?若用这一样本估计粮食的播种面积,其精度是多少?
3.9 从一叠单据中用简单随机抽样方法抽取了250张,发现其中有50张单据出现错误,试以95%的置信度估计这批单据中有错误的比例。若已知这批单据共1000张,你的结论有何变化?若要求估计的绝对误差不超过1%,则至少抽取多少张单据作样本?
3.10 欲调查二种疾病的发病率,疾病A的发病率较高,预期为50%;
疾病B的发病率预期为1%。若要得到相同的标准差0.5%,采用简单随机抽样各需要多大的样本量?试对上述不同的结果加以适当的说明。
3.11 假设总体中每个单元有两个指标值Yi和Xi,i=1,…,N,记y,为相应的简单随机样本的均值。试证样本协方差
是总体协方差
的无偏估计。
3.12 设y是从总体{Yi,…,YN}中抽取的样本量为n的简单随机样本的均值,yn1是从样本量为n1的简单随机子样本均值,yn2是剩余的样本单元均值。试证:
Cov(,)=
(提示:利用以下事实:两个子样本均可看成是从总体中直接抽取的简单随机子样本)。
3.13 设某个总体由L个子总体构成,今从该总体中抽取一个大小为n的简单随机样本,且设属于第j个子总体的单元数为nj固定的条件下,这nj个单元可看成是从第j个子总体中抽取的一个简单随机样本。
3.14 简单随机抽样在抽样技术中的地位;
3.15 简单随机抽样中样本量确定的原则及主要考虑因素;
3.16 总体方差的预先确定思路。
分层抽样
4.1 一公司希望估计某一个月内由于事故引起的工时损失。因工人、技术人员及行政管理人员的事故率不同,因而采用分层抽样。已知下列资料:
工人
技术人员
行政管理人员
N1=132
N2=92
N3=27
S12=36
S22=25
S32=9
若样本量n=30,试用你乃曼分配确定各层的样本量。
4.2 上题中若实际调查了18个工人,10个技术人员,2个行政人员,其中损失的工时数如下:
工人
技术人员
行政管理人员
8,24,0,0,16,32,
6,0,16,7,4,4,9,5,8,18,2,0
4,5,0,24,8,12,3,2,1,8
1,8
试估计总的工时损失数并给出它的置信度为95%的置信区间。
4.9在估计比例问题时:
假设P=0.5,W1=W2=0.5,则P1和P2为何值时可以使按比例分配的分层抽样精度可以得益20%(即=0.8)
若P=4%,其中W1=0.05,P1=45%;W2=0.2,P2=5%; W3=0.75,P3=1%.则采用按比例分配的分层抽样比简单随机抽样精度得益有多大?
4.10调查某个地区的养牛头数,以村作为抽样单元。根据村的海拔高度和人口密度划分成四层,每层取10个村作为样本单元,经过调查获得下列数据层
村总数
样本村养牛头数
1 2 3 4 5 6 7 8 9 10
1
2
3
4
1411
4705
2558
14997
43 84 98 0 10 44 0 124 13 0
50 147 62 87 84 158 170 104 56 160
228 262 110 232 139 178 334 0 63 220
17 34 25 34 36 0 25 7 15 31
要求:
估计该地区养牛总头数Y及其估计量的相对标准误差
讨论分层抽样与不分层抽样比较效率有否提高。
若样本量不变采用乃曼分配可以减少方差多少?
4.11用下面的工厂分组资料按工人人数分组
工厂数目
每工厂产值(万元)
标准差
1—49
50—99
100—249
250—999
1000人以上
18260
4315
2233
1057
567
100
250
500
1760
2250
80
200
600
1900
2500
若欲抽取3000个工厂作样本来估计产值,试比较下列各种分配的效率:
按工厂数多少分配样本;
按最优(奈曼)分配。
4.12 一个样本为1000的简单随机样本,其结果可分为三层,相应的=10.2,12.6,17.1,=10.82(各层相同),=17.66,估计的层权是=0.5,0.3,0.2,已知这些权数有误差,但误差在5%以内,最不好的情况是=0.525,0.285,0.190或=0.475,0.315,0.210,你认为是否需要分层?
4.13 设费用函数具有形式,其中,(h=1,…,L)均为已知数。试证明当总的费用固定时,为了使达到最小,必与成比例。
4.14 假设总体包含大小相等的L个层,且N相对于L和n来说很大。表示简单随机样本均值的方差,表示按比例分配的分层随机抽样时的相应方差。试证明下列两式近似成立:
(2)
其中 表示层内的平均方差,即
4.15 怎样分层能提高精度?
4.16 总样本量在各层间分配的方法有哪些?
4.17 分层的原则及其意义。
比估计与回归估计
5.1 对以下假设总体(N=6)
U1 U2 U3 U 4 U 5 U6
Xi
Yi
0 1 3 5 8 10
1 3 11 18 29 46
用简单随机抽样抽取n=2的样本,列出所有可能的样本计算每个样本的R。R是不是无偏的?若有偏,偏倚多大?
若用n=2的简单样本去估计总体总量Y,试比较比估计与简单估计的方差。
5.2 欲估计某小区居民的食品支出占总收入的比重,该地区共有150户,现用简单随机抽样抽取14户为样本,经调查每户的食品支出yi与总收入xi的数据如下表:
样本户
总收入xi
食品支出yi
1
2
3
4
5
6
7
8
9
10
11
12
13
14
25100
32200
29600
35000
34400
26500
28700
28200
34600
32700
31500
30600
27700
28500
3800
5100
4200
6200
5800
4100
3900
3600
3800
4100
4500
5100
4200
4000
要求估计食品支出占收入比重的95%置信度的置信区间。
5.3 某林场欲估计一批出售木材的材积量,从N=250株砍伐的树木中随机抽取了n=12株作为样本,每株分别测量了根部横截面积和材积量(见附表)。为了估计总材积量又测量了这250株树木根部的横截面积之和为75平方尺。
要求:
估计这250株树的总材积量及相对标准差;
比较采用比估计与简单估计的效率。
附表样本序号
根部横截面积(平方尺)
材积量(立方尺)
1
2
3
4
5
6
7
8
9
10
11
12
0.3
0.5
0.4
0.9
0.7
0.2
0.6
0.5
0.8
0.4
0.8
0.6
6
9
7
19
15
5
12
9
20
9
18
13
5.4某乡欲估计今年的小麦总产量,全县共有123个村,按简单随机抽样抽取13个村作为样本,取得资料如下:
样本村
去年的小麦产量(百斤)
今年的小麦产量(百斤)
1
2
3
4
5
6
7
8
9
10
11
12
13
550
720
1500
1020
620
980
928
1200
1350
1750
670
729
1530
610
780
1600
1030
600
1050
977
1440
1570
2210
980
865
1710
若已知去年的小麦总产量为128200(百斤),采用比估计法估计今年的小麦总产量和置信度为95%的置信区间。
估计每个村的平均小麦产量及估计的相对标准差。
一公司欲了解广告对其产品销售量的作用,从销售该公司产品的452家企业中抽选了20家,分别调查了广告前与广告后的月销售量数据如下表:
样本企业
广告前
广告后
1
2
3
4
5
6
7
8
9
10
208
400
440
259
351
880
273
487
183
863
239
428
472
276
363
942
294
514
195
897
样本企业
广告前
广告后
11
12
13
14
15
16
17
18
19
20
599
510
828
473
924
110
829
257
388
244
626
538
888
510
998
171
889
265
419
257
若广告前的月总销售量为216256,估计广告后的月销售量及其相对标准差。
求广告后比广告前销售量增加百分比的置信区间(a=0.05)。
若允许估计总销售量的最大绝对误差为△=3800,置信度为95%,确定应抽取多少企业作样本。
5.6 对习题5.4的资料采用差估计急用样本回归稀疏的回归估计法估计平均每村的小麦产量和小麦总产量。比较差估计、回归估计与比估计的效率。
5.7 某养兔专业户购进100只兔子,平均重量为3.1磅,随机抽取了10只兔子为样本,记录其重量,经过两个月的饲养,现欲了解其平均重量,经过称重,其资料如下:
样本
原重(磅)
现重(磅)
1
2
3
4
5
6
7
8
9
10
3.2
3.0
2.9
2.8
2.8
3.1
3.0
3.2
2.9
2.8
4.1
4
4.1
3.9
3.7
4.1
4.2
4.1
3.9
3.8
要求:
用回归估计法估计每只兔现有的重量,并计算其方差的近似估计量。
若每只兔的平均重量允许最大误差为0.05磅,置信度为95%,应该取多少只兔为样本?
5.8 在一水稻实割实测的实验研究中,以x表示稻草的重量,y表示稻谷的重量,通过随机地布设大量测框(方形的抽样单元)得到Cx2=1.2,Cy2=1.24,Cyx=0.81,这里的Cx和Cy分别为x和y的变异系数,
Cyx=pCx Cy,p是x和y之间的相关系数。当x的总量可以得到时,试求估计稻谷总产量用比估计与简单估计的相对效率(方差之比)。
5.9 某县欲调查某种农作物的产量,由于平原和山区的产量有差别,故拟划分平原和山区两层采用分层抽样。同时当年产量与去年产量之间有相关关系,故还计划采用比估计方法。已知平原共有120个村,去年总产量为24500(百斤),山区共有180个村,去年总产为21200(百斤)。现从平原用简单随机抽样抽取6个村,从山区抽取9个村,两年的产量资料如下:
平原 山区样本
去年产量
(百斤)
当年产量
(百斤)
1
2
3
4
5
6
204
143
82
256
275
198
210
160
75
280
300
190
样本
去年产量
(百斤)
当年产量
(百斤)
1
2
3
4
5
6
7
8
9
137
189
119
63
103
107
159
63
87
150
200
125
60
110
100
180
75
90
试用分别比估计与联合比估计分别估计当年的总产量,给出估计量的标准误,并对上述两种结果进行比较和分析。
5.10 假设总体的每个单元有两个指标值Yi和Xi,i=1,…,N。为了估计比值R=Y/X,使用比估计R=y/x。试证:如果抽取样本的概率与成正比,则是的无偏估计。
5.11 假设总体回归系数B是已知的。考虑如下的回归估计量:
则优于 。今在上述估计量的右边用改进的估计量代替,问所得的估计量是否比更好?即是否优于?
5.12 回归估计、比估计与简单估计间的区别;
5.13 辅助变量的选择原则;
5.14 回归系数的选择与确定。
二重抽样
6.1 某县欲调查某种作物的播种面积,全县共有2000个村,拟采用分层抽样以提高抽样效率,但由于缺乏详细的分层资料,故采用二重抽样方法。先抽取500个村作为第一重样本,根据村的大小(现有户数)进行分层,然后又在各层中等比例地抽取1/5村作为第二重样本,分别调查了该种作物的播种面积,其有关数据如下:
层
第一重抽样
第二重抽样
50户以下村
50-99户
100-199户
200-299户
300户以上
85
125
140
110
40
17
25
28
22
8
490
1806
4423
5607
4101
16574
135164
736075
1446987
2205691
要求:
(1) 估计全县该种作物的种植面积;
(2)计算播种面积估计的标准差。
6.2 现有总调查费用为3000元,拟用来作一个估计比例问题的调查。假设每一个抽样单元的调查费用为10元,现有两种方案可供选择,一是采用二重分层抽样,第一重样本用来对单元进行分层,每个抽样单元的分层费用是0.25元,已经总体中两层的权重相等。如果第一层中的起初比例是0.2,第二层中的真实比较为0.8,要求确定二重抽样中最优的和,以及由此所得到,另一种方案是采用不分层的简单随机抽样。要求将二重分层抽样的精度与简单抽样进行比较。抽样效率是否提?
(假定抽样比和均可忽略不计)。
6.3 按照上一题中的,,求调查一个单元费用和每分层一个单元费用之比达到多少时,二重抽样的费用效率高于简单随机抽样?
6.4 某地区欲估计牛的年末头数,以上一次的普查数作为辅助变量。但由于行政区划的变动,上次该地区普查的总头数已不能利用,故采取二重抽样的方法,先在全地区1238个村抽500个村,得到上期普查的平均每村有牛的头数为602头,然后又抽取第二重样本为24个村,分别取得了上期普查头数和当年的年末头数,起资料如下:
样本序列
普查头数
年末头数
样本序号
普查头数
年末头数
1
2
3
4
5
6
7
8
9
10
11
12
623
690
534
293
69
842
475
371
161
298
2045
1069
654
696
530
315
78
640
692
292
210
555
2110
592
13
14
15
16
17
18
19
20
21
22
23
24
706
1795
1406
118
330
218
160
210
262
204
185
574
707
1890
1123
115
375
212
147
297
401
252
199
564
要求:
用二重比估计法估计该地区年末牛的总头数及其估计的标准差。
6.5 试用上题的资料,采用二重回归估计法估计该地区年末牛的总头数及其估计饿标准差。并比较回归估计和比估计的效率,作简要分析。
6.6 在二重回归抽样中,如果=0.8,假如由于第一重样本的均值的抽样误差使精确度的损失必须小于10%,则相对于来说,必须多大?
6.7 在应用二重回归抽样时,设第二重抽样的样本量为87,第一重抽样的样本量为300。下列计算应用于第二重样本。
17283 5114
3248
请计算的二重回归估计量的标准差。
6.8 对某块林地的木材蓄积量采用二重抽样方法,第一重抽样的抽样比为10%,样本量为,用目测估计蓄积量为辅助变x。在第一重样本中再抽取一个子样本,样本量为,对该样本用目测法估计,并同时进行实测(y),对整个林地木材蓄积量采用回归估计,若给定费用为10000元,其费用函数为,y的变异系数为1,y和x之间的相关关系伪0.7,试求最优的和,并计算估计的相对标准差。
6.9 总体分为L层,第h层的大小为(),对总体采用简单随机抽样抽取一个样本量为的样本,记为样本单元高于第h层的单元数且>0,证明是层权的无偏估计
6.10 设总体包含大小相等的L个层,对它采用分层二重抽样,假定N很大,且第二重抽样的抽样比对各层皆为常数,试证分层二重抽样估计量的方差满足:
其中 =
6.11 二重抽样的基本方法;
6.12 二重抽样的主要作用有哪些?
6.13 二重抽样与二阶抽样的区别何在?
不等概率抽样
7.1 对与N=4的假设总体{1,2,3,4}按给顶的概率{0.1,0.2,0.4,0.4}进行有放回抽样,n=2(1)试列出所有可能样本以及每个出现的概率;(2)对每个样本计算对总体和Y的估计,验证是Y的无偏估计;(3)根据可能样本计算,验证其结果是否按公式计算的结果一致?
7.2 研究人员欲估计一批电子元件板上的缺陷数,由于缺陷数与板上的电子元件数目有关,故采用与元件数目成比例的放回的PPS抽样。设N=10,每块板上电子元件的数目按顺序分别为10,12,22,8,16,24,9,10,8,31,设n=4。现要求
(1)说明样本的抽选方法;
(2) 若抽中的单元按前面排列的序号是第2,3,5,7这四个元件板,其缺陷数分别为1,3,2,1,试根据这一抽样结果,估计这批元件上共有多少个缺陷数。
(3)给出上述估计量的方差估计。
7.3 某个大型企业欲估计整个企业人员一年的人均病假天数,该企业有8个子公司,为了方便起见拟抽取3个公司进行调查然后推断整个企业,但每个子公司的人数不同,且差别很大,故采用按人数成比例的PPS抽样。各个公司的人数如下:
公司
1 2 3 4 5 6 7 8
人数
1200 450 2100 860 2840 1910 390 3200
请列举一种抽选方法,说明抽选的步骤。
若抽中的是第3,6,8这三个子公司,其病假的总数分别为4320人日,4160人日和5790人日,估计全企业的人均病假天数,并计算抽样标准误。
某地区欲调查水稻播种面积,以村作为抽样单元,采取按普查人数进行放回PPS抽样,共抽中10个村,其数据如下:
样本村
普查人口(人)
水稻面积(亩)
1
2
3
4
5
6
7
8
9
10
5511
865
2535
3523
8368
7357
5131
4654
1146
1165
4824
924
1948
3013
7678
5506
4051
4060
809
1013
已知该地区普查人口总数为415149。
估计该地区的水稻种植面积和相对标准差;
若要求相对标准差控制在2%以内,求必要的样本量。
假设总体大小N=7,单元指标值分别为10,20,30,40,50,60和70,采取n=2的不放回PS抽样。试列出所有可能的样本,计算每个单元和每对单元被抽入样本的包含改良和并验证,。
有一个总体N=3,1/2,1/3和1/6,=7,5和2。采取不放回抽样方式,从总体中抽出两个单元,第一个单元按与成比例的概率抽出,第二个单元按余下单元的大小成比例的概率抽出。
要求:
(1)验证:, ,,
, ,
(2)当采用这一抽样方法时,请比较估计量与PS的估计量的方差。
(3)请证明当采取放回抽样方式,按等概率抽样时对的比率接近1/2这一数值。
7.7 有一个估计某城镇现有第三产业单位数的例子。假设有去年年底的普查数和现有的实际单位数,分街道统计如下:
街道
去年普查数
现有单位数
街道
去年普查数
现有单位数
1
2
3
4
5
6
7
8
9
10
9
9
12
12
12
14
14
17
18
18
9
13
12
12
14
17
15
20
19
18
11
12
13
14
15
16
17
18
19
20
19
21
23
24
24
25
26
27
30
40
19
25
27
21
35
22
25
27
47
37
假设n=1,采用以下几种估计量等概率抽选,简单(无偏)估计;
等概率抽选,以去年普查数为辅助变量的比估计;
按与去年普查数成比例的概率抽样,汉森—赫维茨估计。
比较这三种估计的方差或均方误差,(计算比估计的均方误差时应计算真值而不用近似公式)并加以讨论。
试证:对于n=2时的布鲁尔方法,只要每个<1/2,则必有
0<<,。
7.9设总体各个单元的大小分别为,i=1,…,N。考虑如下的抽样方法:设d为,…,的一个公约数,以/d个代码代表单元i,然后用不放回的简单随机抽样法从总共个代码中抽出n个,则相应的单元入样。试证:在这个抽样方法下,有
(1)估计量 ()是总体总和的无偏估计;
(2)的方差是
(3) 的一个无偏估计是
整群抽样
8.1 若欲调查城市的猪肉人均消费量,讨论下列情况下采用街道作为群的整群抽样是否合适,如果不合适你认为采用什么抽样方式好。
(1) 少数民族的居住比较集中;
(2)少数民族比较均匀得分布在各街道;
(3)少数民族分散在各街道但比重不同。
8.2 某一社会研究机构,研究南方某一城镇的社会民俗等情况。设该镇共有415个居民小组,现从中按简单随机抽样抽取25个居民小组作样本,取得了以下一些数据。
样本数
户数
其中三代人户数
总收入
样本数
户数
其中三代人户数
总收入
1
2
3
4
5
6
7
8
9
10
11
12
13
8
12
4
5
6
6
7
5
8
3
2
6
5
4
7
1
3
3
4
4
2
3
2
1
3
2
96000
121000
42000
65000
52000
40000
75000
65000
45000
50000
85000
43000
54000
14
15
16
17
18
19
20
21
22
23
24
25
10
9
3
6
5
5
4
6
8
7
3
8
6
4
1
4
2
3
1
3
3
4
0
3
49000
53000
50000
32000
22000
45000
37000
51000
30000
39000
47000
4100
合计
151
72
1329000
要求:
估计该地区户平均收入及其标准差。
估计三代人的户占总户数的比例,并计算其标准差;
若以上两项估计的相对标准差均控制在5%,应抽取多少居民小组(群)作样本。
一带锯厂对它的用户负责进行维修,按季定期进行结算,但缺乏每一带锯的平均修理费用,该厂共有96家用户,各拥有不同的带锯数。现用简单随机抽样抽取20家作样本,其其资料如下:
样本
锯数
修理费用
样本
锯数
修理费用
1
2
3
4
5
6
7
8
9
10
3
7
11
9
2
12
14
3
5
9
50
110
230
140
60
280
240
45
60
230
11
12
13
14
15
16
17
18
19
20
8
6
3
2
1
4
12
6
5
8
140
130
70
50
10
60
280
150
110
120
要求:
估计每一带锯的平均修理费用及其抽样标准误差;
在未知总体带锯数的条件下估计96家用户总的修理费用及估计标准误;
若已知这96家用户共有740条带锯,利用这一补充信息估计总的修理费用和估计的标准误;
若欲估计下一季度每一带锯饿平均修理费用,允许最大绝对误差为d=2,置信度为95%,应抽取多少家用作样本。
汽车运输公司抽样检查在使用的车辆中不安全轮胎的比例,在175辆车中抽取了25辆,其不安全轮胎数如下:
不安全轮胎数
汽车数
0
1
2
3
4
5
8
7
2
3
要求估计该运输公司的汽车中不安全轮胎的比例及其估计的标准误。
某工业系统准备一项改革措施,对全系统的人进行一项民意测验,该系统共有87个单位,现采用整群抽样,用简单随机抽取15个单位作为样本,读抽中的单位作全面征求意见,其结果如下:
单位
总人数
赞成人数
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
51
62
49
73
101
48
65
49
73
61
58
52
65
49
55
42
53
40
45
63
31
38
30
54
45
51
29
46
37
42
要求:
估计该系统同意这一改革人数的比例,并计算估计标准误;
在调查的基础上对方案作了修改,拟再一次征求意见,要求估计比例的绝对误差不超过4%,置信度为95%,则应抽多少个单位作样本。
在一个估计总体比例问题的抽样设计中,首先作了试调查,研究群的大小与群间方差之间的关系,取得下列数据
群平均大小
群平均大小
1
2.25
4
6.25
9
0.1120
0.0813
0.0659
0.0577
0.0505
12.25
16
25
36
0.0454
0.0419
0.0398
0.0342
假设费用函数,确定估计P时在固定费用为10000元的条件下最优的和。
假设整群抽样的样本群数为n,每个群有M个单元,群间方差为,群内方差为试对整群抽样与相同样本量的简单随机抽样的效率的比较进行讨论(fpc可忽略不计)。
在一次农村调查中,抽样单元是包含M个农场的群,当抽取n个群作样本时,其费用是:,其中t是调查一个农场所花的时间(按小时计算)。如果这一调查的总费用是2000元,当M=1,5,10,t=0.5,2时,n的数值计算如下:
M
1
5
10
t=0.5
t=2
400
156
131
40
74
21
样本均值的方差是,fpc忽略不计。如果M在1—10之间,=0.1,试问(1)t=0.5,(2)t=2小时,单元多大能得到最精确的结果?你这样解释两个结果的差别。
8.9 整群抽样与分层抽样的区别;
8.10 整群抽样群大小的计量方法;
8.11 整群抽样的设计效应。
多阶抽样
9.1 苗圃职工用二阶抽样方法估计树苗的平均高度,该苗圃共有N=50块地,先从中抽取10块地,再从每块抽中的地块中抽10%的树苗,对抽中的苗木测量其高度取得资料如下:
地块(i)
秧苗数(Mi)
抽样数(mi)
苗木高度yij
1
2
3
4
5
6
7
8
9
10
52
56
60
46
49
51
50
61
60
45
5
6
6
5
5
5
5
6
6
6
12,11,12,10,13
10,9,7,9,8,10
6,5,7,5,6,4
7,8,7,7,6
10,11,13,12,12
14,15,13,12,13
6,7,6,8,7,
9,10,8,9,9,10
7,10,8,9,9,10
12,11,12,13,12,,12
已知共有M0=2600株苗木若两阶抽样都是简单随机的,调查结果用加权平均数来估计总体均值,求估计值,并计算;
抽样方法同(1),但估计量不加权,即用,求估计值并计算
抽样方法不变,使用比估计,即,求估计值及其标准误差
讨论上述三种方法的适用条件
9.2 省卫生部门对32个城市的饮食业采用二阶抽样方法检查卫生合格情况,第一阶抽样从32个城市中简单随机抽取4个城市,第二阶抽样在每个抽中的城市用同样方法抽取一半饮食店进行检查,检查结果如下:
样本城市
饮食店总数
样本店数
检查卫生不合格数
1
2
3
4
25
10
18
16
13
5
9
8
4
1
4
2
要求估计这32个城市不合卫生要求的饮食店所占的比例及95%的置信区间。
9.3 某城市共有六家医院,欲估计住院病人中长期住院病人所占的比例。现从这六家医院根据病床的多少采用放回按规模大小成比例的抽样方法抽取3个医院,再从抽中的医院中用简单随机抽样抽取10%的病人,调查长期住院病人(住院一个月以上)所占的比例.其数据如下:
样本医院
总住院病人数
抽选病人数
住院在一个月以上的病人数
1
2
3
430
280
190
43
28
19
5
4
3
要求估计住院在一个月以上病人占总住院病人的比例及其95%的置信区间.
9.4 为估计一本英语字典的总字条效.先从26个字母中用放回的PPS抽样方法抽出10个字母,在抽中的字母中又不放回地抽取2页进行计数,其样本数据如下:
样本字母
总页数
样本页上数字
1
2
S
C
N
S
F
J
U
P
A
D
131
97
21
131
43
7
18
85
49
54
34
27
44
24
25
42
24
53
47
38
27
26
38
29
32
48
21
24
55
57
用汉森一赫维茨估计量估计该字典的总字数和它的相对标准差,并估计它的设计效应deff。
9,5 估计一个地区的每一住户平均消费支出,拟采用二阶抽样设计,第一阶抽村,第二阶抽户,都采用简单随机抽样。为了设计这一调查先作了一试调查获得以下信息:(a),(b)村与村之间的方差,(c)村内户与户之间的方差,(d)调查每个村的费用元,(e)调查每一住户的费用元,(f)调查的组成管理费用为元。若总的调查费用CT=10000元。请计算最忧的样本村数和每村的样本住户数。
9.6某幼儿园共有三个班,其人数分别为班级
A
B
C
人数
20
15
25
欲估计每个小孩每天平均吃糖果数。现采用PPS抽样方法抽选两个班,然后在抽中的班中每班抽选5个孩。.假设抽中的班级为B和C班.在B班中用简单随机抽样抽5个小孩,他们平均吃糖果数为3,5,4,5,3;在C班中抽选的5个孩子其吃糖果数为4,6,4,4,3。
要求:
(1)估计全幼儿园平均每人每天吃糖果数;
(2)计算抽样标准误.
9.7假设总体初级单元的大小均为M。为了估计总体均值(按次级单元),采用如下的二阶抽样法,先随机地抽取n个初级单元,然后从每个初级单元中抽取一个次级单元。记
其中
试证:若,则上述简单随机样本比直接从全体次级单元中抽取的样本量为n的简单随机样本更有效,如果n/N忽略不计,则两组样本同样有效。
9.8 对于各级单元大小相等情形的三阶抽样,若每阶抽样都是简单随机的,根据9.5.1中的记号,证明
9.9 多阶抽样与单阶抽样的关系;
9.10 二阶抽样与整群抽样和分层抽样的关系。
等距抽样
10.l 一个班级共有40个学生,分成4个学习小组,按1,2.3,4组顺序排
列.在一次考试中各组按考试成绩由低到高排列,因此不及格的排列在前面,附表如下:
组数
1组
2组
3组
4组
人数编号
1—11
12—20
21—28
29—40
不及格的号码
1,2,3,4
12,13,14
21,22,23,24,25
29,30,31,32
(1)用每隔10人抽取1人的系统抽样方法,列出所有可能样本,计算不及格人数的比例及抽样方差.
(2)用每隔5人抽取1人的系统抽样方法,列出所有可能的样本,计算不及格人数的比例及抽样方差.
(3)若已知总体不及格人数比例为0.4,分别以样本量为n=4和n=8,计算简单随机抽样的方差,与前面的结果相比较,你能得出什么结论?
10.2 以美国某镇的360户为总体,编号从1—360,排列的顺序按户主的姓的字母排列,下列的号码是家长为非白人的住户号码:28,31一33,36—41,44,45,47,55,56,58,68,69,82,83,85,86,89—94,98,99,101,107一110,114,154,156,178,223,224,296,298—300,302—304,306—323,325—331,333,335—339,341,342)由于姓与肤色有关系,所以非白种人的住户显出某些“聚集”的现象)。为了估计家长为飞白人住户在全部住户中所占的比例,每8户抽1户,取得一个系统样本。试将这一系统样本的精度与同样样本量的简单随机抽样的精度加以比较。
10.3 有三个紧邻的地区,居民分别是盎格鲁——撤克逊人,波兰人和意大利人的后裔.还有一本最近的居民册,册内的每一户的人是依下列顺序登记的:丈夫.妻子,孩子(按年龄排列)、其他人。各户是沿街道按顺序排列的。每户平均有五口人。
在户口册中每5个人抽1个人,可以得到一个系统样本,又可以按20%的比例抽取—个简单随机样本。现在要从这两种样本中选择一种样本。在下述三种指标中,你认为哪一指标采用等距样本,有希望取得更好的精度,
(a)波兰人后裔所占的比例;(b)男性所占的比例:(c)孩子所占的比例。请说明理由。
10.4 在一条街上13户的户口册中将所有的居民列成下表:M——男性成人,F一一女性成人,m——男孩,f一—女孩。
住户
2 3 4 5 6 7 8 9 10 11 12 13
M M M M M M M M M M M M M
F F F F F F F F F F F F F
f f m m f f m m m f f
m m f m m f f f m
f f m m
为了估计下列各项指标:(a)男性所占的比例,(b)孩子所占的比例;(c)具有某种职业的住户中人员的比例(第1,2,3.12,13这几户是具有某种职业的住户)。现从每5人中抽1人,可得一系统样本,又按20%的比例抽取一个简单随机样本,请比较这两种样本的方差。这一结果可以验证你对第3题的回答是否正确.(系统样本的排列方法是每产从上到下依次排列).
年份
离婚率%
1945
1950
1955
1960
1965
1970
1975
1980
3.5
2.6
2.3
2.2
2.5
3.5
4.8
5.2
10.5 现欲对一条街上的居民调查住户的平均居住年限,用每隔20户抽取1户的系统抽样方法,共调查了115户,得;。求平均居住年限并作出95%的置信区间。你在作出估计中对总体的排序作了什么样的假设?
10.6 下面是美国1900年以来每隔5年的离婚率资料:
年份
离婚率%
1900
1905
1910
1915
1920
1925
1930
1935
1940
0.7
0.8
0.9
1.0
1.6
1.5
1.6
1.7
2.0
(1)估计这期间的年平均离婚事.并估计其方差。
(2)根据这一资料讨论用系统抽样好还是简单随机抽样好?
10.7 假设某书共有555页,现欲每隔20页抽1页作样本,以估计该书的字数。
(1)从l一20中抽取一个随机起点用直线等距(系统)抽样,并有多少个可能的样本,样本量是多少?
(2)若从1一555中抽取—个随机数除以20,将余数作为随机起点(余数为0代表20),然后每隔20页抽取l页,这种抽样方法与前—种方法有什么区别?
(3)采用圆形系统抽样如何抽选.一共有多少个可能样本?
(4)以上的抽选方法中以样本均值来估计总体均值,哪些是有偏的,哪些是无偏的?
10.8 有假设总体N=15,其指标值排列的顺序为1,2,3,4,5.6,7,8,9,10,11.12,13,14.15.
(1)考虑n=3的直线系统抽样.计算系统抽样的实际方差,与样本量相周的筒单随机抽样进行比较并作简要分析.
(2)若要求抽样间距k=4,样本均值是否为总体均值的无偏估计。它在什么情况下是有偏的,什么情况下是无偏的?
10.9 设N=35,按对称系统抽样抽取样本,n=7,若随机起点r=4,试分别用塞蒂的层内对称系统抽样方法和辛的总体对称系统抽样方法列出抽中样本单元的顺序号码。
10.10 下面是28个村的产量数据,它是按产量由低到高顺序排列后的280个村按种植面积大小成比例的概率抽选的系统样本。(见下表)
样本村
平均亩产
样本村
平均亩产
1
2
3
4
5
6
7
8
9
10
11
12
13
14
370
379
389
396
397
400
404
410
418
433
445
453
460
462
15
16
17
18
19
20
21
22
23
24
25
26
27
28
467
501
503
514
515
541
542
543
562
570
586
601
653
658
(1)用简单随机抽样的公式计算均值的抽样方差;
(2)用合并层的方法计算均值的抽样方差;
(3)用连续差的方法汁算均值的抽样方差;
(4)你认为根据上述资料用哪—种方法计算比较接近实际。
10.11 假设总体的指标值为,N=mk,(k>1)为抽样间距,m为系统样本的大小,样本均值记为。现在剩下的N—m个单元中按某种抽样方式抽取n个单元,其均值记为。记得,试证
(ⅰ)估计量 (1-是的无偏估计;
(ⅱ);
(ⅲ)是无偏估计
10.12 怎样理解等距抽样的随机性问题;
10.13 等距抽样与分层抽样的关系;
10.14 等距抽样的实施方法。
非抽样误差
11.1 对某项民意调查,样本量为n=1000,回答率为0.8,回答者赞成的比例为0.7。后对无回答部分再抽样作一补充调查,得到这部分人回答赞成的比例为0.5,试问
1.当抽样设计未考虑到无回答,而按回答部分的样本作估计时,由无回答引起的偏倚有多大?
2.若增大最初的样本量,由无回答引起的偏倚有何变化?
11.2 在一个估计总体比例P的调查中,事先对无任何先验信息.假设无回答事预计为15%,
若按全部回答的精度要求样本量n=looo,试问若考虑无回答的影响,要达到同样的精度.样本量应达多少?
11.3 拟设计—项调查,首先采用邮寄问卷调查形式,样本量为n,设收回问卷数。在没有回答的单元中,按的抽样比又随机抽取个进行派员调查。已知
1.邮寄问卷的无回答率R=25%;
2.调查指标的变异系数为100%:
3.无回答屉的方差与总体方差之比为0.5;
4.邮寄问卷每份费用=0.15,对每个回答问卷的数据处理费用为=1.0.派员调查及数据处理赞用每份为=4.0.其费用函数为:
若要求调查的相对误差与抽取100个单元的简单随机抽样相同,且不考虑fpc,求最优的与,并计算出总的调查费用。
11.4斯方法的一个调查中,在最初样本中包含有660个被调查者,在第一次访问中有390个被调查者在家。根据他们的陈述,他们在前5个晚上有0,1,…,5个晚上在家的人数及他们对所调查的某个问题回答“是”的人数如下:
t
0 1 2 3 4 5
人数回答“是”的人数
14 35 55 74 94 118
4 13 20 30 42 156
请计算总体中回答“是”的人数所占的比例的波利茨一西蒙斯估计量.
11,5 某大学教学行政部门采用沃纳随机化回答技术调查考试作弊人数的比例。设计中直接提“你在考试中曾作过弊,对吗?”问题的比例P=3/4,样本量。n=200,调查结果回答“是”的人数为60人,试估计曾作过弊人数比例及其90%的置信区间.
11.6 在总体中有10%的人有过一种违纪行为(=0.1),如果对此问题调查中每个被调查者都作出真实的回答,请将n=500时按以下各种方法计算出的v(礼)加以比较:
1.直接提这个敏感性问题;
2.沃纳方法,P=0.8
3.西蒙斯方法,,P=0.8。
11.7 设总体中的每个单元在被调查时,回答与否是随机的,作出回答的概率均为p,定义,
现随机地抽取n个单元,根据回答情况记录的值,其平均值记为,试证明估计量是总体均值的无偏估计.
11.8 试用西蒙斯随机化回答模型做一次关于敏感性问题的调查;
11.9 怎样才能获得一个完善的抽样框?
(说明:以上习题大部分来自冯士雍、倪加勋、邹国华编著《抽样调查理论与方法》一书。)
概述
1.1 结合以下所列情况讨论哪些适合用全面调查,哪些适合用抽样调查,并说明理由;
1.研究居住在某城市所有居民的食品消费结构;
2.调查一个县各村的粮食播种面积和全县生猪的存栏头数;
3.为进行治疗,调查一地区小学生中患沙眼的人数;
4.调查一地区结核病的发生率;
5.估计一个水库中草鱼的数量;
6.某企业想了解其产品在市场的占有率;
7.调查一个县中小学教师月平均工资。
1.2 结合习题1.1的讨论,你能否概括在什么场合作全面调查,什么场合适合做抽样调查。
1.3 讨论以下所列情况是否属于概率抽样,并说明理由:
1.从一个包含有100只兔子的实验室大笼子里抓10只兔子做实验。研究人员不经任何挑选抓到哪只就算那一只,抓满10只为止。
2.将笼中的100只兔子编上1~100号,任意列出10个不重复的数字(为1~100之间的整数),以相应的兔子作为抽中作试验的样本;
3.从钱包中随便抽出一纸币,凡兔子号码尾数与该纸币编号尾数相同者及作为抽中的样本。
1.4 某刊物对其读者进行调查,调查表随刊物送到读者手中,对寄回的调查表进行分析。试问这是不是一项抽样调查?样本抽取是不是属于概率抽样?为什么?
1.5 结合习题1.3与1.4的讨论,根据你的理解什么是概率抽样?什么是非概率抽样?它们各有什么优点?
1.6 请列举一些你所了解的以及被接受的抽样调查。
1.7 抽样的随机原则及其意义;
1.8 怎样理解抽样调查的科学性?
1.9 抽样调查基础理论及其意义;
1.10 抽样调查的特点。
抽样调查基本原理
2.1 试说明以下术语或概念之间的关系与区别;
1.总体、样本与个体;
2.总体与抽样框;
3.个体、抽样单元与抽样框。
2.2 试说明以下术语或概念之间的关系与区别;
1.均方误差、方差与偏倚;
2.方差、标准差与标准误;
3.无偏估计、祥和估计量与可用估计量;
4.绝对误差限、置信限(置信区间)与置信度。
2.3 从某个总体抽取一个n=50的独立同分布样本,样本数据如下:
567 601 665 732 366 937 462 619 279 287
690 520 502 312 452 562 557 574 350 875
834 203 593 980 172 287 753 259 276 876
692 371 887 641 399 442 927 442 918 11
178 416 405 210 58 797 746 153 644 476
1.计算样本均值y与样本方差s2;
2.若用y估计总体均值,按数理统计结果,y是否无偏,并写出它的方差表达式;
3.根据上述样本数据,如何估计v(y)?
4.假定y的分布是近似正态的,试分别给出总体均值μ的置信度为80%,90%,95%,99%的(近似)置信区间。
2.4 样本可能数目及其意义;
2.5 影响抽样误差的因素;
2.6 抽样分布及其意义;
2.7 抽样估计的基本原理;
2.8 置信区间的确定。
简单随机抽样
3.1 讨论下列从总体中筹得的样本是否尾灯概率抽选(回答“是”或“否”);
1.总体(1-112)。抽法:从数1-56中随机抽取一个数r,再从数1-2中抽取一个数,以决定该数为r或56+r;
2.总体(1-112)。抽法:首先从1-2中抽选一个数以决定两个群1-100或101-112,再从抽中的群中随机抽选一个数r;
3.总体(1-1109)。抽法:从1-10000中抽选一个随机数r,若第一位是偶数,则用后面的三位数来表示1-1000(以000代表1000);若第一位数是奇数,当后面的三位数在101-109之间就代表1001和1109,若在110和1000之间被抛弃,重新抽选r;
4.总体(67084-68192)。抽法:从1-1109中抽选一个随机数r,然后用r+67083作为被抽选的数;
5,总体(67084-68192)。抽法:从1-2000中抽选一个随机数r,若在0084-1192之间就加67000取相应数,否则就抛弃,重选r;
6.总体有1109个数分布在61000-68000之间。抽法:随机抽选四位数r加60000,如果该数有相应的数就算抽中,无相应数抛弃重选;
7.总体(1-17)。抽法:在1-100中抽选r,再除以20,若余数在1-17之间,就抽中相应的数,否则抛弃重选;
8.总体(1-17)。抽法:在1-100中随机抽选一个数除以17,以余数作为抽中的数。
3.2 设总体N=5,其指标值为{3,5,6,7,9}
1.计算总体方差和S2;
2.从中抽取n=2的随机样本,分别计算放回抽样和不放回抽样的方差;
3.按放回抽样和不放回抽样的分别列出所有可能的样本并计算,验证=;
4,按放回抽样和不放回抽样的所有可能的样本,计算其方差,并与公式计算的结果进行比较;
5.对所有的可能样本计算样本方差s2,并验证在放回抽样的情况下E(s2)=;在不放回的情况下:E(s2)= S2。
3.3 在一森林抽样调查中,某林场共有1000公顷林地,随机布设了50块面积为0.06公顷的方形样地,测得这50块样地的平均储蓄量为9m3,标准差为1.63 m3,试以95%的置信度估计该林场的木材储蓄量。
3.4 某居民区共有10000户,现用抽样调查的方法估计该区居民的用水量。采用简单随机抽样抽选了100户,得y=12.5,s2=1252。估计该居民区的总用水量95%的置信区间。若要求估计的相对误差不超过20%,试问应抽多少户做样本?
3.5 某工厂欲制定工作定额,估计所需平均操作时间,从全厂98名从事该项作业的工人中随机抽选8人,其操作时间分别为4.2,5.1,7.9,3.8,5.3,4.6,5.1,4.1(单位:分),试以95%的置信度估计该项作业平均所需时间的置信区间(有限总体修正系数可忽略)。
3.6 从某百货商店的3000张发货票中随机抽取300张来估计家用电器销售额,发现其中有200张是销售家用电器的,这200张发货票的总金额是48956元,其离差平方和为12698499。若置信度是95%,试估计这3000张发货票中家用电器销售额的置信区间。
3.7 某总体有10个单元,分为A,B,C三类,其中A类有2个单元,B类和C类各有四个单元。若采用不放回抽样抽取一样本量为4的简单随机样本来估计B类单元在B,C两类单元中的比例,试计算估计量的标准误。
3.8 某县采用简单随机抽样估计粮食、棉花、大豆的播种面积,抽样单元为农户。根据以往资料其变量的变异系数为
名称 粮食 棉花 大豆
变异系数 0.38 0.39 0.44
若要求以上各个项目的置信度为95%,相对误差不超过4%,需要抽取多少户?若用这一样本估计粮食的播种面积,其精度是多少?
3.9 从一叠单据中用简单随机抽样方法抽取了250张,发现其中有50张单据出现错误,试以95%的置信度估计这批单据中有错误的比例。若已知这批单据共1000张,你的结论有何变化?若要求估计的绝对误差不超过1%,则至少抽取多少张单据作样本?
3.10 欲调查二种疾病的发病率,疾病A的发病率较高,预期为50%;
疾病B的发病率预期为1%。若要得到相同的标准差0.5%,采用简单随机抽样各需要多大的样本量?试对上述不同的结果加以适当的说明。
3.11 假设总体中每个单元有两个指标值Yi和Xi,i=1,…,N,记y,为相应的简单随机样本的均值。试证样本协方差
是总体协方差
的无偏估计。
3.12 设y是从总体{Yi,…,YN}中抽取的样本量为n的简单随机样本的均值,yn1是从样本量为n1的简单随机子样本均值,yn2是剩余的样本单元均值。试证:
Cov(,)=
(提示:利用以下事实:两个子样本均可看成是从总体中直接抽取的简单随机子样本)。
3.13 设某个总体由L个子总体构成,今从该总体中抽取一个大小为n的简单随机样本,且设属于第j个子总体的单元数为nj固定的条件下,这nj个单元可看成是从第j个子总体中抽取的一个简单随机样本。
3.14 简单随机抽样在抽样技术中的地位;
3.15 简单随机抽样中样本量确定的原则及主要考虑因素;
3.16 总体方差的预先确定思路。
分层抽样
4.1 一公司希望估计某一个月内由于事故引起的工时损失。因工人、技术人员及行政管理人员的事故率不同,因而采用分层抽样。已知下列资料:
工人
技术人员
行政管理人员
N1=132
N2=92
N3=27
S12=36
S22=25
S32=9
若样本量n=30,试用你乃曼分配确定各层的样本量。
4.2 上题中若实际调查了18个工人,10个技术人员,2个行政人员,其中损失的工时数如下:
工人
技术人员
行政管理人员
8,24,0,0,16,32,
6,0,16,7,4,4,9,5,8,18,2,0
4,5,0,24,8,12,3,2,1,8
1,8
试估计总的工时损失数并给出它的置信度为95%的置信区间。
4.9在估计比例问题时:
假设P=0.5,W1=W2=0.5,则P1和P2为何值时可以使按比例分配的分层抽样精度可以得益20%(即=0.8)
若P=4%,其中W1=0.05,P1=45%;W2=0.2,P2=5%; W3=0.75,P3=1%.则采用按比例分配的分层抽样比简单随机抽样精度得益有多大?
4.10调查某个地区的养牛头数,以村作为抽样单元。根据村的海拔高度和人口密度划分成四层,每层取10个村作为样本单元,经过调查获得下列数据层
村总数
样本村养牛头数
1 2 3 4 5 6 7 8 9 10
1
2
3
4
1411
4705
2558
14997
43 84 98 0 10 44 0 124 13 0
50 147 62 87 84 158 170 104 56 160
228 262 110 232 139 178 334 0 63 220
17 34 25 34 36 0 25 7 15 31
要求:
估计该地区养牛总头数Y及其估计量的相对标准误差
讨论分层抽样与不分层抽样比较效率有否提高。
若样本量不变采用乃曼分配可以减少方差多少?
4.11用下面的工厂分组资料按工人人数分组
工厂数目
每工厂产值(万元)
标准差
1—49
50—99
100—249
250—999
1000人以上
18260
4315
2233
1057
567
100
250
500
1760
2250
80
200
600
1900
2500
若欲抽取3000个工厂作样本来估计产值,试比较下列各种分配的效率:
按工厂数多少分配样本;
按最优(奈曼)分配。
4.12 一个样本为1000的简单随机样本,其结果可分为三层,相应的=10.2,12.6,17.1,=10.82(各层相同),=17.66,估计的层权是=0.5,0.3,0.2,已知这些权数有误差,但误差在5%以内,最不好的情况是=0.525,0.285,0.190或=0.475,0.315,0.210,你认为是否需要分层?
4.13 设费用函数具有形式,其中,(h=1,…,L)均为已知数。试证明当总的费用固定时,为了使达到最小,必与成比例。
4.14 假设总体包含大小相等的L个层,且N相对于L和n来说很大。表示简单随机样本均值的方差,表示按比例分配的分层随机抽样时的相应方差。试证明下列两式近似成立:
(2)
其中 表示层内的平均方差,即
4.15 怎样分层能提高精度?
4.16 总样本量在各层间分配的方法有哪些?
4.17 分层的原则及其意义。
比估计与回归估计
5.1 对以下假设总体(N=6)
U1 U2 U3 U 4 U 5 U6
Xi
Yi
0 1 3 5 8 10
1 3 11 18 29 46
用简单随机抽样抽取n=2的样本,列出所有可能的样本计算每个样本的R。R是不是无偏的?若有偏,偏倚多大?
若用n=2的简单样本去估计总体总量Y,试比较比估计与简单估计的方差。
5.2 欲估计某小区居民的食品支出占总收入的比重,该地区共有150户,现用简单随机抽样抽取14户为样本,经调查每户的食品支出yi与总收入xi的数据如下表:
样本户
总收入xi
食品支出yi
1
2
3
4
5
6
7
8
9
10
11
12
13
14
25100
32200
29600
35000
34400
26500
28700
28200
34600
32700
31500
30600
27700
28500
3800
5100
4200
6200
5800
4100
3900
3600
3800
4100
4500
5100
4200
4000
要求估计食品支出占收入比重的95%置信度的置信区间。
5.3 某林场欲估计一批出售木材的材积量,从N=250株砍伐的树木中随机抽取了n=12株作为样本,每株分别测量了根部横截面积和材积量(见附表)。为了估计总材积量又测量了这250株树木根部的横截面积之和为75平方尺。
要求:
估计这250株树的总材积量及相对标准差;
比较采用比估计与简单估计的效率。
附表样本序号
根部横截面积(平方尺)
材积量(立方尺)
1
2
3
4
5
6
7
8
9
10
11
12
0.3
0.5
0.4
0.9
0.7
0.2
0.6
0.5
0.8
0.4
0.8
0.6
6
9
7
19
15
5
12
9
20
9
18
13
5.4某乡欲估计今年的小麦总产量,全县共有123个村,按简单随机抽样抽取13个村作为样本,取得资料如下:
样本村
去年的小麦产量(百斤)
今年的小麦产量(百斤)
1
2
3
4
5
6
7
8
9
10
11
12
13
550
720
1500
1020
620
980
928
1200
1350
1750
670
729
1530
610
780
1600
1030
600
1050
977
1440
1570
2210
980
865
1710
若已知去年的小麦总产量为128200(百斤),采用比估计法估计今年的小麦总产量和置信度为95%的置信区间。
估计每个村的平均小麦产量及估计的相对标准差。
一公司欲了解广告对其产品销售量的作用,从销售该公司产品的452家企业中抽选了20家,分别调查了广告前与广告后的月销售量数据如下表:
样本企业
广告前
广告后
1
2
3
4
5
6
7
8
9
10
208
400
440
259
351
880
273
487
183
863
239
428
472
276
363
942
294
514
195
897
样本企业
广告前
广告后
11
12
13
14
15
16
17
18
19
20
599
510
828
473
924
110
829
257
388
244
626
538
888
510
998
171
889
265
419
257
若广告前的月总销售量为216256,估计广告后的月销售量及其相对标准差。
求广告后比广告前销售量增加百分比的置信区间(a=0.05)。
若允许估计总销售量的最大绝对误差为△=3800,置信度为95%,确定应抽取多少企业作样本。
5.6 对习题5.4的资料采用差估计急用样本回归稀疏的回归估计法估计平均每村的小麦产量和小麦总产量。比较差估计、回归估计与比估计的效率。
5.7 某养兔专业户购进100只兔子,平均重量为3.1磅,随机抽取了10只兔子为样本,记录其重量,经过两个月的饲养,现欲了解其平均重量,经过称重,其资料如下:
样本
原重(磅)
现重(磅)
1
2
3
4
5
6
7
8
9
10
3.2
3.0
2.9
2.8
2.8
3.1
3.0
3.2
2.9
2.8
4.1
4
4.1
3.9
3.7
4.1
4.2
4.1
3.9
3.8
要求:
用回归估计法估计每只兔现有的重量,并计算其方差的近似估计量。
若每只兔的平均重量允许最大误差为0.05磅,置信度为95%,应该取多少只兔为样本?
5.8 在一水稻实割实测的实验研究中,以x表示稻草的重量,y表示稻谷的重量,通过随机地布设大量测框(方形的抽样单元)得到Cx2=1.2,Cy2=1.24,Cyx=0.81,这里的Cx和Cy分别为x和y的变异系数,
Cyx=pCx Cy,p是x和y之间的相关系数。当x的总量可以得到时,试求估计稻谷总产量用比估计与简单估计的相对效率(方差之比)。
5.9 某县欲调查某种农作物的产量,由于平原和山区的产量有差别,故拟划分平原和山区两层采用分层抽样。同时当年产量与去年产量之间有相关关系,故还计划采用比估计方法。已知平原共有120个村,去年总产量为24500(百斤),山区共有180个村,去年总产为21200(百斤)。现从平原用简单随机抽样抽取6个村,从山区抽取9个村,两年的产量资料如下:
平原 山区样本
去年产量
(百斤)
当年产量
(百斤)
1
2
3
4
5
6
204
143
82
256
275
198
210
160
75
280
300
190
样本
去年产量
(百斤)
当年产量
(百斤)
1
2
3
4
5
6
7
8
9
137
189
119
63
103
107
159
63
87
150
200
125
60
110
100
180
75
90
试用分别比估计与联合比估计分别估计当年的总产量,给出估计量的标准误,并对上述两种结果进行比较和分析。
5.10 假设总体的每个单元有两个指标值Yi和Xi,i=1,…,N。为了估计比值R=Y/X,使用比估计R=y/x。试证:如果抽取样本的概率与成正比,则是的无偏估计。
5.11 假设总体回归系数B是已知的。考虑如下的回归估计量:
则优于 。今在上述估计量的右边用改进的估计量代替,问所得的估计量是否比更好?即是否优于?
5.12 回归估计、比估计与简单估计间的区别;
5.13 辅助变量的选择原则;
5.14 回归系数的选择与确定。
二重抽样
6.1 某县欲调查某种作物的播种面积,全县共有2000个村,拟采用分层抽样以提高抽样效率,但由于缺乏详细的分层资料,故采用二重抽样方法。先抽取500个村作为第一重样本,根据村的大小(现有户数)进行分层,然后又在各层中等比例地抽取1/5村作为第二重样本,分别调查了该种作物的播种面积,其有关数据如下:
层
第一重抽样
第二重抽样
50户以下村
50-99户
100-199户
200-299户
300户以上
85
125
140
110
40
17
25
28
22
8
490
1806
4423
5607
4101
16574
135164
736075
1446987
2205691
要求:
(1) 估计全县该种作物的种植面积;
(2)计算播种面积估计的标准差。
6.2 现有总调查费用为3000元,拟用来作一个估计比例问题的调查。假设每一个抽样单元的调查费用为10元,现有两种方案可供选择,一是采用二重分层抽样,第一重样本用来对单元进行分层,每个抽样单元的分层费用是0.25元,已经总体中两层的权重相等。如果第一层中的起初比例是0.2,第二层中的真实比较为0.8,要求确定二重抽样中最优的和,以及由此所得到,另一种方案是采用不分层的简单随机抽样。要求将二重分层抽样的精度与简单抽样进行比较。抽样效率是否提?
(假定抽样比和均可忽略不计)。
6.3 按照上一题中的,,求调查一个单元费用和每分层一个单元费用之比达到多少时,二重抽样的费用效率高于简单随机抽样?
6.4 某地区欲估计牛的年末头数,以上一次的普查数作为辅助变量。但由于行政区划的变动,上次该地区普查的总头数已不能利用,故采取二重抽样的方法,先在全地区1238个村抽500个村,得到上期普查的平均每村有牛的头数为602头,然后又抽取第二重样本为24个村,分别取得了上期普查头数和当年的年末头数,起资料如下:
样本序列
普查头数
年末头数
样本序号
普查头数
年末头数
1
2
3
4
5
6
7
8
9
10
11
12
623
690
534
293
69
842
475
371
161
298
2045
1069
654
696
530
315
78
640
692
292
210
555
2110
592
13
14
15
16
17
18
19
20
21
22
23
24
706
1795
1406
118
330
218
160
210
262
204
185
574
707
1890
1123
115
375
212
147
297
401
252
199
564
要求:
用二重比估计法估计该地区年末牛的总头数及其估计的标准差。
6.5 试用上题的资料,采用二重回归估计法估计该地区年末牛的总头数及其估计饿标准差。并比较回归估计和比估计的效率,作简要分析。
6.6 在二重回归抽样中,如果=0.8,假如由于第一重样本的均值的抽样误差使精确度的损失必须小于10%,则相对于来说,必须多大?
6.7 在应用二重回归抽样时,设第二重抽样的样本量为87,第一重抽样的样本量为300。下列计算应用于第二重样本。
17283 5114
3248
请计算的二重回归估计量的标准差。
6.8 对某块林地的木材蓄积量采用二重抽样方法,第一重抽样的抽样比为10%,样本量为,用目测估计蓄积量为辅助变x。在第一重样本中再抽取一个子样本,样本量为,对该样本用目测法估计,并同时进行实测(y),对整个林地木材蓄积量采用回归估计,若给定费用为10000元,其费用函数为,y的变异系数为1,y和x之间的相关关系伪0.7,试求最优的和,并计算估计的相对标准差。
6.9 总体分为L层,第h层的大小为(),对总体采用简单随机抽样抽取一个样本量为的样本,记为样本单元高于第h层的单元数且>0,证明是层权的无偏估计
6.10 设总体包含大小相等的L个层,对它采用分层二重抽样,假定N很大,且第二重抽样的抽样比对各层皆为常数,试证分层二重抽样估计量的方差满足:
其中 =
6.11 二重抽样的基本方法;
6.12 二重抽样的主要作用有哪些?
6.13 二重抽样与二阶抽样的区别何在?
不等概率抽样
7.1 对与N=4的假设总体{1,2,3,4}按给顶的概率{0.1,0.2,0.4,0.4}进行有放回抽样,n=2(1)试列出所有可能样本以及每个出现的概率;(2)对每个样本计算对总体和Y的估计,验证是Y的无偏估计;(3)根据可能样本计算,验证其结果是否按公式计算的结果一致?
7.2 研究人员欲估计一批电子元件板上的缺陷数,由于缺陷数与板上的电子元件数目有关,故采用与元件数目成比例的放回的PPS抽样。设N=10,每块板上电子元件的数目按顺序分别为10,12,22,8,16,24,9,10,8,31,设n=4。现要求
(1)说明样本的抽选方法;
(2) 若抽中的单元按前面排列的序号是第2,3,5,7这四个元件板,其缺陷数分别为1,3,2,1,试根据这一抽样结果,估计这批元件上共有多少个缺陷数。
(3)给出上述估计量的方差估计。
7.3 某个大型企业欲估计整个企业人员一年的人均病假天数,该企业有8个子公司,为了方便起见拟抽取3个公司进行调查然后推断整个企业,但每个子公司的人数不同,且差别很大,故采用按人数成比例的PPS抽样。各个公司的人数如下:
公司
1 2 3 4 5 6 7 8
人数
1200 450 2100 860 2840 1910 390 3200
请列举一种抽选方法,说明抽选的步骤。
若抽中的是第3,6,8这三个子公司,其病假的总数分别为4320人日,4160人日和5790人日,估计全企业的人均病假天数,并计算抽样标准误。
某地区欲调查水稻播种面积,以村作为抽样单元,采取按普查人数进行放回PPS抽样,共抽中10个村,其数据如下:
样本村
普查人口(人)
水稻面积(亩)
1
2
3
4
5
6
7
8
9
10
5511
865
2535
3523
8368
7357
5131
4654
1146
1165
4824
924
1948
3013
7678
5506
4051
4060
809
1013
已知该地区普查人口总数为415149。
估计该地区的水稻种植面积和相对标准差;
若要求相对标准差控制在2%以内,求必要的样本量。
假设总体大小N=7,单元指标值分别为10,20,30,40,50,60和70,采取n=2的不放回PS抽样。试列出所有可能的样本,计算每个单元和每对单元被抽入样本的包含改良和并验证,。
有一个总体N=3,1/2,1/3和1/6,=7,5和2。采取不放回抽样方式,从总体中抽出两个单元,第一个单元按与成比例的概率抽出,第二个单元按余下单元的大小成比例的概率抽出。
要求:
(1)验证:, ,,
, ,
(2)当采用这一抽样方法时,请比较估计量与PS的估计量的方差。
(3)请证明当采取放回抽样方式,按等概率抽样时对的比率接近1/2这一数值。
7.7 有一个估计某城镇现有第三产业单位数的例子。假设有去年年底的普查数和现有的实际单位数,分街道统计如下:
街道
去年普查数
现有单位数
街道
去年普查数
现有单位数
1
2
3
4
5
6
7
8
9
10
9
9
12
12
12
14
14
17
18
18
9
13
12
12
14
17
15
20
19
18
11
12
13
14
15
16
17
18
19
20
19
21
23
24
24
25
26
27
30
40
19
25
27
21
35
22
25
27
47
37
假设n=1,采用以下几种估计量等概率抽选,简单(无偏)估计;
等概率抽选,以去年普查数为辅助变量的比估计;
按与去年普查数成比例的概率抽样,汉森—赫维茨估计。
比较这三种估计的方差或均方误差,(计算比估计的均方误差时应计算真值而不用近似公式)并加以讨论。
试证:对于n=2时的布鲁尔方法,只要每个<1/2,则必有
0<<,。
7.9设总体各个单元的大小分别为,i=1,…,N。考虑如下的抽样方法:设d为,…,的一个公约数,以/d个代码代表单元i,然后用不放回的简单随机抽样法从总共个代码中抽出n个,则相应的单元入样。试证:在这个抽样方法下,有
(1)估计量 ()是总体总和的无偏估计;
(2)的方差是
(3) 的一个无偏估计是
整群抽样
8.1 若欲调查城市的猪肉人均消费量,讨论下列情况下采用街道作为群的整群抽样是否合适,如果不合适你认为采用什么抽样方式好。
(1) 少数民族的居住比较集中;
(2)少数民族比较均匀得分布在各街道;
(3)少数民族分散在各街道但比重不同。
8.2 某一社会研究机构,研究南方某一城镇的社会民俗等情况。设该镇共有415个居民小组,现从中按简单随机抽样抽取25个居民小组作样本,取得了以下一些数据。
样本数
户数
其中三代人户数
总收入
样本数
户数
其中三代人户数
总收入
1
2
3
4
5
6
7
8
9
10
11
12
13
8
12
4
5
6
6
7
5
8
3
2
6
5
4
7
1
3
3
4
4
2
3
2
1
3
2
96000
121000
42000
65000
52000
40000
75000
65000
45000
50000
85000
43000
54000
14
15
16
17
18
19
20
21
22
23
24
25
10
9
3
6
5
5
4
6
8
7
3
8
6
4
1
4
2
3
1
3
3
4
0
3
49000
53000
50000
32000
22000
45000
37000
51000
30000
39000
47000
4100
合计
151
72
1329000
要求:
估计该地区户平均收入及其标准差。
估计三代人的户占总户数的比例,并计算其标准差;
若以上两项估计的相对标准差均控制在5%,应抽取多少居民小组(群)作样本。
一带锯厂对它的用户负责进行维修,按季定期进行结算,但缺乏每一带锯的平均修理费用,该厂共有96家用户,各拥有不同的带锯数。现用简单随机抽样抽取20家作样本,其其资料如下:
样本
锯数
修理费用
样本
锯数
修理费用
1
2
3
4
5
6
7
8
9
10
3
7
11
9
2
12
14
3
5
9
50
110
230
140
60
280
240
45
60
230
11
12
13
14
15
16
17
18
19
20
8
6
3
2
1
4
12
6
5
8
140
130
70
50
10
60
280
150
110
120
要求:
估计每一带锯的平均修理费用及其抽样标准误差;
在未知总体带锯数的条件下估计96家用户总的修理费用及估计标准误;
若已知这96家用户共有740条带锯,利用这一补充信息估计总的修理费用和估计的标准误;
若欲估计下一季度每一带锯饿平均修理费用,允许最大绝对误差为d=2,置信度为95%,应抽取多少家用作样本。
汽车运输公司抽样检查在使用的车辆中不安全轮胎的比例,在175辆车中抽取了25辆,其不安全轮胎数如下:
不安全轮胎数
汽车数
0
1
2
3
4
5
8
7
2
3
要求估计该运输公司的汽车中不安全轮胎的比例及其估计的标准误。
某工业系统准备一项改革措施,对全系统的人进行一项民意测验,该系统共有87个单位,现采用整群抽样,用简单随机抽取15个单位作为样本,读抽中的单位作全面征求意见,其结果如下:
单位
总人数
赞成人数
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
51
62
49
73
101
48
65
49
73
61
58
52
65
49
55
42
53
40
45
63
31
38
30
54
45
51
29
46
37
42
要求:
估计该系统同意这一改革人数的比例,并计算估计标准误;
在调查的基础上对方案作了修改,拟再一次征求意见,要求估计比例的绝对误差不超过4%,置信度为95%,则应抽多少个单位作样本。
在一个估计总体比例问题的抽样设计中,首先作了试调查,研究群的大小与群间方差之间的关系,取得下列数据
群平均大小
群平均大小
1
2.25
4
6.25
9
0.1120
0.0813
0.0659
0.0577
0.0505
12.25
16
25
36
0.0454
0.0419
0.0398
0.0342
假设费用函数,确定估计P时在固定费用为10000元的条件下最优的和。
假设整群抽样的样本群数为n,每个群有M个单元,群间方差为,群内方差为试对整群抽样与相同样本量的简单随机抽样的效率的比较进行讨论(fpc可忽略不计)。
在一次农村调查中,抽样单元是包含M个农场的群,当抽取n个群作样本时,其费用是:,其中t是调查一个农场所花的时间(按小时计算)。如果这一调查的总费用是2000元,当M=1,5,10,t=0.5,2时,n的数值计算如下:
M
1
5
10
t=0.5
t=2
400
156
131
40
74
21
样本均值的方差是,fpc忽略不计。如果M在1—10之间,=0.1,试问(1)t=0.5,(2)t=2小时,单元多大能得到最精确的结果?你这样解释两个结果的差别。
8.9 整群抽样与分层抽样的区别;
8.10 整群抽样群大小的计量方法;
8.11 整群抽样的设计效应。
多阶抽样
9.1 苗圃职工用二阶抽样方法估计树苗的平均高度,该苗圃共有N=50块地,先从中抽取10块地,再从每块抽中的地块中抽10%的树苗,对抽中的苗木测量其高度取得资料如下:
地块(i)
秧苗数(Mi)
抽样数(mi)
苗木高度yij
1
2
3
4
5
6
7
8
9
10
52
56
60
46
49
51
50
61
60
45
5
6
6
5
5
5
5
6
6
6
12,11,12,10,13
10,9,7,9,8,10
6,5,7,5,6,4
7,8,7,7,6
10,11,13,12,12
14,15,13,12,13
6,7,6,8,7,
9,10,8,9,9,10
7,10,8,9,9,10
12,11,12,13,12,,12
已知共有M0=2600株苗木若两阶抽样都是简单随机的,调查结果用加权平均数来估计总体均值,求估计值,并计算;
抽样方法同(1),但估计量不加权,即用,求估计值并计算
抽样方法不变,使用比估计,即,求估计值及其标准误差
讨论上述三种方法的适用条件
9.2 省卫生部门对32个城市的饮食业采用二阶抽样方法检查卫生合格情况,第一阶抽样从32个城市中简单随机抽取4个城市,第二阶抽样在每个抽中的城市用同样方法抽取一半饮食店进行检查,检查结果如下:
样本城市
饮食店总数
样本店数
检查卫生不合格数
1
2
3
4
25
10
18
16
13
5
9
8
4
1
4
2
要求估计这32个城市不合卫生要求的饮食店所占的比例及95%的置信区间。
9.3 某城市共有六家医院,欲估计住院病人中长期住院病人所占的比例。现从这六家医院根据病床的多少采用放回按规模大小成比例的抽样方法抽取3个医院,再从抽中的医院中用简单随机抽样抽取10%的病人,调查长期住院病人(住院一个月以上)所占的比例.其数据如下:
样本医院
总住院病人数
抽选病人数
住院在一个月以上的病人数
1
2
3
430
280
190
43
28
19
5
4
3
要求估计住院在一个月以上病人占总住院病人的比例及其95%的置信区间.
9.4 为估计一本英语字典的总字条效.先从26个字母中用放回的PPS抽样方法抽出10个字母,在抽中的字母中又不放回地抽取2页进行计数,其样本数据如下:
样本字母
总页数
样本页上数字
1
2
S
C
N
S
F
J
U
P
A
D
131
97
21
131
43
7
18
85
49
54
34
27
44
24
25
42
24
53
47
38
27
26
38
29
32
48
21
24
55
57
用汉森一赫维茨估计量估计该字典的总字数和它的相对标准差,并估计它的设计效应deff。
9,5 估计一个地区的每一住户平均消费支出,拟采用二阶抽样设计,第一阶抽村,第二阶抽户,都采用简单随机抽样。为了设计这一调查先作了一试调查获得以下信息:(a),(b)村与村之间的方差,(c)村内户与户之间的方差,(d)调查每个村的费用元,(e)调查每一住户的费用元,(f)调查的组成管理费用为元。若总的调查费用CT=10000元。请计算最忧的样本村数和每村的样本住户数。
9.6某幼儿园共有三个班,其人数分别为班级
A
B
C
人数
20
15
25
欲估计每个小孩每天平均吃糖果数。现采用PPS抽样方法抽选两个班,然后在抽中的班中每班抽选5个孩。.假设抽中的班级为B和C班.在B班中用简单随机抽样抽5个小孩,他们平均吃糖果数为3,5,4,5,3;在C班中抽选的5个孩子其吃糖果数为4,6,4,4,3。
要求:
(1)估计全幼儿园平均每人每天吃糖果数;
(2)计算抽样标准误.
9.7假设总体初级单元的大小均为M。为了估计总体均值(按次级单元),采用如下的二阶抽样法,先随机地抽取n个初级单元,然后从每个初级单元中抽取一个次级单元。记
其中
试证:若,则上述简单随机样本比直接从全体次级单元中抽取的样本量为n的简单随机样本更有效,如果n/N忽略不计,则两组样本同样有效。
9.8 对于各级单元大小相等情形的三阶抽样,若每阶抽样都是简单随机的,根据9.5.1中的记号,证明
9.9 多阶抽样与单阶抽样的关系;
9.10 二阶抽样与整群抽样和分层抽样的关系。
等距抽样
10.l 一个班级共有40个学生,分成4个学习小组,按1,2.3,4组顺序排
列.在一次考试中各组按考试成绩由低到高排列,因此不及格的排列在前面,附表如下:
组数
1组
2组
3组
4组
人数编号
1—11
12—20
21—28
29—40
不及格的号码
1,2,3,4
12,13,14
21,22,23,24,25
29,30,31,32
(1)用每隔10人抽取1人的系统抽样方法,列出所有可能样本,计算不及格人数的比例及抽样方差.
(2)用每隔5人抽取1人的系统抽样方法,列出所有可能的样本,计算不及格人数的比例及抽样方差.
(3)若已知总体不及格人数比例为0.4,分别以样本量为n=4和n=8,计算简单随机抽样的方差,与前面的结果相比较,你能得出什么结论?
10.2 以美国某镇的360户为总体,编号从1—360,排列的顺序按户主的姓的字母排列,下列的号码是家长为非白人的住户号码:28,31一33,36—41,44,45,47,55,56,58,68,69,82,83,85,86,89—94,98,99,101,107一110,114,154,156,178,223,224,296,298—300,302—304,306—323,325—331,333,335—339,341,342)由于姓与肤色有关系,所以非白种人的住户显出某些“聚集”的现象)。为了估计家长为飞白人住户在全部住户中所占的比例,每8户抽1户,取得一个系统样本。试将这一系统样本的精度与同样样本量的简单随机抽样的精度加以比较。
10.3 有三个紧邻的地区,居民分别是盎格鲁——撤克逊人,波兰人和意大利人的后裔.还有一本最近的居民册,册内的每一户的人是依下列顺序登记的:丈夫.妻子,孩子(按年龄排列)、其他人。各户是沿街道按顺序排列的。每户平均有五口人。
在户口册中每5个人抽1个人,可以得到一个系统样本,又可以按20%的比例抽取—个简单随机样本。现在要从这两种样本中选择一种样本。在下述三种指标中,你认为哪一指标采用等距样本,有希望取得更好的精度,
(a)波兰人后裔所占的比例;(b)男性所占的比例:(c)孩子所占的比例。请说明理由。
10.4 在一条街上13户的户口册中将所有的居民列成下表:M——男性成人,F一一女性成人,m——男孩,f一—女孩。
住户
2 3 4 5 6 7 8 9 10 11 12 13
M M M M M M M M M M M M M
F F F F F F F F F F F F F
f f m m f f m m m f f
m m f m m f f f m
f f m m
为了估计下列各项指标:(a)男性所占的比例,(b)孩子所占的比例;(c)具有某种职业的住户中人员的比例(第1,2,3.12,13这几户是具有某种职业的住户)。现从每5人中抽1人,可得一系统样本,又按20%的比例抽取一个简单随机样本,请比较这两种样本的方差。这一结果可以验证你对第3题的回答是否正确.(系统样本的排列方法是每产从上到下依次排列).
年份
离婚率%
1945
1950
1955
1960
1965
1970
1975
1980
3.5
2.6
2.3
2.2
2.5
3.5
4.8
5.2
10.5 现欲对一条街上的居民调查住户的平均居住年限,用每隔20户抽取1户的系统抽样方法,共调查了115户,得;。求平均居住年限并作出95%的置信区间。你在作出估计中对总体的排序作了什么样的假设?
10.6 下面是美国1900年以来每隔5年的离婚率资料:
年份
离婚率%
1900
1905
1910
1915
1920
1925
1930
1935
1940
0.7
0.8
0.9
1.0
1.6
1.5
1.6
1.7
2.0
(1)估计这期间的年平均离婚事.并估计其方差。
(2)根据这一资料讨论用系统抽样好还是简单随机抽样好?
10.7 假设某书共有555页,现欲每隔20页抽1页作样本,以估计该书的字数。
(1)从l一20中抽取一个随机起点用直线等距(系统)抽样,并有多少个可能的样本,样本量是多少?
(2)若从1一555中抽取—个随机数除以20,将余数作为随机起点(余数为0代表20),然后每隔20页抽取l页,这种抽样方法与前—种方法有什么区别?
(3)采用圆形系统抽样如何抽选.一共有多少个可能样本?
(4)以上的抽选方法中以样本均值来估计总体均值,哪些是有偏的,哪些是无偏的?
10.8 有假设总体N=15,其指标值排列的顺序为1,2,3,4,5.6,7,8,9,10,11.12,13,14.15.
(1)考虑n=3的直线系统抽样.计算系统抽样的实际方差,与样本量相周的筒单随机抽样进行比较并作简要分析.
(2)若要求抽样间距k=4,样本均值是否为总体均值的无偏估计。它在什么情况下是有偏的,什么情况下是无偏的?
10.9 设N=35,按对称系统抽样抽取样本,n=7,若随机起点r=4,试分别用塞蒂的层内对称系统抽样方法和辛的总体对称系统抽样方法列出抽中样本单元的顺序号码。
10.10 下面是28个村的产量数据,它是按产量由低到高顺序排列后的280个村按种植面积大小成比例的概率抽选的系统样本。(见下表)
样本村
平均亩产
样本村
平均亩产
1
2
3
4
5
6
7
8
9
10
11
12
13
14
370
379
389
396
397
400
404
410
418
433
445
453
460
462
15
16
17
18
19
20
21
22
23
24
25
26
27
28
467
501
503
514
515
541
542
543
562
570
586
601
653
658
(1)用简单随机抽样的公式计算均值的抽样方差;
(2)用合并层的方法计算均值的抽样方差;
(3)用连续差的方法汁算均值的抽样方差;
(4)你认为根据上述资料用哪—种方法计算比较接近实际。
10.11 假设总体的指标值为,N=mk,(k>1)为抽样间距,m为系统样本的大小,样本均值记为。现在剩下的N—m个单元中按某种抽样方式抽取n个单元,其均值记为。记得,试证
(ⅰ)估计量 (1-是的无偏估计;
(ⅱ);
(ⅲ)是无偏估计
10.12 怎样理解等距抽样的随机性问题;
10.13 等距抽样与分层抽样的关系;
10.14 等距抽样的实施方法。
非抽样误差
11.1 对某项民意调查,样本量为n=1000,回答率为0.8,回答者赞成的比例为0.7。后对无回答部分再抽样作一补充调查,得到这部分人回答赞成的比例为0.5,试问
1.当抽样设计未考虑到无回答,而按回答部分的样本作估计时,由无回答引起的偏倚有多大?
2.若增大最初的样本量,由无回答引起的偏倚有何变化?
11.2 在一个估计总体比例P的调查中,事先对无任何先验信息.假设无回答事预计为15%,
若按全部回答的精度要求样本量n=looo,试问若考虑无回答的影响,要达到同样的精度.样本量应达多少?
11.3 拟设计—项调查,首先采用邮寄问卷调查形式,样本量为n,设收回问卷数。在没有回答的单元中,按的抽样比又随机抽取个进行派员调查。已知
1.邮寄问卷的无回答率R=25%;
2.调查指标的变异系数为100%:
3.无回答屉的方差与总体方差之比为0.5;
4.邮寄问卷每份费用=0.15,对每个回答问卷的数据处理费用为=1.0.派员调查及数据处理赞用每份为=4.0.其费用函数为:
若要求调查的相对误差与抽取100个单元的简单随机抽样相同,且不考虑fpc,求最优的与,并计算出总的调查费用。
11.4斯方法的一个调查中,在最初样本中包含有660个被调查者,在第一次访问中有390个被调查者在家。根据他们的陈述,他们在前5个晚上有0,1,…,5个晚上在家的人数及他们对所调查的某个问题回答“是”的人数如下:
t
0 1 2 3 4 5
人数回答“是”的人数
14 35 55 74 94 118
4 13 20 30 42 156
请计算总体中回答“是”的人数所占的比例的波利茨一西蒙斯估计量.
11,5 某大学教学行政部门采用沃纳随机化回答技术调查考试作弊人数的比例。设计中直接提“你在考试中曾作过弊,对吗?”问题的比例P=3/4,样本量。n=200,调查结果回答“是”的人数为60人,试估计曾作过弊人数比例及其90%的置信区间.
11.6 在总体中有10%的人有过一种违纪行为(=0.1),如果对此问题调查中每个被调查者都作出真实的回答,请将n=500时按以下各种方法计算出的v(礼)加以比较:
1.直接提这个敏感性问题;
2.沃纳方法,P=0.8
3.西蒙斯方法,,P=0.8。
11.7 设总体中的每个单元在被调查时,回答与否是随机的,作出回答的概率均为p,定义,
现随机地抽取n个单元,根据回答情况记录的值,其平均值记为,试证明估计量是总体均值的无偏估计.
11.8 试用西蒙斯随机化回答模型做一次关于敏感性问题的调查;
11.9 怎样才能获得一个完善的抽样框?
(说明:以上习题大部分来自冯士雍、倪加勋、邹国华编著《抽样调查理论与方法》一书。)