第十章 非抽样误差及其控制第一节 抽样框误差及控制第二节 调查误差及控制第三节 无回答及其控制第四节 样本轮换的理论与方法返回第一节 抽样框误差及其控制
一、抽样框误差的产生
抽样框是有关总体全部单元的名录或地图等的框架,是抽取样本单元的依据。理想的抽样框 (也称抽样总体 )应该同所研究现象的总体 (也即目标总体 )一致,但在实践中,抽样总体与目标总体常常不一致,由此产生的误差就是抽样框误差。
考察抽样框误差的成因,大致有以下几个方面:
(1)丢失目标总体单元。
(2)包含非目标总体单元。
(3)复合联接。
(4)不正确的辅助信息。
(5)抽样框陈旧。
二、抽样框误差的确定
(一 )丢失目标总体单元时的影响
(二 )包含非目标总单元时的影响
(三 )复合联接的影响
(四 )不正确的辅助信息的影响
三、抽样框误差的补救
(一 )丢失单元抽样框的补救
基本思路有两条:一是想办法将丢失的目标总体单元纳入到不完善的抽样框中,二是对产生于不完善抽样框的数据进行调整。具体方法有:
(1)对丢失单元实行联接。
(2)采用辅助抽样框。
(3)利用有关资料进行推算。
(4)用复查结果调整。
(二 )其它类型不完善抽样框的补救
三、最佳样本轮换的确定
在调查目的既定的条件下,样本轮换率主要取决于三个因素:调查总体发生变化的速度;被调查者对重复调查在时间和次数上的心理接受程度;以及调查费用、抽样精度、
工作难易等的允许程度。由于不同的经常性抽样调查有不同的调查总体、不同的被调查者和不同的精度要求,这就使得要从理论上给出一个考虑所有影响因素的样本轮换率是比较困难的。因此,
确定样本轮换率的一般指导原则是:如果调查总体变化的速度较快,被调查者对重复调查在
时间和次数上的心理接受程度较低,并且调查费用比较宽松,则样本轮换率应该高一些。反
之,则样本轮换率可以低一些。
在不考虑费用的条件下确定最佳样本轮换率的基本思路是使估计量的方差达到最小。
第二节 调查误差及其控制
一、调查误差及其影响
在调查工作过程中,由于测量工具的不准确,调查员的某些工作失误 (如计量错误、计算错误、记录错误等 ),以及由于被调查者没有提供真实情况等因素影响,常使调查结果的准确性受到损害,
产生一定的误差,这类误差就是调查误差,也称之为登记性误差。
二、调查误差的控制
(一 )、随机子抽样方法
(二 )交叉子样本方法
(三 )数值异常情况第三节 无回答及其控制
一、无回答及其影响
,无回答,是指被抽中的一些样本单元未能计量,
也即发生计算遗漏。具体可归纳为几种类型:一是遗漏。某些样本单元找不到,或由于一些客观原因而无法找到,或由于调查员自身的某些原因而没有找到等。二是不在家。如果调查项目涉及到人,在调查中可能碰巧遇到被调查者不在家或某个事先确定地点的情形,由此会引起无回答现象。三是不能回答。被调查者对所调查的问题由于缺少资料或了解不多而无法回答或无法完整回答。四是拒绝回答。
如果无回答层和回答层在所研究标志方面没有显著差异,则无回答的影响不大。但如果无回答层与回答层存在显著差异 (大多数情况下是这样 ),则由于无回答层没有提供样本数据,而在估计总体参数时会产生较大的影响。其最重要的后果是,(1)估计量可能成为有偏的,因为样本中没有调查到的部分可能与被调查到的部分显著不同;
(2)由于实际调查到的样本比目标样本小,
所以估计误差就可能会增大。
二、无回答的控制
为了减少无回答的数量,缩小无回答的影响,我们需要进一步讨论控制无回答的措施。
控制无回答可以采取一些预防性的措施,比如:在问卷设计中注意问题用词的选择,问题的
排列顺序,说明词的制作等,精心选择调查实施的时间,
精心选择培训调查员,确定准确的
调查方位,给被调查者适当的物质奖励,向被调查者预先通知,事后提醒、催促等,这些都
可能会产生程度不同的影响。
对于调查过程中产生的无回答,可以考虑采取
多次访问
抽子样本
替换
三、敏感性问题的调查
(一 )沃纳随机化回答模型
(二 )西蒙斯改进随机化回答模型
(三 )使用随机化回答技术应注意的问题
提出随机化回答方法,目的是减少或消除被调查者在回答敏感性问题时可能存在的疑虑,与调查员充分合作,完成对敏感性问题的调查。 在具体使用这种方法时应注意以下几个问题:
首先,要求调查员能充分理解这种方法,这样才能很好地向被调查者解释清楚,使他们相信,调查人员无法根据他们的回答,判断他们是否具有某种特征,唯有如此,才能达到消除被调查者的顾虑,取 得好的调查效果的目的。
其次,在正式开始调查前,应允许被调查者检查卡片,了解调查员的记录方式,使其相信这种方法不带欺诈的成份。
最后,在使用西蒙斯模型时,要注意选择与敏感性问题无关的非敏感 性问题作为问题 B,同时非敏感性问题应尽量简单,以方便被调查者的回答。
此外,要指出的是,随机化回答技术只适用于解决二项问题 (即是非问题 )的回答,而对数值型敏感问题不起作用。
四、缺失数据的处理
实际中,可能还会遇到项目无回答 (即缺失数据 )的问题,从而影响调查结果的系统性和完整性,给进一步的统计分析带来一系列麻烦,因 此,有必要对缺失数据的处理问题作一些讨论。
缺失数据的弥补主要是采用插值法,一般分成,冷卡,(Cold— deck)
法和,热卡,(Hot— deck)法。
,冷卡,方法是用来自其他调查或过去调查的资料作为当前调查中缺失数据的替代。这种方法在周期性调查中是很有用的,因为在这种情 况下,可以用前一期的调查数据替代目前调查的缺失值。
,热卡,方法是对调查中发现的项目缺失值,用按一定准则选出的、
同一调查中与无回答单元具有相似性的回答单元的数值进行替代。当然,这可能会引出两个问题:一是一些回答单元的数据没有机会成为替代值;二是一些回答单元的数据会被多次使用。因此,作为改进,
一方面可以将回答单元融合在一起构成一个完整的回答单元集,并以其作为替代单元集,当出现无回答时,在替代单元集中随机抽选回答单元数据进行替代 (或称插补 ),另一方面,可以允许多重替代,但要对每个回答单元数据用于替代的次数加以控制。使用,热卡,方法的一种更为简便的情形是,以回答单元数据的平均值代替缺失值。,热卡,方法实质上只是使资料看起来是完整的,这样便于运用统计方法进行运算处理和分析研究,但这种替代的数据对统计分析的结果并不产生影响。
第四节 样本轮换的理论与方法
一、样本轮换的意义
在经常性抽样调查中不可避免地会遇到这样的问题:每次调查的样本应如何形成?是用固定样本还是全新样本好呢?
全新样本能增强对现期总体的代表性,但抽取和调查新的样本单元会比调查老单元费时、费力,且费用高;而采用固定样本虽可以相对节省人、财、物,所得资料的可比性也比较强,但由于实际总体常常是随着时间的推移而变化的,因此,样本长期固定不变就不再对变化了的总体具有代表性,或其代表性会降低,也不能被看作是从现期总体中抽出的随机样本。另一方面,在经常性抽样调查中,不论调查对象是人或者物,如果样本使用时间过长,必然会使调查资料的提供者产生厌烦心理。因此,除非他们具有较高的思想境界和受到强有力的物质刺激,否则,一般情况下他们可能表现为:或者不愿意继续配合调查,或者有意无意地提供一些不完全正确的资料,或者形成一种回答问题的思维定势,等等。从而造成调查质量下降,使非抽样误差进一步加大。因此,作为对全新样本和固定样本的折衷,就引出样本轮换的问题。
二、样本轮换方法
样本换换的方法主要有三种:随机轮换、等距轮换和子样本轮换。
随机轮换是在进行轮换时按确定的轮换比例,从原有样本中随机抽出若干单元不再调查,而从其余未包括在样本中的总体单元中抽取相同 数目的单元来代替。
等距轮换是在总体抽样框中确定出各个等距抽样的样本,在各次调查中,按相应位置的等距样本单元进行轮换。我国农村住户调查就是采用这种轮换方式。
子样本轮换是从总体中抽出若干套子样本,每次调查一定数量的子样 本,逐次轮换其中
的部分子样本。
子样本轮换实际上就是每次采用交叉子样本,它不仅能有效地减少和控制估计偏差,而且由于每个交叉子样本都能代表总体,即使有的子样本资料搜集不到,也可用其他的子样本甚至一个子样本来推断总体。
同时,用交叉子样本还可以考察非抽样误差发生的程度。因此
,在三种样本轮换方法中,子样本轮换是比较好的一种方法。
一、抽样框误差的产生
抽样框是有关总体全部单元的名录或地图等的框架,是抽取样本单元的依据。理想的抽样框 (也称抽样总体 )应该同所研究现象的总体 (也即目标总体 )一致,但在实践中,抽样总体与目标总体常常不一致,由此产生的误差就是抽样框误差。
考察抽样框误差的成因,大致有以下几个方面:
(1)丢失目标总体单元。
(2)包含非目标总体单元。
(3)复合联接。
(4)不正确的辅助信息。
(5)抽样框陈旧。
二、抽样框误差的确定
(一 )丢失目标总体单元时的影响
(二 )包含非目标总单元时的影响
(三 )复合联接的影响
(四 )不正确的辅助信息的影响
三、抽样框误差的补救
(一 )丢失单元抽样框的补救
基本思路有两条:一是想办法将丢失的目标总体单元纳入到不完善的抽样框中,二是对产生于不完善抽样框的数据进行调整。具体方法有:
(1)对丢失单元实行联接。
(2)采用辅助抽样框。
(3)利用有关资料进行推算。
(4)用复查结果调整。
(二 )其它类型不完善抽样框的补救
三、最佳样本轮换的确定
在调查目的既定的条件下,样本轮换率主要取决于三个因素:调查总体发生变化的速度;被调查者对重复调查在时间和次数上的心理接受程度;以及调查费用、抽样精度、
工作难易等的允许程度。由于不同的经常性抽样调查有不同的调查总体、不同的被调查者和不同的精度要求,这就使得要从理论上给出一个考虑所有影响因素的样本轮换率是比较困难的。因此,
确定样本轮换率的一般指导原则是:如果调查总体变化的速度较快,被调查者对重复调查在
时间和次数上的心理接受程度较低,并且调查费用比较宽松,则样本轮换率应该高一些。反
之,则样本轮换率可以低一些。
在不考虑费用的条件下确定最佳样本轮换率的基本思路是使估计量的方差达到最小。
第二节 调查误差及其控制
一、调查误差及其影响
在调查工作过程中,由于测量工具的不准确,调查员的某些工作失误 (如计量错误、计算错误、记录错误等 ),以及由于被调查者没有提供真实情况等因素影响,常使调查结果的准确性受到损害,
产生一定的误差,这类误差就是调查误差,也称之为登记性误差。
二、调查误差的控制
(一 )、随机子抽样方法
(二 )交叉子样本方法
(三 )数值异常情况第三节 无回答及其控制
一、无回答及其影响
,无回答,是指被抽中的一些样本单元未能计量,
也即发生计算遗漏。具体可归纳为几种类型:一是遗漏。某些样本单元找不到,或由于一些客观原因而无法找到,或由于调查员自身的某些原因而没有找到等。二是不在家。如果调查项目涉及到人,在调查中可能碰巧遇到被调查者不在家或某个事先确定地点的情形,由此会引起无回答现象。三是不能回答。被调查者对所调查的问题由于缺少资料或了解不多而无法回答或无法完整回答。四是拒绝回答。
如果无回答层和回答层在所研究标志方面没有显著差异,则无回答的影响不大。但如果无回答层与回答层存在显著差异 (大多数情况下是这样 ),则由于无回答层没有提供样本数据,而在估计总体参数时会产生较大的影响。其最重要的后果是,(1)估计量可能成为有偏的,因为样本中没有调查到的部分可能与被调查到的部分显著不同;
(2)由于实际调查到的样本比目标样本小,
所以估计误差就可能会增大。
二、无回答的控制
为了减少无回答的数量,缩小无回答的影响,我们需要进一步讨论控制无回答的措施。
控制无回答可以采取一些预防性的措施,比如:在问卷设计中注意问题用词的选择,问题的
排列顺序,说明词的制作等,精心选择调查实施的时间,
精心选择培训调查员,确定准确的
调查方位,给被调查者适当的物质奖励,向被调查者预先通知,事后提醒、催促等,这些都
可能会产生程度不同的影响。
对于调查过程中产生的无回答,可以考虑采取
多次访问
抽子样本
替换
三、敏感性问题的调查
(一 )沃纳随机化回答模型
(二 )西蒙斯改进随机化回答模型
(三 )使用随机化回答技术应注意的问题
提出随机化回答方法,目的是减少或消除被调查者在回答敏感性问题时可能存在的疑虑,与调查员充分合作,完成对敏感性问题的调查。 在具体使用这种方法时应注意以下几个问题:
首先,要求调查员能充分理解这种方法,这样才能很好地向被调查者解释清楚,使他们相信,调查人员无法根据他们的回答,判断他们是否具有某种特征,唯有如此,才能达到消除被调查者的顾虑,取 得好的调查效果的目的。
其次,在正式开始调查前,应允许被调查者检查卡片,了解调查员的记录方式,使其相信这种方法不带欺诈的成份。
最后,在使用西蒙斯模型时,要注意选择与敏感性问题无关的非敏感 性问题作为问题 B,同时非敏感性问题应尽量简单,以方便被调查者的回答。
此外,要指出的是,随机化回答技术只适用于解决二项问题 (即是非问题 )的回答,而对数值型敏感问题不起作用。
四、缺失数据的处理
实际中,可能还会遇到项目无回答 (即缺失数据 )的问题,从而影响调查结果的系统性和完整性,给进一步的统计分析带来一系列麻烦,因 此,有必要对缺失数据的处理问题作一些讨论。
缺失数据的弥补主要是采用插值法,一般分成,冷卡,(Cold— deck)
法和,热卡,(Hot— deck)法。
,冷卡,方法是用来自其他调查或过去调查的资料作为当前调查中缺失数据的替代。这种方法在周期性调查中是很有用的,因为在这种情 况下,可以用前一期的调查数据替代目前调查的缺失值。
,热卡,方法是对调查中发现的项目缺失值,用按一定准则选出的、
同一调查中与无回答单元具有相似性的回答单元的数值进行替代。当然,这可能会引出两个问题:一是一些回答单元的数据没有机会成为替代值;二是一些回答单元的数据会被多次使用。因此,作为改进,
一方面可以将回答单元融合在一起构成一个完整的回答单元集,并以其作为替代单元集,当出现无回答时,在替代单元集中随机抽选回答单元数据进行替代 (或称插补 ),另一方面,可以允许多重替代,但要对每个回答单元数据用于替代的次数加以控制。使用,热卡,方法的一种更为简便的情形是,以回答单元数据的平均值代替缺失值。,热卡,方法实质上只是使资料看起来是完整的,这样便于运用统计方法进行运算处理和分析研究,但这种替代的数据对统计分析的结果并不产生影响。
第四节 样本轮换的理论与方法
一、样本轮换的意义
在经常性抽样调查中不可避免地会遇到这样的问题:每次调查的样本应如何形成?是用固定样本还是全新样本好呢?
全新样本能增强对现期总体的代表性,但抽取和调查新的样本单元会比调查老单元费时、费力,且费用高;而采用固定样本虽可以相对节省人、财、物,所得资料的可比性也比较强,但由于实际总体常常是随着时间的推移而变化的,因此,样本长期固定不变就不再对变化了的总体具有代表性,或其代表性会降低,也不能被看作是从现期总体中抽出的随机样本。另一方面,在经常性抽样调查中,不论调查对象是人或者物,如果样本使用时间过长,必然会使调查资料的提供者产生厌烦心理。因此,除非他们具有较高的思想境界和受到强有力的物质刺激,否则,一般情况下他们可能表现为:或者不愿意继续配合调查,或者有意无意地提供一些不完全正确的资料,或者形成一种回答问题的思维定势,等等。从而造成调查质量下降,使非抽样误差进一步加大。因此,作为对全新样本和固定样本的折衷,就引出样本轮换的问题。
二、样本轮换方法
样本换换的方法主要有三种:随机轮换、等距轮换和子样本轮换。
随机轮换是在进行轮换时按确定的轮换比例,从原有样本中随机抽出若干单元不再调查,而从其余未包括在样本中的总体单元中抽取相同 数目的单元来代替。
等距轮换是在总体抽样框中确定出各个等距抽样的样本,在各次调查中,按相应位置的等距样本单元进行轮换。我国农村住户调查就是采用这种轮换方式。
子样本轮换是从总体中抽出若干套子样本,每次调查一定数量的子样 本,逐次轮换其中
的部分子样本。
子样本轮换实际上就是每次采用交叉子样本,它不仅能有效地减少和控制估计偏差,而且由于每个交叉子样本都能代表总体,即使有的子样本资料搜集不到,也可用其他的子样本甚至一个子样本来推断总体。
同时,用交叉子样本还可以考察非抽样误差发生的程度。因此
,在三种样本轮换方法中,子样本轮换是比较好的一种方法。