数据的收集 第一 数据的来源 数据的来源主要有两种渠道: 一种是通过直接的调查获得的原始数据,一般称之为第一手或直接的统计数据; 另一种是别人调查的数据,并将这些数据进行加工和汇总后公布的数据,通常称之为第二手或间接的统计数据。 一、第二手或间接的统计数据来源 主要来自于国内外公开出版的或公开报道的各种出版物。 公开出版的或报道的社会经济统计数据主要是国家和地方的统计部门以及各种报刊媒介。例如,公开的出版物有《中国统计年鉴》、《中国统计摘要》和各种专业统计年鉴,以及各省、市、地区的统计年鉴等。 提供世界各国社会和经济数据的出版物业有许多,如《世界经济年鉴》、《国外经济统计资料》、世界银行各年度的《世界发展报告》等。联合国的有关部门及世界各国也定期出版各种统计数据。 二、第一手或直接的统计数据来源 这类数据来源是指通过各种各样的调查获取数据。 获得第一手数据并不象得到二手数据那么轻松。某些在华的外资企业每年至少要花三四千万元来收集和分析数据。 他们调查其产品目前在市场中的状况和地位并确定其竞争对手的态势等等; 三、观测数据和试验数据 上面所说的数据是在自然的未被控制的条件下观测到的,称为观测数据 (observational data) 。 而对于有些问题,比如在不同的医疗手段下某疾病的治疗结果有什么不同、不同的肥料和土壤条件下某农作物的产量有没有区别、用什么成分可以提高某物质变成超导体的温度等等。这种在人工干预和操作情况下收集的数据就称为试验数据 (experimental data) 。 第二 调查方法 一、调查方法的类型 调查的方法有许多种类型:普查、抽样调查、重点调查、典型调查等等。 在实际中最常用的方法:抽样调查和普查。 两者的差别在于抽样调查只调查总体中的一部分单元,而普查则调查总体中的所有单元。与普查相比,抽样凋查可以更为经济、迅速地提供数据,并较容易进行监控。 二、数据收集的方式 不论何种调查方法,都可采用不同的数据收集方式,并常常利用调查问卷或调查表来收集数据。 利用问卷或调查表收集数据的方式主要有: 1、自填法 自填式方法,是指被调查者在没有访员协助的情况下完成问卷。 自填式方法也可使用计算机辅助调查 (CASl) ,这时,要将电子格式的问卷传送给被调查者,被调查者使用计算机填写问卷。 自填法的特点: 所需费用较低,但同时它要求问卷结构严谨,有清楚的说明; 通常这种方法适用于受过比较好的教育的被调查者; 比较好管理,有助于减少回答误差; 还可以方便被调查者回答敏感问题; 但这种方法的回答率通常低于访员协助式方法; 问卷应尽量简短,所花费的时间也较长。 2、电话调查 电话调查,是指访员通过电话协助被调查者完成问卷。 采用纸张方式时,又称为纸笔式电话访问 (PATl) ;采用计算机辅助方式时,又称为计算机辅助电话调查 (CATl) 。 电话调查的特点 电话调查的费用和回答率介于面访调查和自填式调查之间 速度较快 ( 在各种数据收集方法中是最快的 ) 适合于总体和样本在地理上比较分散的情况, 适用于文化程度较低的调查总体, 管理起来比较容易。 电话调查的另一个优点:它具有需要立即处理的性质。不管人们当时正在做什么,他们都会急切的去接听电话。 现举一个令人吃惊的例子,《纽约时报》曾报道了一则关于一个多年前的屠杀犯的新闻: 一个犯有精神病的参加过战争的老兵, ( 名叫霍华德鲁 ) ,在新泽西州康姆登大街上疯狂枪杀了 13 个人以后就堂而皇之地回家了。 防暴警察队带着机关枪、滑膛枪、催泪弹赶到,双方开始了枪战; 正在这个时候《康姆登晚间快报》的一个编辑人员在电话簿上找到了恩鲁的电话号码,并拨通了他的电话。 恩鲁停下射击来接电话。 “ 喂 ” “ 是霍华德吗 ?” “ 是的 ……” “ 你为什么杀人? ” “ 我不知道,我也不能回答此问题,等会儿我再跟你谈,现在我太忙了。 ” 3 、访员面访法 访员面访,是指以个人接触的方式,由访员协助被调查者完成问卷。 当采用纸张式数据收集方式时,这种方法称为纸笔式面访 (PAPl) ;当采用计算机辅助方式时,称为计算机辅助式面访 (CAPl) 。 访员面访法的特点 面访调查的回答率最高 但费用也最高 访员可以进行直接观察 但管理人员很难对面访进行监督。 第三 抽样调查中的基本问题 一、总体和样本。 要想了解北京市民对建设北京交通设施是以包括轨道运输在内的公共交通工具为主还是以小汽车为主的观点,需要进行调查; 调查对象是所有北京市民,调查目的是希望知道市民中对这个问题的不同看法各自占有的比例。 显然,不可能去问所有的北京市民,而只能够问一部分;并且根据这一部分的观点来理解整个北京市民的总体观点。 这种情况下,称所有(每个)北京市民对这个问题的观点为一个总体 (population) ,而调查时问到的那部分市民的观点为该总体的一个样本 (sample) 。 总体是包含所有要研究的个体 (element) 的集合。而样本是总体中选中的一部分。 二、抽样调查中的误差 1、抽样误差 样本的特征不一定和总体完全一样。这种差异不是错误,而是必然会出现的抽样误差( sampling error )。 2 、未响应误差与响应误差; 在抽样调查中,一些人因为种种原因没有对调查作出反映(或回答),这种误差称为未响应误差( nonresponse error )。 而另有一些人因为各种原因回答时并没有真实反映他们的观点,这称为响应误差( response error )。 和抽样误差不一样,未响应误差和响应误差都会影响对真实世界的了解;应该在设计调查方案时尽量避免。 3 、数据伦理: 隐私、保密、知情、需要,显变量与隐变量。调查时应尽量减少敏感问题或隐私问题的影响。 4 、抽样框 抽样框是一张包括被抽样总体所有单元的目录表 . 确定了抽样框,就相当于定义了被抽样总体,我们可通过抽样框从总体中抽取样本单元,但前提是抽样框充分地代表了总体。 在确定了抽样框后,我们就可以计算总体中每个个体的抽样概率,根据这一概率,就可以用样本数据推算总体数据。 例如:学校学生的名单就可以是一个抽样框 这个抽样框应当包括:识别资料、分类资料、联系资料 抽样框的类型有:名录框和区域框 名录框是由总体中所有的单元组成的目录。 区域框是由许多地理区域构成的抽样框。 在下列两种情况下,适合采用区域框: 1) 调查具有地理性质; 2) 没有合适的目录框,需要借助区域框 来构造目录框 区域框 例如某项调查需在某个城市抽取住户,但没有该城市最新的住户名录。此时,统计调查机构可以用区域框抽取地理区域,如街区,然后由调查员列出每个被抽中街区中的全部住户名单。 这种方法将对住户的抽样集中于数量有限的被的区域,从而可以较为经济地进行个人面访调查。 第四 抽样方法 抽样的两种主要类型是概率抽样与非概率抽样。 一、非概率抽样: 1、非概率抽样 非概率抽样是用主观的 ( 非随机的 ) 方法从总体中抽选单元,是一种快速、简易且节省的从总体中选取样本单元的方法。 由于非概率抽样抽取样本有倾向性与偏差且没有一个抽样框,不可能计算出各个单元的入样概率。从而无法得到总体目标量的可靠估计值及其抽样误差估计值。 2、非概率抽样的优点 快速简便;费用相对较低;不需要抽样框;对探索性研究和调查的设计开发很有用。所以在市场调查中广泛应用 3、非概率抽样的缺点 为了对总体进行推断,需要对样本的代表性做很强的假定。不可能得到可靠的估计值以及抽样误差估计值。 4、非概率抽样的种类 非概率抽样方法有: 随意抽样、志愿抽样、判断抽样、配额抽样。 随意抽样 随意抽样的样本单元的抽选以无目标、随意的方式进行,几乎没有或完全没有计划。 它假定总体是同质的,即总体单元都相似。比如 “ 街道拦截 ” 访问法。 志愿抽样 被调查者都是志愿者。 例如具有特定病情的人参加某些医疗实验;打电话参与广播或电视节目的人;抽选参加焦点座谈或深入访问的人。 判断抽样 由专家有目的地抽选有代表性的样本。它适用于探索性研究, 如:抽选参加焦点座谈或深入访谈的人,但不宜用在试调查中。 配额抽样 这是最常见的一种非概率抽样。抽样要从各个子总体中选取特定数量的单元 ( 配额 ) 。 总样本量: 900 人 二、概率抽样: 1 、概率抽样的两条基本准则: 单元是随机抽取的; 调查总体中的每个单元都有一个非零的入样概率,并且能计算出这些概率。 2 、概率抽样的主要优、缺点: 能得到总体的可靠估计值并能计算每个估计值的抽样误差,因而能对总体进行推断。 与非概率抽样相比,概率抽样比较复杂,更费时,通常也更费钱。但总的说来,其利远大于弊。 3 、概率抽样的种类 常用的概率抽样有七种: 简单随机抽样( SRS ) 是所有概率抽样的出发点和理论基础。简单随机抽样是一种一步抽样法,它保证样本量为 n 的每个可能的样本都有相同的被抽中的概率 p=n/N 。 抽样可以是放回的,也可以是不放回的。 系统抽样( SYS ) 其抽样单元是从总体中等距抽出的。它需要一个抽样间距和一个随机起点。抽样间距是 k=N/n ,随机起点 r 是介于 1 到 k 之间的一个随机数。 被抽中的单元是: r , r 十 k , r+2k , r+3k , … , r+(n-1)k 。 整群抽样 整群抽样中,总体单元被分为群,抽样时先抽取群的样本,调查被抽中的群中的所有单元。 采用整群抽样的两个理由:( 1 )抽选群能大大降低数据收集的费用,当总体的分布比较广且调查采用面访时更是如此;( 2 )从总体中直接抽选个体在实际中并不总是可行的(没有关于个体的抽样框)。 分层抽样( STR ) 采用分层抽样时,总体被分为同质的、互不重迭的若干子总体(层),然后,在每一个层中独立地抽取样本。 可以使用任何一种抽样方法来对每个层进行抽样。 多阶抽样 多阶抽样是用两个或更多连续的阶段抽取样本的过程。 第一阶段抽取的单元称为初级或一级抽样单元( PSU ),第二阶段抽取的单元称为次级或二级抽样单元( SSU ),以此类推。 减少敏感问题或隐私问题的影响 思考题: 1 .举出一些观察数据和实验数据的例子。 2. 举出简单随机样本的例子。 3. 根据你的经验举出总体和样本的例子。 4. 举出调查抽样时可能发生的各种影响调查结果的问题,并且提出你认为可以减少或避免这些问题的建议。 5. 根据你的理解本章提到的几种抽样方法的优缺点是什么?原因何在? 6. 举出一些书报上发表的数据例子,并指出哪些是变量,哪些是观察值。