第十章資料处理
我们在运用各种方法收集到一批调查资料后,
接下来的任务就是要对这些原始资料进行某种特
定方式的处理,使成为进行统计分析的基本数据,
第一节,资料的审核与复查
一审核的概念
1.资料的审核 是在着手整理调查资料之前,
对原始资料进行审查与核实的工作过程,目的在
于保证资料哦的客观性,准确性和完整性,为资料
的整理打下坚实的基础,
2.审核的方法
实地审核, 指审核工作和收集工作
同步进行,边收集边审核,也叫收集审核,
系统审核, 指在收集资料后集中时
间审核,
多次审核, 指对重要资料进行的反
复的各种形式的审核,
二,资料的复查
? 资料的复查
? 指研究者 在调查资料收回后,又由其他人对
所调查的样本中的一部分个案进行第二次调查,
以检查和核实第一次调查的质量,
? 在市场调查中复查工作是必不可少的,
? 不是所有的调查都能十分方便地进行复查,
? 审核与复查的意义
? 通过审核和复查研究者①可以发现并纠正原
始资料中所存在的一些错误,② 可以剔除一些无
法进行再调查,但又有明显错误的问卷,③ 可以普
遍了解整个资料收集工作的质量,
第二节,资料的整理
一,资料整理的概念和原则
1,资料的整理
资料的整理是根据研究目的将经
过审核的资料进行分类汇总,使资料更
加条理化和系统化,为进一步深入分析
提供条件,
它是从调查阶段过渡到研究阶段,
从感性认识上升到理性认识的一个必
经的中间环节,
2.资料整理的原则
① 条理化
即对资料进行分类,从而为进一步的分析
创造条件,分类可一使大量的资料条理化,分
类系统实际上是资料的存取系统,便于资料
的存取利用,
② 系统化
即从整体上考察现有资料满足研究目的
的程度,有无必要吸收补充其他资料,以及对
调查中出现的新问题如何处理,
条理化原则是从对事物分类归纳着手,系
统化是从整体综合的角度考虑问题,
③ 统计汇总
二,分类与分组
分类和分组都是一种定性分类方
法,即根据研究对象的某些特征将其
区分为不同种类,分类适用于全部调
查资料,分组只限于统计资料,习惯上
将他们称为统计分组或称为统计分类,
就调查过程而言,调查资料的分
类还可分为 前分类和后分类,
1.分类的类型及意义
分类的方法有两种,
现象分类方法 是根据事物外部特征或外在
联系进行分类的方法,
本质分类方法 是根据事物的本质特征或内
部联系进行分类的方法,
本质分类不仅是资料的存取,检索系统,而
且是调查者对客观事物和规律认识的总结系
统,她不是一个单纯技术性问题,而是理论问
题,反映出研究者的理论观点,并需要具体学
科理论的指导
2.选择和确定分类标志的原则
? 分类的关键在于选择和确定分类标志,
分类标志一经选定,必然突出在此标志下
的性质差异,而将其他标志下的差异掩盖
起来,分类标志选择的恰当与否,直接影
响资料分析的科学性,
? ① 分类标志的种类
作为分类标志的事物特征很多,但总
体上说可分为两类,即 按品质分类和按数
量标志分类,
★ 按品质标志分类
? 即选择反映事物属性差异的品质标志为分类
标志,如按性别分类,企业按所有制分类,
★ 按数量标志分类
即选择反映事物数量差异的数量标志为分类
标志,如居民家庭按人口数分类,数量标志有 按单
值分类 和 按组距分类 两种表现形式
在组距分类中,将组距中的起点数值 (最小数
值 )称为下限,将终点数值 (最大数值 )成为上限,
如某一数值正好与某一组距中上限一致,应遵循
统计学中的, 上限不在内, 原则,将其划归下一
组,
② 正确选择分类标志的四原则
? 从研究目的出发选择标志
研究目的不同选择的标志也不同,
? 从反映现象本质的需要去选择标志
社会现象众多特征中有本质和非本质特征
? 根据具体的历史条件去选择标志
社会现象的特征是随时间,地点和条件而起
变化的,
? 必须坚持穷尽性和互斥性的原则
第三节资料汇总的技术
分类既是一个分析过程又是一个归纳
过程,分类和分组标志制定以后,就是资料
归类的过程,即资料汇总,
汇总的技术有手工和计算机汇总两种,
一,计算机汇总的步骤
计算机汇总的步骤分为
编码,登录,录入和程序编制,
二,资料整理实例
编码手册

问题
号码
变量名称 内容说明
1 - 6 a1 期刊年月编号 91 年 6 月第二个个案为 910602
7 a2 性别 1,男 2, 女
8 - 9 a3 年龄 如实填写
10 a4 学历
1,小学以下 2, 中学 3,高中
4,中专 5, 大专 6, 大学
7,硕士 8 博士 9, 其他
11 - 13 a5 身高 cm
14 - 15 a6 职业 1,工人 2, 农民
3,党政机关公务员 4, 私营企业主
5,离退休人员 6,教师医生
7,公安,司法,军人 8, 企业白领
9 专业技术人员 1 0 其他
16 a7 婚姻状况 1,未婚 2 离婚
3, 丧偶 4, 其他
…… …… …… ……
有些调查要对无回答和不知道的答案进
行编码,
对无回答的编码常用的是 0.对不知道
的编码常为 9.或 99,或 999.但是少数问题可
能很麻烦如家庭子女数,所以对无回答和不
知道的编码必须是在经验上决不会出现的数
字,这样编码往往要多一列,如 无回答为 99,
不知道为 98.三个孩子要填 03.
择偶标准调查数据登录表
A1 A2 A3 A4 A5 A6 A7 … 个案
编号
1 - 6 7 8 - 9 10 11 - 13 14 - 15 16 …
0525 921001 1 35 5 176 0 3 1 …
0526 921002 2 24 6 165 0 4 2 …
0527 921003 1 27 7 177 0 6 3 …
0528 921004 1 28 6 167 0 9 2 …,
0529 921005 2 31 8 158 12 1 …
0530 921006 2 24 7 155 10 1 …
… … … … … … …,,…
三,数 据 清 理
1.有效范围清理
对于问卷中的任何一个变量它的有效的
编码值往往都有某种范围,当数举重的数字超
出了这一范围时,这个数字一定是错误的,
这种错误可以发生在资料处理的每一个
阶段,比如, 错误回答,编码员错写,录入
人员错误输入,
★ 在电脑上检查有效范围的编码值,
2.逻辑一致性的清理
逻辑一致性的清理是从另一角度来查找
数据中所存在的问题,其基本思路是依据问
卷中的问题的相互之间所存在的内在逻辑联
系来检查前后数据之间的合理性,
3,数据质量抽查
是指用随机抽样的方法抽取一部分个案,
来估计和评价全部数据的质量,
根据样本中的个案数目的多少,以及每分
文卷中变量数和总字符数的多少,研究者往往
抽取 2%— 5%,的各按进行质量抽查,
比如:
? 一项调查样本规模为 1,000个个案,以分文
卷的字符数 (数据的个数 )为 200个,研究者从中
随机抽取 3%的个案,即 30份进行对照检查,结果
发现由 2个字符输入错误,这样
2÷ (200× 30)= ≈0.03%
可知,数据差错率在 0.03%左右,这也就是说
在总共 20万个数据中,大约有 60个左右的差错,
我们虽无法查出他们,但却知道他们占多大的
比例,对我们的调查结果有多大程度的影响,
1
3,0 0 0
四,统计表与统计图
? 1.统计表的构成
构成,总标题,横行标题,纵栏标题,指标数值
资料来源,五个部分构成,
★ 简单分组表,
表 1,19 97 年征婚广告性别比
性别 人数 百分比
男 197 65, 7
女 103 34, 3
数据来源, 择偶标准调查 1997 年数据
2.统计表的制作
? 统计表的制作原则是科学,规范,简明,实用,美观,
统计表制作时应注意的问题,
首先 标题要简短明了,
确切说明表中数据的内容,使人一目了然,
其次 表的纵栏标题与横行标题要准确反映变量取
值的含义,排序也应具有一定的逻辑结构,
第三 表中的数据资料必须注明计量单位,
第四 对于一般频数分布表则应列出合计栏,以便获
得整体情况的资料,
最后 各种表格应以横线为主能够不用竖线则尽量
不用