第十章資料处理
我们在运用各种方法收集到一批调查资料后,
接下来的任务就是要对这些原始资料进行某种特
定方式的处理,使成为进行统计分析的基本数据,
第一节,资料的审核与复查
一审核的概念
1.资料的审核 是在着手整理调查资料之前,
对原始资料进行审查与核实的工作过程,目的在
于保证资料哦的客观性,准确性和完整性,为资料
的整理打下坚实的基础,
2.审核的方法
实地审核, 指审核工作和收集工作
同步进行,边收集边审核,也叫收集审核,
系统审核, 指在收集资料后集中时
间审核,
多次审核, 指对重要资料进行的反
复的各种形式的审核,
二,资料的复查
? 资料的复查
? 指研究者 在调查资料收回后,又由其他人对
所调查的样本中的一部分个案进行第二次调查,
以检查和核实第一次调查的质量,
? 在市场调查中复查工作是必不可少的,
? 不是所有的调查都能十分方便地进行复查,
? 审核与复查的意义
? 通过审核和复查研究者①可以发现并纠正原
始资料中所存在的一些错误,② 可以剔除一些无
法进行再调查,但又有明显错误的问卷,③ 可以普
遍了解整个资料收集工作的质量,
第二节,资料的整理
一,资料整理的概念和原则
1,资料的整理
资料的整理是根据研究目的将经
过审核的资料进行分类汇总,使资料更
加条理化和系统化,为进一步深入分析
提供条件,
它是从调查阶段过渡到研究阶段,
从感性认识上升到理性认识的一个必
经的中间环节,
2.资料整理的原则
① 条理化
即对资料进行分类,从而为进一步的分析
创造条件,分类可一使大量的资料条理化,分
类系统实际上是资料的存取系统,便于资料
的存取利用,
② 系统化
即从整体上考察现有资料满足研究目的
的程度,有无必要吸收补充其他资料,以及对
调查中出现的新问题如何处理,
条理化原则是从对事物分类归纳着手,系
统化是从整体综合的角度考虑问题,
③ 统计汇总
二,分类与分组
分类和分组都是一种定性分类方
法,即根据研究对象的某些特征将其
区分为不同种类,分类适用于全部调
查资料,分组只限于统计资料,习惯上
将他们称为统计分组或称为统计分类,
就调查过程而言,调查资料的分
类还可分为 前分类和后分类,
1.分类的类型及意义
分类的方法有两种,
现象分类方法 是根据事物外部特征或外在
联系进行分类的方法,
本质分类方法 是根据事物的本质特征或内
部联系进行分类的方法,
本质分类不仅是资料的存取,检索系统,而
且是调查者对客观事物和规律认识的总结系
统,她不是一个单纯技术性问题,而是理论问
题,反映出研究者的理论观点,并需要具体学
科理论的指导
2.选择和确定分类标志的原则
? 分类的关键在于选择和确定分类标志,
分类标志一经选定,必然突出在此标志下
的性质差异,而将其他标志下的差异掩盖
起来,分类标志选择的恰当与否,直接影
响资料分析的科学性,
? ① 分类标志的种类
作为分类标志的事物特征很多,但总
体上说可分为两类,即 按品质分类和按数
量标志分类,
★ 按品质标志分类
? 即选择反映事物属性差异的品质标志为分类
标志,如按性别分类,企业按所有制分类,
★ 按数量标志分类
即选择反映事物数量差异的数量标志为分类
标志,如居民家庭按人口数分类,数量标志有 按单
值分类 和 按组距分类 两种表现形式
在组距分类中,将组距中的起点数值 (最小数
值 )称为下限,将终点数值 (最大数值 )成为上限,
如某一数值正好与某一组距中上限一致,应遵循
统计学中的, 上限不在内, 原则,将其划归下一
组,
② 正确选择分类标志的四原则
? 从研究目的出发选择标志
研究目的不同选择的标志也不同,
? 从反映现象本质的需要去选择标志
社会现象众多特征中有本质和非本质特征
? 根据具体的历史条件去选择标志
社会现象的特征是随时间,地点和条件而起
变化的,
? 必须坚持穷尽性和互斥性的原则
第三节资料汇总的技术
分类既是一个分析过程又是一个归纳
过程,分类和分组标志制定以后,就是资料
归类的过程,即资料汇总,
汇总的技术有手工和计算机汇总两种,
一,计算机汇总的步骤
计算机汇总的步骤分为
编码,登录,录入和程序编制,
二,资料整理实例
编码手册
列
问题
号码
变量名称 内容说明
1 - 6 a1 期刊年月编号 91 年 6 月第二个个案为 910602
7 a2 性别 1,男 2, 女
8 - 9 a3 年龄 如实填写
10 a4 学历
1,小学以下 2, 中学 3,高中
4,中专 5, 大专 6, 大学
7,硕士 8 博士 9, 其他
11 - 13 a5 身高 cm
14 - 15 a6 职业 1,工人 2, 农民
3,党政机关公务员 4, 私营企业主
5,离退休人员 6,教师医生
7,公安,司法,军人 8, 企业白领
9 专业技术人员 1 0 其他
16 a7 婚姻状况 1,未婚 2 离婚
3, 丧偶 4, 其他
…… …… …… ……
有些调查要对无回答和不知道的答案进
行编码,
对无回答的编码常用的是 0.对不知道
的编码常为 9.或 99,或 999.但是少数问题可
能很麻烦如家庭子女数,所以对无回答和不
知道的编码必须是在经验上决不会出现的数
字,这样编码往往要多一列,如 无回答为 99,
不知道为 98.三个孩子要填 03.
择偶标准调查数据登录表
A1 A2 A3 A4 A5 A6 A7 … 个案
编号
1 - 6 7 8 - 9 10 11 - 13 14 - 15 16 …
0525 921001 1 35 5 176 0 3 1 …
0526 921002 2 24 6 165 0 4 2 …
0527 921003 1 27 7 177 0 6 3 …
0528 921004 1 28 6 167 0 9 2 …,
0529 921005 2 31 8 158 12 1 …
0530 921006 2 24 7 155 10 1 …
… … … … … … …,,…
三,数 据 清 理
1.有效范围清理
对于问卷中的任何一个变量它的有效的
编码值往往都有某种范围,当数举重的数字超
出了这一范围时,这个数字一定是错误的,
这种错误可以发生在资料处理的每一个
阶段,比如, 错误回答,编码员错写,录入
人员错误输入,
★ 在电脑上检查有效范围的编码值,
2.逻辑一致性的清理
逻辑一致性的清理是从另一角度来查找
数据中所存在的问题,其基本思路是依据问
卷中的问题的相互之间所存在的内在逻辑联
系来检查前后数据之间的合理性,
3,数据质量抽查
是指用随机抽样的方法抽取一部分个案,
来估计和评价全部数据的质量,
根据样本中的个案数目的多少,以及每分
文卷中变量数和总字符数的多少,研究者往往
抽取 2%— 5%,的各按进行质量抽查,
比如:
? 一项调查样本规模为 1,000个个案,以分文
卷的字符数 (数据的个数 )为 200个,研究者从中
随机抽取 3%的个案,即 30份进行对照检查,结果
发现由 2个字符输入错误,这样
2÷ (200× 30)= ≈0.03%
可知,数据差错率在 0.03%左右,这也就是说
在总共 20万个数据中,大约有 60个左右的差错,
我们虽无法查出他们,但却知道他们占多大的
比例,对我们的调查结果有多大程度的影响,
1
3,0 0 0
四,统计表与统计图
? 1.统计表的构成
构成,总标题,横行标题,纵栏标题,指标数值
资料来源,五个部分构成,
★ 简单分组表,
表 1,19 97 年征婚广告性别比
性别 人数 百分比
男 197 65, 7
女 103 34, 3
数据来源, 择偶标准调查 1997 年数据
2.统计表的制作
? 统计表的制作原则是科学,规范,简明,实用,美观,
统计表制作时应注意的问题,
首先 标题要简短明了,
确切说明表中数据的内容,使人一目了然,
其次 表的纵栏标题与横行标题要准确反映变量取
值的含义,排序也应具有一定的逻辑结构,
第三 表中的数据资料必须注明计量单位,
第四 对于一般频数分布表则应列出合计栏,以便获
得整体情况的资料,
最后 各种表格应以横线为主能够不用竖线则尽量
不用
我们在运用各种方法收集到一批调查资料后,
接下来的任务就是要对这些原始资料进行某种特
定方式的处理,使成为进行统计分析的基本数据,
第一节,资料的审核与复查
一审核的概念
1.资料的审核 是在着手整理调查资料之前,
对原始资料进行审查与核实的工作过程,目的在
于保证资料哦的客观性,准确性和完整性,为资料
的整理打下坚实的基础,
2.审核的方法
实地审核, 指审核工作和收集工作
同步进行,边收集边审核,也叫收集审核,
系统审核, 指在收集资料后集中时
间审核,
多次审核, 指对重要资料进行的反
复的各种形式的审核,
二,资料的复查
? 资料的复查
? 指研究者 在调查资料收回后,又由其他人对
所调查的样本中的一部分个案进行第二次调查,
以检查和核实第一次调查的质量,
? 在市场调查中复查工作是必不可少的,
? 不是所有的调查都能十分方便地进行复查,
? 审核与复查的意义
? 通过审核和复查研究者①可以发现并纠正原
始资料中所存在的一些错误,② 可以剔除一些无
法进行再调查,但又有明显错误的问卷,③ 可以普
遍了解整个资料收集工作的质量,
第二节,资料的整理
一,资料整理的概念和原则
1,资料的整理
资料的整理是根据研究目的将经
过审核的资料进行分类汇总,使资料更
加条理化和系统化,为进一步深入分析
提供条件,
它是从调查阶段过渡到研究阶段,
从感性认识上升到理性认识的一个必
经的中间环节,
2.资料整理的原则
① 条理化
即对资料进行分类,从而为进一步的分析
创造条件,分类可一使大量的资料条理化,分
类系统实际上是资料的存取系统,便于资料
的存取利用,
② 系统化
即从整体上考察现有资料满足研究目的
的程度,有无必要吸收补充其他资料,以及对
调查中出现的新问题如何处理,
条理化原则是从对事物分类归纳着手,系
统化是从整体综合的角度考虑问题,
③ 统计汇总
二,分类与分组
分类和分组都是一种定性分类方
法,即根据研究对象的某些特征将其
区分为不同种类,分类适用于全部调
查资料,分组只限于统计资料,习惯上
将他们称为统计分组或称为统计分类,
就调查过程而言,调查资料的分
类还可分为 前分类和后分类,
1.分类的类型及意义
分类的方法有两种,
现象分类方法 是根据事物外部特征或外在
联系进行分类的方法,
本质分类方法 是根据事物的本质特征或内
部联系进行分类的方法,
本质分类不仅是资料的存取,检索系统,而
且是调查者对客观事物和规律认识的总结系
统,她不是一个单纯技术性问题,而是理论问
题,反映出研究者的理论观点,并需要具体学
科理论的指导
2.选择和确定分类标志的原则
? 分类的关键在于选择和确定分类标志,
分类标志一经选定,必然突出在此标志下
的性质差异,而将其他标志下的差异掩盖
起来,分类标志选择的恰当与否,直接影
响资料分析的科学性,
? ① 分类标志的种类
作为分类标志的事物特征很多,但总
体上说可分为两类,即 按品质分类和按数
量标志分类,
★ 按品质标志分类
? 即选择反映事物属性差异的品质标志为分类
标志,如按性别分类,企业按所有制分类,
★ 按数量标志分类
即选择反映事物数量差异的数量标志为分类
标志,如居民家庭按人口数分类,数量标志有 按单
值分类 和 按组距分类 两种表现形式
在组距分类中,将组距中的起点数值 (最小数
值 )称为下限,将终点数值 (最大数值 )成为上限,
如某一数值正好与某一组距中上限一致,应遵循
统计学中的, 上限不在内, 原则,将其划归下一
组,
② 正确选择分类标志的四原则
? 从研究目的出发选择标志
研究目的不同选择的标志也不同,
? 从反映现象本质的需要去选择标志
社会现象众多特征中有本质和非本质特征
? 根据具体的历史条件去选择标志
社会现象的特征是随时间,地点和条件而起
变化的,
? 必须坚持穷尽性和互斥性的原则
第三节资料汇总的技术
分类既是一个分析过程又是一个归纳
过程,分类和分组标志制定以后,就是资料
归类的过程,即资料汇总,
汇总的技术有手工和计算机汇总两种,
一,计算机汇总的步骤
计算机汇总的步骤分为
编码,登录,录入和程序编制,
二,资料整理实例
编码手册
列
问题
号码
变量名称 内容说明
1 - 6 a1 期刊年月编号 91 年 6 月第二个个案为 910602
7 a2 性别 1,男 2, 女
8 - 9 a3 年龄 如实填写
10 a4 学历
1,小学以下 2, 中学 3,高中
4,中专 5, 大专 6, 大学
7,硕士 8 博士 9, 其他
11 - 13 a5 身高 cm
14 - 15 a6 职业 1,工人 2, 农民
3,党政机关公务员 4, 私营企业主
5,离退休人员 6,教师医生
7,公安,司法,军人 8, 企业白领
9 专业技术人员 1 0 其他
16 a7 婚姻状况 1,未婚 2 离婚
3, 丧偶 4, 其他
…… …… …… ……
有些调查要对无回答和不知道的答案进
行编码,
对无回答的编码常用的是 0.对不知道
的编码常为 9.或 99,或 999.但是少数问题可
能很麻烦如家庭子女数,所以对无回答和不
知道的编码必须是在经验上决不会出现的数
字,这样编码往往要多一列,如 无回答为 99,
不知道为 98.三个孩子要填 03.
择偶标准调查数据登录表
A1 A2 A3 A4 A5 A6 A7 … 个案
编号
1 - 6 7 8 - 9 10 11 - 13 14 - 15 16 …
0525 921001 1 35 5 176 0 3 1 …
0526 921002 2 24 6 165 0 4 2 …
0527 921003 1 27 7 177 0 6 3 …
0528 921004 1 28 6 167 0 9 2 …,
0529 921005 2 31 8 158 12 1 …
0530 921006 2 24 7 155 10 1 …
… … … … … … …,,…
三,数 据 清 理
1.有效范围清理
对于问卷中的任何一个变量它的有效的
编码值往往都有某种范围,当数举重的数字超
出了这一范围时,这个数字一定是错误的,
这种错误可以发生在资料处理的每一个
阶段,比如, 错误回答,编码员错写,录入
人员错误输入,
★ 在电脑上检查有效范围的编码值,
2.逻辑一致性的清理
逻辑一致性的清理是从另一角度来查找
数据中所存在的问题,其基本思路是依据问
卷中的问题的相互之间所存在的内在逻辑联
系来检查前后数据之间的合理性,
3,数据质量抽查
是指用随机抽样的方法抽取一部分个案,
来估计和评价全部数据的质量,
根据样本中的个案数目的多少,以及每分
文卷中变量数和总字符数的多少,研究者往往
抽取 2%— 5%,的各按进行质量抽查,
比如:
? 一项调查样本规模为 1,000个个案,以分文
卷的字符数 (数据的个数 )为 200个,研究者从中
随机抽取 3%的个案,即 30份进行对照检查,结果
发现由 2个字符输入错误,这样
2÷ (200× 30)= ≈0.03%
可知,数据差错率在 0.03%左右,这也就是说
在总共 20万个数据中,大约有 60个左右的差错,
我们虽无法查出他们,但却知道他们占多大的
比例,对我们的调查结果有多大程度的影响,
1
3,0 0 0
四,统计表与统计图
? 1.统计表的构成
构成,总标题,横行标题,纵栏标题,指标数值
资料来源,五个部分构成,
★ 简单分组表,
表 1,19 97 年征婚广告性别比
性别 人数 百分比
男 197 65, 7
女 103 34, 3
数据来源, 择偶标准调查 1997 年数据
2.统计表的制作
? 统计表的制作原则是科学,规范,简明,实用,美观,
统计表制作时应注意的问题,
首先 标题要简短明了,
确切说明表中数据的内容,使人一目了然,
其次 表的纵栏标题与横行标题要准确反映变量取
值的含义,排序也应具有一定的逻辑结构,
第三 表中的数据资料必须注明计量单位,
第四 对于一般频数分布表则应列出合计栏,以便获
得整体情况的资料,
最后 各种表格应以横线为主能够不用竖线则尽量
不用