STAT,统计学,第二章 统计数据第二章 统计数据第一节 数据收集第二节 数据整理与显示
STAT,统计学,第二章 统计数据一、统计测量尺度二、数据收集方法三、调查表与问卷设计第一节 数据收集
STAT,统计学,第二章 统计数据一、统计测量尺度
㈠ 统计测量尺度的概念与种类
㈡统计测量尺度的作用
㈢测量层次与测量尺度的正确应用测量:用仪器确定空间、时间、
温 度、速度、功能等的有关数值。
统计测量:运用 某种方法 使自然或社会经济现象量化。
测量结果:变量或指标的形成。
分类、
标识
STAT,统计学,第二章 统计数据
STAT,统计学,第二章 统计数据自然或社会经济现象变量或指标某个人口总体人口总数及分类数、性别结构、比例等按性别不同分类男性女性按收入不同分类 1000元以下1000元 ~2000元

居民总收入、
人均收入、收入差异等分类、标识即统计测量过程按数量不同分类按性质不同分类统计测量尺度的种类:
定类测量(尺度、指标)
定序测量(尺度、指标)
定距测量(尺度、指标)
定比测量(尺度、指标)
STAT,统计学,第二章 统计数据定类尺度按现象性质差异进行的辨别与区分。测量结果形成 定类变量 或 定类指标 。
定类变量或指标确切的 值是以文字表述 的,可以用数值标识,但仅起标签作用。
定类变量或指标的 各类别 间是 平等 的,没有高低、大小、
优劣之分。
STAT,统计学,第二章 统计数据性别种族运动项目
STAT,统计学,第二章 统计数据定序尺度按现象顺序差异进行的辨别与区分。测量结果形成 定序变量 或 定序指标 。
定序变量或指标确切的 值是以文字表述 的,也可以用数值标识,也仅起标签作用。
定序变量或指标 各类别间有高低优劣之分,不能随意排列。
STAT,统计学,第二章 统计数据
>>
- ≠ -
STAT,统计学,第二章 统计数据
≠ ≠
大学生 中学生 小学生定距尺度按现象绝对数量差异进行的辨别与区分。测量结果形成定距变量 或 定距指标 。
定距变量或指标的 值以数字表述,有 计量单位,可以进行 加减运算 。
定距变量或指标各类别间自然有大小之分,但 没有绝对的零点,不能乘除计算。
STAT,统计学,第二章 统计数据
STAT,统计学,第二章 统计数据温度天气预报:沈阳:最高温度 3℃,最低- 7℃
大连:最高温度 6℃,最低- 2℃
两地最高温度相差 3℃
沈阳最低温度较大连最低温度低 5℃
大连最高温度是沈阳最高温度的 2倍
,统计学,第二章 统计数据纪年公元 2000年公元元年黄帝 4491年黄帝 4698年黄帝 4711年黄帝元年时间起点?
STAT
公元 2000年
1970年出生
30岁
1985年出生
15岁甲乙二人年龄 之差,1985- 1970=15岁或 30- 15=15岁二人年龄之比,30÷ 15=2(倍)
1985÷ 1970=1.0076(倍)
STAT,统计学,第二章 统计数据定比尺度按现象绝对差异与相对差异进行的辨别与区分。测量结果形成 定比变量 或 定比指标 。
定比变量或指标确切的 值也以数字表述,有计量单位,
可以加减,
定比变量或指标 有绝对意义上的零点,既可以加减,可以乘除运算 。
STAT,统计学,第二章 统计数据零高度零重量零体积 零面积 零人口零产量零资产真正的零:
一无所有
STAT,统计学,第二章 统计数据
STAT,统计学,第二章 统计数据注意在自然或社会经济领域里,单纯的定距变量是很少的,
绝大多数定距变量同时也是定比变量。
定距测量与定比测量的区别只在理论上有意义,在实际工作中常将二者归为一类。
Nominal
定类测量定类尺度
Ordinal
定序测量定序尺度
Scale
定距定比测量尺度
STAT,统计学,第二章 统计数据一、统计测量尺度
㈠ 统计测量尺度的概念与种类
㈡统计测量尺度的作用
㈢测量层次与测量尺度的正确应用统计测量尺度的作用:
第一,决定数据的整理、显示方法第二,决定数据的分析方法第三,决定计算机的处理方法
STAT,统计学,第二章 统计数据
STAT,统计学,第二章 统计数据定类变量定序变量品质变量条形图圆形图
0
10
20
30
40
50
60
70
80
90
STAT,统计学,第二章 统计数据定序变量定比变量茎叶图直方图频数表条形图 圆形图出生
1,4,4,4
7 2,7 2,7 3,1
26 1 0,2 1 0,2 1 3,3
1 1 9 4 6,5 4 6,5 5 9,8
79 3 0,9 3 0,9 9 0,6
21 8,2 8,2 9 8,8
3 1,2 1,2 1 0 0,0
2 5 6 1 0 0,0 1 0 0,0
1 9 7 5
1 9 7 6
1 9 7 7
1 9 7 8
1 9 7 9
1 9 8 0
1 9 8 1
T o t a l
V a l id
F r e q u e n c y P e r c e n t
V a l id
P e r c e n t
C u m u l a t iv e
P e r c e n t
出生
1 9 8 1,01 9 8 0,01 9 7 9,01 9 7 8,01 9 7 7,01 9 7 6,01 9 7 5,0
140
120
100
80
60
40
20
0
STAT,统计学,第二章 统计数据典型的数据分析方法(部分)
集中趋势 离散趋势 相关回归 假设检验众数定类变量 品质相关 Q检验异众比中位数 等级相关异众比?2检验定序变量均值 相关回归标准差 Z,t检验定距变量均值 相关回归标准差 Z,t检验定比变量非参数统计参数统计
STAT,统计学,第二章 统计数据一、统计测量尺度
㈠ 统计测量尺度的概念与种类
㈡统计测量尺度的作用
㈢测量层次与测量尺度的正确应用对测量尺度层次的判断较低层次的测量尺度较高层次的测量尺度低 测量精度 高少 计算方法 多小 信息数量 大
STAT,统计学,第二章 统计数据
STAT,统计学,第二章 统计数据测量精度计算方法信息数量某甲某乙的生命现象甲、乙有生命 很低不能计算,
只能判断
=,≠
甲、乙有生命定类测量甲为中年人,乙为少年人。 较低
=,≠,>、
<
甲、乙有生命甲生命时间较乙长定序测量甲生于 1940年、
乙生于 1985年。 较高
=,≠,>,
<,+,-
甲、乙有生命甲生命时间较乙长甲比乙大 45岁定距测量甲 60岁、乙 15岁 较高
=,≠,>,
<,+,-、
×,÷
甲、乙有生命甲生命时间较乙长甲比乙大 45岁甲 年龄为乙的 4倍定比测量高层次低 定类测量定序测量定距测量定比测量
STAT,统计学,第二章 统计数据对于不同的现象,注意准确性宗教、种族、民族、性别、党派、
国别、职业等等品质方面的差异定类测量定序测量定距测量定比测量×
STAT,统计学,第二章 统计数据
STAT,统计学,第二章 统计数据对于不同的现象,注意准确性你对圣亚海洋世界的评价定距以上的尺度不一定合适对于人的主观态度,
定序尺度可能是最好的方法对数量差异的度量,注意层次定序测量定距测量定比测量 文盲半文盲、小学、初中、
高中、大专、
大学本科、硕士研究生、博士研究生
(定序测量)
顺序性差异顺序性差异、
绝对差异距离顺序性差异、
绝对差异距离、
相对差异对受教育程度的度量方法文盲半文盲博士研究生
STAT,统计学,第二章 统计数据定序测量定距测量定比测量 0年,6年,9
年,12年,16
年,19年,22

(定距测量)
顺序性差异顺序性差异、
绝对差异距离顺序性差异、
绝对差异距离、
相对差异对受教育程度的度量方法文盲半文盲博士研究生对数量差异的度量,注意层次
STAT,统计学,第二章 统计数据
STAT,统计学,第二章 统计数据对于指标体系,注意统一性一个指标体系中的指标应属于相同的测量尺度。
实际值 标准值总资产贡献率 15% 10.7%
资本保值增值率 130% 120%
资产负债率 60% 60%
全员劳动生产率 20000元 16500元成本费用利润率 4.8% 3.71%
流动资产周转率 1.8次 1.52次产品销售率 97% 90%
环保等级 优秀 良好
STAT,统计学,第二章 统计数据二、数据收集方法
㈠ 数据来源
㈡ 统计调查组织形式
㈢ 数据收集方法
㈣ 数据收集误差
STAT,统计学,第二章 统计数据

初级资料

原始数据源加工数据源
(次级资料)
政府统计、企业统计、民间统计等机构,
数据库、出版物、账册等形式普通的数据使用者统计调查数据查询已存在数据源实验数据源 对过程加以控制该页显示数据来源网页
STAT,统计学,第二章 统计数据
STAT,统计学,第二章 统计数据二、数据收集方法
㈠ 数据来源
㈡ 统计调查组织形式
㈢ 数据收集方法
㈣ 数据收集误差调查的组织形式调查者 调查对象普查抽样调查重点调查典型调查报表制度
STAT,统计学,第二章 统计数据总体单位调查单位
STAT,统计学,第二章 统计数据总体单位调查单位普 查对全部单位进行调查,也称全面调查,
但调查工作量很大。
STAT,统计学,第二章 统计数据总体单位调查单位抽样调查按随机原则选择调查单位,各单位被选中的机会相同。
STAT,统计学,第二章 统计数据总体单位调查单位重点调查只调查重点单位(单位数不多但其标志量占标志总量比重较大的单位)
STAT,统计学,第二章 统计数据总体单位调查单位典型调查对典型单位进行调查,典型单位的选择并不一定按规模
STAT,统计学,第二章 统计数据总体单位调查单位报表制度可以全面调查,但通常是调查限定规模以上的总体单位
STAT,统计学,第二章 统计数据
STAT,统计学,第二章 统计数据二、数据收集方法
㈠ 数据来源
㈡ 统计调查组织形式
㈢ 数据收集方法
㈣ 数据收集误差数据的收集方法调查者 被调查者直接观察报告法访问调查
STAT,统计学,第二章 统计数据直接观察
STAT,统计学,第二章 统计数据调查者 被调查者强制、约束报告式
STAT,统计学,第二章 统计数据访问调查调查者 被调查者平等合作
STAT,统计学,第二章 统计数据
STAT,统计学,第二章 统计数据二、数据收集方法
㈠ 数据来源
㈡ 统计调查组织形式
㈢ 数据收集方法
㈣ 数据收集误差真值调查值调查误差
STAT,统计学,第二章 统计数据真值?
调查值调查误差
STAT,统计学,第二章 统计数据真值?
调查值调查误差?
研究调查误差的主要目的是找出导致误差产生的原因,进而采取对策避免、减少误差或控制误差水平。
STAT,统计学,第二章 统计数据
STAT,统计学,第二章 统计数据体重
1,8,8,8
3 2,5 2,5 3,3
1,8,8 4,1
3 2,5 2,5 6,6
5 4,1 4,1 1 0,7
1,8,8 1 1,6
2 1,7 1,7 1 3,2
1,8,8 1 4,0
3 2,5 2,5 1 6,5
16 1 3,2 1 3,2 2 9,8
3 2,5 2,5 3 2,2
3 2,5 2,5 3 4,7
5 4,1 4,1 3 8,8
5 4,1 4,1 4 3,0
10 8,3 8,3 5 1,2
1,8,8 5 2,1
2 1,7 1,7 5 3,7
2 1,7 1,7 5 5,4
1,8,8 5 6,2
19 1 5,7 1 5,7 7 1,9
13 1 0,7 1 0,7 8 2,6
12 9,9 9,9 9 2,6
2 1,7 1,7 9 4,2
4 3,3 3,3 9 7,5
1,8,8 9 8,3
2 1,7 1,7 1 0 0,0
1 2 1 1 0 0,0 1 0 0,0
25
40
41
43
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
65
66
67
T o t a l
V a l id
F r e q u e n c y P e r c e n t
V a l id
P e r c e n t
C u m u l a t iv e
P e r c e n t
由人为因素(调查者误导、笔误等,被调查者理解错误、记忆错误、有意隐瞒等)造成的误差称为 登记误差,
理论上它可以用某种方法加以消除。
中国的人口统计数据:
公元 2年(汉元始二年) 59594978人公元 754年(唐天宝十三载) 52880488人公元 1122年(宋宣和四年) 46734784人公元 1281年(元至元十八年) 58830000人公元 1578年(明万历六年) 60692856人公元 1711年(清康熙五十年) 24621324人公元 1741年(清乾隆六年) 143411559人公元 1763年(清乾隆二十八年) 204209828人公元 1790年(清乾隆五十二年) 301487115人公元 1835年(清道光十五年) 401767053人
,圣祖出巡时获悉,有五六丁之户,
仅一人缴纳钱粮,或有九丁、十丁,亦仅二三人缴纳钱粮,
康熙五十一年定,滋生人丁永不加赋,
30年间增加近 5倍自然增长率为 6.05%
STAT,统计学,第二章 统计数据体重
1,8,8,8
3 2,5 2,5 3,3
1,8,8 4,1
3 2,5 2,5 6,6
5 4,1 4,1 1 0,7
1,8,8 1 1,6
2 1,7 1,7 1 3,2
1,8,8 1 4,0
3 2,5 2,5 1 6,5
16 1 3,2 1 3,2 2 9,8
3 2,5 2,5 3 2,2
3 2,5 2,5 3 4,7
5 4,1 4,1 3 8,8
5 4,1 4,1 4 3,0
10 8,3 8,3 5 1,2
1,8,8 5 2,1
2 1,7 1,7 5 3,7
2 1,7 1,7 5 5,4
1,8,8 5 6,2
19 1 5,7 1 5,7 7 1,9
13 1 0,7 1 0,7 8 2,6
12 9,9 9,9 9 2,6
2 1,7 1,7 9 4,2
4 3,3 3,3 9 7,5
1,8,8 9 8,3
2 1,7 1,7 1 0 0,0
1 2 1 1 0 0,0 1 0 0,0
25
40
41
43
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
65
66
67
T o t a l
V a l id
F r e q u e n c y P e r c e n t
V a l id
P e r c e n t
C u m u l a t iv e
P e r c e n t
从全部学生中随机抽取 20人组成样本并计算平均体重样本一,52.35
样本二,50.26
样本三,53.19

真值,51.18
由部分单位数值来推断总体数值所产生的误差称为 代表性误差
(随机误差),它不可以消除,但可以加以控制。
STAT,统计学,第二章 统计数据三、调查表与问卷设计
㈠ 基本格式
㈡ 问题类型
㈢ 设计原则一般的调查表 调查问卷表头表体表脚表头表体表脚
STAT,统计学,第二章 统计数据名称、编号、
制表单位、埴表日期等等被调查者基本情况、调查项目等等备注、指标解释等等说明词:解释调查意义、表达感激之情等主题问句:被调查者基本情况、调查项目作业记录:时间、操作者等
STAT,统计学,第二章 统计数据三、调查表与问卷设计
㈠ 基本格式
㈡ 问题类型
㈢ 设计原则您认为吸烟有哪些害处?
容易滋生腐败您认为吸烟有哪些害处?
①危害自身健康
②影响他人健康
③浪费钱财
④容易引起火灾
⑤破坏家庭团结封闭式问题 开放式问题容易控制,
但不易全面不易控制,
但内容丰富您认为吸烟有哪些害处?
①危害自身健康
②影响他人健康
③浪费钱财
④容易引起火灾
⑤破坏家庭团结
⑥其他 。
STAT,统计学,第二章 统计数据
STAT,统计学,第二章 统计数据三、调查表与问卷设计
㈠ 基本格式
㈡ 问题类型
㈢ 设计原则问卷设计的基本原则:
先封闭后开放先易后难适当控制回答时间特殊问题特别设计
STAT,统计学,第二章 统计数据
STAT,统计学,第二章 统计数据
⒈ 您是否吸烟(如果选②,则跳过⒉,⒊题)
①吸烟 ②不吸
⒉您每天大约吸多少支烟
① 5支以下 ② 5-10支 ③ 10-15支
④ 15-20 ⑤ 20-25支 ⑥ 25支以上
⒊您的吸烟历史大约有多长
① 1年以下 ② 1-5年 ③ 5-10年 ④ 10年以上
⒋您是否认为吸烟有害健康(请写出理由)
调查单位中吸烟人所占比例吸烟人群日吸烟数量情况吸烟人群吸烟历史情况调查对象对吸烟的看法
STAT,统计学,第二章 统计数据
⒈ 您是否吸烟(如果选②,则跳过⒉,⒊题)
①吸烟 ②不吸
⒉您每天大约吸多少支烟
① 5支以下 ② 5-10支 ③ 10-15支
④ 15-20 ⑤ 20-25支 ⑥ 25支以上
⒊您的吸烟历史大约有多长
① 1年以下 ② 1-5年 ③ 5-10年 ④ 10年以上
⒋您是否认为吸烟有害健康(请写出理由)
调查单位中吸烟人所占比例吸烟人群日吸烟数量情况吸烟人群吸烟历史情况
??????
??????
??????
??????
??????
??????
??????
答题时间:一般控制在 20分钟之内过多的问题、过于难的问题将吓跑被调查者。
STAT,统计学,第二章 统计数据
STAT,统计学,第二章 统计数据特殊问题的处理方法:
你曾经有过偷漏税行为吗?
你身份证末位数是单数吗?
你曾经有过偷漏税行为吗?
你曾经有过偷漏税行为吗?
你曾经有过偷漏税行为吗?
你曾经有过偷漏税行为吗?
你曾经有过偷漏税行为吗?
你曾经有过偷漏税行为吗?
你身份证末位数是单数吗?
你身份证末位数是单数吗?
你身份证末位数是单数吗?
你身份证末位数是单数吗?
你身份证末位数是单数吗?
P
P
n
n
B
A



)1(1
nnnnnPA 1122 11
AtA
估计有偷漏税行为人的比例估计偷漏税行为比例的方差估计有偷漏税行为人比例的区间
STAT,统计学,第二章 统计数据
V A R 0 0 0 0 1
1 1,2 1,2 1,2
2 2,4 2,4 3,6
2 2,4 2,4 6,0
4 4,8 4,8 1 0,8
1 1,2 1,2 1 2,0
2 2,4 2,4 1 4,5
2 2,4 2,4 1 6,9
12 1 4,5 1 4,5 3 1,3
7 8,4 8,4 3 9,8
8 9,6 9,6 4 9,4
4 4,8 4,8 5 4,2
3 3,6 3,6 5 7,8
8 9,6 9,6 6 7,5
5 6,0 6,0 7 3,5
3 3,6 3,6 7 7,1
7 8,4 8,4 8 5,5
1 1,2 1,2 8 6,7
5 6,0 6,0 9 2,8
2 2,4 2,4 9 5,2
3 3,6 3,6 9 8,8
1 1,2 1,2 1 0 0,0
83 1 0 0,0 1 0 0,0
1 5 2,0 0
1 5 4,0 0
1 5 5,0 0
1 5 6,0 0
1 5 7,0 0
1 5 8,0 0
1 5 9,0 0
1 6 0,0 0
1 6 1,0 0
1 6 2,0 0
1 6 3,0 0
1 6 4,0 0
1 6 5,0 0
1 6 6,0 0
1 6 7,0 0
1 6 8,0 0
1 6 9,0 0
1 7 0,0 0
1 7 1,0 0
1 7 2,0 0
1 7 4,0 0
T o t a l
V a l id
F r e q u e n c y P e r c e n t
V a l id
P e r c e n t
C u m u l a t iv e
P e r c e n t
频数表
(用 SPSS制作)
有效数据频数 频率 有效频率累计频率约 2/3的人身高不超过 165cm
STAT,统计学,第二章 统计数据二、数量数据汇总与显示
㈠ 变量数列
㈡ 频数表
㈢ 直方图
STAT,统计学,第二章 统计数据
V A R 0 0 0 0 1
1 7 4,01 7 0,01 6 6,01 6 2,01 5 8,01 5 4,0
40
30
20
10
0
S t d,D e v = 4,8 6
M e a n = 1 6 3,3
N = 8 3,0 0
直方图 ( Histogram)
STAT,统计学,第二章 统计数据
V A R0 0 0 0 1
1 7 4,0 0
1 7 1,0 0
1 6 9,0 0
1 6 7,0 0
1 6 5,0 0
1 6 3,0 0
1 6 1,0 0
1 5 9,0 0
1 5 7,0 0
1 5 5,0 0
1 5 2,0 0
C
o
u
n
t
14
12
10
8
6
4
2
0
V A R 0 0 0 0 1
1
7
4
,0
1
7
3
,0
1
7
2
,0
1
7
1
,0
1
7
0
,0
1
6
9
,0
1
6
8
,0
1
6
7
,0
1
6
6
,0
1
6
5
,0
1
6
4
,0
1
6
3
,0
1
6
2
,0
1
6
1
,0
1
6
0
,0
1
5
9
,0
1
5
8
,0
1
5
7
,0
1
5
6
,0
1
5
5
,0
1
5
4
,0
1
5
3
,0
1
5
2
,0
14
12
10
8
6
4
2
0
S t d,D e v = 4,8 6
M e a n = 1 6 3,3
N = 8 3,0 0
直方图条形图
STAT,统计学,第二章 统计数据研究贫富差别的基本方法:将人口按收入水平等分为 5 组,观察收入差别。
20% 20% 20% 20% 20%
中国九十年代,最富的 20% 家庭拥有全部财富的 48%,最穷的 20% 家庭拥有全部财富的 4% 。