第二章 资料的整理
第一节 资料的分类
第二节 资料的整理 (掌握 )
第三节 常用统计表与统计图 (了解)
第一节 资料的分类
正确地进行资料的分类是资料整理、分析的前提。 通过试验或调查所获得的资料一般可以分为三大类,
一、数量性状资料 (data of quantitative
characteristics)
二、质量性状资料 (data of qualitative
characteristics)
三、半定量(等级) 资料 (semi-quantitative or
ranked data)
一、数量性状资料
(一)概念 数量性状 是指能够以量测、称量或计数的方法表示其特征的性状。
观察测定数量性状而获得的数据就是 数量性状资料 。
(二)分类 数量性状资料的记载有量测和计数两种方式,因而数量性状又分为计量资料和计数资料两种。
1.计量资料,指 用量测手段 得到的数量资料。
这种资料的各个观察值 不一定是整数,两个相邻
的整数间可以有带小数的任何数值出现,其小数值的多少由度量工具的精度而定,它们之间的变异是连续性的。因此亦称为 连续性变异资料 。
例如体高、产奶量、绵羊剪毛量、血液的生理生化指标等属于连续性数量性状资料。
2.计数资料,指用 计数方式 得到的数量资料。
它的各个观察值 只能以整数 表示,两个相邻整数不得有任何带小数的数值出现。因此,该类资料也称 不连续性变异资料或间断性变异资料 。
如猪的产仔数、鸡的产蛋数、鱼的尾数、寄生虫虫卵数等。
二、质量性状资料
(一)概念和特点
质量性状 是指只能观察而不能测量的性状。
这类性状本身 不能直接用数值表示,要获得这类性状的数据资料,须对其观察结果作 数量化处理 。
(二)质量性状数量化的方法
质量性状数量化常采用 统计次数法,所谓统计次数法是指在一定的总体或样本中,根据某一质量性状的类别统计其个体数。这种由质量性状数量化得来的资料又叫 次数资料 。
三、半定量(等级)资料
(一)概念 半定量或等级资料 是指将观察单位按所考察的性状或指标的等级顺序分组(三组以上),然后清点各组观察单位的次数而得的资料 。
(二)特点 这类资料既有次数资料的特点,
又有程度或量的不同。
如粪便潜血试验的阳性反应是在涂有粪便的棉签上加试剂后观察颜色出现的快慢及深浅程度分为六个等级;又如用某种药物治疗畜禽的某种疾病,疗效分为,无效,,,好转,,,显效,
和,控制,四个级别;然后统计各级别的供试畜禽数。半定量资料在兽医研究中是常见的 。
第二节 资料的整理
一、资料的检查与核对
获得的资料在未整理之前,称为 原始资料 。
对原始资料可从以下两个方面进行检查:
1.资料的完整性
原始记录有无遗漏或重复
2.资料的正确性
原始数据是否正确、合理,有无矛盾,特别注意特大或特小数据及异常数据。
二、资料的整理
(一) 计数资料的整理
对原始资料进行检查核对后,根据资料中观察值的多少确定是否分组。
1.当观察值不多,变异范围不大时,不必分组,
直接进行统计分析。
2.当观察值较多,变异范围较大时,须将观察值分成若干组,以便统计分析 。
将观察值分组归类制成次数分布表(,唱票式,) 看出资料的集中和变异情况。
表 2-1 50只小鸡的出壳天数
21 20 20 21 23 22 22 22 21 22
20 23 22 23 22 1 9 22 23 2 4 22
19 22 21 21 21 22 22 24 22 21
21 22 22 23 22 22 21 22 22 23
22 23 22 22 23 23 22 21 22 22
从上表可以看出,小鸡出壳天数在 19-24之间变动,用观察值各个不同值进行分组。
表 2-2 50只小鸡出壳天数的次数分布表出壳天数 划线计数 次数( f )
19 ┰ 2
20 下 3
21 正正 10
22 正正正正 止 24
23 正 止 9
24 ┰ 2
合计 50
如果有 100只蛋鸡年产蛋数这样一个资料,
产蛋数在 200-299枚之间,若以每一观察值为一组,则组数太多 (最多可达 100组),每组内包含的观察值太少,资料的规律性表现不出来 。
因此,以几个观察值为一组,适当减少组数,
如 200-209,210-219,...,290-299,分别统计各组次数,这样资料的规律性就比较明显。
(二)计量资料的整理
通常采用 组距式分组法 。以 某纯系蛋鸡 200枚蛋重资料 为例说明其整理的基本步骤和方法:
1、求全距 。 全距 是资料中最大值与最小值之差,又称为 极差,以 R( range) 表示。
在表 2-4中,最大值为 62.1g,最小值为 45.3g,
则全距为 62.1-45.3=16.8g
2、确定组数。 组数要适当,一般以达到既简化资料又不影响反映资料的规律性为原则。具体可参照表 2-5.本例 n=200,初步确定组数为 11组。
某纯系蛋鸡 200枚蛋重 单位,g
52.6 54.3 57.7 55.8 45.3 53.2 57.0 54.8 52.3 53.0 49.5 56.2
57.5 55.9 48.4 51.2 53.8 50.5 50.5 57.0 47.5 54.1 53.2 50.7
55.6 51.5 57.8 52.5 54.9 57.9 50.7 46.2 56.0 56.5 51.2 48.2
55.2 55.2 48.5 50.1 58.6 56.1 53.8 50.3 55.6 62.1 57.8 48.0
54.7 61.2 51.0 51.9 59.0 52.6 53.0 52.9 51.5 58.1 47.2 61.7
53.7 49.1 56.1 55.1 53.7 53.4 53.9 52.6 52.1 53.8 48.9 53.2
59.2 50.1 57.6 52.8 57.0 61.4 53.4 53.9 56.3 54.1 52.9 50.9
55.6 47.9 53.7 54.4 56.7 51.1 55.1 55.2 57.5 50.6 57.5 54.1
49.9 53.7 51.9 53.5 57.3 48.7 47.9 53.8 51.3 58.6 50.2 51.4
53.2 58.6 45.6 54.6 52.9 49.4 47.6 55.5 49.7 54.5 55.3 53.4
53.7 56.8 51.9 52.4 57.0 51.9 53.1 51.7 52.1 52.6 54.9 …
…
表 2-5 样本含量与组数样本含量( n ) 组数
10 ~ 100 7 ~ 10
100 ~ 200 9 ~ 12
200 ~ 500 12 ~ 17
500 ~ 17 ~ 30
n? 3、确定组距。 每组最大值与最小值之差称为组距,记为 i。
本例
4、确定组限及组中值。 各组的最大值与最小值称为 组限,最小值为下限,最大值为上限。每组的中点值称为组中值,组中值是该组的代表值。
第一组的组中值以接近或等于资料中的最小值为好。 (为什么?? )
本例第一组的组中值取 45.0(最小值 45.3),
组数全距组距 /?i
5.153.111/8.16i
组距组上限组距组下限组下限)(组上限组中值 21212
则第一组的下限
第一组 上限为,44.25+1.5=45.35 (第二组下限 )
第二组 上限为,45.35+1.5=46.85 (第三组下限 )
依次类推,第三组 46.85?48.35;
第四组 48.35?49.85; ……,.依次分组下去,直到资料中的最大值归入最后一组为止 。
但 为了避免个别数据归组的两面性 (假如资料中有一枚重为 46.85g,是将其归入第二组,还是归入第三组呢??),通常将每组的上限略去不写。 如第一组 44.25?,第二组 45.35?,第三组
46.85?,…,.。
5、归组划线计数,作次数分布表(,唱票式,)和次数分布图 。
25.445.12/10.45
表 2-6 某纯系蛋鸡 200枚蛋重的次数分布表组 别 组中值 画线计数 次数( f)
44.25—— 45.0
45.75—— 46.5
47.25—— 48.0
48.75—— 49.5
50.25—— 51.0
51.75—— 52.5
53.25—— 54.0
54.75—— 55.5
56.25—— 57.0
57.75—— 58.5
59.25—— 60.0
60.75—— 61.5
合计 200
(三)质量性状资料、半定量(等级)
资料)的整理
可 按性状或等级进行分组,分别统计各组的次数,然后制成次数分布表。
表 2-7 子二代猪毛色分离情况毛色 次数( f ) 频率 ( % )
白色 83 7 4,5 5
黑色 27 2 5,4 5
合计 1 1 0 1 0 0,0 0
第三节 常用统计表与统计图
统计表 是用表格形式来表示数量关系,使数据条理化、系统化,便于理解、分析和比较。
统计图 是用几何图形来表示数量关系,不同形状的几何图形,可以将研究对象的特征、内部构成、相互关系等形象直观地表达出来,便于分析比较。
一、统计表
(一)统计表的结构和要求
统计表由标题、横标目、纵标目、线条、数字及合计构成。
(二)统计表的种类
1,简单表 由一组横标目和一组纵标目组成,
纵横标目都未分组。
2,复合表 由两组或两组以上的横标目与纵标目结合而成,或一组横标目与两组或两组以上的纵标目结合而成,或两组或组以上的横、纵标目结合而成。
二、统计图
(一)统计图绘制的基本要求
(二)常用统计图及其绘制方法
1.长条图
2.圆图
3.线图
4.直方图
5.折线图
………,.(特别是随着计算机技术的发展,统计图的种类越来越丰富 )
第一节 资料的分类
第二节 资料的整理 (掌握 )
第三节 常用统计表与统计图 (了解)
第一节 资料的分类
正确地进行资料的分类是资料整理、分析的前提。 通过试验或调查所获得的资料一般可以分为三大类,
一、数量性状资料 (data of quantitative
characteristics)
二、质量性状资料 (data of qualitative
characteristics)
三、半定量(等级) 资料 (semi-quantitative or
ranked data)
一、数量性状资料
(一)概念 数量性状 是指能够以量测、称量或计数的方法表示其特征的性状。
观察测定数量性状而获得的数据就是 数量性状资料 。
(二)分类 数量性状资料的记载有量测和计数两种方式,因而数量性状又分为计量资料和计数资料两种。
1.计量资料,指 用量测手段 得到的数量资料。
这种资料的各个观察值 不一定是整数,两个相邻
的整数间可以有带小数的任何数值出现,其小数值的多少由度量工具的精度而定,它们之间的变异是连续性的。因此亦称为 连续性变异资料 。
例如体高、产奶量、绵羊剪毛量、血液的生理生化指标等属于连续性数量性状资料。
2.计数资料,指用 计数方式 得到的数量资料。
它的各个观察值 只能以整数 表示,两个相邻整数不得有任何带小数的数值出现。因此,该类资料也称 不连续性变异资料或间断性变异资料 。
如猪的产仔数、鸡的产蛋数、鱼的尾数、寄生虫虫卵数等。
二、质量性状资料
(一)概念和特点
质量性状 是指只能观察而不能测量的性状。
这类性状本身 不能直接用数值表示,要获得这类性状的数据资料,须对其观察结果作 数量化处理 。
(二)质量性状数量化的方法
质量性状数量化常采用 统计次数法,所谓统计次数法是指在一定的总体或样本中,根据某一质量性状的类别统计其个体数。这种由质量性状数量化得来的资料又叫 次数资料 。
三、半定量(等级)资料
(一)概念 半定量或等级资料 是指将观察单位按所考察的性状或指标的等级顺序分组(三组以上),然后清点各组观察单位的次数而得的资料 。
(二)特点 这类资料既有次数资料的特点,
又有程度或量的不同。
如粪便潜血试验的阳性反应是在涂有粪便的棉签上加试剂后观察颜色出现的快慢及深浅程度分为六个等级;又如用某种药物治疗畜禽的某种疾病,疗效分为,无效,,,好转,,,显效,
和,控制,四个级别;然后统计各级别的供试畜禽数。半定量资料在兽医研究中是常见的 。
第二节 资料的整理
一、资料的检查与核对
获得的资料在未整理之前,称为 原始资料 。
对原始资料可从以下两个方面进行检查:
1.资料的完整性
原始记录有无遗漏或重复
2.资料的正确性
原始数据是否正确、合理,有无矛盾,特别注意特大或特小数据及异常数据。
二、资料的整理
(一) 计数资料的整理
对原始资料进行检查核对后,根据资料中观察值的多少确定是否分组。
1.当观察值不多,变异范围不大时,不必分组,
直接进行统计分析。
2.当观察值较多,变异范围较大时,须将观察值分成若干组,以便统计分析 。
将观察值分组归类制成次数分布表(,唱票式,) 看出资料的集中和变异情况。
表 2-1 50只小鸡的出壳天数
21 20 20 21 23 22 22 22 21 22
20 23 22 23 22 1 9 22 23 2 4 22
19 22 21 21 21 22 22 24 22 21
21 22 22 23 22 22 21 22 22 23
22 23 22 22 23 23 22 21 22 22
从上表可以看出,小鸡出壳天数在 19-24之间变动,用观察值各个不同值进行分组。
表 2-2 50只小鸡出壳天数的次数分布表出壳天数 划线计数 次数( f )
19 ┰ 2
20 下 3
21 正正 10
22 正正正正 止 24
23 正 止 9
24 ┰ 2
合计 50
如果有 100只蛋鸡年产蛋数这样一个资料,
产蛋数在 200-299枚之间,若以每一观察值为一组,则组数太多 (最多可达 100组),每组内包含的观察值太少,资料的规律性表现不出来 。
因此,以几个观察值为一组,适当减少组数,
如 200-209,210-219,...,290-299,分别统计各组次数,这样资料的规律性就比较明显。
(二)计量资料的整理
通常采用 组距式分组法 。以 某纯系蛋鸡 200枚蛋重资料 为例说明其整理的基本步骤和方法:
1、求全距 。 全距 是资料中最大值与最小值之差,又称为 极差,以 R( range) 表示。
在表 2-4中,最大值为 62.1g,最小值为 45.3g,
则全距为 62.1-45.3=16.8g
2、确定组数。 组数要适当,一般以达到既简化资料又不影响反映资料的规律性为原则。具体可参照表 2-5.本例 n=200,初步确定组数为 11组。
某纯系蛋鸡 200枚蛋重 单位,g
52.6 54.3 57.7 55.8 45.3 53.2 57.0 54.8 52.3 53.0 49.5 56.2
57.5 55.9 48.4 51.2 53.8 50.5 50.5 57.0 47.5 54.1 53.2 50.7
55.6 51.5 57.8 52.5 54.9 57.9 50.7 46.2 56.0 56.5 51.2 48.2
55.2 55.2 48.5 50.1 58.6 56.1 53.8 50.3 55.6 62.1 57.8 48.0
54.7 61.2 51.0 51.9 59.0 52.6 53.0 52.9 51.5 58.1 47.2 61.7
53.7 49.1 56.1 55.1 53.7 53.4 53.9 52.6 52.1 53.8 48.9 53.2
59.2 50.1 57.6 52.8 57.0 61.4 53.4 53.9 56.3 54.1 52.9 50.9
55.6 47.9 53.7 54.4 56.7 51.1 55.1 55.2 57.5 50.6 57.5 54.1
49.9 53.7 51.9 53.5 57.3 48.7 47.9 53.8 51.3 58.6 50.2 51.4
53.2 58.6 45.6 54.6 52.9 49.4 47.6 55.5 49.7 54.5 55.3 53.4
53.7 56.8 51.9 52.4 57.0 51.9 53.1 51.7 52.1 52.6 54.9 …
…
表 2-5 样本含量与组数样本含量( n ) 组数
10 ~ 100 7 ~ 10
100 ~ 200 9 ~ 12
200 ~ 500 12 ~ 17
500 ~ 17 ~ 30
n? 3、确定组距。 每组最大值与最小值之差称为组距,记为 i。
本例
4、确定组限及组中值。 各组的最大值与最小值称为 组限,最小值为下限,最大值为上限。每组的中点值称为组中值,组中值是该组的代表值。
第一组的组中值以接近或等于资料中的最小值为好。 (为什么?? )
本例第一组的组中值取 45.0(最小值 45.3),
组数全距组距 /?i
5.153.111/8.16i
组距组上限组距组下限组下限)(组上限组中值 21212
则第一组的下限
第一组 上限为,44.25+1.5=45.35 (第二组下限 )
第二组 上限为,45.35+1.5=46.85 (第三组下限 )
依次类推,第三组 46.85?48.35;
第四组 48.35?49.85; ……,.依次分组下去,直到资料中的最大值归入最后一组为止 。
但 为了避免个别数据归组的两面性 (假如资料中有一枚重为 46.85g,是将其归入第二组,还是归入第三组呢??),通常将每组的上限略去不写。 如第一组 44.25?,第二组 45.35?,第三组
46.85?,…,.。
5、归组划线计数,作次数分布表(,唱票式,)和次数分布图 。
25.445.12/10.45
表 2-6 某纯系蛋鸡 200枚蛋重的次数分布表组 别 组中值 画线计数 次数( f)
44.25—— 45.0
45.75—— 46.5
47.25—— 48.0
48.75—— 49.5
50.25—— 51.0
51.75—— 52.5
53.25—— 54.0
54.75—— 55.5
56.25—— 57.0
57.75—— 58.5
59.25—— 60.0
60.75—— 61.5
合计 200
(三)质量性状资料、半定量(等级)
资料)的整理
可 按性状或等级进行分组,分别统计各组的次数,然后制成次数分布表。
表 2-7 子二代猪毛色分离情况毛色 次数( f ) 频率 ( % )
白色 83 7 4,5 5
黑色 27 2 5,4 5
合计 1 1 0 1 0 0,0 0
第三节 常用统计表与统计图
统计表 是用表格形式来表示数量关系,使数据条理化、系统化,便于理解、分析和比较。
统计图 是用几何图形来表示数量关系,不同形状的几何图形,可以将研究对象的特征、内部构成、相互关系等形象直观地表达出来,便于分析比较。
一、统计表
(一)统计表的结构和要求
统计表由标题、横标目、纵标目、线条、数字及合计构成。
(二)统计表的种类
1,简单表 由一组横标目和一组纵标目组成,
纵横标目都未分组。
2,复合表 由两组或两组以上的横标目与纵标目结合而成,或一组横标目与两组或两组以上的纵标目结合而成,或两组或组以上的横、纵标目结合而成。
二、统计图
(一)统计图绘制的基本要求
(二)常用统计图及其绘制方法
1.长条图
2.圆图
3.线图
4.直方图
5.折线图
………,.(特别是随着计算机技术的发展,统计图的种类越来越丰富 )