第二章 资料的整理
由调查或试验收集来的原始资料,往往是零乱的,无规律性可循。只有通过统计整理,才能发现其内部的联系和规律性,从而揭示事物的本质。资料整理是进一步统计分析的基础,本章首先介绍资料的分类,然后介绍不同类型资料的整理方法。
第一节 资料的分类
正确地进行资料的分类是资料整理的前提。在调查或试验中,由观察、测量所得的数据按其性质的不同,一般可以分为数量性状资料、质量性状资料和半定量(等级)资料三大类。
一、数量性状资料
数量性状(quantitative character)是指能够以量测或计数的方式表示其特征的性状。观察测定数量性状而获得的数据就是数量性状资料(data of quantitative characteristics)。数量性状资料的记载有量测和计数两种方式,因而数量性状资料又分为计量资料和计数资料两种。
(一)计量资料 指用量测手段得到的数量性状资料,即用度、量、衡等计量工具直接测定的数量性状资料。其数据是用长度、容积、重量等来表示,如体高、产奶量、体重、绵羊剪毛量等。这种资料的各个观测值不一定是整数,两个相邻的整数间可以有带小数的任何数值出现,其小数位数的多少由度量工具的精度而定,它们之间的变异是连续性的。因此,计量资料也称为连续性变异资料。
(二)计数资料 指用计数方式得到的数量性状资料。在这类资料中,它的各个观察值只能以整数表示,在两个相邻整数间不得有任何带小数的数值出现。如猪的产仔数、鸡的产蛋数、鱼的尾数、母猪的乳头数等,这些观察值只能以整数来表示,各观察值是不连续的,因此该类资料也称为不连续性变异资料或间断性变异资料。
二、质量性状资料
质量性状(qualitative character)是指能观察到而不能直接测量的性状,如颜色,性别、生死等。这类性状本身不能直接用数值表示,要获得这类性状的数据资料,须对其观察结果作数量化处理,其方法有以下两种:
(一)统计次数法 在一定的总体或样本中,根据某一质量性状的类别统计其次数,以次数作为质量性状的数据。例如,在研究猪的毛色遗传时,白猪与黑猪杂交,子二代中白猪、黑猪和花猪的头数分类统计如下表。
表2-1 白猪和黑猪子二代的毛色分离情况毛色
次数(f)
频率(%)
白色
332
73.78
黑色
96
21.33
花色
22
4.89
合 计
450
100.00
这种由质量性状数量化得来的资料又叫次数资料。
(二)评分法 对某一质量性状,因其类别不同,分别给予评分。例如,在研究猪的肉色遗传时,常用的方法是将屠宰后2小时的猪眼肌横切面与标准图谱对比,由浅到深分别给予1(5分的评分,以便统计分析。
三、半定量(等级)资料
半定量或等级资料(semi-quantitative or ranked data)是指将观察单位按所考察的性状或指标的等级顺序分组,然后清点各组观察单位的次数而得的资料。这类资料既有次数资料的特点,又有程度或量的不同。如粪便潜血试验的阳性反应是在涂有粪便的棉签上加试剂后观察颜色出现的快慢及深浅程度分为六个等级;又如用某种药物治疗畜禽的某种疾病,疗效分为“无效”、“好转”、“显效”和“控制”四个级别;然后统计各级别的供试畜禽数。半定量资料在兽医研究中是常见的。
三种不同类型的资料相互间是有区别的,但有时可根据研究的目的和统计方法的要求将一种类型资料转化成另一种类型的资料。例如,兽医临床化验动物的白细胞总数得到的资料属于计数资料,根据化验的目的,可按白细胞总数正常或不正常分为两组,清点各组的次数,计数资料就转化为质量性状次数资料;如果按白细胞总数过高、正常、过低分为三组,清点各组次数,就转化成了半定量资料 。
第二节 资料的整理
在对原始资料进行整理之前,首先要对全部资料进行检查与核对,然后再根据资料的类型及研究的目的对资料进行整理。
一、资料的检查与核对
检查和核对原始资料的目的在于确保原始资料的完整性和正确性。所谓完整性是指原始资料无遗缺或重复。所谓正确性是指原始资料的测量和记载无差错或未进行不合理的归并。检查中要特别注意特大、特小和异常数据(可结合专业知识作出判断)。对于有重复、异常或遗漏的资料,应予以删除或补齐;对有错误、相互矛盾的资料应进行更正,必要时进行复查或重新试验。资料的检查与核对工作虽然简单,但在统计处理工作中却是一项非常重要的步骤,因为只有完整、正确的资料,才能真实地反映出调查或试验的客观情况,才能经过统计分析得出正确的结论。
二、资料的整理方法
对原始资料进行检查核对后,根据资料中观测值的多少确定是否分组。当观测值不多(n≤30)时,不必分组,直接进行统计分析。当观测值较多(n>30)时,宜将观测值分成若干组,以便统计分析。将观测值分组后,制成次数分布表,即可看到资料的集中和变异情况。不同类型的资料,其整理的方法略有不同。
(一)计数资料的整理 现以50枚受精种蛋孵化出雏鸡的天数为例,说明计数料的整理。
表2-2 50枚受精种蛋孵化出雏鸡的天数
21
20
20
21
23
22
22
22
21
22
20
23
22
23
22
19
22
23
24
22
19
22
21
21
21
22
22
24
22
21
21
22
22
23
22
22
21
22
22
23
22
23
22
22
22
23
23
22
21
22
小鸡出壳天数在19─24天范围内变动,有6个不同的观察值。用各个不同观察值进行分组,共分为6组,可得表2-3形式的次数分布表。
表2-3 50枚受精种蛋出雏天数的次数分布表孵化天数
划线计数
次数(f)
19
║
2
20
║│
3
21
╫╫ ╫╫
10
22
╫╫ ╫╫ ╫╫ ╫╫ ║║
24
23
╫╫ ║║
9
24
║
2
合计
50
从表2-3可以看出:种蛋孵化出雏天数大多集中在21(23天,以22 天的最多,孵化天数较短(19(20天)和较长(24天)的都较少。
表2-4 100只蛋鸡每年产蛋数的次数分布表产蛋数
划线计数
次数(f)
200(209
║
2
210(219
╫╫ ║│
8
220(229
╫╫ ╫╫ ╫╫
15
230(239
╫╫ ╫╫ ╫╫ ╫╫
20
240(249
╫╫ ╫╫ ╫╫ ╫╫ ║│
23
250(259
╫╫ ╫╫ ╫╫ ║
17
260(269
╫╫ ║│
8
270(279
║║
4
280(289
║
2
290(299
│
1
合 计
100
有些计数资料,观察值较多,变异范围较大,若以每一观察值为一组,则组数太多,而每组内包含的观察值太少,资料的规律性显示不出来。对于这样的资料,可扩大为以几个相邻观察值为一组,适当减少组数,这样资料的规律性就较明显,对资料进一步计算分析也比较方便。例如观测某品种100只蛋鸡每年每只鸡产蛋数(原始资料略),其变异范围为200(299枚。这样的资料如以每个观察值为一组,则组数太多(该资料最多可分为100组),如间隔10枚为一组,则可使组数适当减少。经初步整理后分为10组,资料的规律性就比较明显,见表2-4。
从表2-4可以看到,大部分蛋鸡的年产蛋数在220(259枚,但也有少数蛋鸡每年产蛋数少到200(209枚,多到290(299枚。
(二)计量资料的整理 计量资料不能按计数资料的分组方法进行整理,在分组前需要确定全距、组数、组距、组中值及组限,然后将全部观测值划线计数归组。下面以126头基础母羊的体重资料为例,说明其整理的方法及步骤。
【例2.1】 将126头基础母羊的体重资料(见表2-5)整理成次数分布表。
1、求全距 全距是资料中最大值与最小值之差,又称为极差(range),用R表示,即
R=Max(x)-Min(x)
表2-5中,基础母羊的最大体重为65.0kg,最小体重为37.0kg,因此
R=65.0-37.0=28.0kg。
2、确定组数 组数的多少视样本含量及资料的变动范围大小而定,一般以达到既简化资料又不影响反映资料的规律性为原则。组数要适当,不宜过多,亦不宜过少。分组越多所求得的统计量越精确,但增大了运算量;若分组过少,资料的规律性就反映不出来,计算出的统计量的精确性也较差。一般组数的确定,可参考表2-6。
表2-5 126头基础母羊的体重资料单位:kg
53.0 50.0 51.0 57.0 56.0 51.0 48.0 46.0 62.0 51.0 61.0 56.0 62.0 58.0 46.5
48.0 46.0 50.0 54.5 56.0 40.0 53.0 51.0 57.0 54.0 59.0 52.0 47.0 57.0 59.0 54.0 50.0 52.0 54.0 62.5 50.0 50.0 53.0 51.0 54.0 56.0 50.0 52.0 50.0 52.0 43.0 53.0 48.0 50.0 60.0 58.0 52.0 64.0 50.0 47.0 37.0 52.0 46.0 45.0 42.0 53.0 58.0 47.0 50.0 50.0 45.0 55.0 62.0 51.0 50.0 43.0 53.0 42.0 56.0 54.5 45.0 56.0 54.0 65.0 61.0 47.0 52.0 49.0 49.0 51.0 45.0 52.0 54.0 48.0 57.0 45.0 53.0 54.0 57.0 54.0 54.0 45.0 44.0 52.0 50.0 52.0 52.0 55.0 50.0 54.0 43.0 57.0 56.0 54.0 49.0 55.0 50.0 48.0 46.0 56.0 45.0 45.0 51.0 46.0 49.0 48.5 49.0 55.0 52.0 58.0 54.5
表2-6 样本含量与组数样本含量(n)
组 数
10—100
7—10
100—200
9—12
200—500
12—17
500以上
17—30
本例中,n=126,根据表2-6,初步确定组数为10组。
3、确定组距 每组最大值与最小值之差称为组距,记为 i。分组时要求各组的组距相等。组距的大小由全距与组数确定,计算公式为:
组距(i)=全距/组数本例i=28.0/10≈3.0。
4,确定组限及组中值 各组的最大值与最小值称为组限。最小值称为下限,最大值称为上限。每一组的中点值称为组中值,它是该组的代表值。组中值与组限、组距的关系如下:
组中值=(组下限+组上限)/2=组下限+1/ 2组距=组上限-1/2组距由于相邻两组的组中值间的距离等于组距,所以当第一组的组中值确定以后,加上组距就是第二组的组中值,第二组的组中值加上组距就是第三组的组中值,其余类推。
组距确定后,首先要选定第一组的组中值。在分组时为了避免第一组中观察值过多,一般第一组的组中值以接近于或等于资料中的最小值为好。第一组组中值确定后,该组组限即可确定,其余各组的组中值和组限也可相继确定。注意,最末一组的上限应大于资料中的最大值。
表2-5中,最小值为37.0,第一组的组中值取37.5,因组距已确定为3.0,所以第一组的下限=37.5-(1/2)×3.0=36.0;第一组的上限也就是第二组的下限为36.0+3.0=39.0;第二组的上限也就是第三组的下限为39.0+3.0=42.0,……,以此类推,一直到某一组的上限大于资料中的最大值为止,于是可分组为:36.0 ( 39.0,39.0 ( 42.0,……。为了使恰好等于前一组上限和后一组下限的数据能确切归组,约定将其归入后一组。通常将上限略去不写。如第一组记为36.0 (,第二组记为39.0 (,……。
5、归组划线计数,作次数分布表 分组结束后,将资料中的每一观测值逐一归组,划线计数,然后制成次数分布表。如表2-5中,第一个观察值53.0,应归入表2-7中第六组,组限为51.0 ( 54.0;第二个数50.0,应归入第五组,组限为48.0 ( 51.0;依次将126个观察值都进行归组划线计数,制成次数分布表,见表2-7。
表2-7 126头基础母羊的体重的次数分布表组 别
组中值
划线计数
次数(f)
36.0 (
37.5
│
1
39.0 (
40.5
│
1
42.0 (
43.5
╫╫ │
6
45.0 (
46.5
╫╫ ╫╫ ╫╫ ║│
18
48.0 (
49.5
╫╫ ╫╫ ╫╫ ╫╫ │
26
51.0 (
52.5
╫╫ ╫╫ ╫╫ ╫╫ ║
27
54.0 (
55.5
╫╫ ╫╫ ╫╫ ╫╫ │
26
57.0 (
58.5
╫╫ ╫╫ ║
12
60.0 (
61.5
╫╫ ║
7
63.0 (
64.5
║
2
合 计
126
次数分布表不仅便于观察资料的规律性,而且可根据它绘成次数分布图及计算平均数、标准差等统计量。从表2-7可以看出126头基础母羊体重资料分布的一般趋势:体重的变异范围在37.0 ( 65.0kg,大部分母羊的体重在45.0(60.0kg之间。
在归组划线时应注意,不要重复或遗漏,归组划线后将各组的次数相加,结果应与样本含量相等,如不等,证明归组划线有误,应予纠正。在分组后所得实际组数,有时和最初确定的组数不同,如第一组下限和资料中的最小值相差较大或实际组距比计算的组距为小,则实际分组的组数将比原定组数多;反之则少。
(三)质量性状资料、半定量(等级)资料的整理 对于质量性状资料、半定量(等级)资料,可按性状或等级进行分组,分别统计各组的次数,然后制成次数分布表。例如,研究山羊的角遗传时,用纯种的有角羊与无角羊交配,杂种一代全为无角羊,观察F2代山羊共120只,有角无角的分离情况列于表2-8。
表2-8 F2代山羊的有角无角分离情况角
次 数(f)
频率(%)
无 角
87
72.50
有 角
33
27.50
合 计
120
100.00
又如,整理仔猪死亡情况资料可根据死亡原因将仔猪分组,并统计次数,计算出频率即构成比,见表2-9。
表2-9 仔猪死亡情况死亡原因
死亡数
频率(%)
冻 死
15
19.23
发育不良
20
25.46
肺 炎
13
16.67
白 痢
10
12.82
寄生虫
20
25.64
合 计
78
100.00
第三节 常用统计表与统计图
统计表是用表格形式来表示数量关系;统计图是用几何图形来表示数量关系。用统计表与统计图,可以把研究对象的特征、内部构成、相互关系等简明、形象地表达出来,便于比较分析。
一、统计表
(一)统计表的结构和要求 统计表由标题、横标目、纵标目、线条、数字及合计构成,其基本格式如下表:
表号 标题总横标目(或空白)
纵标目
合 计
横标目
数字资料
合 计
编制统计表的总原则:结构简单,层次分明,内容安排合理,重点突出,数据准确,便于理解和比较分析。具体要求如下:
1、标题 标题要简明扼要、准确地说明表的内容,有时须注明时间、地点。
2、标目 标目分横标目和纵标目两项。横标目列在表的左侧,用以表示被说明事物的主要标志;纵标目列在表的上端,说明横标目各统计指标内容,并注明计算单位,如%、kg、cm等等。
3、数字 一律用阿拉伯数字,数字以小数点对齐,小数位数一致,无数字的用“─”表示,数字是“0”的,则填写“0”。
4、线条 表的上下两条边线略粗,纵、横标目间及合计用细线分开,表的左右边线可省去,表的左上角一般不用斜线。
(二) 统计表的种类 统计表可根据纵、横标目是否有分组分为简单表和复合表两类。
1、简单表 由一组横标目和一组纵标目组成,纵横标目都未分组。 此类表适于简单资料的统计,如表2-10。
表2-10 某品种鸡杂种二代冠形分离情况
冠 形
次 数(f)
频率(%)
玫瑰冠
106
74.13
单 冠
37
25.87
合 计
143
100.00
2、复合表 由两组或两组以上的横标目与纵标目结合而成,或由一组横标目与两组或两组以上的纵标目结合而成,或由两组或两组以上的横、纵标目结合而成。此类表适于复杂资料的统计,如表2-11。
表2-11 几种动物性食品的营养成分品 别
百 分 比(%)
蛋白质
脂肪
糖类
无机盐
水分
其它
牛奶
3.3
4.0
5.0
0.7
87.0
((
牛肉
19.2
9.2
((
1.0
62.1
8.5
鸡蛋
11.9
9.3
1.2
0.9
65.5
11.2
咸带鱼
15.5
3.7
1.8
10.0
29.0
40.0
二、统计图
常用的统计图有长条图 (bar chart)、园图(pie chart)、线图(linear chart),直方图(histogram)和折线图(broken-line chart)等。图形的选择取决于资料的性质,一般情况下,计量资料采用直方图和折线图,计数资料、质量性状资料、半定量(等级)资料常用长条图、线图或园图。
(一)统计图绘制的基本要求
1、标题简明扼要,列于图的下方。
2、纵、横两轴应有刻度,注明单位。
3、横轴由左至右、纵轴由下而上,数值由小到大; 图形长宽比例约5:4或6:5。
4、图中需用不同颜色或线条代表不同事物时,应有图例说明。
(二)常用统计图及其绘制方法
1、长条图 它用等宽长条的长短或高低表示按某一研究指标划分属性种类或等级的次数或频率分布。如表示奶牛几种疾病的发病率;几种家畜对某一寄生虫感染的情况;不同公羊油汗色泽的次数分布情况等。如果只涉及一项指标,则采用单式长条图;如果涉及两个或两个以上的指标,则采用复式长条图。
在绘制长条图时,应注意以下几点:
(1)纵轴尺度从“0”开始,间隔相等,标明所表示指标的尺度及单位。
(2)横轴是长条图的共同基线,应标明各长条的内容。长条的宽度要相等,间隔相同。间隔的宽度可与长条宽度相同或者是其一半。
(3)在绘制复式长条图时,将同一属性种类、等级的两个或两个以上指标的长条绘制在一起,各长条所表示的指标用图例说明,同一属性种类、等级的各长条间不留间隔。
例如,根据表2-10绘制的长条图是单式的,见图2-1。根据表2-11绘制的长条图是复式的,见图2-2。
2、园图 用于表示计数资料、质量性状资料或半定量(等级)资料的构成比。 所谓构成比,就是各类别、等级的观测值个数(次数)与观测值总个数(样本含量)的百分比。把园图的全面积看成100%,按各类别、等级的构成比将园面积分成若干分,以扇形面积的大小表分别表示各类别、等级的比例。
绘制园图时,应注意以下三点:
(1)圆图每3.6°园心角所对应的扇形面积为1%。
(2)圆图上各部分按资料顺序或大小顺序,以时钟9时或12时为起点,顺时针方向排列。
(3)圆图中各部分用线条分开,注明简要文字及百分比。
例如根据表2-11中的数据用圆图绘出四种动物性食品的营养成分,见图2-3。
3、线图 用来表示事物或现象随时间而变化发展的情况。线图有单式和复式两种。
(1)单式线图 表示某一事物或现象的动态。
例如,某猪场长白猪从出生到6月龄出栏平均体重的变化如表2-12所示,根据该资料可以绘制成单式线图,以表示该猪场长白猪体重随月龄变化的情况,见图2-4。
表2-12 长白猪体重的变化(出生——6月龄)
单位:kg
月龄
出生
1
2
3
4
5
6
体重
2.0
13.5
27.5
43.0
61.2
83.8
118.5
(2)复式线图 在同一图上表示两种或两种以上事物或现象的动态。这时可用实线“((”,断线“------”,点线“····”,横点线“-?-?-?-”等来标志区别。
例如,长白猪、大约克、大白猪三个品种从出生到6月龄出栏平均体重的变化如表2-13所示,根据该资料绘制的复式线图,见图2-5。
表2-13 三个品种猪体重的变化(出生——6月龄)
单位:kg
出生
1
2
3
4
5
6
长白猪
2.0
13.5
27.5
43.0
61.2
83.8
118.5
大约克
1.8
12.0
24.5
38.0
53.6
72.3
104.5
大白猪
1.6
10.0
21.0
32.0
45.0
60.5
85.7
4、直方图(柱形图、矩形图) 对计量资料,可根据次数分布表作出直方图以表示资料的分布情况。其作法是:在横轴上标记组限,纵轴标记次数(f),在各组上作出其高等于次数的矩形,即得次数分布直方图。
例如根据表2-7绘制的次数分布直方图,见图2-6。
5、折线图 对于计量资料,还可根据次数分布表作出次数分布折线图。 其作法是:在横轴上标记组中值,纵轴上标记次数,以各组组中值为横坐标,次数为纵坐标描点,用线段依次连接各点,即可得次数分布折线图。
例如根据表2-7绘制的次数分布折线图,见图2-7。
习 题
1,资料可以分为哪几类?它们有何区别与联系?
2,为什么要对资料进行整理?对于计量资料,整理的基本步骤怎样?
3,在对计量资料进行整理时,为什么第一组的组中值以接近或等于资料中的最小值为好?
4,统计表与统计图有何用途?常用统计图有哪些?常用统计表有哪些? 列统计表、绘统计图时,应注意什么?
5,下表为100头某品种猪的血红蛋白含量(单位:g/100ml)资料,试将其整理成次数分布表,并绘制直方图和折线图。
13.4 13.8 14.4 14.7 14.8 14.4 13.9 13.0 13.0 12.8 12.5 12.3 12.1 11.8 11.0 10.1 11.1 10.1 11.6 12.0 12.0 12.7 12.6 13.4 13.5 13.5 14.0 15.0 15.1 14.1 13.5 13.5 13.2 12.7 12.8 16.3 12.1 11.7 11.2 10.5 10.5 11.3 11.8 12.2 12.4 12.8 12.8 13.3 13.6 14.1 14.5 15.2 15.3 14.6 14.2 13.7 13.4 12.9 12.9 12.4 12.3 11.9 11.1 10.7 10.8 11.4 11.5 12.2 12.1 12.8 9.5 12.3 12.5 12.7 13.0 13.1 13.9 14.2 14.9 12.4 13.1 12.5 12.7 12.0 12.4 11.6 11.5 10.9 11.1 11.6 12.6 13.2 13.8 14.1 14.7 15.6 15.7 14.7 14.0 13.9
(提示:第一组下限取为9.1,组距i=0.7)
6,测得某肉品的化学成分的百分比如下(单位:%),请绘制成圆图。
水 分
蛋白质
脂 肪
无机盐
其 它
62.0
15.3
17.2
1.8
3.7
7,2001年调查四川省5个县奶牛的增长情况(与2000年相比)得如下资料(单位:%),请绘成长条图。
双流县
名山县
宣汉县
青川县
泸定县
增长率(%)
22.6
13.8
18.2
31.3
9.5
8,1-9周龄大型肉鸭杂交组合GW和GY的料肉比如下表所示,请绘制成线图。
周龄
1
2
3
4
5
6
7
8
9
GW
1.42
1.56
1.66
1.84
2.13
2.48
2.83
3.11
3.48
GY
1.47
1.71
1.80
1.97
2.31
2.91
3.02
3.29
3.57
由调查或试验收集来的原始资料,往往是零乱的,无规律性可循。只有通过统计整理,才能发现其内部的联系和规律性,从而揭示事物的本质。资料整理是进一步统计分析的基础,本章首先介绍资料的分类,然后介绍不同类型资料的整理方法。
第一节 资料的分类
正确地进行资料的分类是资料整理的前提。在调查或试验中,由观察、测量所得的数据按其性质的不同,一般可以分为数量性状资料、质量性状资料和半定量(等级)资料三大类。
一、数量性状资料
数量性状(quantitative character)是指能够以量测或计数的方式表示其特征的性状。观察测定数量性状而获得的数据就是数量性状资料(data of quantitative characteristics)。数量性状资料的记载有量测和计数两种方式,因而数量性状资料又分为计量资料和计数资料两种。
(一)计量资料 指用量测手段得到的数量性状资料,即用度、量、衡等计量工具直接测定的数量性状资料。其数据是用长度、容积、重量等来表示,如体高、产奶量、体重、绵羊剪毛量等。这种资料的各个观测值不一定是整数,两个相邻的整数间可以有带小数的任何数值出现,其小数位数的多少由度量工具的精度而定,它们之间的变异是连续性的。因此,计量资料也称为连续性变异资料。
(二)计数资料 指用计数方式得到的数量性状资料。在这类资料中,它的各个观察值只能以整数表示,在两个相邻整数间不得有任何带小数的数值出现。如猪的产仔数、鸡的产蛋数、鱼的尾数、母猪的乳头数等,这些观察值只能以整数来表示,各观察值是不连续的,因此该类资料也称为不连续性变异资料或间断性变异资料。
二、质量性状资料
质量性状(qualitative character)是指能观察到而不能直接测量的性状,如颜色,性别、生死等。这类性状本身不能直接用数值表示,要获得这类性状的数据资料,须对其观察结果作数量化处理,其方法有以下两种:
(一)统计次数法 在一定的总体或样本中,根据某一质量性状的类别统计其次数,以次数作为质量性状的数据。例如,在研究猪的毛色遗传时,白猪与黑猪杂交,子二代中白猪、黑猪和花猪的头数分类统计如下表。
表2-1 白猪和黑猪子二代的毛色分离情况毛色
次数(f)
频率(%)
白色
332
73.78
黑色
96
21.33
花色
22
4.89
合 计
450
100.00
这种由质量性状数量化得来的资料又叫次数资料。
(二)评分法 对某一质量性状,因其类别不同,分别给予评分。例如,在研究猪的肉色遗传时,常用的方法是将屠宰后2小时的猪眼肌横切面与标准图谱对比,由浅到深分别给予1(5分的评分,以便统计分析。
三、半定量(等级)资料
半定量或等级资料(semi-quantitative or ranked data)是指将观察单位按所考察的性状或指标的等级顺序分组,然后清点各组观察单位的次数而得的资料。这类资料既有次数资料的特点,又有程度或量的不同。如粪便潜血试验的阳性反应是在涂有粪便的棉签上加试剂后观察颜色出现的快慢及深浅程度分为六个等级;又如用某种药物治疗畜禽的某种疾病,疗效分为“无效”、“好转”、“显效”和“控制”四个级别;然后统计各级别的供试畜禽数。半定量资料在兽医研究中是常见的。
三种不同类型的资料相互间是有区别的,但有时可根据研究的目的和统计方法的要求将一种类型资料转化成另一种类型的资料。例如,兽医临床化验动物的白细胞总数得到的资料属于计数资料,根据化验的目的,可按白细胞总数正常或不正常分为两组,清点各组的次数,计数资料就转化为质量性状次数资料;如果按白细胞总数过高、正常、过低分为三组,清点各组次数,就转化成了半定量资料 。
第二节 资料的整理
在对原始资料进行整理之前,首先要对全部资料进行检查与核对,然后再根据资料的类型及研究的目的对资料进行整理。
一、资料的检查与核对
检查和核对原始资料的目的在于确保原始资料的完整性和正确性。所谓完整性是指原始资料无遗缺或重复。所谓正确性是指原始资料的测量和记载无差错或未进行不合理的归并。检查中要特别注意特大、特小和异常数据(可结合专业知识作出判断)。对于有重复、异常或遗漏的资料,应予以删除或补齐;对有错误、相互矛盾的资料应进行更正,必要时进行复查或重新试验。资料的检查与核对工作虽然简单,但在统计处理工作中却是一项非常重要的步骤,因为只有完整、正确的资料,才能真实地反映出调查或试验的客观情况,才能经过统计分析得出正确的结论。
二、资料的整理方法
对原始资料进行检查核对后,根据资料中观测值的多少确定是否分组。当观测值不多(n≤30)时,不必分组,直接进行统计分析。当观测值较多(n>30)时,宜将观测值分成若干组,以便统计分析。将观测值分组后,制成次数分布表,即可看到资料的集中和变异情况。不同类型的资料,其整理的方法略有不同。
(一)计数资料的整理 现以50枚受精种蛋孵化出雏鸡的天数为例,说明计数料的整理。
表2-2 50枚受精种蛋孵化出雏鸡的天数
21
20
20
21
23
22
22
22
21
22
20
23
22
23
22
19
22
23
24
22
19
22
21
21
21
22
22
24
22
21
21
22
22
23
22
22
21
22
22
23
22
23
22
22
22
23
23
22
21
22
小鸡出壳天数在19─24天范围内变动,有6个不同的观察值。用各个不同观察值进行分组,共分为6组,可得表2-3形式的次数分布表。
表2-3 50枚受精种蛋出雏天数的次数分布表孵化天数
划线计数
次数(f)
19
║
2
20
║│
3
21
╫╫ ╫╫
10
22
╫╫ ╫╫ ╫╫ ╫╫ ║║
24
23
╫╫ ║║
9
24
║
2
合计
50
从表2-3可以看出:种蛋孵化出雏天数大多集中在21(23天,以22 天的最多,孵化天数较短(19(20天)和较长(24天)的都较少。
表2-4 100只蛋鸡每年产蛋数的次数分布表产蛋数
划线计数
次数(f)
200(209
║
2
210(219
╫╫ ║│
8
220(229
╫╫ ╫╫ ╫╫
15
230(239
╫╫ ╫╫ ╫╫ ╫╫
20
240(249
╫╫ ╫╫ ╫╫ ╫╫ ║│
23
250(259
╫╫ ╫╫ ╫╫ ║
17
260(269
╫╫ ║│
8
270(279
║║
4
280(289
║
2
290(299
│
1
合 计
100
有些计数资料,观察值较多,变异范围较大,若以每一观察值为一组,则组数太多,而每组内包含的观察值太少,资料的规律性显示不出来。对于这样的资料,可扩大为以几个相邻观察值为一组,适当减少组数,这样资料的规律性就较明显,对资料进一步计算分析也比较方便。例如观测某品种100只蛋鸡每年每只鸡产蛋数(原始资料略),其变异范围为200(299枚。这样的资料如以每个观察值为一组,则组数太多(该资料最多可分为100组),如间隔10枚为一组,则可使组数适当减少。经初步整理后分为10组,资料的规律性就比较明显,见表2-4。
从表2-4可以看到,大部分蛋鸡的年产蛋数在220(259枚,但也有少数蛋鸡每年产蛋数少到200(209枚,多到290(299枚。
(二)计量资料的整理 计量资料不能按计数资料的分组方法进行整理,在分组前需要确定全距、组数、组距、组中值及组限,然后将全部观测值划线计数归组。下面以126头基础母羊的体重资料为例,说明其整理的方法及步骤。
【例2.1】 将126头基础母羊的体重资料(见表2-5)整理成次数分布表。
1、求全距 全距是资料中最大值与最小值之差,又称为极差(range),用R表示,即
R=Max(x)-Min(x)
表2-5中,基础母羊的最大体重为65.0kg,最小体重为37.0kg,因此
R=65.0-37.0=28.0kg。
2、确定组数 组数的多少视样本含量及资料的变动范围大小而定,一般以达到既简化资料又不影响反映资料的规律性为原则。组数要适当,不宜过多,亦不宜过少。分组越多所求得的统计量越精确,但增大了运算量;若分组过少,资料的规律性就反映不出来,计算出的统计量的精确性也较差。一般组数的确定,可参考表2-6。
表2-5 126头基础母羊的体重资料单位:kg
53.0 50.0 51.0 57.0 56.0 51.0 48.0 46.0 62.0 51.0 61.0 56.0 62.0 58.0 46.5
48.0 46.0 50.0 54.5 56.0 40.0 53.0 51.0 57.0 54.0 59.0 52.0 47.0 57.0 59.0 54.0 50.0 52.0 54.0 62.5 50.0 50.0 53.0 51.0 54.0 56.0 50.0 52.0 50.0 52.0 43.0 53.0 48.0 50.0 60.0 58.0 52.0 64.0 50.0 47.0 37.0 52.0 46.0 45.0 42.0 53.0 58.0 47.0 50.0 50.0 45.0 55.0 62.0 51.0 50.0 43.0 53.0 42.0 56.0 54.5 45.0 56.0 54.0 65.0 61.0 47.0 52.0 49.0 49.0 51.0 45.0 52.0 54.0 48.0 57.0 45.0 53.0 54.0 57.0 54.0 54.0 45.0 44.0 52.0 50.0 52.0 52.0 55.0 50.0 54.0 43.0 57.0 56.0 54.0 49.0 55.0 50.0 48.0 46.0 56.0 45.0 45.0 51.0 46.0 49.0 48.5 49.0 55.0 52.0 58.0 54.5
表2-6 样本含量与组数样本含量(n)
组 数
10—100
7—10
100—200
9—12
200—500
12—17
500以上
17—30
本例中,n=126,根据表2-6,初步确定组数为10组。
3、确定组距 每组最大值与最小值之差称为组距,记为 i。分组时要求各组的组距相等。组距的大小由全距与组数确定,计算公式为:
组距(i)=全距/组数本例i=28.0/10≈3.0。
4,确定组限及组中值 各组的最大值与最小值称为组限。最小值称为下限,最大值称为上限。每一组的中点值称为组中值,它是该组的代表值。组中值与组限、组距的关系如下:
组中值=(组下限+组上限)/2=组下限+1/ 2组距=组上限-1/2组距由于相邻两组的组中值间的距离等于组距,所以当第一组的组中值确定以后,加上组距就是第二组的组中值,第二组的组中值加上组距就是第三组的组中值,其余类推。
组距确定后,首先要选定第一组的组中值。在分组时为了避免第一组中观察值过多,一般第一组的组中值以接近于或等于资料中的最小值为好。第一组组中值确定后,该组组限即可确定,其余各组的组中值和组限也可相继确定。注意,最末一组的上限应大于资料中的最大值。
表2-5中,最小值为37.0,第一组的组中值取37.5,因组距已确定为3.0,所以第一组的下限=37.5-(1/2)×3.0=36.0;第一组的上限也就是第二组的下限为36.0+3.0=39.0;第二组的上限也就是第三组的下限为39.0+3.0=42.0,……,以此类推,一直到某一组的上限大于资料中的最大值为止,于是可分组为:36.0 ( 39.0,39.0 ( 42.0,……。为了使恰好等于前一组上限和后一组下限的数据能确切归组,约定将其归入后一组。通常将上限略去不写。如第一组记为36.0 (,第二组记为39.0 (,……。
5、归组划线计数,作次数分布表 分组结束后,将资料中的每一观测值逐一归组,划线计数,然后制成次数分布表。如表2-5中,第一个观察值53.0,应归入表2-7中第六组,组限为51.0 ( 54.0;第二个数50.0,应归入第五组,组限为48.0 ( 51.0;依次将126个观察值都进行归组划线计数,制成次数分布表,见表2-7。
表2-7 126头基础母羊的体重的次数分布表组 别
组中值
划线计数
次数(f)
36.0 (
37.5
│
1
39.0 (
40.5
│
1
42.0 (
43.5
╫╫ │
6
45.0 (
46.5
╫╫ ╫╫ ╫╫ ║│
18
48.0 (
49.5
╫╫ ╫╫ ╫╫ ╫╫ │
26
51.0 (
52.5
╫╫ ╫╫ ╫╫ ╫╫ ║
27
54.0 (
55.5
╫╫ ╫╫ ╫╫ ╫╫ │
26
57.0 (
58.5
╫╫ ╫╫ ║
12
60.0 (
61.5
╫╫ ║
7
63.0 (
64.5
║
2
合 计
126
次数分布表不仅便于观察资料的规律性,而且可根据它绘成次数分布图及计算平均数、标准差等统计量。从表2-7可以看出126头基础母羊体重资料分布的一般趋势:体重的变异范围在37.0 ( 65.0kg,大部分母羊的体重在45.0(60.0kg之间。
在归组划线时应注意,不要重复或遗漏,归组划线后将各组的次数相加,结果应与样本含量相等,如不等,证明归组划线有误,应予纠正。在分组后所得实际组数,有时和最初确定的组数不同,如第一组下限和资料中的最小值相差较大或实际组距比计算的组距为小,则实际分组的组数将比原定组数多;反之则少。
(三)质量性状资料、半定量(等级)资料的整理 对于质量性状资料、半定量(等级)资料,可按性状或等级进行分组,分别统计各组的次数,然后制成次数分布表。例如,研究山羊的角遗传时,用纯种的有角羊与无角羊交配,杂种一代全为无角羊,观察F2代山羊共120只,有角无角的分离情况列于表2-8。
表2-8 F2代山羊的有角无角分离情况角
次 数(f)
频率(%)
无 角
87
72.50
有 角
33
27.50
合 计
120
100.00
又如,整理仔猪死亡情况资料可根据死亡原因将仔猪分组,并统计次数,计算出频率即构成比,见表2-9。
表2-9 仔猪死亡情况死亡原因
死亡数
频率(%)
冻 死
15
19.23
发育不良
20
25.46
肺 炎
13
16.67
白 痢
10
12.82
寄生虫
20
25.64
合 计
78
100.00
第三节 常用统计表与统计图
统计表是用表格形式来表示数量关系;统计图是用几何图形来表示数量关系。用统计表与统计图,可以把研究对象的特征、内部构成、相互关系等简明、形象地表达出来,便于比较分析。
一、统计表
(一)统计表的结构和要求 统计表由标题、横标目、纵标目、线条、数字及合计构成,其基本格式如下表:
表号 标题总横标目(或空白)
纵标目
合 计
横标目
数字资料
合 计
编制统计表的总原则:结构简单,层次分明,内容安排合理,重点突出,数据准确,便于理解和比较分析。具体要求如下:
1、标题 标题要简明扼要、准确地说明表的内容,有时须注明时间、地点。
2、标目 标目分横标目和纵标目两项。横标目列在表的左侧,用以表示被说明事物的主要标志;纵标目列在表的上端,说明横标目各统计指标内容,并注明计算单位,如%、kg、cm等等。
3、数字 一律用阿拉伯数字,数字以小数点对齐,小数位数一致,无数字的用“─”表示,数字是“0”的,则填写“0”。
4、线条 表的上下两条边线略粗,纵、横标目间及合计用细线分开,表的左右边线可省去,表的左上角一般不用斜线。
(二) 统计表的种类 统计表可根据纵、横标目是否有分组分为简单表和复合表两类。
1、简单表 由一组横标目和一组纵标目组成,纵横标目都未分组。 此类表适于简单资料的统计,如表2-10。
表2-10 某品种鸡杂种二代冠形分离情况
冠 形
次 数(f)
频率(%)
玫瑰冠
106
74.13
单 冠
37
25.87
合 计
143
100.00
2、复合表 由两组或两组以上的横标目与纵标目结合而成,或由一组横标目与两组或两组以上的纵标目结合而成,或由两组或两组以上的横、纵标目结合而成。此类表适于复杂资料的统计,如表2-11。
表2-11 几种动物性食品的营养成分品 别
百 分 比(%)
蛋白质
脂肪
糖类
无机盐
水分
其它
牛奶
3.3
4.0
5.0
0.7
87.0
((
牛肉
19.2
9.2
((
1.0
62.1
8.5
鸡蛋
11.9
9.3
1.2
0.9
65.5
11.2
咸带鱼
15.5
3.7
1.8
10.0
29.0
40.0
二、统计图
常用的统计图有长条图 (bar chart)、园图(pie chart)、线图(linear chart),直方图(histogram)和折线图(broken-line chart)等。图形的选择取决于资料的性质,一般情况下,计量资料采用直方图和折线图,计数资料、质量性状资料、半定量(等级)资料常用长条图、线图或园图。
(一)统计图绘制的基本要求
1、标题简明扼要,列于图的下方。
2、纵、横两轴应有刻度,注明单位。
3、横轴由左至右、纵轴由下而上,数值由小到大; 图形长宽比例约5:4或6:5。
4、图中需用不同颜色或线条代表不同事物时,应有图例说明。
(二)常用统计图及其绘制方法
1、长条图 它用等宽长条的长短或高低表示按某一研究指标划分属性种类或等级的次数或频率分布。如表示奶牛几种疾病的发病率;几种家畜对某一寄生虫感染的情况;不同公羊油汗色泽的次数分布情况等。如果只涉及一项指标,则采用单式长条图;如果涉及两个或两个以上的指标,则采用复式长条图。
在绘制长条图时,应注意以下几点:
(1)纵轴尺度从“0”开始,间隔相等,标明所表示指标的尺度及单位。
(2)横轴是长条图的共同基线,应标明各长条的内容。长条的宽度要相等,间隔相同。间隔的宽度可与长条宽度相同或者是其一半。
(3)在绘制复式长条图时,将同一属性种类、等级的两个或两个以上指标的长条绘制在一起,各长条所表示的指标用图例说明,同一属性种类、等级的各长条间不留间隔。
例如,根据表2-10绘制的长条图是单式的,见图2-1。根据表2-11绘制的长条图是复式的,见图2-2。
2、园图 用于表示计数资料、质量性状资料或半定量(等级)资料的构成比。 所谓构成比,就是各类别、等级的观测值个数(次数)与观测值总个数(样本含量)的百分比。把园图的全面积看成100%,按各类别、等级的构成比将园面积分成若干分,以扇形面积的大小表分别表示各类别、等级的比例。
绘制园图时,应注意以下三点:
(1)圆图每3.6°园心角所对应的扇形面积为1%。
(2)圆图上各部分按资料顺序或大小顺序,以时钟9时或12时为起点,顺时针方向排列。
(3)圆图中各部分用线条分开,注明简要文字及百分比。
例如根据表2-11中的数据用圆图绘出四种动物性食品的营养成分,见图2-3。
3、线图 用来表示事物或现象随时间而变化发展的情况。线图有单式和复式两种。
(1)单式线图 表示某一事物或现象的动态。
例如,某猪场长白猪从出生到6月龄出栏平均体重的变化如表2-12所示,根据该资料可以绘制成单式线图,以表示该猪场长白猪体重随月龄变化的情况,见图2-4。
表2-12 长白猪体重的变化(出生——6月龄)
单位:kg
月龄
出生
1
2
3
4
5
6
体重
2.0
13.5
27.5
43.0
61.2
83.8
118.5
(2)复式线图 在同一图上表示两种或两种以上事物或现象的动态。这时可用实线“((”,断线“------”,点线“····”,横点线“-?-?-?-”等来标志区别。
例如,长白猪、大约克、大白猪三个品种从出生到6月龄出栏平均体重的变化如表2-13所示,根据该资料绘制的复式线图,见图2-5。
表2-13 三个品种猪体重的变化(出生——6月龄)
单位:kg
出生
1
2
3
4
5
6
长白猪
2.0
13.5
27.5
43.0
61.2
83.8
118.5
大约克
1.8
12.0
24.5
38.0
53.6
72.3
104.5
大白猪
1.6
10.0
21.0
32.0
45.0
60.5
85.7
4、直方图(柱形图、矩形图) 对计量资料,可根据次数分布表作出直方图以表示资料的分布情况。其作法是:在横轴上标记组限,纵轴标记次数(f),在各组上作出其高等于次数的矩形,即得次数分布直方图。
例如根据表2-7绘制的次数分布直方图,见图2-6。
5、折线图 对于计量资料,还可根据次数分布表作出次数分布折线图。 其作法是:在横轴上标记组中值,纵轴上标记次数,以各组组中值为横坐标,次数为纵坐标描点,用线段依次连接各点,即可得次数分布折线图。
例如根据表2-7绘制的次数分布折线图,见图2-7。
习 题
1,资料可以分为哪几类?它们有何区别与联系?
2,为什么要对资料进行整理?对于计量资料,整理的基本步骤怎样?
3,在对计量资料进行整理时,为什么第一组的组中值以接近或等于资料中的最小值为好?
4,统计表与统计图有何用途?常用统计图有哪些?常用统计表有哪些? 列统计表、绘统计图时,应注意什么?
5,下表为100头某品种猪的血红蛋白含量(单位:g/100ml)资料,试将其整理成次数分布表,并绘制直方图和折线图。
13.4 13.8 14.4 14.7 14.8 14.4 13.9 13.0 13.0 12.8 12.5 12.3 12.1 11.8 11.0 10.1 11.1 10.1 11.6 12.0 12.0 12.7 12.6 13.4 13.5 13.5 14.0 15.0 15.1 14.1 13.5 13.5 13.2 12.7 12.8 16.3 12.1 11.7 11.2 10.5 10.5 11.3 11.8 12.2 12.4 12.8 12.8 13.3 13.6 14.1 14.5 15.2 15.3 14.6 14.2 13.7 13.4 12.9 12.9 12.4 12.3 11.9 11.1 10.7 10.8 11.4 11.5 12.2 12.1 12.8 9.5 12.3 12.5 12.7 13.0 13.1 13.9 14.2 14.9 12.4 13.1 12.5 12.7 12.0 12.4 11.6 11.5 10.9 11.1 11.6 12.6 13.2 13.8 14.1 14.7 15.6 15.7 14.7 14.0 13.9
(提示:第一组下限取为9.1,组距i=0.7)
6,测得某肉品的化学成分的百分比如下(单位:%),请绘制成圆图。
水 分
蛋白质
脂 肪
无机盐
其 它
62.0
15.3
17.2
1.8
3.7
7,2001年调查四川省5个县奶牛的增长情况(与2000年相比)得如下资料(单位:%),请绘成长条图。
双流县
名山县
宣汉县
青川县
泸定县
增长率(%)
22.6
13.8
18.2
31.3
9.5
8,1-9周龄大型肉鸭杂交组合GW和GY的料肉比如下表所示,请绘制成线图。
周龄
1
2
3
4
5
6
7
8
9
GW
1.42
1.56
1.66
1.84
2.13
2.48
2.83
3.11
3.48
GY
1.47
1.71
1.80
1.97
2.31
2.91
3.02
3.29
3.57