第六章试验资料的整理
第一节 生物统计学中的几个基本概念
一、总体与样本
总体( population)是指在同一组条件下,由具有某种
共同性质的大量个体所组成的集团,或者说是某一变数的
全部可能值的集合。样本( sample)是指从总体中抽出的
一部分个体。
二、参数与统计数
描述总体的特征数叫参数 ( parameter), 它是总体的
真正数值, 是固定的常量, 是由总体的全部变量计算而得
到的, 显然参数通常是无法得到的 。 描述样本的特征数叫
统计数 ( statistic), 它是由样本的观察值计算而得到的, 。
是参数相应的估计数,统计数是变化的,它会随样本的
不同而不同
三、变数与变量
变数( variable)是指在同一组试验条件下所获得的某种性状或
特性的一组有变化的数据。变数中的每一个具体数值叫变量( variate)
或叫观察值( observed value)。
第二节 变数的次数分布
一,试验数据的性质
( 一 ), 数量性状的数据
1、连续性变数 ( continuous variable):指由称量、
度量或测量、分析化验等方法所得到的数据。其各个变
量并不仅限于整数,在两个相邻数值之间可以有微量差
异的其他数值存在。
2、间断性变数 ( discrete variable):也叫非连续性
变数。是指由计数方法所获得的数据,其各个变量
必须以整数表示,在两个相邻的整数间不能有带小
数的数值存在。
( 二 ), 质量性状的数据
由只能观察描述或感觉而难以量测的性状获得的
数量资料为质量性状的数据。这些性状本身不能以
数字来表示,要获得这类性状的数量资料,一般可
以采用分级法和统计次数法进行数量化。所获得的
质量性状的数据类似间断性变数。
二, 次数分布表
不论连续性变数还是间断性变数,它们的出现都是有着
一定的数量范围的。如果我们将其可能出现的整个范围化分
成若干个互斥的组区间,再统计出现在各个组区间内的变量
个数(次数),则可以发现,表面上杂乱无章的变数,都是
有着一定的分布规律的。这种由不同区间内变量出现的次数
组成的分布,就叫做变数的次数分布,简称次数分布。
次数分布表的制作步骤,
1.整列,即排依次表,将所取得的数据由小到大排列。
2.求极差 R,R= xmax-xmin
3.确定组数和组距,组数是指准备将变数出现的整个数
量范围分成多少个组区间 。 组距是指每个组区间的高限和低
限的差值, 即组区间的极差, 记作 i。
i =极差 /分组数
4.确定组限和组中值,组限是指各个组的上、下限,
反映各组的的变异范围。组中值是各组的上限(数值大
者)与下限之和除以 2所得,即组中值 =(上限 +下限) /2,
每组组中值是该组的代表数值。
当组距确定之后,只要选定第一组的组中值,确定
第一组的组限以后,其余各组的组中值和组限便可依次
确定。一般以变数的最小变量或接近最小变量的数值作
为第一组的组中值为好。
5,归组,按依次表将各变量归入各个组内,并统计
各组变量出现的次数。
三、频率分布和累积频率分布
变量在各个组区间内出现的频率所构成的分布叫
频率分布。累积频率系小于某一指定值的变量出现的
频率,它可由各组的频率的依次逐个累加得出。累积
频率所构成的分布则叫做累积频率分布,或简称累积
分布。
频率分布图的形状和次数分布图一样,只是其纵
坐标为频率值,且方柱或折线所围成的总面积为 1而不
是 n。累积频率分布图则不同于频率分布图,它在每一
指定值上的高度相当于频率分布图上小于该指定值的
各频率值之和。累积分布如呈, S”形的,其原始分布
基本上都是有一中心而左右对称的,这种分布的理论
模式叫正态分布。
第三节 变数分布的特征数
由次数分布可以看到 任何一个变数的分布具有两种
明显的基本特征, 即集中性和离散性 。 集中性是变数
在趋势上有着向某一中心聚集, 或者说以某一数值为
中心而分布的性质 。 离散性是变数又有着离中的分散
变异的性质 。 为了反映变数分布的这两种基本性质,
显然必须算出它们的特征数 。 反映集中性的特征数是
平均数, 反映离散性的特征数为变异数 。
一, 平均数
( 一 ), 平均数的种类
1.算术平均数
N
x???
第一节 生物统计学中的几个基本概念
一、总体与样本
总体( population)是指在同一组条件下,由具有某种
共同性质的大量个体所组成的集团,或者说是某一变数的
全部可能值的集合。样本( sample)是指从总体中抽出的
一部分个体。
二、参数与统计数
描述总体的特征数叫参数 ( parameter), 它是总体的
真正数值, 是固定的常量, 是由总体的全部变量计算而得
到的, 显然参数通常是无法得到的 。 描述样本的特征数叫
统计数 ( statistic), 它是由样本的观察值计算而得到的, 。
是参数相应的估计数,统计数是变化的,它会随样本的
不同而不同
三、变数与变量
变数( variable)是指在同一组试验条件下所获得的某种性状或
特性的一组有变化的数据。变数中的每一个具体数值叫变量( variate)
或叫观察值( observed value)。
第二节 变数的次数分布
一,试验数据的性质
( 一 ), 数量性状的数据
1、连续性变数 ( continuous variable):指由称量、
度量或测量、分析化验等方法所得到的数据。其各个变
量并不仅限于整数,在两个相邻数值之间可以有微量差
异的其他数值存在。
2、间断性变数 ( discrete variable):也叫非连续性
变数。是指由计数方法所获得的数据,其各个变量
必须以整数表示,在两个相邻的整数间不能有带小
数的数值存在。
( 二 ), 质量性状的数据
由只能观察描述或感觉而难以量测的性状获得的
数量资料为质量性状的数据。这些性状本身不能以
数字来表示,要获得这类性状的数量资料,一般可
以采用分级法和统计次数法进行数量化。所获得的
质量性状的数据类似间断性变数。
二, 次数分布表
不论连续性变数还是间断性变数,它们的出现都是有着
一定的数量范围的。如果我们将其可能出现的整个范围化分
成若干个互斥的组区间,再统计出现在各个组区间内的变量
个数(次数),则可以发现,表面上杂乱无章的变数,都是
有着一定的分布规律的。这种由不同区间内变量出现的次数
组成的分布,就叫做变数的次数分布,简称次数分布。
次数分布表的制作步骤,
1.整列,即排依次表,将所取得的数据由小到大排列。
2.求极差 R,R= xmax-xmin
3.确定组数和组距,组数是指准备将变数出现的整个数
量范围分成多少个组区间 。 组距是指每个组区间的高限和低
限的差值, 即组区间的极差, 记作 i。
i =极差 /分组数
4.确定组限和组中值,组限是指各个组的上、下限,
反映各组的的变异范围。组中值是各组的上限(数值大
者)与下限之和除以 2所得,即组中值 =(上限 +下限) /2,
每组组中值是该组的代表数值。
当组距确定之后,只要选定第一组的组中值,确定
第一组的组限以后,其余各组的组中值和组限便可依次
确定。一般以变数的最小变量或接近最小变量的数值作
为第一组的组中值为好。
5,归组,按依次表将各变量归入各个组内,并统计
各组变量出现的次数。
三、频率分布和累积频率分布
变量在各个组区间内出现的频率所构成的分布叫
频率分布。累积频率系小于某一指定值的变量出现的
频率,它可由各组的频率的依次逐个累加得出。累积
频率所构成的分布则叫做累积频率分布,或简称累积
分布。
频率分布图的形状和次数分布图一样,只是其纵
坐标为频率值,且方柱或折线所围成的总面积为 1而不
是 n。累积频率分布图则不同于频率分布图,它在每一
指定值上的高度相当于频率分布图上小于该指定值的
各频率值之和。累积分布如呈, S”形的,其原始分布
基本上都是有一中心而左右对称的,这种分布的理论
模式叫正态分布。
第三节 变数分布的特征数
由次数分布可以看到 任何一个变数的分布具有两种
明显的基本特征, 即集中性和离散性 。 集中性是变数
在趋势上有着向某一中心聚集, 或者说以某一数值为
中心而分布的性质 。 离散性是变数又有着离中的分散
变异的性质 。 为了反映变数分布的这两种基本性质,
显然必须算出它们的特征数 。 反映集中性的特征数是
平均数, 反映离散性的特征数为变异数 。
一, 平均数
( 一 ), 平均数的种类
1.算术平均数
N
x???