第三章 平均数、标准差与变异系数第一节 平均数下一张 主 页 退 出上一张平均数是统计学中最常用的统计量,用来表明资料中各观测值相对集中较多的中心位置。平均数主要包括有:
算术平均数 ( arithmetic mean)
中位数 ( median)
众数 ( mode)
几何平均数 ( geometric mean)
调和平均数 ( harmonic mean)
下一张 主 页 退 出上一张一、算术平均数算术平均数 是指资料中各观测值的总和除以观测值个数所得的商,简称 平均数或均数,
记为。
算术平均数可根据样本大小及分组情况而采用直接法或加权法计算。
(一 )直接法主要用于样本含量 n≤30以下、未经分组资料平均数的计算。
下一张 主 页 退 出上一张设某一资料包含 n个观测值,x1,x2,…,xn,
则样本平均数可通过下式计算:
( 3-1)
其中,Σ为总和符号; 表示从第一个观测值 x1累加到第 n个观测值 xn。当 在意义上已明确时,可简写为 Σx,( 3-1)式可改写为:
n
x
n
xxx
x
n
i
i
n

121?
n
i
ix
1
n
xx
下一张 主 页 退 出上一张
【 例 3.1】 某种公牛站测得 10头成年公牛的体重分别为 500,520,535,560,585,600、
480,510,505,490( kg),求其平均数。
由于 Σx=500+520+535+560+58
+600+480+510+505+49
=5285,
n=10
下一张 主 页 退 出上一张得:
即 10头种公牛平均体重为 528.5 kg。
(二)加权法对于样本含量 n≥30 以上且已分组的资料,可以在次数分布表的基础上采用加权法计算平均数,计算公式为:
( 3-2)
.5 ( k g )5 2 8105 2 8 5∑ n xx



f
fx
f
xf
fff
xfxfxf
x
k
i
i
k
i
ii
k
kk
1
1
21
2211
下一张 主 页 退 出上一张式中,—第 i组的组中值;
—第 i组的次数;
—分组数第 i组的次数 fi是权衡第 i组组中值 xi在资料中所占比重大小的数量,因此将 fi 称为是 xi的
,权,,加权法也由此而得名。
【 例 3.2】 将 100头长白母猪的仔猪一月窝重(单位,kg)资料整理成次数分布表如下,求其加权数平均数。
ix
if
k
下一张 主 页 退 出上一张表 3—1 100头长白母猪仔猪一月窝重次数分布表下一张 主 页 退 出上一张利用( 3—2)式得:
即这 100头长白母猪仔猪一月龄平均窝重为 45.2kg。
计算若干个来自同一总体的样本平均数的平均数时,如果样本含量不等,也应采用加权法计算。
)(2.45
1 0 0
4 5 2 0 kg
f
fx
x
下一张 主 页 退 出上一张
【 例 3.3】 某牛群有黑白花奶牛 1500
头,其平均体重为 750 kg,而另一牛群有黑白花奶牛 1200头,平均体重为 725 kg,如果将这两个牛群混合在一起,其混合后平均体重为多少?
此例两个牛群所包含的牛的头数不等,要计算两个牛群混合后的平均体重,应以两个牛群牛的头数为权,求两个牛群平均体重的加权平均数,即下一张 主 页 退 出上一张即两个牛群混合后平均体重为 738.89 kg。
(三)平均数的基本性质
1、样本各观测值与平均数之差的和为零,
即 离均差之和等于零 。
或简写成
)(89.738
2 7 0 0
1 2 0 07251 5 0 0750 kg
f
fx
x
0)(
1

xx
n
i
i?
0)( xx
下一张 主 页 退 出上一张
2、样本各观测值与平均数之差的平方和为最小,
即 离均差平方和为最小 。
(xi- )2 < (xi- a)2 (常数 a≠ )
或简写为,<
对于总体而言,通常用 μ表示总体平均数,有限总体的平均数为:
( 3-3)
n
i 1
x?
n
i 1
2)( xx 2)(?x
Nx
N
i
i?
1
下一张 主 页 退 出上一张
x
式中,N表示总体所包含的个体数。
当一个统计量的数学期望等于所估计的总体参数时,则称此统计量为该总体参数的 无偏估计量 。
统计学中常用样本平均数( )作为总体平均数( μ)的估计量,并已证明样本平均数是总体平均数 μ的无偏估计量。
x
下一张 主 页 退 出上一张二、中位数将资料内所有观测值从小到大依次排列,位于中间的那个观测值,称为中位数,记为 Md。
当观测值的个数是偶数时,则以中间两个观测值的平均数作为中位数。当所获得的数据资料呈偏态分布时,中位数的代表性优于算术平均数。
中位数的计算方法因资料是否分组而有所不同。
下一张 主 页 退 出上一张
(一)未分组资料中位数的计算方法对于未分组资料,先将各观测值由小到大依次排列。
下一张 主 页 退 出上一张
1、当观测值个数 n为奇数时,(n+1)/2
位置的观测值,即 x(n+1)/2为中位数:
Md=
2,当观测值个数为 偶 数 时,n/2和
( n/2+1)位置的两个观测值之和的 1/2为中位数,即:
( 3-4)
2/)1(?nx
2
)12/(2/ nn
d
xx
M
下一张 主 页 退 出上一张
【 例 3.4】 观察得 9只西农莎能奶山羊的妊娠天数为 144,145,147,149、
150,151,153,156,157,求其中位数。
此例 n=9,为奇数,则:
Md= =150(天)
即西农莎能奶山羊妊娠天数的中位数为
150天。
52/)19(2/)1( xxx n
下一张 主 页 退 出上一张
【 例 3.5】 某犬场发生犬瘟热,观察得 10只仔犬发现症状到死亡分别为 7,8,8,9,11,12、
12,13,14,14天,求其中位数。
此例 n=10,为偶数,则:
(天 )
即 10只仔犬从发现症状到死亡天数的中位数为
11.5天。
(二)已分组资料中位数的计算方法
5.112 121122 65)12/(2/ xxxxM nnd
下一张 主 页 退 出上一张若资料已分组,编制成次数分布表,则可利用次数分布表来计算中位数,其计算公式为:
( 3—5)
式中,L — 中位数所在组的下限;
i — 组距;
f — 中位数所在组的次数;
n — 总次数;
c — 小于中数所在组的累加次数。
)
2
( cn
f
iLM
d
下一张 主 页 退 出上一张
【 例 3.6】 某奶牛场 68头健康母牛从分娩到第一次发情间隔时间 整理成次数分布表如表 3—2
所示,求中位数。
表 3—2 68头母牛从分娩到第一次发情间隔时间次数分布表下一张 主 页 退 出上一张由表 3—2可见,i=15,n=68,因而中位数只能在累加头数为 36所对应的,57—
71”这一组,于是可确定 L=57,f=20,
c=16,代入公式( 3—5)得:
(天 )
即奶牛头胎分娩到第一次发情间隔时间的中位数为 70.5天。
5.70)16268(201557)2( cnfiLM d
下一张 主 页 退 出上一张三、几何平均数
n 个观测值相乘之积开 n 次方所得的方根,称为 几何平均数,记为 G。它主要应用于畜牧业、水产业的生产动态分析,畜禽疾病及药物效价的统计分析 。 如畜禽,水产养殖的增长率,抗体的滴度,药物的效价,畜禽疾病的潜伏期等,用几何平均数比用算术平均数更能代表其平均水平。其计算公式如下:
(3-6) nnn n xxxxxxxxG 1)( 321321
下一张 主 页 退 出上一张为了计算方便,可将各观测值取对数后相加除以 n,得 lgG,再求 lgG的反对数,即得 G
值,即
(3-7)
【 例 3.7】 某波尔山羊群 1997—2000
年各年度的存栏数见表 3—3,试求其年平均增长率。
)]lglg(l g1[lg 211 nxxx
n
G
下一张 主 页 退 出上一张表 3—3 某波尔山羊群各年度存栏数与增长率下一张 主 页 退 出上一张利用( 3—7)式求年平均增长率
G=
=lg-1[( -0.368-0.398–0.602) ]
=lg-1( -0.456) =0.3501
即年平均增长率为 0.3501或 35.01%。
)]lglg(l g1[lg 211 nxxxn
下一张 主 页 退 出上一张四、众 数资料 中出现次数最多的那个观测值或次数最多一组的组中值,称为众数,记为 M0。
如表 2-3 所列 的 50枚受精种蛋出雏天数次数分布中,以 22出现的次数最多,则该资料的众数为
22天。
又如 【 例 3.6】 所 列 出 的 次数分布表中,
57—71这一组次数最多,其组中值为 64天,则该资料的众数为 64天。
下一张 主 页 退 出上一张五、调和平均数资料中各观测值倒数的 算术平均数 的倒数,称为调和平均数,记为 H,即
( 3—8)
调和平均数主要用于反映畜群不同阶段的平均增长率或畜群不同规模的平均规模。
xnxxxn nH 111111
1
)(
1
21
下一张 主 页 退 出上一张
【 例 3.8】 某保种牛群不同世代牛群保种的规模分别为,0世代 200头,1世代 220头,2世代 210
头; 3世代 190头,4世代 210头,试求其平均规模。
利用( 3—9)式求平均规模:
(头 )
即保种群平均规模为 208.33头。
33.208
0048.0
1
)024.0(
1
)(
1
5
1
210
1
190
1
210
1
220
1
200
1
5
1H
下一张 主 页 退 出上一张对于同一资料:
算术平均数 >几何平均数 >调和平均数上述五种平均数,最常用的是算术平均数。
第二节 标准差一、标准差的意义用平均数作为样本的代表,其代表性的强弱受样本资料中各观测值变异程度的影响。仅用平均数对一个资料的特征作统计描述是不全面的,还需引入一个表示资料中观测值变异程度大小的统计量。
下一张 主 页 退 出上一张全距(极差) 是表示资料中各观测值变异程度大小最简便的统计量。但是全距只利用了资料中的最大值和最小值,并不能准确表达资料中各观测值的变异程度,
比较粗略。当资料很多而又要迅速对资料的变异程度作出判断时,可以利用全距这个统计量。
下一张 主 页 退 出上一张为 了 准 确 地 表示样本内各个观测值的变异程度,人们 首 先会考虑到以平均数为标准,
求出各个观测值与平均数的离差,( ),
称为 离均差 。
虽然离均差能表示一个观测值偏离平均数的性质和程度,但因为离均差有正、有负,离均差之和 为零,即( ) = 0,因 而 不 能用离均差之和 Σ( )来 表 示 资料中所有观测值的总偏离程度。
xx?
xx?
xx?
下一张 主 页 退 出上一张为了解决离均差有正,有负,离均差之和为零的问 题,可先求 离 均 差的绝对 值 并 将 各 离 均 差 绝对 值 之 和 除以 观 测 值 个 数 n 求 得 平 均 绝 对 离差,即 Σ| |/n。虽然平均绝对离差可以表示资料中各观测值的变异程度,但由于平均绝对离差包含绝对值符号,使用很不方便,在统计学中未被采用。
xx?
我们还可以采用将离均差平方的办法来解决离均差有正、有负,离均差之和为零的问题。
先将各 个离 均差平方,即 ( )2,再求 离均差平方和,即,简称 平方和,
记为 SS; 由 于 离差平方和 常 随 样 本 大 小而 改 变,为 了 消 除 样 本大小 的 影 响,
用平方和 除 以 样 本 大 小,即,求出离均差平方和的平均数 ;
xx?
2)( xx
下一张 主 页 退 出上一张
nxx /)( 2
为了使所得的统计量是相应总体参数的无 偏估计量,统计学证明,在求离均差平方和的平均数时,分母不用样本含量 n,而用自由度 n-1,
于是,我们 采 用统计量 表示资料的变异程度。
统计量 称 为 均 方
( mean square缩写为 MS),又称 样本方差,
记为 S2,即
S2= ( 3—9)
1/)( 2 nxx
1/)( 2 nxx
下一张 主 页 退 出上一张
1/)( 2 nxx
相应的总体参数叫 总体方差,记为 σ2。对于有限总体而言,σ2的计算公式为:
( 3—10)
Nxx /)( 22
由于 样本方差 带有原观测单位的平方单位,在仅表示一个资料中各观测值的变异程度而不作其它分析时,常需要与平均数配合使用,这 时应 将平方单位还原,即应求出样本方差的平方根。
统计学上把样本方差 S2 的平方根叫做 样本标准 差,记为 S,即:
( 3-11)
1
)( 2

n
xx
S
下一张 主 页 退 出上一张由于所以( 3-11)式可改写为:
( 3-12)
)2()( 222 xxxxxx
22 2 xnxxx
2
2
2 )()(2
n
xn
n
xx
n
xx 22 )(
1
2)(
2

n
x
S n
x
下一张 主 页 退 出上一张相应的总体参数叫 总体标准差,记为 σ。对于有限总体而言,σ的计算公式为:
( 3-13)
在统计学中,常用样本标准差 S估计总体标准差 σ。
Nx /)( 2
下一张 主 页 退 出上一张二、标准差的计算方法
(一)直接法对于未分组或小样本资料,可直接利用( 3—11)或( 3-12)式来计算标准差。
【 例 3.9】 计算 10只辽宁绒山羊产绒量:
450,450,500,500,500,550,
550,550,600,600,650( g)的标准差。
此例 n=10,经计算得,Σx=5400,
Σx2=2955000,代入( 3—12)式得:
(g)
即 10只辽宁绒山羊产绒量的 标准差 为
65.828g。
828.65110 10/54002 9 5 5 0 0 01 /)(
222
n nxxS
下一张 主 页 退 出上一张
(二)加权法对于已制成次数分布表的大样本资料,可利用次数分布表,采用加权法计算标准差。计算公式为:
( 3—14)
式中,f为各组次数; x为各组的组中值;
Σf = n为总次数。

1
/)(
1
)( 222
f
ffxfx
f
xxf
S
下一张 主 页 退 出上一张
【 例 3.10】 利用某纯系蛋鸡 200枚蛋重资料的次数分布表(见表 3-4)计算标准差。
将表 3-4中的 Σf,Σfx,代入( 3—
14)式得:
(g )
即某 纯 系 蛋 鸡 200枚 蛋 重的标准差为
3.5524g。
5524.3
1200
200/1.1 0 7 0 511.5 7 5 5 0 7
1
/)(
222

f
ffxfx
S
下一张 主 页 退 出上一张表 3—4 某纯系蛋鸡 200枚蛋重资料次数分布及标准差计算表下一张 主 页 退 出上一张三、标准差的特性
(一) 标准差的大小,受资料中每个观测值的影响,如观测值间变异大,求得的标准差也大,反之则小。
(二) 在计算标准差时,在各观测值加上或减去一个常数,其数值不变。
(三) 当每个观测值乘以或除以一个常数 a,则所得的标准差是原来标准差的 a倍或 1/a倍。
下一张 主 页 退 出上一张
(四) 在资料服从正态分布的条件下,资料中约有 68.26%的观测值在平均数左右一倍标准差( ± S)范围内;约有 95.43%
的观测值在平均数左右两倍标准差( ± 2S)
范围内;约有 99.73%的观测值在平均数左右三倍标准差( ± 3S) 范 围内。也就是说全距近似地等于 6倍标准差,可用(全距 /6)
来粗略估计标准差。
x
x
x
下一张 主 页 退 出上一张第三节 变异系数变异系数是衡量资料中各观测值变异程度的另一个统计量 。
标 准差与平均数的比值称为 变异系数,记为 C·V。
变异系数可以消除单位 和 (或)平均数不同对两个或多个资料变异程度比较的影响。
下一张 主 页 退 出上一张变异系数的计算公式为:
( 3—15)
【 例 3.11】 已知某良种猪场长白成年母猪平均体重为 190kg,标准差为 10.5kg,
而大约克成年母猪平均体重为 196kg,标准差为 8.5kg,试问两个品种的成年母猪,那一个体重变异程度大。
%1 0 0
x
SVC
下一张 主 页 退 出上一张由于,长白成年母猪体重的变异系数:
大约克成年母猪体重的变异系数:
所以,长白成年母猪体重的变异程度大于大约克成年母猪。
%53.5%100
190
5.10VC
%34.4%1 0 0
1 9 6
5.8VC
下一张 主 页 退 出上一张注意,变异系数的大小,同时受平均数和标准差两个统计量的影响,
因而在利用变异系数表示资料的变异程度时,最好将平均数和标准差也列出。
下一张 主 页 退 出上一张