第十一讲 第三章 误差和分析数据和得理 11-1
3-4 有限测定数据的统计处理
一, 置信度与 μ的置信区间
日常分析中测定次数是很有限的, 总体平均值
自然不为人所知 。 但是随机误差的分布规律表明,
测定值总是在以 μ为中心的一定范围内波动, 并有
着向 μ集中的趋势 。 因此, 如何根据有限的测定结
果来估计 μ可能存在的范围 ( 称之为置信区间 ) 是
有实际意义的 。 该范围愈小, 说明测定值与 μ愈接
近, 即测定的准确度愈高 。 但由于测定次数毕竟较
少, 由此计算出的置信区间也不可能以百分之百的
把握将 μ包含在内, 只能以一定的概率进行判断 。
第十一讲 第三章 误差和分析数据和得理 11-2
(一) 已知总体标准偏差 σ时
对于经常进行测定的某种试样, 由于已经积累
了大量的测定数据, 可以认为 σ是已知的 。 根据
( 3-14) 式并考虑 u的符号可得,
( 3-14a)
由随机误差的区间概率可知, 测定值出现的概
率由 u决定 。 例如, 当 u=± 1.96时 。 x在 μ-1.96σ至
μ+1.96σ区间出现的概率为 0.95。 如果希望用单次测
定值 x来估计 μ可能存在的范围, 则可以认为区间
x± 1.96σ能以 0.95的概率将真值包含在内 。 即有
( 3-14b)
?? ux ??
?? ux ??
第十一讲 第三章 误差和分析数据和得理 11-3
由于平均值较单次测定值的精密度更高,因此
常用样本平均值来估计真值所在的范围。此时有
式( 3-14b)和式( 3-17)分别表示在一定的
置信度时,以单次测定值 x或以平均值为中心的包
含真值的取值范围,即 μ的置信区间。在置信区间
内包含 μ的概率称为置信度,它表明了人们对所作
的判断有把握的程度,用 P表示。 u值可由表 3-1中
查到,它与一定的置信度相对应。
(3-17)
nuxux x ??? ????
第十一讲 第三章 误差和分析数据和得理 11-4
在对真值进行区间估计时, 置信度的高低要定
得恰当 。 一般以 95%或 90%的把握即可 。
式 ( 3-14b) 和式 ( 3-17) 还可以看出置信区间
的大小取决于测定的精密度和对置信度的选择, 对
于平均值来说还与测定的次数有关 。 当 σ一定时,
置信度定得愈大, ∣ u∣ 值愈大, 过大的置信区间
将使其失去实用意义 。 若将置信度固定, 当测定的
精密度越高和测定次数越多时, 置信区间越小, 表
明 x或 越接近真值, 即测定的准确度越高 。
例题 1,
x
第十一讲 第三章 误差和分析数据和得理 11-5
注意,μ是确定且客观存在的,它没有随机性。
而区间 x± uσ或 是具有随机性的,即它们均
与一定的置信度相联系。因此我们只能说置信区间包
含真值的概率是 0.95,而不能认为真值落在上述区间
的概率是 0.95。
( 二 ) 已知样本标准偏差 S时
在实际工作中,通过有限次的测定是无法得知 μ
和 σ的,只能求出 和 S。而且当测定次数较少时,测
定值或随机误差也不呈正态分布,这就给少量测定数
据的统计处理带来了困难。此时若用 S代替 σ从而对 μ
作出估计必然会引起偏离,而且测定次数越少,偏离
就越大。如果采用另一新统计量 tP,f取代 u(仅与 P有关 ),
上述偏离即可得到修正。
x
x
xux ??
第十一讲 第三章 误差和分析数据和得理 11-5
t分布法,t值的定义,
(3-18)
t分布是有限测定数据及其随机误差的分布规
律 。 t分布曲线见图 3-6,其中纵坐标仍然表示概率
密度值, 横坐标则用统计量 t值来表示 。 显然, 在
置信度相同时, t分布曲线的形状随 f( f=n-1) 而变
化, 反映了 t分布与测定次数有关有实质 。 由图 3-6
可知, 随着测定次数增多, t分布曲线愈来愈陡峭,
测定值的集中趋势亦更加明显 。 当 f→∞ 时, t分布
曲线就与正态分布曲线合为一体, 因此可以认为正
态分布就是 t的极限 。
s
xt
fP
???
,
第十一讲 第三章 误差和分析数据和得理 11-7
图 3-6 t分布曲线
第十一讲 第三章 误差和分析数据和得理 11-8
与正态分布曲线一样,t分布
曲线下面某区间的面积也表示随机
误差在此区间的概率。但 t值与标
准正态分布中的 u值不同,它不仅
与概率还与测定次数有关。不同置
信度和自由度所对应的 t值见表 3-2
中。
第十一讲 第三章 误差和分析数据和得理 11-9
表 3-2 tP,f值表(双边)
t 值 P 90% 95% 99% 99.5%
f(n-1)
1 6.31 12.71 63.66 127.32
2 2.92 4.30 9.92 14.98
3 2.35 3.18 5.84 7.45
4 2.13 2.78 4.60 5.60
5 2.02 2.57 4.03 4.77
6 1.94 2.45 3.71 4.32
7 1.90 2.36 3.50 4.03
8 1.86 2.31 3.35 3.83
9 1.83 2.26 3.25 3.69
10 1.81 2.23 3.17 3.58
20 1.72 2.09 2.84 3.15
30 1.70 2.04 2.75 (3.01)
60 1.67 2.00 2.66 (2.87)
120 1.66 1.98 2.62 2.81
∞ 1.64 1.96 2.58 2.81
第十一讲 第三章 误差和分析数据和得理 11-10
由表 3-2中的数据可知, 随着自由度的增加, t
值逐渐减小并与 u值接近 。 当 f=20时, t与 u已经比
较接近 。 当 f→∞ 时, t→u, S→σ 。 在引用 t值时,
一般取 0.95置信度 。
根据样本的单次测定值 x或平均值分别表示 μ的
置信区间时, 根据 t分布则可以得出以下的关系,
( 3-18a)

( 3-19)
stx fP,???
n
s
txstx fP
xfP,,
?????
第十一讲 第三章 误差和分析数据和得理 11-11
式 ( 3-18a) 和式 ( 3-19) 的意义在于, 真值
虽然不为所知 ( σ也未知 ), 但可以期望由有限的
测定值计算出一个范围, 它将以一定的置信度将真
值包含在内 。 该范围越小, 测定的准确度越高 。 例
题 2:式 ( 3-19) 是计算置信区间通常使用的关系
式 。 由该式可知, 当 P一定时, 置信区间的大小与
tP,f,S,n均有关, 而且 tP,f与 S实际也都受 n的影响,
即 n值越大, 置信区间越小 。 例 3,
二, 可疑测定值的取舍
平行测定的数据中, 有时会出现一二个与其结
果相关较大的测定值, 称为可疑值或异常值 。 对于
为数不多的测定数据, 可疑值的取舍往往对平均值
和精密度造成相当显著的影响 。
第十一讲 第三章 误差和分析数据和得理 11-12
对可疑值的取舍实质是区分可疑值与其它测定
值之间的差异到底是由过失、还是随机误差引起的。
如果已经确证测定中发生过失,则无论此数据是否
异常,一概都应舍去;而在原因不明的情况下,就
必须按照一定的统计方法进行检验,然后再作出判
断。根据随机误差分布规律,在为数不多的测定值
中,出现大偏差的概率是极小的,因此通常就认为
这样的可疑值是由过失所引起的,而应将其舍去,
否则就予以保留。
( 一 ) Q检验法
将测定值由小至大按顺序排列, 其中可疑值为
x1或 xn。
第十一讲 第三章 误差和分析数据和得理 11-13
求出可疑值与其最邻近值之差 xn-xn-1或 x2-x1,然
后用它除以极差 xn-x1,计算出统计量 Q,
或 ( 3-20)
Q值越大, 说明离群越远, 远至一定程度时则应将
其舍去 。 故 Q称为舍弃商 。
根据测定次数 n和所要求的置信度 P查 QP,n值表 3-
3。 若 Q>QP,n,则以一定的置信度弃去可疑值, 反之
则保留, 分析化学中通常取 0.90的置信度 。
1
1
xx
xx
Q
n
nn
?
?
? ?
1
12
xx
xx
Q
n ?
?
?
第十一讲 第三章 误差和分析数据和得理 11-14
表 3-3 QP,n值表
n
P 3 4 5 6 7 8 9 10
Q0.9 0.94 0.76 0.64 0.56 0.51 0.47 0.44 0.41
Q0.95 0.97 0.84 0.73 0.64 0.59 0.54 0.51 0.49
如果测定数据较少, 测定的精密度也不高, 因
Q与 QP,n值接近而对可疑值的取舍难以判断时, 最
好补测 1-2次再进行检验就更有把握 。
如果没有条件再做测定, 则宜用中位数代替平
均值报告结果 。 因是否取舍可疑值对平均值的影响
较大, 对中位值的影响较小 。
第十一讲 第三章 误差和分析数据和得理 11-14
( 二 ) 格鲁布斯法
将测定值由小至大按顺序排列, 其中可疑值为
x1或 xn。 先计算该组数据的平均值和标准偏差, 再
计算统计量 G。
若 x1可疑, ( 3-21)
若 xn可疑, ( 3-21a)
s
xx
G 1
?
?
s
xx
G n
?
?
第十一讲 第三章 误差和分析数据和得理 11-16
根据事先确定的置信度和测定次数查表
3-4。 若 G>GP,n,说明可疑值对相对平均值的
偏离较大, 则以一定的置信度弃去可疑值,
反之则保留 。
在运用格鲁布斯法判断可疑值的取舍时
,由于引入了 t分布中最基本的两个参数己
和 s,故该方法的准确度较 Q法高,因此得到
普遍采用。
x
第十一讲 第三章 误差和分析数据和得理 11-17
表 3-4 GP,n值表
测定次数 置信度 ( P) 测定次数 置信度 ( P)
n 95% 99% n 95% 99%
3 1.15 1.15 12 2.29 2.55
4 1.46 1.49 13 2.33 2.61
5 1.67 1.75 14 2.37 2.66
6 1.82 1.94 15 2.41 2.71
7 1.94 2.10 16 2.44 2.75
8 2.03 2.22 17 2.47 2.79
9 2.11 2.32 18 2.50 2.82
10 2.18 2.41 19 2.53 2.85
11 2.23 2.48 20 2.56 2.88
第十一讲 第三章 误差和分析数据和得理 11-18
三, 显著性检验
用统计的方法检验测定值之间是否存在显著
性差异, 以此推断它们之间是否存在系统误差,
从而判断测定结果或分析方法的可靠性, 这一过
程称为显著性检验 。 定量分析中常用的有 t检验法
和 F检验法 。
( 一 ) 样本平均值与真值的比较 ( t检验法 )
t检验法用来检验样本平均值或两组数据的平
均值之间是否存在显著性差异, 从而对分析方法
的准确度作出评价 。
第十一讲 第三章 误差和分析数据和得理 11-19
当检验一种分析方法的准确度时, 采用该方法
对某标准试样进行数次测定, 再将样本平均值与标
准值 T进行比较 。 则置信区间的定义可知, 经过 n次
测定后, 如果以平均值为中心的某区间已经按指定
的置信度将真值 T包含在内, 那么它们之间就不存
在显著性差异, 根据 t分布, 这种差异是仅由随机
误差引起的 。 t可由下式计算,
(3-22a)
若 t>tP,f,说明与 T之差已超出随机误差的界限,
就可以按照相应的置信度判断它们之间存在显著性
差异 。
xs
Tx
t
?
?
第十一讲 第三章 误差和分析数据和得理 11-20
进行显著性检验时, 如置信度定得过低, 则容
易将随机误差引起的差异判断为显著性差异, 如置
信度定得过高, 又可能将系统误差引起的不一致认
同为正常差异, 从而得出不合理的结论 。 在定量分
析中, 常采用 0.95或 0.90的置信度 。
(二 ) 两组数据平均值之间的比较 ( F检验法和 t检
验法 ) ( 自学 )
在显著性检验中, 将具有显著性差异的测定值
在随机误差分布中出现的概率称为显著性水平, 用 α
表示, 即这些测定值位于一定置信度所对应的随机
误差界限之外 。 如置信度 P=0.95,则显著水平 α=0.05,
即 α=1-P。
第十一讲 第三章 误差和分析数据和得理 11-21
例 1,用标准方法平行测定钢样中磷的质量分数
4次, 其平均值为 0.087%。 设系统误差已经消除, 且
σ =0.002%。 ( 1) 计算平均值的标准偏差; ( 2) 求
该钢样中磷含量的置信区间 。 置信度为 P=0.95。
解, ( 1)
( 2) 已知 P=0.95时, u=± 1.96。 根据
%0 0 1.04 %0 0 2.0 ??? nx ??
%002.0%087.0
%001.096.1%087.0
??
?????
x
ux ??
第十一讲 第三章 误差和分析数据和得理 11-22
例 2,标定 HCl溶液的浓度时, 先标定 3次, 结果
为 0.2001mol/L,0.2005mol/L和 0.2009mol/L;后来又
标定 2次, 数据为 0.2004mol/L和 0.2006mol/L。 试分
别计算 3次和 5次标定结果计算总体平均值 μ的置信区
间, P=0.95。
解:标定 3次时,
标定 5次时,
故查表,30.4
,/0 00 4.0,/2 00 5.0
2,95.0 ?
??
t
Lm olsLm olx
0010.02005.03 0004.030.42005.0,??????? nstx fP?
故查表,78.2
,/0 00 3.0,/2 00 5.0
4,95.0 ?
??
t
Lm olsLm olx
0 0 0 4.02 0 0 5.05 0 0 0 3.078.22 0 0 5.0,??????? nstx fP?
第十一讲 第三章 误差和分析数据和得理 11-23
例 3,测定某试样中 SiO2质量分数得 s=0.05%。
若测定的精密度保持不变, 当 P=0.95时, 欲使置信区
间的置信限, 问至少应对试样平行测定
多少次?
解:根据式 ( 3-19) 和题设得,
已知 s=0.05%,故,
查表 3-2得知, 当 f=n-1=5时, t0.95,5=2.57,此时
。 即至少应平行测定 6次, 才能满足
题中的要求 。
%05.0,??xfPt
%05.0,????? nstx fP?
1
05.0
05.0
??
n
t
16/57.2 ?