8-1 数据的特征及分布一、数理统计的某些基本概念
1、总体与样本总体:被研究对象某特性值的全体。
个体:组成总体的每个单元。
样本(子样):自总体中随机抽取的一部分个体。
样本容量:样本中所包含个体的数目,用n表示。
2、随机变量来自同一总体的无限多个测量值都是随机出现的,
叫随机变量。
多次重复测定的结果不能相同,也不能事先知道。
测量值一经取定就是一个常量,不再有随机性。
第八章分析实验数据处理二、随机变量的频数分布
〈例〉学生测定BaCl
2
·2H
2
O试剂中Ba含量
(%),共有190个数据,区间为55.48%-
56.46%。将这些数据按组距0.1来分成10组。
频数:每组中数据的个数相对频数:频数在总测定次数中所占的分数以各组区间为底相对频数为高做成一排矩形的相对频数分布直方图其特点:
1,离散特性:测定值在平均值周围波动,
波动的程度用总体标准偏差表示
n
x
n
i
i∑
=
=
1
2
)( μ
σ
2,集中趋势:向平均值集中

=
∞→
=
n
i
i
n
x
n
1
1
limμ总体平均值总体标准偏差在确认消除系统误差的前提下,总体平均值就是真值。
三、随机变量的正态分布当数据无限多,组分的很细时,上述直方图则变成一条圆滑的曲线,称为正态分布。其数学表达式称为正态分布密度函数
2
2
2
)(
e
π2
1
)(
σ
μ
σ
=
x
xf
其两个重要参数为μ、σ,记为
N(μ、σ
2
),μ决定曲线在x轴的位置,σ
决定曲线的形状
σ小→曲线高、陡峭、
精密度好;
σ大→曲线低、平坦、
精密度差。
随机误差符合正态分布
1.大误差出现的几率小,小误差出现的几率大。
2.绝对值相等的正负误差出现的几率相等。
3.误差为零的测量值出现的几率最大。
所有测量值出现的概率总和应为1,即
1de
π2
1
),(
2
2
2
)(
==∞?∞

∞?

xP
x
σ
μ
σ
求变量在某区间出现的概率,即对该区间求积分
xbaP
x
b
a
de
π2
1
),(
2
2
2
)(
σ
μ
σ

=
对于不同的μ、σ有不同的曲线,积分比较麻烦,为简化做数学上的变量转换,令
σ
μ?
=
x
u
将上式两端微分得σ du=dx
uufuxxf
u
d)(de
π2
1
d)(
2
2
==
此时正态分布转换为标准正态分布,记为N(0,1
2
)。
99.74
积分已被做成概率积分表uP
uu
de
π2
1
2
0
2

=
u x -μ x P %
u=

σ±
μ-σ μ+σ P=
6826.03413.02 =×
=68.26%
u=

σ2±
μ-2σ μ+2σ P=
9546.04773.02 =×
=95.46%
u=

σ3±
μ-3σ μ+3σ P=
9974.04987.02 =×
=99.74%
<例> 按照正态分布x在区间(μ-0.5σ,μ+1.5σ)出现的概率解,根据
σ
x
u
μ?
=
可将μ-0.5σ≤x ≤μ+1.5σ变换为-0.5≤u ≤1.5
查表u=0.5时面积为0.1915
u=1.5时面积为0.4332
则-0.5≤u ≤1.5的总面积即为x在区间( μ -0.5σ,
μ +1.5σ )出现的概率P = 0.1915 + 0.4332=0.6247
§8-2 总体平均值的估计一、平均值的标准偏差多个样本有多个平均值
1
x
2
x
n
x

…...
也遵循正态分布根据数学推导
n
S
S
x
=
n
σ
σ
x
=
由此可见增加测定次数可使平均值的标准偏差减小,一般分析工作平行测定4-6次即可。
二、置信区间与置信度置信度:做某种判断的把握性,用P表示。
置信区间:在一定的概率下,以测量值为中心包含总体平均值在内的区间。
若x落在以μ为中心1.96σ为半长的区间里,那么以这个x
值为中心,1.96σ为半长的区间必然将μ
包含在内。一切可能的区间里有95%的区间包含有μ。
P
90% u=1.64μ=x±1.64σ
95% u=1.96 μ=x±1.96σ
99% u=2.58μ=x±2.58σ
置信度太高无意义,太低不可信,一般定为90% 或95%。
n次测定总体平均值的置信区间为
n
σ
ux±=μ
置信区间表示如下:
uσx±=μ
(u是由所定概率决定的)
三、显著性水平表示测定值落在置信区间以外的概率,
用α表示,α=1-P
<例> 已知测定NaCl试剂中Cl含量方法的标准偏差
σ=0.05%,若分析结果为60.60%,计算95%置信度时总体平均值的置信区间,若(a)此结果为单次测定(b)此结果为四次测定的平均值。
解:单次测定四次测定
10.060.6005.096.160.60 ±=×±=±= uσxμ
05.060.60
4
05.0
96.160.60 ±=×±=±=
n
σ
uxμ
四、少量实验数据的统计处理如果只做n次测量,σ不知道,用S代替σ,
要想得到同样的置信度,必须用一个比u大的因子t代替u,随着测定次数n的增加,t趋于u (用t代替u得到t分布)
t因子
t分布曲线与自由度
(f=n-1)有关
n
S
x
t
μ?
=
总体平均值的置信区间其中t
α,f
与置信度(用α表示)和自由度有关,
可查书上的t表(双侧表)。
n
S
tx±=μ
<例> 测某Cu矿中Cu含量的四次结果分别为
40.53,40.48,40.57,40.42 求90%,95%
置信水平时总体平均值的置信区间。
解:S=0.06
查表P=90% 时t
0.10,3
=2.35
50.40=x
07.050.40
4
06.0
35.250.40 ±=±=±=
n
S
txμ
查表P=95% 时t
0.05,3
=3.18
10.050.40
4
06.0
18.350.403,05.0 ±=±=±=
n
S
txμ
由此可见置信度越高,置信区间越大。
若为6次测定的平均值,
则t
0.05,5
=2.57
06.050.40
6
06.0
57.250.405,05.0 ±=±=±=
n
S
txμ
x
§8-3 显著性检验
?提出原假设H
0
,二者无显著性差异,二者相等,
差异是由随机误差造成的,来自同一总体。
备择假设H
1
,二者不等(或大,或小)。
?确定是单侧检验还是双侧检验,决定用什么样的表,或换算。
?选定检验统计量,决定检验方法。
?选定显著性水平,查出表值。
?由样本值计算统计量,与表值比较,小于表值接受原假设,大于表值拒绝原假设而接受备择假设。
一、显著性检验的步骤二、u 检验法已知σ,比较与μx统计量
n
σ
x
u
μ?
=
<例> 某钢铁厂在生产正常的情况下产品含碳量服从N
(4.55,0.11
2
),某天某炉铁水含碳量(%)的分析结果为4.48,
4.40,4.45,4.46,4.50,问这炉铁水是否正常(P=95%)。
解:H
0
,x=μ,H
1
,x≠μ,此题为双侧检验,使用u表。
查表α=0.05时,u
0.05
=1.96。求得x =4.46

u
n
σ
x
u <=
=
= 83.1
5
11.0
55.446.4
μ
接受原假设,有95%的把握认为此炉铁水含碳正常。
三、t检验法不知道σ,检验与μ或与
x
2
x
统计量
n
S
x
t
μ?
=
(1)比较与μ
x
(2)比较与
2
x
21
21
21
nn
nn
S
xx
t
+
=
统计量
2nn
1n1n
21
2
22
2
11
+
+?
=
SS
S
)()(
1
x
1
x
2
<例> 某药厂产品中杂质铁含量为0.14%,改革生产工艺后取样分析5次结果得到x=0.13
S=0.01,问杂质含量是否明显降低
(P=95%)。

t
n
S
x
t >=
=
= 24.2
5
01.0
14.013.0
μ
有95%把握认为改革后杂质Fe含量降低。
有显著性差异
t表为双侧表,查α=0.10表,得t
0.10,4
=2.13
解:H
0
,x = μ
H
1
,x<μ
单侧检验,α= 0.05
四、F检验法比较S
1
与S
2
是否显著,F表为单侧表
(α=0.05)。
2
2
2
1
S
S
F =
统计量
(其中S
1
>S
2

<例> 某试样用两种方法测定,结果如下:
方法1
方法2
5
10.0
34.32
1
1
1
=
=
=
n
S
x
6
16.0
54.32
2
2
2
=
=
=
n
S
x
试比较与是否有显著性差异(P=90%)
1
x
2
x
解:先比较S
1
与S
2
,H
0
:S
1
=S
2
H
1
,S
1
≠S
2
双侧检验,选定α = 0.10 查表F
0.05,5,4
=6.26
26.656.2
10.0
16.0
2
2
2
1
2
2
<===
S
S
F
14.0
265
16.051.04
2
)1()1(
22
21
2
22
2
11
=
+
×+×
=
+
+?
=
nn
SnSn
S
不显著,方差可以合并再比较与,H
0
:=,H
1
,≠,双侧检验
1
x
2
x
1
x
2
x
1
x
2
x
查表t
0.10,9
=1.83

t
nn
nn
S
xx
t >=
+
×
=
+
= 36.2
65
65
14.0
54.3234.32
21
21
21
有90%的把握认为两种方法间有系统误差五、可疑值取舍
1、格鲁布斯(Grubbs)法数据由小到大排列求出与S
S
xx
T
1
=
统计量
x
(x
1
为可疑值)
或(x
n
为可疑值)
S
xx
T
n
=
将统计量值与表值T
α,n
比较,T

>T
表时舍弃
<例> 一产品中杂质含量为1.25%,1.27%,1.31%,1.40%,
问1.40%是否保留(P=95%)。
解:
31.1
4
40.131.127.125.1
=
+++
=x
34.1
067.0
31.140.1
=
=T
查表T
0.05,4
=1.46 T<T
表应保留
S= 0.067
2、Q检验法数据由小到大排列统计量
1
1
xx
xx
Q
n
nn
=
(x
n
为可疑值)
1
12
xx
xx
Q
n
=
或(x
1
为可疑值)
将统计量值与表值Q
p,n
比较,Q

> Q
表舍弃
<例> 上例中的1.40是否保留(置信度90%)。
60.0
25.140.1
31.140.1
1
1
=
=
=
xx
xx
Q
n
nn
计查表Q
0.90,4
=0.76 Q

< Q
表应保留
离解常数、形成常数、逐级累积形成常数、总反应平衡常数、分布系数、副反应系数、条件常数可行性判据、化学计量点、滴定突跃、
滴定误差、指示剂作用原理、常用指示剂、标准溶液、应用实例、含量计算沉淀的形成、沉淀的纯度、沉淀的条件总结分离方法的原理(萃取)、应用比耳定律、光度法的准确度、应用(定量、常数测定)
误差、偏差(d,S)、提高准确度的方法、有效数字正态分布、置信区间、显著性检验