8-1 数据的特征及分布一、数理统计的某些基本概念
1、总体与样本总体:被研究对象某特性值的全体。
个体:组成总体的每个单元。
样本(子样):自总体中随机抽取的一部分个体。
样本容量:样本中所包含个体的数目,用n表示。
2、随机变量来自同一总体的无限多个测量值都是随机出现的,
叫随机变量。
多次重复测定的结果不能相同,也不能事先知道。
测量值一经取定就是一个常量,不再有随机性。
第八章分析实验数据处理二、随机变量的频数分布
〈例〉学生测定BaCl
2
·2H
2
O试剂中Ba含量
(%),共有190个数据,区间为55.48%-
56.46%。将这些数据按组距0.1来分成10组。
频数:每组中数据的个数相对频数:频数在总测定次数中所占的分数以各组区间为底相对频数为高做成一排矩形的相对频数分布直方图其特点:
1,离散特性:测定值在平均值周围波动,
波动的程度用总体标准偏差表示
n
x
n
i
i∑
=
=
1
2
)( μ
σ
2,集中趋势:向平均值集中
∑
=
∞→
=
n
i
i
n
x
n
1
1
limμ总体平均值总体标准偏差在确认消除系统误差的前提下,总体平均值就是真值。
三、随机变量的正态分布当数据无限多,组分的很细时,上述直方图则变成一条圆滑的曲线,称为正态分布。其数学表达式称为正态分布密度函数
2
2
2
)(
e
π2
1
)(
σ
μ
σ
=
x
xf
其两个重要参数为μ、σ,记为
N(μ、σ
2
),μ决定曲线在x轴的位置,σ
决定曲线的形状
σ小→曲线高、陡峭、
精密度好;
σ大→曲线低、平坦、
精密度差。
随机误差符合正态分布
1.大误差出现的几率小,小误差出现的几率大。
2.绝对值相等的正负误差出现的几率相等。
3.误差为零的测量值出现的几率最大。
所有测量值出现的概率总和应为1,即
1de
π2
1
),(
2
2
2
)(
==∞?∞
∞
∞?
∫
xP
x
σ
μ
σ
求变量在某区间出现的概率,即对该区间求积分
xbaP
x
b
a
de
π2
1
),(
2
2
2
)(
σ
μ
σ
∫
=
对于不同的μ、σ有不同的曲线,积分比较麻烦,为简化做数学上的变量转换,令
σ
μ?
=
x
u
将上式两端微分得σ du=dx
uufuxxf
u
d)(de
π2
1
d)(
2
2
==
此时正态分布转换为标准正态分布,记为N(0,1
2
)。
99.74
积分已被做成概率积分表uP
uu
de
π2
1
2
0
2
∫
=
u x -μ x P %
u=
1±
σ±
μ-σ μ+σ P=
6826.03413.02 =×
=68.26%
u=
2±
σ2±
μ-2σ μ+2σ P=
9546.04773.02 =×
=95.46%
u=
3±
σ3±
μ-3σ μ+3σ P=
9974.04987.02 =×
=99.74%
<例> 按照正态分布x在区间(μ-0.5σ,μ+1.5σ)出现的概率解,根据
σ
x
u
μ?
=
可将μ-0.5σ≤x ≤μ+1.5σ变换为-0.5≤u ≤1.5
查表u=0.5时面积为0.1915
u=1.5时面积为0.4332
则-0.5≤u ≤1.5的总面积即为x在区间( μ -0.5σ,
μ +1.5σ )出现的概率P = 0.1915 + 0.4332=0.6247
§8-2 总体平均值的估计一、平均值的标准偏差多个样本有多个平均值
1
x
2
x
n
x
、
…...
也遵循正态分布根据数学推导
n
S
S
x
=
n
σ
σ
x
=
由此可见增加测定次数可使平均值的标准偏差减小,一般分析工作平行测定4-6次即可。
二、置信区间与置信度置信度:做某种判断的把握性,用P表示。
置信区间:在一定的概率下,以测量值为中心包含总体平均值在内的区间。
若x落在以μ为中心1.96σ为半长的区间里,那么以这个x
值为中心,1.96σ为半长的区间必然将μ
包含在内。一切可能的区间里有95%的区间包含有μ。
P
90% u=1.64μ=x±1.64σ
95% u=1.96 μ=x±1.96σ
99% u=2.58μ=x±2.58σ
置信度太高无意义,太低不可信,一般定为90% 或95%。
n次测定总体平均值的置信区间为
n
σ
ux±=μ
置信区间表示如下:
uσx±=μ
(u是由所定概率决定的)
三、显著性水平表示测定值落在置信区间以外的概率,
用α表示,α=1-P
<例> 已知测定NaCl试剂中Cl含量方法的标准偏差
σ=0.05%,若分析结果为60.60%,计算95%置信度时总体平均值的置信区间,若(a)此结果为单次测定(b)此结果为四次测定的平均值。
解:单次测定四次测定
10.060.6005.096.160.60 ±=×±=±= uσxμ
05.060.60
4
05.0
96.160.60 ±=×±=±=
n
σ
uxμ
四、少量实验数据的统计处理如果只做n次测量,σ不知道,用S代替σ,
要想得到同样的置信度,必须用一个比u大的因子t代替u,随着测定次数n的增加,t趋于u (用t代替u得到t分布)
t因子
t分布曲线与自由度
(f=n-1)有关
n
S
x
t
μ?
=
总体平均值的置信区间其中t
α,f
与置信度(用α表示)和自由度有关,
可查书上的t表(双侧表)。
n
S
tx±=μ
<例> 测某Cu矿中Cu含量的四次结果分别为
40.53,40.48,40.57,40.42 求90%,95%
置信水平时总体平均值的置信区间。
解:S=0.06
查表P=90% 时t
0.10,3
=2.35
50.40=x
07.050.40
4
06.0
35.250.40 ±=±=±=
n
S
txμ
查表P=95% 时t
0.05,3
=3.18
10.050.40
4
06.0
18.350.403,05.0 ±=±=±=
n
S
txμ
由此可见置信度越高,置信区间越大。
若为6次测定的平均值,
则t
0.05,5
=2.57
06.050.40
6
06.0
57.250.405,05.0 ±=±=±=
n
S
txμ
x
§8-3 显著性检验