第二章计算机与仪器分析一,化学计量学介绍
a brief introduction of
chemometrics
二,信息评价
information appraise
三、信号与噪声
signal and noise
四、信号的处理技术
technology of signal process
五、多元分析方法
polybasis analysis methods
第三节信息处理与数据挖掘技术
computer and instrument
analysis
information process and
technology of date excavate
14:01:52
一,化学计量学简介
a brief introduction of chemometrics
化学计量学:化学与计算机结合的产物
1974年,Kowalski 与 Wold 提出建立国际化学计量学协会任务,运用数学和统计的方法设计或选择最佳测试过程和实验通过化学数据分析提供更多化学信息。
范畴,纯化学与量子化学之间凡涉及计算和计算机的所有领域。
应用举例,大连湾海水污染物与污染源之间的关系; 控制由尿样获取身体健康状况的全部信息; 简化化合物性质数据 —— 结构,结构与性质的关系; 新药产品质量检验 —— 生产中的问题; 决策犯罪现场的烟雾分析:香烟牌号,种类; 破案
14:01:52
二,信息评价
information appraise
分析仪器是分析化学家为获取化学信息所使用的工具,
因此可以由信息理论来评价仪器的性能 。
1,信息量和熵设有一事件有几种可能性,他们各自的概率为 pi,
Shannon定义 信息熵,
n
i
iin pppppH
1
21 lg),,,(?
在信息理论中,习惯取,2” 作为对数的底,此时单位为 bit(e为底,nat)。 设有一具有两种可能性的等概率事件:
b i t1)21,21(2121 Hpp 则即
b i t2)41,41,41,41(?H同理
14:01:52
信息量和熵熵是事件不确定程度的度量,不确定程度越大,熵就越大。 对于一个概率密度为 p(x)的连续型分布熵的定义为,
xxpxpxpH d)(lg)()]([
信息的概念是与事件发生的概率相联系的,出现小概率事件所包含的信息量大,因此可定义 信息量,
I = -lgpi
如果事件发生后的概率不等于 1,即它是不确定的,则信息量可表示为:
I =lg(qi/pi)
式中 qi 是事件发生后的概率。
14:01:52
2,信息量与熵的关系如果通过某些方法获取信息使原来事件的不确定程度减小,所得到的信息的数量就是信息量,故信息量就是熵减少的量:
I = H0- H
式中 H0 和 H 分别表示获取“情报”前后,事件不确定程度
。在分析化学中则是实验前后的熵。若经过实验后的结果完全确定,即实验后的熵 =0,则:
I = H0 =Hmax
即经过这样一个实验后,可能得到的最大信息量。
14:01:52
3,分析化学实验中的信息量与熵在定性分析实验中,判断某一组分是否存在。
实验前:
概率:各为 1/2(实验前并无任何信息)
H0 = 1 bit
实验后,H =0
故信息量,I = H0 - H = 1 bit
如果采用仪器分析定性,不能将全部组分检测出,如何确定?
例:原子吸收测定含铜、锌试样 (组成未知 )。
仅测定出 Cu2+时的信息量,测定出 Cu2+,Zn2+时的信息量分别是多少?(阴离子不能检测)。
14:01:52
4,定量分析中有关参数与信息量在定量分析实验中,如果实验前知道某一组分的大致范围时,即 p(x)均匀地分布在 (x1,x2)区间内,则:
)l n (d1ln1 12
1221
0
2
1
xxxxxxxH x
x
由于分析中偶然误差的存在,结果不可能是一定值而成正态分布 。设其标准偏差为 σ,则:
)π2l n (
d
2
e xp
π2
1
ln
2
e xp
π2
1
2
2
2
2
e
x
xx
H
14:01:52
于是,
e
xxHHI
π2
ln 120
σ 越小,信息量越大。实验中增大信息量的途径?
减少干扰、提高仪器灵敏度、减小噪声、增加测定次数等。
14:01:52
5,仪器的最大信息量分析仪器通常有一测定限 cmin,待测试样浓度低于此值时
,不能用该仪器测定。该仪器实验前的熵为:
c
cH
m i n
0 lg
Δ c 为仪器能分辨的最小浓度差,实际的信息量:
m a x
m i n
0 π2ln Ie
cHHI
14:01:52
对于多通道的仪器,可以有 n个通道同时测定 n种组分,
其总的信息量是各通道的信息量之和:
2/1
321
m i nm i n3m i n2m i n1
m i n
)π2(
ln
π2
ln
n
n
i
cccc
e
c
II
单位时间内信息量的变化称为信息流:
t
IJ
d
d?
理想的分析仪器应该在很短的时间内获得很大的信息量。
14:01:52
6,仪器的效率和剩余度仪器的效率可用剩余度来衡量。剩余度的定义:
R = Hman — H
剩余度是熵偏离其最大值的度量。熵的一个重要性质是当所有的可能性都是等概率时,熵有最大值。
在定量分析中,如果试样中待测组分的含量完全是未知的,则其可能的含量为 0~ 100%,故:
cH m a n
100ln
14:01:52
仪器的效率和剩余度在分析仪器中,剩余度常被定义为:
R = Iman — I
即它是分析过程中被保留,未被利用的信息量的度量。
剩余度大表示该仪器的效率低。
分析时,一般样品的大致含量范围总是知道的,设其范围为 x1~ x2。
c
xxH
12lg
故:
12
1 0 0lg
xxR
则:
14:01:52
三、信号与噪声
signal and noise
本底信号,
没有试样时,仪器产生的信号;随机噪声;
空白信号,
试样中无待测组分时,仪器产生的信号;
试样预处理,
空白信号接近本底信号;
14:01:52
1,检出限样品的信号能被检出的最低限;由于存在随机噪声(正态分布),有误判的可能;
如何规定检出限使误判产生的几率符合要求 (统计学 ),
1969年,国际原子吸收光谱会议; yB+3?B
1975年,IUPAC; yB+2?B
保险检出限,yB+6?B
数学期望值 yB;标准偏差?B
定义,以一定的置信度检出待测组分的最低浓度(或量)
yA =yB+k?B k 的取值对应于不同置信概率
14:01:52
2.灵敏度分析仪器的响应值与浓度 (或量 )改变一个单位时所引起的信号的变化,?y/? c.(IUPAC给出的定义 );
单纯灵敏度高不能保证有低的检测限;
检测限与?B有关,?B来自随机噪声,信号变化可能被噪声淹没。
14:01:52
3,信噪比 (S/N)的提高途径,a,改善信号的测量技术;
b,信号经过适当处理 ;
c,优化。
(1) 信号的平均,噪声信号
nyy /NN?
(2) 滤波和调制
14:01:52
四、信号处理技术
technology of signal process
对分析信号进行处理是为了提高信息量,改善信噪比。
信号处理通常采用以下几种方法和技术:
1,曲线拟合用数学方法将获取的数据作曲线拟合。方法:
( 1)根据实际获得的曲线找出与此曲线适应的数学模型;
( 2)以实验得到的数据对 (Xi,Yi),代入数学模型 (关系式 )
,用最小二乘法求出模型中的待定参数。
关键点,选择正确的数学模型例:非正态色谱曲线,可采用 r函数与指数衰减曲线相结合的数学模型。
14:01:52
2,曲线的平滑处理曲线平滑处理可以去除数据集合中的随机噪声,保留有用信息,提高信噪比。
小波动:随机噪声大波动:包含有用信息方法:
boxcar平均化;
移动窗口均化;
最小二乘多项式平滑( Savitzky-Golay卷积法),最常用的方法。
注意点,不正确的进行平滑处理可能会将微弱信号当作噪声处理掉。
14:01:52
3,信号求导消除背景和重叠峰的干扰,提高分辨率和灵敏度。
方法,模拟微分电路或求导程序软件。
微分谱比原谱对谱特征的细微变化反应要灵敏的多,被隐藏的谱的特征可以通过对原谱图的微分而得到加强。
应用:
( 1)光谱图、色谱图:重叠峰、弱肩峰的区分;
( 2)电位滴定曲线的导数曲线容易确定滴定钟点。
注意点,微分时,原谱的噪声也被加强,高阶导数谱的噪声增大的更明显,解决方法:对原谱进行平滑处理。
14:01:52
五,多元分析方法
polybasis analysis methods
如何在大批实验数据中总结出有用的规律或者挖掘出有用的信息;
多元分析是一类计算机信息处理、信息挖掘技术,特别适合用于从多种因素影响的大量实验数据中总结规律;
多元分析应用领域:处理卫星照片;指纹鉴别;文字和语音识别;多参数、多变量问题的处理;
分析化学中的应用:
( 1) 多种微量元素的分布与健康(或疾病)的关系
( 2) 物质中复杂成分的含量分析
( 3) 各种谱的特征与性质关系
( 4) 分子结构与谱特征的关系
14:01:52
1,多元分析方法的特点在多元分析中,对每个研究对象(每个观察样本都有 M
个变量或参数)取值,考察 N个观察对象的集合就作成一张
N*M的数据表。
观察对象的集合可以是全部样本,也可是较大集合中的一个子集;
变量可以是连续的也可以是离散的;
在多元分析中,通常采用以下技术:
( 1) 简化结构 用简单方法来表示所研究的复杂问题;
( 2) 分类 将观察对象分成若干个不同的组或类;
( 3) 变量分组 将变量按其性质分组;
( 4) 相关分析 研究变量之间的相互关系、观察对象之间的相互关系。
14:01:52
2,多元分析中的主要方法简介多元分析中所采用的方法:
( 1)回归分析:
多元线形回归分析;偏最小二乘回归分析;逐步回归分析 。
( 2)相关分析
( 3)因子分析
( 4)降维与映射
( 5)聚类分析
( 6)分类与判别
( 7)人工神经网络
( 8)优化技术
14:01:52
3,化学因子分析法简介因子分析,通过对一数据矩阵进行特征分析、旋转变换等操作以获取有关信息的数学方法。
化学因子分析,将因子分析技术用于解决化学中的问题
,形成了带有浓厚化学特色的因子分析方法。
化学因子分析特点:
( 1)解决复杂问题 同时处理多因素相互影响的复杂体系
( 2)快速处理大量数据 采用标准因子分析程序
( 3)数据的有序解释与预测 在获得规律指导下进行预测
14:01:52
因子分析基本步骤
14:01:52
常见的因子分析方法
(1)主成分分析( principle component analysis)
(2)目标因子分析( target factor analysis)
(3)迭代目标因子分析 (iterative target factor analysis )
(4)秩消因子分析 (rank annihilation factor analysis )
(5)渐进因子分析 (evolving factor analysis )
(6)窗口因子分析 (window factor analysis )
(7)启发 渐进式特征投影 (heuristic evolving latent projection )
14:01:52
内容选择:
第一节 计算机与仪器分析
computer and instrument analysis
第二节 数据采集与计算机控制
computer control and data collection
第三节 信息处理与数据挖掘技术
information process and technology of date excavate
第四节 人工智能与仿真模拟
artificial intelligence and multimedia experimentsimulation technology
结束
a brief introduction of
chemometrics
二,信息评价
information appraise
三、信号与噪声
signal and noise
四、信号的处理技术
technology of signal process
五、多元分析方法
polybasis analysis methods
第三节信息处理与数据挖掘技术
computer and instrument
analysis
information process and
technology of date excavate
14:01:52
一,化学计量学简介
a brief introduction of chemometrics
化学计量学:化学与计算机结合的产物
1974年,Kowalski 与 Wold 提出建立国际化学计量学协会任务,运用数学和统计的方法设计或选择最佳测试过程和实验通过化学数据分析提供更多化学信息。
范畴,纯化学与量子化学之间凡涉及计算和计算机的所有领域。
应用举例,大连湾海水污染物与污染源之间的关系; 控制由尿样获取身体健康状况的全部信息; 简化化合物性质数据 —— 结构,结构与性质的关系; 新药产品质量检验 —— 生产中的问题; 决策犯罪现场的烟雾分析:香烟牌号,种类; 破案
14:01:52
二,信息评价
information appraise
分析仪器是分析化学家为获取化学信息所使用的工具,
因此可以由信息理论来评价仪器的性能 。
1,信息量和熵设有一事件有几种可能性,他们各自的概率为 pi,
Shannon定义 信息熵,
n
i
iin pppppH
1
21 lg),,,(?
在信息理论中,习惯取,2” 作为对数的底,此时单位为 bit(e为底,nat)。 设有一具有两种可能性的等概率事件:
b i t1)21,21(2121 Hpp 则即
b i t2)41,41,41,41(?H同理
14:01:52
信息量和熵熵是事件不确定程度的度量,不确定程度越大,熵就越大。 对于一个概率密度为 p(x)的连续型分布熵的定义为,
xxpxpxpH d)(lg)()]([
信息的概念是与事件发生的概率相联系的,出现小概率事件所包含的信息量大,因此可定义 信息量,
I = -lgpi
如果事件发生后的概率不等于 1,即它是不确定的,则信息量可表示为:
I =lg(qi/pi)
式中 qi 是事件发生后的概率。
14:01:52
2,信息量与熵的关系如果通过某些方法获取信息使原来事件的不确定程度减小,所得到的信息的数量就是信息量,故信息量就是熵减少的量:
I = H0- H
式中 H0 和 H 分别表示获取“情报”前后,事件不确定程度
。在分析化学中则是实验前后的熵。若经过实验后的结果完全确定,即实验后的熵 =0,则:
I = H0 =Hmax
即经过这样一个实验后,可能得到的最大信息量。
14:01:52
3,分析化学实验中的信息量与熵在定性分析实验中,判断某一组分是否存在。
实验前:
概率:各为 1/2(实验前并无任何信息)
H0 = 1 bit
实验后,H =0
故信息量,I = H0 - H = 1 bit
如果采用仪器分析定性,不能将全部组分检测出,如何确定?
例:原子吸收测定含铜、锌试样 (组成未知 )。
仅测定出 Cu2+时的信息量,测定出 Cu2+,Zn2+时的信息量分别是多少?(阴离子不能检测)。
14:01:52
4,定量分析中有关参数与信息量在定量分析实验中,如果实验前知道某一组分的大致范围时,即 p(x)均匀地分布在 (x1,x2)区间内,则:
)l n (d1ln1 12
1221
0
2
1
xxxxxxxH x
x
由于分析中偶然误差的存在,结果不可能是一定值而成正态分布 。设其标准偏差为 σ,则:
)π2l n (
d
2
e xp
π2
1
ln
2
e xp
π2
1
2
2
2
2
e
x
xx
H
14:01:52
于是,
e
xxHHI
π2
ln 120
σ 越小,信息量越大。实验中增大信息量的途径?
减少干扰、提高仪器灵敏度、减小噪声、增加测定次数等。
14:01:52
5,仪器的最大信息量分析仪器通常有一测定限 cmin,待测试样浓度低于此值时
,不能用该仪器测定。该仪器实验前的熵为:
c
cH
m i n
0 lg
Δ c 为仪器能分辨的最小浓度差,实际的信息量:
m a x
m i n
0 π2ln Ie
cHHI
14:01:52
对于多通道的仪器,可以有 n个通道同时测定 n种组分,
其总的信息量是各通道的信息量之和:
2/1
321
m i nm i n3m i n2m i n1
m i n
)π2(
ln
π2
ln
n
n
i
cccc
e
c
II
单位时间内信息量的变化称为信息流:
t
IJ
d
d?
理想的分析仪器应该在很短的时间内获得很大的信息量。
14:01:52
6,仪器的效率和剩余度仪器的效率可用剩余度来衡量。剩余度的定义:
R = Hman — H
剩余度是熵偏离其最大值的度量。熵的一个重要性质是当所有的可能性都是等概率时,熵有最大值。
在定量分析中,如果试样中待测组分的含量完全是未知的,则其可能的含量为 0~ 100%,故:
cH m a n
100ln
14:01:52
仪器的效率和剩余度在分析仪器中,剩余度常被定义为:
R = Iman — I
即它是分析过程中被保留,未被利用的信息量的度量。
剩余度大表示该仪器的效率低。
分析时,一般样品的大致含量范围总是知道的,设其范围为 x1~ x2。
c
xxH
12lg
故:
12
1 0 0lg
xxR
则:
14:01:52
三、信号与噪声
signal and noise
本底信号,
没有试样时,仪器产生的信号;随机噪声;
空白信号,
试样中无待测组分时,仪器产生的信号;
试样预处理,
空白信号接近本底信号;
14:01:52
1,检出限样品的信号能被检出的最低限;由于存在随机噪声(正态分布),有误判的可能;
如何规定检出限使误判产生的几率符合要求 (统计学 ),
1969年,国际原子吸收光谱会议; yB+3?B
1975年,IUPAC; yB+2?B
保险检出限,yB+6?B
数学期望值 yB;标准偏差?B
定义,以一定的置信度检出待测组分的最低浓度(或量)
yA =yB+k?B k 的取值对应于不同置信概率
14:01:52
2.灵敏度分析仪器的响应值与浓度 (或量 )改变一个单位时所引起的信号的变化,?y/? c.(IUPAC给出的定义 );
单纯灵敏度高不能保证有低的检测限;
检测限与?B有关,?B来自随机噪声,信号变化可能被噪声淹没。
14:01:52
3,信噪比 (S/N)的提高途径,a,改善信号的测量技术;
b,信号经过适当处理 ;
c,优化。
(1) 信号的平均,噪声信号
nyy /NN?
(2) 滤波和调制
14:01:52
四、信号处理技术
technology of signal process
对分析信号进行处理是为了提高信息量,改善信噪比。
信号处理通常采用以下几种方法和技术:
1,曲线拟合用数学方法将获取的数据作曲线拟合。方法:
( 1)根据实际获得的曲线找出与此曲线适应的数学模型;
( 2)以实验得到的数据对 (Xi,Yi),代入数学模型 (关系式 )
,用最小二乘法求出模型中的待定参数。
关键点,选择正确的数学模型例:非正态色谱曲线,可采用 r函数与指数衰减曲线相结合的数学模型。
14:01:52
2,曲线的平滑处理曲线平滑处理可以去除数据集合中的随机噪声,保留有用信息,提高信噪比。
小波动:随机噪声大波动:包含有用信息方法:
boxcar平均化;
移动窗口均化;
最小二乘多项式平滑( Savitzky-Golay卷积法),最常用的方法。
注意点,不正确的进行平滑处理可能会将微弱信号当作噪声处理掉。
14:01:52
3,信号求导消除背景和重叠峰的干扰,提高分辨率和灵敏度。
方法,模拟微分电路或求导程序软件。
微分谱比原谱对谱特征的细微变化反应要灵敏的多,被隐藏的谱的特征可以通过对原谱图的微分而得到加强。
应用:
( 1)光谱图、色谱图:重叠峰、弱肩峰的区分;
( 2)电位滴定曲线的导数曲线容易确定滴定钟点。
注意点,微分时,原谱的噪声也被加强,高阶导数谱的噪声增大的更明显,解决方法:对原谱进行平滑处理。
14:01:52
五,多元分析方法
polybasis analysis methods
如何在大批实验数据中总结出有用的规律或者挖掘出有用的信息;
多元分析是一类计算机信息处理、信息挖掘技术,特别适合用于从多种因素影响的大量实验数据中总结规律;
多元分析应用领域:处理卫星照片;指纹鉴别;文字和语音识别;多参数、多变量问题的处理;
分析化学中的应用:
( 1) 多种微量元素的分布与健康(或疾病)的关系
( 2) 物质中复杂成分的含量分析
( 3) 各种谱的特征与性质关系
( 4) 分子结构与谱特征的关系
14:01:52
1,多元分析方法的特点在多元分析中,对每个研究对象(每个观察样本都有 M
个变量或参数)取值,考察 N个观察对象的集合就作成一张
N*M的数据表。
观察对象的集合可以是全部样本,也可是较大集合中的一个子集;
变量可以是连续的也可以是离散的;
在多元分析中,通常采用以下技术:
( 1) 简化结构 用简单方法来表示所研究的复杂问题;
( 2) 分类 将观察对象分成若干个不同的组或类;
( 3) 变量分组 将变量按其性质分组;
( 4) 相关分析 研究变量之间的相互关系、观察对象之间的相互关系。
14:01:52
2,多元分析中的主要方法简介多元分析中所采用的方法:
( 1)回归分析:
多元线形回归分析;偏最小二乘回归分析;逐步回归分析 。
( 2)相关分析
( 3)因子分析
( 4)降维与映射
( 5)聚类分析
( 6)分类与判别
( 7)人工神经网络
( 8)优化技术
14:01:52
3,化学因子分析法简介因子分析,通过对一数据矩阵进行特征分析、旋转变换等操作以获取有关信息的数学方法。
化学因子分析,将因子分析技术用于解决化学中的问题
,形成了带有浓厚化学特色的因子分析方法。
化学因子分析特点:
( 1)解决复杂问题 同时处理多因素相互影响的复杂体系
( 2)快速处理大量数据 采用标准因子分析程序
( 3)数据的有序解释与预测 在获得规律指导下进行预测
14:01:52
因子分析基本步骤
14:01:52
常见的因子分析方法
(1)主成分分析( principle component analysis)
(2)目标因子分析( target factor analysis)
(3)迭代目标因子分析 (iterative target factor analysis )
(4)秩消因子分析 (rank annihilation factor analysis )
(5)渐进因子分析 (evolving factor analysis )
(6)窗口因子分析 (window factor analysis )
(7)启发 渐进式特征投影 (heuristic evolving latent projection )
14:01:52
内容选择:
第一节 计算机与仪器分析
computer and instrument analysis
第二节 数据采集与计算机控制
computer control and data collection
第三节 信息处理与数据挖掘技术
information process and technology of date excavate
第四节 人工智能与仿真模拟
artificial intelligence and multimedia experimentsimulation technology
结束