计算机化学中国科学院长春应用化学研究所许禄一,计算机辅助分子设计
I,构效关系 (QSAR/QSPR)研究
II,全新药物设计
III.组合化学与药物设计二,有机化合物结构解析专家系统三,计算机辅助合成四,新的化学计量学方法一,计算机辅助分子设计
( Computer-aided molecular
design)
I,构效关系研究
(Quantitative Structure-Activity/Property
Relationship study,QSAR/QSPR)
基本假设,
化合物的结构与其活性 /性质是相关的 ;
化合物的结构与其活性 /性质不是一一对应的,
分子结构图 活性 /性质结构特征 统计函数或模式识别数学模型结构特征 统计函数或模式识别
?
Y = f( x1,x2,…,xm)
式中:
Y为活性 /性质;
x1,x2,…,xm为结构特征。
y(体重 )= f(身高 )
体重,y
身高,x
Y(体重 )= f(身高,腰围)
体重,y
身高,x1,腰围,x2
结构图输入 特征计算(得到自变量) 特征分析
(自变量选择)
3D结构模型的建立 数学模型建立及预测如,y,正烷烃分子的沸点; x:分子中碳原子的数目特征的主要类型:
( 1)拓扑类参数:如图论指数
(即拓扑指数),结构片断等;
( 2)几何类参数:如键长,键角,
二面角等;
( 3)电子类参:如,量化参数等;
( 4)物理化学类参数:如疏水性参数,超热力学参数等。
二维构效关系研究
( 2D QSAR/QSPR)
不主要运用 3D结构特征在本研究工作中,苯胺类化合物的生物毒性是该化合物对小鼠的口服毒性半致死量 LD50,即引起半数受试小鼠死亡所需的苯胺类化合物的剂量。实验数据来源于美国国家职业安全与卫生所编制发行的 RTECS(Registory of
Toxic Effects of Chemical Substances)。
苯胺类化合物的母体结构为:
* Xu Lu et al.,Science in China (Series B),2000,43,129-136
12
3
4
NH 2
R 1R 2
R 3
R 4 R 5
苯胺类化合物的结构及其生物毒性
Table 1 Substituted amino-benzens and their toxicity
No,R1 R2 R3 R4 R5 -log(LD50) --log(LD50) diff.
(obs) (cal) 1 Me H H H H -2.826
-2.854 0.028
2 H Me H H H -2.653 -2.697 0.044
3 H H Me H H -2.817 -2.778 -0.039
4 Et H H H H -3.100 -3.084 -0.016
5 isoprop H H H H -3.072 -3.067 -0.005
6 Me Me H H H -2.970 -2.980 0.010
7 Me H Me H H -3.113 -3.097 -0.016
8 Me H H Me H -2.924 -2.919 -0.005
9 Me H H H Me -2.924 -2.917 -0.007
10 H Me Me H H -2.909 -2.915 0.006
11 H Me H Me H -2.849 -2.834 -0.015
12 Me H H H Et -3.072 -3.106 0.034
13 Et H H H Et -3.255 -3.276 0.021
14 Me H Me H Me -2.871 -2.903 0.032
15 H CF3 H H H -2.681 -2.685 0.004
16 H Cl H H H -2.408 -2.419 0.011
17 H H Cl H H -2.491 -2.501 0.010
18 H Cl Cl H H -2.812 -2.767 -0.045
19 Me Cl H H H -2.759 -2.694 -0.065
20 Me H H Cl H -2.667 -2.669 0.002
21 Cl H Me H H -2.565 -2.580 0.015
22 H H F H H -2.620 -2.634 0.014
23 H H Br H H -2.659 -2.657 -0.002
24 H NO2 H H H -2.728 -2.687 -0.041
25 H H NO2 H H -2.875 -2.875 0.000
26 Me H H NO2 H -2.759 -2.760 0.001
27 NO2 H Cl H H -2.602 -2.605 0.003
28 H NO2 Cl H H -2.602 -2.601 -0.001
29 NO2 H NO2 H H -2.621 -2.634 0.013
1,Calculation of descriptors
Quantum-chemical parameters,7;
Molecular connectivity indices mxt,11;
Topological indices Ami,3
Indicative variable I,1
Total,22
e.g.,Hform,-Ehomo,?,- Elumo,mxt,Ami.
* Yu-Xin Zhou,Lu Xu et al.,Chem,Intell,Lab,Syst.,1999,45,95-100
1,Calculation of Descriptors
2,Selection of Descriptors
(1)经典方法
向前法
向后法
逐步回归法
( 2)主成分分析
( 3)正交变换
( 4) Leaps-and-Bounds Regression
( 5)模拟退火法
( 6)遗传算法
( 7)人工神经网络法
* Xu Lu et al.,Anal,Chim,Acta,2001,446,477-483
Leaps-and-Bounds Regression
_______________________
No Descriptor R F S
----------------------------------------------------
1 1 0.084 4.6 0.14
2 1,7 0.831 5.6 0.13
3 1,2,7 0.833 18.9 0.12
4 1,2,3,7 0.868 18.4 0.11
5 1,2,3,5,7 0.901 19.8 0.097
6 1,2,3,5,6,7 0.913 12.5 0.098
7 1,2,3,5,6,7,8 0.913 15.1 0.096
____________________________
数学方法的选择
( 1)多元回归分析
( 2)人工神经网络方法
( 3) CoMFA方法
The rule,n/m?5
n,number of samples; m,number of
variables.
-log(LD50) = -0.760 - 1.744*10-3Ef - 5.452*10-2EL
- 1.295*10-2Am3 + 1.556*10-3Ep
-1.171*10-3Ee
R = 0.901,F = 19.8,S = 0.097,n = 29
where Ef,heat of formation;
EL,LUMO ;
Am3,topological index;
Ep,repulse energy;
Ee,electronic energy.
3,Multiple Regression
4,Artificial Neural Network
Algorithm,BFGS quasi-Newton method
Architecture,6,3,1
Results,(Regression)
R = 0.967 (R = 0.901)
F = 386.6 (F = 19.8 )
S = 0.053 (S = 0.097)
These are much better than those obtained by
multiple regression analysis.
三维构效关系研究
( 3D QSAR/QSPR)
80年代出现了多种 3D-
QSAR方法,但目前最重要最为广泛应用的是 CoMFA
(Comparative Molecular Field Analysis)方法。
Cramer III R D et al.,J,Am,Soc.,1998,110,5959-5967)
CoMFA方法 1988-1998
发表文章情况为:
1988-1992 80
1993-1997 287
1998 97
其应用包括:
Various 3D-QSAR applications
Interaction energy fields
Nonlinearity
Superposition
Conformational analysis
Molecular similarity
PLS algorithms
Neural networks
Molecular diversity
1.在 3D QSAR 研究中
CoMFA的单独应用已用于多类化合物。这些化合物主要分为:
( 1)药物
( 2)环境中的有害有机化合物
( 3)其他
(1) 苯甲酰胺类化合物的结构 /活性的 QSAR研究
吴亚平,许禄等,高等学校化学学报,1998,19,694
Yu-Xin Zhou,Lu Xu et al.,Chemom,Intell,Lab,System.,1999,45,95
苯甲酰胺类化合物的母体结构为,
The compounds and their activities
A,多元回归分析
特征的提取电子特征:主要为量化参数拓扑特征:分子连接性指数 mxt:
0xp,1xp,2xp,… 6xpc
(共 18个)
特征的选择初选后剩 6个,0xp,4xp,5xp,6xp,4xch,6xch
Results with Leaps-and-
Bounds regression analysis
___________________________________________
No Variable R F
___________________________________________
1 5 0.8630 61.78
2 3,5 0.8751 32.71
3 2,3,5 0.8865 23.25
4 2,3,5,6 0.8899 17.12
5 2,3,4,5,6 0.8906 13.04
6 1,2,3,4,5,6 0.8906 10.23
___________________________________________
回归结果经验规则,n/m? 5
logRI = 3.002 +0.8909 4xp - 1.3465 5xp
-13.9234 6xch
R = 0.8865,F = 23.24,S = 0.572
B,CoMFA方法
化合物的重叠模板化合物,1(抗炎活性最大 )
重叠原子,8,9和 16
使重叠后的均方根偏差为最小。
探针:
H+
空间网格大小:
对于 x,y,z三坐标均为从 -1.3nm到 1.9nm
结果的比较
3D QSAR
CoMFA:
R = 0.993
S.D,= 0.128
2D QSAR
多元回归分析,
R = 0.887
S.D,= 0.572
No logIR(cal) logIR(obs) Err
观测值、计算值及差值
三维空间立体能轮廓图和静电能轮廓图
(2) 新型抗艾滋病药物吡喃酮类化合物的三维定量构效关系研究
( a) 母体结构
19个吡喃酮类化合物的结构及活性
( b)实验条件
模板化合物,15
网格大小:
x,-1.7--1.0 (nm)
y,-1.9--0.5 (nm)
z,-1.9--1.0 (nm)
探针,sp3 C+
( c)结果
R = 0.984
F = 103
S = 0.011
立体能 /静电能
= 0.852/0.148
立体能和静电能轮廓图立体能轮廓图 静电能轮廓图
2,CoMFA与其它方法的结合我们发现:
CoMFA方法对某些类化合物的适应性较差,但与其它方法相结合,或者说将其他参数引入 CoMFA的数学模型,则可使结果大为改进。
29个苯胺类化合物的结构及其生物毒性毒性,对小鼠的口服毒性半致死量 LD50,
苯胺类化合物的母体结构为:
* Xu Lu et al.,Science in China (Series B),2000,43,129-136
12
3
4
NH 2
R 1R 2
R 3
R 4 R 5
Substituted amino-benzens and their toxicity
No,R1 R2 R3 R4 R5 -log(LD50) --log(LD50) diff.
(obs) (cal) 1 Me H H H H -2.826
-2.854 0.028
2 H Me H H H -2.653 -2.697 0.044
3 H H Me H H -2.817 -2.778 -0.039
4 Et H H H H -3.100 -3.084 -0.016
5 isoprop H H H H -3.072 -3.067 -0.005
6 Me Me H H H -2.970 -2.980 0.010
7 Me H Me H H -3.113 -3.097 -0.016
8 Me H H Me H -2.924 -2.919 -0.005
9 Me H H H Me -2.924 -2.917 -0.007
10 H Me Me H H -2.909 -2.915 0.006
11 H Me H Me H -2.849 -2.834 -0.015
12 Me H H H Et -3.072 -3.106 0.034
13 Et H H H Et -3.255 -3.276 0.021
14 Me H Me H Me -2.871 -2.903 0.032
15 H CF3 H H H -2.681 -2.685 0.004
16 H Cl H H H -2.408 -2.419 0.011
17 H H Cl H H -2.491 -2.501 0.010
18 H Cl Cl H H -2.812 -2.767 -0.045
19 Me Cl H H H -2.759 -2.694 -0.065
20 Me H H Cl H -2.667 -2.669 0.002
21 Cl H Me H H -2.565 -2.580 0.015
22 H H F H H -2.620 -2.634 0.014
23 H H Br H H -2.659 -2.657 -0.002
24 H NO2 H H H -2.728 -2.687 -0.041
25 H H NO2 H H -2.875 -2.875 0.000
26 Me H H NO2 H -2.759 -2.760 0.001
27 NO2 H Cl H H -2.602 -2.605 0.003
28 H NO2 Cl H H -2.602 -2.601 -0.001
29 NO2 H NO2 H H -2.621 -2.634 0.013
The rule,n/m?5
.
-log(LD50) = -0.760 - 1.744*10-3Ef - 5.452*10-2EL
- 1.295*10-2Am3 + 1.556*10-3Ep
-1.171*10-3Ee
R = 0.901,F = 19.8,S = 0.097,n = 29
where Ef,heat of formation;
EL,LUMO ;
Am3,topological index;
Ep,repulse energy;
Ee,electronic energy.
(1) Multiple Regression
(2) Artificial Neural Network
Algorithm,BFGS quasi-Newton method
Architecture,6,3,1
Results,(Regression)
R = 0.967 (R = 0.901)
F = 386.6 (F = 19.8 )
S = 0.053 (S = 0.097)
These are much better than those obtained by
multiple regression analysis.
(3) 3D-QSAR Studies
(1) Method,CoMFA
(2) Basic assumption:
Stereo field (Es)
Electrostatic field (Ee)
Hydrophobicity (logP)
(3) Results,
Es+Ee,R,0.85; Rcv,0.64
Es+Ee+logP,R,0.85; Rcv,0.64
Es+Ee+Ef,R:0.975; Rcv,0.88
* 许禄,吴亚平等,中国科学( B辑 ),2000,30,1-7
Fig.1 Orthogonal views of
compound 16 embedded in
contour maps derived from the
stereo CoMFA model
Fig.2 Front views of compound
16 embedded incontour maps
derived from the electrostatic
CoMFA model
3,在 SYBYL/BASE基础上的其他方法研究在 3D QSAR研究中,绝大部分方法的首先要求是化合物应为最优构像。
Tripos公司的 Sybyl的 Base系统为该类研究提供了有效的手段。
(1)在三维直角坐标系统中分子的位点编码法设想将一分子置于带有网格的三维空间图 3 在三维直角坐标系统中的甲苯分子图 4 分子投影示意图化合物,29个苯胺类化合物
12
3
4
NH 2
R 1R 2
R 3
R 4 R 5
许禄,杨嘉安,吴亚平,中国科学,B辑,2003,33,261-267
(a) 最小二乘结果
-logLD50 = -2.580 - 6.846x10-4Ef
- 3.648x10-2EL- 5.906x10-3Am3
+ 2.177x10-2Pyz -2.525x10-2Pxz
R = 0.951,F = 43,S= 0.06,n =29
结果比较,
变量 --Ef,EL,Am3,Ee,Ep,R = 0.901
变量 --Ef,EL,Am3,Pyz,Pxz,R = 0.951
(b) 人工神经网结果
算法,BFGS 赝 -牛顿法
网络结构,5,2,1
结果,
R = 0.993; F = 1868; S = 0.023
结果比较,
变量 --Ef,EL,Am3,Ee,Ep,R=0.967
变量 --Ef,EL,Am3,Pyz,Pxz,R=0.993
只要能对分子的结构进行有效的描述,就能够构造出好的数学模型 ;
除了空间能、静电能、生成热,苯胺类化合物的毒性还非常决定于分子在三维空间的投影面积。这可能是该参数在客观上较好地反映了化合物与生物大分子的,空穴,拟合得好坏程度;
Am3反映的是分子的大小和形状,这又一次说明,
分子的形状是制约苯胺类化合物毒性的重要因素。
(c) 几点结论
( 2)边沿描述法
The deficiency of projection area is
different shapes of the projections may possess
the same areas,For improving the predictive
results,the description of the projection
peripheral algorithm was investigated in this
work.
(a) Principle of the method*
In the case of benzene the (geometry) distance matrix is:
013231
101323
310132
231013
323101
132310
013431
101343
310134
431013
343101
134310
2
D
If all the elements in matrix (1) are squared,we can
obtain matrix(2),2D,Similarly,we can obtain 3D,4D,…
From these matrices,the row (or column) sums divided by
6 can be obtained,Based on this,finally,the variables for
peripheral description,0P,1P,2P,3P,…,can be obtained.
( 1) ( 2)
For benzene,the result is:
P = 6,7.464,3.399,1.5,0.543,
0.167,…
(b) Projection of nitrobenzene on y-z plane
Above method can be extended for the projection in 3D
space,As the projection points are on the intersections of
the grids,so the geometry distances for the peripheral
description can be calculated easily
As an example,the distance matrix in the rectangle in the
figure is:
012101729
10151052
2102513
1052015
17105102
295213520
Using the method described as above,18 parameters,2Pxy,
3Pxy,4Pxy,5Pxy,6Pxy,1Pyz,2Pyz,3Pyz,4Pyz,5Pyz,6Pyz,1Pxz,
2Pxz,3Pxz,4Pxz,5Pxz,6Pxz,Pxy,can be obtained.
(c) Compounds
35 nitrobenzenes
(d) Calculation of parameters
Projection areas etc.
Projection areas,s1,s2,s3
Standardized projection areas,s4,s5,s6
Parameters of peripheral description
Total of 18,1Pxy,2Pxy,3Pxy,4Pxy,5Pxy,6Pxy,1Pyz,2Pyz,
3Pyz,4Pyz,5Pyz,6Pyz,1Pxz,2Pxz,3Pxz,4Pxz,5Pxz,6Pxz.
Indicated variables,k equals to 0.5,1.0 and 3.0 for
monobenzene,m-dinitrobenzene,and p-or-o-dibenzene,
respectively.
(e) Results by regression analysis
Case 1,Variables V,S1,S2,S3,S4,S5,S6,S7
-log LC50 = 4.19 -2.62* V + 3.41* S1
+ 1.03* S2 + 0.58* S3
-0.24* S5 - 1.58* S7 (1)
R = 0.841,F = 11.27,S = 0.45,N = 35
Case 2,Variables V,S1,S2,S3,S4,S5,S6,S7,k
-log LC50= 4.19+0.58*K-1.12*V
+ 2.66*S1 - 0.12*S3
-0.65*S4 -0.32*S5 -1.77*S7 (2)
R = 0.946,F = 32.88,S = 0.28,N = 35
Case 3,18 peripheral descriptors
-log LC50= 4.19 +28.36* 4Pxy -63.67*5Pxy
+ 36.00*6Pxy –63.46 * 1Pxz
+ 224.29*2Pxz -256.60*3Pxz
+ 95.58* 4Pxz,(3)
R = 0.921,F = 21.62,S = 0.33,N = 35
Case 4,Projection areas and peripheral descriptors etc.
-log LC50= 4.19–1.50*S2–1.78*S3
- 0.18*S6–1.99*S7+ 0.52*K
+3.32*1Pyz+2.67*1Pxz (4)
R = 0.967,F = 56.12,S = 0.22,N = 35
(3) 广义二面角法
(a) 方法广义二面角:若有四结点 a,b,c
和 d,假设,二结点相连为,B”,不相连为,N”,则
BBB--一般意义下二面角
BNB,NBN等 --广义二面角
张庆友,许禄,高等学校化学学报,2002,23,1052
a
b c
d B o n de d
N on - bo n de d
a d
cb
F i g,2 D e s c r i p t i o n o f B N B f r a g m e n t F i g,3 D e s c r i p t i o n o f N B N f r e a g m e n t
(b) 化合物
34个 HEPT( 1-[(2-Hydroxyethoxy)methyl]-
6-(phenylthio) thymine)类化合物
S
N
N H
O
OOH
Y
X
R
1
2
3
4
5
6
(c) 新变量的衍生
BNB或 NBN(原变量)
相似度矩阵相似度系数(新变量)
(d) 相似度计算设化合物分别为 A和 B,其属性(即 BNB或 NBN)分别为
xA和 xB,则塔尼莫特系数计算公式如下,
SAB= (xA∩ xB)/( xA∪ xB)
Results of Leaps-and-Bounds regression
analysis (BNB)
——————————
No Variable R S F
1 15 -0,6179 1,11 19,77
2 26,33 0,7910 0,88 25,90
3 2,26,33 0,8194 0,84 20,43
4 2,15,26,33 0,8613 0,75 20,83
5 2,15,16,26,33 0,8889 0,69 21,09
6 2,15,16,26,29,33 0,9093 0,64 21.49
7 1,2,7,12,16,19,24,0,9260 0,59 22.36
8 2,15,16,25,26,29,32,33 0,9398 0,55 23.64
———————————
(e) 回归分析结果
BNB:
PI50=5.072-0.0264S2-0.0786S15+0.0561S16
+0.0355S26+0.0199S29+0.0373S33
R=0.9093 S=0.64 F=21.49 N=34
NBN:
PI50=6.068-0.0279S2+0.0495S4-0.0233S7
-0.0522S15+0.0283S26+0.0322S33
R=0.9038 S=0.66 F =20.08 N=34
(f) 人工神经网结果
BNB:
R = 0.9805,F = 795.6,RMS = 0.27
NBN:
R = 0.9549,F = 331.2,RMS = 0.41
4.SYBYL Discovery Software Package
分子建模与显示
Base 分子模拟平台
Advanced Computation 分子构象分析工具
Dynamics 分子动力学
MOLCARD 分子表面显示和性质映射
MM4 分子力学工具
AMPAC 半经验量化计算
MOPAC 半经验量化计算
Confort 构象分析工具构效关系与 ADME预测
QSAR with CoMFA 构建预测性强的定量构效关系模型
Advanced CoMFA 优化增强 CoMFA模型的工具
Distill 公共子结构分析
Hint! 分析疏水性
Molconn-Z 计算分子结构的拓扑指数
ALMOND 全新三维描述符计算和 QSAR工具
HQSAR 全息定量构效关系方法
ClogP/CMR 计算用于 QSAR和 ADME的摩尔折射率和
LogP
ZAP 计算和显示分子的静电势
VolSurf ADME性质预测药效基团分析
DISCOtech 预先计算构象生成药效团模型
GASP 自动计算构象生成药效团模型
Receptor 同系物近似法分析药效团
Tuplets 自动构建药效团并进行检索化学信息学
UNITYBase/3D 强大的数据库检索模块
CONCORD 化合物结构的快速转换
StereoPlex 立体化学多样性研究组合化学与分子的多样性
Legion 虚拟组合库构建
OptDesign 设计和编辑组合库
Selector 分子多样性分析
DiverseSolutions 分子多样性分析生物信息学和从头药物设计
Biopolymer 构建、预测、显示生物分子结构的平台
Composer 同源模建构建蛋白质模型
MatchMater Threading方法预测蛋白质结构
GeneFold Threading方法预测蛋白质类型
FUGUE 序列与结构的比较发现同源蛋白
ProTable 分析和评价蛋白质结构的质量
SiteID 搜索蛋白质结构上潜在的结合位点
LeapFrog 片断连接法从头药物设计
RACHEL 在结合腔内进行先导化合物的优化一,计算机辅助分子设计
I,构效关系 (QSAR/QSPR)研究
II,全新药物设计
III.组合化学与药物设计二,有机化合物结构解析专家系统三,计算机辅助合成四,新的化学计量学方法
II,全新药物设计
de novo drug design
de novo ligand design
de novo inhibitor design
全新药物设计
1.活性位点分析法
2.整体分子法 3.连接法位点连接法碎片连接法连续连接法随机连接法
1.活性位点分析法该种方法可用来探测哪些原子或基团与生物大分子的活性(结合)部位有较好的作用。作为探针可能是一些简单的分子或碎片,
如水或苯环,运用它们可以找到活性部位中的可能结合部位。
全新药物设计
1.活性位点分析法
2.整体分子法 3.连接法位点连接法碎片连接法连续连接法随机连接法
2,整体分子法该种方法主要用于分子的对接,分子的对接就是将整个三维数据库中的有机分子契合到受体生物大分子的活性部位上,看小分子的形状是否与生物大分子的形状相匹配,并根据判别函数对分子打分以筛选先导化合物。
全新药物设计
1.活性位点分析法
2.整体分子法 3.连接法
( 1)位点连接法
( 2)碎片连接法
( 3)连续连接法
( 4)随机连接法
3,连接法
(1) 位点连接法位点:受体活性部位空间的一个点,
在此点能设置一个或几个与受体原子有良好作用的匹配原子。如在丙氨酸的侧链周围,可以设置一些疏水性的位点。如果位点上已经设置了合适的配体原子,则称这一位点被满足。
图中:
黑点:
疏水性基团线:
氢键全新药物设计
1.活性位点分析法
2.整体分子法 3.连接法
( 1)位点连接法
( 2)碎片连接法
( 3)连续连接法
( 4)随机连接法
(2) 碎片连接法将与受体活性位点有较好作用的基团用分子连接基团
( linker)连接起来。基本思想是:与受体活性部位有较好作用的基团连接后仍有较好作用 。
SAR-by-NMR:
将小分子与蛋白质组成混合溶液,然后用
2D-NMR方法测定小分子与蛋白质的亲和性碎片连接法的基本实施过程与 SAR-by-NMR相似碎片连接法:用计算机软件筛选分子碎片或数据库中的分子
SAR-by-NMR:用核磁共振方法筛选分子碎片碎片连接法的软件
CAVEAT
HOOK
SPLICE
NEWLEAD
PROLIGAND
ELANA
CAVEAT
设计与受体有良好作用的骨架,然后在骨架上连接不同的碎片 。
全新药物设计
1.活性位点分析法
2.整体分子法 3.连接法
( 1)位点连接法
( 2)碎片连接法
( 3)连续连接法
( 4)随机连接法
( 3) 连续构造法基本思想:配体分子可以根据受体的结构逐步构造出来全新药物设计
1.活性位点分析法
2.整体分子法 3.连接法
( 1)位点连接法
( 2)碎片连接法
( 3)连续连接法
( 4)随机连接法
( 4)随机连接法
CONCEPTS
CONCERTS
DLD
MCDNLG
RECEPTOR
一,计算机辅助分子设计
I,构效关系 (QSAR/QSPR)研究
II,全新药物设计
III.组合化学与药物设计二,有机化合物结构解析专家系统三,计算机辅助合成四,新的化学计量学方法
III,组合化学与药物设计
(combinatorial chemistry)
利用一些基本的小分子如氨基酸、单核苷酸、单糖等,通过化学或生物合成的方法,系统地反复以共价键装配成不同的组合,建立具有多样性的数据库。然后,
用灵敏、快速生物学检测方法,筛选最具潜力的化合物或化合物群,测定其结构,
合成,并评价其药理活性。
用于构建组合化学库的常用单元结构一,计算机辅助分子设计
I,构效关系 (QSAR/QSPR)研究
II,全新药物设计
III.组合化学与药物设计二,有机化合物结构解析专家系统三,计算机辅助合成四,新的化学计量学方法二,有机化合物结构解析专家系统研究
ESESOC(Expert System for Elucidation of
Structures of Organic Compounds)
( 1)人工智能:博弈、定理证明、语音识别、专家系统 ……
( 2)专家系统:在专家知识的基础上,模拟专家演绎推理的过程,得到专家水平的应答。
1,结构解析专家系统的简单回顾自 1987年起,至今已十余年,前后 5次得到国家基金的资助 (目前实施的为第五个基金 ),取得良好的结果,该工作的几个主要阶段为,
(1) 含有 C,H,O有机化合物解析专家系统的研究 ;
(2) 含有多种杂原子有机化合物结构解析专家系统的研究 ;
(3) 在结构解析专家系统研究中多维核磁谱的约束 ;
(4) 结构解析专家系统中空间异构体生成算法的研究;
(5) 手性化合物的研究
胡昌玉,许禄,中国科学,B辑,1994,24,1014
郝军峰,许禄,胡昌玉,中国科学,B辑,2000,17,1
2.有机化合物结构的人工解析实验数据:
质谱、红外、核磁演绎推理:
子结构综合:
整体结构问题:非常费时、费力化学家看世界上万物
( 1) 由什么元素组成?
( 2)什么样的空间 排布(即结构)?
同样的组成,若空间排布不一样,
则构成不同的化合物称为同分 异构体
3.结构解析专家系统 ( 1987- 2004)
实验数据结构片断集结构生成器结构验证结构输出约束
( 1)关键环节结构生成器在结构片断集 的础上进行整体结构
(候选化合物)对接
( 2)此类工作意义实际意义,快速省力理论意义,推动人工智能的发展;推动波谱学基础的研究
对结构产生器的要求是,
(1) 对结构异构的产生是穷举的 ;
(2) 对结构异构的产生是无冗余的 ;
(3)对结构异构的产生是高效的,
高效性的重要性
(1) 异构体的数目非常庞大,如 C6H6的异构体数目是 217个,C20H42的异构体数目 366319个 ;
(2) 无效的数量非常大,如 2个 CH3-,18个 -CH2-,
对接生成 20链烷烃,为了穷举性则要考虑所有组合,而由产生 2*18!无效组合,若在一般计算机上运行,则机器由安装到报废也无法完成,
结构解析专家系统的研究状况该类研究开始于 60年代,世界上有众多的实验室从事有关方面的工作,已开展的研究是非常广泛的,完成的课题是非常大量的,但是,直到现在,卓有成效的,可以实际运行的系统并不多,问题的关键在于没有设计出高效的结构产生器,
3,关于结构产生器我们所取得的突破
(1) 结构产生器的高效性,
我们曾经和世界著名系统 CHEMICS(日本 )
在同一台机器 (Micro VAX II)上生成 C8,
其结果是 CHEMICS系统用去 20个小时,而我们的系统仅用去 20分钟,CHEMICS主要建造人船津公人教授非常惊讶,连连称赞我们的系统是世界水平的,
穷举生成分子式为 C8异构体,即含 n个均为 4
价的碳原子的所有异构体,在这些异构体的生成过程中,无效组合量非常大,因而是检验结构自动生成算法效率的极具挑战性的测试。目前在 PC/486微机上穷举生成 C8仅需要量几分钟。
(2) 结构产生器的穷举性和无冗余性与图论结果的比较:
烷烃系列 CnH2n+2,醇、醚系列 CnH2n+2O,及醛、酮系列
CnH2nO等各类化合物的异构体数目可应用 Polya定理计算出来。
对于分子式 C12H26O,Polya定理计算出来的伯醇数,1238、
仲醇数,1188、叔醇数,631,
三者之和,1238+1188+631 =3057
本系统 ESESOC生成了 3057个醇类异构体二者完全相一致,
与 DENDRAL系统的比较:
ESESOC系统就如下系列分子式与 DENDRAL系统的生成结果进行了比较,
C5Hn,n=12,10,8,6,4,2,0系列,如 C5H6有 40个异构体
C6Hn,n=14,12,10,8,6,4,2,0系列,如 C6H6有 217个异构体我们的系统 ESESOC对这些分子式的生成结果与
DENDRAL系统的生成结果完全相一致 。 由此可见
ESESOC系统的结构生成算法是穷举和非冗余的 。
(3)高选择性拓扑指数所取得的突破
高选择性拓扑指数研究的意义,可以用于大型数据文件的管理及密码的产生;人们试 图从理论上证明有一个拓扑的不变量可以唯一地表征所有的化合物。
由于高效结构生成器的研制成功,使得高选择性拓扑指数的研究成为可能,新近我们所提出的拓扑指数 EAID在选择性方面在目前国内外已有的拓扑指数中是最高的。
它的选择性不仅表现在烷烃类,而且表现在对于含杂原子、含多重键的复杂化合物类。这是迄今世界上尚没有别的实验室能够做得到的。
4.空间异构体产生器取得了良好的进展
( 1)目前世界上具有空间异构体生成的结构解析系统
DENDRAL系统(美国,斯坦福大学)
CASE系统(美国,亚利桑那大学)
CHEMICS系统(日本,丰桥技科大)
ESESOC系统(中国,长春应化所)
CAMGEC(智利)
STREC(俄罗斯)
立体中心的判定
(2) 空间异构体生成的框图拓扑等价性判定自同构群求取构型自同构群空间立体异构体等价类分析最终的立体异构体环约束二维结构异构体
(3)同构与 自同构
G(1)和 G(2)是同构,G(1)和 G(3)是自同构,因为
G(1)和 G(2)中尽管结构相同,但是标号(结点)间的连接关系不同,而 G(1)和 G(3)间连接关系相同,即 G(1)
和 G(3)可以互相通过一个旋转(变换)得到,在下图中 (p(i)为不同的标注 ).
G(1) G(2) G(3)
1 2
34
5
6 7
8 8
76
5
43
21
8 7
65
4
3 2
1
P(1)=(1 2 3 4 5 6 7 8 ) P(2)=(1 2 4 3 5 6 7 8) P(3)=(4 1 2 3 8 5 6 7)
所有满足自同构的置换组成一个群,这个群就是自同构群,
(4)拓扑等价性
1 2
34
5
6 7
8 8
76
5
43
21
8 7
65
4
3 2
1
G(1) G(2) G(3)
拓扑等价的前提是二结构为自同构,即邻接关系相同,
同时,图中对应结点的化学环境亦应相同,如,G(1)与 G(3)为自同构,二图中由于结点 1,2,3和 4所处化学环境相同,所以这 4个结点为拓扑等价;同样,5,6,7,和 8为拓扑等价,
(5)自同构群的生成方法自同构群的生成是立体异构体穷举生成过程中最耗时的步骤,
传统方法,量子化学方法
本系统,图论方法 +拓扑等价性算法 (本实验室所建议 )
对于确认立体中心,拓扑等价性算法非常重要,因为 对于碳来说,其相连的 4个结点完全不等价的情况很少,而大多数情况下需根据拓扑等价性来判断。实验证明,本实验室所建议的拓扑等价算法非常行之有效 。
( 6) ESESOC系统已可穷举地、无冗余地和高效地生成空间异构体目前我们的系统不仅对于由不对称碳所引起的点不对称、
碳 -碳双键引起的几何异构、以及由累烯键等引起的轴不对称均能穷举生成其立体异构体,同时我们的系统还能够对于氮、磷、硫以及硅所引起的点不对称、轴不对称及几何异构穷举地、无冗余地和高效地进行立体异构体的生成。
已经表明,由 ESESOC所得结果与理论计算结果完全相一致 。
( 7)生成实例如六氯环己烷对是一称性比较高的化合物,本系统得到了它的 9个立体异构体,并且能够识别其中
2个为对映体,7个为非对映体,与实际完全相符合。
Cl
Cl
Cl Cl
Cl
Cl
Cl
Cl
Cl
Cl
Cl
Cl
Cl
Cl Cl
Cl
ClCl
Cl
Cl
Cl
Cl
Cl
Cl
Cl
Cl
Cl
Cl
Cl
Cl
Cl
Cl Cl
Cl
ClCl Cl
Cl
Cl
Cl
Cl
Cl
Cl
Cl
Cl
Cl
Cl
Cl
Cl
Cl
Cl
Cl
Cl
Cl
一,计算机辅助分子设计
I,构效关系 (QSAR/QSPR)研究
II,全新药物设计
III.组合化学与药物设计二,有机化合物结构解析专家系统三,计算机辅助合成四,新的化学计量学方法计算机辅助合成设计
1,类型计算机辅助合成设计始于 60年代,多部分集中于发达国家,如美国,几十年来已经发展起来许许多多的系统,并在药物工业、材料工业中发挥越来越重要的作用,已有的系统可分为两大类,
(1) 经验型
反应数据库
知识库 (反应规则库 )
推理机 (逻辑推理部分 )
(2)理论型
2,逆向推理
正向反应,反 应
逆向反应,转换
逆向推理所得结果,前体
2,逆向推理
正向反应,反 应
逆向反应,转换
逆向推理所得结果,前体
3,主要的系统
OCSS(Organic Development of Computer-Aided
Synthesis Design)
E.J.Corey,W.T.Wipke(美国 )
LHASA(Logic and Heuristics Applied to Synthetic
Analysis)
E.J.Corey,W.T.Wipke (美国 )
SECS(Simulation and Evaluation of Chemical
Synthesis)
W.T.Wipke (美国 ),2000 transforms,被用于 Merck公司
CASP(德国和瑞士跨国公司 ),6000 transforms
SST(Starting Material Solutions)
W.T.Wipke (美国 )
SYNCHEM
H.L.Gelernter et al,(美国 )
CAMEO(Computer Assisted Mechanistic Evaluation
of Organic Reactions)
T.D.Salatin,W.L.Joegensen (美国 )
SYNGEN
J.B.Hendrickson(美国 )
CHIRON
S.Henession(英国 )
LILITH
L.Baumer et al.
AIPHOS(Artificial Intelligence for Planning and
Handing Organic Synthesis)
K.Funatsu,S.I.Sasaki(日本 )
CICLOPS
I.Ugi et al,(德国 )
EROS(Elaboration of Reactions for Organic Synthesis)
J.Gasteiger et al.(德国 )
一,计算机辅助分子设计
I,构效关系 (QSAR/QSPR)研究
II,全新药物设计
III.组合化学与药物设计二,有机化合物结构解析专家系统三,计算机辅助合成四,新的化学计量学方法四,新的化学计量学方法
1,神经网络法目前运用最多的是反向传输法 (BP法 )
BP神经网示意图输出层隐蔽层输入层
2,遗传算法 (Genetic Algorithm)
20世纪 60年代美国 Michigen大学的 John
Holland等人创立了一种新的方法,即遗传算法。
该种方法建立在生物体进化过程中“适者生存”
这一自然准则的基础之上。其计算步骤为:
( 1)随机产生一个由确定长度的特征串组成的初始群体;
( 2)进行复制、杂交、变异的运算;
( 3)把在任一代中出现的最好的个体串指定为遗传算法的结果;
( 4)进行迭代操作,直到满足停止的准则。
Generate
initial
population
Evaluate
Objective
function
Are
optimization
criteria met?
Best
individuals
Cross-over
Recombination
Mutation
Generate
new
population
result
start
yes
遗传算法的计算框图
no
3,模拟退火 (simulated anneal)
模拟退火法是模拟金属退火的一种计算方法,统计力学表明,在状态?下,原子能量的概率分布在给定温度 T满足 Boltzman方程,
))(e x p (
)(
1
)(
Tk
E
TZ
EEp
B
其中,E(?)为状态?下的能量,kB为 Boltzman常数,Z(T)
为概率分布的标准化因子。在任意的温度下,达到平衡状态其最可能是在原子能量最低的状态,这与组合优化有相似之处。 模拟退火的算法就是根据这一基本原理所衍生。
4.小波变换分析小波变换分析是在 Fourier变换基础上发展起来的分析方法。小波是满足一定条件的函数通过平移和收缩而产生的函数族,并可实现信号的时频局部化。
小波变换分析已经广泛应用于图象处理、量子场论、地震勘探、语音识别和合成、雷达、
天体识别、机器视觉等。在分析化学上,小波变换分析主要用于噪音的滤除、曲线拟合、重叠峰分解及基线校正等。
5,支持向量机 (support vector machine- SVM)法如何在追求合理的拟合精度的同时,最大限度地控制过拟合,是“小样本数据集”的统计学习理论要解决的问题。
近年来,Vapnik提出支持向量机算法。很快得到了广泛应用,并收到了良好的效果。
在支持向量机这种算法中,其关键操作是用一核函数将线性不可分的点(即矢量)转换到另一空间,
使之变得线性可分(如下图)。
落在空白间隔(不妨称为隔离带,见下图)边沿上的点对分类起着决定性的作用,每一点为一向量,
则称之为“支持向量”。
两类样本点分布区的空白间隔和支持向量示意图在分类中,
隔离带越窄、
落在边沿上的点越多,
则预报能力越差;与之相反,隔离带越宽、落在边沿上的点越少,则预报的能力越强(见右)。
DDDDDD DDDDDD
I,构效关系 (QSAR/QSPR)研究
II,全新药物设计
III.组合化学与药物设计二,有机化合物结构解析专家系统三,计算机辅助合成四,新的化学计量学方法一,计算机辅助分子设计
( Computer-aided molecular
design)
I,构效关系研究
(Quantitative Structure-Activity/Property
Relationship study,QSAR/QSPR)
基本假设,
化合物的结构与其活性 /性质是相关的 ;
化合物的结构与其活性 /性质不是一一对应的,
分子结构图 活性 /性质结构特征 统计函数或模式识别数学模型结构特征 统计函数或模式识别
?
Y = f( x1,x2,…,xm)
式中:
Y为活性 /性质;
x1,x2,…,xm为结构特征。
y(体重 )= f(身高 )
体重,y
身高,x
Y(体重 )= f(身高,腰围)
体重,y
身高,x1,腰围,x2
结构图输入 特征计算(得到自变量) 特征分析
(自变量选择)
3D结构模型的建立 数学模型建立及预测如,y,正烷烃分子的沸点; x:分子中碳原子的数目特征的主要类型:
( 1)拓扑类参数:如图论指数
(即拓扑指数),结构片断等;
( 2)几何类参数:如键长,键角,
二面角等;
( 3)电子类参:如,量化参数等;
( 4)物理化学类参数:如疏水性参数,超热力学参数等。
二维构效关系研究
( 2D QSAR/QSPR)
不主要运用 3D结构特征在本研究工作中,苯胺类化合物的生物毒性是该化合物对小鼠的口服毒性半致死量 LD50,即引起半数受试小鼠死亡所需的苯胺类化合物的剂量。实验数据来源于美国国家职业安全与卫生所编制发行的 RTECS(Registory of
Toxic Effects of Chemical Substances)。
苯胺类化合物的母体结构为:
* Xu Lu et al.,Science in China (Series B),2000,43,129-136
12
3
4
NH 2
R 1R 2
R 3
R 4 R 5
苯胺类化合物的结构及其生物毒性
Table 1 Substituted amino-benzens and their toxicity
No,R1 R2 R3 R4 R5 -log(LD50) --log(LD50) diff.
(obs) (cal) 1 Me H H H H -2.826
-2.854 0.028
2 H Me H H H -2.653 -2.697 0.044
3 H H Me H H -2.817 -2.778 -0.039
4 Et H H H H -3.100 -3.084 -0.016
5 isoprop H H H H -3.072 -3.067 -0.005
6 Me Me H H H -2.970 -2.980 0.010
7 Me H Me H H -3.113 -3.097 -0.016
8 Me H H Me H -2.924 -2.919 -0.005
9 Me H H H Me -2.924 -2.917 -0.007
10 H Me Me H H -2.909 -2.915 0.006
11 H Me H Me H -2.849 -2.834 -0.015
12 Me H H H Et -3.072 -3.106 0.034
13 Et H H H Et -3.255 -3.276 0.021
14 Me H Me H Me -2.871 -2.903 0.032
15 H CF3 H H H -2.681 -2.685 0.004
16 H Cl H H H -2.408 -2.419 0.011
17 H H Cl H H -2.491 -2.501 0.010
18 H Cl Cl H H -2.812 -2.767 -0.045
19 Me Cl H H H -2.759 -2.694 -0.065
20 Me H H Cl H -2.667 -2.669 0.002
21 Cl H Me H H -2.565 -2.580 0.015
22 H H F H H -2.620 -2.634 0.014
23 H H Br H H -2.659 -2.657 -0.002
24 H NO2 H H H -2.728 -2.687 -0.041
25 H H NO2 H H -2.875 -2.875 0.000
26 Me H H NO2 H -2.759 -2.760 0.001
27 NO2 H Cl H H -2.602 -2.605 0.003
28 H NO2 Cl H H -2.602 -2.601 -0.001
29 NO2 H NO2 H H -2.621 -2.634 0.013
1,Calculation of descriptors
Quantum-chemical parameters,7;
Molecular connectivity indices mxt,11;
Topological indices Ami,3
Indicative variable I,1
Total,22
e.g.,Hform,-Ehomo,?,- Elumo,mxt,Ami.
* Yu-Xin Zhou,Lu Xu et al.,Chem,Intell,Lab,Syst.,1999,45,95-100
1,Calculation of Descriptors
2,Selection of Descriptors
(1)经典方法
向前法
向后法
逐步回归法
( 2)主成分分析
( 3)正交变换
( 4) Leaps-and-Bounds Regression
( 5)模拟退火法
( 6)遗传算法
( 7)人工神经网络法
* Xu Lu et al.,Anal,Chim,Acta,2001,446,477-483
Leaps-and-Bounds Regression
_______________________
No Descriptor R F S
----------------------------------------------------
1 1 0.084 4.6 0.14
2 1,7 0.831 5.6 0.13
3 1,2,7 0.833 18.9 0.12
4 1,2,3,7 0.868 18.4 0.11
5 1,2,3,5,7 0.901 19.8 0.097
6 1,2,3,5,6,7 0.913 12.5 0.098
7 1,2,3,5,6,7,8 0.913 15.1 0.096
____________________________
数学方法的选择
( 1)多元回归分析
( 2)人工神经网络方法
( 3) CoMFA方法
The rule,n/m?5
n,number of samples; m,number of
variables.
-log(LD50) = -0.760 - 1.744*10-3Ef - 5.452*10-2EL
- 1.295*10-2Am3 + 1.556*10-3Ep
-1.171*10-3Ee
R = 0.901,F = 19.8,S = 0.097,n = 29
where Ef,heat of formation;
EL,LUMO ;
Am3,topological index;
Ep,repulse energy;
Ee,electronic energy.
3,Multiple Regression
4,Artificial Neural Network
Algorithm,BFGS quasi-Newton method
Architecture,6,3,1
Results,(Regression)
R = 0.967 (R = 0.901)
F = 386.6 (F = 19.8 )
S = 0.053 (S = 0.097)
These are much better than those obtained by
multiple regression analysis.
三维构效关系研究
( 3D QSAR/QSPR)
80年代出现了多种 3D-
QSAR方法,但目前最重要最为广泛应用的是 CoMFA
(Comparative Molecular Field Analysis)方法。
Cramer III R D et al.,J,Am,Soc.,1998,110,5959-5967)
CoMFA方法 1988-1998
发表文章情况为:
1988-1992 80
1993-1997 287
1998 97
其应用包括:
Various 3D-QSAR applications
Interaction energy fields
Nonlinearity
Superposition
Conformational analysis
Molecular similarity
PLS algorithms
Neural networks
Molecular diversity
1.在 3D QSAR 研究中
CoMFA的单独应用已用于多类化合物。这些化合物主要分为:
( 1)药物
( 2)环境中的有害有机化合物
( 3)其他
(1) 苯甲酰胺类化合物的结构 /活性的 QSAR研究
吴亚平,许禄等,高等学校化学学报,1998,19,694
Yu-Xin Zhou,Lu Xu et al.,Chemom,Intell,Lab,System.,1999,45,95
苯甲酰胺类化合物的母体结构为,
The compounds and their activities
A,多元回归分析
特征的提取电子特征:主要为量化参数拓扑特征:分子连接性指数 mxt:
0xp,1xp,2xp,… 6xpc
(共 18个)
特征的选择初选后剩 6个,0xp,4xp,5xp,6xp,4xch,6xch
Results with Leaps-and-
Bounds regression analysis
___________________________________________
No Variable R F
___________________________________________
1 5 0.8630 61.78
2 3,5 0.8751 32.71
3 2,3,5 0.8865 23.25
4 2,3,5,6 0.8899 17.12
5 2,3,4,5,6 0.8906 13.04
6 1,2,3,4,5,6 0.8906 10.23
___________________________________________
回归结果经验规则,n/m? 5
logRI = 3.002 +0.8909 4xp - 1.3465 5xp
-13.9234 6xch
R = 0.8865,F = 23.24,S = 0.572
B,CoMFA方法
化合物的重叠模板化合物,1(抗炎活性最大 )
重叠原子,8,9和 16
使重叠后的均方根偏差为最小。
探针:
H+
空间网格大小:
对于 x,y,z三坐标均为从 -1.3nm到 1.9nm
结果的比较
3D QSAR
CoMFA:
R = 0.993
S.D,= 0.128
2D QSAR
多元回归分析,
R = 0.887
S.D,= 0.572
No logIR(cal) logIR(obs) Err
观测值、计算值及差值
三维空间立体能轮廓图和静电能轮廓图
(2) 新型抗艾滋病药物吡喃酮类化合物的三维定量构效关系研究
( a) 母体结构
19个吡喃酮类化合物的结构及活性
( b)实验条件
模板化合物,15
网格大小:
x,-1.7--1.0 (nm)
y,-1.9--0.5 (nm)
z,-1.9--1.0 (nm)
探针,sp3 C+
( c)结果
R = 0.984
F = 103
S = 0.011
立体能 /静电能
= 0.852/0.148
立体能和静电能轮廓图立体能轮廓图 静电能轮廓图
2,CoMFA与其它方法的结合我们发现:
CoMFA方法对某些类化合物的适应性较差,但与其它方法相结合,或者说将其他参数引入 CoMFA的数学模型,则可使结果大为改进。
29个苯胺类化合物的结构及其生物毒性毒性,对小鼠的口服毒性半致死量 LD50,
苯胺类化合物的母体结构为:
* Xu Lu et al.,Science in China (Series B),2000,43,129-136
12
3
4
NH 2
R 1R 2
R 3
R 4 R 5
Substituted amino-benzens and their toxicity
No,R1 R2 R3 R4 R5 -log(LD50) --log(LD50) diff.
(obs) (cal) 1 Me H H H H -2.826
-2.854 0.028
2 H Me H H H -2.653 -2.697 0.044
3 H H Me H H -2.817 -2.778 -0.039
4 Et H H H H -3.100 -3.084 -0.016
5 isoprop H H H H -3.072 -3.067 -0.005
6 Me Me H H H -2.970 -2.980 0.010
7 Me H Me H H -3.113 -3.097 -0.016
8 Me H H Me H -2.924 -2.919 -0.005
9 Me H H H Me -2.924 -2.917 -0.007
10 H Me Me H H -2.909 -2.915 0.006
11 H Me H Me H -2.849 -2.834 -0.015
12 Me H H H Et -3.072 -3.106 0.034
13 Et H H H Et -3.255 -3.276 0.021
14 Me H Me H Me -2.871 -2.903 0.032
15 H CF3 H H H -2.681 -2.685 0.004
16 H Cl H H H -2.408 -2.419 0.011
17 H H Cl H H -2.491 -2.501 0.010
18 H Cl Cl H H -2.812 -2.767 -0.045
19 Me Cl H H H -2.759 -2.694 -0.065
20 Me H H Cl H -2.667 -2.669 0.002
21 Cl H Me H H -2.565 -2.580 0.015
22 H H F H H -2.620 -2.634 0.014
23 H H Br H H -2.659 -2.657 -0.002
24 H NO2 H H H -2.728 -2.687 -0.041
25 H H NO2 H H -2.875 -2.875 0.000
26 Me H H NO2 H -2.759 -2.760 0.001
27 NO2 H Cl H H -2.602 -2.605 0.003
28 H NO2 Cl H H -2.602 -2.601 -0.001
29 NO2 H NO2 H H -2.621 -2.634 0.013
The rule,n/m?5
.
-log(LD50) = -0.760 - 1.744*10-3Ef - 5.452*10-2EL
- 1.295*10-2Am3 + 1.556*10-3Ep
-1.171*10-3Ee
R = 0.901,F = 19.8,S = 0.097,n = 29
where Ef,heat of formation;
EL,LUMO ;
Am3,topological index;
Ep,repulse energy;
Ee,electronic energy.
(1) Multiple Regression
(2) Artificial Neural Network
Algorithm,BFGS quasi-Newton method
Architecture,6,3,1
Results,(Regression)
R = 0.967 (R = 0.901)
F = 386.6 (F = 19.8 )
S = 0.053 (S = 0.097)
These are much better than those obtained by
multiple regression analysis.
(3) 3D-QSAR Studies
(1) Method,CoMFA
(2) Basic assumption:
Stereo field (Es)
Electrostatic field (Ee)
Hydrophobicity (logP)
(3) Results,
Es+Ee,R,0.85; Rcv,0.64
Es+Ee+logP,R,0.85; Rcv,0.64
Es+Ee+Ef,R:0.975; Rcv,0.88
* 许禄,吴亚平等,中国科学( B辑 ),2000,30,1-7
Fig.1 Orthogonal views of
compound 16 embedded in
contour maps derived from the
stereo CoMFA model
Fig.2 Front views of compound
16 embedded incontour maps
derived from the electrostatic
CoMFA model
3,在 SYBYL/BASE基础上的其他方法研究在 3D QSAR研究中,绝大部分方法的首先要求是化合物应为最优构像。
Tripos公司的 Sybyl的 Base系统为该类研究提供了有效的手段。
(1)在三维直角坐标系统中分子的位点编码法设想将一分子置于带有网格的三维空间图 3 在三维直角坐标系统中的甲苯分子图 4 分子投影示意图化合物,29个苯胺类化合物
12
3
4
NH 2
R 1R 2
R 3
R 4 R 5
许禄,杨嘉安,吴亚平,中国科学,B辑,2003,33,261-267
(a) 最小二乘结果
-logLD50 = -2.580 - 6.846x10-4Ef
- 3.648x10-2EL- 5.906x10-3Am3
+ 2.177x10-2Pyz -2.525x10-2Pxz
R = 0.951,F = 43,S= 0.06,n =29
结果比较,
变量 --Ef,EL,Am3,Ee,Ep,R = 0.901
变量 --Ef,EL,Am3,Pyz,Pxz,R = 0.951
(b) 人工神经网结果
算法,BFGS 赝 -牛顿法
网络结构,5,2,1
结果,
R = 0.993; F = 1868; S = 0.023
结果比较,
变量 --Ef,EL,Am3,Ee,Ep,R=0.967
变量 --Ef,EL,Am3,Pyz,Pxz,R=0.993
只要能对分子的结构进行有效的描述,就能够构造出好的数学模型 ;
除了空间能、静电能、生成热,苯胺类化合物的毒性还非常决定于分子在三维空间的投影面积。这可能是该参数在客观上较好地反映了化合物与生物大分子的,空穴,拟合得好坏程度;
Am3反映的是分子的大小和形状,这又一次说明,
分子的形状是制约苯胺类化合物毒性的重要因素。
(c) 几点结论
( 2)边沿描述法
The deficiency of projection area is
different shapes of the projections may possess
the same areas,For improving the predictive
results,the description of the projection
peripheral algorithm was investigated in this
work.
(a) Principle of the method*
In the case of benzene the (geometry) distance matrix is:
013231
101323
310132
231013
323101
132310
013431
101343
310134
431013
343101
134310
2
D
If all the elements in matrix (1) are squared,we can
obtain matrix(2),2D,Similarly,we can obtain 3D,4D,…
From these matrices,the row (or column) sums divided by
6 can be obtained,Based on this,finally,the variables for
peripheral description,0P,1P,2P,3P,…,can be obtained.
( 1) ( 2)
For benzene,the result is:
P = 6,7.464,3.399,1.5,0.543,
0.167,…
(b) Projection of nitrobenzene on y-z plane
Above method can be extended for the projection in 3D
space,As the projection points are on the intersections of
the grids,so the geometry distances for the peripheral
description can be calculated easily
As an example,the distance matrix in the rectangle in the
figure is:
012101729
10151052
2102513
1052015
17105102
295213520
Using the method described as above,18 parameters,2Pxy,
3Pxy,4Pxy,5Pxy,6Pxy,1Pyz,2Pyz,3Pyz,4Pyz,5Pyz,6Pyz,1Pxz,
2Pxz,3Pxz,4Pxz,5Pxz,6Pxz,Pxy,can be obtained.
(c) Compounds
35 nitrobenzenes
(d) Calculation of parameters
Projection areas etc.
Projection areas,s1,s2,s3
Standardized projection areas,s4,s5,s6
Parameters of peripheral description
Total of 18,1Pxy,2Pxy,3Pxy,4Pxy,5Pxy,6Pxy,1Pyz,2Pyz,
3Pyz,4Pyz,5Pyz,6Pyz,1Pxz,2Pxz,3Pxz,4Pxz,5Pxz,6Pxz.
Indicated variables,k equals to 0.5,1.0 and 3.0 for
monobenzene,m-dinitrobenzene,and p-or-o-dibenzene,
respectively.
(e) Results by regression analysis
Case 1,Variables V,S1,S2,S3,S4,S5,S6,S7
-log LC50 = 4.19 -2.62* V + 3.41* S1
+ 1.03* S2 + 0.58* S3
-0.24* S5 - 1.58* S7 (1)
R = 0.841,F = 11.27,S = 0.45,N = 35
Case 2,Variables V,S1,S2,S3,S4,S5,S6,S7,k
-log LC50= 4.19+0.58*K-1.12*V
+ 2.66*S1 - 0.12*S3
-0.65*S4 -0.32*S5 -1.77*S7 (2)
R = 0.946,F = 32.88,S = 0.28,N = 35
Case 3,18 peripheral descriptors
-log LC50= 4.19 +28.36* 4Pxy -63.67*5Pxy
+ 36.00*6Pxy –63.46 * 1Pxz
+ 224.29*2Pxz -256.60*3Pxz
+ 95.58* 4Pxz,(3)
R = 0.921,F = 21.62,S = 0.33,N = 35
Case 4,Projection areas and peripheral descriptors etc.
-log LC50= 4.19–1.50*S2–1.78*S3
- 0.18*S6–1.99*S7+ 0.52*K
+3.32*1Pyz+2.67*1Pxz (4)
R = 0.967,F = 56.12,S = 0.22,N = 35
(3) 广义二面角法
(a) 方法广义二面角:若有四结点 a,b,c
和 d,假设,二结点相连为,B”,不相连为,N”,则
BBB--一般意义下二面角
BNB,NBN等 --广义二面角
张庆友,许禄,高等学校化学学报,2002,23,1052
a
b c
d B o n de d
N on - bo n de d
a d
cb
F i g,2 D e s c r i p t i o n o f B N B f r a g m e n t F i g,3 D e s c r i p t i o n o f N B N f r e a g m e n t
(b) 化合物
34个 HEPT( 1-[(2-Hydroxyethoxy)methyl]-
6-(phenylthio) thymine)类化合物
S
N
N H
O
OOH
Y
X
R
1
2
3
4
5
6
(c) 新变量的衍生
BNB或 NBN(原变量)
相似度矩阵相似度系数(新变量)
(d) 相似度计算设化合物分别为 A和 B,其属性(即 BNB或 NBN)分别为
xA和 xB,则塔尼莫特系数计算公式如下,
SAB= (xA∩ xB)/( xA∪ xB)
Results of Leaps-and-Bounds regression
analysis (BNB)
——————————
No Variable R S F
1 15 -0,6179 1,11 19,77
2 26,33 0,7910 0,88 25,90
3 2,26,33 0,8194 0,84 20,43
4 2,15,26,33 0,8613 0,75 20,83
5 2,15,16,26,33 0,8889 0,69 21,09
6 2,15,16,26,29,33 0,9093 0,64 21.49
7 1,2,7,12,16,19,24,0,9260 0,59 22.36
8 2,15,16,25,26,29,32,33 0,9398 0,55 23.64
———————————
(e) 回归分析结果
BNB:
PI50=5.072-0.0264S2-0.0786S15+0.0561S16
+0.0355S26+0.0199S29+0.0373S33
R=0.9093 S=0.64 F=21.49 N=34
NBN:
PI50=6.068-0.0279S2+0.0495S4-0.0233S7
-0.0522S15+0.0283S26+0.0322S33
R=0.9038 S=0.66 F =20.08 N=34
(f) 人工神经网结果
BNB:
R = 0.9805,F = 795.6,RMS = 0.27
NBN:
R = 0.9549,F = 331.2,RMS = 0.41
4.SYBYL Discovery Software Package
分子建模与显示
Base 分子模拟平台
Advanced Computation 分子构象分析工具
Dynamics 分子动力学
MOLCARD 分子表面显示和性质映射
MM4 分子力学工具
AMPAC 半经验量化计算
MOPAC 半经验量化计算
Confort 构象分析工具构效关系与 ADME预测
QSAR with CoMFA 构建预测性强的定量构效关系模型
Advanced CoMFA 优化增强 CoMFA模型的工具
Distill 公共子结构分析
Hint! 分析疏水性
Molconn-Z 计算分子结构的拓扑指数
ALMOND 全新三维描述符计算和 QSAR工具
HQSAR 全息定量构效关系方法
ClogP/CMR 计算用于 QSAR和 ADME的摩尔折射率和
LogP
ZAP 计算和显示分子的静电势
VolSurf ADME性质预测药效基团分析
DISCOtech 预先计算构象生成药效团模型
GASP 自动计算构象生成药效团模型
Receptor 同系物近似法分析药效团
Tuplets 自动构建药效团并进行检索化学信息学
UNITYBase/3D 强大的数据库检索模块
CONCORD 化合物结构的快速转换
StereoPlex 立体化学多样性研究组合化学与分子的多样性
Legion 虚拟组合库构建
OptDesign 设计和编辑组合库
Selector 分子多样性分析
DiverseSolutions 分子多样性分析生物信息学和从头药物设计
Biopolymer 构建、预测、显示生物分子结构的平台
Composer 同源模建构建蛋白质模型
MatchMater Threading方法预测蛋白质结构
GeneFold Threading方法预测蛋白质类型
FUGUE 序列与结构的比较发现同源蛋白
ProTable 分析和评价蛋白质结构的质量
SiteID 搜索蛋白质结构上潜在的结合位点
LeapFrog 片断连接法从头药物设计
RACHEL 在结合腔内进行先导化合物的优化一,计算机辅助分子设计
I,构效关系 (QSAR/QSPR)研究
II,全新药物设计
III.组合化学与药物设计二,有机化合物结构解析专家系统三,计算机辅助合成四,新的化学计量学方法
II,全新药物设计
de novo drug design
de novo ligand design
de novo inhibitor design
全新药物设计
1.活性位点分析法
2.整体分子法 3.连接法位点连接法碎片连接法连续连接法随机连接法
1.活性位点分析法该种方法可用来探测哪些原子或基团与生物大分子的活性(结合)部位有较好的作用。作为探针可能是一些简单的分子或碎片,
如水或苯环,运用它们可以找到活性部位中的可能结合部位。
全新药物设计
1.活性位点分析法
2.整体分子法 3.连接法位点连接法碎片连接法连续连接法随机连接法
2,整体分子法该种方法主要用于分子的对接,分子的对接就是将整个三维数据库中的有机分子契合到受体生物大分子的活性部位上,看小分子的形状是否与生物大分子的形状相匹配,并根据判别函数对分子打分以筛选先导化合物。
全新药物设计
1.活性位点分析法
2.整体分子法 3.连接法
( 1)位点连接法
( 2)碎片连接法
( 3)连续连接法
( 4)随机连接法
3,连接法
(1) 位点连接法位点:受体活性部位空间的一个点,
在此点能设置一个或几个与受体原子有良好作用的匹配原子。如在丙氨酸的侧链周围,可以设置一些疏水性的位点。如果位点上已经设置了合适的配体原子,则称这一位点被满足。
图中:
黑点:
疏水性基团线:
氢键全新药物设计
1.活性位点分析法
2.整体分子法 3.连接法
( 1)位点连接法
( 2)碎片连接法
( 3)连续连接法
( 4)随机连接法
(2) 碎片连接法将与受体活性位点有较好作用的基团用分子连接基团
( linker)连接起来。基本思想是:与受体活性部位有较好作用的基团连接后仍有较好作用 。
SAR-by-NMR:
将小分子与蛋白质组成混合溶液,然后用
2D-NMR方法测定小分子与蛋白质的亲和性碎片连接法的基本实施过程与 SAR-by-NMR相似碎片连接法:用计算机软件筛选分子碎片或数据库中的分子
SAR-by-NMR:用核磁共振方法筛选分子碎片碎片连接法的软件
CAVEAT
HOOK
SPLICE
NEWLEAD
PROLIGAND
ELANA
CAVEAT
设计与受体有良好作用的骨架,然后在骨架上连接不同的碎片 。
全新药物设计
1.活性位点分析法
2.整体分子法 3.连接法
( 1)位点连接法
( 2)碎片连接法
( 3)连续连接法
( 4)随机连接法
( 3) 连续构造法基本思想:配体分子可以根据受体的结构逐步构造出来全新药物设计
1.活性位点分析法
2.整体分子法 3.连接法
( 1)位点连接法
( 2)碎片连接法
( 3)连续连接法
( 4)随机连接法
( 4)随机连接法
CONCEPTS
CONCERTS
DLD
MCDNLG
RECEPTOR
一,计算机辅助分子设计
I,构效关系 (QSAR/QSPR)研究
II,全新药物设计
III.组合化学与药物设计二,有机化合物结构解析专家系统三,计算机辅助合成四,新的化学计量学方法
III,组合化学与药物设计
(combinatorial chemistry)
利用一些基本的小分子如氨基酸、单核苷酸、单糖等,通过化学或生物合成的方法,系统地反复以共价键装配成不同的组合,建立具有多样性的数据库。然后,
用灵敏、快速生物学检测方法,筛选最具潜力的化合物或化合物群,测定其结构,
合成,并评价其药理活性。
用于构建组合化学库的常用单元结构一,计算机辅助分子设计
I,构效关系 (QSAR/QSPR)研究
II,全新药物设计
III.组合化学与药物设计二,有机化合物结构解析专家系统三,计算机辅助合成四,新的化学计量学方法二,有机化合物结构解析专家系统研究
ESESOC(Expert System for Elucidation of
Structures of Organic Compounds)
( 1)人工智能:博弈、定理证明、语音识别、专家系统 ……
( 2)专家系统:在专家知识的基础上,模拟专家演绎推理的过程,得到专家水平的应答。
1,结构解析专家系统的简单回顾自 1987年起,至今已十余年,前后 5次得到国家基金的资助 (目前实施的为第五个基金 ),取得良好的结果,该工作的几个主要阶段为,
(1) 含有 C,H,O有机化合物解析专家系统的研究 ;
(2) 含有多种杂原子有机化合物结构解析专家系统的研究 ;
(3) 在结构解析专家系统研究中多维核磁谱的约束 ;
(4) 结构解析专家系统中空间异构体生成算法的研究;
(5) 手性化合物的研究
胡昌玉,许禄,中国科学,B辑,1994,24,1014
郝军峰,许禄,胡昌玉,中国科学,B辑,2000,17,1
2.有机化合物结构的人工解析实验数据:
质谱、红外、核磁演绎推理:
子结构综合:
整体结构问题:非常费时、费力化学家看世界上万物
( 1) 由什么元素组成?
( 2)什么样的空间 排布(即结构)?
同样的组成,若空间排布不一样,
则构成不同的化合物称为同分 异构体
3.结构解析专家系统 ( 1987- 2004)
实验数据结构片断集结构生成器结构验证结构输出约束
( 1)关键环节结构生成器在结构片断集 的础上进行整体结构
(候选化合物)对接
( 2)此类工作意义实际意义,快速省力理论意义,推动人工智能的发展;推动波谱学基础的研究
对结构产生器的要求是,
(1) 对结构异构的产生是穷举的 ;
(2) 对结构异构的产生是无冗余的 ;
(3)对结构异构的产生是高效的,
高效性的重要性
(1) 异构体的数目非常庞大,如 C6H6的异构体数目是 217个,C20H42的异构体数目 366319个 ;
(2) 无效的数量非常大,如 2个 CH3-,18个 -CH2-,
对接生成 20链烷烃,为了穷举性则要考虑所有组合,而由产生 2*18!无效组合,若在一般计算机上运行,则机器由安装到报废也无法完成,
结构解析专家系统的研究状况该类研究开始于 60年代,世界上有众多的实验室从事有关方面的工作,已开展的研究是非常广泛的,完成的课题是非常大量的,但是,直到现在,卓有成效的,可以实际运行的系统并不多,问题的关键在于没有设计出高效的结构产生器,
3,关于结构产生器我们所取得的突破
(1) 结构产生器的高效性,
我们曾经和世界著名系统 CHEMICS(日本 )
在同一台机器 (Micro VAX II)上生成 C8,
其结果是 CHEMICS系统用去 20个小时,而我们的系统仅用去 20分钟,CHEMICS主要建造人船津公人教授非常惊讶,连连称赞我们的系统是世界水平的,
穷举生成分子式为 C8异构体,即含 n个均为 4
价的碳原子的所有异构体,在这些异构体的生成过程中,无效组合量非常大,因而是检验结构自动生成算法效率的极具挑战性的测试。目前在 PC/486微机上穷举生成 C8仅需要量几分钟。
(2) 结构产生器的穷举性和无冗余性与图论结果的比较:
烷烃系列 CnH2n+2,醇、醚系列 CnH2n+2O,及醛、酮系列
CnH2nO等各类化合物的异构体数目可应用 Polya定理计算出来。
对于分子式 C12H26O,Polya定理计算出来的伯醇数,1238、
仲醇数,1188、叔醇数,631,
三者之和,1238+1188+631 =3057
本系统 ESESOC生成了 3057个醇类异构体二者完全相一致,
与 DENDRAL系统的比较:
ESESOC系统就如下系列分子式与 DENDRAL系统的生成结果进行了比较,
C5Hn,n=12,10,8,6,4,2,0系列,如 C5H6有 40个异构体
C6Hn,n=14,12,10,8,6,4,2,0系列,如 C6H6有 217个异构体我们的系统 ESESOC对这些分子式的生成结果与
DENDRAL系统的生成结果完全相一致 。 由此可见
ESESOC系统的结构生成算法是穷举和非冗余的 。
(3)高选择性拓扑指数所取得的突破
高选择性拓扑指数研究的意义,可以用于大型数据文件的管理及密码的产生;人们试 图从理论上证明有一个拓扑的不变量可以唯一地表征所有的化合物。
由于高效结构生成器的研制成功,使得高选择性拓扑指数的研究成为可能,新近我们所提出的拓扑指数 EAID在选择性方面在目前国内外已有的拓扑指数中是最高的。
它的选择性不仅表现在烷烃类,而且表现在对于含杂原子、含多重键的复杂化合物类。这是迄今世界上尚没有别的实验室能够做得到的。
4.空间异构体产生器取得了良好的进展
( 1)目前世界上具有空间异构体生成的结构解析系统
DENDRAL系统(美国,斯坦福大学)
CASE系统(美国,亚利桑那大学)
CHEMICS系统(日本,丰桥技科大)
ESESOC系统(中国,长春应化所)
CAMGEC(智利)
STREC(俄罗斯)
立体中心的判定
(2) 空间异构体生成的框图拓扑等价性判定自同构群求取构型自同构群空间立体异构体等价类分析最终的立体异构体环约束二维结构异构体
(3)同构与 自同构
G(1)和 G(2)是同构,G(1)和 G(3)是自同构,因为
G(1)和 G(2)中尽管结构相同,但是标号(结点)间的连接关系不同,而 G(1)和 G(3)间连接关系相同,即 G(1)
和 G(3)可以互相通过一个旋转(变换)得到,在下图中 (p(i)为不同的标注 ).
G(1) G(2) G(3)
1 2
34
5
6 7
8 8
76
5
43
21
8 7
65
4
3 2
1
P(1)=(1 2 3 4 5 6 7 8 ) P(2)=(1 2 4 3 5 6 7 8) P(3)=(4 1 2 3 8 5 6 7)
所有满足自同构的置换组成一个群,这个群就是自同构群,
(4)拓扑等价性
1 2
34
5
6 7
8 8
76
5
43
21
8 7
65
4
3 2
1
G(1) G(2) G(3)
拓扑等价的前提是二结构为自同构,即邻接关系相同,
同时,图中对应结点的化学环境亦应相同,如,G(1)与 G(3)为自同构,二图中由于结点 1,2,3和 4所处化学环境相同,所以这 4个结点为拓扑等价;同样,5,6,7,和 8为拓扑等价,
(5)自同构群的生成方法自同构群的生成是立体异构体穷举生成过程中最耗时的步骤,
传统方法,量子化学方法
本系统,图论方法 +拓扑等价性算法 (本实验室所建议 )
对于确认立体中心,拓扑等价性算法非常重要,因为 对于碳来说,其相连的 4个结点完全不等价的情况很少,而大多数情况下需根据拓扑等价性来判断。实验证明,本实验室所建议的拓扑等价算法非常行之有效 。
( 6) ESESOC系统已可穷举地、无冗余地和高效地生成空间异构体目前我们的系统不仅对于由不对称碳所引起的点不对称、
碳 -碳双键引起的几何异构、以及由累烯键等引起的轴不对称均能穷举生成其立体异构体,同时我们的系统还能够对于氮、磷、硫以及硅所引起的点不对称、轴不对称及几何异构穷举地、无冗余地和高效地进行立体异构体的生成。
已经表明,由 ESESOC所得结果与理论计算结果完全相一致 。
( 7)生成实例如六氯环己烷对是一称性比较高的化合物,本系统得到了它的 9个立体异构体,并且能够识别其中
2个为对映体,7个为非对映体,与实际完全相符合。
Cl
Cl
Cl Cl
Cl
Cl
Cl
Cl
Cl
Cl
Cl
Cl
Cl
Cl Cl
Cl
ClCl
Cl
Cl
Cl
Cl
Cl
Cl
Cl
Cl
Cl
Cl
Cl
Cl
Cl
Cl Cl
Cl
ClCl Cl
Cl
Cl
Cl
Cl
Cl
Cl
Cl
Cl
Cl
Cl
Cl
Cl
Cl
Cl
Cl
Cl
Cl
一,计算机辅助分子设计
I,构效关系 (QSAR/QSPR)研究
II,全新药物设计
III.组合化学与药物设计二,有机化合物结构解析专家系统三,计算机辅助合成四,新的化学计量学方法计算机辅助合成设计
1,类型计算机辅助合成设计始于 60年代,多部分集中于发达国家,如美国,几十年来已经发展起来许许多多的系统,并在药物工业、材料工业中发挥越来越重要的作用,已有的系统可分为两大类,
(1) 经验型
反应数据库
知识库 (反应规则库 )
推理机 (逻辑推理部分 )
(2)理论型
2,逆向推理
正向反应,反 应
逆向反应,转换
逆向推理所得结果,前体
2,逆向推理
正向反应,反 应
逆向反应,转换
逆向推理所得结果,前体
3,主要的系统
OCSS(Organic Development of Computer-Aided
Synthesis Design)
E.J.Corey,W.T.Wipke(美国 )
LHASA(Logic and Heuristics Applied to Synthetic
Analysis)
E.J.Corey,W.T.Wipke (美国 )
SECS(Simulation and Evaluation of Chemical
Synthesis)
W.T.Wipke (美国 ),2000 transforms,被用于 Merck公司
CASP(德国和瑞士跨国公司 ),6000 transforms
SST(Starting Material Solutions)
W.T.Wipke (美国 )
SYNCHEM
H.L.Gelernter et al,(美国 )
CAMEO(Computer Assisted Mechanistic Evaluation
of Organic Reactions)
T.D.Salatin,W.L.Joegensen (美国 )
SYNGEN
J.B.Hendrickson(美国 )
CHIRON
S.Henession(英国 )
LILITH
L.Baumer et al.
AIPHOS(Artificial Intelligence for Planning and
Handing Organic Synthesis)
K.Funatsu,S.I.Sasaki(日本 )
CICLOPS
I.Ugi et al,(德国 )
EROS(Elaboration of Reactions for Organic Synthesis)
J.Gasteiger et al.(德国 )
一,计算机辅助分子设计
I,构效关系 (QSAR/QSPR)研究
II,全新药物设计
III.组合化学与药物设计二,有机化合物结构解析专家系统三,计算机辅助合成四,新的化学计量学方法四,新的化学计量学方法
1,神经网络法目前运用最多的是反向传输法 (BP法 )
BP神经网示意图输出层隐蔽层输入层
2,遗传算法 (Genetic Algorithm)
20世纪 60年代美国 Michigen大学的 John
Holland等人创立了一种新的方法,即遗传算法。
该种方法建立在生物体进化过程中“适者生存”
这一自然准则的基础之上。其计算步骤为:
( 1)随机产生一个由确定长度的特征串组成的初始群体;
( 2)进行复制、杂交、变异的运算;
( 3)把在任一代中出现的最好的个体串指定为遗传算法的结果;
( 4)进行迭代操作,直到满足停止的准则。
Generate
initial
population
Evaluate
Objective
function
Are
optimization
criteria met?
Best
individuals
Cross-over
Recombination
Mutation
Generate
new
population
result
start
yes
遗传算法的计算框图
no
3,模拟退火 (simulated anneal)
模拟退火法是模拟金属退火的一种计算方法,统计力学表明,在状态?下,原子能量的概率分布在给定温度 T满足 Boltzman方程,
))(e x p (
)(
1
)(
Tk
E
TZ
EEp
B
其中,E(?)为状态?下的能量,kB为 Boltzman常数,Z(T)
为概率分布的标准化因子。在任意的温度下,达到平衡状态其最可能是在原子能量最低的状态,这与组合优化有相似之处。 模拟退火的算法就是根据这一基本原理所衍生。
4.小波变换分析小波变换分析是在 Fourier变换基础上发展起来的分析方法。小波是满足一定条件的函数通过平移和收缩而产生的函数族,并可实现信号的时频局部化。
小波变换分析已经广泛应用于图象处理、量子场论、地震勘探、语音识别和合成、雷达、
天体识别、机器视觉等。在分析化学上,小波变换分析主要用于噪音的滤除、曲线拟合、重叠峰分解及基线校正等。
5,支持向量机 (support vector machine- SVM)法如何在追求合理的拟合精度的同时,最大限度地控制过拟合,是“小样本数据集”的统计学习理论要解决的问题。
近年来,Vapnik提出支持向量机算法。很快得到了广泛应用,并收到了良好的效果。
在支持向量机这种算法中,其关键操作是用一核函数将线性不可分的点(即矢量)转换到另一空间,
使之变得线性可分(如下图)。
落在空白间隔(不妨称为隔离带,见下图)边沿上的点对分类起着决定性的作用,每一点为一向量,
则称之为“支持向量”。
两类样本点分布区的空白间隔和支持向量示意图在分类中,
隔离带越窄、
落在边沿上的点越多,
则预报能力越差;与之相反,隔离带越宽、落在边沿上的点越少,则预报的能力越强(见右)。
DDDDDD DDDDDD