神经网络用于三元不对称有机磷酸酯杀虫剂的QSAR研究_周瑛
合集下载
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
0 .782 0 .027 0 .003 0 .125 0 .036 0 .015 0 .021 0 .047 -0 .040 0 .085 -0 .019 0 .217 -0 .014 -0 .106 -0 .043 0 .083 -0 .080 -0 .048 0 .047 -0 .261 -0 .107 -0 .178 0 .027
1 .04 1.08 -0 .16 6.67 5.79
1 .32
H , CH3 ○ O ○ 12
C H3
13 H ,
2 .63 6.92 -0 .68 0.46
0 .82 10.31 9.62 3 .15 5.05 4.30
1 .19 1 .64
14 H , CH3O ○
15 H , Cl ○ O ○
f
(xi
)=
1
+Ciex
1 p(-T
iX
i)
(1)
其中 xi , f (xi )分别为神经元的总输入与总输出 , Ci 和 T i 为处理函数的两个参数 , 且有 Ci , T i >0 , 它们影响函数曲线的斜率 。就网络仿真而言 , 它们的作用比联接权更显著 。因此 , 本 文的网络虽也采用误差反传规则 , 但是逐层应用差值规则同步或异步地调整联接权与这两
表 2 GBP 和 MLR 结果对比
编号 真实值1)
多元统计 输出值
网 络 输出值
多元统计 相对误差
网络相 多元统计相对 网络相对误 对误差 误差平方和 差平方和
1
0 .39 0
0 .69 1
0 .695
2
0 .77 5
0 .76 9
0 .754
3
0 .85 0
0 .75 6
0 .852
4
0 .63 5
7 .32
8 .41
3 .08 3 .42 1 .97 6 .06 4 .13 4 .68
5 .95
1 .70
1 .43
1 .70 1 .49 1 .93 1 .73 1 .78 1 .97
1 .72
为了提取化合物特征参数 , 对 5 个结构参数进行 R 型聚类分析 。 得到如图 2 谱系图 。
0 .919
19
0 .86 5
0 .81 4
0 .906
20
0 .89 0
0 .68 4
0 .658
21
0 .98 5
0 .83 2
0 .879
22
Байду номын сангаас0 .86 0
0 .67 3
0 .707
平 均 值
0 .771 -0 .008 -0 .111
0 .121 -0 .030
0 .007 0 .177 0 .059 -0 .066 0 .195 0 .003 0 .190 0 .089 -0 .153 -0 .006 0 .033 0 .036 0 .013 -0 .053 -0 .231 -0 .155 -0 .217 0 .030
0 .647
12
0 .59 5
0 .70 8
0 .724
13
0 .82 0
0 .89 3
0 .809
14
0 .85 0
0 .72 0
0 .760
15
0 .71 5
0 .71 1
0 .684
16
0 .85 0
0 .87 8
0 .921
17
0 .74 5
0 .77 2
0 .685
18
0 .96 5
0 .97 8
的值时 , 化合物活性较高 。式(2)虽有较明确的物理意义 , 但只反映线性相关 , 因此 , 方程质 量不高 。下面应用神经网络 GBP 法来分析结构参数与活性的非线性因素 , 以获得更加准确 的数学模型 。
用 R型聚类分析得出的 4 个特征指标 , 作为人工神经网络的输入 , 由于它们有较明确的 物理意义 , 故可以有目的地调整输入参数 , 以预测活性更高的化合物 。由于线性回归的辅助 , 神经网络的输入与输出不 再是盲目的了 。这里 , 我们选用 4-4-1 网络进行计算(学习速率 0 .5 , 修正因子 0 .05)。
16 H , M e 17 H , Et 18 H , H 19 H , CH2 COO Et 20 H , M e3C 21 H , HOC2 H4 22 H , ○ OCH3
0 .33 0.11
0 .82 6.09
2 .80 7.84
-1 .02 -0 .58 -1 .77 -2 .48 -0 .05 -1 .76
1 .0 4 0 .3 4 3 .1 3 6 .1 5 0 .0 03 3 .1 0
0 .82
2 .55 1 .19 3 .74 1 .79 -0 .11 2 .12
1 0 .9 6
3 .5 3 4 .8 3 2 .7 8 6 .8 0 4 .8 3 5 .9 3
0 .50 0.25 -0 .27 4.53
起点 , 根据实验确定隐节点数是否多余或过少 , 选择适当的隐节点数使相对误差平方和平均
值最小 , 努力克服拟合现象 , 使预报误差达到最小 。
2 计算结果与讨论
2 .1 结构参数的选取 以 0- 乙基 -N- 烷基(取代硫脲基)硫代磷酰胺酯类化合物作为研究对象 , 其分子结构通
式为
EtO S
D
=log
a 100 -a
+log M
式中 a 为 10-4 时的杀虫百分率 , M 为化合物的分子量 。
结构参数采用疏水性参数 π、π2 , 电性参数 σ和立体效应参数L 、B5 。各取代基的结构参 数[ 3 , 4] 和化合物活性指标见表 1 。
表 1 化合物的结构参数和活性指标
编号 1
取代基 H , ipr
图 1 两层前传网 图 2 R 型聚类分析谱系图(样品 22 种 , 变量 5 种) 由图 2 可见 , 除 π与B 5 的相关性较好外 , 其余三个参数相关性不好 , 又考虑到 π和 π2 同
为疏水性参数 , 故特征指标中留取 B5 , 而舍去 π, 故得四个特征指标为 π2 , σ, L , B 5 。
1 .27
5
H , Cl ○
1 .38 1 .90 0 .87 5.20 7.37
1 .53
· 146 ·
浙江工业大学 学报
1999 年第 2 期
续表 1
编号
取代基
6
H , Cl ○
π
π2
1 .45 2.10
σ 0 .77
L 4 .6 8
B5 D(蚕豆芽)
6 .71
1 .49
7 H , ph
0 .45 0.20
0 .65 4.53 5.95
1 .24
8
H , CH3
○
0 .96 0.92
0 .60 5.30 7.03
1 .36
9 H , Br ○
1 .60 2.56
0 .71 5.40 7.66
1 .57
10 H ,
0 .60 0.36
0 .38 5.54 5.25
1 .18
11 H ,
JOU RNA L
OF
浙江工业大学学
Z HEJIANG U NI VERSIT Y
报
OF
TECHN OLOG Y
Vol .27 .N o .2 June 19 99
文章编号 :1006 -4303(1999)02 -0144 -05
神经网络用于三元不对称 有机磷酸酯杀虫剂的 QSAR 研究
周 瑛 , 黄岩坤 , 隋桂云
神经网络训练时隐面层的数目及其中神经元的数目与问题目的复杂性有关本文应用初定隐节点数的经验公式mn3121m为输入模式维数n为模式类别数以此为起点根据实验确定隐节点数是否多余或过少选择适当的隐节点数使相对误差平方和平均值最小努力克服拟合现象使预报误差达到最小
第 27 卷第 2 期 1999 年 6 月
0 .71 2
0 .741
5
0 .76 5
0 .74 2
0 .793
6
0 .74 0
0 .74 5
0 .756
7
0 .62 0
0 .73 0
0 .606
8
0 .68 0
0 .72 0
0 .712
9
0 .78 5
0 .73 3
0 .753
10
0 .59 0
0 .70 5
0 .640
11
0 .66 0
0 .66 2
第 27 卷
周 瑛等 :神经 网络用于三元不对称有机磷酸酯杀虫剂的 Q SA R 研究 · 147 ·
2 .2 构效关系研究 对这 4 个特征指标进行多元线性回归得
D计
=-
1 2
(1
.5 107
+0 .01155 π2
+0 .1286σ-0 .02061L
-0 .007112B 5)
(2)
其中复相关系数 R =0 .5662 。 由式(2)可知 , 化合物活性受 σ的影响最大 , 其次是 L , 可见当 σ有较大的值 , L 有较小
0 引 言
三元不对称有机磷酸酯类杀虫剂是一种新型的有机磷农药 , 由于在磷原子上分别连有
三个结构不同的基团 , 使得这类杀虫剂具有高效 、高选择性 、低毒性 、短残效期 , 最突出的一
点是与传统的有机磷杀虫剂没有交互抗性 。 因此 , 三元不对称有机磷酸酯类杀虫剂的定量
构效关系研究 , 对于我国新农药创制研究具有一定的意义 。 神经网络[ 1] 方法以其能较好地处理高度非线性体系的特长 , 被广泛应用于各个领域 。
0 .59 57 0 .00 01 0 .01 22 0 .01 47 0 .00 09 0 .00 00 0 .03 15 0 .00 35 0 .00 44 0 .03 80 0 .00 00 0 .03 61 0 .00 79 0 .02 34 0 .00 00 0 .00 11 0 .00 13 0 .00 02 0 .00 28 0 .05 36 0 .02 41 0 .04 73 0 .041
π -0 .19
π2
σ
0 .04 0
L 4 .83
B5 4 .13
D(蚕豆芽) 0 .78
2
H , ○ CH2
3
H , n -Bu
0 .64 0 .41 1 .74 8.24 4.50 0 .57 0 .32 1 .36 6.88 4.87
1 .55 1 .70
4
H , ○ CH3
0 .98 0 .96 0 .38 4.90 6.53
(浙江工业大学化工学院 , 浙江 杭州 310032)
摘要 :在 0-乙基-N-烷基(取 代硫 脲基)硫 代磷 酰胺 酯类 杀虫 剂 的定 量构 效关 系 (QSAR)研究中 , 用 R 型聚类分析提取特征结构参数 , 结合多元线性回归和神经网络 方法研究构效关系 。 回归方法为 QSAR 研究提供变量的物理解释 , 改进的神经网络 方法 ———广义误差反传神经网络(GBP)建立了更加精确的构效关系模型 。 研究表明 神经网络在 QSAR 研究中具有良好的预测和非线性处理功能 。 关键词 :神经网络 ;聚类分析 ;有机磷杀虫剂 ;构效关系 中图分类号 :TQ 450.11 文献标识码 :A
PS
i -P rNH NHCN RR′ 由于分子中只有 —NRR′部分发生变化 , 因此在进行构效关系研究选取化合物的结构参数 时 , 只考虑这一部分结构的变化 。
杀虫剂的活性数据是化合物在 10-4 时的杀虫百分率 , 为使其符合 QSA R 的计算要求 ,
进行了如下处理 , 即得活性指标 D 。
络[ 2] , 其收敛速度快 , 选择合适的隐节点数克服“过拟合”现象 。
本文用疏水性参数
π、π2[ 3]
, 电性参数
σ, 立体效应参数
L
、B
[ 5
4]
, 作为化合物的结构参
数 , 应用 R 型聚类分析提取特征参数 , 结合多元线性回归和神经网络方法研究有机磷酸酯
杀虫剂的构效关系 。
1 模 型
神经网络的连接模式有多种 , 一般可以根据具体问题选用 。本文采用的两层前传网如
收稿日期 :1998 -12 -18 ;修改稿收到日期 :1999 -01 -28 作者简介 :周 瑛(1965 -), 女 , 硕士 , 浙江工业大学化工学院 , 主要从事分析化学 .
第 27 卷
周 瑛等 :神经 网络用于三元不对称有机磷酸酯杀虫剂的 Q SA R 研究 · 145 ·
图 1 所示 , 神经元的输入 -输出转换采用 Sig moid 函数关系 。
0 .6126 0 .0007 0 .0000 0 .0156 0 .0013 0 .0000 0 .0004 0 .0022 0 .0016 0 .0073 0 .0003 0 .0470 0 .0001 0 .0112 0 .0018 0 .0070 0 .0064 0 .0023 0 .0022 0 .0681 0 .0116 0 .0317 0 .0380
个参数 , 获得了较快的收敛速度 , 这种训练方法称为广义误差反传训练法 , 可以大大提高网
络效率 。
神经网络训练时 , 隐面层的数目及其中神经元的数目与问题目的复杂性有关 , 本文应用 初定隐节点数的经验公式(m (n +3))1/2 +1 , m 为输入模式维数 , n 为模式类别数 , 以此为
由于神经网络技术对数学模型的结构不需要太深入的研究 , 它将知识隐式地分布于网络内
部 , 并具有处理大批量数据和自适应的能力 , 因此 , 神经网络技术可以用于构效关系研究 , 并
具有一定的优势 。
众所周知 , BP 神经网络有二个缺陷 :一是网络信息无从解释 , 二是易出现过拟合现象 ,
且收敛速度较慢 。 针对这些 缺陷 , 我们用改进的反传 神经网络 ———广义误差反传 神经网