第一章 药物分子设计中常见的建模方法
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
Yin中的一个分量。在这一层中,神经元的 输入函数、处理函数和输出函数均是恒同 函数,故神经元i的输出值Xout[i]实际上均 已在原始数据归一化步骤中同时完成,见 (1-15)式。 输入层中的每个神经元对隐含层中所有的 神经元都产生输出。
b)隐含层中的神经元接受来自输入层中的神
经元对其产生的输出。该层中的神经元 j 接 受的输入值Xsum[j]按下式计算: (1-16) 即输入函数是加权和(wighted sum)形式,其 中wji是隐含层中神经元 j 与输入层中 i 之间 的连接权重,Xout[i]是神经元 i 的输出值, bj是神经元 j 的阈值。
s
(Yexp,i Ycalc,i ) 2 /(n 1)
i 1
n
需要指出的是,最优化方法所解决的问题是
求极值问题。对于多极值问题,则面临判断 哪个极值是最小值的问题。由于一般的最优 化方法搜索得到的极值与给定的可调参数初 始值有关,故通过调节初始值一般可以获得 多个极值。比较这几个极值可以得到“最优 值”(实际上只能说是较优值)。参数初始 值的调节,一般可采用正交设计或均匀设计 的方法来进行。 虽然最优化方法解决极值问题已是比较成 熟的技术,但没有一种方法已能解决多极值 中的最小(大)值问题,针对这个不足,近 年来发展了诸如遗传算法、模拟褪火算法等。
(2) 为保证多元统计分析得到的回归方 程有足够的推广能力,即在预测未知 化合物的活性时,有充分的内插、外 推能力,化合物的物理化学性质或取 代基团的性质要有足够大的差异。例 如包含有疏水性或亲水性,推电子或 拉电子,位阻大或位阻小的各种化合 物,生物活性强度的变异有一个或数 个数量级(一个或数个对数单位)。
人工神经网络软件
NeuralWorks Professional II Plus SNNS(可以免费下载,需要X-Win32支持)
BP人工神经网络结构
BP人工神经网络结构(续)
S-Type Function
BP人工神经网络的结构特点
BP网络由三种网层(Layer)组成:其中底层
1 2 E ( Xout [ k]) 2
(1-20)
实际计算时,也可采用“批”的方式,
1 epoch E ( Xout [ k ]) 2 2
(1-21) 式中,epoch是“批”的样本μ的大小。通常 取epoch小于训练集的样本总数,只要选取得 当,产生的效果就类似于每“批”次均随机 从训练集中取出epoch个样本供网络学习,有 利于克服过拟合。当epoch = 1时,即为(1-20) 式。
j
输出层中神经元的处理函数和输出函数分别 为S型压缩函数和恒同函数,故神经元 k 产生 的输出值Xout[k]可直接按下式计算:
Xout [k] = g(Xsum[k])
(1-19)
式中g可以是Sigmoid函数或Tanh函数。
BP神经网络训练步骤(5)
计算样本的归一化目标输出值与网络输出
计算值之间的误差测度 单个训练样本的归一化目标输出值ξ与网 络输出值Xout[k]之间的误差测度(又称价值 函数)E可用下式计算:
显然,误差测度是每个权的连续可微函数, 我们可以利用梯度下降算法来获得学习规则。 对于从隐单元到输出单元之间的连接权,利 用梯度下降规则得到:
w kj = η E w kj
n
Q s n m 1
( y calc,i y exp,i ) 2 /(n m 1)
i 1
1.2 对样本数量的要求
样本数量/变量数≥5
1.3 对样本化合物结构的要求
(1) 结构特异性作用的化合物,应有相 同或相似的基本结构,以保障化合物 与同一个靶位作用,亦即有相同的作 用机理。这是因为线性自由能相关分 析是以药物与靶位分子的物理化学作 用为基础的。若母体结构不同,常需 引入哑指示变量,但使用时须十分小 心。
1.1 模型品质的常见指标
样本数量n; 复相关系数R; 标准偏差s; F显著性检验,包括:方程的显著性检
验;变量的显著性检验。
复相关系数
n n
R 1 ( y exp,i y calc,i ) / ( y exp,i y) 2
2 i 1 i 1
标准偏差
神经网络计算是一种仿生计算方法
典型的神经元由细胞体 (cell body或soma)、树突 (dendrite)和轴突(axon) 所组成。 树突是神经元中接受信号 输入的部分。 轴突和下一个神经元的树 突直接接触,接合部称为 突触(synapse)。 信息在一个神经元上是以 电脉冲的形式传输的,这 种电脉冲称为动作电位 (action potential)。
(3) 化合物的物理化学参数或基团常数之间 要呈正交性。判别正交性的简单办法是将 选定的化合物的取代基的常数进行两两回 归分析,相关系数应低于0.8。 一般地,相关系数超过0.9的两个变量在 分析时将带来问题。相关系数低于0.8时不 大会出现问题。相关系数在0.8-0.9时可能会 引起问题。 总之,多元统计分析方法既要求作为训 练样本的化合物具有相同的母体结构,又 要求母体上的取代基变化(取代位置及取代 基种类)比较丰富,才能避免使得到的模型 “失真”。
某简单分子所有构象 能量的一维示意图
二 模型形式未知 1 线性模型
常用数学方法(模式识别):
有管理的方法(以判别分析为基础),需提供 训练集和预测集. 无管理的方法(以聚类分析为基础)
2 非线性模型
问题:已知模型的形式为下列方程之一,
请问可采用什么数学方法获得方程中的可 调参数a,b,c?
为输入层;中间层为隐含层(又称内部层), 隐含层可有几层,通常只采用一层;顶层 为输出层。每一层均可有多个神经处理元 (Node),又称节点。相邻层间神经元形成全 连接,但每层内的神经元之间没有连接。 神经元的非线性映射由S型压缩函数实现。 常见的S型函数有Sigmoid、Tanh函数。 训练网络的方法采用误差反向传播(BP, Back-Propagation)训练算法。
2Yin max 2Yin[i 2] Xout [i] 1 Yin max Yin min Yin max Yin min
(1-15)
原始数据的预处理结果
输入矢量各维的数值在[-1,1]之间。式 中,Yinmax,Yinmin指所有样本的输入矢量第 i-2维中的最大及最小值。 同时,对目标输出值亦用上式进行归一 化。对于S型函数,在函数值接近-1或1处的 变化曲率接近于0,即反应最迟钝。为使网络 反应灵敏,将目标输出值在归一化的基础上 再压缩80%,即在[-0.8,0.8]之间。
BP神经网络训练步骤(1)
提供训练样本集
训练网络需要有一组样本供网络学习, 这组样本称作训练样本集(简称训练集)。 训练集中每个样本由一个输入矢量和一个 目标输出数据组成。输入矢量的维数与网 络输入层中神经元的数目相同。
BP神经网络训练步骤(2)
原始数据的预处理
对输入数据作归一化处理,可以消除量 纲的影响,在对网络进行修剪时,可根据权 重的大小进行删节。归一化的方法有多种, 一般可采用下式进行:
1.4 线性模型的优点
因果关系明确。
1.5 其它线性建模方法
PLS(Partial
Least Square) PCR(Principle Component Regression) 逐步线性回归(Remove, Forward selection, Backward elimination, Stepwise) Best Subsets Regression。
以上方法常常用于样本数/变量数<5的情形。
2 非线性模型
如Kubinyi双直线模型
log(1/c) = alogP - blog(βP+1)+ρσ+ δEs + C (1-7)
或 log(1/c) = aπ-blog(β10π+1)+ρσ+ δEs + C (1-8)
最优化方法
如果预先知道化合物生物活性与其各种理
wk.baidu.com
y ax1 bx2 c
y ax
bx2 1
c
人工神经网络
对于非线性模型形式未知的情况,人
工神经网络可能是较好的建模手段。 神经网络通过调节可调参数,使模型 的输出值与实验值尽可能逼近(均方 差最小)。 神经网络建立的模型以网络的结构来 表示,可调参数为网络的连接权及阈 值。
i
Xsum j w ji Xout i b j
隐含层中神经元的处理函数和输出函数 分别为S型压缩函数和恒同函数,故神经 元 j 产生的输出值Xout[j]可直接按下式 计算:
(1-17) 式中g可以是Sigmoid函数或Tanh函数。
XOUT [j] = g(XSUM [j])
c)输出层中的神经元接受来自隐含层中的所
最小二乘法
若将(1-1)式写成一般形式: (1-2) 若有n个样本 i 1, 2,, n ,多元统计回归的目 的就是找到一套合适的系数 b1 , b2 ,bm 使 n n
Q ei2 ( yexp,i ycalc ,i )2
i 1 i 1
y b1x1 b2 x2 bm xm c
BP神经网络训练步骤(3)
随机赋予网络中各神经元之间的连接权重
及各神经元的阈值(bias)以任意小的初始值。
BP神经网络训练步骤(4)
从训练集中取一样本作为当前的输入
样本,根据样本的输入值和神经元的初 始连接权重及阈值,计算网络对该样本 产生的输出值(即预测值):
a)输入层中的每个神经元接受样本输入矢量
化性质的非线性关系表达式(即非线性模型 的形式),通常可以以生物活性的实测值 Yexp与模型计算值Ycalc的根均方差RMS或其 等价函数作为目标函数(Objective Function): n Objective Function = (Yexp,i Ycalc,i ) 2 /(n 1) i 1 (1-6)
采用最优化方法获得非线性模型中的各种
拟合参数。
基于梯度的最优化方法 分类
1)需知道目标函数及目标函数的导数
的表达式,如DFP变度量法。
2)只需知道目标函数的表达式而无 需知道目标函数的导数表达式,如利 用差商的变度量法,其导数用差商代 替(程序自带),如Powell法。
模型品质指标
均方差(即目标函数)
(1-3)
为极小值.
建立如(1-2)式的线性模型,常用 的数学方法是多元统计回归(拟合、 关联)。
常见的多元统计分析软件 SPSS v12 STATISTICA v6.0 MINITAB v14.12 SYSTAT v10.0 S-Plus 2000 NCSS & PASS 2002
有神经元对其产生的输出。与隐含层类似, 其输入函数是加权和形式,神经元 k 的输 出值可由下式计算:
Xsum k = w kjXout j +bk
(1-18) 式中,其中wkj是隐含层中神经元 k 与输出层 中 j 之间的连接权重,Xout[j]是神经元 j 的 输出值,bk 是神经元 k 的阈值。
第一章 药物分子设计中常 见的数学建模方法
一、模型的形式已知(或已预先假设) 线性模型 线性模型的物理化学基础是线性自 由能相关理论。
1.
典型的有Hansch approach. log(1/c)=blogP +ρσ+δEs+C
(1-1)
式中,c是半数有效浓度EC50 ,半数抑制浓
度IC50 ,半数致死量LD50 ,半数有效剂量 ED50,最低抑制浓度(MIC)等; logP为疏水常数,代表化合物的疏水性质对 转运和(或)与靶位作用的影响; σ是Hammett 方程中取代基电性常数,代表 药物分子的电性对活性的影响; Es是Taft基团立体常数(Taft‘s steric constant), 代表药物分子的立体因素与活性的关系; C为常数,与化合物的类型、测定生物活性 所用的生物材料及试验条件等有关。