基于定量构效关系预测烃类物质及其衍生物的过热极限温度

合集下载
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

基于定量构效关系预测烃类物质及其衍生物的过热极限温度周璐璐;蒋军成;潘勇
【摘要】采用定量结构性质相关性原理(QSPR)对烃类有机物及其衍生物的过热极限温度(SLT)进行研究,实现了通过分子结构预测过热极限温度的过程,通过遗传算法(GA)筛选出与过热极限温度关系最为密切的分子描述符,采用多元线性回归的方法建立了预测模型,模型的复相关系数为0.955,说明模型具有很强的线性相关性,对模型进行内部验证和外部验证,结果表明模型具有较强的稳定性和预测能力,并且对模型进行了应用域(AD)分析.%The superheat limit temperature ( SLT) ,maximum temperature above which a liquid will boil, is one of the most important hazard parameters for boiling liquid expanding vapor explosion and similar explosions.A quantitative structure?property relationship ( QSPR) model was proposed to predict the superheat limit temperature of hydrocarbons and derivatives of hydrocarbons from the only information of their molecular structures.Various kinds of molecular descriptors were calculated and the genetic algorithm ( GA) was used to select optimal subset of descriptors which had significant contribution to the superheat limit temperature.The multiple linear regression was employed to build the best model of six variables with the high fitting correlation coefficient of 0. 955. The model was used to check the stability and predictive capability,and its applicability domain ( AD) was also analyzed.
【期刊名称】《南京工业大学学报(自然科学版)》
【年(卷),期】2017(039)004
【总页数】5页(P138-142)
【关键词】定量构效关系;过热极限温度;遗传算法;多元线性回归;应用域
【作者】周璐璐;蒋军成;潘勇
【作者单位】南京工业大学安全科学与工程学院江苏省危险化学品本质安全与控制技术重点实验室,江苏南京 210009;南京工业大学安全科学与工程学院江苏省危险化学品本质安全与控制技术重点实验室,江苏南京 210009;南京工业大学安全科学与工程学院江苏省危险化学品本质安全与控制技术重点实验室,江苏南京210009
【正文语种】中文
【中图分类】X937
液体有机物的过热是指在温度达到沸点时液体并没有沸腾的现象,此时的液体被称为过热液体。

过热液体处于稳定与不稳定状态之间的亚稳态。

处于亚稳态的液体十分不稳定,很容易受到外界干扰发生快速的燃烧甚至爆炸,在工业生产、运输及储存过程中因过热液体失去稳定导致的火灾爆炸事件已屡见报道。

过热极限温度(SLT)是指过热液体能够达到的最高温度,也就是液体的过热程度。

因此,液体过热极限温度的研究对于预防这一类事故的发生具有十分重要的意义。

目前,对于过热极限温度的测定有实验法和理论计算法。

常用的实验法根据接触面的不同可分为被测液体与固体表面接触和与液体接触两大类在内的多种方法。

除了实验过程中普遍产生的误差,过热极限温度测定过程中无论采用何种实验方法均会产生不同程度的误差[1]。

而根据理论预测计算过热极限温度的方法主要有基于化学动力学的均相成核理论和基于热力学的状态方程推导等[2]。

定量结构-性质相关性研究(QSPR)起源于定量药物设计的一个研究分支领域,近年来
被广泛运用到化学物质性质的预测之中,特别是在对化学物质危险特性的预测方面[3-7]。

QSPR研究基于化学物质的分子结构决定其性质的基本原理,寻找表征化学
物质分子结构的描述符,进而获得分子结构与相应性质之间关系的数学表征。

本文
在QSPR研究的基础上,将其引进到有机物过热极限温度的研究中,寻求有机物分子结构与其过热极限温度之间的关系,对所建模型进行相关验证及应用域分析,并且与
现有的计算方法进行比较。

1.1 实验数据样本
由于不同的实验方法会对实验结果带来不同程度的误差,进而对所建QSPR模型产
生影响。

本文所选取的实验值均来自于同一实验方法,以此消除不同实验值误差对
模型带来的影响。

本文用到的61个烃类物质及其衍生物的过热极限温度实验数据均来自于文献[2]和[8]。

1.2 结构参数的计算和删减
分子描述符是指对于有机物分子结构参数的表达,可以由多种软件进行计算求得。

例如Dragon程序、CODESSA软件、ADAPT软件、MOE软件等。

选择全面、
适用的描述符是QSPR研究中重要的一步。

本文采用最常用的Dragon 2.1程序来计算分子结构描述符,Dragon 2.1程序可以计算出18类(包括组成、电性、几何、量子化学等)1 481种分子结构描述符。

由于许多分子描述符的数值与化学键长、
键角等有密切关系,因此在计算分子描述符之前需要对有机物的化学结构进行初步
优化和几何优化。

本文采用Hyperchem 7.5程序进行分子结构优化,分子力学方法MM+进行初步优化,半经验方法AM1进行几何优化。

对于计算得到的分子描述符数值来说,存在着一些不能为建模提供有用信息的数值。

例如对于所有化合物来说数值均为常数(包括均为0)、变化很小的结构参数和相互
之间存在共线性的结构参数等,这类参数会导致建模过程中发生“机会相关”现象,
所以需要在建模之前完成对结构参数的删减。

根据文献[9]中的删减规则,本文删除
对于所有化合物来说数值均为常数(包括均为0)或者变化很小的结构参数,对于两者之间相关系数大于0.97的结构参数删除其中之一。

最终本文通过Dragon 2.1程序计算出每个化合物均得到1 162种结构参数,随后通过上述方法进行删减共得到619种结构参数。

这样得到的结构参数对于最终建立模型来说仍是一个庞大的数目,无法确切地得知哪些分子结构与过热极限温度密切相关。

因此采用遗传算法对变量进行进一步的筛选,遗传算法是一个强大的搜寻全局最优解的方法,在QSPR研究中被广泛用来优化计算得到的结构参数。

本文采用Materials Studio 6.0软件中的GFA[9-10]模块进行筛选,种群数设为50,遗传代数为500,突变概率为0.1,LOF平缓参数为0.5,其他参量为软件默认设置。

1.3 模型的建立与验证
在QSPR研究中最关键的部分是通过选择合适的建模方法得到最为有效的关系表达式。

常用的方法有多元线性回归、最小偏二乘法、支持向量机等。

本文采用多元线性回归(MLR)的建模方法对有机物分子结构与过热极限温度之间的关系进行相关研究。

对所建立的模型进行相关的验证是QSPR研究中不可或缺的一部分,它分为内部验证和外部验证,主要用来验证模型的稳定性以及预测能力。

内部验证最常用且最有效的方法是交叉验证,本文采用留一法交叉验证,结果采用交互验证系数来表示,Y-随机检验法[6]也被用于验证模型的稳定性。

外部验证主要是检验模型的适用性与预测能力,最常用的方法是将样本集随机地划分为训练集和预测集。

其中,训练集用来建立模型而预测集用来验证模型。

外部验证的结果采用来表示。

本文将61个数据随机分为55个训练集和6个预测集。

此外,在QSPR模型投入实际应用前需确定模型的应用域。

即使是一个稳定性、预测能力都很好的模型也不可能可靠预测所有的化合物,只有处在应用域范围之内的
化合物才能得到可靠的预测。

目前常用的模型应用域分析方法是基于leverage[11]进行分析的,其基本假设是数据符合Gaussian分布。

该方法最大的优点是采用Williams图[12]直观地量化和表达模型应用范围,具体计算过程见文献[13]。

通过遗传算法筛选出6个与过热极限温度关系最为密切的描述符,描述符及其类型
和定义见表1。

AMW是分子组分描述符,其定义是原子的平均质量。

X3Av属于拓扑描述符,拓扑
描述符是由分子图论获得的一类描述符,X3Av主要与分子支化程度有关,其中包含
了丰富的结构信息。

GATS1m是2D自相关描述符,2D自相关描述符是一类以分
子拓扑结构图为基础,按照不同的自相关矩阵计算得到的。

不同的2D自相关描述
符的区别在于采用的自相关矩阵和加权物质性质不同,2D自相关描述符可以反映分子的拓扑结构,但比一般的拓扑指数更加复杂,特别是加权了不同的性质参数之后。

GATS1m是由根据原子质量加权的Geary自相关矩阵计算出来的。

Mor15u属于
3D-MoRSE描述符,3D-MoRSE描述符以电子衍射为基础表征分子的3D结构特征。

与其他由分子图论计算得到的描述符不同,3D-MoRSE描述符明确考虑了原子的
3D排列,能够较好地表征分子的空间结构特征,Mor15u并没有任何加权参数。

HTp是GETAWAY描述符,GETAWAY描述符使用分子影响矩阵描述分子的立体
结构,可以分为H-GETAWAY(分子影响矩阵)和R-GETAWAY(影响/距离矩阵),可以用来表达分子的大小、形状和详细的原子性质。

HTp是根据原子极化率加权的H
总指数。

PSA是性质参数的一种,是基于片段的极性表面积。

综上所述,影响过热极限温度的主要因素有分子的质量、空间结构特征、支化程度和极性表面积。

对筛选出来的描述符进行多元线性回归分析,得到的模型结果为
Tsl=385.293-6.864X1+117.774X2- 4 055.343X3+28.557X4+63.086X5+
4.679X6 n=55,R2=0.955, F=169.03,P<0.001
式中:Tsl为有机物的过热极限温度,K;n为样本数;R2为复相关系数;F为F检验值;P
为方程显著性概率。

模型系数的显著性检验结果见表2。

由表2可以看出:每个自
变量的P值均小于或等于0.001,说明各个描述符与过热极限温度之间都存在着较
强的相关性。

此外,标准系数的绝对值大小表明该描述符对于模型的影响程度大小,
正负值分别表明了该描述符与过热极限温度存在正相关与负相关。

因此,从模型系
数的显著性检验结果可以得出:描述符对于模型的影响程度由强到弱的顺序为X5、X3、X6、X1、X2、X4;X1和X3为负相关,其余4个描述符为正相关;随着正相关
4个描述符数值的增大,过热极限温度的数值增大。

模型的预测值与实验值的对比
见图1。

从图1可以看出:训练集和预测集的实验值与预测值非常接近,基本上都落
在图中的对角线上。

对于模型的稳定性分析,采用留一法交互验证,其结果为0.955,由结果可知模型具有较强的稳定性。

采用Y-随机性验证方法检验,重复建模过程50次,其中最优模型的
R2为0.098,远远小于原始模型的R2(0.955)。

由此可见本文所建的预测模型不存
在“机会相关”现象,具备较强的稳定性。

由图2(模型的残差图)可见:预测残差均匀且随机分布在基准线两侧,不存在规律性。

由此可知,在建立预测模型的过程中没
有系统误差的存在。

外部验证采用预测集样本的实验值与预测值之间的交互验证系数来衡量,得到的为0.936,因而模型具有良好的预测能力。

此外,对于完整的QSPR模型来说模型的应用域也是应该考虑的问题。

对模型应用
域分析时,本文采用标准残差绝对值大于3作为标准,大于该标准的化合物可以被认为是Y例外点,大于X轴基准线(如图3所示,具体计算过程见文献[13])为X例外点。

从图3中可以看出,样本中有一个Y例外点(甲基环戊烷)和一个X例外点(乙炔)。

甲基环戊烷的实验值为475.9 ℃,预测值为496.016 ℃,误差为20.116 ℃;乙炔的实验值为267.4 ℃,预测值为314.946 ℃,误差为47.546 ℃。

由此可见:对于环状化合物来说,环上的C越多,模型的预测能力越差;对于物质结构过于简单的化合物,模
型的预测能力也达不到理想的状况;QSPR模型对于落在应用域之外的例外点有较
弱的预测能力。

本文为预测烃类物质及其衍生物的过热极限温度提出了一种简便有效的QSPR方法,建立了包含6个分子描述符的MLR模型,模型具有较高的复相关系数
(R2=0.955),经过一系列的内部验证和外部验证,结果表明了模型具有良好的稳定性以及预测能力。

模型系数的显著性检验结果说明了不同描述符对过热极限温度的影响。

通过计算模型的应用域表明了模型对于落在应用域范围内的化合物有更好的预测效果。

本文通过QSPR研究,完成了通过分子结构预测过热极限温度的过程,为预测过热极限温度提供了一种简单易行且预测结果良好的方法。

【相关文献】
[1] 杨翠.二元烃的混合物过热极限的测定与研究[D].天津:天津大学.2006.
[2] ABBASI T,ABBASI S A.Accidental risk of superheat liquids and a framework for predicting the superheat limit[J]. Journal of loss prevention in the process industries,2007,20(2):165.
[3] KATRIAKY A R,LOBANOY V S,KARELSON M.QSPR:the correlation and quantitative prediction of chemical and physical properties from structure[J].Chemical society reviews,1995,24 (1),279.
[4] PAN Y,JIANG J C,WANG Z R.Quantitative structure-property relationship studies for predicting flash points of alkanes using group bond contribution method with back-propagation neural network[J].Journal of hazardous materials,2007,147(1/2):424.
[5] 蒋军成,潘勇.QSPR在有机物燃烧特性预测中的应用和进展[J].南京工业大学学报(自然科学版),2007,19(6):102.
[6] PAN Y,ZHANG Y Y,JIANG J C.Prediction of the self-accelerating decomposition temperature of organic peroxides using the quantitative structure property relationship (QSPR) approach[J].Journal of loss prevention in the process industries,2014,31(1):41. [7] ZHOU L L,JIANG J C,PAN Y,et al.A mathematical method for predicting heat of reaction of organic peroxides[J].Journal of loss prevention in the process pndustries,2015,38:254.
[8] AVEDISIAN C T.The homogeneous nucleation limits of liquids[J].Journal of physical and chemical reference data,1985,14(3):695.
[9] 潘勇,蒋军成,王睿.基于定量结构-性质相关性的烃类物质爆炸下限预测[J].爆炸与冲
击,2010,30(3):288.
[10] 王睿,蒋军成,潘勇.脂肪族硝基含能化合物撞击感度的QSPR研究[J].南京工业大学学报(自然科学版),2011,33(3):15.
[11] GRAMATIA P.Principles of QSAR models validation:internal and external[J].QSAR & combinatorial science,2007,26:694.
[12] ATKINSON A C.Plots,transformations and regression:an introduction to graphical method of diagnostic regression analysis[M].Oxford:Clarendon Press,1985.
[13] 李佳忠.QSAR研究中提高模型预测能力的新方法探讨及其在药物化学中的应用[D].兰州:兰州大学,2009.。

相关文档
最新文档