基于分子结构的链烷烃辛烷值预测研究
合集下载
相关主题
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
*基金项 目:国家 自然科学基金资助项 目(20976081,21006045),江苏省 自然科学基金资助项 目(BK22X ̄ 60,BK20105M),高等学校博 士学科点专 项科研基金资助项 目(200802910007),火灾科学国家重点实验室开放课题 ( 2009一KF07)。
· 28 ·
中筛选出与有机物辛烷值最相关 的描述 符。
法 ,置信 区间为 95%。
本研究采 用遗 传 一偏最小二 乘 (GA—PLS)方法 ,对余 下 2 计算结果及讨论
的分子描述符 进行 筛选 ,找 出与有 机物辛烷值最密切 相关 的 2.1 GA—PLS筛选结果
描述 符来表征有机物的结构特征 。筛选前 ,必须将样本 分为
定量结 构 一性质相关 (QSPR)方法 已被广泛 应用 于有机 物各类理化性质及生 物活性 的预 测研 究之 中【5J。化合 物 的 分子结构与其性质 密切 相关 ,QSPR是 通过 分子 结构参 数和
所研究性质 的实验数据之 间的 内在定量关系进行关 联 ,建立 分子结构参数和性 质之 间的关 系模 型【引。一旦建立 了可靠 的定量结构 一性质相 关模 型 ,仅 需要 分子的 结构信息 ,就可 以用它来预测新 的或尚未合成 的有机物 的性质 J。 1.1 实验样本来源
(1.
ofUrkm Construction& Engineering,No ̄ ing University ofTechnology Nanking 210009)
Abstract The relationships between chemical substance structure and properties a∞ investigated based on the quantitative structure—proper—
目前 ,通过 实验 测定 是获 取辛 烷值 的有 效方 法。Sasano 等[2-3]将 汽油分成 多个烃类 组 合 ,利用 色谱 分析 技术 ,发展 了可以计算 研究 法辛 烷 值 (R0l N)的经验 模 型。但是此 方法 需要消耗 大量 的时 间。R砌 adlIan【 J等 使用 核磁 共 振设 备并 结合 回归分析方法预测 了少 量芳香 族化 合物 的辛 烷值 。该 方法实验过程复杂 ,设 备 昂贵。 因此 ,开发 简便 可靠 的辛烷 值 预测模型来弥补实验的不足是 十分必要的 。 1 QSPR方法
表 明 方 程具 有 统 计 学 意义 。
从式 (1)中可以看 出 ,链 烷烃 马达法 辛烷 值与 、 呈
负相关 ,与 玛 、 、 呈正相 关性 。因此 ,MON随着分子 描
述 符 Jhe皿、S2K 的 增 大 而 减 小 ,随 着 MPC04、GA'rS4p、
RI)F.o60m的 增 大 而 增 大 。 表 2中的标准 回归 系数 ,可以以它的值 比较各 自变量对
(1.南京工业大学 城市建设 与安全工 程学 院 南京 210009; 2.中国科学技术大学火灾科学 国家重点 实验室 合肥 23(1026)
摘 要 基于定量结构 一性质相关(QsPR)原理 .研究化学物质的结构与性能之 间的关系 ,应 用遗传 一偏最小- ̄ (GA— P )方法从大量结构参数 中筛选 出与链 烷烃 马达法辛 烷值最相关 的 5个分 子描述符 ,采 用多元 线性 回归方法 ,建立 了根据 分子结构 预测链烷烃 马达法辛 烷值的数学模 型。结果表明 ,模 型具有较高的稳定性 以及预测能力 。为工程 上提 供了一种根 据分子结 构有效 预测链 烷烃马达法辛烷值的新方法。
子描述符 ,由于无法对导致 性质差别 的结构 差异 性进 行有效 序通过数学软件 MATLAB实 现 ,其 中部分参 数为 :种群 规模
表征 ,因此 被删除 ;其 次 ,对 于两者 之 间相关 系数 大于 0.97 30,最 大进 化代 数 2 000,突变概率 0.1。
的分子描述符 ,由于存 在共 线性 ,因此删 除其 中之一 。经过 1.4 预测模 型的建 立
运用 GA—PLS筛选 方法 ,确定 了 5个与链烷烃辛烷值最
两部分 ,一部分是训 练集 ,另 一部 分为 预测 集。GA—PLS程 为密切的分子描述符 ,见表 1。
表 1 GA—HS筛选 出的分子描述符
表 中, l, ,恐 均为拓扑描述符 ,主要描述分子 中原 子
的连接信 息。其 中 S2K用 于鉴 定分 子形状 ,当 S2K增 大 ,分 子的尺寸则 变小 。MPC04可用 于 定 量描 述 分 子 的复 杂性 。 丘 为 2D自相关描 述符 ,主要描 述 原 子的路 径 长度 。 属
于 RDF描述 符 ,它 主要描 述整 个分 子 中 的原子 空 间分 布信 息 ,除此之外它还与分子 中键 的距离 、环的类型 、平 面和非平 面体系及原子量等信息有关 。
2.2 MLR模型结果 将筛选 出最优的 5个分子描述符作 为输 入变量 ,运用多
元线性 回归方法建立链烷烃辛 烷值 预测模型 :
实测 值MON 图 1 模型实测值与预测值 的拟合关 系
本文采用内部验证方法(LOO)交互验证的复相关系数 qh,o 来验证模 型 的稳定 性 和 内部 预测 能 力。 同时 ,一个 成功 的 QSPR模型 ,必须 具有 良好 的外部预 测能力。因此 ,本文在对 训练集样本进行建模 和内部验证 的基础上 ,还应用所建模型 对未参 加训练 的 物质进 行 预 测 ,以验 证模 型 的外 部预 测能 力 。另外 ,均 方根 误差 (RMSE)和平 均 绝对误 差 ( 眦 )在本 研究 中也被 用来衡量 m 模型 的预测性能 。模型验证 的主 要性能参数见表 3。
将所有样本 的二维结构输人 Hyperchem7.0中 ,该软件可 将 2D结 构快速转 换为 3D结 构。为使所 有结 构达到稳定 的 构型 ,采用分子力学方法 以及半经验 方法对其进行优化 。 1.3 分子描述符的计算 和筛选
为 了寻求化合物性质 与其 分子结构之间的相关性 ,必须 计算 出反映化合物 分子结 构特征 和信 息的各种 描述符 。将 优化完 的分子结构输 入 Dragon软件 中 ,每个分子结构均得到 1 481种分子描述符 。为 了避 免 “机会 相关 ”现象 的发 生 ,应 预先对众多 的分子描述符进 行删减 ,以剔 除不能为模型提供 有用信息 的描述符 。首先 ,对所有样本来说数值为常数的分
formed to predict MON of pal丑伍ns based on the molecular stru ctures.The result shows that the model has good stability and prediction abili—
ty.This paper provides a n methodfor predicting MON 0fparafinsin engineering.
为 了进一 步验 证模 型 的稳 定 性 ,排 除所 建模 型存 在 的 “机会相关”现象 ,本文采 用 “Y—scrambling”l3J方法对 MI_R模 型进行验证 ,该方法将 因变量 Y随 机打乱 ,消 除因变量 和 自 变量之 间的内在 定量关 系 。随后 将重 新组 合的 自变量 和因 变 量进行建模 ,并对其 相关 性能参数如 0进行 计算 。重 复
因变量影响的程度。正负号表示影 响方 向,绝对值越 大影响
越大 。所以 ,从表 2中可 以看 出 5个描 述符 对 MON的影响
大小顺序为 S2K>MPC04>Jhetm>GATS4p>RDlC0 ̄m。
MLR模型 中各 自变量 的显 著性 概率 均小 于 0.05,说 明
自变量 和因变量之 间存在 显著的线性关 系。
关键词 链 烷烃 马达法辛烷值 定量结构 一性质相关性 遗传算法
Prediction of the Octane Number ofParaf 1]ns Based on M olecular Structure ZHU Xiao1 SLANG Juncheng1 PAN Yong1’ W ANG Rui
KeyWords p础 Ils MON QSPR genetic a1鲥 t}“
0 引 言 燃料的辛烷值是汽油最关键 的质量性能参数 ,也是衡量
发动机燃烧抗爆震程 度的一 个重 要指标 。汽车爆 震是 一种 不正常燃烧现象 ,会对发动机产生不利 的影 响。当发动机产 生连续爆震现象 ,容 易烧坏 气 门 ,熔 损火 花塞 、活 塞等 机件 , 严重时会炸穿气缸及发动机本 体。燃料辛烷值越 高 ,抗爆性 能越强 ,发动机 产生爆震 现象的几率越小 。同时提高燃料 的 辛烷值可降低汽油废 物排 放 ,减少环 境 污染 。因此 ,探 索汽 油组分 中烃类化合物 辛烷值 ,对 深入 理解爆 震燃 烧 的机理 , 进而预测和改善汽油抗爆性 能具有重要意义 …1。
筛选 ,共剩下 358个分子描述符 。
筛选 出最优 的描述 符 后 ,采 用 多元 线 性 回归 (MLR)方
QSPR工作 的关 键是 找 出合理 的分 子描 述符 。因此 ,模 法 ,关联链烷烃 辛 烷值 与描 述 符的 定量 关 系 ,建 立 QSPR模
型建立前 ,还需要用特征变量选择 方法从 358个分子 描述 符 型。本文 MLR分析采用 SPSS13.0软件 实现 ,使用 全 回归算
ty relationship(QSPR)studies.5 molecular descriptors,closely related to MON 0fpa ns,are selected from numerous molecular deserip— tots by genetic algorithm partial least squares(GA—PLS).Th e multivariate linear regression is enrployed to construct the model which is
QSPR模型 的质量 取决 于实 验数 据的有 效性 和精 确度 。 为 了确保样本 的标 准化 ,本研究全部 采用文献 【8]中 42种链 烷烃的马达法辛 烷 值为 实验 样本 ,其 中样本总 数 的 80%为 训练集 ,主要用于分子描 述符 的筛选 和预测模 型 的构 建 ;总 数 的 20%为预测集 。主要用于模型的外部验证。 1.2 三维结构 的建立 和优化
2011年第 37卷第 1O期
October 20l1
工 业 安 全 与 环保 Industrial Safety and Environmental Protection
· 27 ·
基 于分 子 结 构 的链 烷 烃 辛 烷值 预 测 研 究 *
朱 晓 蒋 军成 潘勇 , 王睿
MON= 一 38.836xl一 38.037x2+ 10.828x3+28.718x4+
6.490x5+237.273
ቤተ መጻሕፍቲ ባይዱ
(1)
n=34,R =0.978,F =249.289,SD=4.057,P<0.001
式 中 ,n为训 练集 样本 数 ,R 为 复相关 系数 ,|sD为标 准误 差 ,P为方 程显著性概率 。该模 型的显著 性概率 小于 O.o5,
随后 ,将所 建的 QSPR模型分 别对 训练 集和预 测集进行
预测 ,所得链烷烃马达法辛烷值见 图 1。
2.3 模型验证
模型验证是定量构效关系建模中非常重要的一个部分 9。
表 2 模 型 系数 检 验 结果
l20 lO0
否 80
吾60
鬣 40
20 O O 20 4O 6O 8O lOO l2O