化学信息学计算机化学
- 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
- 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
- 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
2006-2007化学信息学(计算机化学)学科发展报告
随着化学信息的大量积累及计算机与网络技术的飞速发展,“化学信息学”已成为化学学科的重要分支之一。尽管尚缺乏被广泛接受的严格定义,但其精髓可描述为“从数据到信息然后到知识”的说法已得到普遍认可,其具体研究内容包括:计算化学、分子模拟与设计、化学计量学、数据挖掘与知识发现及Internet的利用[16-1,2]。
(一)化学信息学在社会与经济可持续发展中的地位与重要性
门捷列夫可被认为是最早的化学信息学家,他通过对化学元素结构与性质的总结建立了化学元素周期表。近年来,化学信息学在功能材料与分子设计、产品质量评价与控制、环境检测与控制、生命与健康、疾病诊断、各类“组学”的数据挖掘、复杂体系分析、智能分析仪器及新产品开发等研究领域中均发挥了重要作用,为社会与经济的可持续发展奠定了理论与技术基础[16-3,4]。例如,虚拟筛选(VHTS)和定量构效关系(QSAR)等化学信息学技术的引入不仅明显缩短了新药研发周期而且大幅度降低了开发成本;“指纹图谱”的提出与应用为中草药的质量评价与控制提供了关键技术。
(二)近两年化学信息学的研究进展
化学信息学在理论化学、分子模拟与设计、化学计量学、数据挖掘以及Internet资源的利用等方面均取得了重要进展[16-5]。分子模拟研究为药物分子的筛选建立了快速的虚拟高通量筛选(VHTS)方法[16-6]、为药物的全新设计(de novo design)提供了研究方法和手段[16-7]、为蛋白质-配体之间的相互作用研究建立了新的计算方法[16-8]、为小分子化合物的ADME/Tox 及其它理化性质发展了理论预测方法[16-9]。理论化学计算与实验科学相互结合用于合成化学和材料设计,实验结果与计算结果得到了相互印证和补充[16-10,11]。分子动力学、Monte Carlo 模拟在化学、生物、材料等领域得到应用[16-12,13]。基于分子力学的优化方法被广泛关注,新的优化算法不断涌现[16-14]。为了扩展微观的分子力学与分子动力学方法的时空尺度,“粗粒化”力场的方法被重视和发展,多尺度的模拟方法被关注[16-15]。化学计量学在新方法和应用研究方面均取得了丰硕成果[16-16],小波变换[16-17]等方法为分析化学信号处理带来了新的手段,高维数据的解析方法为现代联用仪器的数据处理提供了理论和技术基础[16-18,19],多元校正为复杂体系的分析提供了实用技术[16-20],指纹图谱为中草药等产品的质量评价与控制提供了有效手段[16-21]。计算系统生物学(Computational Systems Biology)[16-22]是近几年发展起来的新的研究课题,组学数据管理系统(PRISM)[16-23]以及基于Matlab的系统生物学定标语言(SBML)[16-24]已被报道。作为新的计算技术,量子计算和DNA计算在近几年也取得重要进展。面向化学领域网络数据和计算资源共享工具的研究发展迅速,化学资源搜索引擎、数据集成及数据共享相关标准、数据与计算集成等得到了广泛关注[16-25]。
(三)我国化学信息学研究的地位与近期研究进展
近年来,我国的化学信息学研究得到了快速发展,在某些专题的研究方面达到了国际前
沿水平。表1列出了2000年以来某些研究专题的论文被Web of Science数据库的收录情况以及国内外论文数量的比较。可以看出,在近期比较热门的“新药研发”和相对比较传统的“计算化学”研究专题方面,我国的论文发表情况仍比较落后;在“QSAR/QSPR”及“化学计量学”研究方面,我国的论文发表数量名列第二,但与美国相比仍有一定差距;而在研究范围较窄的研究专题“小波分析”研究方面,我国的论文发表数量则处于领先地位。
表1 2000-2006年Web of Science数据库收录的论文发表情况及国内外论文篇数的比较
近年来,我国学者开展了MM/PBSA 、GB/SA、MM/SASW A及MM/PBSA等一系列方法研究,并对某些受体-配体之间结合自由能、蛋白质的水合自由能等进行了计算和预测,得到了与实验结果吻合的计算结果[16-26]。建立了生物利用度、溶解度、logP、p K a、caco-2穿透、肠吸收、血脑屏障穿透及化合物ADEMT性质预测[16-27]等多种模型,得到了良好的预测效果[16-28]。在QSAR/QSPR研究方面,通过引入投影寻踪新技术,找到了烷烃、烯烃和环烷烃色谱保留指数分布的内在结构关系和知识规律[16-29];通过正交投影技术对不同拓扑指数所表征的结构信息进行比较,为找到更好的结构描述子提供了理论基础[16-30];通过对模型评价、稳健方法、分类建模等方法的研究,得到了比PLS更优秀的建模方法[16-31]。化合物结构特征提取是QSAR/QSPR研究的基本步骤和重要环节,我国学者提出了“广义三角形法”、“广义二面角法”、“结构投影法”、“投影边界数学描述法”等一系列方法,得到了创新性的研究结果[16-32]。从量子化学和统计力学的原理出发,提出并建立了分子的亲水-亲脂势(HMLP),并用于蛋白质分子的折叠以及相互识别与作用等问题的研究[16-33]。粒子群算法的变量分区方法、逐步超球建模方法以及支持向量机技术等也在QSAR研究中得到应用[16-34,35]。此外,利用QSAR研究方法对新材料的物理化学性质与其原子结构参数、化学配方、加工工艺等的关系研究以及熔盐相图研究充分显示了化学信息学的应用潜力[16-36,37]。
基于蛋白质或基因的一级序列进行相似性比对、结构预测、功能预测以及编码区域或活性位点的识别是化学信息学与生物信息学的交叉研究内容。我国学者对PDB数据库中的蛋白质序列进行了邻位效应和不对称性分析、对人类基因组与病毒基因组序列的不相容性进行了分析;傅立叶功率谱、小波变换、时频分析、人工神经网络、支持向量机等方法也被用于
基因或蛋白质序列分析,得到了良好的结果,采用Delaunay三角算法、主成分分析方法等进行蛋白质的结构预测也进行了尝试[16-38,39]。
我国的化学计量学方法与应用研究处于国际前沿水平,近年来在高维数据的解析方面取得了突出成绩。提出了基于PSO(粒子群优化)的样品加权和波长加权PLS回归方法[16-40],显著改善了模型的准确性和预测能力。针对三维数据解析中存在的问题,发展了交替三线性分解(ATLD)算法,提出了交替惩罚三线性分解(APTLD)、交替不对称三线性分解(AA TLD)、交替拟合残差(AFR)等交替迭代算法以及三线性渐进因子分析法、顶点矢量顺序投影法等非迭代算法[16-41,42],为三维数据分析算法在化学中的应用注入了新的生机,实现了在现代分析化学中实际复杂体系的直接快速定量分析。此外,针对化学数据的特点,非负矩阵分解和投影图旋转法也得到了发展与应用,拓展了黑色体系分析的理论和方法[16-43]。小波变换是新兴的化学计量学方法,我国学者对其在化学领域中的应用研究方面做出了突出成绩,在Acc. Chem. Res.上发表了综述论文[16-44],出版了《Chemometrics: from basics to wavelet transform》专著[16-17]。近两年小波变换在分析信号的数据压缩、背景扣除与重叠信号分辨等方面的工作仍在继续[16-45],小波变换用于化学振荡信号分析,也得到了满意的结果[16-46]。多元校正是化学计量学的特色研究内容,为复杂体系的分析提供了有效工具。在多元校正的建模方法研究中,支持向量机(SVM)、局部建模及多模型建模等一系列新的建模方法被成功用于NIR光谱分析[16-47,48]。独立成分分析等新技术化学计量学方法与NIR技术结合对中药产品进行质量鉴定与控制得到了系统研究[16-49,50]。中药指纹图谱是目前国际公认的控制中药或天然药物质量的最有效手段。我国学者开展了复杂体系解析的化学计量学方法与指纹图谱分析技术相结合的基础研究,同时也进行了在中药、香精香料、代谢组学等领域的应用研究,为复杂体系的定性定量分析、中药等复杂体系的质量控制及在代谢组学中的应用提供了新思路和新方法[16-51]。
在计算化学和分子模拟(包括量化计算、分子动力学、Monte Carlo模拟、分子力学等)研究方面,我国学者越来越注重实际体系的计算与模拟[16-52~54]。分子动力学在生物大分子结构功能动态大规模模拟中的应用研究处于世界先进水平[16-55]。基于数据库遗传算法的靶标集中组合库构建方法发展及其在新药发现中的应用结果得到了国内外同行的高度关注[16-56]。建立了快速退火演化算法(FAEA)、自适应免疫优化算法(AIOA)、动态格点搜索(DLS)算法以及基于建模的优化算法等一系列新算法并在团簇的结构优化和主-客体系的模拟中得到应用[16-57,58]。此外,在用分子模拟方法揭示高分子链的缠结现象对聚合物结晶过程的影响,以及运用耗散粒子动力学方法探察材料表面拓扑结构图案对表面疏水性的影响等研究中取得了一些新的进展[16-59,60]。
化学信息的组织、管理与应用是化学信息学的核心研究内容之一,我国在化学数据库的研制和软件开发方面开展了大量工作,并逐步形成具有知识产权的产品,其中中国科学院上海有机化学研究所在化学结构数据库、化学谱图数据库以及化学信息管理方面的研究工作已获得初步成功[16-61,62]。在Internet资源的组织和利用方面,中国科学院过程工程研究所对所